大模型日报（7 月 16 日学术篇）_AI阅读总结 — 包阅AI

包阅导读总结

思维导图：

文章地址：https://mp.weixin.qq.com/s/oRS121Z1H7mLDCAaR9aXaQ

文章来源：mp.weixin.qq.com

作者：LLM??SPACE

发布时间：2024/7/16 13:06

语言：中文

总字数：3061字

预计阅读时间：13分钟

评分：90分

标签：大语言模型,多模态模型,语言模型,Qwen2,音频处理

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

Qwen2技术报告

本报告介绍了Qwen2系列，这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一套全面的基础和指导调整的语言模型，包括参数范围从0.5亿到72亿，具有密集模型和专家混合模型。Qwen2超越了大多数先前的开放权重模型，包括其前身Qwen1.5，并在语言理解、生成、多语言能力、编码、数学和推理等多样化基准测试中表现出竞争力。

旗舰模型Qwen2-72B展示了出色的性能：在MMLU上为84.2，在GPQA上为37.9，在HumanEval上为64.6，在GSM8K上为89.5，在BBH上为82.4作为基础语言模型。经过指导调整的变体Qwen2-72B-Instruct，在MT-Bench上达到了9.1，在Arena-Hard上为48.1，在LiveCodeBench上为35.7。此外，Qwen2展示了强大的多语言能力，在大约30种语言中熟练，涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等，突显了其多功能性和全球覆盖范围。

为促进社区创新和可访问性，我们已在Hugging Face和ModelScope上公开提供了Qwen2模型权重，以及在GitHub上的示例代码等补充材料。这些平台还包括量化、微调和部署资源，促进各种应用和研究工作。

http://arxiv.org/abs/2407.10671v1

Qwen2-Audio 技术报告

我们介绍了Qwen-Audio的最新进展，一个名为Qwen2-Audio的大型音频语言模型，能够接受各种音频信号输入，并进行音频分析或直接对话处理。通过利用自然语言提示简化了预训练过程，拓展了数据量，提升了Qwen2-Audio的指令跟随能力，并实现了语音聊天和音频分析两种交互模式。通过评估结果显示，Qwen2-Audio在音频中心的指令跟随能力测试中表现优异。希望通过开源Qwen2-Audio推动多模态语言社区的发展。

http://arxiv.org/abs/2407.10759v1

竞技学习：通过模拟聊天机器人竞技场为LLM后期培训构建数据飞轮

评估大语言模型（LLMs）的有效性存在巨大挑战。在线Chatbot Arena中进行人工注释对抗是一种高效的评估技术，但受限于人工注释所需的成本和时间。本文介绍了一种创新的离线策略——Arena Learning，旨在使用基于AI的注释模拟这些对抗，评估对抗结果，从而通过监督微调和强化学习持续改进目标模型。Arena Learning包括两个关键元素。第一，通过WizardArena确保精准评估并保持离线模拟与在线比赛之间的一致性。第二，根据对抗结果和精炼模型不断改进训练数据。我们应用Arena Learning训练目标模型WizardLM-$\beta$，在各种指标上展现出显著的性能提升。该完全自动化的训练和评估流程奠定了后续对各种LLMs的持续进步的基础。值得注意的是，Arena Learning在WizardLM-2的成功中扮演了关键角色，本文既探讨了其效力，也为与WizardLM-2及其衍生品相关的未来讨论奠定了基础。

http://arxiv.org/abs/2407.10627v1

从自然反馈中学习

人类反馈数据是发展语言模型的关键组成部分。然而，收集这些反馈是昂贵的，最终不可扩展。我们提出了一种可扩展的方法，用于提取用户在与聊天模型交互时自然包含的反馈，并利用它进行模型训练。我们的动机进一步来源于先前的研究表明，使用自然生成的反馈（而不是自动生成的）也具有定量优势，如减少幻觉和偏见。我们手动注释了对话数据，验证了标准语料库中自然发生的反馈存在，并发现高达30%的聊天包含明确的反馈。我们将方法应用于超过100万个对话，获得数十万个反馈样本。训练提取的反馈表现出明显的性能提升，显示了我们方法在增强模型与人类偏好之间的对齐性方面的功效。

http://arxiv.org/abs/2407.10944v1

Transformer中的加权分组查询注意力

注意力机制是Transformer语言模型的基础模块。最近的方法表明，扩展模型可以实现人类水平的性能。然而，随着对扩展的需求增加和硬件内存的限制，这些模型的推理成本仍然很高。为了减少推理时间，在Shazeer等人（2019年）和Ainslie等人（2023年）分别提出了多查询注意力（MQA）和分组查询注意力（GQA）。本文提出了分组查询注意力的一种变体，称为加权分组查询注意力（WGQA）。我们为T5解码器注意力块中的每个关键和值头引入了新的可学习参数，使模型能够在微调期间采用加权平均值。我们的模型在GQA上取得了平均0.53％的改进，并且性能在推理期间没有额外开销的情况下收敛到传统的多头注意力（MHA）。我们评估了这些参数的引入及随后的微调如何在训练期间通知模型有关分组机制，从而增强性能。此外，我们通过比较T5-small和T5-base架构之间的结果，展示了我们分析中的扩展规律。

http://arxiv.org/abs/2407.10855v1

基础自动评估者：驯服大语言模型以实现更好的自动评估

随着大型语言模型（LLMs）的发展，由于人力评估的高成本，可靠评估它们的输出变得更具挑战性。为了在更好的LLM评分模型上取得进展，我们介绍了FLAMe，一个基础大型评分模型系列。FLAMe经过训练，在我们的100多项质量评估任务中显著提高了对各种保留任务的泛化能力，优于像GPT-4和Claude-3等专有数据训练的LLMs。我们展示了FLAMe还可作为进一步下游微调的强大起点，以奖励建模评估为案例研究。总的来说，我们的FLAMe变体在8项12个评定者评估基准测试中表现优异。

http://arxiv.org/abs/2407.10817v1

NoviCode：基于编程新手的指令生成程序

当前的文本到代码模型展示出了生成可执行代码的能力。然而，当前的研究集中在技术指令和面向程序员的语言，有个问题是这些模型能否有效地将非技术用户提供的自然语言描述翻译，并表达复杂目标，转化为包含API访问和控制结构（如循环、条件和序列）的可执行程序中。为解锁从简单的非技术描述生成完整程序的挑战，我们提出了NoviCode，一个新颖的自然语言编程任务，输入为API和新手非程序员提供的自然语言描述，输出为可执行程序。为评估模型在此任务上的有效性，我们提供了一个新的基准测试，并根据程序的功能执行而不是形式来评估生成的代码。我们的实验表明，NoviCode在代码合成领域确实是一个具有挑战性的任务，从非技术指令生成复杂代码超越了当前文本到代码范式。其次，我们展示了一种新的方法，通过将NL话语与代码的分层结构对齐，与端到端文本到代码对应物相比大大提高了LLM在此任务上的性能。

http://arxiv.org/abs/2407.10626v1

llm-graph-builder

该应用程序旨在将非结构化数据（如 PDF、文档、文本、YouTube 视频和网页等）转换为存储在 Neo4j 中的知识图谱。它利用大型语言模型（如 OpenAI 和 Gemini）的强大功能从文本中提取节点、关系及其属性，并使用 Langchain 框架创建结构化知识图谱。

https://github.com/neo4j-labs/llm-graph-builder

baml

BAML 是一种领域特定语言（DSL），用于编写和测试大语言模型（LLM）函数。它可以帮助开发人员更快地编写和测试复杂的 LLM 函数，并提供类型验证、流式输出、实时提示预览等功能。BAML 还提供了一个观察平台 Boundary Studio，用于可视化和跟踪 LLM 函数的执行情况。

https://github.com/BoundaryML/baml

— END —

分类