大模型日报（8 月 8 日学术篇）_AI阅读总结 — 包阅AI

包阅导读总结

1. 大模型、学术、定理证明、语言模型、多模态

2. 本文涵盖了 8 月 8 日学术方面的大模型相关信息，包括神经定理证明的 miniCTX 、指令调整的大语言模型 EXAONE 3.0 、高效预训练的 1.5-Pints 、集成破解的 EnJa 以及多模态的 LLaVA-OneVision 。

– 学习miniCTX

– 介绍了用于证明需要新信息的数学定理的测试模型miniCTX

– 引入基线file-tuning，其在标准基准测试中提高性能

– 提供ntp-toolkit用于提取和注释定理证明数据

– EXAONE 3.0 7.8B 指令调整的大语言模型

– LG AI Research开发并公开7.8B instruction-tuned模型

– 在指令跟踪等方面表现出色，尤其在韩语方面

– 模型可获取的网址

– 1.5-Pints技术报告

– 提出高效预训练语言模型1.5-Pints，9天胜过先进模型

– 精心策划预训练数据集，采用特定架构和训练方法

– 表明注重数据质量可减少训练时间和资源，开源以促进发展

– EnJa: 大型语言模型上的集成破解

– 介绍集成提示级和标记级破解的概念和新颖的EnJa攻击

– 评估其对多个已对齐模型的有效性

– LLaVA-OneVision

– 新型开源大型多模态模型

– 在多种计算机视觉应用场景表现出色，具跨场景迁移学习能力

思维导图：

文章地址：https://mp.weixin.qq.com/s/SHR2T4Fyq1gHZn_X07IBSg

文章来源：mp.weixin.qq.com

作者：LLM??SPACE

发布时间：2024/8/8 13:16

语言：中文

总字数：1944字

预计阅读时间：8分钟

评分：82分

标签：大语言模型,神经定理证明,指令调整,预训练优化,模型安全性

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

miniCTX：使用（长）背景进行神经定理证明

我们介绍了miniCTX，该测试模型证明需要新定义、引理或其他上下文信息的形式数学定理的能力，这些信息在训练过程中没有观察到。miniCTX包含了从真实Lean项目和教科书中获取的定理，每个定理都与可能跨越成千上万个token的上下文相关联。模型的任务是在访问定理存储库中的代码的情况下证明一个定理，该存储库包含有利或需要证明的上下文。作为miniCTX的基线，我们引入了file-tuning，一个简单的配方，用于训练模型生成基于前一个文件内容的证明步骤。与仅在状态上进行微调的传统神经定理证明方法相比，文件调整大大优于。此外，我们的文件调整模型在标准miniF2F基准测试中提高了性能，实现了33.61%的通过率，这是1.3B参数模型的最新技术水平。除了miniCTX，我们还提供ntp-toolkit，用于自动提取和注释定理证明数据，使得很容易将新项目添加到miniCTX中，以确保在训练过程中不会看到上下文。miniCTX为评估神经定理证明器提供了具有挑战性和现实主义的视角。

http://arxiv.org/abs/2408.03350v1

EXAONE 3.0 7.8B 指令调整的大语言模型

我们介绍了LG AI Research开发的大语言模型（LLMs）家族中的第一个开放模型EXAONE 3.0 instruction-tuned language model。我们公开发布了7.8B instruction-tuned模型，以促进开放研究和创新。通过对各种公共和内部基准测试的广泛评估，EXAONE 3.0在指令跟踪能力上表现出高度竞争力，与其他类似规模的最新开放模型相比。我们的比较分析显示，EXAONE 3.0在韩语方面表现出色，同时在一般任务和复杂推理方面实现了引人注目的性能。凭借其强大的实用性和双语能力，我们希望EXAONE继续为专家人工智能的进步做出贡献。我们的EXAONE 3.0 instruction-tuned模型可在https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct获取。

http://arxiv.org/abs/2408.03541v1

1.5-Pints技术报告：几天内的预训练，而非几个月 — 你的语言模型在优质数据上蓬勃发展

本文提出了一种高效的计算方法来预先训练一种语言模型——“1.5-Pints”，仅用时9天，在作为指导性助手方面胜过最先进的模型。基于MT-Bench（一个模拟人类判断的基准），1.5-Pints胜过了苹果的OpenELM和微软的Phi。通过精心策划的预训练数据集，包含了570亿个token，并使用自动化工作流程和人工审查相结合。数据集的选择重点放在了被认为是解释性和“教科书般”的内容上，以帮助模型进行推理和逻辑推断，最终使其作为强大而多功能的AI模型。在模型架构方面，我们采用了修改后的Mistral tokenizer，以及用于更广泛兼容性的Llama-2 架构。在训练方面，我们采用了StableLM、TinyLlama和Huggingface Zephyr使用的方法。1.5-Pints模型表明，通过专注于LLM训练中数据质量而不是数量，我们可以显著减少所需的训练时间和资源。我们相信这种方法不仅将使预训练更具有可访问性，而且还将减少我们的碳足迹。我们的研究发现和资源是开源的，旨在促进该领域的进一步发展。1.5-Pints模型有两个版本：2K和16K上下文窗口。

http://arxiv.org/abs/2408.03506v1

EnJa: 大型语言模型上的集成破解

摘要：随着大语言模型（LLMs）越来越多地被部署在安全关键应用中，它们对潜在破解的脆弱性 – 恶意提示可能会使LLMs的安全机制失效 -引起了越来越多的研究关注。本文介绍了集成提示级和标记级破解的概念，提出了一种新颖的EnJa攻击，以隐藏有害指令并提高攻击成功率，通过模板连接器将两种破解攻击相连，评估了EnJa对多个已对齐模型的有效性，并表明它实现了最先进的攻击成功率，查询更少，比任何单独的破解都更加强大。

http://arxiv.org/abs/2408.03603v1

LLaVA-OneVision

LLaVA-OneVision是一种新型开源大型多模态模型，能同时在单个图像、多图像和视频等多种计算机视觉应用场景中取得出色表现，并具有跨场景迁移学习能力。此模型展示了广泛的新兴能力,如视频理解、关联图像和视频理解、理解图表和表格、执行iPhone屏幕截图交互等。

https://llava-vl.github.io/blog/2024-08-05-llava-onevision/

— END —

分类