Posted in

Mistral AI 新旗舰模型挑战 Llama 3.1!1230 亿参数性能直逼 GPT-4o_AI阅读总结 — 包阅AI

包阅导读总结

1.

关键词:Mistral AI、Mistral Large 2、Llama 3.1、GPT-4、模型性能

2.

总结:法国初创公司 Mistral AI 推出新旗舰模型 Mistral Large 2,拥有 1230 亿参数,性能接近 GPT-4 等,在多项测试中表现出色,重点控制“幻觉”,改进指令遵循和对话能力,可非商业使用。

3.

主要内容:

– Mistral AI 新模型发布:法国初创 AI 公司 Mistral AI 推出新一代旗舰模型 Mistral Large 2。

– 参数与性能:拥有 1230 亿参数,性能接近 GPT-4 等,在 MMLU 测试中准确率高达 84%,击败 Llama 3.1 70B。

– 能力与特色:

– 拥有 128k 上下文窗口,代码生成等功能更强大,多语言支持更优。

– 降低“幻觉”概率,输出更精准可信,无法回答时会承认。

– 指令遵循和对话能力大幅改进,生成答案简洁明了。

– 使用与许可:可通过 Mistral 平台非商业使用,商业应用需许可,可在 le Chat 上测试。

思维导图:

文章地址:https://mp.weixin.qq.com/s/RBsOWv-ZEauT219jFz_V2A

文章来源:mp.weixin.qq.com

作者:孟强

发布时间:2024/7/25 10:47

语言:中文

总字数:1804字

预计阅读时间:8分钟

评分:91分

标签:大语言模型,Mistral AI,性能优化,成本效益,多语言支持


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

Mistral AI新旗舰模型重磅发布:“幻觉”控制出色。
智东西7月25日消息,继Meta昨日推出开源Llama3.1模型之后,法国初创AI公司Mistral AI也加入了竞争行列,推出新一代旗舰模型Mistral Large 2。
该模型拥有1230亿参数,128k上下文窗口,可以在单个节点上以高吞吐量运行,支持包括中文在内的数10种语言、80多种编程语言,在多项基准测试中接近GPT-4o和Claude 3.5 Sonnet,预训练版本的多任务语言理解准确率高达84%,击败Llama 3.1 70B。
除了性能上的提升,Mistral AI还投入大量成本增强该模型的推理能力,训练的重点放在减少模型产生“幻觉”的概率,通过微调模型,使其在响应时更加谨慎和敏锐,提升模型输出的精准度和可信度。


Mistral Large 2拥有128k的上下文窗口,在代码生成、数学和推理方面比Mistral Large功能更强大,并提供更强大的多语言支持和高级函数调用功能,支持包括中文在内的10余种语言及Python、Java在内的80多种编码语言。
该模型拥有1230亿参数,与刚发布的Llama 3.1 405B的4050亿参数相比,参数数量偏少,但性能却在能接近后者,甚至在多项基准测试中表现接近GPT4-o和Claude 3.5 Sonnet。

▲Mistral Large 2与Llama 3.1 70B和Llama 3.1 405B在MMLU测试中的准确率对比

在MMLU(Massive Multi-task Language Understanding)测试中,Mistral Large 2的准确率击败Llama 3.1 70B。MMLU为大规模多任务语言理解测试,是一项综合评估,涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等方面。在此测试中,Mistral Large 2准确率高达84%,意味着该模型在多种任务和语言环境中都有出色的性能和广泛适应性。


Mistral AI表示,团队在训练过程中花费大量成本来增强Mistral Large 2的代码生成和推理能力。
在使用海量代码进行训练后,该模型的代码生成能力远超其前身Mistral Large,并且接近GPT-4o、Claude3 Opus和Llama 3 405B。

▲代码生成基准测试中Mistral Large 2与其他模型的性能和准确率对比

▲Mistral Large 2与其他模型在GSM8K(8-shot)和MATH(0-shot,no CoT)生成基准测试中的性能和准确率对比

在推理能力训练方面,Mistral Large 2的训练重点之一还在于尽量降低模型产生“幻觉”的概率。“幻觉”是AI系统,尤其是生成模型(如大语言模型)在生成内容时出现的虚假、错误或不准确的信息。经过微调后,Mistral Large 2在响应时更加谨慎和敏锐,确保提供的信息是可靠、准确的。
Mistral AI称,经过训练后,该模型能在自己无法找到解决方案,或没有足够自信能提供准确答案时,会承认无法回答该问题,而不是继续编造答案。
此外,Mistral AI还大幅改进了Mistral Large 2的指令遵循和对话能力。该模型在遵循精确指令和处理长时间多轮对话方面表现尤为出色。

▲Mistral Large 2与其他模型在通用对齐基准测试中的性能对比

同时,Mistral Large 2在生成答案时尽量保持简洁明了,以加快交互速度,增加该模型的成本效益。

▲Mistral Large 2与其他模型生成回答的平均长度对比

目前,Mistral Large 2可通过Mistral平台(la Plateforme)访问,在Mistral研究许可下,该模型可供非商业使用。商业应用需要Mistral的商业许可。此外,用户可以在le Chat上测试该模型,亲身体验其功能。


AI模型研发正以前所未有的速度推进,全球科技巨头以及新兴初创公司之间竞争激烈,模型研发方向已不是一味地追求神经网络的规模,Mistral Large 2的发布预示着一个潜在的趋势,即AI模型要在高性能和成本效益间找到平衡。
Mistral AI表示,Mistral Large 2是其在成本效益、生成速度和性能上的新尝试。在参数量1230亿的情况下,性能能接近4050亿的Llama 3.1 405B,同时能快速提供简洁、准确的回答。几天前,三个小模型(Mistral Nemo、GPT-4omini、SmolLM)的陆续发布也表示,并不是参数量越大就越好。将来,我们期待更多更具成本效益的模型出现,提高AI生成模型生态的多元化。
(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。