大模型日报（7 月 24 日资讯篇）_AI阅读总结 — 包阅AI

包阅导读总结

思维导图：

文章地址：https://mp.weixin.qq.com/s/WKa4kj3IzEUMSir3qVj5Yw

文章来源：mp.weixin.qq.com

作者：LLM??SPACE

发布时间：2024/7/24 13:52

语言：中文

总字数：2343字

预计阅读时间：10分钟

评分：87分

标签：大模型,AI技术,安全风险,多模态评估,微调技术

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

资讯

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

对着自己的老板扎克伯格破口大骂，甚至知道如何绕过屏蔽词。

设计危险病毒、如何黑掉Wifi也是张口就来。Llama 3.1 405B超越GPT-4o，开源大模型登顶了，副作用是危险也更多了。

不过也不全是坏事。Llama系列前几个版本一直因为过度安全防护，还一度饱受一些用户批评：

连一个Linux进程都不肯“杀死”，实用性太差了。

现在，3.1版本能力加强，也终于明白了此杀非彼杀。

GPT-4o mini登顶大模型竞技场，奥特曼：两个月内微调免费

GPT-4o mini迎来了“高光时刻”，成功登顶lmsys大模型竞技场，与满血版并列第一，并将Claude 3.5甩在了身后。大模型竞技场由用户自行出题，用脚投票，无法通过“刷题”走捷径，因此评估结果更加真实可靠。面对这一成绩，我们本来想保持矜持，但看到GPT-4o mini表现与满血版一样，而价格却只有1/20，内心难掩激动。网友对此表示OK，但更关心的是GPT-4o发布会上演示的“Her”何时上线。与此同时，OpenAI带来了另一个好消息，将逐步开放GPT-4o mini的微调功能，目前已对tier 4和tier 5用户开放，并将逐步扩展范围。从即日起至9月23日，每天都可免费使用200万训练token。经过上百万轮的1v1比拼，GPT-4o mini在lmsys榜单上与满血版仅差7分，平均胜率达0.6，仅次于满血版。

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？

近日，来自清华、北航、上交和瑞莱智慧的研究人员联合撰写百页长文，发布名为MultiTrust的综合基准，首次从多个维度和视角全面评估了主流多模态大模型的可信度，展示了其中多个潜在安全风险，启发多模态大模型的下一步发展。

复旦大学：没钱标数据的有福了！利用合成数据就能大幅提升大模型归纳推理能力

演绎推理从一般性的前提推导出具体结论，而归纳推理则从具体实例中提炼出一般性的规律。研究学者一直致力于增强大模型的推理能力，但大部分训练数据偏向演绎推理，导致归纳推理数据稀缺。这种不平衡让大模型在归纳推理上学习困难，缺乏有效的评估标准。复旦大学发起了Case2Code挑战，模拟现实工作场景，通过输入输出示例编写代码，并提出了一种获取大规模、多样化训练数据的方法，显著提升了小模型在Case2Code评估集上的准确率。

推特

Llama的质量和Groq的速度结合：Llama 3.1 8B，体验即时智能

你可以用Llama的质量和Groq的速度做什么？你可以实现“即时”。这就是答案。试试Llama 3.1 8B，在http://groq.com上体验即时智能。

https://x.com/JonathanRoss321/status/1815777714642858313

两台MacBook就足够了：Llama 3.1 405B在两台MacBook上分布运行

Llama 3.1 405B在两台MacBook上分布运行，使用@exolabs_ 的家庭AI集群。

https://x.com/ac_crypto/status/1815969489990869369

Corbitt分享：微调后Llama 3.1 8B在每个任务上都远超GPT-4o mini

大家，微调后的Llama 3.1 8B真的很强。我们刚刚通过微调测试套件进行了测试，它在每个任务上都远超GPT-4o mini。

https://x.com/corbtt/status/1815829444009025669

LlamaTutor：AI私人导师，能够使用最新的资源解释任何教育水平的任何学科

一个AI私人导师，能够使用最新的资源解释任何教育水平的任何学科。完全免费且开源。

https://x.com/nutlope/status/1815848064583938134

Runwayml分享Gen-3 Alpha模拟能力：一个从上方俯拍冷水倒入热煎锅的电影镜头

Gen-3 Alpha展示了几种模拟能力，包括生成动态镜头运动、复杂的流体运动以及物体之间的交互。随着我们不断扩展模型，我们预计会出现更多的模拟能力。要了解更多关于我们构建通用世界模型的长期研究工作，请访问：https://research.runwayml.com/introducing-general-world-models

https://x.com/runwayml/status/1816096185016357030

产品

Folk

Folk 是一款以人为本的客户关系管理（CRM）工具，希望帮助公司建立真实的客户关系，促进业务发展。它通过数据驱动的客户洞察、社交销售功能、个性化沟通和团队协作支持，帮助用户更有效地管理潜在客户并关闭交易。

https://www.folk.app/

HeyGen Labs

HeyGen Interactive Avatar 是一种基于人工智能的数字双胞胎技术，用户只需提供三分钟的视频素材即可创建一个与自己相似的虚拟形象。该头像可以全天候嵌入网站，为客户提供帮助，并且可以通过个性化训练，赋予特定的知识和个性，以满足用户的需求。

https://labs.heygen.com/guest/interactive-avatar/

投融资

瀚海聚能完成5000万元天使轮融资，推进核聚变商业化进程

核聚变公司瀚海聚能由项江创立，专注于开发场反位形直线型核聚变装置，避开了传统托卡马克的高成本与高难度问题。今年上半年，瀚海聚能完成了5000万元的天使轮融资，投资方包括华映资本、奇绩创坛、轻舟资本和厚实资本。融资将用于推进其直线型装置的物理及工程设计，这是公司迈向商业化发电的重要一步。核聚变商业化的目标预计在2035年前后实现。

公司官网：https://hhmax-energy.com/about/

— END —

分类