Posted in

15 个国产模型联合起来,终于打败了 GPT4o_AI阅读总结 — 包阅AI

包阅导读总结

1. 关键词:AI 路由模型、国产模型、GPT4、能力图谱、应用场景

2. 总结:文章探讨了 AI 路由模型,指出不同模型各有所长,15 个国产模型联合的路由模型在某些领域战胜了 GPT4,还提到了模型的能力图谱及适用的应用场景,强调大模型公司应合作突破而非内卷。

3. 主要内容:

– 人们难以选择最好的大模型,作者做了可根据模型特长选择的插件

– 介绍了 AI 路由模型,Not Diamond 公司已做出,能自动选模型回答

– 指出路由模型并非适用所有场景

– 展示各家模型的特色图谱,预训练数据不同导致特长不同

– 360 做出中国版 AI 路由模型,15 家国产模型联合在部分领域打败 GPT4

– 通用场景适合混合大模型,应用开发者做垂直业务需选适合模型

– 强调大模型公司应共同努力突破,而非内卷,目标是让 AI 全民普惠

思维导图:

文章地址:https://mp.weixin.qq.com/s/8M5pkb43hhjEfVd5LpOahQ

文章来源:mp.weixin.qq.com

作者:orangesai

发布时间:2024/8/2 2:00

语言:中文

总字数:1308字

预计阅读时间:6分钟

评分:90分

标签:AI模型,国产技术,模型路由,技术比较,应用场景


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

引子

一直以来,被问的最多的问题是:现在的大模型越来越多,都不会选了,你能不能告诉我哪个模型最好?

这个问题真的很难回答,因为每家模型都有自己特别擅长的领域,有的擅长对话、有的擅长情感、有的擅长写作、有的擅长代码。

所以我做了个小插件叫 AI Home Tab,在问不同领域问题的时候,根据每个模型的特长,去选择模型,也可以一键全开,同时问5个模型。

不过这样也有个小问题,就是大部分人并不了解每个模型的特长。

于是就有了一个大胆的想法,如果有一个路由模型,能根据问题选出最好的模型,岂不是很棒!

AI 路由模型

刚有了路由模型的想法,就发现有人做出来了。

前两天在 Product Hunt 上,有家叫 Not Diamond 的公司放出了他们的 AI 路由模型。

这个模型可以根据用户的提问,自动选择擅长的模型,并进行回答。

这个模型在每一个指标上都达到了最佳水平,效果超越了 GPT4o。

而且这套组合拳的价格却只要 4o 的 70%。

看起来这是一套可能的方案,又便宜又好用。

但是仔细想想,这套路由方案并不适合所有的场景。

有的产品以角色陪伴为主,每次聊天都换模型反而会OOC,造成负面效果。

有的产品功能比较专注,比如日记类的产品,那只用一个模型的效果就可以了,多了反而没必要。

真正需要 AI 路由模型的大场景,其实还是通用场景,比如 AI 搜索。

各家模型的特色图谱

这是昨天参加 ISC 看到的一个大模型测试对比图谱。

相比各种刷总分的榜单,这个基于能力维度的大模型测试图谱要实用的多。

从这个图可以看出,各家模型的技能点都非常有特色。

有的擅长写作、有的擅长诗词、有的擅长逻辑推理。

还有的擅长弱智吧。。。(你们都有光明的未来

产生这个结果的根源是,各家的预训练数据不同,好数据出好模型,不同领域的数据出不同领域的模型。

既然每个能力图谱下,都有最擅长的模型,那如果训练一个能识别用户问题的路由模型,再根据识别出来的能力去选择模型,那结果会怎样?

15家模型联合起来,终于打败了4o

就在 Not Diamond 发布后的2天,360也把这个 AI 路由模型中国版做出来了。

用测试集跑完,4o 得了 69 分,这个混合大模型评分 80,稳稳地赢了。

这是 4o 和混合大模型的能力图谱:

从能力图谱可以看到,国产模型赢的领域主要是:

诗词赏析、比一比、以及…弱智吧。

而在代码辅助方面,还是差了那么一丢丢。

考虑到15家的显卡加起来可能都没有OpenAI多,能这样打赢也是来之不易。

应用开发者真正需要的排行榜

AI 搜索、AI 助理、AI 僚机这样的通用场景,非常适合使用混合大模型。

但是大部分应用开发者做的事情还是相对垂直的。

毕竟大场景永远是大厂的机会。

而在小的地方,才充满了无限的可能。

  • 哪个模型适合做情感陪伴?

  • 哪个模型适合做心理咨询?

  • 哪个模型适合做总结摘要?

  • 哪个模型适合做数理逻辑?

如果有人能把意图识别模型开放出来,再结合具体的业务场景跑一些评测。

每个应用都可以用这种方式作为参考,选出适合自己的模型。

大模型的竞争

昨天印象最深的画面,其实是这张15家模型代表在台上一起开启合作的合影。

现在模型越来越多,各有特色。

大模型公司之间也应该一起努力突破技术边界,而不是彼此内卷。

毕竟,

真正的竞争对手在远方

共同目标是让 AI 全民普惠

全文完,如果喜欢请点赞、转发、收藏三连。

我们,下次再见。

作者:橘子汽水铺

约稿:请在公众号发送消息注明来意