Posted in

「全球大模型竞技场」榜单更新:DeepSeek-V2 位列开源榜首_AI阅读总结 — 包阅AI

包阅导读总结

1. 关键词:DeepSeek-V2、开源模型、榜首、Chatbot Arena、AGI

2. 总结:2024 年 7 月 16 日,DeepSeek-V2-0628 在 LMSYS 组织的 Chatbot Arena 中超越众多开源模型位列榜首。它在分项排名和国内排名表现出色,6 月 28 日已上线 API 和网页端,价格有竞争力,模型权重已上传,能力全面提升。

3. 主要内容:

– 全球大模型竞技场榜单更新

– DeepSeek-V2-0628 荣登全球开源模型榜首,超越众多知名模型。

– Chatbot Arena 平台介绍

– 全球公认的权威大模型盲测平台,吸引众多顶尖模型参与。

– DeepSeek-V2-0628 的出色表现

– 分项排名中数学世界第七,长难问题和代码领域与 GPT-4 等处于同一水平。

– 在国内排名第二,竞争力强于 Qwen2-72B。

– DeepSeek-V2-0628 的相关信息

– 已于 6 月 28 日上线 API 和网页端,价格有优势。

– 相较于 0507 版本能力全面提升,模型权重已上传,持续开源。

思维导图:

文章地址:https://mp.weixin.qq.com/s/ZZQvD-n77vcX2jD3XfkOsg

文章来源:mp.weixin.qq.com

作者:深度求索

发布时间:2024/7/18 12:36

语言:中文

总字数:688字

预计阅读时间:3分钟

评分:89分

标签:大模型,开源,DeepSeek,人工智能,模型评估


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

美国时间 2024年7月16日,LMSYS 组织的大模型竞技场(Chatbot Arena)更新结果发布,DeepSeek-V2-0628 超越 Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B 等开源模型,荣登全球开源模型榜首

Chatbot Arena 是全球公认的权威大模型盲测平台,吸引了如 GPT-4、Claude、Llama、Gemini 等众多顶尖模型参与,更有 Yi-Large、Qwen、GLM等国内优秀模型同台竞技。测评方式采用人工盲测,评测者在不知晓模型名字和机构的情况下,让两个大模型回答同一个问题,选出更优质的回复。

世界级的长难问题解决能力

在Arena的分项排名中,DeepSeek-V2-0628 在各分项上也表现不俗:
  • 数学(Math)世界第七

其中,长难问题和代码领域与 GPT-4-Turbo-0409 和 Claude 3 Opus 处于同一水平。

国内模型的佼佼者

在Chatbot Arena 的国内参与者中,DeepSeek-V2-0628 同样名列前茅,排名国内所有模型第二位。与备受好评的 Qwen2-72B 开源模型相比,DeepSeek-V2-0628展现了更强的竞争力,排名高出 10 名。

值得一提的是,DeepSeek-V2-0628 已于 2024年6月28日上线 DeepSeek 的API 和网页端,价格极具竞争力。


V2-0628 更新日志

DeepSeek-V2-0628 相较于 0507 开源 Chat 版本,在代码数学推理、指令跟随、角色扮演、JSON Output 等方面能力全面提升。访问platform.deepseek.com,接入最新版本 V2-0628 API。

拥抱开源社区,共同探索AGI

DeepSeek-V2-0628 模型权重已经上传至:https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat-0628

相信我们,持续开源。我们共同的星辰大海是 AGI。