Posted in

英伟达最强劲敌 Groq 一招绝杀 GPU,反超 GPT-4o mini2 倍,AI 大佬 Karpathy:直接飞升 AGI!_AI阅读总结 — 包阅AI

包阅导读总结

1. 关键词:Groq、Llama 3.1、LPU、推理速度、AGI

2. 总结:Meta 发布的 Llama 3.1 开源模型引发关注,英伟达劲敌 Groq 利用 LPU 提升其速度,比 GPU 更高效且省电,在推理方面表现出色,受到广泛欢迎。

3. 主要内容:

– Groq 是英伟达的强劲对手,其 CEO 为乔纳森·罗斯

– Meta 发布 Llama 3.1 405B 开源模型,引发不同评价

– Groq 为 Llama 3.1 模型提供超级速度,包括多种版本

– 网友对 Groq + Llama 3.1 的速度感到惊讶,小扎和罗斯发表相关评价

– Groq 的推理速度惊人,每秒可处理 1200 多个令牌

– Groq 开源炒股机器人 StockBot,速度比 GPT-4o Mini 快两倍多

– Groq 推出 8B 和 70B 版本的 Llama 3 Groq Tool Use 型号,在基准测试中名列前茅

– Groq 自推出 16 周内免费为 LLM 工作负载提供服务,受开发人员欢迎

– Groq 摒弃 GPU 采用专有硬件 LPU,在推理时速度约为 GPU 的 10 倍,更省电,专为加速深度学习计算打造,旨在克服 LLM 计算密度和内存带宽瓶颈,优先考虑数据顺序处理

思维导图:

文章地址:https://mp.weixin.qq.com/s/ZHEzAxfZ9nfUUtP8sXzopQ

文章来源:mp.weixin.qq.com

作者:51CTO技术栈

发布时间:2024/7/26 4:30

语言:中文

总字数:2197字

预计阅读时间:9分钟

评分:87分

标签:Groq,LPU,推理速度,AGI,人工智能硬件


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

cover_image

英伟达最强劲敌Groq一招绝杀GPU,反超GPT-4o mini2倍,AI大佬Karpathy:直接飞升AGI!

51CTO技术栈

Llama 3.1 405B被吐槽太笨重?

英伟达对手AI新星Groq一招绝杀:上LPU直接速度翻倍,直接让Llama 3.1飞升AGI!

Meta 最新发布的 Llama 3.1 405B 的开源让AI圈不平静了!

追捧者感慨”GPT-4o的能力已握在手中”,而批评者反驳说,大体量消耗这么多算力,有些结果跑得还不如GPT-4o mini,太失望了!

不过, Meta与英伟达劲敌Groq 的联手直接让速度问题从此消失了!

Groq 利用自己的超级速度向社区提供最新的 Llama 3.1 模型,包括 405B Instruct、70B Instruct 和 8B Instruct。

网友试完后惊讶地说:我的天啊,@GroqInc + @AIatMeta Llama 3.1 405b,我们问出的问题获得了实时的答案,真的做到了!!!


看了这个视频展示,不得不感叹Groq + Llama 3.1的速度太猛了!

小扎对这场令人惊叹的合作表示,“真的很高兴看到 Groq 为 Llama 3.1 模型的云部署提供超低延迟推理……通过向社区提供我们的模型和工具,Groq 这样的公司可以在我们的工作基础上再接再厉,帮助推动整个生态系统向前发展”。

Groq首席执行官乔纳森-罗斯(Jonathan Ross)说:”Meta正在为人工智能开发一个类似于Linux的开放操作系统——不仅仅是为提供快速人工智能推理的Groq LPU,而是为整个生态系统。”

他补充说,Meta已经赶上了领先的专有模型,超越闭源模型只是时间问题。
前OpenAI研究员、AI大佬Andrej Karpathy称赞Groq的推理速度说:”这太酷了。这感觉就像 AGI——你只需与电脑对话,它就能立即完成任务。


在过去的几个月里,Groq 以其比竞争对手更快、更经济高效地执行人工智能任务的承诺而备受关注。这要归功于它的语言处理单元(LPU),由于其线性操作,在执行这些任务时比 GPU 更有效率。虽然 GPU 对模型训练至关重要,但部署中的人工智能应用(称为 “推理”)需要更高的效率和更低的延迟。

由于试玩者的热情涌入,GroqCloud 负责人Sunny Madra在X上宣布Llama 3.1 405b体验暂时关闭了。

他写道,看到 Groq 上对 Llama 3.1 的需求和兴奋程度令人难以置信!我们被公众对 405b 的需求所淹没,很抱歉你们中的许多人经历了漫长的排队时间。我们将暂时关闭405b,直到我们能够增加容量并确保增加容量并提供更高水平的服务。


速度称王:Groq+ Llama 3-70B

是GPT-4o mini两倍快

“Groq的速度快得惊人,目前每秒可处理1200多个令牌。”

Groq甚至开源了一款快如闪电的炒股机器人。

Groq的人工智能应用工程师 Benjamin Klieger 介绍说:”StockBot——一个由 Groq 上的 Llama 3-70B 支持的快如闪电的开源人工智能聊天机器人,可提供实时股票图表、财务信息、新闻和筛选器。


StockBot运行起来的速度是这样的:


根据 Artificial Analysis 的报告,在比较不同供应商提供的Llama 3 70B(一种人工智能模型)的性能时,GPT-4o Mini的速度明显快于大多数供应商。然而,Groq公司提供的Llama 70B模型,每秒能输出约340个输出令牌(tokens),这比GPT-4o Mini快了两倍多。


Groq 项目负责人 Rick Lamers 最近发布了 8B 和 70B 版本的 Llama 3 Groq Tool Use 型号。


他在 X 上分享说,这些模型是开源的,并针对工具使用进行了全面微调,在 BFCL 基准测试中名列前茅,超越了所有其他模型,包括 Claude Sonnet 3、GPT-4 Turbo、GPT-4o 和 Gemini 1.5 等专有模型。5、GPT-4 Turbo、GPT-4o 和 Gemini 1.5 Pro 等专有型号。


感兴趣的朋友可以移步抱抱脸:
https://huggingface.co/Groq/Llama-3-Groq-8B-Tool-Use
自推出以来的 16 周内,Groq 免费提供了为 LLM 工作负载提供支持的服务,因此得到了开发人员的广泛欢迎,据 Ross 称,目前已有超过 28.2 万名开发人员。

“Groq的使用非常简单,而且不需要任何费用。你只需使用我们的应用程序接口(API),我们与大多数已开发的应用程序都兼容,”罗斯说。他补充说,如果客户有大规模需求,每秒要生成数百万个令牌,公司可以为客户部署内部硬件。

抛弃GPU,Groq神秘的LPU

——不仅快还省电

Groq由罗斯于2016年创立,其与众不同之处在于摒弃了GPU,转而使用其专有硬件LPU。

在加入Groq之前,罗斯曾在谷歌工作,创建了张量处理单元(TPU)。他负责设计和实现原始 TPU 芯片的核心元件,该芯片在谷歌的人工智能工作(包括 AlphaGo 竞赛)中发挥了关键作用。

LPU 仅用于运行 LLM,而不是训练它们。罗斯说:”在推理或实际运行模型时,LPU的速度大约是GPU的10倍,”他补充说,在训练LLM时,那是GPU的任务。

当被问及这种速度的目的时,罗斯说:”人类不喜欢这样阅读,就像老式电传打字机打印出来的东西一样。眼睛扫描页面的速度非常快,几乎在一瞬间就能判断出是否得到了想要的东西。”

Groq 的 LPU 对英伟达、AMD 和英特尔等传统 GPU 制造商构成了巨大挑战。Groq专门为加速深度学习计算而打造了张量流处理器,而不是为人工智能修改通用处理器。

LPU旨在克服两个LLM瓶颈:计算密度和内存带宽。就 LLM 而言,LPU 的计算能力大于 GPU 和 CPU。这就减少了每个单词的计算时间,从而可以更快地生成文本序列。

此外,由于消除了外部内存瓶颈,LPU 推理引擎在 LLM 上的性能比 GPU 高出数个数量级。LPU 的设计优先考虑数据的顺序处理,这是语言任务所固有的。这与 GPU 形成鲜明对比,后者针对图形渲染等并行处理任务进行了优化。”

Ross说:”在生成第99个字之前,你无法生成第100个字,因此它们有一个顺序部分,而GPU根本无法做到这一点。

此外,他还补充说,GPU是出了名的耗电大户,每个芯片所需的电量往往相当于普通家庭的电量。”他说:”LPU 的耗电量仅为 GPU 的十分之一。
参考链接:
https://analyticsindiamag.com/ai-origins-evolution/groq-makes-llama-3-1-agi/

预览时标签不可点
修改于

微信扫一扫
关注该公众号

继续滑动看下一个
51CTO技术栈
向上滑动看下一个
    知道了
    微信扫一扫
    使用小程序
    取消允许

    视频小程序,轻点两下取消赞在看,轻点两下取消在看分享留言收藏