包阅导读总结

关键词：Lepton AI、贾扬清、实时语音交互、语音助手、技术创新

总结：贾扬清领衔的 Lepton AI 宣布其 LLM API 支持实时语音交互，解决了传统语音助手响应慢的问题，通过技术创新实现文本和语音并行处理，能与开源 LLM 模型无缝对接，未来用户有望享受更顺滑的语音交互体验。

主要内容：

– 传统语音助手存在响应慢的问题

– 把问题丢给 LLM，再经 TTS 处理，流程卡顿

– 分块和缓冲易出错，错误处理困难

– 长句分段处理协调难，导致音频乱套

– Lepton AI 的创新

– 支持实时语音交互，能秒回

– 不同音色可选，300 毫秒内开始回答

– 直接将 LLM 和 TTS 合二为一，文本和语音并行处理，减少延迟

– 引入高级机制，动态调整音频片段，保证对话连贯自然

– 技术的通用性

– 与开源的 Llama3.1 系列等 LLM 模型无缝对接

– 方便开发者创造个性高效的应用

思维导图：

文章地址：https://mp.weixin.qq.com/s/4mNd43wTiUbffSkRRAkYCA

文章来源：mp.weixin.qq.com

作者：谷雨龙泽

发布时间：2024/8/8 7:22

语言：中文

总字数：1383字

预计阅读时间：6分钟

评分：91分

标签：实时语音交互,Lepton AI,贾扬清,大语言模型,文本转语音

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

夕小瑶科技说分享
作者 | 谷雨龙泽
事到如今，各种AI助手满天飞，语音功能也不是什么稀罕物了。

“明天早上会不会下雨？”“导航去火车站”“帮我预订××餐厅的桌子”

语音功能极大地解放了我们的双手，但是他们普遍都有一个问题——响应慢。

我们手机上的Siri、小爱同学，问它问题，他需要花费几秒钟时间去检索；包括GPT4，切换到语音输出模式，还是有不小的延迟。

这样一来就显得有些卡顿，等待AI回复的过程像是过了几千年，让人恨不得把脑袋伸进手机里让AI快点。

不过，这一问题目前已经有大佬找到了解决办法。贾扬清创办的Lepton AI刚刚宣布，Lepton LLM API已经支持实时语音交互了！

贾佬本人也第一时间分享了这条好消息。

真的有这么顺滑吗？

Lepton AI在网上放出了实机演示视频。

我们可以看到，向AI提问问题之后，AI立即进行回答，几乎是秒回，而且还有不同音色任君选择。

根据测试，他们已经能做到让AI在在三百毫秒之内开始回答问题。

AI语音助手的老路子不行了

AI语音助手的传统老路子一般是这样的：

把问题往LLM（大语言模型）里一丢，等它回话，再让TTS（文本转语音）上阵，这一连串动作，听起来挺顺，实则很卡。

在这种模式下，跟AI聊天还得等它反应，那感觉就像给朋友发微信，结果他秒回了个“正在输入……”，然后你就这么干等着，急不急人？传统方法就是这样，每个步骤都得排队，结果就是“首次音频时间”（TTFA）拖长，对话流畅度直接打折。

再来说说分块和缓冲。这简直是工程师们的噩梦。为了快那么一点点，系统得把长句子切成小块小块的，到时候还得把它们像玩拼图一样拼起来。但这拼图可不是随便拼的，时间差一丁点，不是这边话音未落那边又响起来了，就是句子讲到一半突然卡了壳，尴尬得能抠出三室一厅。

还有错误处理也是个大坑。文本和语音本来天生一对，结果被硬生生拆散了。

这下好了，万一哪边出了岔子，找起原因来就像大海捞针，用户体验？先放一边凉快吧。

还有人想了个馊主意，把长句子拆成小段，一个个往TTS里送，想着这样能快点。结果呢？协调起来比登天还难，同步稍有不慎，就是音频乱套、停顿尴尬。说好的流畅对话呢？最后还是让人直呼“带不动”。

Lepton AI实时交互背后的技术密码

告别老掉牙的传统技术，Lepton AI带着它的语音模式技术闪亮登场。

Lepton AI直接把LLM和TTS合二为一了。传统系统里，文本和音频排队等处理；到了这里，文本和语音并行处理，速度嘎嘎快，首次音频时间（TTFA）直接缩水到十分之一，自然无比顺滑。

除了减少延迟外，Lepton AI还引入了用于简化和优化内容处理的高级机制，能根据对话内容动态调整音频片段。这样一来，对话不仅连贯，还超级自然，停顿、中断？不存在的！用户体验直接拉满！

有的读者可能会问了，“哎呀你这个技术这么厉害怎么调用啊？”不用担心，这技术还超级百搭，跟那些开源的LLM模型都私下里串通好了。比如Llama3.1系列，无论是8B、70B还是405B，都能跟Lepton AI的语音模式无缝对接。这意味着开发者们可以随心所欲地挑选心仪的模型，再搭配上Lepton AI的语音黑科技，创造出既个性又高效的应用，享受“私人订制”服务。

怎么样，是不是很神奇？相信用不了多长时间，我们就都能享受到无比顺滑的语音交互体验。到那个时候，AI助手才真的称得上是我们身边的贴心助理（7×24小时随叫随到的那种）！

参考资料

[1]https://blog.lepton.ai/voice-mode-comes-to-lepton-llm-apis-a5ff3db8c7bf
[2]https://twitter.com/jiayq/status/1820876489807872511
[3]https://twitter.com/yadong_xie
[4]https://x.com/LeptonAI/status/1820868523746312636

分类

无比顺滑！告别 TTS！贾扬清领衔的 Lepton AI 推出实时语音交互_AI阅读总结 — 包阅AI

以下为原文内容

真的有这么顺滑吗？

AI语音助手的老路子不行了

Lepton AI实时交互背后的技术密码

参考资料