Posted in

无比顺滑!告别 TTS!贾扬清领衔的 Lepton AI 推出实时语音交互_AI阅读总结 — 包阅AI

包阅导读总结

1.

关键词:Lepton AI、贾扬清、实时语音交互、语音助手、技术创新

2.

总结:贾扬清领衔的 Lepton AI 宣布其 LLM API 支持实时语音交互,解决了传统语音助手响应慢的问题,通过技术创新实现文本和语音并行处理,能与开源 LLM 模型无缝对接,未来用户有望享受更顺滑的语音交互体验。

3.

主要内容:

– 传统语音助手存在响应慢的问题

– 把问题丢给 LLM,再经 TTS 处理,流程卡顿

– 分块和缓冲易出错,错误处理困难

– 长句分段处理协调难,导致音频乱套

– Lepton AI 的创新

– 支持实时语音交互,能秒回

– 不同音色可选,300 毫秒内开始回答

– 直接将 LLM 和 TTS 合二为一,文本和语音并行处理,减少延迟

– 引入高级机制,动态调整音频片段,保证对话连贯自然

– 技术的通用性

– 与开源的 Llama3.1 系列等 LLM 模型无缝对接

– 方便开发者创造个性高效的应用

思维导图:

文章地址:https://mp.weixin.qq.com/s/4mNd43wTiUbffSkRRAkYCA

文章来源:mp.weixin.qq.com

作者:谷雨龙泽

发布时间:2024/8/8 7:22

语言:中文

总字数:1383字

预计阅读时间:6分钟

评分:91分

标签:实时语音交互,Lepton AI,贾扬清,大语言模型,文本转语音


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

夕小瑶科技说 分享
作者 | 谷雨龙泽
事到如今,各种AI助手满天飞,语音功能也不是什么稀罕物了。

“明天早上会不会下雨?”“导航去火车站”“帮我预订××餐厅的桌子”

语音功能极大地解放了我们的双手,但是他们普遍都有一个问题——响应慢。

我们手机上的Siri、小爱同学,问它问题,他需要花费几秒钟时间去检索;包括GPT4,切换到语音输出模式,还是有不小的延迟。

这样一来就显得有些卡顿,等待AI回复的过程像是过了几千年,让人恨不得把脑袋伸进手机里让AI快点。

不过,这一问题目前已经有大佬找到了解决办法。贾扬清创办的Lepton AI刚刚宣布,Lepton LLM API已经支持实时语音交互了!

▲Lepton AI在推特上“官宣”

贾佬本人也第一时间分享了这条好消息。

真的有这么顺滑吗?

Lepton AI在网上放出了实机演示视频。

我们可以看到,向AI提问问题之后,AI立即进行回答,几乎是秒回,而且还有不同音色任君选择。

根据测试,他们已经能做到让AI在在三百毫秒之内开始回答问题。

AI语音助手的老路子不行了

AI语音助手的传统老路子一般是这样的:

把问题往LLM(大语言模型)里一丢,等它回话,再让TTS(文本转语音)上阵,这一连串动作,听起来挺顺,实则很卡。

在这种模式下,跟AI聊天还得等它反应,那感觉就像给朋友发微信,结果他秒回了个“正在输入……”,然后你就这么干等着,急不急人?传统方法就是这样,每个步骤都得排队,结果就是“首次音频时间”(TTFA) 拖长,对话流畅度直接打折。

再来说说分块和缓冲。这简直是工程师们的噩梦。为了快那么一点点,系统得把长句子切成小块小块的,到时候还得把它们像玩拼图一样拼起来。但这拼图可不是随便拼的,时间差一丁点,不是这边话音未落那边又响起来了,就是句子讲到一半突然卡了壳,尴尬得能抠出三室一厅。

还有错误处理也是个大坑。文本和语音本来天生一对,结果被硬生生拆散了。

这下好了,万一哪边出了岔子,找起原因来就像大海捞针,用户体验?先放一边凉快吧。

还有人想了个馊主意,把长句子拆成小段,一个个往TTS里送,想着这样能快点。结果呢?协调起来比登天还难,同步稍有不慎,就是音频乱套、停顿尴尬。说好的流畅对话呢?最后还是让人直呼“带不动”。

Lepton AI实时交互背后的技术密码

告别老掉牙的传统技术,Lepton AI带着它的语音模式技术闪亮登场。

Lepton AI直接把LLM和TTS合二为一了。传统系统里,文本和音频排队等处理;到了这里,文本和语音并行处理,速度嘎嘎快,首次音频时间(TTFA)直接缩水到十分之一,自然无比顺滑。

除了减少延迟外,Lepton AI还引入了用于简化和优化内容处理的高级机制,能根据对话内容动态调整音频片段。这样一来,对话不仅连贯,还超级自然,停顿、中断?不存在的!用户体验直接拉满!

有的读者可能会问了,“哎呀你这个技术这么厉害怎么调用啊?”不用担心,这技术还超级百搭,跟那些开源的LLM模型都私下里串通好了。比如Llama3.1系列,无论是8B、70B还是405B,都能跟Lepton AI的语音模式无缝对接。这意味着开发者们可以随心所欲地挑选心仪的模型,再搭配上Lepton AI的语音黑科技,创造出既个性又高效的应用,享受“私人订制”服务。

怎么样,是不是很神奇?相信用不了多长时间,我们就都能享受到无比顺滑的语音交互体验。到那个时候,AI助手才真的称得上是我们身边的贴心助理(7×24小时随叫随到的那种)!

参考资料

[1]https://blog.lepton.ai/voice-mode-comes-to-lepton-llm-apis-a5ff3db8c7bf
[2]https://twitter.com/jiayq/status/1820876489807872511
[3]https://twitter.com/yadong_xie
[4]https://x.com/LeptonAI/status/1820868523746312636