包阅导读总结

关键词：Cartesia、AI语音、大模型、效率、交互性

总结：本文是对 Cartesia 联合创始人的访谈，介绍了其高效文字转语音引擎 Sonic，探讨了状态空间模型的优势、大模型 to C 商业落地的挑战，还提到了公司在模型创新、应用领域探索、未来规划及团队情况等方面的内容。

主要内容：

– 初创 Cartesia 推出高效音频生成系统 Sonic

– 应用于游戏领域，助力玩家实时互动

– 致力于提升语音生成 Agent 性能，降低延迟

– 状态空间模型带来新机遇

– 能快速传输和处理数据，处理信息稀疏数据有优势

– 为文本生成语音等领域打开新可能

– 大模型 to C 商业落地挑战

– 效率和互动性成为第二轮浪潮焦点

– Cartesia 致力于研发高效自然交互产品

– 模型创新与应用

– 开发 S4 和 Mamba 等革命性模型，超越 Transformer 架构

– 应用于 DNA 建模等新领域

– 未来展望

– 优化 Sonic，扩展语言支持和增强可控性

– 探索音频和文本交互能力，将其带到个人设备

– 团队情况

– 15 名全职员工和 8 名实习生，积极招聘扩大模型团队

思维导图：

文章地址：https://mp.weixin.qq.com/s/-KCFD0h43J-YRDmFf71lSQ

文章来源：mp.weixin.qq.com

作者：NoPriors

发布时间：2024/7/27 3:25

语言：中文

总字数：4356字

预计阅读时间：18分钟

评分：88分

标签：AI 语音技术,大模型应用,状态空间模型,实时互动,多模态应用

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

图片来源：NoPriors

Z Highlights:

Sonic高效文字转语音引擎横空出世：初创Cartesia现推出高效音频生成系统Sonic，应用领域包括帮助游戏玩家进行实时互动。未来Cartesia将继续提升语音生成Agent的性能，提供低延迟的语音生成服务。

状态空间模型为高效数据处理带来新机遇：Cartesia联合创始人Karan认为状态空间模型（SSM）能快速地传输和处理数据，不断更新这种内存的特性在处理信息稀疏的数据时显示出极大的优势。打开了诸如文本生成语音等领域的新可能性。

大模型toC商业落地挑战：大模型发展到第二轮浪潮，Albert认为效率和互动性已成为焦点。在Cartesia, 他们致力于研发能够高效与用户自然交互的产品，以此打动市场。

开发一系列革命性模型的初创Cartesia

主持人: 欢迎回到NoPriors，今天我们有幸与Cartesia联合创始人Karan和Albert对话。他们开发了S4和Mamba等革命性模型，引领了一场超越传统Transformers架构的创新。今天我们将深入了解他们的公司和相关话题。Karan、Albert，欢迎你们。

Karan & Albert: 谢谢，我们很高兴来到这里。

主持人: Karan，能否介绍下Cartesia的产品以及人们现在如何使用它？

Karan: 当然。我们的Sonic是一个高效的文字转语音引擎。特别在游戏领域，我们看到人们对于给角色和NPC提供支持表现出极大的兴趣。我们梦想打造一个能够让数百万玩家即时互动并与模型交互的游戏。另外，我们也专注于语音Agent领域的低延迟需求，目前已将延迟减少了150毫秒，计划今年再减少600毫秒。

Albert: 我们愿意分享我们的背景和Cartesia的起源。Karan，你能从你们的研究旅程开始吗？

Karan: 当然。Albert和我都是斯坦福的同一研究小组出身。我的博士研究主要围绕序列建模。我在DeepMind的实习期间开始对非Transformers的循环模型产生兴趣。后来，Albert和我一起在Cloud S4模型上合作，这种模型显示出状态空间模型在某些应用中的高效性。最近我提出了Mamba模型，它表现出色，引起了广泛关注。我们持续探索这些模型在各种应用中的可能性。我个人最近还在CMU开始担任教授，继续从事相关的学术研究。

我在印度长大，家中都是工程师。本想成为医生，但后来转向工程学。我在印度理工学院开始我的学术之旅，后来进入斯坦福。起初我从事强化学习，但在斯坦福，我开始与Chris Ray合作，逐渐转向其他研究方向。后来，我开始与Albert一起推进S4项目，帮助他在NeuroIPS的忙碌中取得进展。

超越Transformer

图片来源：Mamba: Linear-Time Sequence Modeling with Selective State Spaces

主持人: 能详细介绍一下你们的模型与基于Transformer的架构的不同之处以及其应用领域吗？

Karan: 我们的模型起源于我在2019年实习时的工作，它基于传统的循环网络，认为这是进行序列建模的一种基本方式。这些模型如同大脑一样，将所有信息编码到一个压缩状态中，随着新信息的到来进行更新。我们的初步研究表明，这种类型的模型特别擅长处理原始波形和像素等感知信号，但在文本建模方面略逊于Transformers。新模型如Mamba，在与Transformers相同的数据类型上表现更优，但也存在一些折衷。我们认为没有完美的解决方案，模型的效果取决于数据类型和处理方式。

主持人: 您如何看待效率或比较架构的其他维度？

Albert: 是的，目前我们主要讨论了归纳偏见和数据适配性，但我们同样关心的是效率。Transformers长期以来一直面临着二次方扩展的问题，而我们的替代方案能实现线性扩展，即处理每个新Token的时间是固定的。这在处理大量数据时显得尤为重要。然而，这就像没有免费的午餐，Transformer在建模方面表现得更好，但运行时间更长。我们认为状态空间模型像一个模糊的压缩器，在这里完成大部分处理是有益的，但同时它也可以从精确的检索或缓存中受益，这正是Transformer的工作方式。Transformer基本上记住了它所处理的每一个Token，这使得它能够回顾所有信息，虽然这导致处理速度减慢，但可能非常有用。

主持人: 有没有特定的领域，您看到这些混合方法的初步应用？

Albert: 实际上，我们的合作者最近开始将基于Mamba的模型应用于DNA建模。这种基础模型的概念被应用到了DNA上，这是一种全新的尝试。他们正在预训练一个模型来处理长DNA序列，然后在下游对DNA本身编码蛋白质和RNA等特定分子形状进行微调或使用。这是一个很大的问题集，我对所有细节并不熟悉。

模型效率与多模态应用

主持人: 你们公司最初真正开始关注的领域之一是文本到语音，这个研究方向是如何引导你们的？

Albert: 我们之前主要在学术环境中展示这些模型的多功能性。我们确信它们在许多有趣的领域都会有用，因此我们认为音频是一个自然而然的首选，特别是因为我们讨论的一些好处，如更快的推理速度。我们认为这将是一个很酷的首个应用，Karan可能能详细说明更多。

Karan: 是的，这些模型的通用性非常引人注目。选择最具影响力和长期价值的应用领域是一个挑战。显然，DNA是一个有趣的领域，但如果我们对它有极高的热情，我们就会去做DNA研究。对我来说，多模态数据领域最吸引人，SSM（ZP注：状态空间模型）在处理信息稀疏的数据时显示出最大的优势。你可以快速地传输和处理数据，不断更新这种内存。在音频方面，我们看到了很多商业应用的可能性，无论是作为语音Agent还是在游戏等领域，实现与系统的自然互动都非常重要。实时处理对信号和传感器数据至关重要，音频和视频在这方面极为重要。音频是我们的一个自然起点，因为我在博士期间确实在这方面做了一些研究，现在出现的许多音频应用需求正好适合这些模型。我们也在尝试将模型高效化，使其能够在更小的设备上运行，推动推理更接近设备，而不是仅限于数据中心。这将是一个巨大的变革。

主持人: 最近苹果发布会提到的设备上运行的模型包含30亿参数，这显然需要专注于模型的小型化。

Albert: 是的，这就像是第一波公司的浪潮，当时的问题是我们能否做出有趣的事情来，而第二波浪潮总是关于效率。这也是计算领域的情况，我们的手机如今能完成许多强大的任务。对于模型而言，我们希望拥有最聪明的模型，并且以非常经济的方式运行，这样我们就可以频繁运行而不是只运行一次。这些3B参数模型虽然小且能力有限，但问题在于如何让这些模型的能力极佳同时又占用很少的设备空间，这正是我们努力的方向。

主持人: 在过去几年中，我们一直在研究的技术现在已具备巨大潜力，可能成为处理工作的默认方式。面对Transformers的挑战，比如在Mac上运行一个7B的LLM可能会发现Token生成速度下降，内存上升，这显然是个问题。我认为，未来我们将看到智能技术的无处不在，我们需要思考如何实现这一点，这正是我们感到兴奋的地方。

Albert: 是的，我同意。如果我们假设模型能在现有硬件上运行，我们将看到全新的应用出现。在数据中心我们已经看到了这种变化的迹象。假设成本可以降低，并优先考虑质量，我们可以实现在不同的设备上运行这些模型而无需担心成本和计算负担。这将改变我们使用智能计算的方式，使得更多应用成为可能，比如在设备上运行个人音乐模型，无需连接云端。

主持人: Cartesia最近推出了它的文本到语音产品，性能上非常出色，迅速推出了高效的解决方案。能否分享更多关于这次发布和产品的细节？

Albert: 是的，这对我们来说是一个自然的过渡。我们已经做了大量前期准备，现在正是时候将技术投入使用。我们在公司内部构建了通用的模型，以高效执行任务，例如音频生成。我们的目标是建立一个高效实时的音频生成系统，我们已经构建了一个强大的模型和训练堆栈。当我们展示Sonic时，我们想要证明我们的技术能提供真正有趣的体验。尽管在文本到语音系统中已有数十年的改进，但这个领域仍有很大的发展空间。

图片来源：Unsplash

Albert: 从互动性来看，如果我不愿意与一个系统交谈超过30秒，那么它还未完全解决问题。很多文本到语音系统还缺乏让人感觉在与人交谈的参与感。对于语音生成来说，情感控制非常重要，因为你想控制说话的方式。此外，语音在体现社会角色时具有细微差别，例如不同职业的人说话方式不同，这是现有模型尚未很好捕捉的。对于语音到文本系统，即使基础词汇的识别和发音也需要模型对语言有深入的理解。因此，我们不仅要构建单一模态的模型，而是需要发展多模态模型，即使是为了完善单一模态的表现。这是我们目前工作的重点之一。

Cartesia未来展望

主持人: 接下来你们有何计划？是否继续专注于Sonic和音频领域，还是计划探索其他模态？

Albert: 我们对Sonic的发展非常兴奋，因为它展示了我们可以实现的低延迟、高效率的模型。我们将继续优化这一方面，扩展支持的语言，并增强系统的可控性。我们还计划将Sonic带到设备上，实现在个人设备上的实时运行，这将是一个非常酷的进步。此外，我们也在探索音频和文本的交互能力，希望通过更深层的语言理解来提升系统的性能。

主持人: 在与这个系统对话时，它能够智能地回应你，并进行数据和上下文推理。Sonic模型在响应输出方面表现如何？输入方面，如何处理原生音频并将其融入模型？

Albert: 是的，我们已经开发出一套技术，有效地实现了这些功能。关于构建一个多模态模型的最终目标是让它在设备上运行得非常流畅，让其成本非常低，同时专注于提高音频质量。我们期望从SSM中获得前所未有的保真度和质量。

主持人: 这听起来很棒。当前，使用语言模型的文本到语音应用中，额外的延迟成了一个挑战。多模态能显著缩短推理时间，对此你们有何看法？

Albert: 是的，延迟确实是个大问题。协调多个模型增加了很多开销，把一个科学问题变成了一个复杂的工程问题。这种情况感觉不够优雅。

主持人: 也许这就是我们试图消除的那些不优雅的部分。理想中，未来所有系统都会简化为单一模型。接下来我很期待看到你的演示。

Albert: 我有一个演示，将展示我们的文本到语音模型Sonic在云端的表现，并探讨如何将其应用到更接近设备和边缘的场景中，比如笔记本电脑。让我来运行演示，展示它的实时性能。这展示了我们如何在笔记本电脑上运行模型，未来我们还希望将其应用到更小的设备上。我现在就按回车。这个模型的运行速度非常快，这也是让我兴奋的一部分。我愿意每天早上都与这个系统对话，它能成为启发我的工具。

主持人: 你的团队现在有多大？

Albert: 我们有15名全职员工和8名实习生。我们正在积极招聘，尤其是希望扩大我们的模型团队。我们为有兴趣加入我们、对这项技术和应用案例感兴趣的人提供了很多令人兴奋的研究和开发机会。

原视频：No Priors Ep. 70 | With Cartesia Co-Founders Karan Goel & Albert Gu https://www.youtube.com/watch?v=neQbqOhp8w0

———–END———–

分类

深度｜对话 AI 语音革命者 Cartesia：大模型 to C 应用效率为王，高效与交互性产品才能打动市场_AI阅读总结 — 包阅AI