Posted in

智谱 AI 张鹏:「清影」和 Sora 有不少差距,我们在用自己的方式往前追_AI阅读总结 — 包阅AI

包阅导读总结

1. 关键词:智谱清影、视频生成、Sora、差距、追赶

2. 总结:7 月 26 日智谱 AI 发布视频生成产品智谱清影,可免费使用,支持多种生成方式,虽与 Sora 有差距,但在努力追赶,同时探讨了其商业模式、技术、数据来源等问题。

3. 主要内容:

– 智谱清影发布及特点

– 7 月 26 日发布,官网及移动端上线,用户无需预约,免费不限次使用

– 30 秒生成 6 秒视频,支持文生视频、图生视频、视频生成视频

– API 同步上线大模型开放平台

– 清影的优势与服务

– 在某些类型和风格表现突出,有提示词 bot

– 提供视频一站式创作服务

– 与 Sora 的差距及追赶

– 承认差距,努力降低算力成本,提升响应速度

– 商业模式相关

– 现阶段商业化早期,尝试收费,根据市场和用户反馈调整

– 技术与数据

– 参考 Sora 算法设计,模型不断迭代,自研端到端视频理解模型

– 数据来源包括公开数据集和合作伙伴

– 对行业影响及世界模型

– 对影视行业有积极意义,暂无法取代长视频拍摄

– 对世界模型的看法与 OpenAI 相近,跨模态重要

– 应用落地

– 定位为 AI 助手,往实际效用方向走,倡导人机协同

思维导图:

文章地址:https://mp.weixin.qq.com/s/Zw_u49kQMfOs2N_q6FNkuA

文章来源:mp.weixin.qq.com

作者:Founder??Park

发布时间:2024/7/26 12:31

语言:中文

总字数:4595字

预计阅读时间:19分钟

评分:89分

标签:AI视频生成,智谱AI,张鹏,视频生成模型,商业化策略


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

7 月 26 日,智谱 AI 发布自家的视频生成产品——智谱清影(Ying),发布即全面上线官网及移动端,所有用户无需预约都能使用,免费用户不限次数使用。提交 prompt 30 秒后就能生成 6 秒时长,1440×960 分辨率的视频。
除了文生视频,智谱清影还支持图生视频、视频生成视频。清影(Ying)API 也同步上线大模型开放平台 bigmodel.cn,开发者通过调用 API 的方式,体验和使用文生视频以及图生视频的模型能力。
我们从来很坦诚我们和 OpenAI,和世界顶级水平之间的差距。但还得走着自己的路,不断用自己的方式往前追赶,想新方法,比如怎么把视频生成算力成本降下来,响应速度提升上去,让所有人可以用。」发布会上,对于清影和 Sora 的差距,智谱 AI CEO 张鹏是这么说的。
此外,发布会上张鹏还回答了清影商业模式、视频生成 AI 技术、视频模型的数据来源等问题,Founder Park 对其中的一些问答进行了整理


01

提供视频的一站式创作

从目前简单试用的情况来看,清影在以下类型和风格上表现突出:
  • 类型:在风景、动物、超现实、人文历史类需求上表现更好

提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。

清影同时还推出了一款清影提示词 bot,输入简单场景便可以获取更加匹配 AI 的提示词。
这样看来,清言有着创作者一站式服务,从选题材料(AI 搜索),到文案脚本,再到图片、视频创作,甚至推广文案,一个智能体都能搞定。
除了文本生成视频,清影还上线了图片生成视频功能,包括表情包梗图、广告制作、剧情创作、短视频创作等。

在生成式视频模型的研发中,Scaling Law 继续在算法和数据两方面发挥作用。
「我们积极在模型层面探索更高效的 scaling 方式。」在智谱 Open Day 上,智谱 AI CEO 张鹏表示:「随着算法、数据不断迭代,相信 Scaling Law 将继续发挥强有力作用。清影底座的视频生成模型是 CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了 Sora 的算法设计,它也是一个 DiT 架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。我们将继续努力迭代,在后续版本中,陆续推出更高分辨率、更长时长的生成视频功能。」
这也使得清影在复杂指令遵从能力、内容连贯性、大幅的画面调度上具有一定的独到之处。
通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。理论上,模型侧生成 6 秒视频仅需 30 秒时间。
另外,智谱自研了一个端到端视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述。这样增强了模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂 prompt 指令。

02

和 Sora 的差距还很大,

但自己的路也得走

记者:OpenAI 的 Sora 还没有开放给公众使用,智谱先开放了,在视频算力成本较高的情况下,智谱是怎么考虑的?
张鹏:首先,今天的清影还是一个初步的阶段性成果,达不到像 Sora 演示出来的那么好、那么长的视频,还需要更多的努力。我们从来很坦诚我们和 OpenAI,和世界顶级水平之间的差距。但还得走着自己的路,不断用自己的方式往前追赶,想新方法,比如怎么把视频生成算力成本降下来,响应速度提升上去,让所有人可以用。
所以我们是在追求技术高度的同时,也同步追求技术的可普及性和成本,这也是团队的一些特点。
张鹏:这个只有在大家用起来以后,才能进行统计和计算。
记者:清影后续商业化的策略是什么,偏向于ToC 还是ToB,商业化打算怎么做?
张鹏:清影(Ying)的上线,主要是阶段性成果,要说它多么完美,还不是,还需要阶段性解决,主要是给大家汇报一下进展,让大家体验一下目前视频生成在人人可用的前提下能做到什么程度,而不是关在实验室里或者在很小的概率上生成出什么东西。
从现在这个阶段来说,无论是 ToC 还是 ToB,纯粹走向大规模商业化还比较早期。目前所谓收费策略更多是一种比较早期的尝试。生成视频的成本是非常高的,稍稍收回来一点点也是比较好的事。后期看市场和用户的反馈,会根据大家的反馈进行调整。说实话我们也不知道商业化策略未来会怎么样走或者什么样的形式最好,也许大家喜欢这样,也许不喜欢这样。
记者:年初您提到今年在落地产业上的布局包括 B 端、C 端和多模态。想知道公司在基座大模型用户端和多模态各个领域是怎样的分配?营收、技术侧这种平衡问题上,有哪些新的考虑吗?
张鹏:做大模型这件事太烧钱了,所以我们是分层次去做。最基础的是技术突破创新,商业化层面在技术基础之上推进,但商业化还是根源于你的技术创新和驱动来做,我们不太希望说研究是一张皮,服务是另外一张皮,我们希望是贯通的。
商业化过程中,服务是以我们的技术和产品为核心驱动的,客户需求和反馈是技术往前创新突破和迈进的驱动力,让两者形成比较好的闭环,这是我们努力做的事情。
记者:快手可灵之前有视频用户的基础,同类产品是用了代币方式收费。我们推出视频的生成产品,未来是作为模型矩阵中的一部分,还是说希望它能够独立形成商业闭环?
张鹏:首先,视频是多模态或者 AGI 多模态路径当中的一环,并不能孤立来看视频生成,而是要放到整个技术和产品发展路线当中。
不过,从产品角度来讲,只要市场有需求,作为一个公司就应该做商业化的事情,会单独作为一个单独的产品去商业化落地。
记者:现在市场上有单做视频模型的、快手这样专门的视频公司,以及模型厂商,比如 OpenAI。这么多产品,区别在哪里?
张鹏:我们做大模型这件事的最终目标是想要实现 AGI 的目标,本质上在于如何对现实世界里的信号、数据进行提炼、压缩、学习。语言是密度最高的,而且是人机交互当中非常重要的环节,相对来说比较容易。
做视频模型这件事,我们是从 2021 年开始布局的。语言模型转去做多模态模型的初衷,是我们已经先有一个抽象、宏观层面的能力,对世界的建模和理解。把它从上到下降维到视觉信号。传统视频厂商或者纯粹做视觉的公司转去做模型,他们可能就是从下而上,是另外一个路径,沿着视觉信号这个路线做这件事的。
这两个事情大家追求的是同一个真理,只是走不同的路而已。
记者:清影(Ying)当下有没有种子用户画像和重点关注的场景?有没有专门为特定用户群做更多的优化?
张鹏:目前需求比较旺盛的有线上电商营销、媒体需求等等,包括社交上的短视频自媒体等。但是我相信肯定不止于这些客户。目前是一个阶段性的东西,下一步往哪个方向发展,也是技术突破和落地应用最关键的问题。计划等后面看哪些需求比较集中,针对性地做一些优化。我们有很多项目,但不可能全部做,会集中在真正解决问题的路径上。
记者:现在模型都是 DiT 架构,智谱在这方面有没有一些创新?
张鹏:架构是 DiT+Tansformer,大家知道 Sora 也是这种方案,我们也是采用这种方案,但是因为技术细节上的不透明,很多地方需要自己摸索。大模型纯算法本身只占其中一部分,还有大量系统工程的技术,是比较复杂的事情。目前虽然指令遵从能力非常强,但是当输入细节非常多的时候,还会遗漏一些细节。遵从能力和可控性上还是要持续提高。另外,做视频生成真的非常依赖于数据,文字数据我们可能积累了很多年。视频数据是这几年的事情,而且难度更高。
我们用的视频训练数据来源有两个。一是公开数据集,另外是合作伙伴。华策、央视向我们提供了一些训练数据。除了高质量的视频以外,还需要对应的字幕、文字、描述等等,这些要求也非常高。对 AI 来说,和我们一般的观众所感受到的高质量和低质量略微不同,质量维度有视频的解析度、风格、分进、组合、连续性等等。综合起来的要求是非常高的,并不是在短视频网站随便抓一个视频就能训练。
数据本身的清洗、挑选、筛选这件事也是一件很重要的过程,对技术也有要求。你会发现,在帧和帧之间,或者说整个动态展示之间有些细节还是会产生闪烁和跳变情况,其中一个原因就是数据不够的问题。
记者:文生视频技术对影视行业有什么影响?清影和华策影视都有合作,会不会出现AI取代长视频拍摄的手段?
张鹏:这个问题从 Sora 出现以后一直在讨论,在国外已经引起了很大的影响,包括好莱坞罢工等。大家肯定已经意识到这件事对传统影视行业的影响。包括 华策和央视,甚至有一次我去北影和老师们也在聊这件事。
我个人觉得,从宏观来讲,大家对这件事的看法是比较一致的。大家认为技术发展是很好的事情,对影视行业的变化有积极意义。但目前来讲,如果把它用在直接面向最终观众的生产过程中可能不太够。但用来做一些辅助的工作是可以的,甚至是一些小规模的创作。专业玩家做出来的短片可能还是 OK 的,不过真正要达到改变电影的制作可能还有一段路要走。
另外,除了电影,也有别的需求在,像是广告短片、演示视频、创意概念表达这些,时间紧急的时候,AI 可以快速实现。对细节要求没有那么严苛时,产品能够帮助你快速降低成本和周期。
记者:Sora 作为视频生成模型发布时,还提出来一个世界模型的概念,智谱对世界模型怎么看?
张鹏:我们的观点和 OpenAI 比较相近。人对世界的认知,除了语言以外,视觉、听觉、嗅觉各种各样的感官是综合在一起的。
为什么人类看似学习的速度、效率没有计算机那么快,但是人的智能比计算机高,或者说现在的 AI 高呢?
就是在于人类大脑的学习过程远比现在的更复杂,不同模态之间信号的互相验证和交叉,知识的渗透效率会更高。这个过程需要研究很多的问题。世界模型的路径上,跨模态是非常重要的事情,可能还有其他的事情需要做,一步一步来吧。
记者:OpenAI今天发了AI搜索产品,今年国内外 AI 的应用迭代速度都比较快。从智谱的角度来说,智谱清言怎么能够更好把Super APP 做出来,解决它的应用落地问题?
张鹏:这是个思路问题,跟我们对 AI 如何赋能个人和企业的理念有关系。我们把超级 APP 定位成 AI 助手。助手是帮你解决工作学习生活当中的实际问题,帮你做生产力提效,学习效率提升,工作便利提升等等事情。所以我们的所有事情都是往实际效用方向走,可能你会觉得它不是那么好玩,不那么像娱乐工具一样吸引你。
我们是循序渐进的,在潜移默化过程中让大家真的爱上使用,习惯使用这个工具,这也是一个很好的事情。从时间维度来说,过去这半年多时间,大家的使用习惯已经改变了非常多,只不过没有那种一觉醒来全然改变的感觉。这是人感知上的误差。
我们很期待在这样的时代通过这样的效率工具,不知不觉改变人们的生活状态。AI+应用与你的生活工作融合在一起的感觉,这是我们倡导的人机协同的发展方向。
张鹏:不太好预估,现在都是基于现状做出的预测。与其不断预测这件事,还不如踏踏实实一点一点做这件事。

转载原创文章请添加微信:founderparker