包阅导读总结
1. 关键词:智谱 AI、视频生成大模型、清影、多模态、Scaling Law
2. 总结:
今年是“视频生成”大模型爆发元年,智谱 AI 发布视频生成大模型“清影”,面向用户开放,支持文生视频与图生视频。清影研发得到北京市支持,有多种付费方案和 API 开放,B站 等参与研发,其在速度和效果上仍有提升空间,技术上有创新和特点。
3. 主要内容:
– 视频生成大模型发展现状
– 今年是爆发元年,上半年公司聚焦单一功能,下半年大语言模型公司将入场。
– 智谱 AI 清影
– 直接面向用户开放,支持文生视频与图生视频。
– 生成速度业内较快,但效果仍有提升空间。
– 有多种付费方案,API 同步上线开放平台。
– 清影的技术特点
– 底座模型是 CogVideoX,采用 DiT 架构。
– 具有内容连贯性、可控性等技术特点。
– 自研相关结构和模块。
– 研发与支持
– 得到北京市大力支持,海淀区提供全方位支持,亦庄提供算力。
– B 站等参与技术研发和模型共建。
– 多模态大模型探索
– 智谱多模态研究可追溯到 2021 年,验证了 Scaling Law 有效性,未来将继续探索突破。
思维导图:
文章地址:https://mp.weixin.qq.com/s/OOIIAFRR43pYGgKygM7QHA
文章来源:mp.weixin.qq.com
作者:赵健
发布时间:2024/7/26 4:21
语言:中文
总字数:3195字
预计阅读时间:13分钟
评分:91分
标签:视频生成,大模型,智谱AI,多模态,商业化策略
以下为原文内容
本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com
作者|赵健
今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI、爱诗科技Pixverse、Runway Gen-3等等视频大模型的你追我赶。
但上半年的视频生成大模型公司,往往只聚焦在视频生成这一个功能。
而下半年,大语言模型公司将逐渐跟随OpenAI的脚步,纷纷入场视频大模型,把语言模型与视频模型做大一统。
在备受瞩目的“大模型六小强”中,动作最快的是智谱AI。
今天上午,这家清华系大模型独角兽上线视频生成大模型产品“清影”,直接面向所有用户开放,支持文生视频与图生视频。
在智谱清言PC或App里输入一段文字或图片后(即Prompt),用户可以选择自己想要生成的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满AI想象力的视频片段;此外,“AI动态照片小程序”支持图生视频。
对于现在视频大模型领域的格局,张鹏认为大概也会像大语言模型一般,进入百家争鸣的格局。
在商业化策略上,清影目前的付费方案是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。智谱AI CEO张鹏表示:“现在的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。”
清影API也同步上线智谱大模型开放平台,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。
清影的研发得到北京市的大力支持。海淀区是智谱AI总部所在地,为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。
在生态合作上,bilibili作为合作伙伴也参与了清影的技术研发过程,并致力于探索未来可能的应用场景。同时,合作伙伴华策影视也参与了模型共建。
1.30秒将任意文字生成视频
清影的具体效果如何?先看一下官方发布的几支视频案例(都配上了音乐)。
2.自研DiT架构
3.Scaling Law仍在发挥作用
(封面图及文中配图来源:智谱)