智谱加入 AI 视频竞赛：使用 DiT 架构，30 秒生成视频片段_AI阅读总结

包阅导读总结

1. 关键词：智谱 AI、AI 视频生成、清影、多模态模型、CogVideoX

2. 总结：AI 视频生成赛道热闹，智谱 AI 上线「清影」功能，支持文生和图生视频，有付费和免费模式。其模型 CogVideoX 是 DiT 架构，速度提升。多模态模型为模拟人类认知，智谱 AI 早有布局，但其发展仍初级。

– 智谱 AI 上线 AI 视频生成功能「清影」

– 支持时长 6s 的文生视频/图生视频，清晰度 1440×960

– 推出付费和免费模式

– 用户输入文字、选择风格、配音乐，等待 30 秒生成视频

– 「清影」的模型 CogVideoX 是 DiT 架构

– 参考 Sora 算法设计，推理速度提升 6 倍

– 生成 6s 视频理论时间 30s

– 多模态模型

– 为模拟人类认知，提升人工智能性能和应用范围

– 智谱 AI 早有多模态领域布局

– 发展处于初级阶段，未来技术突破方向之一是原生多模态大模型

思维导图：

文章地址：https://mp.weixin.qq.com/s/LNhfhSnRCyDd95nD8xms7Q

文章来源：mp.weixin.qq.com

作者：连然

发布时间：2024/7/26 11:17

语言：中文

总字数：1715字

预计阅读时间：7分钟

评分：91分

标签：AI视频生成,DiT架构,多模态模型,智谱AI,CogVideoX

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

30 秒等待一条 AI 视频。

作者 | 连冉
编辑| 郑玄

这两天，AI 视频生成赛道越来越热闹了。

7 月 24 日，快手可灵全面开放内测；同一天，创企爱诗科技发布产品 PixVerse V2，可生成多达 40 秒的高质量短视频；26 日，独角兽智谱 AI 上线 AI 视频生成功能「清影」。

「清影」支持时长 6s 的文生视频/图生视频，清晰度为 1440×960。跟其他家不同，智谱 AI 这次直接推出付费版本——付费 5 元，解锁一天 24 小时的高速权益，付费 199 元，解锁一年的付费高速权益。

当然，所有人还是可以免费使用，不用排队，也不限次数。

一年的 AI 视频生成付费高速权益只要 199 元，跟不少互联网产品的会员包年费用相差无几，AI 视频生成好像真的离普通用户越来越近了。

目前，「清影」已上线清言 App，面向所有用户免费开放。在智谱清言 PC/APP 上，点击「清影智能体」，就可以开玩了。

用户只需要输入一段文字，然后选择自己喜欢的风格，再配上「清影」自带的音乐，等待 30 秒左右，就可以生成一段视频。

如果想要输出的视频更符合心中所想，还可以按照结构性原则来写 prompt（提示词），「清影」使用手册里给出了两款公式结构：

笔者一步到位，按照复杂公式的要求输入了以下提示词：摄影机平移，一个红发小精灵睡在旋转木马的躺椅上，翻了个身。他浑身毛茸茸的，看起来很可爱，背景是璀璨银河，星光洒在精灵身上，随着旋转木马的转动，小精灵露出了满足的笑容。

文生视频之外，「清影」这次也开放了图生视频的能力，输入一张图片+相应的提示词，或者只输入图片，「清影」就可以生成视频画面。

极客公园养有许多猫猫，笔者随机抓拍了一只眼睛瞪圆溜溜的小猫，把这张图片喂给清影，再输入提示词：图中的猫咪给自己戴上墨镜，动作连贯自然且真实，画质高清。

极客公园的小猫「毛栗栗」｜图片来源：极客公园

智谱 AI CEO 张鹏介绍，「清影」（Ying）底座的视频生成模型是 CogVideoX，它能将文本、时间、空间三个维度融合起来，参考了 Sora 的算法设计，它也是一个 DiT 架构，通过优化，CogVideoX 相比前代（CogVideo）推理速度提升了 6 倍。目前生成 6s 视频，模型花费的理论时间只需要 30s。

为什么包括智谱 AI 在内的各家都在做多模态模型？

核心是为了让机器能够更好地模拟人类的认知和感知机制，从而提升人工智能系统的整体性能和应用范围。

多模态模型能够处理多种类型的数据，如语言、图像和声音等。这与人类大脑的多模态信息处理能力非常相似，因为人类大脑能够同时接收和处理来自不同感官通道的信息，例如视觉、听觉和触觉。

并且，在多模态模型中，注意力机制被广泛使用来识别和融合不同模态的信息，这种机制在人类大脑中也存在。

因此，智谱 AI 在 all in 大模型路线之初，就开始多模态领域的相关布局，这也是他们实现实现全系列产品矩阵对标 Open AI 的重要一环。

从 2021 年开始，智谱 AI 先后研发了 CogView（NeurIPS’21）、 CogView2（NeurIPS’22）、CogVideo（ICLR’23）、Relay Diffusion（ICLR’24）、CogView3（2024）。

智谱 AI 的文生视频模型就是基于 CogView 而来的 CogVideo，张鹏谈到了该模型的三大技术特点：首先，为了解决内容连贯性的问题，智谱 AI 自研了一个 3D VAE 结构，将原视频空间压缩至 2% 大小，大幅减少了视频扩散生成模型的训练成本和训练的难度。

其次，在可控性上，智谱 AI 自研了一个端到端的视频理解模型，用于为海量的视频数据生成详细的贴合内容的描述文本，使得生成的视频能够理解超长的、超复杂的 prompt 指令，更符合用户的输入。

最后，模型采用了将文本、时间、空间三个维度全部融合起来的 Transformer 的架构，可高效利用模型参数将文本信息和视频信息进行混合。

张鹏也谈到，目前，多模态模型的发展还处于相当初级的阶段，一是从生成视频的效果看，多模态模型对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等都有很多地方需要提升；二是从模型本身而言，现有的模型架构还不能高效地压缩视频信息，如果多模态模型继续发展，还是需要有更创新的新模型架构出现。

他判断，未来大模型的技术突破方向之一依然是原生多模态大模型，scaling law 将继续发挥作用。

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

暴雪网易“复合”后首次参展 ChinaJoy，Logo 与网易并排。

分类

智谱加入 AI 视频竞赛：使用 DiT 架构，30 秒生成视频片段_AI阅读总结 — 包阅AI

以下为原文内容