Posted in

又来一个“对标 Sora”,首个国产纯自研视频大模型 Vidu 是真牛还是吹牛?_AI阅读总结 — 包阅AI

包阅导读总结

思维导图:

文章地址:https://mp.weixin.qq.com/s/jLKB0QC7dQEUYjCZi_fHnw

文章来源:mp.weixin.qq.com

作者:Valentina

发布时间:2024/8/2 9:58

语言:中文

总字数:3299字

预计阅读时间:14分钟

评分:85分

标签:视频大模型,AI技术,国产自研,视频生成,风格化功能


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

作者|Valentina

编辑|方奇

媒体|AI大模型工场

7月30日,首个国产纯自研视频大模型Vidu全球上线,可在Web 端www.vidu.studio访问。


在今年4月举行的2024中关村论坛人工智能主题日未来人工智能先锋论坛上,清华大学教授、生数科技首席科学家朱军宣布,生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型Vidu。生数科技称,Vidu全面对标Sora。



此次Vidu面向全球正式上线,开放文生视频、图生视频两大核心功能,提供4s和8s两种时长选择,分辨率最高达1080P。在推理速度上,Vidu生成一段4s的片段仅仅需30s。在付费机制方面,Vidu与其它生成产品类似,提供免费版与3种收费机制。3种收费机制分为标准、高级与尊享。目前在上线前两周,Vidu提供限时5折优惠。


那么究竟Vidu功能是不是和宣传一致,能否担当“国产视频AI之光”的名号?AI大模型工场也感到好奇,于是迅速进行了一手测评。



两大新功能体验抢先测评:

动漫风格化功能、角色一致性功能



除了文生视频和图生视频的两大基础功能外,Vidu此次同步上线两大全新功能,一是动漫风格,二是角色一致性。

1. 动漫风格化功能体验


Vidu官方打出“万物皆可二次元”的旗号。目前市面上的AI视频工具大多局限于写实风格或源于现实的想象。Vidu除了能实现常见的写实等多元风格外,还新增动漫风格选项。官方图生视频实测案例如下:


图生动漫风格能基本百分百保持原形像角色。整个视频无明显畸变,角色一致性保持良好。


来看看文生动漫风格效果怎么样:


prompt: 动漫风格。清晨,一个穿着围裙的女孩从林间小屋中走出来,伸了个懒腰,然后给飞过来的鸟儿笑着打了招呼。



从画面效果来看,画风很美,有宫崎骏电影般的质感。背景画面细腻丰富,光线柔和有质感。从生成动漫角色看,女孩面部表情丰富生动,并且在从后面走过来的过程中,画面背景和人物保持了高度一致性。但帧与帧卡顿感明显,甚至最后一秒还有穿模现象。

2.角色一致性功能


在“图生视频”板块中,Vidu上线了角色一致性功能。在上传图片的过程中,Vidu支持首帧图和角色图两种选择,前者是实现基于首帧画面的连续生成(常见的图生视频功能),后者则是角色一致性生成,用户可上传人像图或者自定义的角色图,然后通过文字描述指定该角色在任意场景中做出任意动作。


上一张真人图,先来测评看看“首帧图”效果如何。


prompt:两人深情拥抱


整个画面、背景无明显形变,人物一致性保持的更是完美,从表情、形象外观到服装细节,原图到视频都没有发生改变。视频人物动作流畅,表情细节包括皱纹等也处理的十分到位。同时,运动后衣服褶皱的变化也符合物理运动规律。


再来看看“角色图”效果如何:


prompt:男人头戴墨镜在沙滩边悠闲散步度假


在“角色图”功能中,人物一致性同样保持的很好,角色面部细节到位。新的背景抠的十分自然,整个画面高级、漂亮、有质感。人物动作稍显卡顿,但整体流畅度还是较高。



经典视频功能深度评测



1.宏大场景+延时摄影

prompt:一座现代化城市市中心,有很多摩天大楼。俯拍的视角。延时摄影,从早上八点到晚上八点,表现了这座城市从白天的晴朗,到夜晚降临但是霓虹灯闪烁的场景。



对于延时摄影的概念,Vidu 能够准确的把握。对于提示词的要求也全部给予了回复,包括俯拍摩天大楼,从早到晚等。画面稳定流畅,甚至能让人体验到城市车水马龙之感。但可惜对于4s延时摄影视频太短,难免给人仓促之感。


2.电影感镜头:细腻人物刻画


prompt:舞台上里,一个三十岁的男性钢琴家在表演钢琴独奏。舞台上一束灯光照耀这位钢琴家和钢琴。钢琴家穿着燕尾服。钢琴家很投入,陶醉的随着音乐而摇头晃脑。画面效果:真实、细腻、电影感



这个片段完成度很高。首先,人物比较稳定,手指这些细节也未发生变形,对于“摇头晃脑”的微表情处理的也比较到位;其次,画面的一致性保持的很好,不管是人物动作还是北京画面,都保持了流畅稳定。对于提示词能够充分的理解,所有提示词元素基本全展现画面中;对于光影等物理规律也处理的很恰当。


3.多人物场景刻画


prompt:橄榄球赛场上,来自两个队伍的多名运动员正在追着一枚扔出去的橄榄球奔跑。


到了多人画面质感就断崖式下跌。Vidu基本理解了多人橄榄球赛的要求,但是不论是人物还是动作都缺少细节感。并且橄榄球飞来飞去的路线,牛顿看了都要爬起来说一句:天理何在!


4.物体移动


prompt:傍晚,一座宽敞的跨江大桥上,一辆红色的跑车在上面疾驰。跨江大桥两岸有夜灯,但是车灯更加耀眼。红色金属反射出周围的景色与灯光。


画面质感很好,傍晚、红色跑车、夜灯要素齐全;头车车身有四周景色与光的反射,路面也有车灯倒影,光学物理满分;画面稳定、流畅、帧与帧连接较为自然;但是要求中的“一辆”跑车变成了“两辆”,疾驰变成了缓慢行驶,理解能力一般。


虽然跑车是缓慢行驶,但是可以看出动作流畅,无明显顿感。并且随着运动车身还有轻微上下颠簸的细节,物理真实感和细节感拉满。



从Vidu官方评测给出的跑车疾驰画面,可以看出在动作幅度较大的场景中,Vidu能够保持高流畅、高动态的画面效果。


5.精彩二创:名画“活过来”


prompt:切远景,少女捧着爆米花,拿了一粒放入口中。


视频保留了原画风,且少女与原画几乎一模一样,人物动作过程无明显畸变,一致性Max。画面生成稳定,且一些物理细节也刻画的很细腻,例如少女往前伸头的时候耳坠随之摇摆。唯一的遗憾是没有完全还原prompt中“拿了一粒放进嘴里”的要求。


6.超现实主义


prompt:飞机驾驶舱内,两只熊猫在开飞机。


这个视频完全还原了两只可爱的熊猫在驾驶舱内操纵飞机行驶。整个画面较为稳定、流畅,窗外天空细节做的特别好。两只熊猫毛发细节逼真,动作自然,美中不足的是右边熊猫的下半身貌似有粘连情况。除此之外,客舱仪表盘、按键等并没有刻画的很细腻。但考虑到驾驶舱仪表、按键等细节本身的复杂程度,相信Vidu也已经尽力了。


总的来说,Vidu还是“有点东西”。


对于AI视频基本要求方面,包括一致性、画面内容度、流畅度等方面,Vidu表现的几乎满分。无论是特色“角色一致性”功能,还是普通文生视频及图生视频功能,Vidu都能确保人物角色保持较高的一致性。同时,生成画面基本稳定流畅且细节到位。


另一方面,Vidu审美一流,生成的视频往往画面细腻,画风优美,质感强。相比过去的视频模型,Vidu 的动作幅度也得到了大幅度提高,并且基本上能保持动作高度流畅。同时,Vidu生成视频的速度快是真快,所有4s视频基本都能在30s内完成。一句话,Vidu没有虚假宣传!


提升空间当然还是大大有之,比如画面偶尔还有穿模、粘连现象;对于文本理解,Vidu能够基本理解并满足大部分的要求,但是仍偶尔会出现对提示词回应不充分的情况;在多人场景下,Vidu丢失了人物与动作处理细腻的特点,画面细节严重缺失,还需加强多人场景制作能力。


以上是AI大模型工场本次测评体验。虽然有不足之处,总体观感还是不错的。好奇的宝宝们,现在就可以通过www.vidu.studio秒注册体验!


AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。

■ 百度文心一言,阿里通义千问 ▍通用大模型案例

■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联▍医疗大模型案例

■阅文大模型,腾讯音乐大模型▍ 文娱大模型案例

■知乎,360大模型,火山引擎▍ 教育大模型案例

■ 网易,金山办公大模型 ▍ 更多行业大模型案例

上次介绍AI时代卷应用,百度拿捏住了?

本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。

/

欢迎提供新的大模型商业化落地思路