蚂蚁开源生成式数字人算法 EchoMimic，可用音频驱动人像动画生成_AI阅读总结

包阅导读总结

1. 关键词：数字人算法、音频驱动、人像动画、生成、技术研究

2. 总结：文本主要介绍了蚂蚁开源的生成式数字人算法 EchoMimic 及相关研究，列举了一系列关于音频驱动人像动画生成的研究成果和相关论文。

3. 主要内容：

– 蚂蚁开源生成式数字人算法 EchoMimic，可用音频驱动人像动画生成

– 相关研究包括：

– Prajwal 等人于 2020 年关于野外环境中从语音到嘴唇生成的研究

– Cheng 等人在 2022 年关于野外环境中基于音频的说话头视频编辑的嘴唇同步研究

– Zhang 等人在 2023 年关于风格化音频驱动单图像说话人脸动画的研究

– Kurz 等人在 2022 年关于实时渲染神经辐射场的自适应采样研究

– Wang 等人在 2024 年关于高保真说话肖像合成的表达式感知神经辐射场的研究

– ……

– 涵盖了众多学者在数字人、人像动画生成等领域的最新研究成果

思维导图：

文章地址：https://mp.weixin.qq.com/s/zVTZ35d1RAiNMRx-VBCzrw

文章来源：mp.weixin.qq.com

作者：曹佳炯，李宇明

发布时间：2024/7/24 9:47

语言：中文

总字数：5922字

预计阅读时间：24分钟

评分：82分

标签：数字人技术,AIGC,音频驱动,开源算法,蚂蚁集团

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

1.Prajwal,K.R.,Mukhopadhyay,R.,Namboodiri,V.P.,&Jawahar,C.V.(2020,October).Alipsyncexpertisallyouneedforspeechtolipgenerationinthewild.InProceedingsofthe28thACMinternationalconferenceonmultimedia(pp.484-492).

2.Cheng,K.,Cun,X.,Zhang,Y.,Xia,M.,Yin,F.,Zhu,M.,…&Wang,N.(2022,November).Videoretalking:Audio-basedlipsynchronizationfortalkingheadvideoeditinginthewild.InSIGGRAPHAsia2022ConferencePapers(pp.1-9).

3.Zhang,W.,Cun,X.,Wang,X.,Zhang,Y.,Shen,X.,Guo,Y.,…&Wang,F.(2023).Sadtalker:Learningrealistic3dmotioncoefficientsforstylizedaudio-drivensingleimagetalkingfaceanimation.InProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition(pp.8652-8661).

4.Kurz,A.,Neff,T.,Lv,Z.,Zollhöfer,M.,&Steinberger,M.(2022,October).Adanerf:Adaptivesamplingforreal-timerenderingofneuralradiancefields.InEuropeanConferenceonComputerVision(pp.254-270).Cham:SpringerNatureSwitzerland.

5.Wang,X.,Ruan,T.,Xu,J.,Guo,X.,Li,J.,Yan,F.,…&Wang,C.(2024).Expression-awareneuralradiancefieldsforhigh-fidelitytalkingportraitsynthesis.ImageandVisionComputing,105075.

6.Zheng,Z.,Zhao,X.,Zhang,H.,Liu,B.,&Liu,Y.(2023).Avatarrex:Real-timeexpressivefull-bodyavatars.ACMTransactionsonGraphics(TOG),42(4),1-19.

7.Hu,L.(2024).Animateanyone:Consistentandcontrollableimage-to-videosynthesisforcharacteranimation.InProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition(pp.8153-8163).

8.Tian,L.,Wang,Q.,Zhang,B.,&Bo,L.(2024).EMO:EmotePortraitAlive-GeneratingExpressivePortraitVideoswithAudio2VideoDiffusionModelunderWeakConditions.arXivpreprintarXiv:2402.17485.

9.Wei,H.,Yang,Z.,&Wang,Z.(2024).Aniportrait:Audio-drivensynthesisofphotorealisticportraitanimation.arXivpreprintarXiv:2403.17694.

10.Xu,S.,Chen,G.,Guo,Y.X.,Yang,J.,Li,C.,Zang,Z.,…&Guo,B.(2024).Vasa-1:Lifelikeaudio-driventalkingfacesgeneratedinrealtime.arXivpreprintarXiv:2404.10667.

11.Wang,C.,Tian,K.,Zhang,J.,Guan,Y.,Luo,F.,Shen,F.,…&Yang,W.(2024).V-Express:ConditionalDropoutforProgressiveTrainingofPortraitVideoGeneration.arXivpreprintarXiv:2406.02511.

12.Yang,S.,Li,H.,Wu,J.,Jing,M.,Li,L.,Ji,R.,…&Fan,H.(2024).MegActor:HarnessthePowerofRawVideoforVividPortraitAnimation.arXivpreprintarXiv:2405.20851.

13.Ma,Y.,Liu,H.,Wang,H.,Pan,H.,He,Y.,Yuan,J.,…&Chen,Q.(2024).Follow-Your-Emoji:Fine-ControllableandExpressiveFreestylePortraitAnimation.arXivpreprintarXiv:2406.01900.

14.Xu,M.,Li,H.,Su,Q.,Shang,H.,Zhang,L.,Liu,C.,…&Zhu,S.(2024).Hallo:HierarchicalAudio-DrivenVisualSynthesisforPortraitImageAnimation.arXivpreprintarXiv:2406.08801.

分类

蚂蚁开源生成式数字人算法 EchoMimic，可用音频驱动人像动画生成_AI阅读总结 — 包阅AI

以下为原文内容