Posted in

VBench 视频生成新榜首!Data-Juicer 沙盒实验室助力多模态数据与模型协同开发_AI阅读总结 — 包阅AI

包阅导读总结

1.

关键词:Data-Juicer 、多模态、协同开发、沙盒实验室、VBench 榜首

2.

总结:多模态人工智能发展中存在协同开发潜能未充分发挥的问题,Data-Juicer 团队构建开源沙盒实验室套件,提出“探测-分析-细化”工作流,在 VBench 文生视频排行榜取得榜首,现开源以激励创新者。

3.

主要内容:

– 多模态生成模型是领域革新的驱动引擎

– 但 model-centric 和 data-centric 两条路线分离,协同开发未充分发挥

– Data-Juicer 沙盒实验室

– 专为多模态数据与模型协同开发定制的中间层套件

– 提供灵活实验平台和先进工具集,便于组合和迭代

– 工作流及效果

– 提出“探测-分析-细化”工作流

– 提升图文和视频文数据集质量,取得先进模型性能

– 进行全方面基准测试,提供深入洞察

– 开源与激励

– 开源项目,提供论文和项目、模型链接

– 激励数据科学家和 AI 模型工程师加入探索

思维导图:

文章地址:https://mp.weixin.qq.com/s/n44X0xcMgvtWfhHEW9Erkg

文章来源:mp.weixin.qq.com

作者:魔搭ModelScope社区

发布时间:2024/7/22 9:21

语言:中文

总字数:756字

预计阅读时间:4分钟

评分:84分

标签:多模态AI,视频生成,模型协同开发,Data-Juicer,沙盒实验室


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

图一:VBench排行榜(2024.7.16)


随着多模态人工智能技术的迅猛发展,大型多模态生成模型成为了推进领域革新的驱动引擎。面向多模态数据与模型协同开发,近日Data-Juicer团队构建了开源沙盒实验室套件,通过数据与模型间的系统性研发工作流,调优数据和模型,在VBench文生视频排行榜取得了新的榜首!


图二:Data-Juicer 沙盒实验室概览


多模态 AI 发展出了两条相对分离的路线:model-centric 和 data-centric,导致了协同开发的潜能未充分发挥,资源也未能高效利用。Data-Juicer 沙盒实验室应运而生,它是一个专为集成数据和模型协同开发所定制的中间层套件,为多模态模型与数据的科学开发“降本提效”。它提供了灵活的实验平台,内置大量先进的工具集,使得研发人员在工作流、开发行为和底层开发能力之间便捷组合,快速迭代小规模洞察,以便在更大规模场景下能“有的放矢”。


图三:“探测-分析-细化”工作流示意


我们提出的一种“探测-分析-细化”工作流,通过在最先进的 LLaVA-like 和 DiT-based 模型上的大量实践,显著提升了图文和视频文数据集的质量,并取得了更先进的模型性能。我们还通过在 Data-Juicer 算子上全方面的基准测试,分析并提供了丰富的数据质量、多样性与模型行为之间的深入洞察。


Data-Juicer 沙盒实验室的提出和其大规模的效果验证,是对多模态数据与模型协同开发这一方向高潜力的有力佐证。如今,我们将项目开源,以激励更多的创新者们一起加入。无论是数据科学家,还是 AI 模型工程师,都可以从这里获得基础支持,探索无限可能。立即上手体验,Data-Juicer 沙盒实验室助您塑造 AIGC 领域的明天!

Data-Model Co-Dev 沙盒论文链接:

http://arxiv.org/abs/2407.11784


Data-Model Co-Dev 综述论文链接:

https://arxiv.org/abs/2407.08583


项目链接:

https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md


模型链接:

https://modelscope.cn/models/Data-Juicer/Data-Juicer-T2V

https://huggingface.co/datajuicer/Data-Juicer-T2V

点击阅读原文,即可跳转模型链接~