Posted in

视频生成界的大瓜:Runway 组织公司全员,把互联网扒了个干干净净_AI阅读总结 — 包阅AI

包阅导读总结

1. 关键词:Runway、视频生成、数据收集、YouTube、盗版资源

2. 总结:Runway 被曝全员收集互联网视频资源用于模型训练,包括大量 YouTube 及盗版网站视频,其 Gen-3 生成效果与收集数据匹配,众多 AI 公司被指用 YouTube 视频训练模型,油管对此表示不满。

3.

– Runway 发布 Gen-3 视频生成模型,新一轮融资估值高。

– 被曝内部文件显示全员收集互联网高质量视频资源,包含数万条,YouTube 视频占大部分。

– 用开源软件下载油管视频,买代理防封禁,关键词分类详细。

– 盗版资源网站也是收集来源。

– 用 Gen-3 测试相关 prompt 效果与收集数据匹配,真人视频生成接近原博主。

– 众多 AI 公司被指偷偷用 YouTube 视频训练模型,油管不满此做法。

思维导图:

文章地址:https://mp.weixin.qq.com/s/9mUQXf2du8uwQKoaILHm_w

文章来源:mp.weixin.qq.com

作者:Founder??Park

发布时间:2024/7/26 12:31

语言:中文

总字数:3227字

预计阅读时间:13分钟

评分:84分

标签:视频生成,AI模型训练,Runway,YouTube,数据收集


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

本文经授权转载自公众号「Founder Park」

Runway 在 6 月发布了 Gen-3 视频生成模型,效果震撼整个视频生成领域。

随后 7 月 Runway 又被曝出正在进行新一轮融资,估值 40 亿美元,预计融资 4.5 亿美元。

这家毫无疑问的视频生成赛道头部创业公司,刚刚被曝出一份内部文件。

一个简单的 Excel 表格,巨详细地罗列着 Runway 动员全公司上下在互联网上收集的高质量视频资源,累积条目数万条。

其中 YouTube 上的视频占据了一大部分,光是「推荐油管频道」就有 3968 个。还有 14 个在线影视资源网站(就是常见的 Watch Movie/Anime Online for FREEEEE!!! 那种盗版网站)。

油管母公司 Google,是 Runway 上一轮融资的投资方,但显然收集 YouTube 视频数据的工作由 Runway 独立完成。除了油管以外,它还收集了迪士尼、Netflix、索尼等超级版权公司的视频内容。

爆料媒体用 Gen-3 测试了相关 prompt,非常匹配表格里的数据,细节到直接去生成油管主播各自风格的视频。且相关 prompt 仅在 Gen-3 上能生成匹配的效果,Gen-2 不行。

以下内容来自爆料媒体 404media(以下简称 4m),经 Founder Park 编辑整理。

油管高质量视频全扒下来了,为了怕被封还买代理下载

据 Runway 前员工向 4m 的爆料,Runway 公司里几乎是全员都会在这个表格里录入数据,用来训练他们自家的模型。表格里搜集的油管视频,他们是用开源软件 YouTube-DL 下载的,为了防止被 Youtube 封禁,Runway 还找供应商买了专门的代理,用这些代理 IP 地址来下载视频。

可以说准备工作做的很足了。

泄露的文件包含 14 个电子表格。其中一个表格里有一百多个视频关键词,比如「海滩」、「医生」、「雨」等等,每个关键词旁边写着负责搜索相关内容的 Runway 员工的名字。

泄露文件截图(右侧为翻译后内容)

爆料人说,这些人要么是被派去找视频的员工,要么是员工自己标记的他们正在处理的关键词。在「彩虹」这个词和员工名字旁边,有人写了一条备注:「没有专门的频道或播放列表,但找到了适合微调(finetuning)的好视频。」

文件中的注释显示,Runway 正在寻找特定主题、摄影风格和多样化人群的视频。「高相机运动」表格包含了 177 个 YouTube 频道的链接,包括《使命召唤》的官方频道、电影制作人 Josh Neuman 的频道、虚幻引擎和 Vans 的频道。

一个名为「电影杰作」的电子表格列出了 206 个链接,是一些高质量的油管频道和视频,包括动画短片和学生电影。在这个表格中,DEFY Studio YouTube 频道的链接旁边有一条注释写着「迄今为止汽车电影的牛逼作品都在这儿了」。

「单个优秀视频(用于微调)」是另外 253 个视频的集合,旁边还有一列主题,比如「修眉」、「冰雕」、「微笑」和「尖叫」。


盗版资源网站也没能幸免

今年推出的 Gen-3 因为生成视频质量高、很适合影视制作等备受好评。产品功能中有相机控制、导演模式,还可以实现对结构、风格和动作的精细控制。

可能也正因此,很多电影在线网站,尤其是知名的盗版电影网站也是 Runway 重点收集数据的来源。

一个名叫「非 YouTube 来源」的表格包含 14 个网站链接,其中包括经常被投诉的盗版动画网站 kisscartoon.sh,在专门记录互联网上内容删除请求的 Lumen 数据库里,有上千个针对这个网站的版权投诉。

「非 YouTube 来源」表中还包含一个宫崎骏电影档案链接、几个动漫盗版网站、一个 XBox 游戏剪辑的粉丝网站,以及一个现在已下线的名为 AZiMovies 的盗版电影网站,Runway 的某位员工在上面注释:「这里面有很多好内容。」

文件里还有一个包含 17112 个词的列表,包括「手工洗车」、「拳击」、「打破彩罐」、「扭脖子」、「乱穿马路」等几十个词。每个词都对应着一些相关的 YouTube 热搜,比如「如何正确洗车」、「如果你被抓到乱穿马路会发生什么」和「自己扭脖子的危险」。

还有一个「推荐频道」的列表里,里面包含 3967 个 YouTube 频道的链接,其中很多是大品牌和大媒体的频道,比如皮克斯、Glamour、CBS 纽约、蒙特雷湾水族馆、AMC 影院,还有多个官方迪士尼频道,比如迪士尼 XD 和迪士尼 Plus。

迪士尼是重点监控公司


Prompt 里带上博主名字,几乎可以生成原视频

目前还不确定是不是表格里统计的每个视频都喂给了大模型,但 4m 用表格里的关键词在 Gen-3 里测试了下,发现其中很多生成的视频都跟表格里的视频特别像。

真人视频方面,虽然生成的视频没法完美复制,但用表格里出现的知名油管博主进行测试时,生成的视频跟真人很接近。

比如,关键词里如果带上「Mark Wiens」,这是油管一个超千万人关注的美食博主,生成的视频里的确会有一个小伙子在自拍吃东西的画面,这跟他本人发的很多视频都很像。

PROMPT (GEN-3 ALPHA): 「MARK WIENS」

但是如果用 Gen-2 试验相同的 Prompt,生成的视频就跟这位博主没什么关系了,生成了一个穿西装的大众脸。

PROMPT (GEN-2): “MARK WIENS”

巧的是,4m 联系 Runway 询问这件事之后,Gen-3 就不能再生成包含 Mark Wiens 和其他几位 YouTuber 名字的视频了。

换一个 Prompt,油管博主 Jon Olsson 在他的 Vlog 1054 里的形象。Gen-3 生成了一个穿滑雪夹克带滑雪帽的白人男性,和作者在视频中的穿着非常像。

原版 Vlog 截图,这位博主戴着蓝色头盔在雪里翻了个跟头。

PROMPT(GEN-3 ALPHA):「油管博主 Jon Olsson 在他的 VLOG 1054 里的形象」

Prompt:一段 DEFY Productions 风格的赛车视频

Gen-3 生成的视频中,赛车尾巴上有「DEFY」字样,跟 @DEFYstudio Logo 的字体很像。

真·@DEFYstudio Logo,里面的字母「E」是镜像的

如果输入一个这样的 prompt:以油管博主 Benjamin Hardman 的旅行视频风格呈现。Gen-3 生成了一个看起来像是无人机拍摄的视频,镜头跟随远处的一位看起来很像 Hardman 的男人,在悬崖边徒步,和油管原视频相差无几。

博主本人喜欢捧着摄影机去极地拍冰川,视频的风格是这样的:

生成的视频长这样:

PROMPT (GEN-3 ALPHA): 「以油管博主 Benjamin Hardman 的旅行视频风格呈现」

PROMPT (GEN-3 ALPHA): “BENJAMIN HARDMAN”

OpenAI、Anthropic、Nvidia 都在偷偷用油管视频训模型

最近几个月,因为偷偷用创作者的内容来训练模型,生成的视频、文本或者音乐与原作很类似,很多 AI 公司都因为这个被骂。《纽约时报》起诉 OpenAI 违法使用他们的新闻报道,然后是 4 月份,200 多名音乐人发公开信,要求大公司停止干这种事,「太没下限了」。

同样是 4 月,《纽约时报》报道 OpenAI 和 Google 通过转录 YouTube 视频来训练他们的模型,连 Google 自己都没能忍住……不过也有可能他们的用户协议里允许了。

7月份,Proof News 爆了一份大料,包括 Anthropic、Nvidia、苹果和 Salesforce 在内的公司,都在偷偷使用了超过 48000 个频道的 YouTube 视频和字幕文件。

这个数据集也很丰富,从学习视频到脱口秀,可以说是应有尽有。

学习视频:可汗学院、麻省理工学院和哈佛大学的教育视频。
新闻报道:《华尔街日报》、美国国家公共电台和英国广播公司的视频
综艺:「斯蒂芬·科尔伯特晚间秀」「约翰·奥利弗上周今夜秀」和「吉米·坎摩尔直播秀」。
网红:MrBeast(2.89 亿订阅,用于训练的两个视频),Marques Brownlee(1900 万订阅,七个视频),Jacksepticeye(近 3100 万订阅,377 个视频)和PewDiePie(1.11 亿订阅者,337 个视频)。
Proof News 还发现,这里面竟然还有宣扬「地平说」之类的阴谋论视频!

虽然媒体都这么报道了,但 OpenAI 官方还没承认,CTO Mira Murati 最近在接受《华尔街日报》采访时是这么说的,她不知道 Sora 的训练数据是否包括来自 YouTube、Instagram 和 Facebook 的视频。OpenAI 用的是公开可用的数据和授权数据。

油管对此很生气。

YouTube CEO Neal Mohan 对彭博表示,这种做法是不允许的:「从创作者的角度来看,创作者把他们的劳动成果上传到我们的平台时,他们是有预期的,服务条款最起码不能违反。我们不允许转录或下载视频片段,这些是我们平台上内容的规则。」

「我希望这些爆料,能让大家知道有多少科技公司背地里在干这个事,以及他们所谓的为了生成那些看起来很厉害的视频都做了什么『努力』。」

感谢 4m 和这名勇敢的爆料者。

https://www.404media.co/email/e3836b26-6914-4c1c-a102-bf9735adc3de/

https://www.proofnews.org/apple-nvidia-anthropic-used-thousands-of-swiped-youtube-videos-to-train-ai/