腾讯把 12 亿用户，都变成了免费的「标注民工」_AI阅读总结

包阅导读总结

1. 腾讯、验证码标注、AI 绘图、语义理解、用户画像

2. 本文探讨了腾讯利用验证码让 12 亿用户成为免费标注民工，从验证码的发展历程到如今腾讯用于 AI 绘图模型的标注，还对比了 Midjourney 在美学标注上的优势，指出腾讯未来在这方面有很大空间，但存在内部数据获取问题。

– 腾讯让用户通过验证码进行标注

– 验证码原本用于区分机器和人

– 此前有先例，如 reCAPTCHA 让用户标注数字化书籍和报纸，Google 让用户标注街景门牌号

– 腾讯的验证码标注用于 AI 绘图大模型

– 目前是图片理解和映射的标注，如语义理解，初期简单，未来可能更复杂

– 标注成本高，腾讯此举节省大量费用

– 与 Midjourney 对比

– Midjourney 美学标注出色，因早期获得大量有美学背景专业用户

– 腾讯不缺专业用户，用户画像齐全，但内部存在数据获取问题

思维导图：

文章地址：https://mp.weixin.qq.com/s/bg8pmcGq6VYSdjw4JejaeQ

文章来源：mp.weixin.qq.com

作者：数字生命卡兹克

发布时间：2024/8/13 9:43

语言：中文

总字数：2287字

预计阅读时间：10分钟

评分：82分

标签：腾讯,验证码,AI标注,数据标注,AI模型训练

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

文章转载自数字生命卡兹克，作者：卡兹克

你有没有想过，当你在网上进行简单的验证码操作时，其实你已经无意间成为了一名「标注民工」？

昨天晚上，我在登录 QQ 邮箱和 LOL 官网的时候。

发现腾讯的验证码变了。

不再是之前的验证码了，而是变成了一段 Prompt 加六张 AI 生成的图。

右下角赫然写着：

图片由混元 AI 生成。

腾讯，终于把用验证码做标注的手，伸向了他那 12 亿的用户。

拿验证码当标注系统，让用户免费标注，其实在远古时代，就已经不是什么新鲜事了，但是用生成式 AI 来跟验证码做结合，这确实还是我，所看的头一回。

先说说验证码这个东西。

这玩意从最开始发明起，其实只有一个目的，就是为了区分机器和人。

简称「CAPTCHA」，全称就贼长了，「Completely Automated Public Tuning Test to Tell Computers and Humans Apart」

翻译过来是，「全自动区分计算机和人类的图灵测试」。

你看看，图灵测试。

刚开始，有个斯坦福公益验证码系统，reCAPTCHA。

它最成名的项目，就是用验证码来数字化海量的书籍和旧报纸。那时候的 Ocr 真的不咋地，而且很多年前的书和报纸那糊的真的差强人意。

当时，reCAPTCHA 系统会向用户在验证码上，展示两组扭曲的单词，其中前面的一组是计算机已经识别的，另一个是计算机难以识别的。

如果用户正确输入前半部分，那么 reCAPTCHA 就会假设用户输入的后半部分也是正确的，然后把录入结果返回至 reCAPTCHA 的项目主机。

结果返回主机后，主机还会把这个结果再派发给多个用户进行交叉验证，以确保没有不小心或故意输错单词的情况。

他们用这个系统，在十几年里，数字化了几千万的书籍和报纸。

本来一切都挺美好的，然后，Google 下场了，他们把 reCAPTCHA 给收了。

没过多久，就让用户开始识别，Google 街景中，那些难以识别的门牌号了。。。

这其实，就是明晃晃的让你当标注民工，无偿来给Google标注训模型了。

Google 那时候几亿用户，每天验证码会被调用上千万次。

这大概就好像，让几百万个人每人为给你干 5 秒钟活儿，然后一分钱都不给一样，你说这是不是已经，把白嫖玩到极致了。

直到后面，离谱的东西越来越多，你要标注的东西，也越来越多。

比如这些奇奇怪怪非人视角让你选一个 bus 的照片。

当然最离谱最好玩的，得数 15 年的 12306，当时开脚本抢票的太多，12306 的流量压力实在太大，被逼的开启了神迹级的验证码，据说人类首次正确率仅为 8%，得错 3 次以上的人占比有 65%。

这种逆天验证码的题目是这样的。

刘慈欣我不敢打包票，但是范伟我是全认出来了。。

时间走走停停，一眨眼，来到了 2024 年。

为了自己家的混元大模型，腾讯也把手，伸向了验证码。

让我们开始，来做 AI 绘图大模型的标注了。

这部分的标注，其实不是啥图片美学质量的标注，而是对于图片理解和映射的标注。

通俗地讲，就是语义理解。

现在做的，还是最基础最简单的分类，我们标起来，还是挺轻松的。毕竟里面都知道，左上角是鸭子，中间是老虎，左下角是蜜蜂，右下角是赛车。

而那两张白杨树林，其实，你选任意一个，或者选两个，都能过。

比如我这个图：一簇在悬挂花盆在生长的多肉。

其实你会看到有两张都跟多肉有关，而根据定语，一簇，更符合左上角第一张图，右上角那个其实不是一簇是一堆，但是我选了他，依然能过。

而你想把两个都选，你也都能过。

所以这个标注之心啊，一点都不藏着掖着。

但是确实这个做法很有用，比如还是这句 Prompt，真正核心难点是一簇。

用这种方式，对整体的语义理解，确实有非常大的帮助。

而且现在明显还是初期，给的 Prompt 和图，都非常的简单，标注的难度也不高，甚至一些大厂的标注模型直接机标可能都应付的过来。

但是如果下一次，是「一只在清朝宫殿里生长的杜鹃花」呢？

一只、清朝宫殿、杜鹃花。难度直接拉满。

甚至另外几个选项给你的也不是差异这么大的动物汽车啥的，给你的都是菊花、杜鹃花、喇叭花、玫瑰花，来吧你就选吧，加油啊标注民工。

要知道，标注真的很贵的，之前跟国内一家做 AI 绘图大模型的公司聊过，才知道他们标注分为机标和人标，而人标的成本，大概是数据量的十分之一。

也就是你拿出去 3000 万的数据，人工标一次，就得 300 万 RMB 干出去。

而腾讯 12 亿用户，每天验证码起码也是千万的量级，这标注费用，你可以算算这省了多少钱吧。

所以说，大厂在如今还在大数据的时代，优势是真的大。。。

不过这种标注，目前来看还是只能解决语义理解的标注，但是能把这个解决也已经很牛逼了，虽然美学一般，但是语义理解能达到极强，这就是妥妥的国内版 Dalle3。

而 Dalle3 的短板大家肯定也清楚，实在太丑了。

而要标美学表现，难度其实就大很多，真的得找懂设计、懂美学的人来标注。

Midjourney 当年其实就是吃了这波红利。

第一波获得用户，而且获得的还是一大波的有美学背景的专业用户，然后每次你生图的时候给你生成4张图拼一块的一张整图，你还必须选一张你觉得最好的进行提取或优化。

这就是一种强行的数据标注。

所以 Midjourney 在如今的美学表现上一骑绝尘，是因为他们在美学的标注上，做的太好了，而别的家想在这块赶上，基本不可能，因为最高质量的那波用户，基本已经全在 Midjourney 那了。

而腾讯未来想做这件事，其实在我看来，还真是有可能的。

因为你其实看 Midjourney 的路径，核心点就一个：海量的专业用户。

腾讯缺专业用户吗，怎么可能会缺，12 亿用户捏在手上，用户画像做的那么齐全，我想把有设计师背景的用户挑出来，难吗？一点都不难。

我想给挑出来的这些设计师背景的用户推送美学标注的验证码，难吗？也不难。

所以啊，现在在我看来，腾讯的验证码标注，才刚刚向前迈了半步，后面的模型空间，还很大。

唯一问题就是，腾讯内部有点封闭，用户画像数据 PCG 做 QQ 的那边肯定有，但是混元跟 PCG 不是一个事业群，也不知道能不能拿得到。。。

能拿到的话，那就是王炸。

但是不管怎样。

你我都已经，身在其中了。

10 年前，就已经是了。