包阅导读总结
1.
关键词:Cosine、Genie、AI 程序员、编程模型、数据集
2.
总结:Cosine 推出最强 AI 程序员 Genie,在 SWE-Bench 测试中得分 30%断层第一。它能自主完成多种编码任务,支持 15 种编程语言,模拟人类思考方式,已开放测试。其背后有精心处理的独家数据集,Genie 的推出为软件开发团队带来新机遇。
3.
主要内容:
– Cosine 推出世界上最强的 AI 程序员 Genie
– 在第三方基准测试 SWE-Bench 中得分 30%,位居排行榜第一
– 能自主完成修 bug、搭功能、重构代码、做测试等任务
– 支持 15 种编程语言
– 已开放测试
– Genie 像身边同事一样存在
– 模拟人类程序员思考方式
– 与 Slack 集成,可交流协作
– 生成的代码保存在用户 GitHub 仓库,保证数据安全
– AI 程序员背后的独家数据集
– 由数十亿个 token 组成的混合数据集
– 花近一年时间攒出,包含真实世界编程活动
– 数据处理流程复杂,捕捉人类工程师决策过程
– Genie 的未来
– 为软件开发团队带来新机遇
– Cosine 不止于 AI 程序员,期待更多成果
思维导图:
文章地址:https://mp.weixin.qq.com/s/CloWiUUrmW5YexWJ4kbDdg
文章来源:mp.weixin.qq.com
作者:谷雨龙泽
发布时间:2024/8/13 6:05
语言:中文
总字数:1881字
预计阅读时间:8分钟
评分:90分
标签:AI程序员,编程模型,自动化编程,Cosine,数据安全
以下为原文内容
本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com
夕小瑶科技说 原创
作者 | 谷雨龙泽
对AI写代码这件事情,大家已经不陌生了。谁还没有在写程序卡壳的时候问过AI呢?
AI初创公司Cosine,宣布推出世界上最强的AI程序员Genie。
根据第三方基准测试SWE-Bench,Genie的得分为30%,位居排行榜第一,拳打GPT4、脚踢Devin。
Genie是什么?
Genie作为一个 AI 编程模型,它可以根据人们下达的各种指令,自主搞定各种编码任务,不管是修 bug、搭功能、重构代码还是做测试,样样精通。
它既能自己一个人单干,也能跟其他程序员一起合作,给人的感觉和真人同事在一起干活没有什么区别。
Cosine的CEO Alistair Pullen写道:
“我们一直在追逐一个梦想,即构建一种能够真正自动执行端到端编程任务的东西,无需干预和高度的可靠性——一个人工同事。Genie 是做到这一点的第一步。”
此外他还在推特上自豪地表示,“这个模型不仅仅是30%的评测分数,它从一开始就被训练成像人类程序员一样。”
从Cosine放出的演示来看,Genie可以实现写代码、做测试、找bug一条龙服务,工作效率妥妥的。
而且Genie还支持十五种编程语言。无论是C、C++还是JavaScript、Python,它都不在话下。
目前它已经开放测试了,感兴趣的小伙伴们可以点击下方链接申请一个账号体验体验。
https://cosine.sh/register
像身边的同事一样存在
Cosine声称,Genie能够模拟人类程序员的思考方式。
在开发模型的时候,研发者让Genie观察人类程序员是如何完成工作的,然后模仿这个过程。久而久之,Genie就从各路程序员手中学得写代码的方法技巧了。
Cosine 的软件平台已经与Slack(国外的钉钉、飞书)进行了集成,在平台上可以及时提醒其他同事关注状态、提出疑问或是标记问题,就像一位真人同事再和你协同办公一样。
Alistair Pullen解释说:
“我们希望Genie能够像一个真正的同事那样工作,因此让它通过同事常用的渠道进行交流是最合适的。”
此外,Genie生成的代码会被保存在用户的GitHub仓库中, Cosine不会留存任何副本,能够避免数据外泄,保证了数据安全。
AI程序员背后的独家数据集
没有好的数据集就喂不出好的AI,这一点Cosine心知肚明。
Alistair Pullen在Cosine的技术报告里表示,在最近的一次训练过程中,Genie是在一个由几十亿个token组成的混合数据集上学习的。
这套数据集是精心处理过的,就是为了确保模型能跟上咱们用户最关心的编程语言。
Cosine在博客文章里透露,他们花了快一年的时间才攒出了这么一个数据集,里面包含了真实世界里工程师们各种各样的编程活动。
可实际上,要拿到这种数据,再把它用起来,那可真是难上加难,因为这东西本来就不好找。Cosine的数据处理流程是把人工制品、静态分析、自我模拟、逐步验证还有在大量带标签数据上训练过的AI模型结合在一起,这样就能一步步复原出程序员是怎么得出最终结果的。
Alistair Pullen吐槽说,
“给数据打标签这事儿,重要性不能低估,想从一流的程序员那里搞到高质量的数据,不容易啊。但是,这事儿值!因为它能给我们带来很多灵感,让我们知道程序员们到底是怎么琢磨着解决问题的。”
团队先从程序员干活留下的痕迹开始,比如拉取请求、提交记录、开源项目里的问题等等,然后再把这些数据扔进Cosine的数据处理流程,一步步推敲,重建出程序员们得出结论的思维过程。这个数据集不只是完美地展现了信息的传承和知识的积累,还捕捉到了人类工程师做决策的全过程。
这个独家的数据集就是第一次训练的基础,然后Genie就靠自我博弈和自我完善来继续前进。
“我们用这个数据集来训练模型,而不是仅仅给模型提个醒儿,像别人那样干,结果咱们发现,模型现在不只是胡乱生成代码,而是真刀真枪地像个人类工程师那样解决问题了。”Alistair Pullen说。
凭借其对较长上下文对话的支持和持续的改进循环,Genie会迭代和完善其解决方案,直到它们达到预期的结果。
Genie的未来
Genie的推出,对许多软件开发团队带来了新的机遇,借助AI程序员,他们可以在提高生产力的同时减少日常任务时间,把时间花在更重要的地方,而不是天天都忙着复制粘贴、调试和找bug。也许在写这篇文章的时候,Cosine就正在用Genie帮忙找bug和测试呢。
Cosine要做的,还不仅仅是AI程序员。“我们真的相信,我们能够为任何工作和行业编纂人类推理。”Alistair Pullen信心满怀,“软件工程只是最直观的起点,我们迫不及待地想向你展示我们正在做的其他一切。”
那么我们就拭目以待吧。
参考资料
[1]https://cosine.sh/blog/state-of-the-art
[2]https://venturebeat.com/programming-development/move-over-devin-cosines-genie-takes-the-ai-coding-crown/