Posted in

排行榜断层第一!Cosine 推出“最强、最接近人类”的 AI 程序员!_AI阅读总结 — 包阅AI

包阅导读总结

1.

关键词:Cosine、Genie、AI 程序员、编程模型、数据集

2.

总结:Cosine 推出最强 AI 程序员 Genie,在 SWE-Bench 测试中得分 30%断层第一。它能自主完成多种编码任务,支持 15 种编程语言,模拟人类思考方式,已开放测试。其背后有精心处理的独家数据集,Genie 的推出为软件开发团队带来新机遇。

3.

主要内容:

– Cosine 推出世界上最强的 AI 程序员 Genie

– 在第三方基准测试 SWE-Bench 中得分 30%,位居排行榜第一

– 能自主完成修 bug、搭功能、重构代码、做测试等任务

– 支持 15 种编程语言

– 已开放测试

– Genie 像身边同事一样存在

– 模拟人类程序员思考方式

– 与 Slack 集成,可交流协作

– 生成的代码保存在用户 GitHub 仓库,保证数据安全

– AI 程序员背后的独家数据集

– 由数十亿个 token 组成的混合数据集

– 花近一年时间攒出,包含真实世界编程活动

– 数据处理流程复杂,捕捉人类工程师决策过程

– Genie 的未来

– 为软件开发团队带来新机遇

– Cosine 不止于 AI 程序员,期待更多成果

思维导图:

文章地址:https://mp.weixin.qq.com/s/CloWiUUrmW5YexWJ4kbDdg

文章来源:mp.weixin.qq.com

作者:谷雨龙泽

发布时间:2024/8/13 6:05

语言:中文

总字数:1881字

预计阅读时间:8分钟

评分:90分

标签:AI程序员,编程模型,自动化编程,Cosine,数据安全


以下为原文内容

本内容来源于用户推荐转载,旨在分享知识与观点,如有侵权请联系删除 联系邮箱 media@ilingban.com

夕小瑶科技说 原创
作者 | 谷雨龙泽

对AI写代码这件事情,大家已经不陌生了。谁还没有在写程序卡壳的时候问过AI呢?

AI初创公司Cosine,宣布推出世界上最强的AI程序员Genie

根据第三方基准测试SWE-Bench,Genie的得分为30%,位居排行榜第一,拳打GPT4、脚踢Devin。

▲SWE-Bench的测试结果

Genie是什么?

Genie作为一个 AI 编程模型,它可以根据人们下达的各种指令,自主搞定各种编码任务,不管是修 bug、搭功能、重构代码还是做测试,样样精通。

它既能自己一个人单干,也能跟其他程序员一起合作,给人的感觉和真人同事在一起干活没有什么区别。

Cosine的CEO Alistair Pullen写道:

“我们一直在追逐一个梦想,即构建一种能够真正自动执行端到端编程任务的东西,无需干预和高度的可靠性——一个人工同事。Genie 是做到这一点的第一步。”

此外他还在推特上自豪地表示,“这个模型不仅仅是30%的评测分数,它从一开始就被训练成像人类程序员一样。”

从Cosine放出的演示来看,Genie可以实现写代码、做测试、找bug一条龙服务,工作效率妥妥的。

而且Genie还支持十五种编程语言。无论是C、C++还是JavaScript、Python,它都不在话下。

目前它已经开放测试了,感兴趣的小伙伴们可以点击下方链接申请一个账号体验体验。

https://cosine.sh/register

像身边的同事一样存在

Cosine声称,Genie能够模拟人类程序员的思考方式。

在开发模型的时候,研发者让Genie观察人类程序员是如何完成工作的,然后模仿这个过程。久而久之,Genie就从各路程序员手中学得写代码的方法技巧了。

Cosine 的软件平台已经与Slack(国外的钉钉、飞书)进行了集成,在平台上可以及时提醒其他同事关注状态、提出疑问或是标记问题,就像一位真人同事再和你协同办公一样。

Alistair Pullen解释说:

“我们希望Genie能够像一个真正的同事那样工作,因此让它通过同事常用的渠道进行交流是最合适的。”

此外,Genie生成的代码会被保存在用户的GitHub仓库中, Cosine不会留存任何副本,能够避免数据外泄,保证了数据安全。

AI程序员背后的独家数据集

没有好的数据集就喂不出好的AI,这一点Cosine心知肚明。

Alistair Pullen在Cosine的技术报告里表示,在最近的一次训练过程中,Genie是在一个由几十亿个token组成的混合数据集上学习的。

这套数据集是精心处理过的,就是为了确保模型能跟上咱们用户最关心的编程语言。

Cosine在博客文章里透露,他们花了快一年的时间才攒出了这么一个数据集,里面包含了真实世界里工程师们各种各样的编程活动。

可实际上,要拿到这种数据,再把它用起来,那可真是难上加难,因为这东西本来就不好找。Cosine的数据处理流程是把人工制品、静态分析、自我模拟、逐步验证还有在大量带标签数据上训练过的AI模型结合在一起,这样就能一步步复原出程序员是怎么得出最终结果的。

Alistair Pullen吐槽说,

“给数据打标签这事儿,重要性不能低估,想从一流的程序员那里搞到高质量的数据,不容易啊。但是,这事儿值!因为它能给我们带来很多灵感,让我们知道程序员们到底是怎么琢磨着解决问题的。”

团队先从程序员干活留下的痕迹开始,比如拉取请求、提交记录、开源项目里的问题等等,然后再把这些数据扔进Cosine的数据处理流程,一步步推敲,重建出程序员们得出结论的思维过程。这个数据集不只是完美地展现了信息的传承和知识的积累,还捕捉到了人类工程师做决策的全过程。

这个独家的数据集就是第一次训练的基础,然后Genie就靠自我博弈和自我完善来继续前进。

“我们用这个数据集来训练模型,而不是仅仅给模型提个醒儿,像别人那样干,结果咱们发现,模型现在不只是胡乱生成代码,而是真刀真枪地像个人类工程师那样解决问题了。”Alistair Pullen说。

凭借其对较长上下文对话的支持和持续的改进循环,Genie会迭代和完善其解决方案,直到它们达到预期的结果。

Genie的未来

Genie的推出,对许多软件开发团队带来了新的机遇,借助AI程序员,他们可以在提高生产力的同时减少日常任务时间,把时间花在更重要的地方,而不是天天都忙着复制粘贴、调试和找bug。也许在写这篇文章的时候,Cosine就正在用Genie帮忙找bug和测试呢。

Cosine要做的,还不仅仅是AI程序员。“我们真的相信,我们能够为任何工作和行业编纂人类推理。”Alistair Pullen信心满怀,“软件工程只是最直观的起点,我们迫不及待地想向你展示我们正在做的其他一切。”

那么我们就拭目以待吧。

参考资料

[1]https://cosine.sh/blog/state-of-the-art
[2]https://venturebeat.com/programming-development/move-over-devin-cosines-genie-takes-the-ai-coding-crown/