最强AI程序员砸饭碗：84秒跑通代码，像人一样思考！团队仅5人_ZAKER新闻

2024-08-15 21:22 给恰网

最强AI程序员砸饭碗：84秒跑通代码，像人一样思考！团队仅5人_ZAKER新闻

继 Devin 之后，又一个AI 软件工程师被刷屏了——

它叫Genie，号称目前地表最强，已经可以像人一样思考和行动了！

那么这个 " 地表最强 "，到底强到什么程度？

先来看下评测分数。

在权威榜单 SWE-Bench 中，Genie 以解决了30.07%问题的成绩夺得榜首。

（SWE-Bench 是一个用来评估大模型解决现实中软件问题的基准。）

而这个成绩可谓是遥遥领先第二名 19.27%，解锁了提升 SOTA 的最大增幅—— 57%！

至于 Genie 的实际效果，用团队的话来说就是：

它可以做到像人类工程师一样解决现实生活中的软件问题。

首先，你可以用 4 种方式让 Genie 开始工作，分别是提示词、GitHub Issue、Linear Ticket 或者 API。

以解决 GitHub Issue 为例，先喂给 Genie 一个 repo 的链接，它就开始自动解析问题了：

Genie 会自动迭代思考如果想要解决这个问题它都需要哪些文件，直到它觉得找到了自己满意的为止：

紧接着，它将对问题做一个自动迭代分析的过程：

然后 Genie 就开始 " 唰唰唰 " 地自动写 + 跑代码了：

‍

如果运行代码过程中出现 bug，Genie 会只针对出问题的地方再重复分析、写代码和运行的过程，直至跑通为止。

而整个过程，仅仅耗时84 秒！

用团队的话来说：

Genie 已经观察并学习人类程序员如何解决软件问题的次数达到了数百万次。

这是任何一个人类程序员一辈子都无法达到的数量。

但更令人意想不到的是，Genie 背后的团队——Cosine，才仅仅 5 人。

而且 CEO Alistair 还发文感谢 OpenAI：

没有你们，我们做不出来 Genie。

那么 Cosine 团队，究竟是如何打造 Genie 的呢。

最强 AI 工程师是如何炼成的？

Genie 的主要特点，是能够模仿人类工程师的认知过程、逻辑和工作流。

为做到这一点，Genie 团队透露过去一年收集了一个包含真实人类程序员开发活动的数据集。

其中不仅使用了成果分析、静态分析、自我对弈、逐步验证等方法，还用到了基于大量标记数据训练的 AI 模型。好处是，当基础模型能力提升时，它们能够提取的数据质量也会相应提高。

最终 Genie使用该专有数据进行训练。

数据集中编码了人类推理的完整过程，包括完美的信息溯源、增量知识发现，还有基于软件工程师实际工作案例的逐步决策过程。

Genie 的推理过程包括规划、检索、代码编写和代码运行四个主要步骤，突破了其它 AI 工程师依靠在基础模型之上添加网页浏览器、代码解释器等额外工具的限制，能够像人一样处理多样化的、高度情境的、前所未见的问题。

这种训练方法，让网友们立刻想到，之前 Karpathy 也提出的类似想法：

对于 LLM 来说，理想的训练数据并不是你所写的内容本身，而是你在写作过程中的完整思考过程和每一个编辑动作。然而，我们只能尽力利用现有的资源。

除此之外，Genie 训练中还引入了自我改进机制。

初始训练数据多为可正常运行的没有错误的代码，导致 Genie 导致难以应对错误情况。为解决这个问题，团队使用初代版本的 Genie 生成包含错误的合成数据，然后用这些数据训练下一版模型。

具体来说，使用旧版本 Genie 提出解决方案，如果解决方案错误，就利用掌握的任务最终状态来教它从当前状态达到正确状态。

不断重复这一过程，Genie 提出的初始解决方案逐渐变得更准确，在多数情况下能直接给出正确答案，即使出错也只需在数据集中作较少的修正。

Genie 能力提升的另一大关键，在于 OpenAI 提供的大模型支持。

团队表示，最初开发 Genie 时，只能访问微调 16-32k 范围内的短上下文模型，他们用这些模型进行了大量早期开发，用超 1 亿 token 的数据训练模型，虽然发现设计的架构有一定优势，但从根本上受限于模型在特定时间内可以处理的信息量。

尝试了各种压缩 / 分块方法后，唯一的解决方法就是使用更大上下文的模型。

OpenAI 提供了长上下文模型支持，最新版本的 Genie 经过了数十亿 token 的数据训练。

团队认为，相比超参数调整和数据量，数据的质量才是关键。因此他们还在数据混合方面进行了大量实验，包括语言、任务类型、任务长度等多个维度，以下是训练 Genie 的不同编程语言数据的占比：

还有不同类型实例的数据占比：

只有 5 个人的团队

正如我们在上文提到的，Cosine 这个初创团队人数目前仅仅为 5 人。

在官网的介绍中，他们也非常直接的将自己形容为：

Small but mighty.

虽小但有力。

从介绍来看，成员有的是从独角兽企业出身，有的拥有管理全球团队的经验，甚至还有从 8 岁就开始编程的。

但 Cosine 最初成立之际是仅有 3 人，他们的目标是想把人类推理这件事儿给搞明白。

值得一提的是，团队成员中还有一位是华人，Yang Li，是 Cosine 的联合创始人，在 2021 年登上过福布斯 30 under 30。

除此之外，对于 Genie 本身，CEO Alistair 还表示：

早在 2022 年我们就开始构想 Genie 了，但当时从技术角度来说是不可行的。

直到过去半年多来，随着大模型的逐步成熟，Genie 才能走入现实。

嗯，不得不说，大模型又立功了。

Genie 目前是可以申请 Waitlist 了，感兴趣的小伙伴可以戳文末链接 ~

最后，附上完整字幕翻译的官方视频：

Waitlist 地址：

https://cosine.sh/register

参考链接：

[ 1 ] https://x.com/alistairpullen/status/1822981361608888619?s=46

[ 2 ] https://cosine.sh/blog/genie-technical-report

[ 3 ] https://cosine.sh/blog/state-of-the-art

[ 4 ] https://x.com/AlistairPullen/status/1823030874579120223

[ 5 ] https://x.com/yangli_

标签：

相关推荐

第一批抄底云南民宿的人，已经回来上班了_ZAKER新闻

第一批抄底云南民宿的人，已经回来上班了_ZAKER新闻

2024-08-15 21:19:50 79

第一批抄底云南民宿的人，已经回来上班了_ZAKER新闻领域 | 民宿业首图 | 大理 / 旅界实拍 01 上周我在日本出差，突然收到以前报社老同事 A 君的微信，他用一个流汗表情开场，紧接着...

穆胜：这两个奇葩CHO让我破防了_ZAKER新闻

2024-08-15 21:17:34 59

穆胜：这两个奇葩CHO让我破防了_ZAKER新闻文 | 穆胜在学术身份之外，我从事咨询工作多年，无论是落地战略，还是重塑组织、管理人效，都会接触企业的人力资源一把手（CHO/HRVP/HRD 等...

《时代周刊》选出100件年度最佳发明，这些在改变人类的生活方式

2024-08-15 16:15:47 57

《时代周刊》选出100件年度最佳发明，这些在改变人类的生活方式来源：Design360° 《时代周刊》公布了“年度最佳发明”榜单。这份榜单重点介绍了在过去一年中被创造的让世界变得更...

“爱吃吃，不吃滚！”女子称在沈阳一蜜雪冰城被店员骂，回应：涉事员工被解雇

“爱吃吃，不吃滚！”女子称在沈阳一蜜雪冰城被店员骂，回应：涉事员工被解雇

2024-08-14 18:54:17 174

“爱吃吃，不吃滚！”女子称在沈阳一蜜雪冰城被店员骂，回应：涉事员工被解雇来源 | 潇湘晨报、晨视频记者 | 周凌如实习生 | 胡涵柯 8 月 4 日，沈阳一女子发布视频称，在蜜雪冰...

陈梦回应！

2024-08-14 18:52:01 196

陈梦回应！新华社巴黎 8 月 7 日电中国女子乒乓球队在 7 日的巴黎奥运会女团比赛中晋级半决赛。国乒队员陈梦赛后表示，希望球迷群体能正确面对赛场上的输赢，重在关注运动员在...

日本大阪府部分水体严重污染，约三成受检者血检异常_ZAKER新闻

日本大阪府部分水体严重污染，约三成受检者血检异常_ZAKER新闻

2024-08-14 18:49:44 124

日本大阪府部分水体严重污染，约三成受检者血检异常_ZAKER新闻日本大阪府摄津市一处地下水检测出有机氟化合物含量超标 400 多倍后，当地民间团体组织附近千余名居民进行血液检测...

夏日救星！日产与中国公司联合研发出暴晒不烫手的新车漆

夏日救星！日产与中国公司联合研发出暴晒不烫手的新车漆

2024-08-14 18:47:28 72

夏日救星！日产与中国公司联合研发出暴晒不烫手的新车漆快科技 8 月 8 日消息，炎炎夏日，如果将爱车放到大太阳底下，等到需要上车的时候，那车厢里的温度绝对让人难以忍受，那...

哪吒 S 猎装车官图公布：提供激光雷达，第二排座椅可放平

哪吒 S 猎装车官图公布：提供激光雷达，第二排座椅可放平

2024-08-14 18:45:11 67

哪吒 S 猎装车官图公布：提供激光雷达，第二排座椅可放平 IT 之家 8 月 8 日消息，哪吒汽车今天上午发布了旗下全新车型 —— 全球唯一超级增程 C 级智能猎装轿车哪吒 S 猎装车的更多...

别克撞上4700万柯尼塞格定损406万？车主辟谣：定损结果没出，不会为难对方_

别克撞上4700万柯尼塞格定损406万？车主辟谣：定损结果没出，不会为难对方_

2024-08-14 18:42:55 175

别克撞上4700万柯尼塞格定损406万？车主辟谣：定损结果没出，不会为难对方_ ZAKER新闻近日，浙江宁波的一辆别克车撞上一辆超级跑车柯尼塞格，引发广泛关注。随后，有网传消息称...

女子重庆旅游发烧打吊针被收20元座位费？卫生院：正在核实，应该没有座位费

女子重庆旅游发烧打吊针被收20元座位费？卫生院：正在核实，应该没有座位费

2024-08-14 18:40:39 56

女子重庆旅游发烧打吊针被收20元座位费？卫生院：正在核实，应该没有座位费来源 | 潇湘晨报、晨视频记者 | 周凌如实习生 | 胡涵柯 8 月 4 日，一女子发布视频称，在重庆旅游时突...

422.95万元无人认领！云南一地警方公告：依法上缴国库

422.95万元无人认领！云南一地警方公告：依法上缴国库

2024-08-14 18:38:23 191

422.95万元无人认领！云南一地警方公告：依法上缴国库 8 月 8 日，云南省德宏傣族景颇族自治州芒市公安局发布《关于无主财物处理决定的公告》，详情如下： 2016 年 3 月 16 日，我局依...

湖北390斤壮汉躺地上参加拔河比赛，网友调侃“这就是躺赢”？当事人发声

湖北390斤壮汉躺地上参加拔河比赛，网友调侃“这就是躺赢”？当事人发声

2024-08-14 18:36:07 191

湖北390斤壮汉躺地上参加拔河比赛，网友调侃“这就是躺赢”？当事人发声来源 | 潇湘晨报、晨视频记者 | 张沁实习生 | 赵可盈近日，衡阳祁东县举行的拔河比赛中，一名 390 斤壮汉...

煽动群体矛盾！“魔都囡”等“自媒体”账号被从严处置

煽动群体矛盾！“魔都囡”等“自媒体”账号被从严处置

2024-08-14 18:33:51 130

煽动群体矛盾！“魔都囡”等“自媒体”账号被从严处置上海市互联网信息办公室今天通报：近期，接网民举报，属地部分自媒体账号不择手段蹭炒社会热点，煽动群体矛盾，借机引...

50岁的女人还需要老公吗？两个来过的人给出了自己的看法

50岁的女人还需要老公吗？两个来过的人给出了自己的看法

2024-08-13 13:30:10 78

50岁的女人还需要老公吗？两个来过的人给出了自己的看法婚姻对于每个人来说都是一个重要的话题，而对于50岁的女人来说，是否还需要老公可能是一个引发争议的问题，我们将听...

一个女人管男人太多好不好？聪明老婆怎么管老公才好

一个女人管男人太多好不好？聪明老婆怎么管老公才好

2024-08-13 13:28:04 130

一个女人管男人太多好不好？聪明老婆怎么管老公才好一个女人管男人太多好不好？聪明的你，应该选择哪一种方式管好自己的男人呢？女人管住男人无外乎就只有四种方法，1种是管...

一个女人容忍老公出轨是什么心理(老公让我和他谈谈为什么出轨)

一个女人容忍老公出轨是什么心理(老公让我和他谈谈为什么出轨)

2024-08-13 13:25:59 180

一个女人容忍老公出轨是什么心理(老公让我和他谈谈为什么出轨) 高阳和妻子结婚8年了，但是他却不知道妻子出轨了，只是每次想到这件事，他的心里就会充满内疚和愧疚。他是一个小...

2023年精选形容对老公失望的句子

2023年精选形容对老公失望的句子

2024-08-13 13:23:53 98

2023年精选形容对老公失望的句子 1、最后只剩下幸福后的悲伤。 2、我只是茫茫人海中的一个路人甲。 3、就是他有多爱你。 4、有时也伤感是一种幸福，因为有所期待，所以才会失望，...

一个男人要离婚有几种心理(生病了老公表现很冷漠该不该离婚)

一个男人要离婚有几种心理(生病了老公表现很冷漠该不该离婚)

2024-08-13 13:21:48 73

一个男人要离婚有几种心理(生病了老公表现很冷漠该不该离婚) 当一个男人决定要离婚时，他的行为可能会有很大的变化，而这种变化也会反映在他与老婆之间的关系上。有三种表现特...

一位妻子写给老公的心里话：爱情的真谛与挽回的方法

一位妻子写给老公的心里话：爱情的真谛与挽回的方法

2024-08-13 13:19:43 103

一位妻子写给老公的心里话：爱情的真谛与挽回的方法亲爱的老公：我们相恋已经多年，回想起来，我们一起经历了很多风风雨雨。在这个过程中，我深深地感受到了爱情的真谛和...

一个女人拿着我老公的微信，拍他俩在酒店的视频

一个女人拿着我老公的微信，拍他俩在酒店的视频

2024-08-13 13:17:38 105

一个女人拿着我老公的微信，拍他俩在酒店的视频我和我老公长年分居，今年过完年他回到工作岗位，没两天有一个女人给我发视频，听到他们在酒桌上吃饭的声音，没看到脸我也没有...