华人开源最强「AI 程序员」炸场,让 GPT-4 自己修 Bug!

阿菜 热点要闻 2024-04-04 11:13:20

自从“AI 程序员”Devin问世之后,近期的一大趋势就是程序员们争先恐后地要让自己失业,试图抢先造出比自己更强大的程序员。而普林斯顿大学的SWE-agent项目正是在这个背景下应运而生的,该项目将在4月10日正式发布,目前已在GitHub上开源。

SWE-agent与其他“AI 程序员”相比,最大的特点就是将GPT-4这样的大型语言模型转化为软件工程代理,使其能够修复真实GitHub仓库中的错误和问题。SWE-agent在软件工程基准测试中的准确度与Devin相当,但在解决GitHub仓库问题上的性能甚至超过了Devin:SWE-agent平均只需93秒就能修完Bug。

虽然SWE-agent修复问题的比例略低于Devin,但SWE-agent有一个巨大的优势:开源。这也证明了开源模型有能力追赶甚至超越闭源模型的性能。SWE-agent的高精度显示了其处理复杂软件工程任务的能力。

SWE-agent的代理计算机接口是其核心特性之一,支持代码的编辑和执行。这一设计旨在简化代理与代码的交互,提高任务执行效率。通过提供特定命令,代理计算机接口确保了代理与代码库之间的无缝交互。

在SWE-agent的开发过程中,发现限制AI系统访问的信息量可以提升其性能。通过限制系统一次查看100行代码,而不是整个文件,代理的规划和执行变得更加高效。这种优化策略对SWE-agent的整体性能有显著提升。

总的来看,SWE-agent的发布简单明了,没有炒作成分。在即将发布的论文中,普林斯顿大学团队将深入探讨代理的技术架构、算法和性能优化策略,以及成本控制策略。SWE-agent的问世,让我们看到了工程的实质是回归基础并注重实用性的改进措施。华人程序员John Yang的工作成果,让人们对AI程序员的未来充满期待。