华人开源最强「AI 程序员」炸场，让 GPT-4 自己修 Bug！

阿菜热点要闻 2024-04-04 11:13:20

自从“AI 程序员”Devin问世之后，近期的一大趋势就是程序员们争先恐后地要让自己失业，试图抢先造出比自己更强大的程序员。而普林斯顿大学的SWE-agent项目正是在这个背景下应运而生的，该项目将在4月10日正式发布，目前已在GitHub上开源。

SWE-agent与其他“AI 程序员”相比，最大的特点就是将GPT-4这样的大型语言模型转化为软件工程代理，使其能够修复真实GitHub仓库中的错误和问题。SWE-agent在软件工程基准测试中的准确度与Devin相当，但在解决GitHub仓库问题上的性能甚至超过了Devin：SWE-agent平均只需93秒就能修完Bug。

虽然SWE-agent修复问题的比例略低于Devin，但SWE-agent有一个巨大的优势：开源。这也证明了开源模型有能力追赶甚至超越闭源模型的性能。SWE-agent的高精度显示了其处理复杂软件工程任务的能力。

SWE-agent的代理计算机接口是其核心特性之一，支持代码的编辑和执行。这一设计旨在简化代理与代码的交互，提高任务执行效率。通过提供特定命令，代理计算机接口确保了代理与代码库之间的无缝交互。

在SWE-agent的开发过程中，发现限制AI系统访问的信息量可以提升其性能。通过限制系统一次查看100行代码，而不是整个文件，代理的规划和执行变得更加高效。这种优化策略对SWE-agent的整体性能有显著提升。

总的来看，SWE-agent的发布简单明了，没有炒作成分。在即将发布的论文中，普林斯顿大学团队将深入探讨代理的技术架构、算法和性能优化策略，以及成本控制策略。SWE-agent的问世，让我们看到了工程的实质是回归基础并注重实用性的改进措施。华人程序员John Yang的工作成果，让人们对AI程序员的未来充满期待。