在人工智能领域,又一重磅消息传来。今天凌晨,知名大模型训练平台Together.ai与Agentica联合推出了开源AIAgent框架DeepSWE。这一创新系统是基于阿里
DeepSWE的开源信息可在HuggingFace上获取,除了模型权重外,训练方法、日志和数据集等所有相关内容也一并公开,旨在帮助开发者更深入地学习和改进这一代理系统。
根据SWE-Bench-Verified测试结果,DeepSWE在64k的
DeepSWE的训练采用了rLLM框架,这是一个专门用于语言智能体后期训练的系统。它在64个H100GPU上,对来自R2E-Gym训练环境的4500个真实世界软件工程任务进行了为期6天的训练。这些任务包括解决GitHub问题、实现新代码功能和调试等,展示了现实世界软件工程的多样性。
在训练过程中,DeepSWE通过与环境的互动,学习如何在广泛的代码库中进行浏览、针对性编辑代码、运行构建和测试的shell命令,并在处理实际拉取请求时优化解决方案。数据集管理方面,使用了R2E-Gym子集中的4500个问题,确保了训练数据的纯净性和相关性。
训练环境围绕R2E-Gym构建,支持可扩展的高质量可执行软件工程环境。奖励机制则采用稀疏结果奖励模型,只有当生成的补丁通过所有测试时才给予正奖励,促进了更有效的学习。
DeepSWE的训练还采用了改进版的GRPO++算法,通过整合多项创新,实现了更稳定和高效的训练过程。此外,研究人员还发现,在针对软件工程任务时,增加输出token数量的效果不明显,而通过滚动数量扩展则显著提升了模型性能。
这一系列的努力,使得DeepSWE成为了一款极具潜力的AI代理系统,推动了强化学习在实际应用中的进步。
开源地址:https://huggingface.co/agentica-org/DeepSWE-Preview
划重点:
🌟DeepSWE是基于Qwen3-32B模型,完全通过强化学习训练而成,开源信息已全面发布。
🏆在SWE-Bench-Verified测试中,DeepSWE表现出色,Pass@1准确率达到了59%,成为所有开源代理中的佼佼者。
💡采用了rLLM框架和改进的GRPO++算法,DeepSWE在实际软件工程任务中展现了其强大的学习能力和应用潜力。