在全球人工智能竞争日益激烈的背景下,上海交通大学与深势科技团队联手,成功在被称为“人类最后的考试”(HLE)中取得了32.1分的惊人成绩,
这项研究推出了名为X-Master的工具增强型推理智能体,以及多智能体工作流系统X-Masters。这套方案不仅在技术上表现出色,团队还将其开源,进一步推动AI领域的合作与发展。
X-Master的核心理念在于模拟人类研究者解决问题的动态过程,能够在内部推理与外部工具之间无缝切换。当遇到无法解决的问题时,X-Master会将行动计划编写成代码,通过各种工具(如NumPy和SciPy)执行这些代码,并将结果整合回智能体的知识体系中。这一过程形成了一个高效的反馈循环,使得智能体不断优化推理过程。
X-Masters的设计则更为复杂,采用分散-堆叠式的智能体工作流,能够提升推理的广度和深度。在分散阶段,多个求解器并行工作,生成不同的解决方案,同时由批评者智能体对方案进行评估与改进。接下来,重写器智能体将所有输出汇总成更优方案,最终由选择器智能体选出
在这项测试中,X-Masters在生物学/医学类别的表现也格外突出,超越了现有的智能体系统,显示出其在复杂问题上的强大能力。
“人类最后的考试”由AI安全中心与ScaleAI于今年初发起,旨在评估AI系统的智能水平,题目来自500多家机构的1000多名学者,难度相当高。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...