此次参赛的模型包括OpenAI的o4-mini、DeepSeek-R1、KimiK2Instruct、Gemini2.5Pro(谷歌)、ClaudeOpus4(Anthropic)、Grok4(xAI)及Gemini2.5Flash等,每一款模型都代表了当前AI领域的最前沿技术。组织方特别邀请了世界
比赛的组织方表示,这场对抗赛的初衷在于推动AI模型在真实对抗环境中的表现评估。随着AI技术的迅猛发展,现有的基准测试方法已难以有效区分模型的真实能力,KaggleGameArena正是为了解决这一问题而设立的。通过在策略游戏中的实际对抗,研究者能够更全面地评估模型的表现。
比赛将采用全员对抗赛制,确保统计结果的可靠性。每对模型之间将进行多场对战,最终的排名将根据对战结果进行严格评定。为了保证透明度,比赛的执行框架和环境将全部开源,观众将能够实时查看对阵表及比赛进展。
比赛将采用单败淘汰制,每场对决包含四局,首先获得两分的模型将晋级。如果对局打成平局,双方将进行加赛决胜局。比赛过程中,每个模型将面临文本输入的挑战,无法调用外部工具如国际象棋引擎进行辅助,增加了比赛的复杂性与趣味性。
谷歌DeepMind联合创始人DemisHassabis表示:“游戏一直是检验AI能力的重要试炼场。我们对KaggleGameArena能推动AI进步感到无比兴奋。随着更多游戏与挑战的加入,AI的能力必将快速提升!”
随着比赛的临近,观众们对最终结果充满期待,大家热切讨论哪款模型将在这场对抗赛中脱颖而出。无论结果如何,此次比赛都将为AI模型的评估方法带来新的思路,并推动相关技术的不断进步。