开源大模型领域迎来新突破。“问小白”正式发布其第四代开源模型XBaio4,该模型在复杂推理能力上表现卓越,其Medium模式已全面超越OpenAIo3-mini,并在部分基准测试中优于AnthropicClaudeOpus。
XBaio4引入了创新的“反思型生成范式”,通过结合Long-CoT强化学习和过程评分学习,实现了深度推理和高效推理链路筛选,同时显著降低了推理成本。
技术突破:独创“反思型生成范式”
XBaio4的核心创新在于其独有的“反思型生成范式”(reflectivegenerativeform)。这一范式将Long-CoT强化学习与过程评分学习(ProcessRewardLearning)相结合,使得单个模型能够同时完成两个关键任务:
-
深度推理:像人类一样进行多步骤的复杂思考。
-
高质量推理链路筛选:能够评估和选择
最优的推理路径。
更值得关注的是,XBaio4通过共享过程评分模型(PRMs)和策略模型的主干网络,将过程评分的推理耗时降低了99%。这一优化大幅提升了模型的运行效率,为实际应用提供了坚实基础。
性能卓越:多基准测试领先
XBaio4模型提供了三种模式(low、medium、high),以适应不同复杂度的任务需求。在多项关键基准测试中,其强大性能得到了充分验证:
-
在Medium模式下,XBaio4全面超越了OpenAI的o3-mini模型。
-
在部分基准测试中,其表现甚至优于Anthropic的ClaudeOpus。
-
该模型在AIME24、AIME25、LiveCodeBenchv5、C-EVAL等多个测试中均展现出卓越的推理能力。
“问小白”已在GitHub上开源了相关的训练和评估代码,这不仅为AI研究社区提供了宝贵的资源,也预示着开源大模型在复杂推理领域的竞争力正在迅速增强。
地址:https://github.com/MetaStone-AI/XBai-o4