在人工智能的激烈竞争中,阿里云再一次发力,正式推出了其
Qwen3-Max-Instruct版本在代码能力和智能体表现上都有了质的飞跃,特别是在知识推理、编程能力、指令遵循和多语言理解等多个领域,Qwen3-Max的表现均处于行业领先水平。阿里云的通义团队还透露,另一个正在训练中的版本Qwen3-Max-Thinking已展现出非凡的潜力,预计很快将与公众见面。这个“思考”版本在一些高难度的推理测试中取得了100%的准确率,显示了其出色的推理能力。
在训练方面,Qwen3-Max模型的预训练使用了36万亿个tokens,得益于其独特的MoE模型结构设计,训练过程稳定且高效。通过PAI-FlashMoE的优化,Qwen3-Max的训练效率显著提高,能够支持长达1M的上下文训练。同时,阿里云还通过多种技术手段降低了因硬件故障带来的时间损失,确保了训练的高效进行。
在实际应用中,Qwen3-Max-Instruct已在LMArena的文本排行榜上稳居全球前三,超越了知名的GPT-5-Chat。在专注于现实编程挑战的基准测试SWE-BenchVerified中,Qwen3-Max-Instruct取得了69.6的高分,显示了其卓越的编程能力。而在智能体工具调用能力的测试Tau2-Bench中,Qwen3-Max-Instruct也以74.8分的优异成绩,成功超越了ClaudeOpus4和DeepSeek-V3.1。
可以说,阿里云的Qwen3-Max不仅在技术参数上领先,更在应用性能上展现了强大的能力,为人工智能的未来发展注入了新的动力。