Hunyuan-A13B是一个由腾讯
这款模型采用了细粒度MoE(Mixture-of-Experts)架构,拥有130亿活跃参数,但总参数量高达800亿。这种设计让它在保持高效和可扩展性的同时,能够提供前沿的推理能力和通用应用支持。
Hunyuan-A13B的核心功能亮点包括:
-
支持快慢思维的混合推理模式:这种独特的推理机制让模型能够根据任务需求灵活调整思考深度,提升处理复杂问题的效率。
-
原生256K超长上下文理解能力:这意味着模型可以处理极长的文本输入,使其在需要大量背景信息的任务中表现出色。
-
在智能体任务上的卓越表现:Hunyuan-A13B在执行各类智能体(Agent)相关任务时展现出强大的能力。
为了实现高效推理,Hunyuan-A13B采用了GroupedQueryAttention(GQA)技术,并支持多种量化格式。目前,该模型已开源预训练、指令微调、FP8和INT4量化版本,方便开发者使用。
在多项基准测试中,Hunyuan-A13B都展现出强大的竞争力,尤其是在数学、科学、编码、推理和智能体领域。
腾讯为开发者提供了全面的支持,包括使用HuggingFaceTransformers进行交互和模型训练的详细指南。同时,对于模型部署,Hunyuan-A13B也提供了通过TensorRT-LLM、vLLM和SGLang的支持,并提供了预构建的Docker镜像和量化模型部署方案,大大简化了部署流程。
Hunyuan-A13B的开源,无疑为大模型在资源受限环境下的应用开辟了新的可能性,也为AI社区带来了新的创新动力。
开源地址:https://huggingface.co/tencent/Hunyuan-A13B-Instruct
github:https://github.com/Tencent-Hunyuan/Hunyuan-A13B?tab=readme-ov-file