全新多语种编码器 mmBERT：超越 XLM-R，提升速度与效率

6 0 0

近日，约翰霍普金斯大学的一组研究人员推出了mmBERT，这是一款新型的多语种编码器，旨在填补当前多语种自然语言处理领域的空白。该模型在多个任务上超越了XLM-R，且在速度上比以往模型提升了2到4倍，为多语种应用的研究和开发提供了更强大的支持。

mmBERT的架构分为两种主要配置:基础模型和小型模型。基础模型拥有22层变换器，隐藏层维度为1152，总参数量约为3.07亿，而小型模型的参数量则为1.4亿。mmBERT采用了先进的Gemma2分词器，支持256k的词汇量，利用旋转位置嵌入（RoPE）和FlashAttention2技术，显著提高了处理效率。同时，该模型的序列长度从1024个令牌扩展到8192个令牌，意味着其可以处理更长的上下文信息。

在训练数据方面，mmBERT使用了来自多个来源的3万亿个令牌，覆盖了1833种语言。其中，英语在整个语料库中仅占10%至34%。训练分为三个阶段:预训练、阶段中训练和衰减阶段。在每个阶段中，模型逐步接触更多的语言和更高质量的数据，这种方法有助于提高低资源语言的表现。

mmBERT在多个基准测试中展现了其卓越的性能。在英语自然语言理解（GLUE）任务中，mmBERT的基础模型得分为86.3，超越了XLM-R的83.3。在多语种自然语言理解(XTREME)任务中，mmBERT的得分为72.8，也高于XLM-R的70.4。此外，在嵌入任务和代码检索任务中，mmBERT同样表现出色，显示出其在多种应用场景中的潜力。

通过对低资源语言的特别关注，mmBERT确保这些语言在训练过程中也能得到充分的利用。在多项基准测试中，mmBERT在法罗语和提格雷尼亚语等低资源语言的表现均优于其他大型模型，证明了编码器模型在经过精心训练后，可以有效应对低资源场景的挑战。

mmBERT不仅提升了多语种处理的速度和效率，还为下一代的多语种自然语言处理系统奠定了坚实的基础。它以高效、开放的方式重新定义了多语种编码器的潜力，标志着一个新时代的到来。

github：https://github.com/JHU-CLSP/mmBERT?tab=readme-ov-file

划重点:

🌍mmBERT模型在多个任务上超越了XLM-R，成为多语种NLP的新标杆。

⚡该模型速度提升2至4倍，支持处理高达8192个令牌的输入。

📊mmBERT特别关注低资源语言的训练表现，展现出强大的适应能力和广泛应用潜力。

打赏赞

# AI资讯 # FlashAttention2 # Gemma2分词器 # mmBERT # 多语种自然语言处理

文章版权归作者所有，未经允许请勿转载。

未来五年，AI 可能取代一半入门级白领工作

阿力

32 0

Character.AI推出全球首个AI原生社交动态：多模态创作重新定义互动体验

阿力

19 0

网易灵动重磅发布“灵掘”：露天矿山迈入具身智能新纪元

阿力

29 0

包青天”智能重生”！华南师大发布国内首个法律AI大模型，2亿裁判文书秒变法律助手

阿力

8 0

马斯克宣布 Grok V7基础模型完成预训练，具备原生多模态能力

阿力

9 0

秘塔AI搜索全新 “极速” 模型上线，实现400 tokens /秒极速响应

阿力

28 0

暂无评论

暂无评论...

全新多语种编码器 mmBERT：超越 XLM-R，提升速度与效率

加州州议会通过AI伴侣聊天机器人监管法案，旨在保护未成年人

Replit发布Agent 3智能开发助手，运行时长提升至200分钟

相关文章

暂无评论

热门文章

热门标签

全新多语种编码器 mmBERT：超越 XLM-R，提升速度与效率

相关文章：

加州州议会通过AI伴侣聊天机器人监管法案，旨在保护未成年人

Replit发布Agent 3智能开发助手，运行时长提升至200分钟

相关文章

暂无评论

热门文章

热门标签