XVERSE-MoE-A36B，元象XVERSE开源MoE模型，免费商用

XVERSE-MoE-A36B 是由深圳元象科技自主研发的支持多语言的大语言模型（Large Language Model），使用混合专家模型（MoE，Mixture-of-experts）架构，模型的总参数规模为 2554 亿，实际激活的参数量为 360 亿，本次开源的模型为底座模型 XVERSE-MoE-A36B，主要特点如下：

模型结构：XVERSE-MoE-A36B 为 Decoder-only 的 Transformer 架构，将密集模型的 FFN 层扩展为专家层，不同于传统 MoE 中每个专家的大小与标准 FFN 相同（如Mixtral 8x7B ），使用了更细粒度的专家，每个专家是标准 FFN 大小的 1/4，并设置了共享专家（Shared Expert）和非共享专家（Non-shared Expert）两类，共享专家在计算时始终被激活，非共享专家通过 Router 选择性激活。

训练数据：构建了海量高质量、多样化的数据对模型进行充分训练，包含中、英、俄、西等 40 多种语言，通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，也能兼顾其他语言效果；模型使用 8K 长度的训练样本进行训练；在模型训练过程中进行了若干次数据的切换，来动态的引入持续处理的高质量数据，同时伴随数据采样比的调整。

训练策略：在切换数据的同时，为了使模型对新进数据进行快速且充分的学习，对学习率调度器也进行了相应调整。

训练框架：针对 MoE 模型中独有的专家路由和权重计算逻辑，进行了深入定制优化，开发出一套高效的融合算子，以提升计算效率。同时，为解决 MoE 模型显存占用和通信量大的挑战，设计了计算、通信和 CPU-Offload 的 Overlap 处理方式，从而提高整体吞吐量。

Github地址：https://github.com/xverse-ai/XVERSE-MoE-A36B

模型下载地址：https://huggingface.co/xverse

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

XVERSE-MoE-A36B，元象XVERSE开源MoE模型，免费商用

评论(0)

提示：请文明发言取消回复

每日推文

XVERSE-MoE-A36B，元象XVERSE开源MoE模型，免费商用

相关文章

OLMoE，完全开源的1B大小MoE模型，能力超过LLaMA 2 13B

Qwen2.5 VL，Qwen开源的视觉语言模型，可以理解超过 1 小时的视频

AuraFlow v0.3，完全开源的文本到图像生成模型

Florence-VL，微软开源的增强视觉语言模型，对图片理解能力很强

评论(0)

提示：请文明发言 取消回复

标签云

每日推文

提示：请文明发言取消回复