Megrez-3B-Omni，无问芯穹开源的全球首个端侧全模态理解模型，同时具备图片、文本、音频三种模态数据的理解分析能力

让我们看看演示视频吧！

Megrez-3B-Omni，无问芯穹开源的全球首个端侧全模态理解模型，同时具备图片、文本、音频三种模态数据的理解分析能力。

在图像理解方面，基于SigLip-400M构建图像Token，在OpenCompass榜单上（综合8个主流多模态评测基准）平均得分66.2，超越LLaVA-NeXT-Yi-34B等更大参数规模的模型。Megrez-3B-Omni也是在MME、MMMU、OCRBench等测试集上目前精度最高的图像理解模型之一，在场景理解、OCR等方面具有良好表现。

在语言理解方面，Megrez-3B-Omni并未牺牲模型的文本处理能力，综合能力较单模态版本（Megrez-3B-Instruct）精度变化小于2%，保持在C-EVAL、MMLU (Pro）、AlignBench等多个测试集上的最优精度优势，依然取得超越上一代14B模型的能力表现。

在语音理解方面，采用Qwen2-Audio/whisper-large-v3的Encoder作为语音输入，支持中英文语音输入及多轮对话，支持对输入图片的语音提问，根据语音指令直接响应文本，在多项基准任务上取得了领先的结果。

Github地址：https://github.com/infinigence/Infini-Megrez

模型下载地址：https://huggingface.co/Infinigence/Megrez-3B-Omni

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Megrez-3B-Omni，无问芯穹开源的全球首个端侧全模态理解模型，同时具备图片、文本、音频三种模态数据的理解分析能力

评论(0)

提示：请文明发言取消回复

每日推文

Megrez-3B-Omni，无问芯穹开源的全球首个端侧全模态理解模型，同时具备图片、文本、音频三种模态数据的理解分析能力

相关文章

ColorFlow，利用上下文信息在图像序列着色中实现精细 ID 保留的模型

rStar-Math，微软开源的小型语言模型，可以与甚至超越 OpenAI o1-mini 的数学推理能力相媲美

MiniMax-01，MiniMax开源的基础语言模型MiniMax-Text-01和可视化多模态模型MiniMax-VL-01，4 M超长上下文

shou_xin，基于Flux训练的艺术家手訫风格的Flux LoRA

评论(0)

提示：请文明发言 取消回复

标签云

每日推文

提示：请文明发言取消回复