Pixtral 12B是Mistral推出的第一个多模态开源模型。原生多模态,使用交错图像和文本数据进行训练,在多模态任务上表现出色,擅长教学跟随,在纯文本基准测试中保持最先进的性能。

Pixtral 经过训练可以理解自然图像和文档,在 MMMU 推理基准上取得了 52.5% 的成绩,超过了许多大型模型。该模型在图表和图形理解、文档问答、多模态推理和指令遵循等任务中表现出很强的能力。Pixtral 能够以自然分辨率和纵横比摄取图像,让用户可以灵活地选择用于处理图像的令牌数量。Pixtral 还能够在其 128K 令牌的长上下文窗口中处理任意数量的图像。与以前的开源模型不同,Pixtral 不会为了在多模态任务中表现出色而牺牲文本基准性能。

Pixtral 12B,Mistral推出的第一个多模态开源模型插图

官方博文:https://mistral.ai/news/pixtral-12b/

模型下载地址:https://huggingface.co/mistralai/Pixtral-12B-2409

在线体验:https://chat.mistral.ai/chat



微信扫描下方的二维码阅读本文

Pixtral 12B,Mistral推出的第一个多模态开源模型插图1

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。