Pixtral 12B，Mistral推出的第一个多模态开源模型-沃图社

Pixtral 12B是Mistral推出的第一个多模态开源模型。原生多模态，使用交错图像和文本数据进行训练，在多模态任务上表现出色，擅长教学跟随，在纯文本基准测试中保持最先进的性能。

Pixtral 经过训练可以理解自然图像和文档，在 MMMU 推理基准上取得了 52.5% 的成绩，超过了许多大型模型。该模型在图表和图形理解、文档问答、多模态推理和指令遵循等任务中表现出很强的能力。Pixtral 能够以自然分辨率和纵横比摄取图像，让用户可以灵活地选择用于处理图像的令牌数量。Pixtral 还能够在其 128K 令牌的长上下文窗口中处理任意数量的图像。与以前的开源模型不同，Pixtral 不会为了在多模态任务中表现出色而牺牲文本基准性能。

官方博文：https://mistral.ai/news/pixtral-12b/

模型下载地址：https://huggingface.co/mistralai/Pixtral-12B-2409

在线体验：https://chat.mistral.ai/chat

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Pixtral 12B，Mistral推出的第一个多模态开源模型

评论(0)

提示：请文明发言取消回复

每日推文

Pixtral 12B，Mistral推出的第一个多模态开源模型

相关文章

Mann-E_Art，艺术风格的绘画模型，基于SDXL，使用1000张Midjourney生成的艺术家风格图片训练

Meta Movie Gen，Meta推出的AI视频模型，支持文字生成视频、文字编辑视频、生成音效和配乐

VFusion3D，Meta开源的图片生成3D模型

OmniGen，自带ControlNet和IPAdapter功能的AI绘图模型

评论(0)

提示：请文明发言 取消回复

标签云

每日推文

提示：请文明发言取消回复