Qwen2-VL，基于 Qwen2 打造，参数有72B、7B、2B三种，能理解超20分钟视频，媲美GPT-4o

最新一代的视觉语言模型：Qwen2-VL ！Qwen2-VL 基于 Qwen2 打造，相比 Qwen-VL，它具有以下特点：

读懂不同分辨率和不同长宽比的图片：Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。

理解20分钟以上的长视频：Qwen2-VL 可理解长视频，并将其用于基于视频的问答、对话和内容创作等应用中。

能够操作手机和机器人的视觉智能体：借助复杂推理和决策的能力，Qwen2-VL 可集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。

多语言支持：为了服务全球用户，除英语和中文外，Qwen2-VL 现在还支持理解图像中的多语言文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

我们从六个方面来评估我们模型的视觉能力，包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力。整体来看，我们 72B 规模的模型在大部分的指标上都达到了最优，甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型，特别是在文档理解方面优势明显，仅在对综合的大学题目上和 GPT-4o 还有差距。同时 Qwen2-VL 72B 也刷新了开源多模态模型的最好表现。

Qwen2-VL，基于 Qwen2 打造，参数有72B、7B、2B三种，能理解超20分钟视频，媲美GPT-4o插图

项目地址：https://qwenlm.github.io/zh/blog/qwen2-vl/

Github地址：https://github.com/QwenLM/Qwen2-VL

在线体验：https://huggingface.co/spaces/Qwen/Qwen2-VL

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Qwen2-VL，基于 Qwen2 打造，参数有72B、7B、2B三种，能理解超20分钟视频，媲美GPT-4o

评论(0)

提示：请文明发言取消回复

每日推文

Qwen2-VL，基于 Qwen2 打造，参数有72B、7B、2B三种，能理解超20分钟视频，媲美GPT-4o

相关文章

DeepSeek开源推理模型DeepSeek-R1-Zero 和 DeepSeek-R1，能力接近OpenAI o1

LLaDA,开源的Diffusion LLM，8B参数，在性能上可与 LLaMA3 8B 相媲美

HunyuanVideo-I2V，腾讯开源的图像转视频模型，可以自定义特效的 LoRA 训练

LLaVA-Video，开源的视频多模态LMM，同时开源了视频训练数据集

评论(0)

提示：请文明发言 取消回复

标签云

每日推文

提示：请文明发言取消回复