Qwen2-VL,基于 Qwen2 打造,参数有72B、7B、2B三种,能理解超20分钟视频,媲美GPT-4o

最新一代的视觉语言模型:Qwen2-VL !Qwen2-VL 基于 Qwen2 打造,相比 Qwen-VL,它具有以下特点:

读懂不同分辨率和不同长宽比的图片:Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。

理解20分钟以上的长视频:Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。

能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。

多语言支持:为了服务全球用户,除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

我们从六个方面来评估我们模型的视觉能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力。整体来看,我们 72B 规模的模型在大部分的指标上都达到了最优,甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型,特别是在文档理解方面优势明显,仅在对综合的大学题目上和 GPT-4o 还有差距。同时 Qwen2-VL 72B 也刷新了开源多模态模型的最好表现。

Qwen2-VL,基于 Qwen2 打造,参数有72B、7B、2B三种,能理解超20分钟视频,媲美GPT-4o插图

项目地址:https://qwenlm.github.io/zh/blog/qwen2-vl/

Github地址:https://github.com/QwenLM/Qwen2-VL

在线体验:https://huggingface.co/spaces/Qwen/Qwen2-VL



    微信扫描下方的二维码阅读本文

    Qwen2-VL,基于 Qwen2 打造,参数有72B、7B、2B三种,能理解超20分钟视频,媲美GPT-4o插图1

    声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。