Qwen2-VL,基于 Qwen2 打造,参数有72B、7B、2B三种,能理解超20分钟视频,媲美GPT-4o
最新一代的视觉语言模型:Qwen2-VL !Qwen2-VL 基于 Qwen2 打造,相比 Qwen-VL,它具有以下特点:
读懂不同分辨率和不同长宽比的图片:Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。
理解20分钟以上的长视频:Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。
能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。
多语言支持:为了服务全球用户,除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
我们从六个方面来评估我们模型的视觉能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力。整体来看,我们 72B 规模的模型在大部分的指标上都达到了最优,甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型,特别是在文档理解方面优势明显,仅在对综合的大学题目上和 GPT-4o 还有差距。同时 Qwen2-VL 72B 也刷新了开源多模态模型的最好表现。
项目地址:https://qwenlm.github.io/zh/blog/qwen2-vl/
Github地址:https://github.com/QwenLM/Qwen2-VL
在线体验:https://huggingface.co/spaces/Qwen/Qwen2-VL
微信扫描下方的二维码阅读本文
评论(0)