Sa2VA，字节跳动推出统一的图像和视频密集接地理解模型，将SAM 2与LLaVA结合，实现对图像和视频的密集理解

2025-01-12 开源模型

让我们看看演示视频吧！

Sa2VA，字节跳动推出统一的图像和视频密集接地理解模型，将SAM 2与LLaVA结合，实现对图像和视频的密集理解。

Github地址：https://github.com/magic-research/Sa2VA

论文地址：https://arxiv.org/abs/2501.04001

模型下载地址：https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093

在线体验：https://huggingface.co/spaces/fffiloni/Sa2VA-simple-demo

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Sa2VA 开源模型

评论(0)

提示：请文明发言取消回复