Sa2VA

Sa2VA，字节跳动推出统一的图像和视频密集接地理解模型，将SAM 2与LLaVA结合，实现对图像和视频的密集理解

让我们看看演示视频吧！ Sa2VA，字节跳动推出统一的图像和视频密集接地理解模型...