开源模型 Sa2VA,字节跳动推出统一的图像和视频密集接地理解模型,将SAM 2与LLaVA结合,实现对图像和视频的密集理解 让我们看看演示视频吧! Sa2VA,字节跳动推出统一的图像和视频密集接地理解模型...