开源模型 Sa2VA,字节跳动推出统一的图像和视频密集接地理解模型,将SAM 2与LLaVA结合,实现对图像和视频的密集理解 让我们看看演示视频吧! Sa2VA,字节跳动推出统一的图像和视频密集接地理解模型...
开源模型 Stable Point Aware 3D,Stability AI推出的可在一秒钟内从单个图像实时编辑和生成3D对象的完整结构 让我们看看演示视频吧! Stable Point Aware 3D,Stabil...
开源模型 TangoFlux,开源的文本转音频生成模型,在A40 GPU上可以 3 秒内生成长达 30 秒的 44.1kHz 立体声音频 TangoFlux,开源的文本转音频生成模型,在A40 GPU上可以 3 秒内生...