开源模型

关于AI的开源的模型

Sa2VA，字节跳动推出统一的图像和视频密集接地理解模型，将SAM 2与LLaVA结合，实现对图像和视频的密集理解

让我们看看演示视频吧！ Sa2VA，字节跳动推出统一的图像和视频密集接地理解模型...

ViTPose，开源的动作预估模型，输入视频，可以预估每一帧的动作

让我们看看演示视频吧！ ViTPose，开源的动作预估模型，输入视频，可以预估每...

moondream，开源的视觉语言模型，2B大小，具有20亿个参数，性能接近QWen2-VL 2B

moondream，开源的视觉语言模型，2B大小，具有20亿个参数，性能接近QW...

FitDiT，开源的AI虚拟试穿，支持选择换上半身、下半身还是整套

FitDiT，开源的AI虚拟试穿，支持选择换上半身、下半身还是整套。 Githu...

TACO，开源的多模态动作模型，通过调用外部工具执行中间步骤，然后整合思想和行动输出以产生连贯的响应

让我们看看演示视频吧！ TACO，开源的多模态动作模型，在推理过程中，TACO产...

Stable Point Aware 3D，Stability AI推出的可在一秒钟内从单个图像实时编辑和生成3D对象的完整结构

让我们看看演示视频吧！ Stable Point Aware 3D，Stabil...

Cosmos，英特尔开源的世界模型，旨在加速自动驾驶汽车（AV）和机器人等物理AI系统的开发

让我们看看演示视频吧！ Cosmos，英特尔开源的世界模型，旨在加速自动驾驶汽车...

VITA-1.5，开源的实时视觉和语音交互，支持英文和中文

让我们看看演示视频吧！ VITA-1.5，开源的实时视觉和语音交互，支持英文和中...

LatentSync，字节跳动开源的端到端的嘴唇型同步模型

让我们看看演示视频吧！ LatentSync，字节跳动开源的端到端的嘴唇型同步模...

TryOffAnyone，与AI试衣相反的模型，从人物身上提取所穿的衣服

TryOffAnyone，与AI试衣相反的模型，从人物身上提取所穿的衣服。 Gi...

TangoFlux，开源的文本转音频生成模型，在A40 GPU上可以 3 秒内生成长达 30 秒的 44.1kHz 立体声音频

TangoFlux，开源的文本转音频生成模型，在A40 GPU上可以 3 秒内生...

HuatuoGPT-o1，基于LLaMA 3和Qwen 2.5医疗领域的思维模型

HuatuoGPT-o1，基于LLaMA 3和Qwen 2.5医疗领域的思维模型...