AI开源

MinMo，阿里推出的语音交互的多模态大语言模型

让我们看看演示视频吧！ MinMo，阿里推出的语音交互的多模态大语言模型，具有大...

LLaVA-Mini，开源的多模态模型，可以高效地支持图像、高分辨率图像和视频的理解

LLaVA-Mini，开源的多模态模型，可以高效地支持图像、高分辨率图像和视频的...

Kokoro，开源的TTS模型，8200 万个参数，支持多种语言

让我们看看演示视频吧！ Kokoro，开源的TTS模型，8200 万个参数，在 ...

Wren AI，通过自然语言转换为 SQL 查询。还可以生成图表分析、数据表格以及报告等

让我们看看演示视频吧！ Wren AI，通过自然语言转换为 SQL 查询。还可以...

NeuralSVG，从具有有序和可编辑形状的文本提示生成矢量图形

NeuralSVG，从具有有序和可编辑形状的文本提示生成矢量图形。项目地址：h...

Sa2VA，字节跳动推出统一的图像和视频密集接地理解模型，将SAM 2与LLaVA结合，实现对图像和视频的密集理解

让我们看看演示视频吧！ Sa2VA，字节跳动推出统一的图像和视频密集接地理解模型...

ViTPose，开源的动作预估模型，输入视频，可以预估每一帧的动作

让我们看看演示视频吧！ ViTPose，开源的动作预估模型，输入视频，可以预估每...

moondream，开源的视觉语言模型，2B大小，具有20亿个参数，性能接近QWen2-VL 2B

moondream，开源的视觉语言模型，2B大小，具有20亿个参数，性能接近QW...

FitDiT，开源的AI虚拟试穿，支持选择换上半身、下半身还是整套

FitDiT，开源的AI虚拟试穿，支持选择换上半身、下半身还是整套。 Githu...

Hallo3，百度开源的Hallo的第三个版本，输入音频和角色图片，可以生成该角色讲对应语音的视频，嘴型与语音匹配，有表情，有头部动作

让我们看看演示视频吧！ Hallo3，百度开源的Hallo的第三个版本，输入音频...

TACO，开源的多模态动作模型，通过调用外部工具执行中间步骤，然后整合思想和行动输出以产生连贯的响应

让我们看看演示视频吧！ TACO，开源的多模态动作模型，在推理过程中，TACO产...

Stable Point Aware 3D，Stability AI推出的可在一秒钟内从单个图像实时编辑和生成3D对象的完整结构

让我们看看演示视频吧！ Stable Point Aware 3D，Stabil...