AI开源

Megrez-3B-Omni，无问芯穹开源的全球首个端侧全模态理解模型，同时具备图片、文本、音频三种模态数据的理解分析能力

让我们看看演示视频吧！ Megrez-3B-Omni，无问芯穹开源的全球首个端侧...

Long Volumetric Video，多视角视频重建，能够处理长时间的视频，输入多视角视频，可以构建整个场景

让我们看看演示视频吧！ Long Volumetric Video，多视角视频重...

Meta Motivo，Meta开源的人体动作生成模型

让我们看看演示视频吧！ Meta Motivo，Meta开源的人体动作生成模型，...

Video Seal，Meta开源的视频水印模型，可以在视频中添加肉眼不可见的水印

让我们看看演示视频吧！ Video Seal，Meta开源的视频水印模型，可以在...

Cohere发布Command R7B，以企业为中心的大型语言模型

Cohere发布Command R7B，以企业为中心的大型语言模型，提供 128...

DeepSeek-VL2，DeepSeek推出的MoE视觉多模态模型

DeepSeek-VL2，DeepSeek推出的MoE视觉多模态模型，3B/16...

Mobile Video Diffusion，移动优化视频扩散模型，通过优化 Stable Video 的时空 UNet Diffusion （SVD）中，我们减少了内存和计算需求

让我们看看演示视频吧！ Mobile Video Diffusion，移动优化视...

Leffa，用于生成可控人物图像的统一框架，可以精确处理外观（即虚拟试戴）和姿势（即姿势传输）

Leffa是一个用于生成可控人物图像的统一框架，可以精确处理外观（即虚拟试戴）和...

StableAnimator，提供角色图片参考和动作帧，生成该角色的动作视频

让我们看看演示视频吧！ StableAnimator，提供角色图片参考和动作帧，...

DeepSeek 发布 DeepSeek-V2.5-1210，DeepSeek-V2.5的升级版本

DeepSeek 发布 DeepSeek-V2.5-1210，DeepSeek-...

MMAudio，在给定视频和/或文本输入的情况下生成同步音频

让我们看看演示视频吧！ MMAudio，在给定视频和/或文本输入的情况下生成同步...

shou_xin，基于Flux训练的艺术家手訫风格的Flux LoRA

shou_xin，基于Flux训练的艺术家手訫风格的Flux LoRA，线条风格...