开源模型

HunyuanVideo-I2V，腾讯开源的图像转视频模型，可以自定义特效的 LoRA 训练

HunyuanVideo-I2V，腾讯开源的图像转视频模型，可以自定义特效的 L...

Spark-TTS，基于 Qwen2.5 构建文本转语音系统，支持中英文，并具备跨语言、代码切换场景的零样本语音克隆能力

Spark-TTS，基于 Qwen2.5 构建文本转语音系统，支持中英文，并具备...

QwQ-32B，Qwen开源的中型推理模型，能够媲美 DeepSeek-R1、o1-mini 等最先进的推理模型

QwQ-32B，Qwen开源的中型推理模型，能够媲美 DeepSeek-R1、o...

DiffRhythm，基于扩散模型的端到端音乐模型，可以在 10 秒内生成一首完整包含人声和伴奏的歌曲

DiffRhythm，基于扩散模型的端到端音乐模型，可以在 10 秒内生成一首完...

Aya Vision，Cohere For AI开源的视觉模型，支持全球23种语言

Aya Vision，Cohere For AI开源的视觉模型，支持全球23种语...

ART，微软开源的可以生成多图层透明图片

ART，微软开源的可以生成多图层透明图片，只需要一个全局标题即可生成多个图层，无...

CogView-4，智谱开源的支持原生中文输入，支持中文文本转图片

CogView-4，智谱开源的支持原生中文输入，支持中文文本转图片，生成的图片宽...

PhotoDoodle，通过文本提示词进行照片涂鸦，可直接通过文字进行图像编辑

PhotoDoodle，通过文本提示词进行照片涂鸦，可直接通过文字进行图像编辑。...

LLaDA,开源的Diffusion LLM，8B参数，在性能上可与 LLaMA3 8B 相媲美

LLaDA,开源的Diffusion LLM，8B参数，在性能上可与 LLaMA...

IndexTTS，B站开源的文本到语音（TTS）模型，可以使用拼音纠正汉字的发音，并通过标点符号在任何位置控制暂停

IndexTTS，B站开源的文本到语音（TTS）模型，可以使用拼音纠正汉字的发音...

微软发布 Phi-4-multimodal 和 Phi-4-mini语言模型

微软发布 Phi-4-multimodal 和 Phi-4-mini语言模型，P...

Olmocr，开源的PDF文件提取纯文本模型，可以在本地运行

让我们看看演示视频吧！ Olmocr，开源的PDF文件提取纯文本模型，可以在本地...