开源模型
AMD-Hummingbird-T2V,AMD开源的文本转视频模型

DeepSeek V3升级,增强数学和网页设计能力,仍然是开源,代码能力可以媲美Claude 3.5

Qwen开源Qwen2.5-VL-32B视觉模型,超越Mistral-Small-3.1-24B 和 Gemma-3-27B-IT

开源项目
Bottleneck-Sampling,无需训练的框架,它利用低分辨率先验来减少计算开销,同时保持输出保真度

TaoAvatar,阿里推出的通过 3D 技术实现实时逼真的全身说话化身
Video-T1,视频生成的测试时间缩放,TTS 在不同的视频生成模型中持续带来稳定的性能提升

微信扫描下方的二维码阅读本文
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)