火山 Force 大会，发布豆包视觉理解模型和豆包 3D 生成模型，日均 Token 调用量已经超过 4 万亿

火山 Force 大会，发布豆包视觉理解模型和豆包 3D 生成模型，日均 Token 调用量已经超过 4 万亿。

豆包视觉理解模型：

更强的内容识别能力：动作情绪、位置、中国特色内容、文字符号理解能力都有很大提升。

更强的推理能力：解视觉内容中的文字、图像、图表等信息，进行数学、逻辑、代码等推理。

更细腻的视觉描述能力：可以更详细的描述图像呈现的内容，基于图像内容进行文字创作。

3D 生成模型：支持文生图生和多模态生成，只需要 1 分钟就可以生成 3D 资产。

豆包音乐模型升级：用户只需要上传图片或者文字描述就能生成超过 3 分钟的音乐作品，包含十多种风格和情绪，可以在海绵音乐体验。

豆包文生图模型升级：实现产品化通用图片编辑，可以通过文字编辑图像，而且现在可以写中文，用来生成海报等中文营销内容很有帮助。

火山引擎还宣布，2025年春季将推出豆包端到端实时语音模型和视频生成模型1.5版，端到端实时语音模型支持多角色演绎和方言转换等新能力，视频生成模型1.5版支持1分钟长视频生成。

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

评论(0)