火山 Force 大会,发布豆包视觉理解模型和豆包 3D 生成模型,日均 Token 调用量已经超过 4 万亿。
豆包视觉理解模型:
更强的内容识别能力:动作情绪、位置、中国特色内容、文字符号理解能力都有很大提升。
更强的推理能力:解视觉内容中的文字、图像、图表等信息,进行数学、逻辑、代码等推理。
更细腻的视觉描述能力:可以更详细的描述图像呈现的内容,基于图像内容进行文字创作。
3D 生成模型:支持文生图生和多模态生成,只需要 1 分钟就可以生成 3D 资产。
豆包音乐模型升级:用户只需要上传图片或者文字描述就能生成超过 3 分钟的音乐作品,包含十多种风格和情绪,可以在海绵音乐体验。
豆包文生图模型升级:实现产品化通用图片编辑,可以通过文字编辑图像,而且现在可以写中文,用来生成海报等中文营销内容很有帮助。
火山引擎还宣布,2025年春季将推出豆包端到端实时语音模型和视频生成模型1.5版,端到端实时语音模型支持多角色演绎和方言转换等新能力,视频生成模型1.5版支持1分钟长视频生成。
微信扫描下方的二维码阅读本文
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)