OpenAI发布会第十二天,推出最新一代推理模型 o3 和 o3-mini.
o3 是高性能推理模型,o3-mini 则在保持智能的同时优化了性能和成本,目前仅开放用于公共安全测试,预计一月底推出 o3-mini,随后推出 o3.
o3 在软件测试基准 SWE-bench Verified 上准确率达 71.7%,比 o1 提升 20%,在 CodeForce 竞赛编程上达到 2727 ELO 分数,AIME 数学竞赛准确率达 96.7%(o1 为 83.3%),在博士级科学问题基准 GPQA Diamond 上达到 87.7%,在 ARC-AGI 测试上首次突破人类水平阈值(85%),达到 87.5%.
微信扫描下方的二维码阅读本文
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)