OpenAI o3模型基准测试成绩遭质疑,实测分数远不及宣称
IT之家 4 月 21 日消息,OpenAI 的 o3 人工智能模型的第一方与第三方基准测试结果存在显著差异,引发了外界对其公司透明度和模型测试实践的质疑。去年 12 月,OpenAI 首次发布 o3 模型时宣称,该模型能够在 FrontierMath 这一极具挑战性的数学问题集上正确回答超过四分 ......
OpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判
IT之家2025-01-20 08:00发布于湖北IT之家官方账号IT之家 1 月 20 日消息,科技媒体 TechCrunch 昨日(1 月 19 日)发布博文,报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议,其开发的数学基准测试 FrontierMath 的客观性受到质疑。IT之家简要介绍下 Epoch AI ......