OPENAI O3 在 ARC-AGI-PUB 中取得突破性的高分
OpenAI 的新 o3 系统——基于 ARC-AGI-1 公共训练集训练——在公开排行榜上声明的$10k 计算限制下,于半私有评估集上取得了突破性的 75.7%得分。高计算量(172 倍)的 o3 配置则达到了 87.5%。
这是 AI 能力的一次令人惊讶且重要的阶跃式提升,展示了 GPT 系列模型前所未有的任务适应能力。回顾一下,从 2020 年 GPT-3 的 0%到 2024 年 GPT-4o 的 5%,ARC-AGI-1 花了 4 年时间。所有关于 AI 能力的直觉都需要为 o3 进行更新。
ARC Prize 的使命超越了我们的首个基准:成为通向 AGI 的北极星。我们很高兴明年能与 OpenAI 团队及其他伙伴合作,继续设计下一代、持久的 AGI 基准。
ARC-AGI-2(相同格式 - 验证对人类简单,对 AI 更难)将与 ARC 大奖 2025 一同推出。我们致力于举办大奖赛,直至产生一个高效、开源且得分达到 85%的解决方案。
请继续阅读完整的测试报告。