OPENAI O3 在 ARC-AGI-PUB 中取得突破性的高分

OpenAI 的新 o3 系统——基于 ARC-AGI-1 公共训练集训练——在公开排行榜上声明的$10k 计算限制下,于半私有评估集上取得了突破性的 75.7%得分。高计算量(172 倍)的 o3 配置则达到了 87.5%。

这是 AI 能力的一次令人惊讶且重要的阶跃式提升,展示了 GPT 系列模型前所未有的任务适应能力。回顾一下,从 2020 年 GPT-3 的 0%到 2024 年 GPT-4o 的 5%,ARC-AGI-1 花了 4 年时间。所有关于 AI 能力的直觉都需要为 o3 进行更新。

ARC Prize 的使命超越了我们的首个基准:成为通向 AGI 的北极星。我们很高兴明年能与 OpenAI 团队及其他伙伴合作,继续设计下一代、持久的 AGI 基准。

ARC-AGI-2(相同格式 - 验证对人类简单,对 AI 更难)将与 ARC 大奖 2025 一同推出。我们致力于举办大奖赛,直至产生一个高效、开源且得分达到 85%的解决方案。

请继续阅读完整的测试报告。

第 37 手:人工智能、随机性与创造力

世界顶级围棋选手李世石在韩国首尔举行的谷歌 DeepMind 挑战赛中对阵谷歌的人工智能程序 AlphaGo,时间为 2016 年 3 月。

第一部分

1.1

与大多数科学研究领域不同,人工智能(AI)研究呈现出一种两极化的存在,交替经历着狂热雄心与自我厌恶的低谷。这种波动的历史始于 1956 年的一个高峰,当时在达特茅斯举行的一个夏季会议上,AI 的奠基者们为这一领域命名并概述了其目标。会议汇聚了新兴计算机科学领域的顶尖人物,包括克劳德·香农、马文·明斯基和约翰·麦卡锡。他们承诺,在“两个月、十人研究”的条件下,将能够在 AI 基本问题上取得“显著进展”。这些问题包括:计算机如何使用语言,“假设性”神经元如何形成概念,以及自我改进在计算机学习中的作用。那个夏天并未取得显著的技术进步,而在接下来的几十年里,基本问题上的进展也微乎其微。迄今为止,AI 研究尚未实现其更深层次的雄心,其有限的成就是否能揭示最简单动物智能的工作机制,仍存疑问。

关于 AI 未来的展望 - 2026

2026 年展望

这篇短文是为 Vignettes Workshop 而作。目标是写出一个详细的未来历史(“轨迹”),尽我目前所能,使其尽可能地贴近现实。也就是说,我目前没有意识到任何其他同样详细且对我来说明显合理的替代轨迹。方法大致是:写一篇关于 2022 年的未来历史。以此为条件,写一篇关于 2023 年的未来历史。对 2024 年、2025 年等重复此过程。(我现在发布 2022-2026 年的内容,以便获得反馈,帮助我撰写 2027 年及以后的内容。我打算一直写下去,直到故事达到奇点/灭绝/乌托邦等。)

如何让写作不那么困难

灵感部分来源于关于朱迪思·巴特勒的写作有多糟糕的再次讨论(答案:真的很糟糕!),我一直在思考关于如何写好的建议。我之前曾指出,很大一部分此类建议是无用的、自相矛盾的,或者经常被提出建议的人自己忽略。(“省略不必要的词语,”威廉·斯特伦克在《风格的要素》中宣称。是的,但是如果你已经知道一个词是不必要的,你就应该不需要被告知要省略它;如果你不知道它是不必要的,斯特伦克的建议又有什么用呢?)

尽管如此,有三条建议对我在写作上的效率产生了实实在在的影响——而且我认为也对我的写作质量产生了影响,尽管这不由我说了算。在这里列出来,以防它们也能帮助你:

构建有效的 LLM 智能体

过去一年,我们与数十个团队合作,在各行各业构建大型语言模型(LLM)智能体。我们发现,最成功的实现并非采用复杂的框架或专门的库,而是基于简单、可组合的模式构建的。

在这篇文章中,我们将分享从与客户合作和自行构建智能体的过程中学到的经验,并为开发者提供构建有效智能体的实用建议。

Vercel v0.dev:评测

探索 AI 驱动的 Web 应用程序构建器

我一直在我的 Web 项目中使用许多 Vercel 产品 - 例如,他们的 Next.js 应用程序框架部署基础设施Vercel AI SDK。我喜欢这些工具,因为它们易于使用和上手,可靠且快速 - 而且它们中的大多数都是开源的,这太棒了 ❤️。

他们最新的创新是 v0.dev,这是一个 AI 驱动的工具,可帮助您使用对话式聊天界面构建前端应用程序。当我第一次听说它时,我以为它只是另一个带有聊天界面的 AI 编码工具,类似于要求 ChatGPT 或 Claude 生成代码。然而,v0.dev 最近宣布了一项重大更新,其中包括与流行的 shadcn UI 组件的集成以及拉取外部 npm 包的能力。所以我决定昨天试用一下。

体验令人震惊。仅仅一个小时,我就能够使用 v0.dev 的聊天界面构建一个功能齐全、外观精美的网站。感觉就像魔法一样 - 一系列“惊掉下巴”的时刻。我非常兴奋,以至于当 George 下班回家时,我跑下楼去滔滔不绝地谈论这个工具有多么棒。有趣的是 - 他已经试用过了,并且印象深刻,只是比我兴奋的反应更平静一些 🙂。

终于,BERT的替代品出现了:ModernBERT 隆重登场

这个博客文章介绍了 ModernBERT,这是一个最先进的仅编码器模型系列,代表了对旧版编码器的全面改进,具有 8192 的序列长度、更好的下游性能和更快的处理速度。

ModernBERT 可作为任何类似 BERT 的模型的即插即用替代品,提供 base (139M 参数) 和 large (395M 参数) 两种模型大小。

推测性解码:实现示例指南

LLMs 非常强大,但它们往往有点慢,这在需要速度的场景中并不理想。推测性解码是一种旨在通过更快生成响应而不牺牲质量来加速 LLMs 的技术。

本质上,这是一种在文本生成过程中“提前猜测”的方法,在保持LLMs所期望的准确性和深度的同时,预测可能出现的下一个词语。

在本篇博客中,我将解释什么是推测性解码,它是如何工作的,以及如何使用 Gemma 2 模型来实现它。

Remix 对比 Next.js

Remix 还是 Next.js?探索哪个 React 框架适合您的需求。比较功能、性能和使用场景。

Next.js 和 Remix 是基于 React 构建的流行框架。它们通过提供构建完整、高性能和 SEO 友好的 Web 应用程序所需的关键功能和工具,扩展了 React 的能力。尽管两者都建立在 React 的基础上,但它们的方法和优势有所不同。

Next.js,作为开发者社区中备受推崇的框架,在 2023 年 JavaScript 现状调查中名列榜首。其受欢迎程度源于其强大的功能、广泛的应用生态系统以及成熟的工具链。Remix 虽然较新且使用不如 Next.js 广泛,但它因专注于提升网站加载速度和改善开发者体验而逐渐为人所知。

本文不会决出胜者;它将成为您客观了解它们优缺点的指南。通过探讨它们的问题解决哲学和理想用例,您将学会做出明智的决策,并选择与您下一个项目需求完美契合的框架。

解锁 Remix.js 在 Web 开发中的强大功能:Remix 为何脱颖而出

作为一名 Web 开发者,您可能已经接触过众多 JavaScript 框架,每个框架都有其独特的优势和挑战。从 React 到 Next.js,Angular 到 Vue,现代生态系统丰富多样,但有时也令人眼花缭乱。Remix.js 登场,作为一个相对较新但功能强大的框架,正在这个领域中崭露头角。尽管仍在不断获得关注,Remix 以其独特的 Web 开发方法,强调速度、简洁以及与 Web 基础协议的更深层次集成,正在开辟自己的一片天地。

在本文中,我们将深入探讨 Remix.js 相较于其他框架的独特之处,以及它在底层如何运作以优化开发体验和性能。

UE5 反面教材:网格组件下的碰撞组件

这是我在其他人的虚幻引擎项目中经常遇到的一种常见(反)模式:一个带有附加的一个或多个碰撞组件的网格。这虽然可行,但并非最佳实践,可能表明开发者习惯于 Unity。

构建使用 Drizzle ORM 和 Deno 的数据库应用程序

Drizzle ORM 是一个 TypeScript ORM,它提供了一种类型安全的方式来与数据库交互。在本教程中,我们将使用 Deno 和 PostgreSQL 设置 Drizzle ORM,以创建、读取、更新和删除恐龙数据:

  • 安装 Drizzle
  • 配置 Drizzle
  • 定义模式
  • 与数据库交互
  • 下一步是什么?

您可以在这个 GitHub 仓库中找到本教程的所有代码。

8 个关于 PHP 内存使用的问答

我努力探索在 PHP 中利用内存的最有效方法。这让我质疑这些方法是否有效。让我们将这些疑问转向 PHP 的内存使用,并通过一系列问题来探讨它们。

抱歉,我找不到第 9 题和第 10 题…

驯服 PHP 应用的内存占用

每次运行 PHP 应用程序或其他软件时,它都会消耗内存。基本上,所有应用程序都需要内存来运行。随着所有这些应用程序争夺资源,计算机必须有效地分配内存。这使我们来到了内存管理过程。那是什么?

内存管理涉及释放、分配、组织和优化可用计算机内存,以确保程序正常运行。大多数情况下,计算机自动进行内存管理,但作为一名 PHP 开发者,你有责任管理你应用的内存占用。

本文将讨论您可以使用的技术来降低 PHP 应用程序的内存占用。

伪造的 Godot 中 3D 俯视角色

之前,我分享了一个为 Gdquest 创建的俯视角色视频。人们对这个小家伙的内部运作感到好奇,想知道创建这种角色使用了什么技术。

请注意,这里详细介绍的这种技术最适合自上而下的角色,但您可以为所有类型的深度效果做类似处理。

所有文件都可在 GitHub 上找到,您可以查看项目并阅读以了解其精髓 :)

选择适合云原生应用的正确编程语言

简介

A. 云原生应用的定义

云原生应用是专门为利用云计算资源和遵循云原生原则而设计的软件应用。

这些应用程序采用现代开发实践、架构和技术,以最大化云环境的好处。它们被容器化,打包成轻量级、可移植的容器,如 Docker,确保在不同环境中的一致部署。

基于微服务架构构建,它们分解为更小、独立的微服务,以实现灵活性和可扩展性。动态且可扩展,它们利用云原生技术进行自动扩展和编排,以处理不同的工作负载。

内置容错机制确保系统对故障具有弹性并保持高可用性。以 API 驱动和去中心化,通过定义良好的 API 促进无缝集成和协作。自动化是核心,通过持续集成/持续部署管道和自动化测试简化开发流程。优先考虑可观察性,具备全面的监控和日志记录功能,以实现实时问题检测和优化。

本质上,云原生应用是为云环境量身定制的,利用尖端技术和实践来提供可扩展、弹性好且敏捷的软件解决方案,以满足现代云计算的需求。

oh-my-zsh docker 插件详解, 配置, 别名使用

Docker 插件

这个插件可以为 docker 自动补全指令并设置别名。

要在你的 zsh 终端里使用这个插件,请在 .zshrc 文件的插件列表里添加 docker

plugins=(... docker)

下面是 docker/cli git 仓库里自动补全脚本的副本: https://github.com/docker/cli/blob/master/contrib/completion/zsh/_docker

JSR: 一个全新的 Javascript 包注册中心

JavaScript 社区最近被一个新的包注册中心 JSR 点燃了热情,该项目来自开发 Deno 的团队。Deno 是一个基于 V8 JavaScript 引擎和 Rust 构建的 JavaScript、TypeScript 和 WebAssembly 的运行时。

Deno 团队一直致力于为 JavaScript 开发提出新的选择。在详细回顾了 Node 早期设计时的遗憾之后,Node.js 的创建者 Ryan Dahl 于 2018 年的 JSConf EU 会议上公布了 Deno 项目。这个项目的目的是提供一个更快、更安全的 JavaScript 运行时,Deno 团队还将 Node/npm 的兼容性作为 Deno 项目的核心组成部分。

为了推动 Deno 的发展,Deno Land Inc. 于 2021 年成立,资金由 Shasta Ventures 和 Mozilla Corporation 提供。一年后,Deno 在红杉资本领投的 A 轮融资中获得了 2100 万美元的额外资金。

JSR 是 Deno 为重新定义 JavaScript 包注册中心领域做法而做出的最新努力。与长期以来被 JavaScript 生态系统视为标准包注册中心的 npm 相比,JSR 有几个明显的技术差异。Deno 团队在 2023 年 SeattleJS 会议上非正式宣布了 JSR 项目,并在 2023 年更新的博文中附上了该项目的链接。

几周前,JSR 网站总结了 Deno 正在构建的内容:

  • 为什么要选择 JSR? 真正的 TypeScript 优先环境:高效的类型检查,无需转换过程 —— 直接用 TypeScript 编写并部署代码。
  • 性能和可用性处于最前沿: 通过集成的工作空间和无缝的 NPM 集成,JSR 将可用性放在首位。
  • 安全且可访问的模块: JSR 中的所有模块都通过 HTTPS 公开,确保代码始终是安全的。
  • 开源,由社区驱动: JSR 由开发人员为开发人员构建,是根据 JavaScript 社区实际需求和贡献逐步形成的。