Landmark Papers Shaping the LLM Landscape

The field of Large Language Models (LLMs) has been evolving at a breakneck pace, driven by a series of groundbreaking research papers. These papers have not only introduced novel architectures and training techniques but have also redefined our understanding of what LLMs can achieve. Here, we explore some of the most significant contributions that have paved the way for the current state-of-the-art in the LLM domain.

人工智能革命:永生还是灭绝

注意:这是关于人工智能的两部分系列的第二部分。第一部分在此处

我们面临的可能是一个极其棘手的问题,解决它所需的时间尚不可知,而人类的整个未来或许都取决于此。——尼克·博斯特罗姆

欢迎来到“等等,这怎么可能是我正在读的内容,我不明白为什么大家都没在谈论这个”系列的第二部分。

第一部分开始得相当平和,我们讨论了人工狭义智能(ANI,即专注于单一狭窄任务的人工智能,如规划驾驶路线或下棋),以及它如何在当今世界无处不在。接着,我们探讨了为何从 ANI 迈向人工通用智能(AGI,即至少在各方面智力与人类相当的人工智能)是一个巨大的挑战,并讨论了为何过去技术进步的指数级增长暗示着 AGI 可能并不像看起来那么遥远。第一部分以我向你抛出一个事实作为结尾:一旦我们的机器达到人类水平的智能,它们可能会立即做出如下举动:

人工智能革命:通往超级智能之路

我们正处在变革的边缘,其规模堪比地球上人类生命的崛起。——弗诺·文奇

站在这里是什么感觉?

站在这里似乎是个相当紧张的位置——但你必须记住,站在时间图上的感觉是:你看不到右侧的情况。所以,实际站在那里的感受是这样的:

这感觉可能相当正常……

2025 年最佳 AI 搜索引擎测评

我严格测试了最受欢迎的 AI 搜索引擎,以发现它们的优缺点。

进行此测试有两个原因:

  • 作为一个普通人,我希望使用最好的搜索引擎。我一生都在互联网上度过。我希望以最快、最轻松的方式找到信息。
  • 作为一名营销人员,我想了解潮流的走向。AI 搜索引擎会取代“传统”搜索引擎吗?AI 聊天机器人真的足够优秀到能推翻谷歌的地位吗?我是否应该开始在LLM优化上投入更多精力?

基本上有上千种产品声称自己是 AI 搜索引擎,但我专注于最大和最受欢迎的那些。

我测试了来自两个现有搜索巨头——谷歌的 AI 概览和必应 AI——以及两个流行的 AI 新秀——ChatGPT 搜索和 Perplexity。

最好的 AI 搜索引擎——在我看来——是 ChatGPT Search,提供最佳的聊天机器人体验,以及 Google 的 AI 概览,提供最佳的全能搜索引擎。

阅读下文以了解优缺点.

从第一性原理出发:为什么选择 Scala?

Scala,自 2004 年问世以来,既非编程语言领域的元老,亦非新秀。本文将探讨 Scala 所提供的独特功能组合,并将其与市场上的其他语言进行比较,深入挖掘语言的本质。通过此文,您将了解为何考虑将 Scala 纳入您的编程工具箱,作为一项宝贵的补充。

Scala 网站将 Scala 的宣传总结如下:

Scala 将面向对象和函数式编程结合在一个简洁的高级语言中。Scala 的静态类型有助于避免复杂应用中的错误,其 JVM 和 JavaScript 运行时使您能够轻松构建高性能系统,并能方便地访问庞大的生态系统库。

Scala 是一种语言,它提供了大多数程序员都会欣赏的独特功能组合。它结合了编译语言的性能和大规模可维护性、Java 语言和虚拟机的工具和生态系统,以及通常与脚本语言相关的简洁性和易用性。

Scala 过去曾面临一些挑战——编译速度缓慢、库和框架令人困惑,以及一个更注重炒作而非实际工作的社区。但在过去的五年中,Scala 生态系统成功克服了许多长期存在的问题,蜕变为一个更简洁、更高效的环境,非常适合高效完成任务™。

在这篇文章中,我们将首先讨论程序员在使用 Scala 时可能欣赏的用户层面卖点,深入探讨使 Scala 语言成为其本质的基本原则,最后通过比较这些原则与其他您可能考虑用于下一个项目的编程语言,来结束本文。

我是如何思考LLM提示工程的

2013 年,在谷歌,Mikolov 等人注意到一些非凡的现象。

他们正在构建一个模型,将词语嵌入到向量空间中——这个问题在当时已有悠久的学术历史,可追溯至 20 世纪 80 年代。他们的模型采用了一种优化目标,旨在将词语间的相关性关系转化为嵌入空间中的距离关系:词汇表中的每个词语都关联一个向量,并通过优化使得表示频繁共现词语的向量之间的点积(余弦相似度)更接近 1,而表示罕见共现词语的向量之间的点积则更接近 0。

他们发现,生成的嵌入空间不仅仅捕捉了语义相似性,还具备某种形式的涌现学习能力——它能够执行“词算术”,这是它未曾被训练过的任务。在空间中存在一个向量,可以加到任何男性名词上,得到一个接近其女性等价物的点。例如:V(king) - V(man) + V(woman) = V(queen)。这就是一个“性别向量”。相当酷!似乎还有数十个这样的神奇向量——一个复数向量,一个从野生动物名称到其最接近宠物名称的向量,等等。

如何在 2025 年使用 Hugging Face 微调开源 LLMs

大型语言模型(LLMs)在 2024 年继续发挥着重要作用,多项重大进展完全超越了之前的模型。重点转向了 Meta、Qwen 或 Google 等公司推出的更小、更强大的模型。这些模型不仅变得更强大,而且更高效。我们看到了像 10 亿参数的 Llama 模型超越了 Llama 2 13B 的性能。

LLMs 现在可以通过提示处理许多开箱即用的任务,包括聊天机器人、问答和摘要。然而,对于需要高精度或领域专业知识的专门应用,微调仍然是一种强大的方法,可以比单独提示获得更高质量的结果,通过训练更小、更高效的模型来降低成本,并确保特定用例的可靠性和一致性。

本指南侧重于优化、分布式训练和更高的定制性。这意味着支持从全量微调到 QLoRA 和 Spectrum 等多种 PEFT 方法,优化以实现更快、更高效的训练,采用 Flash Attention 或 Liger Kernels 技术,并介绍如何使用 DeepSpeed 扩展训练至多 GPU。

OPENAI O3 在 ARC-AGI-PUB 中取得突破性的高分

OpenAI 的新 o3 系统——基于 ARC-AGI-1 公共训练集训练——在公开排行榜上声明的$10k 计算限制下,于半私有评估集上取得了突破性的 75.7%得分。高计算量(172 倍)的 o3 配置则达到了 87.5%。

这是 AI 能力的一次令人惊讶且重要的阶跃式提升,展示了 GPT 系列模型前所未有的任务适应能力。回顾一下,从 2020 年 GPT-3 的 0%到 2024 年 GPT-4o 的 5%,ARC-AGI-1 花了 4 年时间。所有关于 AI 能力的直觉都需要为 o3 进行更新。

ARC Prize 的使命超越了我们的首个基准:成为通向 AGI 的北极星。我们很高兴明年能与 OpenAI 团队及其他伙伴合作,继续设计下一代、持久的 AGI 基准。

ARC-AGI-2(相同格式 - 验证对人类简单,对 AI 更难)将与 ARC 大奖 2025 一同推出。我们致力于举办大奖赛,直至产生一个高效、开源且得分达到 85%的解决方案。

请继续阅读完整的测试报告。

第 37 手:人工智能、随机性与创造力

世界顶级围棋选手李世石在韩国首尔举行的谷歌 DeepMind 挑战赛中对阵谷歌的人工智能程序 AlphaGo,时间为 2016 年 3 月。

第一部分

1.1

与大多数科学研究领域不同,人工智能(AI)研究呈现出一种两极化的存在,交替经历着狂热雄心与自我厌恶的低谷。这种波动的历史始于 1956 年的一个高峰,当时在达特茅斯举行的一个夏季会议上,AI 的奠基者们为这一领域命名并概述了其目标。会议汇聚了新兴计算机科学领域的顶尖人物,包括克劳德·香农、马文·明斯基和约翰·麦卡锡。他们承诺,在“两个月、十人研究”的条件下,将能够在 AI 基本问题上取得“显著进展”。这些问题包括:计算机如何使用语言,“假设性”神经元如何形成概念,以及自我改进在计算机学习中的作用。那个夏天并未取得显著的技术进步,而在接下来的几十年里,基本问题上的进展也微乎其微。迄今为止,AI 研究尚未实现其更深层次的雄心,其有限的成就是否能揭示最简单动物智能的工作机制,仍存疑问。

关于 AI 未来的展望 - 2026

2026 年展望

这篇短文是为 Vignettes Workshop 而作。目标是写出一个详细的未来历史(“轨迹”),尽我目前所能,使其尽可能地贴近现实。也就是说,我目前没有意识到任何其他同样详细且对我来说明显合理的替代轨迹。方法大致是:写一篇关于 2022 年的未来历史。以此为条件,写一篇关于 2023 年的未来历史。对 2024 年、2025 年等重复此过程。(我现在发布 2022-2026 年的内容,以便获得反馈,帮助我撰写 2027 年及以后的内容。我打算一直写下去,直到故事达到奇点/灭绝/乌托邦等。)

如何让写作不那么困难

灵感部分来源于关于朱迪思·巴特勒的写作有多糟糕的再次讨论(答案:真的很糟糕!),我一直在思考关于如何写好的建议。我之前曾指出,很大一部分此类建议是无用的、自相矛盾的,或者经常被提出建议的人自己忽略。(“省略不必要的词语,”威廉·斯特伦克在《风格的要素》中宣称。是的,但是如果你已经知道一个词是不必要的,你就应该不需要被告知要省略它;如果你不知道它是不必要的,斯特伦克的建议又有什么用呢?)

尽管如此,有三条建议对我在写作上的效率产生了实实在在的影响——而且我认为也对我的写作质量产生了影响,尽管这不由我说了算。在这里列出来,以防它们也能帮助你:

构建有效的 LLM 智能体

过去一年,我们与数十个团队合作,在各行各业构建大型语言模型(LLM)智能体。我们发现,最成功的实现并非采用复杂的框架或专门的库,而是基于简单、可组合的模式构建的。

在这篇文章中,我们将分享从与客户合作和自行构建智能体的过程中学到的经验,并为开发者提供构建有效智能体的实用建议。

Vercel v0.dev:评测

探索 AI 驱动的 Web 应用程序构建器

我一直在我的 Web 项目中使用许多 Vercel 产品 - 例如,他们的 Next.js 应用程序框架部署基础设施Vercel AI SDK。我喜欢这些工具,因为它们易于使用和上手,可靠且快速 - 而且它们中的大多数都是开源的,这太棒了 ❤️。

他们最新的创新是 v0.dev,这是一个 AI 驱动的工具,可帮助您使用对话式聊天界面构建前端应用程序。当我第一次听说它时,我以为它只是另一个带有聊天界面的 AI 编码工具,类似于要求 ChatGPT 或 Claude 生成代码。然而,v0.dev 最近宣布了一项重大更新,其中包括与流行的 shadcn UI 组件的集成以及拉取外部 npm 包的能力。所以我决定昨天试用一下。

体验令人震惊。仅仅一个小时,我就能够使用 v0.dev 的聊天界面构建一个功能齐全、外观精美的网站。感觉就像魔法一样 - 一系列“惊掉下巴”的时刻。我非常兴奋,以至于当 George 下班回家时,我跑下楼去滔滔不绝地谈论这个工具有多么棒。有趣的是 - 他已经试用过了,并且印象深刻,只是比我兴奋的反应更平静一些 🙂。

终于,BERT的替代品出现了:ModernBERT 隆重登场

这个博客文章介绍了 ModernBERT,这是一个最先进的仅编码器模型系列,代表了对旧版编码器的全面改进,具有 8192 的序列长度、更好的下游性能和更快的处理速度。

ModernBERT 可作为任何类似 BERT 的模型的即插即用替代品,提供 base (139M 参数) 和 large (395M 参数) 两种模型大小。

推测性解码:实现示例指南

LLMs 非常强大,但它们往往有点慢,这在需要速度的场景中并不理想。推测性解码是一种旨在通过更快生成响应而不牺牲质量来加速 LLMs 的技术。

本质上,这是一种在文本生成过程中“提前猜测”的方法,在保持LLMs所期望的准确性和深度的同时,预测可能出现的下一个词语。

在本篇博客中,我将解释什么是推测性解码,它是如何工作的,以及如何使用 Gemma 2 模型来实现它。

Remix 对比 Next.js

Remix 还是 Next.js?探索哪个 React 框架适合您的需求。比较功能、性能和使用场景。

Next.js 和 Remix 是基于 React 构建的流行框架。它们通过提供构建完整、高性能和 SEO 友好的 Web 应用程序所需的关键功能和工具,扩展了 React 的能力。尽管两者都建立在 React 的基础上,但它们的方法和优势有所不同。

Next.js,作为开发者社区中备受推崇的框架,在 2023 年 JavaScript 现状调查中名列榜首。其受欢迎程度源于其强大的功能、广泛的应用生态系统以及成熟的工具链。Remix 虽然较新且使用不如 Next.js 广泛,但它因专注于提升网站加载速度和改善开发者体验而逐渐为人所知。

本文不会决出胜者;它将成为您客观了解它们优缺点的指南。通过探讨它们的问题解决哲学和理想用例,您将学会做出明智的决策,并选择与您下一个项目需求完美契合的框架。

解锁 Remix.js 在 Web 开发中的强大功能:Remix 为何脱颖而出

作为一名 Web 开发者,您可能已经接触过众多 JavaScript 框架,每个框架都有其独特的优势和挑战。从 React 到 Next.js,Angular 到 Vue,现代生态系统丰富多样,但有时也令人眼花缭乱。Remix.js 登场,作为一个相对较新但功能强大的框架,正在这个领域中崭露头角。尽管仍在不断获得关注,Remix 以其独特的 Web 开发方法,强调速度、简洁以及与 Web 基础协议的更深层次集成,正在开辟自己的一片天地。

在本文中,我们将深入探讨 Remix.js 相较于其他框架的独特之处,以及它在底层如何运作以优化开发体验和性能。

UE5 反面教材:网格组件下的碰撞组件

这是我在其他人的虚幻引擎项目中经常遇到的一种常见(反)模式:一个带有附加的一个或多个碰撞组件的网格。这虽然可行,但并非最佳实践,可能表明开发者习惯于 Unity。

构建使用 Drizzle ORM 和 Deno 的数据库应用程序

Drizzle ORM 是一个 TypeScript ORM,它提供了一种类型安全的方式来与数据库交互。在本教程中,我们将使用 Deno 和 PostgreSQL 设置 Drizzle ORM,以创建、读取、更新和删除恐龙数据:

  • 安装 Drizzle
  • 配置 Drizzle
  • 定义模式
  • 与数据库交互
  • 下一步是什么?

您可以在这个 GitHub 仓库中找到本教程的所有代码。