Stargate计划:美国AI霸权的千亿级基建革命

当全球科技竞赛的焦点全面转向人工智能,一场重塑未来世界秩序的基建革命已悄然拉开帷幕。由软银、OpenAI、甲骨文和 MGX 联合发起的 Stargate 计划,以四年 5000 亿美元的惊天投资规模,正在美国本土构建一座属于 AI 时代的"数字巴别塔"。这不仅是一个科技项目,更是一场关乎国家战略、经济主权与人类文明走向的豪赌。

Understanding AI Dialogue Through the Lens of Role-Play

We've all seen it by now - AI chatbots are getting increasingly good at mimicking human conversation. They can be informative, entertaining, and sometimes even a bit too convincing. But as these Large Language Models (LLMs) become more sophisticated, it's crucial to remember that they are not human. They don't think, feel, or understand the world like we do. So, how can we make sense of their behavior without falling into the trap of treating them like us?

Beyond Words: Teaching AI to Think Like Us - A Deep Dive into Large Reasoning Models

We've all seen how AI can generate text that looks like it was written by a human. But can it reason like a human? That's the big question researchers are tackling now, and they're making some exciting progress with something called Large Reasoning Models (LRMs). The intro of AI's o1 series is considered as a significant milestone in this research. In this post, we'll break down what LRMs are, how they work, and why they're a huge deal for the future of AI.

Making AI Chatbots Smarter: A Deep Dive into Retrieval-Augmented Generation (RAG)

We're living in an age of incredible advancements in Artificial Intelligence. One of the most exciting developments is the rise of powerful chatbots like ChatGPT and Google's Gemini. These systems, powered by what are known as large language models (LLMs), can do some pretty amazing things. They can generate text that sounds like it was written by a human, translate languages, write different kinds of creative content (like poems or stories), and even answer your questions in a way that feels informative and helpful.

Unlocking the Power of LLMs: A Guide to Free and Trial API Access

The world of artificial intelligence is rapidly evolving, and at the forefront of this revolution are Large Language Models (LLMs). These powerful tools are capable of understanding, generating, and manipulating human language with remarkable accuracy. From crafting compelling content to powering sophisticated chatbots, LLMs are transforming the way we interact with technology.

Landmark Papers Shaping the LLM Landscape

The field of Large Language Models (LLMs) has been evolving at a breakneck pace, driven by a series of groundbreaking research papers. These papers have not only introduced novel architectures and training techniques but have also redefined our understanding of what LLMs can achieve. Here, we explore some of the most significant contributions that have paved the way for the current state-of-the-art in the LLM domain.

人工智能革命:永生还是灭绝

注意:这是关于人工智能的两部分系列的第二部分。第一部分在此处

我们面临的可能是一个极其棘手的问题,解决它所需的时间尚不可知,而人类的整个未来或许都取决于此。——尼克·博斯特罗姆

欢迎来到“等等,这怎么可能是我正在读的内容,我不明白为什么大家都没在谈论这个”系列的第二部分。

第一部分开始得相当平和,我们讨论了人工狭义智能(ANI,即专注于单一狭窄任务的人工智能,如规划驾驶路线或下棋),以及它如何在当今世界无处不在。接着,我们探讨了为何从 ANI 迈向人工通用智能(AGI,即至少在各方面智力与人类相当的人工智能)是一个巨大的挑战,并讨论了为何过去技术进步的指数级增长暗示着 AGI 可能并不像看起来那么遥远。第一部分以我向你抛出一个事实作为结尾:一旦我们的机器达到人类水平的智能,它们可能会立即做出如下举动:

人工智能革命:通往超级智能之路

我们正处在变革的边缘,其规模堪比地球上人类生命的崛起。——弗诺·文奇

站在这里是什么感觉?

站在这里似乎是个相当紧张的位置——但你必须记住,站在时间图上的感觉是:你看不到右侧的情况。所以,实际站在那里的感受是这样的:

这感觉可能相当正常……

2025 年最佳 AI 搜索引擎测评

我严格测试了最受欢迎的 AI 搜索引擎,以发现它们的优缺点。

进行此测试有两个原因:

  • 作为一个普通人,我希望使用最好的搜索引擎。我一生都在互联网上度过。我希望以最快、最轻松的方式找到信息。
  • 作为一名营销人员,我想了解潮流的走向。AI 搜索引擎会取代“传统”搜索引擎吗?AI 聊天机器人真的足够优秀到能推翻谷歌的地位吗?我是否应该开始在LLM优化上投入更多精力?

基本上有上千种产品声称自己是 AI 搜索引擎,但我专注于最大和最受欢迎的那些。

我测试了来自两个现有搜索巨头——谷歌的 AI 概览和必应 AI——以及两个流行的 AI 新秀——ChatGPT 搜索和 Perplexity。

最好的 AI 搜索引擎——在我看来——是 ChatGPT Search,提供最佳的聊天机器人体验,以及 Google 的 AI 概览,提供最佳的全能搜索引擎。

阅读下文以了解优缺点.

从第一性原理出发:为什么选择 Scala?

Scala,自 2004 年问世以来,既非编程语言领域的元老,亦非新秀。本文将探讨 Scala 所提供的独特功能组合,并将其与市场上的其他语言进行比较,深入挖掘语言的本质。通过此文,您将了解为何考虑将 Scala 纳入您的编程工具箱,作为一项宝贵的补充。

Scala 网站将 Scala 的宣传总结如下:

Scala 将面向对象和函数式编程结合在一个简洁的高级语言中。Scala 的静态类型有助于避免复杂应用中的错误,其 JVM 和 JavaScript 运行时使您能够轻松构建高性能系统,并能方便地访问庞大的生态系统库。

Scala 是一种语言,它提供了大多数程序员都会欣赏的独特功能组合。它结合了编译语言的性能和大规模可维护性、Java 语言和虚拟机的工具和生态系统,以及通常与脚本语言相关的简洁性和易用性。

Scala 过去曾面临一些挑战——编译速度缓慢、库和框架令人困惑,以及一个更注重炒作而非实际工作的社区。但在过去的五年中,Scala 生态系统成功克服了许多长期存在的问题,蜕变为一个更简洁、更高效的环境,非常适合高效完成任务™。

在这篇文章中,我们将首先讨论程序员在使用 Scala 时可能欣赏的用户层面卖点,深入探讨使 Scala 语言成为其本质的基本原则,最后通过比较这些原则与其他您可能考虑用于下一个项目的编程语言,来结束本文。

我是如何思考LLM提示工程的

2013 年,在谷歌,Mikolov 等人注意到一些非凡的现象。

他们正在构建一个模型,将词语嵌入到向量空间中——这个问题在当时已有悠久的学术历史,可追溯至 20 世纪 80 年代。他们的模型采用了一种优化目标,旨在将词语间的相关性关系转化为嵌入空间中的距离关系:词汇表中的每个词语都关联一个向量,并通过优化使得表示频繁共现词语的向量之间的点积(余弦相似度)更接近 1,而表示罕见共现词语的向量之间的点积则更接近 0。

他们发现,生成的嵌入空间不仅仅捕捉了语义相似性,还具备某种形式的涌现学习能力——它能够执行“词算术”,这是它未曾被训练过的任务。在空间中存在一个向量,可以加到任何男性名词上,得到一个接近其女性等价物的点。例如:V(king) - V(man) + V(woman) = V(queen)。这就是一个“性别向量”。相当酷!似乎还有数十个这样的神奇向量——一个复数向量,一个从野生动物名称到其最接近宠物名称的向量,等等。

如何在 2025 年使用 Hugging Face 微调开源 LLMs

大型语言模型(LLMs)在 2024 年继续发挥着重要作用,多项重大进展完全超越了之前的模型。重点转向了 Meta、Qwen 或 Google 等公司推出的更小、更强大的模型。这些模型不仅变得更强大,而且更高效。我们看到了像 10 亿参数的 Llama 模型超越了 Llama 2 13B 的性能。

LLMs 现在可以通过提示处理许多开箱即用的任务,包括聊天机器人、问答和摘要。然而,对于需要高精度或领域专业知识的专门应用,微调仍然是一种强大的方法,可以比单独提示获得更高质量的结果,通过训练更小、更高效的模型来降低成本,并确保特定用例的可靠性和一致性。

本指南侧重于优化、分布式训练和更高的定制性。这意味着支持从全量微调到 QLoRA 和 Spectrum 等多种 PEFT 方法,优化以实现更快、更高效的训练,采用 Flash Attention 或 Liger Kernels 技术,并介绍如何使用 DeepSpeed 扩展训练至多 GPU。

OPENAI O3 在 ARC-AGI-PUB 中取得突破性的高分

OpenAI 的新 o3 系统——基于 ARC-AGI-1 公共训练集训练——在公开排行榜上声明的$10k 计算限制下,于半私有评估集上取得了突破性的 75.7%得分。高计算量(172 倍)的 o3 配置则达到了 87.5%。

这是 AI 能力的一次令人惊讶且重要的阶跃式提升,展示了 GPT 系列模型前所未有的任务适应能力。回顾一下,从 2020 年 GPT-3 的 0%到 2024 年 GPT-4o 的 5%,ARC-AGI-1 花了 4 年时间。所有关于 AI 能力的直觉都需要为 o3 进行更新。

ARC Prize 的使命超越了我们的首个基准:成为通向 AGI 的北极星。我们很高兴明年能与 OpenAI 团队及其他伙伴合作,继续设计下一代、持久的 AGI 基准。

ARC-AGI-2(相同格式 - 验证对人类简单,对 AI 更难)将与 ARC 大奖 2025 一同推出。我们致力于举办大奖赛,直至产生一个高效、开源且得分达到 85%的解决方案。

请继续阅读完整的测试报告。

第 37 手:人工智能、随机性与创造力

世界顶级围棋选手李世石在韩国首尔举行的谷歌 DeepMind 挑战赛中对阵谷歌的人工智能程序 AlphaGo,时间为 2016 年 3 月。

第一部分

1.1

与大多数科学研究领域不同,人工智能(AI)研究呈现出一种两极化的存在,交替经历着狂热雄心与自我厌恶的低谷。这种波动的历史始于 1956 年的一个高峰,当时在达特茅斯举行的一个夏季会议上,AI 的奠基者们为这一领域命名并概述了其目标。会议汇聚了新兴计算机科学领域的顶尖人物,包括克劳德·香农、马文·明斯基和约翰·麦卡锡。他们承诺,在“两个月、十人研究”的条件下,将能够在 AI 基本问题上取得“显著进展”。这些问题包括:计算机如何使用语言,“假设性”神经元如何形成概念,以及自我改进在计算机学习中的作用。那个夏天并未取得显著的技术进步,而在接下来的几十年里,基本问题上的进展也微乎其微。迄今为止,AI 研究尚未实现其更深层次的雄心,其有限的成就是否能揭示最简单动物智能的工作机制,仍存疑问。

关于 AI 未来的展望 - 2026

2026 年展望

这篇短文是为 Vignettes Workshop 而作。目标是写出一个详细的未来历史(“轨迹”),尽我目前所能,使其尽可能地贴近现实。也就是说,我目前没有意识到任何其他同样详细且对我来说明显合理的替代轨迹。方法大致是:写一篇关于 2022 年的未来历史。以此为条件,写一篇关于 2023 年的未来历史。对 2024 年、2025 年等重复此过程。(我现在发布 2022-2026 年的内容,以便获得反馈,帮助我撰写 2027 年及以后的内容。我打算一直写下去,直到故事达到奇点/灭绝/乌托邦等。)

如何让写作不那么困难

灵感部分来源于关于朱迪思·巴特勒的写作有多糟糕的再次讨论(答案:真的很糟糕!),我一直在思考关于如何写好的建议。我之前曾指出,很大一部分此类建议是无用的、自相矛盾的,或者经常被提出建议的人自己忽略。(“省略不必要的词语,”威廉·斯特伦克在《风格的要素》中宣称。是的,但是如果你已经知道一个词是不必要的,你就应该不需要被告知要省略它;如果你不知道它是不必要的,斯特伦克的建议又有什么用呢?)

尽管如此,有三条建议对我在写作上的效率产生了实实在在的影响——而且我认为也对我的写作质量产生了影响,尽管这不由我说了算。在这里列出来,以防它们也能帮助你:

构建有效的 LLM 智能体

过去一年,我们与数十个团队合作,在各行各业构建大型语言模型(LLM)智能体。我们发现,最成功的实现并非采用复杂的框架或专门的库,而是基于简单、可组合的模式构建的。

在这篇文章中,我们将分享从与客户合作和自行构建智能体的过程中学到的经验,并为开发者提供构建有效智能体的实用建议。

Vercel v0.dev:评测

探索 AI 驱动的 Web 应用程序构建器

我一直在我的 Web 项目中使用许多 Vercel 产品 - 例如,他们的 Next.js 应用程序框架部署基础设施Vercel AI SDK。我喜欢这些工具,因为它们易于使用和上手,可靠且快速 - 而且它们中的大多数都是开源的,这太棒了 ❤️。

他们最新的创新是 v0.dev,这是一个 AI 驱动的工具,可帮助您使用对话式聊天界面构建前端应用程序。当我第一次听说它时,我以为它只是另一个带有聊天界面的 AI 编码工具,类似于要求 ChatGPT 或 Claude 生成代码。然而,v0.dev 最近宣布了一项重大更新,其中包括与流行的 shadcn UI 组件的集成以及拉取外部 npm 包的能力。所以我决定昨天试用一下。

体验令人震惊。仅仅一个小时,我就能够使用 v0.dev 的聊天界面构建一个功能齐全、外观精美的网站。感觉就像魔法一样 - 一系列“惊掉下巴”的时刻。我非常兴奋,以至于当 George 下班回家时,我跑下楼去滔滔不绝地谈论这个工具有多么棒。有趣的是 - 他已经试用过了,并且印象深刻,只是比我兴奋的反应更平静一些 🙂。