通过角色扮演的视角理解 AI 对话

我们现在都已经见识过了 - AI 聊天机器人越来越擅长模仿人类对话。它们可以提供信息、带来娱乐,有时甚至会让人觉得过于逼真。但随着这些大型语言模型 (Large Language Models, LLMs) 变得越来越复杂,至关重要的是要记住它们不是人类。它们不像我们一样思考、感受或理解世界。那么,我们如何在不落入将它们视作人类的陷阱的情况下,理解它们的行为呢?

Understanding AI Dialogue Through the Lens of Role-Play

We've all seen it by now - AI chatbots are getting increasingly good at mimicking human conversation. They can be informative, entertaining, and sometimes even a bit too convincing. But as these Large Language Models (LLMs) become more sophisticated, it's crucial to remember that they are not human. They don't think, feel, or understand the world like we do. So, how can we make sense of their behavior without falling into the trap of treating them like us?

超越文字:教人工智能像我们一样思考 - 深入探讨大型推理模型

我们都见识过人工智能如何生成看似出自人类之手的文本。但它能像人类一样进行推理吗?这正是研究人员目前正在攻克的重大问题,他们在一种名为大型推理模型(Large Reasoning Models, LRMs)的技术上取得了一些令人兴奋的进展。人工智能 o1 系列的推出被认为是这项研究中的一个重要里程碑。在这篇文章中,我们将深入解析什么是大型推理模型(LRMs),它们是如何工作的,以及为什么它们对于人工智能的未来至关重要。

Beyond Words: Teaching AI to Think Like Us - A Deep Dive into Large Reasoning Models

We've all seen how AI can generate text that looks like it was written by a human. But can it reason like a human? That's the big question researchers are tackling now, and they're making some exciting progress with something called Large Reasoning Models (LRMs). The intro of AI's o1 series is considered as a significant milestone in this research. In this post, we'll break down what LRMs are, how they work, and why they're a huge deal for the future of AI.

让AI聊天机器人更智能:深入探讨检索增强生成(RAG)

我们生活在人工智能取得惊人进步的时代。其中最令人兴奋的发展之一是像ChatGPT和谷歌Gemini这样强大的聊天机器人的兴起。这些系统由所谓的大型语言模型(LLM)驱动,可以做一些非常了不起的事情。它们可以生成听起来像是人写的文本,翻译语言,撰写不同类型的创意内容(如诗歌或故事),甚至可以以信息丰富且有帮助的方式回答您的问题。

Making AI Chatbots Smarter: A Deep Dive into Retrieval-Augmented Generation (RAG)

We're living in an age of incredible advancements in Artificial Intelligence. One of the most exciting developments is the rise of powerful chatbots like ChatGPT and Google's Gemini. These systems, powered by what are known as large language models (LLMs), can do some pretty amazing things. They can generate text that sounds like it was written by a human, translate languages, write different kinds of creative content (like poems or stories), and even answer your questions in a way that feels informative and helpful.

解锁 LLM 的力量:免费和试用 API 访问指南

人工智能的世界正在快速发展,而这场革命的前沿正是大型语言模型(LLMs)。这些强大的工具能够以惊人的准确度理解、生成和操纵人类语言。从撰写引人入胜的内容到驱动复杂的聊天机器人,LLMs 正在改变我们与技术互动的方式。

Unlocking the Power of LLMs: A Guide to Free and Trial API Access

The world of artificial intelligence is rapidly evolving, and at the forefront of this revolution are Large Language Models (LLMs). These powerful tools are capable of understanding, generating, and manipulating human language with remarkable accuracy. From crafting compelling content to powering sophisticated chatbots, LLMs are transforming the way we interact with technology.

塑造 LLM 格局的里程碑式论文

大型语言模型(LLMs)领域一直以惊人的速度发展,这得益于一系列开创性的研究论文。这些论文不仅引入了新颖的架构和训练技术,还重新定义了我们对 LLM 能力的理解。在此,我们将探讨一些最重要的贡献,这些贡献为当前 LLM 领域的 state-of-the-art (最先进水平) 铺平了道路。

Landmark Papers Shaping the LLM Landscape

The field of Large Language Models (LLMs) has been evolving at a breakneck pace, driven by a series of groundbreaking research papers. These papers have not only introduced novel architectures and training techniques but have also redefined our understanding of what LLMs can achieve. Here, we explore some of the most significant contributions that have paved the way for the current state-of-the-art in the LLM domain.

人工智能革命:永生还是灭绝

注意:这是关于人工智能的两部分系列的第二部分。第一部分在此处

我们面临的可能是一个极其棘手的问题,解决它所需的时间尚不可知,而人类的整个未来或许都取决于此。——尼克·博斯特罗姆

欢迎来到“等等,这怎么可能是我正在读的内容,我不明白为什么大家都没在谈论这个”系列的第二部分。

第一部分开始得相当平和,我们讨论了人工狭义智能(ANI,即专注于单一狭窄任务的人工智能,如规划驾驶路线或下棋),以及它如何在当今世界无处不在。接着,我们探讨了为何从 ANI 迈向人工通用智能(AGI,即至少在各方面智力与人类相当的人工智能)是一个巨大的挑战,并讨论了为何过去技术进步的指数级增长暗示着 AGI 可能并不像看起来那么遥远。第一部分以我向你抛出一个事实作为结尾:一旦我们的机器达到人类水平的智能,它们可能会立即做出如下举动:

人工智能革命:通往超级智能之路

我们正处在变革的边缘,其规模堪比地球上人类生命的崛起。——弗诺·文奇

站在这里是什么感觉?

站在这里似乎是个相当紧张的位置——但你必须记住,站在时间图上的感觉是:你看不到右侧的情况。所以,实际站在那里的感受是这样的:

这感觉可能相当正常……

2025 年最佳 AI 搜索引擎测评

我严格测试了最受欢迎的 AI 搜索引擎,以发现它们的优缺点。

进行此测试有两个原因:

  • 作为一个普通人,我希望使用最好的搜索引擎。我一生都在互联网上度过。我希望以最快、最轻松的方式找到信息。
  • 作为一名营销人员,我想了解潮流的走向。AI 搜索引擎会取代“传统”搜索引擎吗?AI 聊天机器人真的足够优秀到能推翻谷歌的地位吗?我是否应该开始在LLM优化上投入更多精力?

基本上有上千种产品声称自己是 AI 搜索引擎,但我专注于最大和最受欢迎的那些。

我测试了来自两个现有搜索巨头——谷歌的 AI 概览和必应 AI——以及两个流行的 AI 新秀——ChatGPT 搜索和 Perplexity。

最好的 AI 搜索引擎——在我看来——是 ChatGPT Search,提供最佳的聊天机器人体验,以及 Google 的 AI 概览,提供最佳的全能搜索引擎。

阅读下文以了解优缺点.

从第一性原理出发:为什么选择 Scala?

Scala,自 2004 年问世以来,既非编程语言领域的元老,亦非新秀。本文将探讨 Scala 所提供的独特功能组合,并将其与市场上的其他语言进行比较,深入挖掘语言的本质。通过此文,您将了解为何考虑将 Scala 纳入您的编程工具箱,作为一项宝贵的补充。

Scala 网站将 Scala 的宣传总结如下:

Scala 将面向对象和函数式编程结合在一个简洁的高级语言中。Scala 的静态类型有助于避免复杂应用中的错误,其 JVM 和 JavaScript 运行时使您能够轻松构建高性能系统,并能方便地访问庞大的生态系统库。

Scala 是一种语言,它提供了大多数程序员都会欣赏的独特功能组合。它结合了编译语言的性能和大规模可维护性、Java 语言和虚拟机的工具和生态系统,以及通常与脚本语言相关的简洁性和易用性。

Scala 过去曾面临一些挑战——编译速度缓慢、库和框架令人困惑,以及一个更注重炒作而非实际工作的社区。但在过去的五年中,Scala 生态系统成功克服了许多长期存在的问题,蜕变为一个更简洁、更高效的环境,非常适合高效完成任务™。

在这篇文章中,我们将首先讨论程序员在使用 Scala 时可能欣赏的用户层面卖点,深入探讨使 Scala 语言成为其本质的基本原则,最后通过比较这些原则与其他您可能考虑用于下一个项目的编程语言,来结束本文。

我是如何思考LLM提示工程的

2013 年,在谷歌,Mikolov 等人注意到一些非凡的现象。

他们正在构建一个模型,将词语嵌入到向量空间中——这个问题在当时已有悠久的学术历史,可追溯至 20 世纪 80 年代。他们的模型采用了一种优化目标,旨在将词语间的相关性关系转化为嵌入空间中的距离关系:词汇表中的每个词语都关联一个向量,并通过优化使得表示频繁共现词语的向量之间的点积(余弦相似度)更接近 1,而表示罕见共现词语的向量之间的点积则更接近 0。

他们发现,生成的嵌入空间不仅仅捕捉了语义相似性,还具备某种形式的涌现学习能力——它能够执行“词算术”,这是它未曾被训练过的任务。在空间中存在一个向量,可以加到任何男性名词上,得到一个接近其女性等价物的点。例如:V(king) - V(man) + V(woman) = V(queen)。这就是一个“性别向量”。相当酷!似乎还有数十个这样的神奇向量——一个复数向量,一个从野生动物名称到其最接近宠物名称的向量,等等。

如何在 2025 年使用 Hugging Face 微调开源 LLMs

大型语言模型(LLMs)在 2024 年继续发挥着重要作用,多项重大进展完全超越了之前的模型。重点转向了 Meta、Qwen 或 Google 等公司推出的更小、更强大的模型。这些模型不仅变得更强大,而且更高效。我们看到了像 10 亿参数的 Llama 模型超越了 Llama 2 13B 的性能。

LLMs 现在可以通过提示处理许多开箱即用的任务,包括聊天机器人、问答和摘要。然而,对于需要高精度或领域专业知识的专门应用,微调仍然是一种强大的方法,可以比单独提示获得更高质量的结果,通过训练更小、更高效的模型来降低成本,并确保特定用例的可靠性和一致性。

本指南侧重于优化、分布式训练和更高的定制性。这意味着支持从全量微调到 QLoRA 和 Spectrum 等多种 PEFT 方法,优化以实现更快、更高效的训练,采用 Flash Attention 或 Liger Kernels 技术,并介绍如何使用 DeepSpeed 扩展训练至多 GPU。

OPENAI O3 在 ARC-AGI-PUB 中取得突破性的高分

OpenAI 的新 o3 系统——基于 ARC-AGI-1 公共训练集训练——在公开排行榜上声明的$10k 计算限制下,于半私有评估集上取得了突破性的 75.7%得分。高计算量(172 倍)的 o3 配置则达到了 87.5%。

这是 AI 能力的一次令人惊讶且重要的阶跃式提升,展示了 GPT 系列模型前所未有的任务适应能力。回顾一下,从 2020 年 GPT-3 的 0%到 2024 年 GPT-4o 的 5%,ARC-AGI-1 花了 4 年时间。所有关于 AI 能力的直觉都需要为 o3 进行更新。

ARC Prize 的使命超越了我们的首个基准:成为通向 AGI 的北极星。我们很高兴明年能与 OpenAI 团队及其他伙伴合作,继续设计下一代、持久的 AGI 基准。

ARC-AGI-2(相同格式 - 验证对人类简单,对 AI 更难)将与 ARC 大奖 2025 一同推出。我们致力于举办大奖赛,直至产生一个高效、开源且得分达到 85%的解决方案。

请继续阅读完整的测试报告。

第 37 手:人工智能、随机性与创造力

世界顶级围棋选手李世石在韩国首尔举行的谷歌 DeepMind 挑战赛中对阵谷歌的人工智能程序 AlphaGo,时间为 2016 年 3 月。

第一部分

1.1

与大多数科学研究领域不同,人工智能(AI)研究呈现出一种两极化的存在,交替经历着狂热雄心与自我厌恶的低谷。这种波动的历史始于 1956 年的一个高峰,当时在达特茅斯举行的一个夏季会议上,AI 的奠基者们为这一领域命名并概述了其目标。会议汇聚了新兴计算机科学领域的顶尖人物,包括克劳德·香农、马文·明斯基和约翰·麦卡锡。他们承诺,在“两个月、十人研究”的条件下,将能够在 AI 基本问题上取得“显著进展”。这些问题包括:计算机如何使用语言,“假设性”神经元如何形成概念,以及自我改进在计算机学习中的作用。那个夏天并未取得显著的技术进步,而在接下来的几十年里,基本问题上的进展也微乎其微。迄今为止,AI 研究尚未实现其更深层次的雄心,其有限的成就是否能揭示最简单动物智能的工作机制,仍存疑问。

关于 AI 未来的展望 - 2026

2026 年展望

这篇短文是为 Vignettes Workshop 而作。目标是写出一个详细的未来历史(“轨迹”),尽我目前所能,使其尽可能地贴近现实。也就是说,我目前没有意识到任何其他同样详细且对我来说明显合理的替代轨迹。方法大致是:写一篇关于 2022 年的未来历史。以此为条件,写一篇关于 2023 年的未来历史。对 2024 年、2025 年等重复此过程。(我现在发布 2022-2026 年的内容,以便获得反馈,帮助我撰写 2027 年及以后的内容。我打算一直写下去,直到故事达到奇点/灭绝/乌托邦等。)