创建你的 AI 角色

创建你的第一个角色可能看起来令人生畏,但请别担心 - 这是一个面向完全初学者的指南,将涵盖 Agnai 上角色创建过程的所有部分,以及角色卡中的每个字段。在阅读完本文后,你应该对角色创建的工作原理有一个基本的了解,并对这个过程有足够的认识,从而能够轻松地开始。

Open R1: Update #2

Image 48: image/png

Open R1 项目已经进行了两周,该项目旨在重建 DeepSeek R1 中缺失的部分——特别是训练流程和合成数据。

在这篇文章中,我们很高兴分享 OpenR1-Math-220k 的构建成果:这是我们首个大规模数学推理数据集!

我们还将关注社区在策划用于微调的小型、高质量数据集方面的一些令人兴奋的进展,以及关于如何在训练时和推理时控制推理模型的思维链长度的见解。

让我们深入了解一下!

Open-R1: 更新 #1

Image 56: image/png

自从 DeepSeek R1 发布以来已经过去了两周,自从我们启动 open-r1 项目来复现缺失的部分(即训练流程和合成数据)以来也仅仅过去了一周。这篇文章总结了:

  • Open-R1 在复现 DeepSeek-R1 流程和数据集方面的进展
  • 我们从 DeepSeek-R1 中学到的以及围绕它的讨论
  • 社区自 DeepSeek-R1 发布以来构建的酷炫项目

它既可以作为项目的更新,也可以作为围绕 DeepSeek-R1 的有趣资源的集合。

单 T4 显卡玩转大模型微调:GRPO 训练 Qwen2.5-0.5B 详细教程

大语言模型 (LLM) 的强大能力毋庸置疑,但其庞大的参数量也带来了巨大的计算资源需求。如何在有限的硬件条件下,例如单张消费级显卡 T4 上,高效地进行大模型微调,成为了许多开发者关注的焦点。

本文将基于一个实用的 Notebook 示例,深入探讨如何使用 GRPO (Gradient Ratio Policy Optimization) 算法,在单张 T4 GPU 上对 Qwen2.5-0.5B 这一开源大模型进行全参数微调。我们将详细解析代码,并解释背后的优化策略,帮助读者理解如何在资源受限的环境下也能玩转大模型微调。

解锁 AI 魔力 - 通过 Gemini 2.0 Flash 和 Google AI Studio 完全免费

嘿,各位技术探索者们!你们有没有听说 Google 令人难以置信的 AI 工具的最新消息? 如果你和我一样,可能正渴望深入探索和体验最新最棒的 AI 技术,但也许你也在想,“这会花费我一大笔钱吗?”

好消息是!Google 实际上是在免费赠送 AI 王国的钥匙,通过其 Gemini 2.0 Flash 模型和 Google AI Studio。 最棒的是什么?你可以完全 免费 开始使用。 是的,你没听错!

在 Google Colab 免费使用 Ollama

Google Colab 为运行机器学习模型和诸如 Ollama 这样的工具提供了绝佳的环境。虽然 Colab 提供了慷慨的免费层级,但我们需要采取一些额外的步骤来确保我们能够有效地运行 Ollama。 让我们逐步完成这个过程。

Andrej Karpathy 深入探讨类 ChatGPT 的 LLM (TL;DR)

Image 24: LLM ChatGPT TL;DR

本次深入探讨的目标读者

几天前,Andrej Karpathy 发布了一个名为 “深入探讨类 ChatGPT 的 LLM” 的 视频。这是一个信息金矿,但时长也达到了 3 小时 31 分钟。我观看了完整视频并做了大量笔记,所以我想为什么不为那些想要获取要点而又不想投入大量时间的人整理一个 TL;DR(太长不看)版本呢。

揭秘Q*:新型LLM基础模块

我已经完全解开了 Q* 的谜团:它是一个用于 LLM 的新型基础模块,一个文本条件的空间计算机模型

在此文中,你可以看到一个为路径寻找训练的模型。这些模型被称为神经元胞自动机 (Neural Cellular Automatons, NCA),而 Q* 是它的基础模型版本 + Q-learning(强化学习)。

它之所以被称为 Q*,很可能是因为它受到了这项关于路径寻找的初步研究的启发,如这里所示,而 Q 则是因为它集成了 Q-learning 作为其训练方法的一部分。

与为单一任务训练不同,你可以对 NCA 进行文本条件设定,并使用今天的 O1/R1 来生成一个庞大的“数据集生成器”库,用于各种谜题,并带有难度参数以进行渐进式训练。

那么这实际上是如何运作的呢?

少思考,多成就:在不牺牲准确性的前提下,推理成本降低 50%

我们很高兴推出 Sky-T1-32B-Flash,我们更新的推理语言模型,它显著减少了过度思考,在具有挑战性的问题上将推理成本降低高达 57%。 此增强在数学、编码、科学和常识等领域降低了生成长度,同时保持了准确性,并且根据 Lambda Cloud 定价,使用 8xH100 仅需 275 美元即可完成完整的训练方案。 为了促进透明度和协作,我们开源了完整的 pipeline——从数据生成和预处理到偏好优化和评估脚本——并公开提供模型权重和数据。

  • Github: 用于数据生成、响应重写、偏好优化和评估的代码。
  • Dataset: 1 万个偏好对
  • HuggingFace: Sky-T1-32B-Flash 模型权重

img 图 1: 我们的新模型在具有挑战性的 benchmarks 上保持强大性能的同时,显著减少了生成的 token 长度。

100 个深度学习术语解释

介绍

是否曾经对深度学习的术语感到不知所措?你不是一个人!这个领域充满了强大的概念,但记住每个术语可能具有挑战性。

本词汇表旨在弥合这一差距。在本文的后续内容中,我们将探讨 100 个重要的深度学习术语,使复杂的概念变得平易近人,并使您能够驾驭这个激动人心的领域。

那么,让我们直接进入文章,了解深度学习术语吧!

The Bitter Lesson

人工智能研究 70 年来最大的教训是,利用计算的通用方法最终是最有效的,而且优势巨大。 究其根本原因在于摩尔定律,或者更确切地说,是其计算单位成本持续呈指数级下降的普遍规律。 大多数人工智能研究都是在假设代理可用的计算力是恒定的情况下进行的(在这样的情况下,利用人类知识将是提高性能的唯一方法之一),但是,在比典型的研究项目稍长的时间内,可用的计算力不可避免地会大幅增加。 为了寻求在短期内有所作为的改进,研究人员试图利用他们对领域的人类知识,但从长远来看,唯一重要的是利用计算。 这两者不必相互冲突,但实际上它们往往会相互冲突。 花费在其中一种方法上的时间就不是花费在另一种方法上的时间。 人们在心理上会承诺投资于一种或另一种方法。 并且,基于人类知识的方法往往会使方法复杂化,使其不太适合利用通用方法来发挥计算能力。 人工智能研究人员迟迟才认识到这个痛苦的教训,这样的例子有很多,回顾一些最突出的例子是很有启发意义的。

Stargate计划:美国AI霸权的千亿级基建革命

当全球科技竞赛的焦点全面转向人工智能,一场重塑未来世界秩序的基建革命已悄然拉开帷幕。由软银、OpenAI、甲骨文和 MGX 联合发起的 Stargate 计划,以四年 5000 亿美元的惊天投资规模,正在美国本土构建一座属于 AI 时代的"数字巴别塔"。这不仅是一个科技项目,更是一场关乎国家战略、经济主权与人类文明走向的豪赌。