如何像专业人士一样在 Character AI 上进行角色扮演

本文将基于一个实用的 Notebook 示例，深入探讨如何使用 GRPO (Gradient Ratio Policy Optimization) 算法，在单张 T4 GPU 上对 Qwen2.5-0.5B 这一开源大模型进行全参数微调。我们将详细解析代码，并解释背后的优化策略，帮助读者理解如何在资源受限的环境下也能玩转大模型微调。

在 Google Colab 中试用 VLLM + DeepSeek R1：快速指南

2025-02-10 17:10

最近，我尝试在本地运行使用 Qwen 7B 蒸馏的 DeepSeek R1，而没有使用任何 GPU。我所有的 CPU 核心和线程都被推到了极限，温度达到了最高的 90 摄氏度 (Ryzen 5 7600)。

解锁 AI 魔力 - 通过 Gemini 2.0 Flash 和 Google AI Studio 完全免费

2025-02-10 16:50

嘿，各位技术探索者们！你们有没有听说 Google 令人难以置信的 AI 工具的最新消息？如果你和我一样，可能正渴望深入探索和体验最新最棒的 AI 技术，但也许你也在想，“这会花费我一大笔钱吗？”

好消息是！Google 实际上是在免费赠送 AI 王国的钥匙，通过其 Gemini 2.0 Flash 模型和 Google AI Studio。最棒的是什么？你可以完全免费开始使用。是的，你没听错！

在 Google Colaboratory 上托管开源 LLM 模型

2025-02-10 16:30

在本文中，我们将介绍如何从 HuggingFace 选择任何现成的模型并在 Google Collaboratory 上托管它。本文假设您熟悉 Jupyter Notebook，如果您不熟悉，可以在此处轻松学习。最终的 Jupyter Notebook 在文章底部。

在 Google Colab 免费使用 Ollama

2025-02-10 15:30

Google Colab 为运行机器学习模型和诸如 Ollama 这样的工具提供了绝佳的环境。虽然 Colab 提供了慷慨的免费层级，但我们需要采取一些额外的步骤来确保我们能够有效地运行 Ollama。让我们逐步完成这个过程。

Andrej Karpathy 深入探讨类 ChatGPT 的 LLM (TL;DR)

2025-02-10 12:30

Image 24: LLM ChatGPT TL;DR

本次深入探讨的目标读者

几天前，Andrej Karpathy 发布了一个名为 “深入探讨类 ChatGPT 的 LLM” 的视频。这是一个信息金矿，但时长也达到了 3 小时 31 分钟。我观看了完整视频并做了大量笔记，所以我想为什么不为那些想要获取要点而又不想投入大量时间的人整理一个 TL;DR（太长不看）版本呢。

揭秘Q*：新型LLM基础模块

2025-01-26 18:40

我已经完全解开了 Q* 的谜团：它是一个用于 LLM 的新型基础模块，一个文本条件的空间计算机模型。

在此文中，你可以看到一个为路径寻找训练的模型。这些模型被称为神经元胞自动机 (Neural Cellular Automatons, NCA)，而 Q* 是它的基础模型版本 + Q-learning（强化学习）。

它之所以被称为 Q*，很可能是因为它受到了这项关于路径寻找的初步研究的启发，如这里所示，而 Q 则是因为它集成了 Q-learning 作为其训练方法的一部分。

与为单一任务训练不同，你可以对 NCA 进行文本条件设定，并使用今天的 O1/R1 来生成一个庞大的“数据集生成器”库，用于各种谜题，并带有难度参数以进行渐进式训练。

那么这实际上是如何运作的呢？

Node 对 TypeScript 的全新内置支持

2025-01-26 14:49

新特性的初探

考虑以下文件：

// demo.mts
function main(message: string): void {
  console.log('Message: ' + message);
}
main('Hello!');

现在我们可以像这样运行它：

node demo.mts

大模型的合成数据相关内容

2025-01-26 13:49

1. Github 仓库:

https://github.com/wasiahmad/Awesome-LLM-Synthetic-Data.

Open R1 - 复现 Deepseek-R1

2025-01-26 09:49

DeepSeek-R1 的完全开源复现。让我们一起构建它！

少思考，多成就：在不牺牲准确性的前提下，推理成本降低 50%

2025-01-25 12:30

我们很高兴推出 Sky-T1-32B-Flash，我们更新的推理语言模型，它显著减少了过度思考，在具有挑战性的问题上将推理成本降低高达 57%。此增强在数学、编码、科学和常识等领域降低了生成长度，同时保持了准确性，并且根据 Lambda Cloud 定价，使用 8xH100 仅需 275 美元即可完成完整的训练方案。为了促进透明度和协作，我们开源了完整的 pipeline——从数据生成和预处理到偏好优化和评估脚本——并公开提供模型权重和数据。

Github: 用于数据生成、响应重写、偏好优化和评估的代码。
Dataset: 1 万个偏好对
HuggingFace: Sky-T1-32B-Flash 模型权重

图 1: 我们的新模型在具有挑战性的 benchmarks 上保持强大性能的同时，显著减少了生成的 token 长度。

100 个深度学习术语解释

2025-01-25 12:20

介绍

是否曾经对深度学习的术语感到不知所措？你不是一个人！这个领域充满了强大的概念，但记住每个术语可能具有挑战性。

本词汇表旨在弥合这一差距。在本文的后续内容中，我们将探讨 100 个重要的深度学习术语，使复杂的概念变得平易近人，并使您能够驾驭这个激动人心的领域。

那么，让我们直接进入文章，了解深度学习术语吧！

The Bitter Lesson

2025-01-25 11:20

人工智能研究 70 年来最大的教训是，利用计算的通用方法最终是最有效的，而且优势巨大。究其根本原因在于摩尔定律，或者更确切地说，是其计算单位成本持续呈指数级下降的普遍规律。大多数人工智能研究都是在假设代理可用的计算力是恒定的情况下进行的（在这样的情况下，利用人类知识将是提高性能的唯一方法之一），但是，在比典型的研究项目稍长的时间内，可用的计算力不可避免地会大幅增加。为了寻求在短期内有所作为的改进，研究人员试图利用他们对领域的人类知识，但从长远来看，唯一重要的是利用计算。这两者不必相互冲突，但实际上它们往往会相互冲突。花费在其中一种方法上的时间就不是花费在另一种方法上的时间。人们在心理上会承诺投资于一种或另一种方法。并且，基于人类知识的方法往往会使方法复杂化，使其不太适合利用通用方法来发挥计算能力。人工智能研究人员迟迟才认识到这个痛苦的教训，这样的例子有很多，回顾一些最突出的例子是很有启发意义的。

从Python到深度学习专家：完整路线图（含代码！） - 无需博士学位——将你的编程技能转化为AI超能力

2025-01-23 12:20

你已经掌握了 Python 和 NumPy。你可以熟练操作数组、处理数据并自动化任务。但当你看到“Transformer”“反向传播”“GAN”这些术语时，可能会想：如何在编程和深度学习之间架起桥梁？

From Python to Deep Learning Pro: Your Complete Roadmap (With Code!) - No PhD Required — Turn Your Coding Skills into AI Superpowers

2025-01-23 12:10

You've conquered Python and NumPy. You can slice arrays, wrangle data, and automate tasks. But now you're staring at terms like "transformers," "backpropagation," and "GANs" and wondering: How do I bridge the gap between coding and deep learning?

本次深入探讨的目标读者

新特性的初探 #

1. Github 仓库:

介绍

新特性的初探