塑造 LLM 格局的里程碑式论文

大型语言模型（LLMs）领域一直以惊人的速度发展，这得益于一系列开创性的研究论文。这些论文不仅引入了新颖的架构和训练技术，还重新定义了我们对 LLM 能力的理解。在此，我们将探讨一些最重要的贡献，这些贡献为当前 LLM 领域的 state-of-the-art （最先进水平）铺平了道路。

1. Transformer 革命： “Attention Is All You Need”（2017）

2017 年，谷歌的研究人员在一篇开创性论文 “Attention Is All You Need” 中介绍了 Transformer 架构，标志着自然语言处理领域的范式转变。在 Transformer 出现之前，循环神经网络（RNNs），特别是 LSTM 和 GRU，是序列到序列任务的主导方法。然而，RNN 在并行化方面存在局限性，使得它们的训练速度很慢，尤其是在处理长序列时。

正如其名，Transformer 通过完全摒弃循环机制，仅仅依赖于一种名为 attention （注意力机制）的新机制，彻底革新了该领域。注意力机制允许模型在生成输出序列的每个部分时，权衡输入序列不同部分的重要性，从而有效地捕捉 RNN 难以处理的长距离依赖关系。

关键创新：

Self-Attention （自注意力机制）：使模型能够关注输入序列本身的不同部分，理解同一句子中词语之间的关系。
Multi-Head Attention （多头注意力机制）：允许模型同时关注输入序列的不同方面，捕捉多样化的关系和细微差别。
Positional Encoding （位置编码）：提供了一种注入词语在序列中位置信息的方法，这至关重要，因为 Transformer 与 RNN 不同，它本身并不按顺序处理序列。
Encoder-Decoder Structure （编码器-解码器结构）：Transformer 保留了先前模型中的编码器-解码器结构，但用基于注意力机制的层替换了循环层。

影响： Transformer 架构在并行化、训练速度以及捕捉长距离依赖关系的能力方面提供了显著的优势。它在机器翻译中取得了 state-of-the-art 的成果，为该领域树立了新的标准。更重要的是，它为后续许多 LLM 的发展奠定了基础。

2. 预训练语言模型的崛起：GPT 和 BERT (2018)

在 Transformer 架构的基础上，2018 年见证了两个有影响力的模型的出现，这两个模型普及了预训练语言模型的概念：

GPT (Generative Pre-trained Transformer，生成式预训练 Transformer) (OpenAI): “Improving Language Understanding by Generative Pre-Training” 介绍了 GPT 的第一个版本。GPT 使用 generative pre-training （生成式预训练）目标进行训练，模型在其中预测序列中的下一个词。这种在海量文本语料库上进行的 unsupervised pre-training （无监督预训练）使 GPT 能够学习丰富的语言表征。这些表征随后可以在较小的、带标签的数据集上进行 fine-tuned （微调），以完成特定的下游任务，从而取得令人印象深刻的结果。GPT 是一个 decoder-only （仅解码器）模型。
BERT (Bidirectional Encoder Representations from Transformers，基于 Transformer 的双向编码器表征) (Google): “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” 采用了不同的方法。BERT 是一个 encoder-only （仅编码器）模型，它使用两个新颖的目标进行预训练：
- Masked Language Modeling (MLM) （掩码语言建模）：随机掩盖输入序列中的一些词，并训练模型来预测被掩盖的词。这迫使模型理解来自两个方向的上下文（因此称为“双向”）。
- Next Sentence Prediction (NSP) （下一句预测）：训练模型预测给定的两个句子在原始文本中是否是连续的。

影响： GPT 和 BERT 展示了预训练和迁移学习在 NLP 中的强大力量。它们表明，在大量未标记数据上预训练的模型可以有效地适应各种下游任务，只需进行最少的微调，从而显著提高性能并减少对大型、特定任务数据集的需求。特别是 BERT，在众多 NLP 基准测试中取得了 state-of-the-art 的成果，建立了一个新的标准。

3. 规模化：GPT-2、Megatron-LM 以及规模的力量 (2019)

GPT 和 BERT 的成功点燃了一场训练更大规模语言模型的竞赛。2019 年见证了模型规模的显著飞跃，其标志是以下模型的发布：

GPT-2 (OpenAI): “Language Models are Unsupervised Multitask Learners” 基于 GPT 的成功，大幅扩展了模型规模。GPT-2 拥有高达 15 亿的参数，展现了令人印象深刻的生成连贯且上下文相关的文本的能力，即使是在它没有明确训练过的主题上也是如此。这引发了关于如此强大的语言模型的潜在风险的讨论，尤其是在生成逼真但虚假内容方面。该论文还介绍了 “zero-shot” learning （零样本学习）的概念，即模型无需任何特定任务的微调即可执行任务，只需在自然语言中进行适当的提示即可。
Megatron-LM (NVIDIA): “Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism” 进一步突破了模型规模的界限，推出了一个拥有 83 亿参数的模型。这篇论文解决了训练如此大规模模型相关的重大工程挑战，介绍了模型并行化的技术，可以将模型分布在多个 GPU 上进行训练。Megatron-LM 证明，扩大模型规模可以进一步提高各种 NLP 任务的性能。

影响： GPT-2 和 Megatron-LM 强调了规模在实现语言建模 state-of-the-art 性能方面的重要性。它们表明，在海量数据集上训练的更大规模的模型，可以在文本生成、理解，甚至零样本学习方面展现出非凡的能力。这些发展为未来几年更大规模的模型铺平了道路，并突显了对高效训练技术的需求，以应对这些庞然大物的计算需求。这个时代标志着思维方式的转变，社区开始认真考虑规模化假设：即简单地增加模型规模、数据和计算能力就可以持续提升 LLM 的能力。

4. 少样本学习和缩放定律的时代：GPT-3 及以后 (2020-至今)

随着 GPT-3 和后续模型的发布，规模化的趋势仍在继续，同时人们对缩放定律有了更深入的理解，并更加关注少样本学习。

GPT-3 (OpenAI): “Language models are few-shot learners” (2020) 将规模提升到了前所未有的水平，拥有 1750 亿参数。除了其庞大的规模之外，GPT-3 还展示了卓越的 few-shot learning （少样本学习）能力。通过在提示中仅提供几个任务示例，GPT-3 通常可以以惊人的准确度执行任务，而无需任何梯度更新或微调。这种能力进一步模糊了预训练和特定任务适应之间的界限，表明足够大的模型可以通过最少的提示成为通用的问题解决者。
Scaling Laws （缩放定律） (OpenAI): “Scaling Laws for Neural Language Models” (2020) 是 GPT-3 工作的关键配套论文。OpenAI 的研究人员实证研究了模型规模、数据集规模、计算量和性能之间的关系。他们发现性能随着这些因素中的每一个都呈幂律缩放，表明持续的规模化可以带来进一步的改进。这篇论文为在该领域变得普遍的“越大越好”方法提供了理论基础。
Gopher (DeepMind): “Scaling Language Models: Methods, Analysis & Insights from Training Gopher” (2021) 是另一个庞大的模型（2800 亿参数）。这篇论文不仅关注性能，还让社区深入了解了大规模训练的挑战以及如何应对这些挑战。
PaLM (Google): “PaLM: Scaling Language Modeling with Pathways” (2022) 进一步突破了规模的界限，达到了 5400 亿参数。这项工作介绍了 Pathways 系统，用于在多个 TPU pods （TPU pod）上进行高效训练，并证明了规模化的持续优势，在众多基准测试中取得了 state-of-the-art 的成果。值得注意的是，PaLM 在 reasoning tasks （推理任务）上表现出色，表明规模化不仅可以增强语言的流畅性，还可以增强逻辑推理能力。
Chinchilla (DeepMind): “An empirical analysis of compute-optimal large language model training” (2022)。这篇论文通过研究 LLM 的 compute-optimal training （计算最优训练），挑战了“越大总是越好”的观念。他们的研究表明，许多现有模型对于其训练数据来说是过度参数化的，而使用更多数据训练的较小模型可以实现相似或更好的性能。这一见解重新将重点放在数据质量和训练效率上。
LLaMA(Meta): “LLaMA: Open and Efficient Foundation Language Models" (2023) 证明，在比通常更多的 tokens （词元）上训练的较小模型，可以胜过大得多的模型。LLaMA 的强大性能表明，“万亿参数竞赛” 并不是通往强大模型的唯一途径，高效的训练和高质量的数据可以让较小的模型与较大的模型竞争。
GPT-4 (OpenAI): “GPT-4 Technical Report" (2023) 进一步提升了 state-of-the-art 水平。虽然其架构和训练的具体细节仍未公开，但 GPT-4 在推理、编码和处理复杂指令等各个领域都表现出了比 GPT-3 显著的改进。它还突显了安全和 alignment （对齐）研究日益增长的重要性，因为更强大的模型需要更仔细地考虑其潜在风险和社会影响。

影响： LLM 发展的这个时代的特点是对规模的持续追求，对缩放定律的日益深入的理解，以及对少样本和零样本学习的关注。像 GPT-3、PaLM 等模型已经证明，足够大且训练有素的 LLM 可以以令人印象深刻的准确性执行各种任务，通常只需最少的特定任务的调整。这些进步为各个领域的应用开辟了新的可能性，从创意写作和代码生成到科学发现和教育。然而，这个时代也带来了新的挑战，包括对更高效的训练方法的需求，数据质量和多样性的重要性，以及围绕部署日益强大的人工智能系统的伦理考量。

5. 开源模型的崛起

BLOOM (BigScience): “BLOOM: A 176B-Parameter Open-Access Multilingual Language Model” (2022) 是 LLM 民主化进程中的一个重要里程碑。它是首批真正开源的模型之一，其规模与 GPT-3 相当，是通过大规模协作努力开发的。BLOOM 的发布为世界各地的研究人员提供了访问强大 LLM 的途径，促进了该领域进一步的研究和发展。
LLaMA2 (Meta): “Llama 2: Open Foundation and Fine-Tuned Chat Models” (2023) 是开源 LLM 迈出的又一重要一步。Meta 在 LLaMA 成功的基础上，发布了一套模型，包括微调的聊天模型，并采用了更宽松的许可证。LLaMA 2 展示了强大的性能，在许多基准测试中可以与闭源模型相媲美，并进一步加速了开源 LLM 的发展。
Mistral 7B (Mistral): “Mistral 7B” (2023) 是一个强大的 70 亿参数语言模型，它在所有评估的基准测试中都优于 Llama 2 13B。它还引入了一个用于指令跟随的微调模型，名为 Mistral 7B -- Instruct。
Qwen (Alibaba): “Qwen2.5 Technical Report" (2024) 代表了阿里巴巴对开源社区的重要贡献。Qwen 系列提供了一系列模型，包括令人印象深刻的 Qwen2.5-72B-Instruct，其性能可与更大的模型相媲美。此次发布表明了对开源开发的承诺，并为研究人员提供了用于各种应用的强大工具。
Deepseek-v2 (Deepseek): "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model" (2024), 以经济的训练和高效的推理为特点。它包含 2360 亿个总参数，其中每个 token 激活 210 亿个参数，并支持 128K tokens 的 context length （上下文长度）。 影响： 强大的 open-source models （开源模型）的出现对 LLM 格局来说是一个 game-changer （颠覆者）。它使这些技术的访问民主化，使无法获得大量计算资源的研究人员和开发人员能够试验和构建在 state-of-the-art 模型之上。这促进了一个充满活力的开源 LLM 开发生态系统，从而实现了更快的创新和更广泛的应用。开源模型还使研究人员能够以闭源模型无法实现的方式测试模型。

6. 探索新的架构：超越 Transformers

虽然 Transformer 一直主导着 LLM 格局，但研究人员正在积极探索替代架构，这些架构可能在效率、可扩展性或性能方面提供优势。

Mamba (CMU & Princeton): “Mamba: Linear-Time Sequence Modeling with Selective State Spaces” (2023) 引入了一种基于 structured state space models (SSMs) （结构化状态空间模型）的新架构。Mamba 解决了 Transformer 的一些局限性，特别是它们随序列长度呈二次方扩展的问题。通过利用 SSM 的技术，Mamba 在推理过程中实现了 linear-time scaling （线性时间缩放），使其在处理非常长的序列时可能更有效率。
RWKV (Bo Peng): “RWKV: Reinventing RNNs for the Transformer Era” (2023) 是一种新颖的模型架构，Receptance Weighted Key Value (RWKV)，它结合了 transformer 高效的并行化训练和 RNN 高效的推理。
Mamba2 (CMU & Princeton): “Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality" (2024) 是一种新的架构，其核心层是对 Mamba 选择性 SSM 的改进，速度提高了 2-8 倍，同时在语言建模方面继续与 Transformer 竞争。

影响： 这些新架构代表了对 Transformer 范式的重大突破。虽然像 Mamba 和 RWKV 这样的模型仍处于早期阶段，但它们展示了替代方法在实现与 Transformer 相当甚至更好的性能方面的潜力，同时解决了 Transformer 的一些局限性。这些发展可能会在未来带来更高效和可扩展的 LLM，特别是对于涉及非常长序列的任务。

结论

从 Transformer 的引入到今天的大规模模型，LLM 的发展历程令人瞩目。这些里程碑式的论文都为更深入地理解语言建模做出了贡献，突破了可能的界限，并为研究和应用开辟了新的途径。随着该领域的不断发展，我们可以期待更强大和通用的 LLM，以及新的挑战和机遇。对效率、对齐和 multimodality （多模态）等领域的持续研究对于塑造 LLM 的未来及其对社会的影响至关重要。通过开源计划实现 LLM 的民主化也是一个重要的趋势，有望加速创新，并使更广泛的研究人员和开发人员更容易获得这些强大的技术。最后，对 Transformer 之外的新架构的探索表明，该领域远未定型，模型设计方面的进一步突破可能即将到来。LLM 的格局充满活力和令人兴奋，未来几年有望取得更多开创性的进展。

目录