100 个深度学习术语解释

介绍

是否曾经对深度学习的术语感到不知所措？你不是一个人！这个领域充满了强大的概念，但记住每个术语可能具有挑战性。

本词汇表旨在弥合这一差距。在本文的后续内容中，我们将探讨 100 个重要的深度学习术语，使复杂的概念变得平易近人，并使您能够驾驭这个激动人心的领域。

那么，让我们直接进入文章，了解深度学习术语吧！

为什么你应该精通深度学习术语？

理解深度学习的语言对于跟上这个快速发展领域的最新进展至关重要。它帮助我们理解棘手的概念，使我们及时了解新的发现，让我们有效地分享知识，并使阅读和理解研究论文和技术文档变得更容易。此外，当尝试解决难题、构建和排除模型故障以及与来自各种背景的人们交流时，它也大有帮助。基本上，掌握深度学习术语意味着我们可以在这个激动人心的技术领域进行沟通、避免混淆并发挥作用。

你必须知道的 100 个深度学习术语

以下是你必须知道的 100 个深度学习术语：

1. 人工神经网络 (ANN) ANN 代表 Artificial Neural Network（人工神经网络）。在数据科学中，它指的是一种计算模型，其灵感大致来源于人脑的结构和功能。

2. 激活函数 (Activation Function) 激活函数计算加权总和，然后添加偏置，以决定神经元是否应该被激活。它的目的是在神经元的输出中引入非线性。示例包括 Sigmoid、ReLU（Rectified Linear Unit，修正线性单元）和 Tanh。

3. 反向传播 (Backpropagation) 在神经网络中，如果估计的输出与实际输出相差甚远（误差较大），我们会根据误差更新偏置和权重。这种权重和偏置更新过程被称为反向传播 (Back Propagation)。反向传播 (BP) 算法确定输出端的损失（或误差），然后将其反向传播到网络中。权重被更新以最小化每个神经元产生的误差。减少误差的第一步是确定每个节点相对于最终输出的梯度（导数）。

4. 卷积神经网络 (CNN) 卷积神经网络 (CNNs) 是一种强大的深度学习模型，擅长处理具有网格状结构的数据，主要是图像。它们的灵感来自人类视觉皮层的功能方式，尤其擅长图像识别、物体检测和图像分割等任务。

5. 深度学习 (Deep Learning) 深度学习与一种机器学习算法（人工神经网络，ANN）相关联，该算法使用人脑概念来促进任意函数的建模。 ANN 需要大量数据，并且这种算法在同时建模多个输出时非常灵活。要详细了解 ANN，请点击此处（请替换为实际链接）。

6. 轮次 (Epoch) 这个深度学习术语——轮次 (epoch)，指的是训练数据集在机器学习模型中完成一次完整传递。想象一个循环，您在其中对模型进行一次数据集中所有数据点的训练。每次完成该循环都被视为一个轮次。

7. 特征提取 (Feature Extraction) 特征提取指的是将原始数据转换为可以处理的数值特征，同时保留原始数据集中的信息。

8. 梯度下降 (Gradient Descent) 梯度下降是一种一阶迭代优化算法，用于寻找函数的最小值。我们在机器学习算法中使用梯度下降算法来最小化成本函数。它找出我们算法的最佳参数集。梯度下降可以分为以下几类：

基于数据摄取：
- 全批量梯度下降算法 (Full Batch Gradient Descent Algorithm)
- 随机梯度下降算法 (Stochastic Gradient Descent Algorithm)
- 在全批量梯度下降算法中，我们一次使用所有数据来计算梯度，而在随机梯度下降算法中，我们在计算梯度时抽取一个样本。
基于微分技术：
- 一阶微分 (First order Differentiation)
- 二阶微分 (Second order Differentiation)

9. 损失函数 (Loss Function) 一种衡量神经网络对预期结果建模效果的函数。

10. 循环神经网络 (RNN) RNN 代表 Recurrent Neural Network（循环神经网络）。与逐点处理数据的传统 ANN 不同，RNN 专门设计用于处理顺序数据，其中信息的顺序很重要。

11. 迁移学习 (Transfer Learning) 迁移学习是将预训练模型应用于全新的数据集。预训练模型是由他人创建的用于解决问题的模型。该模型可以应用于解决具有相似数据的类似问题。

在这里，您可以查看一些最广泛使用的预训练模型 (请替换为实际链接)。

12. 权重 (Weight) 神经网络中的一个参数，用于转换网络层内的输入数据。它在训练期间进行调整，以便网络预测正确的输出。

13. 偏置 (Bias) 添加到模型输出中的一个项，使模型能够表示不通过原点的模式。

14. 过拟合 (Overfitting) 当模型在训练数据集上表现良好，但在测试集上失败时，就说模型过拟合。当模型过于敏感并捕获仅存在于训练数据集中的随机模式时，就会发生这种情况。有两种方法可以克服过拟合：

降低模型复杂度 (Reduce the model complexity)
正则化 (Regularization)

15. 欠拟合 (Underfitting) 当统计模型或机器学习算法无法捕获数据的潜在趋势时，就会发生欠拟合。它指的是一个既不能对训练数据进行建模，也不能推广到新数据的模型。欠拟合模型是不合适的，因为它在训练数据上的表现会很差。

16. 正则化 (Regularization) 正则化是一种用于解决统计模型中过拟合问题的技术。在机器学习中，正则化会惩罚系数，以便模型可以更好地泛化。不同的回归技术使用正则化，例如岭回归 (Ridge regression) 和 Lasso 回归 (lasso regression)。

17. Dropout 一种用于神经网络的正则化技术，通过在训练期间的每次更新时随机将一部分输入单元设置为零来防止过拟合。

18. 批归一化 (Batch Normalization) 一种改进深度神经网络训练的技术，它对每个小批量 (mini-batch) 的层输入进行归一化。

19. 自编码器 (Autoencoder) 一种用于学习未标记数据的高效编码的神经网络，通常用于降维。

20. 生成对抗网络 (GAN) 生成对抗网络 (GAN)：Ian Goodfellow 及其同事设计了一类机器学习框架，其中两个神经网络在一个游戏中竞争。

21. 注意力机制 (Attention Mechanism) 复杂神经网络中的一个组件，尤其是在序列到序列模型中，它允许网络顺序关注输入的不同部分，而不是同时考虑整个输入，从而提高机器翻译等任务的性能。

22. 嵌入层 (Embedding Layer) 这个深度学习术语主要用于神经网络中处理文本数据，嵌入层将稀疏的分类数据（通常是单词的索引）转换为密集且连续的向量空间，其中相似的值彼此接近，从而促进更有效的学习。

23. 多层感知器 (MLP) 一种神经网络，至少包含三层节点：输入层、一个或多个隐藏层和输出层。与 CNN 或 RNN 不同，MLP 是完全连接的，这意味着一层中的每个神经元都连接到下一层中的每个神经元。

24. 归一化 (Normalization) 数据准备中的一个过程，它改变像素强度值的范围，以确保它们更加一致，通常通过确保输入的均值和标准差分别为 0 和 1。

25. 池化层 (Pooling Layer) 这个深度学习术语通常用于卷积神经网络中。池化（或子采样或下采样）通过将一层中神经元簇的输出组合到下一层中的单个神经元中来减小数据的维度，通常使用最大池化 (max pooling) 或平均池化 (average pooling) 方法。

26. 序列到序列模型 (Sequence-to-Sequence Model) 一种模型，包含两个部分：处理输入的编码器和生成输出的解码器。它在输入和输出都是序列的应用中很有用，例如机器翻译或语音识别。

27. 张量 (Tensor) 一种广义矩阵，用作 TensorFlow 和其他深度学习框架中的基本数据结构，用于表示所有数据：标量是零维张量，向量是一维张量，矩阵是二维张量。

28. 主干网络 (Backbone Network) 一种预训练网络，用作另一个特定任务架构的基础，通常用于物体检测等任务中的特征提取，其中来自主干网络的高级特征用于进行预测。

29. 微调 (Fine-tuning) 获取预训练深度学习模型（网络已经针对相关任务进行了训练）并在特定于第二个任务的新数据集上继续训练的过程，该数据集的大小可能较小，但可以利用已学习的特征。

30. 超参数 (Hyperparameters) 定义网络架构（如层数、每层节点数、学习率）和训练过程的各个方面的参数（如批量大小、轮次数），这些参数在训练之前设置，并直接控制训练算法的行为。

31. 学习率 (Learning Rate) 训练算法在损失曲面上的步长大小。较小的学习率可能会使训练更可靠，但也可能使其收敛速度变慢。

32. Softmax 函数 (Softmax Function) 这个深度学习术语是在用于多分类的神经网络中的最终激活函数，它通过将每个输出的指数除以所有输出的指数之和，将输出 logits 转换为概率。

33. 长短期记忆网络 (LSTM) 一种特殊的 RNN，能够学习长期依赖关系，包括调节信息流的门控。

34. 梯度消失问题 (Vanishing Gradient Problem) 训练深度神经网络中的一个挑战是，在反向传播期间，梯度在通过层反向传播时变得越来越小，导致靠近输入层的层学习非常缓慢或停滞。

35. 梯度爆炸问题 (Exploding Gradient Problem) 一个问题，其中大的误差梯度累积，并导致在训练期间对神经网络模型权重进行非常大的更新，这可能会导致模型无法收敛甚至发散。

36. 数据增强 (Data Augmentation) 用于增加数据量的技术，通过添加已存在数据的略微修改的副本或从现有数据新创建的合成数据，例如在图像处理的上下文中旋转、翻转、缩放或裁剪图像。

37. 批量大小 (Batch Size) 在模型训练的一次迭代（单个批次）中使用的训练样本数。

38. 优化器 (Optimizer) 用于更改神经网络属性（如权重和学习率）以减少损失的算法或方法。常见的优化器包括 SGD（Stochastic Gradient Descent，随机梯度下降）、Adam 和 RMSprop。

39. F1 分数 (F1 Score) 衡量测试准确性的指标，并考虑测试的精度 (precision) 和召回率 (recall) 来计算分数：2 * (精度 * 召回率) / (精度 + 召回率)。当类别分布不均匀时，它特别有用。

40. 精度 (Precision) 量化正确正面预测数量的指标。它定义为真阳性 (true positives) 的数量除以真阳性加上假阳性 (false positives) 的数量。

41. 召回率 (Recall) 这个深度学习术语也称为灵敏度 (sensitivity) 和召回率 (recall)，它量化了在所有可能做出的正面预测中，正确正面预测的数量。它的计算方法是真阳性的数量除以真阳性加上假阴性 (false negatives) 的数量。

42. ROC 曲线 (ROC Curve) 一个图形图，通过绘制真阳性率（召回率）与假阳性率，来说明二元分类器系统在其判别阈值变化时的诊断能力。

43. 曲线下面积 (AUC) 在机器学习中，AUC 确定哪些模型最能预测类别。它是 ROC 曲线下的面积；较高的 AUC 表明模型性能更好。

44. 早停法 (Early Stopping) 正则化用于避免在使用迭代方法（如梯度下降）训练学习器时发生过拟合。一旦验证数据集上的性能开始下降，训练就会停止。

45. 特征缩放 (Feature Scaling) 一种用于标准化数据中自变量或特征范围的方法。数据处理也称为数据归一化，通常在数据预处理阶段执行。

46. 生成模型 (Generative Model) 一种统计模型，用于生成数据分布中的所有值，包括观察到的和未观察到的值。深度学习中常见的例子包括生成对抗网络 (GAN) 和变分自编码器 (VAE)。

47. 判别模型 (Discriminative Model) 一种对输入数据进行分类的模型；也就是说，它根据训练数据预测给定输入的标签。常见的例子包括大多数监督学习模型，例如逻辑回归和神经网络。

48. 数据不平衡 (Data Imbalance) 数据集中每个类别的观察数量分布不均的情况。通常，这对预测建模构成挑战，因为大多数算法都旨在最大化总体准确率。

49. 降维 (Dimensionality Reduction) 通过获得一组主要变量来减少考虑中的随机变量的数量。经常使用的技术包括 PCA（Principal Component Analysis，主成分分析）、t-SNE 和自编码器。

50. 主成分分析 (PCA) 一种统计程序，它使用正交变换将一组可能相关的变量的观测值转换为一组线性不相关的变量值，称为主成分。

51. 非线性激活函数 (Nonlinear Activation Functions) 神经网络中使用的函数，帮助模型学习复杂的数据模式，包括 Sigmoid、Tanh 和 ReLU（Rectified Linear Unit，修正线性单元）函数。

52. 批量训练 (Batch Training) 神经网络中的一种训练方法，其中模型权重在处理完整个数据集后更新，而不是在处理单个数据点或小批量后更新。

53. 随机梯度下降 (SGD) 一种简单但非常有效的方法，用于拟合凸损失函数（如（线性）支持向量机和逻辑回归）下的线性分类器和回归器。与从整个数据集计算梯度的批量梯度下降不同，SGD 每次仅使用一个数据点更新参数。

54. 激活图 (Activation Maps) 深度学习模型（通常在 CNN 中）各个层内特定激活的可视化表示。这些图可以帮助理解输入数据的哪些特征正在激活某些滤波器或神经元。

55. 零样本学习 (Zero-Shot Learning) 一个分类问题，其中测试集中的类别在训练期间都未见过；模型必须从已看到的类别推广到未看到的类别。

56. 一次性学习 (One-Shot Learning) 一个分类任务，其中学习算法在对新实例进行预测之前，仅给出每个类别的一个示例。

57. 少样本学习 (Few-Shot Learning) 一种机器学习方法，其中模型使用极少量标记数据进行训练，通常每个类别一到五个示例。

58. 对抗样本 (Adversarial Examples) 稍微修改的输入，旨在欺骗机器学习模型。这些通常用于评估图像分类等任务中模型的鲁棒性。

59. 胶囊网络 (CapsNets) 一种深度神经网络，试图通过胶囊（神经元组）捕捉特征之间的空间层次结构，这些胶囊学习识别物体及其在空间中的相对关系，从而可能克服 CNN 的一些局限性。

60. 注意力层 (Attention Layers) 常用于序列预测问题的层，帮助模型关注输入序列的特定部分，提高模型记忆长序列而不会丢失数据的能力。

61. 跳跃连接 (Skip Connections) 一种用于设计深度神经网络以减轻梯度消失问题的技术，方法是跳过一层或多层。常见于 ResNet 等架构中，其中来自较早层的输出被添加到稍后层的输出中，以帮助保留梯度。

62. Siamese 网络 (Siamese Networks) 一种神经网络架构，包含两个或多个相同的子网络。 Siamese 网络非常适合用于查找两个可比较事物之间相似性或关系的任务，例如在人脸验证系统中。

63. Triplet 损失 (Triplet Loss) 一种损失函数，用于通过将基线输入与正输入（相似）和负输入（不相似）进行比较来学习有用的嵌入。它确保基线输入比负输入更接近正输入一定的边距。

64. 自监督学习 (Self-Supervised Learning) 一种机器学习类型，其中训练数据提供监督，因为输入数据本身用于生成标签。这通常用于标记数据稀缺或昂贵的场景中。

65. 交叉熵损失 (Cross-Entropy Loss) 一种损失函数，常用于分类任务。它衡量分类模型的性能，其输出是介于 0 和 1 之间的概率值。交叉熵损失随着预测概率偏离实际标签而增加。

66. 序列建模 (Sequence Modeling) 一种深度学习模型，旨在处理顺序数据，例如时间序列或文本。示例包括 RNN、LSTM 和 GRU，它们可以从数据的时间结构中学习。

67. 空间变换网络 (Spatial Transformer Networks) 一个 CNN 模块，明确允许在网络内对数据进行空间操作。这可以提高模型的几何不变性，因为它可以空间变换特征图以关注数据中的相关区域。

68. 教师强制 (Teacher Forcing) 一种用于训练 RNN 的技术，其中来自先前时间步的目标输出用作当前输入，而不是网络生成的输出。此方法有助于稳定和加速训练。

69. 神经风格迁移 (Neural Style Transfer) 一种算法，使用卷积神经网络混合两张图像——一张图像的内容和另一张图像的艺术风格。此过程允许模型学习并将一张图像的风格元素应用于另一张图像的内容。

70. 标签平滑 (Label Smoothing) 一种用于降低模型对其预测的信心的技术，通过改变标签的表示方式。标签平滑不是使用硬标签（1 和 0），而是使用略小于 1 和大于 0 的值，通常会导致模型泛化能力的提高。

71. Lookahead 优化器 (Lookahead Optimizer) 一种优化器，它通过在当前权重和几个步骤之前的权重之间进行插值来定期更新模型权重，从而帮助稳定优化轨迹。

72. 集束搜索 (Beam Search) 一种用于提高序列建模中预测质量的算法，尤其是在自然语言处理中。它不是在每一步预测最可能的下一步，而是跟踪 k 个最可能的序列路径。

73. 知识蒸馏 (Knowledge Distillation) 一种方法，其中训练一个较小的模型（称为“学生”）来重现更大的预训练模型（或“教师”）的行为。这项技术允许在资源受限的环境中部署强大的模型。

74. T-SNE (t-Distributed Stochastic Neighbor Embedding，t-分布随机邻域嵌入) 一种用于降维的机器学习算法，特别适用于高维数据集的可视化。它将数据点的亲和力转换为概率，并最小化低维嵌入的联合概率与高维数据的联合概率之间的 Kullback-Leibler 散度。

75. 梯度裁剪 (Gradient Clipping) 一种用于对抗训练期间梯度爆炸问题的技术。它涉及在反向传播期间裁剪梯度，以防止它们超过定义的阈值。

76. 元学习 (Meta-Learning) 有时称为“学习如何学习”，它涉及在各种学习任务上训练模型，使其可以使用少量训练样本来解决新的学习任务。

77. 神经架构搜索 (NAS) 机器学习的一个领域，专注于自动化人工神经网络的设计。 NAS 使用强化学习、进化算法或基于梯度的方法来为给定任务生成最佳架构。

78. 量化 (Quantization) 减少神经网络中表示数字的位数的过程。量化减小了模型大小并提高了推理速度，使其适用于在计算资源有限的移动设备上部署。

79. 自注意力 (Self-Attention) (续) Transformer 架构已证明在许多 NLP 任务中有效，因为它使模型能够权衡句子或文档中不同单词相对于彼此的重要性。

80. Transformer 模型 (Transformer Models) 一种神经网络架构，它避开了循环，而是完全依赖自注意力机制来绘制输入和输出之间的全局依赖关系，这在翻译和文本生成等任务中具有革命性意义。

81. BERT (Bidirectional Encoder Representations from Transformers，来自 Transformers 的双向编码器表示) 谷歌的一种方法，通过在所有层中联合调节左右上下文，从无标签文本中预训练深度双向表示。因此，预训练的 BERT 模型只需一个额外的输出层即可进行微调，从而为各种任务创建最先进的模型。

82. 分词 (Tokenization) 在 NLP 中，分词是将一段文本分割成更小的单元（称为标记），标记可以是单词、字符或子词。这通常是处理要由神经网络使用的文本的第一步之一。

83. 词嵌入 (Word Embeddings) 一种词表示类型，允许含义相似的词具有相似的表示。它们是 NLP 中的一组语言建模和特征学习技术，其中词汇表中的单词或短语被映射到实数向量。

84. 位置编码 (Positional Encoding) 在 Transformer 模型架构中，由于自注意力机制本身不捕捉序列顺序，因此将位置编码添加到输入嵌入中，以提供有关序列中标记的相对或绝对位置的一些信息。

85. 图神经网络 (GNNs) 一种直接在图结构上运行的神经网络。这些网络通过图中节点之间的消息传递来捕获图的依赖关系。

86. 强化学习 (Reinforcement Learning) 一种机器学习类型，其中智能体通过执行某些动作并接收奖励或惩罚来学习在环境中表现。这种学习方法基于游戏化的概念，特别用于游戏和自动驾驶汽车等场景。

87. 经验回放 (Experience Replay) 在强化学习中，经验回放涉及存储智能体在每个时间步的经验，而不是在状态-动作对发生时运行 Q 学习。稍后，可以在批次中将这些经验重放给智能体，打破时间相关性并平滑数据分布的变化。

88. 课程学习 (Curriculum Learning) 一种训练策略，从学习任务的较容易的方面或复杂任务的早期阶段开始，并逐渐增加难度级别。这种方法的灵感来自人类的学习方式，可以加快收敛速度并提高性能。

89. 模型剪枝 (Model Pruning) 从现有神经网络中算法地移除参数的过程，而不会显着影响其性能。剪枝有助于降低部署模型的计算成本，还可以减小模型大小。

90. 持续学习 (Continuous Learning) 这个深度学习术语也称为终身学习 (lifelong learning)；这是一种机器学习形式，其中算法不断学习和适应新数据，而不会忘记以前的知识。这对于在动态环境中运行的应用程序至关重要。

91. 偏差-方差权衡 (Bias-Variance Tradeoff) 监督学习中的一个基本问题是，增加偏差会减少方差，反之亦然。偏差-方差权衡是一个属性，它定义了任何模型在给定训练集上可达到的准确率的限制。

92. 灾难性遗忘 (Catastrophic Forgetting) 一种现象，其中神经网络在学习新信息后会忘记先前学习的信息，这是持续学习中的一个重大挑战。

93. 多模态学习 (Multimodal Learning) 这种方法涉及在来自多个模态的数据上训练模型，例如包含图像和文本的数据集。它有助于通过结合来自不同来源的信息来学习更丰富的表示。

94. 异常检测 (Anomaly Detection) 识别罕见的项目、事件或观察结果，这些项目、事件或观察结果因与大多数数据显着不同而引起怀疑。这在欺诈检测、网络安全和故障检测中特别有用。

95. 分布外检测 (Out-of-Distribution Detection) 识别在某些方面与训练分布不同的数据样本。这在自动驾驶等安全关键型应用中至关重要，在这些应用中，模型必须识别和处理它尚未明确训练过的情况。

96. 卷积 (Convolution) 卷积神经网络内部工作中使用的一种数学运算。它涉及取一个小数矩阵（内核）与一个较大矩阵的每个部分的点积，以产生一个新矩阵，有效地过滤原始矩阵。

97. 池化 (Pooling) (续) 具体而言，CNN 中的池化层降低了每个特征图的维度，同时保留了最重要的信息，这有助于检测对尺度和方向变化不变的特征，并减少计算负载。常见的池化类型包括最大池化和平均池化，它们分别取输入区域的最大值和平均值

98. 空洞卷积 (Dilated Convolutions) 这个深度学习术语也称为 atrous 卷积。这些卷积涉及在卷积层的内核中插入空格，有效地扩大其视野，而无需增加参数数量或计算量。这对于需要理解更大上下文的任务（例如语义图像分割）很有用。

99. 序列到序列学习 (Sequence-to-Sequence Learning) 深度学习中的一个过程，其中模型被训练为将来自一个域（例如，英语句子）的序列转换为另一个域（例如，法语句子）的序列。这种模型架构通常涉及编码器-解码器框架，并且是机器翻译和语音识别应用程序的核心。

100. 注意力机制 (Attention Mechanisms) 关于这个概念的进一步阐述，注意力机制允许模型根据需要关注输入序列的不同部分以生成输出序列，从而提高模型处理文本摘要和机器翻译等任务中长序列的能力。多头注意力 (multi-headed attention) 等变体提供了从不同表示子空间的不同位置关注信息的能力。

结论

通过这 100 个深度学习术语，您已经掌握了广泛的深度学习概念，涵盖了架构、过程、策略和特定技术。每个术语对于构建与当前状态和正在进行的 AI 和机器学习发展互动所需的基础知识至关重要。无论是用于教育目的还是作为专业人士的参考，此列表都概括了深度学习中的基本术语。

目录

介绍

为什么你应该精通深度学习术语？

你必须知道的 100 个深度学习术语

结论