激活函数 (Activation Function)

引言

在构建神经网络时，激活函数是至关重要的组成部分。它们赋予神经网络学习复杂非线性关系的能力，是深度学习模型能够处理图像识别、自然语言处理等复杂任务的关键。本文将深入探讨激活函数的概念、作用、常见类型以及实际应用。

定义

激活函数，英文称为 Activation Function，在神经网络中扮演着“开关”的角色。它位于神经网络的每个神经元之后，对神经元的线性输出结果进行非线性变换。更具体地说，激活函数接收神经元的加权输入和偏置项之和，并决定该神经元是否应该被“激活”，即输出一个非零值。

从数学角度来看，如果我们将神经元的输入表示为 $x$，权重为 $w$，偏置为 $b$，激活函数为 $f$，则神经元的输出 $a$ 可以表示为：

$ a = f(w \cdot x + b) $

核心作用：

引入非线性: 如果神经网络中只使用线性变换（例如，没有激活函数或使用线性激活函数），那么无论网络有多少层，最终的输出仍然是输入的线性组合。这限制了神经网络的学习能力，使其无法解决非线性问题。激活函数通过引入非线性，使得神经网络可以逼近任意复杂的函数。
控制神经元输出: 激活函数可以限制神经元的输出范围，例如，Sigmoid 函数将输出限制在 0 和 1 之间，Tanh 函数将输出限制在 -1 和 1 之间。这有助于网络的稳定性和训练效率。

应用

激活函数广泛应用于神经网络的各个层面，尤其是在隐藏层和输出层。选择合适的激活函数对于网络的性能至关重要，不同的激活函数适用于不同的任务和网络结构。

常见激活函数及其应用场景：

Sigmoid 函数:
- 定义: $ f(x) = \frac{1}{1 + e^{-x}} $
- 特点: 将输入值压缩到 0 和 1 之间，输出可以解释为概率。
- 应用: 早期神经网络中常用，尤其适用于二分类问题的输出层，将输出值转化为概率。但由于梯度消失问题，在深层网络中已较少使用。
Tanh 函数 (双曲正切函数):
- 定义: $ f(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} $
- 特点: 将输入值压缩到 -1 和 1 之间，输出是零均值的。
- 应用: 在某些情况下优于 Sigmoid 函数，因为其输出是零均值的，有助于加速收敛。但在深层网络中也存在梯度消失问题。
ReLU 函数 (Rectified Linear Unit, 修正线性单元):
- 定义: $ f(x) = \max(0, x) $
- 特点: 当输入大于 0 时，输出等于输入；当输入小于等于 0 时，输出为 0。计算简单，收敛速度快，有效缓解梯度消失问题。
- 应用: 目前深度学习中最常用的激活函数之一，广泛应用于卷积神经网络 (CNN) 和循环神经网络 (RNN) 的隐藏层。
Leaky ReLU 函数:
- 定义: $ f(x) = \begin{cases} x & \text{if } x > 0 \ \alpha x & \text{if } x \leq 0 \end{cases} $ （其中 $ \alpha $ 是一个很小的常数，例如 0.01）
- 特点: 解决了 ReLU 函数在输入为负数时神经元“死亡”的问题。当输入为负数时，Leaky ReLU 输出一个很小的负斜率，而不是完全为零。
- 应用: 在某些情况下可以提升模型性能，尤其是在解决梯度消失问题和提高模型鲁棒性方面。
Softmax 函数:
- 定义: $ f(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}} $ （对向量 $x$ 的每个元素 $x_i$ 进行操作）
- 特点: 将一个数值向量转换为概率分布，向量中每个元素的取值范围在 0 到 1 之间，且所有元素之和为 1。
- 应用: 常用于多分类问题的输出层，将网络的输出转化为各个类别的概率。

示例

以下 Python 代码示例演示了如何使用 NumPy 实现几种常见的激活函数。

import numpy as np
import matplotlib.pyplot as plt

# Sigmoid 函数
def sigmoid(x):
  return 1 / (1 + np.exp(-x))

# Tanh 函数
def tanh(x):
  return np.tanh(x)

# ReLU 函数
def relu(x):
  return np.maximum(0, x)

# Leaky ReLU 函数
def leaky_relu(x, alpha=0.01):
  return np.where(x > 0, x, alpha * x)

# Softmax 函数 (通常用于输出层，这里仅为演示)
def softmax(x):
  exp_x = np.exp(x)
  return exp_x / np.sum(exp_x, axis=0) # axis=0 for column-wise softmax

# 生成输入数据
x = np.linspace(-5, 5, 100)

# 计算不同激活函数的输出
y_sigmoid = sigmoid(x)
y_tanh = tanh(x)
y_relu = relu(x)
y_leaky_relu = leaky_relu(x)


# 绘制图像
plt.figure(figsize=(10, 6))

plt.subplot(2, 2, 1)
plt.plot(x, y_sigmoid)
plt.title('Sigmoid 函数')
plt.grid(True)

plt.subplot(2, 2, 2)
plt.plot(x, y_tanh)
plt.title('Tanh 函数')
plt.grid(True)

plt.subplot(2, 2, 3)
plt.plot(x, y_relu)
plt.title('ReLU 函数')
plt.grid(True)

plt.subplot(2, 2, 4)
plt.plot(x, y_leaky_relu)
plt.title('Leaky ReLU 函数')
plt.grid(True)


plt.tight_layout()
plt.show()


# Softmax 示例 (输入一个示例向量)
example_vector = np.array([2.0, 1.0, 0.1])
softmax_output = softmax(example_vector)
print("\nSoftmax 示例输入:", example_vector)
print("Softmax 输出:", softmax_output)
print("Softmax 输出之和:", np.sum(softmax_output)) # 验证概率之和为 1

这段代码首先定义了几个常见的激活函数，然后使用 NumPy 生成了一系列输入值，并计算了这些激活函数在这些输入值上的输出。最后，使用 Matplotlib 绘制了激活函数的图像，直观地展示了它们的形状和特性。代码末尾还展示了一个 Softmax 函数的应用示例。

结论

激活函数是神经网络中不可或缺的组成部分，它们通过引入非线性，赋予神经网络强大的学习能力。选择合适的激活函数是构建高效神经网络的关键步骤之一。随着深度学习技术的不断发展，研究人员也在不断探索新的激活函数，以进一步提升模型的性能和泛化能力。理解不同激活函数的特性和应用场景，能够帮助我们更好地设计和优化神经网络模型，解决更加复杂的实际问题。

目录

引言

定义

应用

示例

结论