浅谈深度学习：剖析模型与中间变量显存占用计算方法

2023-10-17 01:20:14

OUT OF MEMORY，对所有炼丹师来说，这绝对是最不想看到的错误，没有之一。显存容量不足，无法容纳模型权重和中间变量，导致程序崩溃。虽然有各种各样的解决办法，例如及时清空中间变量、优化代码、减少batch等，但本文将着眼于更深层次的优化，即从模型结构和训练策略入手，减少显存溢出的风险。

炼丹师们最常见的错误之一是盲目堆砌模型参数，而忽略了对显存的考虑。庞大的模型参数和中间变量会占用大量显存，导致程序崩溃。因此，在构建模型时，应时刻关注模型复杂度和显存容量的平衡。

1. 模型结构优化

1.1 选择合适的网络结构

网络结构的选择对显存占用有很大影响。一般来说，卷积神经网络（CNN）比循环神经网络（RNN）更耗费显存，因为CNN需要存储更多的权重参数。因此，在选择网络结构时，应考虑任务的具体要求，选择合适的网络结构。

1.2 优化网络层结构

在网络层结构的设计上，可以通过以下几种方法减少显存占用：

减少卷积核数量和卷积核大小： 减少卷积核数量和卷积核大小可以减少模型参数的数量，从而降低显存占用。例如，将3x3的卷积核替换为1x1的卷积核，可以减少9倍的模型参数数量。
使用深度可分离卷积： 深度可分离卷积是一种特殊的卷积操作，可以减少卷积核的数量，从而降低显存占用。深度可分离卷积将标准卷积操作分解为两个步骤：深度卷积和逐点卷积。深度卷积仅在通道方向上进行卷积操作，逐点卷积仅在空间方向上进行卷积操作。深度可分离卷积可以减少卷积核的数量，从而降低显存占用。
使用分组卷积： 分组卷积是一种特殊的卷积操作，可以将卷积核分组，然后在每组中分别进行卷积操作。分组卷积可以减少同时参与卷积操作的权重参数的数量，从而降低显存占用。

1.3 优化激活函数

激活函数的选择也会影响显存占用。一般来说，ReLU激活函数比sigmoid激活函数和tanh激活函数更省显存。因为ReLU激活函数只在输入大于0时才输出，在输入小于0时输出0，而sigmoid激活函数和tanh激活函数在任何输入值下都会输出非零值。因此，使用ReLU激活函数可以减少中间变量的数量，从而降低显存占用。