使用张量并行技术进行自动驾驶感知模型训练

张量是什么意思_张量和向量的区别_张量

由于采用了多摄像头输入和深度卷积骨干网络，用于训练自动驾驶感知模型的 GPU 内存占用很大。当前减少内存占用的方法往往会导致额外的计算开销或工作负载的失衡。

本文介绍了和智能电动汽车开发商蔚来的联合研究。具体来说，文中探讨了张量并行卷积神经网络（CNN）训练如何有助于减少 GPU 内存占用，并展示了蔚来如何提高自动驾驶汽车感知模型的训练效率和 GPU 利用率。

自动驾驶的感知模型训练

自动驾驶感知任务采用多摄像头数据作为输入，卷积神经网络（CNN）作为骨干（）来提取特征。由于 CNN 的前向激活值（）都是形状为(N, C, H, W)的特征图（ maps）（其中 N、C、H、W 分别代表图像数、通道数、高度和宽度）。这些激活值需要被保存下来用于反向传播，因此骨干网络的训练通常会占据显著的内存大小。

例如，有 6 路相机以 RGB 格式输入分辨率为 720p 的图像，批大小（）设置为 1，那么骨干网络的输入形状为(6, 3, 720, 1280)。对于如或这样的骨干网络而言，激活值的内存占用是远大于模型权重和优化器状态的内存占用的，并且可能会超出 GPU 的内存大小限制。

蔚来汽车自动驾驶团队在这一领域的研究表明，使用更深的模型和更高的图像分辨率可以显著提高感知精度，尤其是对尺寸小和距离远的目标的识别；同时，蔚来超感系统搭载 11 个 800 万像素高清摄像头，每秒可产生 8GB 图像数据。

GPU 内存优化需求

深度模型和高分辨率输入对于 GPU 内存优化提出了更高的要求。当前解决激活值 GPU 内存占用过大的技术有梯度检查点（），即在前向传播的过程中，只保留部分层的激活值。而对于其他层的激活值，则在反向传播的时候重新计算。

这样可以节省一定的 GPU 内存，但会增加计算的开销，拖慢模型训练。此外，设置梯度检查点通常需要开发者根据模型结构来选择和调试，这给模型训练过程引入了额外的代价。

蔚来还使用了流水线并行技术，将神经网络按照 GPU 内存开销进行平均分段，部署到多个 GPU 上进行训练。此方法虽然将存储需求平分到多个 GPU 上，但是因为计算不平衡，会导致明显的 GPU 间负载不均衡现象，一些 GPU 的计算资源无法被充分利用。

基于的张量并行 CNN 训练

综合考虑以上因素，和蔚来合作设计并实现了张量并行（）卷积神经网络训练方案，将输入值和中间激活值切分到多个 GPU 上。而对于模型权重和优化器状态，我们采用和数据并行训练相同的策略，将其复制到各个 GPU 上。该方法能够降低对单个 GPU 的内存占用和带宽压力。

2.0 中引入的提供了一系列原语（）来表达张量的分布如切片（）和重复（），使用户能够方便地进行分布式计算而无需显式调用通信算子，因为的底层实现已经封装了通信库，如集合通信库 (NCCL)。

有了的抽象，用户可以方便地搭建各种并行训练策略，如张量并行（），分布式数据并行（ Data ）和完全切片数据并行（Fully Data ）。

实现

以用于视觉任务的 CNN 模型 -XL 为例，我们将展示卷积神经网络训练的实现。放置方式如下：

上述配置可以通过提供的 API 来实现张量，且用户只需指明模型参数和模型输入的放置方式，其他张量的放置方式会自动生成。

而要达成张量并行的训练，我们需要给卷积算子 aten. 和 aten. 注册传播规则，这将根据输入的放置方式来确定输出的放置方式：

放置方式为的，在使用其数值时会自动执行规约操作，默认规约算子为求和。

接下来，我们便要给出张量并行的卷积算子前向和反向的实现。由于将激活值切分到了多个 GPU 上，1 个 GPU 上的本地卷积可能需要相邻 GPU 上激活值的边缘数据，这就需要 GPU 之间进行通信。在 -XL 模型中，其降采样层的卷积不存在该问题，而 Block 中的逐深度卷积则需要处理该问题。

如果无需交换数据，用户可以直接调用卷积的前向和反向算子张量，传入本地张量即可。如果需要交换本地激活值张量边缘数据，则使用如图 1 和图 2 所示的卷积前向算法和反向算法，省略了图中的 N 和 C 维度，并假设卷积核大小为 5x5，为 2，为 1。

张量_张量是什么意思_张量和向量的区别

图 1 张量并行卷积前向算法示意图

如图 1 所示，当卷积核大小为 5x5，为 2，为 1 时，每个 GPU 上的本地 input 都需要取用相邻 GPU 的宽度为 2 的输入边缘，并将收到的边缘数据拼接到自身上。换句话说，需要 GPU 间的通信来确保张量并行卷积的正确性。这种数据交换，可以通过调用封装的 NCCL 发送接受通信算子来实现。

值得一提的是，在多个 GPU 上存在激活切片时，卷积算子的有些是不需要的。因此本地卷积前向传播完成后，需要切除中由不需要的引入的无效像素，如图 1 中的蓝色条所示。

图 2 显示了张量并行卷积的反向传播。首先，在梯度输出上应用 zero ，这与前向传播过程中的输出切除操作相对应。对本地输入同样要进行数据交换、拼接和操作。

之后，通过调用每个 GPU 上的卷积反向算子，即可获得权重梯度、偏置梯度和梯度输入。

张量和向量的区别_张量_张量是什么意思