选自arXiv
作者:Jens 、Will 、
Ricky T. Q. Chen等
机器之心编译
近日,来自德国不来梅大学和加拿大多伦多大学的研究者提出一种新架构——可逆残差网络,可用于分类、密度估计和生成任务。而在此之前,单个架构无法在判别和生成任务上同时取得优秀性能。值得一提的是, 2018 最佳论文获得者 David 、陈天琦也是本文作者。
神经网络模型的一个主要诉求是用单个模型架构解决各种相关任务。然而,最近的许多进展都是针对特定领域量身定制的特定解决方案。例如,无监督学习中的当前最佳架构正变得越来越具有领域特定性 (Van Den Oord et al., 2016b; & , 2018; et al., 2018; et al., 2018; Van Den Oord et al., 2016a)。另一方面,用于判别学习的最成功的前馈架构之一是深度残差网络 (He et al., 2016; & , 2016),该架构与对应的生成模型有很大不同。这种划分使得为给定任务选择或设计合适架构变得复杂。本研究提出一种在这两个领域都表现良好的新架构,弥补了这一差距。
为此,研究者将精力集中于可逆网络,在相同的模型范例中,可逆网络已被证明在判别 (Gomez et al., 2017; et al., 2018) 和生成 (Dinh et al., 2014; 2017; & , 2018) 任务上都具有竞争性的表现。已有的可逆网络通常依赖对固定维度进行分割的启发式法,而体积不守恒(non- )的常见分割法受到了限制,且其选择对网络的性能又有极大的影响 ( & , 2018; Dinh et al., 2017)。这使得构建可逆网络很困难。在本文中,研究者展示了一些有助于实现优秀密度估计性能的外来设计会严重损害判别性能。
为了克服这一问题,研究者利用 作为常微分方程的 Euler 离散化,并证明通过简单地改变标准 的归一化机制就可以构建可逆 。图 1 可视化了标准和可逆 学习到的动态差异。
图 1:标准残差网络(左)和可逆残差网络(右)的动态。可逆 描述了双射连续动态( ),而常规 导致与非双射连续动态相对应的交叉和折叠路径(白色圈)。由于折叠路径,标准 不是有效的密度模型。
这种方法允许每个残差块的无约束架构,而每个块只需要小于 1 的 常数。研究者证明,在构建图像分类器时,这种限制对性能的影响可以忽略不计——在对 MNIST、 和 图像进行分类时,它们的性能与不可逆的同类分类器相当。
接下来雅可比行列式,研究者展示了如何将 i- 训练成无标注数据上的最大似然生成模型。为了计算似然度,他们向残差模块的雅可比行列式引入了一个易处理的近似。与 ( et al., 2019)类似,i- flow 拥有不受约束(自由形式)的雅可比行列式,这使得它们能够学习比其他可逆模型使用的三角形映射更具表达性的变换。实验表明,与当前最佳的图像分类器和基于流的生成模型相比,i- 的性能也具有竞争力,它将通用架构在现实中的应用又推进了一步。
论文:
论文链接:
摘要:本研究证明,标准 架构可以是可逆的,且可用于分类、密度估计和生成任务。通常,执行可逆需要分割维度或限制网络架构。但本研究提出的方法只需要在训练期间添加一个简单的归一化步骤,这在标准框架中已经可以做到。可逆 定义了一个可使用最大似然在无标注数据上训练的生成模型。为了计算似然度,我们对残差块的雅可比对数行列式引入易处理的近似。实验结果表明,可逆 的性能堪比当前最优的图像分类器和基于流的生成模型,而单个架构在这之前是无法做到的。
2. 在 中执行可逆性
以下定理表明,一个简单的条件就足以使上述动态过程可解,从而使 可逆:
注意,这一条件不是可逆性的必要条件。
使用 Lip(g) < 1 可使 可逆,但我们没有这种可逆的解析形式,不过我们可以通过一个简单的定点迭代来获得,见算法 1。
3. 使用 i- 进行生成建模
图 2:i- 流和 Glow 的可视化比较。
表 1:i-、 与 NICE (Dinh et al., 2014)、Real-NVP (Dinh et al., 2017)、Glow ( & , 2018) 及 ( et al., 2019) 的对比结果。「Non- 」指允许收缩和扩张的能力,以及计算变量 (3) 变化的确切似然。「 」是指对数行列式的随机近似。
5. 实验
研究者对可逆 进行了大量实验研究。首先,研究者用数值方法验证了 i- 的可逆性。接下来,他们研究了 i- 在多个常用图像分类数据集上的判别能力。另外,他们还将 i- 的判别性能与其他可逆网络进行了对比。最后,他们研究了如何将 i- 用于定义生成模型。
5.1 验证可逆性和分类性能
图 3:原始图像(上)、i- 在 c = 0.9 时的重建结果(中)以及相同架构的标准 的重建结果(下)。该图表明固定点迭代在没有 约束的情况下无法重建输入图像。
表 2:i- 与类似深度和宽度的 -164 基线架构的对比结果,其中 约束通过系数 c 来变化。 与 i- 架构相同,但是它不具备 约束。
5.2 i- 与其他可逆架构的对比
表 3:i- 与最新技术 Glow 在 数据集上的分类结果。这里对比了两个版本的 Glow 和与 Glow 层数、通道数都类似的 i- 架构(i-, Glow-Style)。
5.3 生成建模
图 4:本文提出的对数行列式估计量的偏差和标准差随幂级数项数量增加而发生的变化。方差是由随机 trace 决定的。
图 5:i- flow 中的 样本。
表 4:多种方法在 MNIST 和 数据集上的 bits/dim 结果。† 使用 ZCA 预处理雅可比行列式,因此其结果无法与其他方法直接对比。
限时特惠:本站持续每日更新海量各大内部创业课程,一年会员仅需要98元,全站资源免费下载
点击查看详情
站长微信:Jiucxh