Improved Techniques for Training GANs
摘要
我们提出了各种各样的新的建筑特征和训练过程,这个过程可以应用于生成式对抗网络(GANs)框架。我们专注于GAN的两个应用:半监督学习,以及在视觉上看上去非常真实的图像的生成。与生成模型的大多数工作不同,我们的主要目标不是训练一个给测试数据分配高似然值的模型,也不要求模型在不使用任何标签的情况下学习得很好。使用我们的新技术,我们在MNIST、CIFAR-10和SVHN的半监督分类中实现了最先进的结果。
3 走向收敛的GAN训练
3.1 特征匹配(Feature matching)
特征匹配通过为发生器指定一个新的目标来防止它对于当前的判别器的过度训练,从而解决了GANs的不稳定性。代替直接最大化判别器的输出,新目标要求生成器生成与真实数据的统计匹配的数据,其中我们使用判别器仅指定我们认为值得匹配的统计数据。具体地,我们训练生成器以匹配判别器中间层的特征的期望值。这是生成器的匹配的统计的自然选择,因为通过训练判别器,我们要求找到对当前模型产生的数据与真实数据最有区分的那些特性。
令表示判别器中间层上的激活,我们对于生成器的新目标定义为 。判别器,因此,以通常的方式被训练。与常规GAN训练一样,目标具有固定点,其中G与训练数据的分布完全匹配。我们不能保证在实践中达到这个固定点,但是我们的经验结果表明,在常规GAN变得不稳定的情况下,特征匹配确实是有效的。
3.2 小批量区分(Minibatch discrimination)
GAN的主要失败模式是生成器崩溃到参数设置,其中它总是发射(emits)相同的点。当崩溃到单一模式即将发生时,判别器的梯度可以针对许多相似点指向相似的方向。以为判别器独立地处理每个样本,所以它的梯度之间没有协调,因此没有机制去告诉生成器的输出变得彼此更不相似。相反,所有的输出都朝向一个单一的点,判别器目前认为是非常真实(realistic)的。在发生崩溃之后,判别器知道该单个点来自生成器,但是梯度下降不能分离相同的输出。然后,判别器的梯度将有生成器产生的单个点永远的推向空间,并且算法不能收敛到具有正确的熵分布。避免这种类型的故障的一个明显的策略是允许判别器组合地查看多个数据样本,并且执行我们所称的小批量判别。
小批量判别的概念是非常普通的:任何判别关注多个样本的组合而不是孤立样本的模型可能有助于避免生成器崩溃。事实上,Radford等人[3]在判别器中成功应用批次归一化,从这个角度很好地解释。然而,到目前为止,我们已经将我们的实验限制在明确旨在识别特别靠近在一起的生成器样本的模型。一个成功的规范为了模型化在小批次中样本之间的接近程度如下:让定义为在判别器中层产生并且输入是的一个特征向量。然后我们将向量乘以张量,得到矩阵。然后,我们计算得到矩阵的来自不同样本行之间的L1距离,并且应用负指数(图1):。然后用于样本的小批次层的输出定义为所有其他样本的的和:
接下来,我们将minibatch层的输出与作为输出的中间特征连接,并且讲结果馈送到判别器的下一层。我们分别计算来自生成器的样本和来自训练数据的样本的这些minibatch特征。如前所述,判别器任然需要为每个样本输出单个数字,指示它是否有可能来自训练数据:判别器的任务因此仍然有效地将单个样本分类为真实数据或生成数据,但是现在能够使用minibatch中的其他示例作为辅助信息。Minibatch区分允许我们非常快地生成视觉上吸引人的样本,在这方面它由于特征匹配(feature matching)(第6节)。然而,有趣的是,如果目标是使用第5节中描述的半监督学习方法获得的强分类器,则发现特征匹配工作的更好。
5 半监督学习
5.1
除了在半监督学习中实现最先进的结果之外,上述方法具有改善生成图像的质量方面有着令人惊讶的效果,这些图像都有人来注解判断。原因似乎是人类视觉系统强烈地适应于图像统计,其可以帮助推断图像表示的对象的类别,同时其可能对于图像的解释不重要的局部统计不太敏感。这是由我们发现人类注解者报告的质量和我们在第4节中开发的Inception评分之间的高相关性支持的,该评分被明确地构建测量生成的图像的“对象性”。通过使用判别器D对图像中所示的对象进行分类,我们将其偏置以产生的内部表示,其强调人类强调的相同特征。这种效应可以被理解为用于转移学习的方法,并且可以潜在地更加广泛的应用。我们进一步探讨这种未来工作的可能性。