2021届毕业生张潇荣获2022年中国自动化学会首届优秀硕士学位论文奖
实验室2021届硕士研究生张潇(字节跳动)毕业论文“神经网络训练过程中的泛化误差二次下降研究”荣获2022年中国自动化学会首届优秀硕士学位论文奖。
摘要: 神经网络因其在非结构化数据上的优异表现而被广泛应用于图像、语音、自然语言处理等领域。然而神经网络理论基础目前相对薄弱,其诸多现象与问题并没有较好的理论支撑与解释,也因此成为了研究的热点与难点。神经网络理论研究的关键便是找到其独特泛化表现的理论依据,如为什么过参数化的神经网络模型依然保有较好的泛化能力。解释神经网络泛化误差二次下降现象,便是神经网络泛化性能研究中的一个重要组成部分。
传统机器学习理论中的偏差方差分析指出,随着模型的复杂度不断增加,虽然其偏差在不断下降,但是方差会不断上升,从而导致泛化误差呈现出先下降再上升的趋势。然而,神经网络的泛化误差有时会出现二次下降现象,即神经网络泛化误差随着模型复杂度的增加首先呈现经典的 U 型曲线,但后期却又会再次下降。最近研究人员发现,二次下降现象同样还出现在了训练过程中:随着训练回合数的增加,神经网络在测试集上的误差先下降,然后到达早停点后由于过拟合开始上升,最后在某个训练回合又会再次下降。神经网络这些现象都与传统的机器学习理论相违背,需要新的理论来解释其泛化能力的独特表现。
该论文研究了训练回合增加情况下的泛化误差二次下降现象。首先我们分析了分段线性神经网络片状输出地形的几何特性,论证了神经网络输出地形复杂度与其泛化能力之间的紧密联系。考虑到片状输出地形分析的局限性,我们提出了一种新的计算输出地形频谱的方法来解释神经网络泛化误差二次下降现象。过去的研究表明神经网络具有频谱偏好,即模型在训练过程中会从低频到高频地拟合目标输出地形。然而我们的研究表明,频谱偏好的单调性并不总是成立,而正是这种非单调性引起了模型泛化误差的第二次下降。为了进一步验证这种非单调性,我们对训练过程中神经网络的泛化误差进行了偏差方差分解。实验发现方差项并非如传统机器学习理论所说那样持续上升,而是会在训练后期由增加变为下降,进而使得模型泛化误差二次下降。基于该分析,我们提出了一个新的指标来度量方差项的引入程度。该指标能够仅在训练集上进行计算,但其变化趋势却能与泛化误差保持一致,也因此该指标可以在不使用校验集的情况下指示早停点。
该论文反驳了过去研究假定的学习偏好单调性,从实验上证明了正是非单调变化的学习偏好导致了神经网络泛化误差二次下降这个反常现象的出现。该研究对神经网络泛化性能的研究起到了一定的积极作用。