第14章一不小心站在了技术发展的最前沿(第2页)

 

梯度太小，无法有效调整那些神经元的连接强度，网络的训练就会变得非常困难。

想象你在爬一个大山，山的坡度越来越平，最终你几乎感受不到自己在上升了，这时你很难再判断该怎么继续往上爬。

在神经网络里，梯度消失的问题就是这种感觉，网络不知道该如何继续改进。

而梯度爆炸又是另外的一个极端。

假设这次你站在一座非常陡的悬崖边，一不小心就滚下去了！

因为坡度太陡了，你的速度变得非常快，失控了。

在神经网络中，这种情况也被称为“梯度爆炸”

当梯度太大时，参数的调整会变得过于剧烈，网络的学习变得不稳定，甚至会导致训练失败。

这就像你在陡峭的悬崖边滑落，一下子失去了控制。

网络的参数变化过大，导致结果变得很不稳定，甚至完全错误。

概括地说：

梯度消失就像在一座越来越平的山坡上，梯度变得很小，神经网络不知道该怎么调整，进而学习变得很慢，甚至无法进步。

梯度爆炸就像从悬崖边滚下去，梯度变得很大，网络的学习变得过于剧烈，结果会非常不稳定，训练过程变得不可控。

这两个问题经常会出现在深层神经网络中。

而这也是马库斯所要倾诉的困扰。

“说起来，最近的研究还卡在了‘梯度消失’的问题上。”马库斯苦笑着说道，靠在沙发上，“我们在训练一些更深层次的神经网络时，发现模型一旦超过一定的深度，反向传播算法中的梯度会逐渐趋近于零，根本无法有效更新权重。深度越大，梯度就越容易消失，整个网络的学习效率大幅下降。”

马库斯知道林枫硕士是麻省理工学院的计算机硕士，因此也就全都用专业术语表述了。

第14章 一不小心站在了技术发展的最前沿(第2页)