第14章一不小心站在了技术发展的最前沿_不朽从二零一四开始

在神经网络中，这种情况也被称为“梯度爆炸”

当梯度太大时，参数的调整会变得过于剧烈，网络的学习变得不稳定，甚至会导致训练失败。

这就像你在陡峭的悬崖边滑落，一下子失去了控制。

网络的参数变化过大，导致结果变得很不稳定，甚至完全错误。

概括地说：

梯度消失就像在一座越来越平的山坡上，梯度变得很小，神经网络不知道该怎么调整，进而学习变得很慢，甚至无法进步。

梯度爆炸就像从悬崖边滚下去，梯度变得很大，网络的学习变得过于剧烈，结果会非常不稳定，训练过程变得不可控。

这两个问题经常会出现在深层神经网络中。

而这也是马库斯所要倾诉的困扰。

“说起来，最近的研究还卡在了‘梯度消失’的问题上。”马库斯苦笑着说道，靠在沙发上，“我们在训练一些更深层次的神经网络时，发现模型一旦超过一定的深度，反向传播算法中的梯度会逐渐趋近于零，根本无法有效更新权重。深度越大，梯度就越容易消失，整个网络的学习效率大幅下降。”

马库斯知道林枫硕士是麻省理工学院的计算机硕士，因此也就全都用专业术语表述了。

对于这些林枫当然能听明白，非但能听明白，而且作为一个资深的人工智能从业人员。

林枫也清楚知道马库斯面临的难题。

林枫对AI的发展也有所了解，涉及到梯度问题在2014年是深度学习研究中的一个巨大挑战。

甚至可以说解决不了梯度问题就很难有真正的深度学习，也就不会有后来的人工智能成果的一系列井喷。

林枫心说，自己这是一不小心站在了技术发展的最前沿了吗？

不得不说，这种举手投足之间就能影响时代命运的感觉是真的无比美妙。

“梯度消失的问题一直存在，尤其是深层网络。梯度爆炸倒是相对好解决，但梯度消失会直接导致学习过程停滞不前。”林枫沉思片刻，补充道，“这不仅是你们实验室的问题，也是整个领域的瓶颈。反向传播的基本原理决定了，当信号在网络中层层传递时，梯度的变化会以指数级缩小。”

马库斯脑海中泛起了大大的问号，梯度爆炸问题好解决吗？

他怎么觉得梯度爆炸问题也挺麻烦的？

不过聊天本来就是求同存异，既然林同样认为梯度消失难以解决就够了。

马库斯也没纠结为什么林说梯度爆炸容易解决，而是继续就梯度消失发表观点说道：“是啊，哪怕有了ReLU（修正线性单元）激活函数的引入，虽然能在一定程度上减轻梯度消失，但对深层网络还是不够。”

林枫想了想，说道：“你们有考虑过改进网络结构吗？”

泡泡中文