原创 硅谷王川 investguru  2016-03-04

本文是 (可直接点击下面链接)王川: 深度学习有多深? 学了究竟有几分 (三)的续篇.

(1)

九十年代末, 神经网络研究遇到的困境,除了慢,还是慢.

抛开计算速度的因素,传统神经网络的反向传播算法,捉虫时极为困难,一个根本的问题叫做所谓 vanishing gradient problem (梯度消失问题).

这个问题在1991年, 被德国学者 Sepp Hochreiter第一次清晰提出和阐明原因.

简单的说, 就是成本函数 (cost function)从输出层反向传播时, 每经过一层,梯度衰减速度极快,  学习速度变得极慢, 神经网络很容易停滞于局部最优解而无法自拔.

这就像原始部落的小混混,山中无老虎时,在本地称王称霸很舒服. 但任何关于"外面的世界很精彩"的信息, 在落后的层层传播机制中被噪音混淆淹没了.

小混混一辈子很开心, 没有意识到外面的世界有多大, 也从未想出去多看看.

(2)

支持向量机 (SVM) 技术在图像和语音识别方面的成功, 使得神经网络的研究重新陷入低潮.