2016-03-04 王川: 深度学习有多深? 学了究竟有几分? (四)

原创硅谷王川 investguru 2016-03-04

(1)

九十年代末, 神经网络研究遇到的困境,除了慢,还是慢.

抛开计算速度的因素,传统神经网络的反向传播算法,捉虫时极为困难,一个根本的问题叫做所谓 vanishing gradient problem (梯度消失问题).

这个问题在1991年, 被德国学者 Sepp Hochreiter第一次清晰提出和阐明原因.

简单的说, 就是成本函数 (cost function)从输出层反向传播时, 每经过一层,梯度衰减速度极快, 学习速度变得极慢, 神经网络很容易停滞于局部最优解而无法自拔.

这就像原始部落的小混混,山中无老虎时,在本地称王称霸很舒服. 但任何关于"外面的世界很精彩"的信息, 在落后的层层传播机制中被噪音混淆淹没了.

小混混一辈子很开心, 没有意识到外面的世界有多大, 也从未想出去多看看.

(2)

支持向量机 (SVM) 技术在图像和语音识别方面的成功, 使得神经网络的研究重新陷入低潮.