3.2 仿生学依据
人工神经网络本身就是对人类神经系统的模拟 , 这种模拟具有仿生学的依据 。1981年 , David Hubel 和Torsten Wiesel发现可视皮层是分层的[8] 。人类的视觉系统包含了不同的视觉神经元 , 这些神经元与瞳孔所受的刺激(系统输入)之间存在着某种对应关系(神经元之间的连接参数) , 即受到某种刺激后(对于给定的输入) , 某些神经元就会活跃(被激活) 。这证实了人类神经系统和大脑的工作其实是不断将低ji抽象传导为高ji抽象的过程 , 高层特征是低层特征的组合 , 越到高层特征就越抽象 。
3.3 特征的层次可表示性
特征的层次可表示性也得到了证实 。1995年前后 , Bruno Olshausen和David Field[9]收集了很多黑白风景照 , 从这些照片中找到了400个16×16的基本碎片 , 然后从照片中再找到其他一些同样大小的碎片 , 希望将其他碎片表示为这400个基本碎片的线性组合 , 并使误差尽可能小 , 使用的碎片尽可能少 。表示完成后 , 再固定其他碎片 , 选择更合适的基本碎片组合优化近似结果 。反复迭代后 , 得到了可以表示其他碎片的最佳的基本碎片组合 。他们发现 , 这些基本碎片组合都是不同物体不同方向的边缘线 。
这说明可以通过有效的特征提取 , 将像素抽象成更高ji的特征 。类似的结果也适用于语音特征 。
4 从浅层模型到深层模型
前文谈到了深层模型的结构和它的优势 。事实上 , 深层模型具有强大的表达能力 , 并可以像人类一样有效提取高ji特征 , 并不是新的发现 。那么为什么深层模型直到最近几年才开始得到广泛的关注和应用呢?还是从传统的机器学习方法和浅层学习谈起 。
4.1浅层模型及训练方法
反向传播算法(Back Propagation , BP算法)[10]是一种神经网络的梯度计算方法 。反向传播算法先定义模型在训练样本上的代价函数 , 再求代价函数对于每个参数的梯度 。反向传播算法巧妙的利用了下层神经元的梯度可由上层神经元的残差导出的规律 , 求解的过程也正如算法的名字那样 , 自上而下反向逐层计算 , 直至获得所有参数的梯度 。反向传播算法可以帮助训练基于统计的机器学习模型 , 从大量的训练样本中挖掘出统计规律 , 进而可对未标注的数据进行预测 。这种基于统计的学习方法比起传统的基于规则的方法具备很多优越性[11] 。
上世纪八九十年代 , 人们提出了一系列机器学习模型 , 应用最为广泛的包括支持向量机(Support Vector Machine , SVM)[12]和逻辑回归(Logistic Regression , LR)[13] , 这两种模型分别可以看作包含1个隐藏层和没有隐藏层的浅层模型 。训练时可以利用反向传播算法计算梯度 , 再用梯度下降方法在参数空间中寻找最优解 。浅层模型往往具有凸代价函数 , 理论分析相对简单 , 训练方法也容易掌握 , 取得了很多成功的应用 。
4.2 深层模型的训练难度
浅层模型的局限性在于有限参数和计算单元 , 对复杂函数的表示能力有限 , 针对复杂分类问题其泛化能力受到一定的制约 。深层模型恰恰可以克服浅层模型的这一弱点 , 然而应用反向传播和梯度下降来训练深层模型 , 就面临几个突出的问题[14]:
1.局部最优 。与浅层模型的代价函数不同 , 深层模型的每个神经元都是非线性变换 , 代价函数是高度非凸函数 , 采用梯度下降的方法容易陷入局部最优 。
- 坐月子期间不喝白开水,用红豆水,米酒水来代替,这种做法对吗
- 维生素B族吃了对肝脏有影响吗
- 美国为何总是对印度“高抬贵手”,不怕印度超越美国吗
- 国家对全民健康的重视 全民预防保健与全民健康深度融合
- 男子|又见路怒症!发生口角后男子驾车多次逼停摩托致对方受伤
- 男士们对老婆去女子美容院找男技师按摩有什么看法
- 经常吃蛋炒饭,对身体有影响吗
- 入住了才知道踢脚线选错了? 选对踢脚线,装修效果才高级
- 现在有些人对蛋白粉的偏见很大,说蛋白粉喝了对肾不好,为什么
- 红糖水,直接灌根对西红柿有作用吗
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
