http://zh.gluon.ai/chapter_introduction/deep-learning-intro.html
起源与发展
神经网络核心原则:
- 交替使用线性处理单元与非线性处理单元,它们经常被称为“层”。
- 使用链式法则(即反向传播)来更新网络的参数。
机器学习和统计学的最优选择从广义线性模型及核方法变化为深度多层神经网络,例如多层感知机、卷积神经网络、长短期记忆循环神经网络和Q学习。深度学习发展的一些具体原因:
- 优秀的容量控制方法,如丢弃法,使大型网络的训练不再受制于过拟合(大型神经网络学会记忆大部分训练数据的行为)。这是靠在整个网络中注入噪声而达到的,如训练时随机将权重替换为随机的数字 。
- 注意力机制。使用一个可学习的指针结构,记忆指向翻译的中间状态的指针而不是记忆整个句子,实现了不增加参数的情况下扩展一个系统的记忆容量和复杂度。
- 记忆网络和神经编码器—解释器。这样的多阶设计使得针对推理过程的迭代建模方法变得可能,这些模型允许重复修改深度网络的内部状态,这样就能模拟出推理链条上的各个步骤。
- 生成对抗网络。传统用在概率分布估计和生成模型上的统计方法更多地关注于找寻正确的概率分布,以及正确的采样算法。生成对抗网络将采样部分替换成了任意的含有可微分参数的算法。这些参数将被训练到使辨别器不能再分辨真实的和生成的样本。生成对抗网络可使用任意算法来生成输出。
- 分布式并行训练算法。模拟情况下的强化学习。
- 多种深度学习框架。
特点
机器学习研究如何使计算机系统利用经验改善性能,是人工智能领域的分支。机器学习的众多研究方向中,表征学习关注如何自动找出表示数据的合适方式,以便更好地将输入变换为正确的输出。深度学习是具有多级表示的表征学习方法。在每一级(从原始数据开始),深度学习通过简单的函数将该级的表示变换为更高级的表示。因此,深度学习模型也可以看作是由许多简单函数复合而成的函数,复合的函数足够多时就可以表达非常复杂的变换。
- 逐级表示越来越抽象的概念或模式。作为表征学习的一种,深度学习自动找出每一级表示数据的合适方式。图像为例,输入一堆原始像素值。深度学习模型中,图像可以逐级表示为特定位置和角度的边缘、由边缘组合得出的花纹、由多种花纹进一步汇合得到的特定部位的模式等。最终,模型能够较容易根据更高级的表示完成给定的任务。
- 端到端的训练。将整个系统组建好之后一起训练。
- 从含参数统计模型转向完全无参数的模型。当数据稀缺时,简化对现实的假设来得到实用的模型;当数据充足时,能更好地拟合现实的无参数模型来替代这些含参数模型。
- 区别于其他机器学习方法,深度学习的不同在于:对非最优解的包容、对非凸非线性优化的使用,未被数学证明。