一 机器学习定义
①旧的非正式定义:研究领域,使用计算机无需明确编程即可学习。
②现代定义:一个计算机程序可以从经验E中学习某些任务T和性能量度P,如果在T中的任务中表现(由P测量)随经验E而提高。
eg.玩西洋棋
E=玩许多次西洋棋的经验
T=玩西洋棋的任务
P=程序赢得一场比赛的概率
二 监督学习 无监督学习
一般来说,任何机器学习问题都可以被分为两大类:监督学习,无监督学习。
1监督学习
在监督学习中,我们得到一个数据集,并且已经知道我们正确输入应该是什么样子的,并且认为输入输出之间存在关系。
监督学习分为两类:
回归问题:试图在连续输出中预测结果,并且已经知道我们正确输出应该是什么样子的,并且认为。
输入和输出之间存在关系
分类问题:试图在离散输出中预测结果,将输入变量映射到离散类别。
eg:
(a)回归-鉴于男/女的照片,我们必须根据给定的图片预测年龄。
(b)分类-鉴于男/女的照片,我们必须预测是它是高中、大学、研究生。
总结:监督学习是已经存在训练数据集,根据已有的数据集进行预测分析。
2 无监督学习
我们能过在很少或者根本不知道结果应该是什么样子的情况下处理问题。我们可以从数据中导出结构,我们不一定知道变量的影响。
我们可以通过基于数据中变量之间的关系聚类数据来推导这种结构。
在无监督学习的情况下,没有基于预测结果的反馈。
eg.
聚类:收集1000篇关于美国经济的论文集,并找到一种方法将这些论文自动分组为几个不同的变量,如词频等 。
非聚类:鸡尾酒会算法,可以在混乱的数据中找到结构识别个别声音和音乐。