第九章 聚类
(Unsupervised Learning)无监督学习:
训练样本的标记信息是未知的,通过对无标记数据的训练来找出数据内部所存在的规律以及性质.为进一步的数据分析打下基础
1.知识点
聚类过程中会自动的形成簇结构,但是算法对簇(cluster)没有概念,这是在运算过程中自己出现的聚类现象,这个簇的名字需要自己来进行定义
聚类可作为一个单独的过程来完成,用于去寻找数据的内部性质及分布结构,当然也可以作为分类等其他学习任务的前驱过程.
当对数据的类不是很明确的时候,可以将数据先进行聚类,根据聚类结果将每个簇定义为一个类,再基于这些类进行训练分类模型
性能度量(performance measure)
性能度量也叫聚类的”有效性指标(validity index)”
物以类聚:
簇内相似度高,簇间相似度低.
距离计算(distance measure)
闵科夫斯基距离,这是一种最常用的距离
可以变形成欧式距离和曼哈顿距离(典型的街区距离公式) 这都是经典的距离公式.
一个小插曲:公式在推导过程中经常会强调不失一般性,这个"不失一般性"是什么意思?
原型聚类:第一步原型的初始化,第二步对根据不同的公式进行迭代优化更新求解.
K-means算法,根据最小平方差公式(最小二乘法)来进行迭代优化
递归&迭代
简单来说:递归就是函数不断的调用自己,
迭代就是函数A不断调用函数B的过程
知识点有点复杂,相对知识较多,还没有完整的理论体系,先不着急学习.