编号按照对应的内容,1-1代表第一大部分遇到的第一题,R代表Review,C代表运行的代码(Code)。
1-1
解:ABC
A:无监督学习数据集不带有标签,正确。
B:聚类是无监督学习的一种,正确。
C:无监督学习可以寻找数据中的结构,正确。
D:聚类不是唯一的无监督学习算法,错误。
1-2
解:ABD
一号样本和二号样本被分到3号类,三号样本被分到5号类。分到这些类别是因为样本点距离聚类中心点最小。
1-3
解:D
在KMeans算法指定参数后,代价函数J的值只会减小,不会增加。
1-4
解:C
初始化KMeans时可以将聚类中心通过原始样本点初始化。
1-5
解:C
k=5的时候代价函数J的值比k=3的时候大,这个现象与代价函数会随着k的增大而减小相悖。我们可以推断,k=5的时候陷入了局部最优解,我们重新地随机初始化k=5时的训练,从而找到全局最优解。
2-1
解:C
数据降维必须保证k小于等于n,不会更改样本数。
2-2
解:BD
压缩后的维度k必须小于等于原始维度n。
如果我们想要进行可视化,由于可视化一般是二维和三维的,因此我们需要令k=2或k=3.
3-1
解:D
使用主成分分析进行数据压缩,u选择的是数据方差最大,也是误差最小的方向,可以看出y=-x的方向。
3-2
解:D
4-1
解:ABC
k=n的时候相当于没有进行维度规约,方差保留量是100%。
4-2
解:C
最小化样本点x到向量u的误差。
4-3
解:ABD
A:压缩数据来占用更少的内存和硬盘,正确。
B:降低输入数据的维度来加速学习算法的运算,正确。
C:主成分分析不能解决过拟合的问题,错误。
D:可视化高维数据,需要将k设置成2或3。
R
R1-1
解:AB
C:给历史天气记录来预测降雨量是一个回归问题,不可以用聚类来解决,错误。
D:给商场的销售记录来预测每件商品的未来的销量是回归问题,不可以用聚类来解决,错误。
R1-2
解:B
R1-3
解:CD
KMeans中先更新c,再更新聚类中心。
R1-4
解:D
R1-5
解:AB
R2-1
解:AB
R2-2
解:C
R2-3
解:A
R2-4
解:CD
R2-5
解:AC