聚类算法原理简介(EM)
EM聚类原理如其名称所示,EM聚类主要是两个步骤,一是期望步骤(Expectation);二是最大化步骤(Maximization)。thinking:一个西瓜分给两个人,怎么才能切的合理?第一步是随机切一刀,观察预期,这就是期望步骤(Expectation);第二步是如果存在偏差,需要重新评估如何切,即重新评估参数,这就是最大化步骤(Maximization)。
EM算法是一种求解最大似然估计的方法,通过观测样本,来找出样本的模型参数。
通过EM算法中的E步来进行观察,然后通过M步来进行调整两边西瓜的大小的,最后让两边西瓜的参数不再发生变化。
EM算法
假设我们有A和B两枚硬币,我们做了5组实验,每组实验投掷10次,然后统计出现正面的次数(投掷硬币时,不知道投掷的硬币是A还是B)
step1:随机初始化参数,假设硬币A和B的正面概率(随机指定)分别为θA=0.5和θB=0.9。
Step2,计算期望值,如果实验1投掷的是硬币A,那么正面次数为5的概率为
如果投掷的硬币B ,概率为
所以实验1更有可能投掷的是硬币A,对实验2~5重复这个计算过程,推理出来硬币顺序应该是{A,A,B,B,A}
通过假设的参数来估计未知参数,即“每次投掷是哪枚硬币”,结果如下:
再计算θA和θB的参数,θA = (5+7+4)/30 = 0.533;θB = (8+9)/20=0.85
与step1的假设有冲突,接着:
Step3,通过猜测的结果{A, A, B, B, A}来完善初始的参数θA和θB,重复Step1 和Step2,直到参数不再发生变化
二、EM聚类实战
对足球队进行聚类,数据如下:
代码如下:
import pandas as pd
from sklearn.mixture import GaussianMixture
from sklearn.cluster import KMeans
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
#数据加载
df = pd.read_csv('team_cluster_data.csv',encoding='gbk')
train_x = df[['2019国际排名','2018世界杯排名','2015亚洲杯排名']]
#设置分类个数
GMM = GaussianMixture(n_components=3,covariance_type='full')
GMM.fit(train_x)
predict_GMM = GMM.predict(train_x)
#聚类结果返回到df
df = pd.concat([df,pd.DataFrame(predict_GMM,columns = ['GMM_pred'])],axis =1)
#print(df)#用kmeans进行测试
SSE = []
for i in range(1,10):KM = KMeans(n_clusters=i)KM.fit(train_x)KM.predict(train_x)SSE.append(KM.inertia_)
plt.figure(figsize= (12,9))
plt.plot(range(1,10),SSE)
plt.xlabel('簇数量——聚类的k值')
plt.ylabel('簇的误差平方和SSE')
plt.show()
KM = KMeans(n_clusters=3)
df = pd.concat([df,pd.DataFrame(KM.fit_predict(train_x),columns = ['KM_pred'])],axis =1)
print(df)
EM聚类(足球队)