当前位置: 代码迷 >> 综合 >> k-means(一)
  详细解决方案

k-means(一)

热度:11   发布时间:2023-12-16 05:45:11.0

1.聚类分析

        聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内对象相互之间的相似的(相关的),而不同组之间的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类就越好。

        聚类分析将数据将数据划分为有意义或有用的组(簇)。如果目标是划分为有意义的组,则簇应当捕获数据的自然结构。然而,在某种意义下,聚类分析只是其他目的的起点。无论是旨在理解还是应用,聚类分析都在广泛的领域扮演着重要的角色。这些领域包括:心理学和其他社会学,生物学,统计学,模式识别,信息检索、机器学习和数据挖掘。

       聚类分析在许多实际问题上都有应用,在商务上,聚类能够帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能够用于推导植物和动物的分类,对基因的分类,获得对种群中固有结构的认识。聚类也能够用于对web上的文档进行分类,以发现信息。作为一个数据挖掘的功能,聚类分析能够作为一个独立的工具来获得数据分布的情况,观察数据簇的特点,集中对特定的某些簇作进一步的分析。此外,聚类分析可以作为其他算法(如特征和分类等)的预处理步骤,这些算法再在生成簇上进行处理。

2.图像及图像识别

2.1 图像

       一副图像可以定义为一个二维函数f(x,y),这里x和y是空间坐标,而在任何一对空间坐标f(x,y)上的幅值f成为该图像的强度或灰度。当x,y和幅值f为有限的、离散的数值时,称该图像为数字图像。为了表达清楚和方便起见,通常用整数表示离散的坐标。这样原点的坐标设为(x,y)=(0,0)。沿图像的第一行的下个坐标值(x,y)=(0,1)来表示,这样表示是很重要的,但并不表示这是图像的实际物理值,只是个约定。

2.2 图像识别

       图像识别是对图像进行分类,确定类别的名称,它可在分割的基础上选择需要提取的特征,并对某些参数进行测量,再提取这些特征;最后根据测量结果分类。为了更好的识别图像,还要对整个图像做结构上的分析,对图像进行描述,以便对图像的主要信息得到一个解释和理解,并通过许多对象相互间的结构关系对图像加深理解,以便更好的帮助识别。所以图像识别是在图像分割后的每一个部分,找出它的形状纹理等特征,即特征抽取(有时也包括图像分割),以便对图像进行分类,并对整个图像做结构上的分析。因此,识别的第一步就是要寻找能够表现对象本质的属性——特征提取。经过特征提取并不是直接就进行识别和分类,还要进行特征选择。因为,并不是所有特征都对我对我们的研究有用,有时太多的特征反而会有负作用。这样,图像就被表示为数据,最后要做的工作就是设计合理的识别方案,使得对于未知类别的图像能进行正确的识别和分类。

3.欧几里得距离

二维空间: 

n维空间:

4.K-means算法:

创建K个点作为起始质心(随机选择)

当任意一个点的簇分配结果发生改变时

对数据集中的每一个数据点

对每一个质心

计算质心与数据点之间的距离

将数据点分配到距离其最近的簇

对每一个簇,计算簇中所有点的均值并将均值作为质心

(图示为最初始的3个质心)

5.图像颜色特征

        颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。

常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。

6.颜色模型

6.1  RGB

       RGB色彩模式是工业界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,每种原色的数值越高,色彩越明亮。 R、G、B都为0时是黑色,都为255时是白色。

6.2   HSV

       RGB是为了让机器更好的显示图像,对于人类来说并不直观,HSV更为贴近我们的认知,所以通常我们在针对某种颜色做提取时会转换到HSV颜色空间里面来处理。

HSV是指Hue(色相)、Saturation(饱和度)和Value(明度)。

范围 H:0-360     S:0-1   V:0-1

HSV模型对应于圆柱坐标系的一个圆柱形子集。圆柱的顶面对应于V=1,代表的颜色较亮。色调H由绕V轴的旋转角给定,红色对应于角度0°,绿色对应于角度120°,蓝色对应于角度240°。每一种颜色和它x的补色相差180°。

  相关解决方案