当前位置: 代码迷 >> 综合 >> 数据挖掘笔记:聚类分析
  详细解决方案

数据挖掘笔记:聚类分析

热度:63   发布时间:2024-01-08 23:26:10.0

什么是聚类分析

  1. 聚类(簇):数据对象的集合
    • 在同一个聚类(簇)中的对象彼此相似
    • 不同簇中的对象则相异
  2. 聚类分析: 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程
  3. 聚类是一种无指导的学习:没有预定义的类编号
  4. 聚类分析的数据挖掘功能
    • 作为一个独立的工具来获得数据分布的情况
    • 作为其他算法(如:特征和分类)的预处理步骤

?是好的聚类分析

个好的聚类分析方法会产生高质量的聚类
高类内相似度,低类间相似度
2. 作为统计学的一个分支,聚类分析的研究主要 是基于距离的聚类;一个高质量的聚类分析结果,将 取决于所使用的聚类方法:
- 聚类方法的所使用的相似性度量和方法的实施
- 方法发现隐藏模式的能力

数据挖掘对聚类分析的要求

  1. 可扩展性(Scalability): 大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率
  2. 处理不同数据类型的能力:数字型;二元类型,分类型/标称型,序数型,比例标度型等等
  3. 发现任意形状的能力: 基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的
  4. 用于决定输入参数的领域知识最小化: 对于高维数据,参数很难决定,聚类的质量也很难控制
  5. 处理噪声数据的能力: 对空缺值、离群点、数据噪声不敏感