3.1 聚类分析概述
聚类分析是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类的目标是在同一聚类中的对象之间具有高度的相似性,而不同聚类中的对象之间具有高度的不相似性。
聚类分析的应用十分广泛,例如:
(1)市场细分:根据客户的特征将其划分为不同的群体,实施差异化营销。
(2)图像分割:将图像划分为多个区域,进行目标识别和提取。
(3)异常检测:发现数据中的异常点或离群点。
3.2 距离和相似度度量聚类分析的基础是对样本之间的距离或相似度进行度量。常用的距离度量包括:
(1)欧氏距离:两个样本各维度上差值的平方和的开方。
(2)曼哈顿距离:两个样本各维度上差值的绝对值之和。
(3)切比雪夫距离:两个样本各维度上差值的最大值。
常用的相似度度量包括:
(1)杰卡德相似度:两个集合的交集元素数除以并集元素数。
(2)余弦相似度:两个向量的点积除以模长之积。
(3)皮尔逊相关系数:两个变量之间的线性相关程度。
3.3 层次聚类
层次聚类是一种基于样本之间距离的聚类方法,通过不断地合并或分裂样本,生成一个聚类树。常见的层次聚类算法包括:
(1)AGNES:自底向上的合并策略,每次合并距离最近的两个簇。
(2)DIANA:自顶向下的分裂策略,每次将一个簇分裂为两个簇。
(3)BIRCH:首先生成聚类特征树,再进行全局聚类。
层次聚类的优点是无需预先指定聚类数,可以生成聚类树。缺点是时间和空间复杂度较高,对噪声敏感。
3.4 划分聚类(k-means)
划分聚类是一种基于样本之间距离的聚类方法,通过迭代优化划分样本,使得簇内样本的相似度最大化,簇间样本的相似度最小化。最经典的划分聚类算法是k-means算法,其基本流程如下:
(1)随机选择k个样本作为初始的聚类中心。
(2)计算每个样本到聚类中心的距离,将其划分到距离最近的簇中。
(3)重新计算每个簇的聚类中心。
(4)重复步骤(2)(3),直到聚类中心不再变化或达到最大迭代次数。
k-means算法的优点是简单高效,易于实现。缺点是需要预先指定聚类数,对噪声和异常点敏感,容易陷入局部最优。
3.5 基于密度的聚类(DBSCAN)
基于密度的聚类是一种将簇定义为被低密度区域分隔的高密度区域的方法。最经典的基于密度的聚类算法是DBSCAN算法,其基本思想是:
(1)核心对象:在半径ε内含有至少MinPts个样本的对象。
(2)密度直达:如果p在q的ε-邻域内,且q是核心对象,则称p从q密度直达。
(3)密度可达:如果存在一个样本链,使得链中每个样本都密度直达其前一个样本,则称p从q密度可达。
(4)密度相连:如果存在一个对象o,使得p和q都从o密度可达,则称p和q密度相连。
DBSCAN算法首先找出所有的核心对象,然后将密度可达的样本划分到同一个簇中。算法的优点是无需指定聚类数,可以发现任意形状的聚类,对噪声不敏感。缺点是需要调参,处理高维数据效果不佳。
DPex数字公证存证亮点 实现无需上传源文件,又可以完成公证存证的“私密存证”功能,满足企业在商业秘密、敏感数据方面的保密需求和存证保护需求。