聚类分析 - 图文 下载本文

1聚类分析内涵

1.1聚类分析定义

聚类分析(Cluster Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术. 也叫分类分析(classification analysis)或数值分类(numerical taxonomy),它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。

聚类分析有关变量类型:定类变量,定量(离散和连续)变量

聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。

1.2聚类分析分类

聚类分析的功能是建立一种分类方法,它将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类.

聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:

(1)系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度.这一过程一直继续直到所有对象归为一类为止.并类的过程可用一张谱系聚类图描述.

(2)调优法(动态聚类法):首先对n个对象初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止.

(3)最优分割法(有序样品聚类法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所需的K类为止.这种方法适用于有序样品的分类问题,也称为有序样品的聚类法.

(4)模糊聚类法:利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.

(5)图论聚类法:利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法.

(6)聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可用来作预报的方法很多,如回归分析和判别分析.但对一些异常数据,如气象中的灾害性天气的预报,使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,这是一个值得重视的方法。

聚类分析根据分类对象的不同又分为R型和Q型两大类,R型是对变量(指标)进行分类,

Q型是对样品进行分类。

样品聚类 ( Q 型聚类):对事件(Cases)进行聚类,或是说对观测量进行聚类。 变量聚类 ( R 型聚类):进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息

R型聚类分析的目的有以下几方面:

(1)可以了解变量间及变量组合问的亲疏关系; (2)对变量进行分类;

(3)根据分类结果及它们之间的关系,在每一类中选择有代表

聚类分析性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析或Q型聚类分析等.

Q型聚类分析的目的主要是对样品进行分类.分类的结果是直观的,且比传统分类方法更细致、全面、合理.当然使用不同的分类方法通常会得到不同的分类结果.对任何观测数据都没有惟一“正确的”的分类方法.实际应用中,常采用不同的分类方法,对数据进行分析计算,以便对分类提供具体意见,并由实际工作者决定所需要的分类数及分类情况。

1.3 统计量

为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是相似系数;另一种方法是距离 。

聚类分析中可采用不同类型的统计量,通常Q型聚类采用距离统计量,R型聚类采用相似系数统计量。

(一)距离

设有n个样本,每个样本观测p个变量,数据结构为

?x11?x?21?......???xn1x12x22......xn2........................x1p?x2p???......?xnp??,

其中,xij是第i个样本第j个指标的观测值。因为每个样本点有p个变量,我们可以将每个样本点看作p维空间中的一个点,那么各样本点间的接近程度可以用距离来度量。以

dij为第i样本点与第j样本点间的距离长度,距离越短,表明两样本点间相似程度高。最常见的距离指标有:

绝对距离:

dij??xik?xjk

2dij?欧氏距离:切比雪夫距离:马氏距离:

??xk?1pik?xjk?

dij?maxxik?xjk1?k?pdij?(Xi?Xj)?S(Xi?Xj)??1?12,其中

Xi?(xi1,xi2,...,xip)i?1,2,...,n,

1nsij?(xki?xi)(xkj?xj)?n?1k?1S是样本数据矩阵相应的样本协方差矩阵,即S的元素。

(二)相似系数

对于p维总体,由于它是由p个变量构成的,而且变量之间一般都存在内在联系,因此往往可用相似系数来度量各变量间的相似程度。相似系数介于-1至1之间,绝对值越接近于1,表明变量间的相似程度越高。常见的相似系数有:

cos?ij?夹角余弦:n?xk?1nk?1nkikjnxi,j?1,?,p2kj?x?x2kik?1

rij??(xk?1ki?xi)(xkj?xj)n相关系数:

?(xk?1ni,j?1,?,pki?xi)2?(xkj?xj)2k?1 1.4 基本思想

聚类分析是建立一种分类方法将一批样本或变量按照它们在性质上的相似、疏远程度进行科学分类的方法。聚类分析可以分为Q型聚类和R型聚类两种,Q型聚类是指对样本进行分类,R型聚类是指对变量进行分类。

其基本思想是认为研究的样本或变量之间存在着程度不同的相似性,根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划

分类型的依据,把一些相似程度较大的样本(或变量)聚合为一类,把另外一些彼此之间相似程度较大的样本(变量)也聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后再把整个分类系统画成一张图,将亲疏关系表示出来。

简单的说即:物以类聚。

相近的聚为一类(以距离表示,样品聚类); 相似的聚为一类(以相似系数表示,变量聚类)。

1.5系统聚类法

系统聚类分析是聚类分析中应用最广泛的一种方法,凡是具有数值特征的变量和样本都可以采用系统聚类法。选择适当的距离和聚类方法,可以获得满意的聚类结果。

(一)分类的形成

先将所有的样本各自算作一类,将最近的两个样本点首先聚类 ,再将这个类和其他类中最靠近的结合,这样继续合并,直到所有的样本合并为一类为止。若在聚类过程中,距离的最小值不唯一,则将相关的类同时进行合并。

(二)类与类间的距离

系统聚类方法的不同取决于类与类间距离的选择,由于类与类间距离的定义有许多种,例如定义类与类间距离为最近距离、最远距离或两类的重心之间的距离等,所以不同的选择就会产生不同的聚类方法。常见的有:最短距离法(single linkage)、最长距离法(complete linkage)、中间距离法(median method)、可变距离法(flexible median)、重心法(centroid)、类平均法(average)、可变类平均法(flexible average) 、Ward最小方差法(Ward’s minimum variance) 及离差平方和法等。

设两个类

Gl,Gm,分别含有n1和n2个样本点,

① 最短距离法:

dlm?min?dij,Xi?Gl,Xj?Gm?