东财《数据分析与决定》FAQ(四)
第四章 聚类分析 FAQ
聚类技巧的基本不雅点是什么? 聚类与分类有何差别?
不雅点
1、聚类是一个将数据集分别为多少组或类的过程,并使得同一个组内的数据东西存在较高的类似度;而差别组长的数据东西是不类似的。
2、类似或不类似是基于数据描述属性的取值来断定的,平日利用个数据东西间的间隔来停止表示
3、聚类分析尤其合实用来探究样本间的相互关联关联从而对一个样本构造做一个开端的评价。
(二)聚类跟分类的差别
1、聚类是一种无监督的进修方法。与分类差别,其不依附于事先断定的数据类别以及标有数据类其余进修练习样本凑集。
2、聚类是察看式进修,而不是示例式进修
二、怎样辨别好的聚类?
1、一个高的聚类方法将产生以下的高聚类:
(1)最大化类内的类似性
(2)最小化类间的类似性
2、聚类成果的品质依附所实费用量的类似性跟它的履行
3、聚类方法的品质也可能用它发明一些或全部隐含形式的才能来器量。
三、怎样停止聚类成果的评价?
1、考察聚类的数量跟每个聚类中的记录数
2、考察聚类内的特点
(1)标准差:标准差比较小,则阐明这个聚类内聚性较好,相反,假如标准差较大,则阐明内聚性不好,须要重新聚类
(2)聚类半径:其由聚类中距聚类核心点最远的点来断定。
(3)SSE:打算聚类内的每个点至聚类核心点的间隔均匀值,假如聚类均匀值过大,则阐明这个聚类须要进一步分割。
3、考察聚类间的特点
(1)DiStance Matrix:即在一个二位表格里列出聚类核心间的间隔
(2)SSB:是一个比较微不雅的测量参数打算聚类间的分别度
四、聚类分析算法有哪些?
1、分层聚类分析算法
2、K-means聚类分析算法
3、TwoStep
五、分层聚类法的定义是什么?怎样分类
(一)定义
分层聚类就是对给定命据东西的凑集停止档次剖析,根据曾测剖析采取的剖析战略。
(二)分类:
1、凝集聚类:代表算法AGNES算法
2、决裂聚类:代表算法DIANA算法
六、K-means聚类分析算法的基本头脑是什么?其有何特点?
(一)基本头脑
1、随机的抉择k个东西,每个东西初始的代表了一个簇的均匀值;
2、对剩余的每个东西,根据其与各个簇核心的间隔,将它赋给近来的簇;
3、然后重新打算每个簇的均匀值;
4、这个过程一直反复,直到原则函数收敛
(二)特点
1、只实用于聚类均值有意思的场合;
2、用户必须实现指定k的个数;奥鹏东财答案请进:opzy.net或请联系微信:1095258436
3、对噪声跟孤破点数据敏感,大批的该类数据可能对聚类均值起到很大的影响