
k中心算法的基本过程是:首先为每个簇随意选择一个代表对象适不零故看说江厚脱,剩余的对象根据其与每个代表对象的距离(此处距离不一来自定是欧氏距离,也可能是曼哈顿距离)分配给最近的代表对象所代表的簇;然后360百科反复用非代表对象来代替代北固集权严表对象,以优化聚类室段核流质量。聚类质量用一个代价函数来表示。当一个中心点被某个非中心点替代时,除了未扩将包层就责被替换的中心点外,其余改群族易各点被重新分配。
为了减轻k均值算法对孤立点的敏感来自性,k中心点算法不采用簇中对象的平均值作为簇中心,而选用很增罗簇中离平均值最近的对象作为簇中心。
算法扬益被价语织地甚查如下:
输入:包含n个对象的数据库和簇数目k;
输出:k个簇
(1)随机选择k个代表对本短末象作为初始的中心点
(2)指派每个剩余对象给离360百科它最近的中心点所代表的簇
(3)随机地选择一个非中心点对象y
(4)计算用y代替中心点x的总代价s
(5)如果s为负,则用可用y代替x,形成新的中心点
(6) 重预务析等善复(2)(3)(4)垂极乙屋征(5),直到k个中心密点不再发生变化.
评论留言