聚類

時(shí)間：2019-07-08 12:34:01

關(guān)鍵字：聚類 clustering

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]聚類clustering，無(wú)監(jiān)督學(xué)習(xí)unsupervised learning分類也。聚類有不少經(jīng)典的方法，我們先從基本概念，本質(zhì)屬性開始討論，慢慢把這些方法掌握，應(yīng)用到實(shí)際問題中。1、基本概念。?

聚類clustering，無(wú)監(jiān)督學(xué)習(xí)unsupervised learning分類也。聚類有不少經(jīng)典的方法，我們先從基本概念，本質(zhì)屬性開始討論，慢慢把這些方法掌握，應(yīng)用到實(shí)際問題中。

1、基本概念。

? 既然要把給出的特征向量分成不同的類里，我們首先應(yīng)該想到的是，什么是類(cluster或者group)？在研究過程中大家不斷的給出一些定義，但是都比較模糊和寬泛，很難找到一個(gè)大家都容易接受的定義，最近的一個(gè)，差不多大家都比較認(rèn)同的定義是這樣描述的。

"continuous regions of this space containing a relatively high density of points, separated from other high density regions by regions of relatively low density of points"

this space 是指特征向量空間，每個(gè)特征向量被看成空間中的一個(gè)點(diǎn)。

什么是聚類呢？?

我們需要聚類的數(shù)據(jù)集是：X = {x_1, ..., x_N}，表示有N個(gè)特征向量需要聚類。

定義X的m聚類，就是將X分成m組向量，每一組類用C表示，C_1, ..., C_m

其中 C_i != 空集； C的并是X；任意兩個(gè)類的交集是空集。在同一個(gè)類中的特征向量是相似的（similar），不同類中的特征向量不相似（dissimilar），量化這兩個(gè)詞有點(diǎn)困難，可能需要根據(jù)你的實(shí)際情況來定義相似性和不相似性。?

大約有三種不同的類別，如下圖

圖1， Compact Cluster

圖 2， Elongated clusters

圖3、 Spherical and ellipsoidal clusters

這三種不同的cluster類型，對(duì)相似度的量化有所差異。

前面描述的這種聚類方式一般稱之為硬聚類（hard 或者 crisp）

還有一種方式是軟聚類，就是說每個(gè)特征屬于某個(gè)類有一個(gè)隸屬度來表述它，比如x屬于C_1的隸屬度為0.2，屬于C_2的隸屬度為0.8 ，對(duì)于兩類的情況，這樣是合理的。

2、關(guān)于proximity measure

之前寫這篇博文的時(shí)候，不想寫這部分，現(xiàn)在覺得還是寫寫的好啊，保證知識(shí)的完整性，多多思考還是好的。

我們可以用相似度(similarity)或不相似度(dissimilarity) 來量化兩個(gè)特征向量、特征向量與一組特征向量以及兩組特征向量之間的proximity。

多數(shù)人認(rèn)為兩個(gè)向量的proximity測(cè)度是最基礎(chǔ)的，proximity就翻譯成近鄰吧。

什么是相似度？定義兩個(gè)向量之間的相似度，它是一個(gè)函數(shù)，滿足如下規(guī)則：

? ?* 相似度函數(shù)與特征向量的輸入順序無(wú)關(guān)。 s(v1, v2) = s(v2, v1)

? ?* 任意的同一個(gè)特征向量的相似度取得最大值。 s(v,v) 取得相似度函數(shù)的值域中的最大值。并且當(dāng)且僅當(dāng)輸入向量相同的時(shí)候，才能取得這個(gè)最大值。

? ?* 還有一個(gè)不等式需要滿足： s(x,y) s(y,z) <= [s(x,y)+s(y,z)]s(x,z), for all x,y,z in X

什么是不相似度？也用函數(shù)定義，也滿足一下規(guī)則：

? ?* 當(dāng)且僅當(dāng)兩個(gè)輸入向量相同時(shí)，不相似度函數(shù)取到最小值，就是說只有這個(gè)時(shí)候，兩個(gè)向量才最不不相似，就是最相似。

? ?* 不相似度函數(shù)的值與輸入順序無(wú)關(guān)。

? ?* 滿足三角不等式。 d(x,z) <= d(x,y) + d(y,z) , 對(duì)任意 x，y，z in X都成立。

常用的，或者現(xiàn)在大家用過的相似度與不相似度函數(shù)，大家可以參考《Pattern Recognition》第四版影印版 604頁(yè)。

在書中根據(jù)特征向量的類型，分了幾種情況。向量的分量為可連續(xù)實(shí)數(shù)時(shí)、向量的分量為整數(shù)時(shí)、混合類型情況，還有模糊測(cè)度，數(shù)據(jù)缺失情況下的測(cè)度。

關(guān)于特征向量與一組特征向量之間的測(cè)度，可以由兩個(gè)方向我們選擇。一種是，集合中的每個(gè)向量都參與與給定的另一個(gè)向量之間測(cè)度，去個(gè)最大的或者最小的，等等。

一種是找一個(gè)類的代表，用給定的向量與這個(gè)代表之間做測(cè)量，來表示類與給定向量之間的近鄰測(cè)度。

相似的，兩組特征向量之間也可以采用這兩個(gè)方向。?

這就給了我們一些選擇的余地，根據(jù)我們的需要作出相應(yīng)的認(rèn)為選擇。

對(duì)某個(gè)類選一個(gè)代表出來也是可以研究下的，不過現(xiàn)在能想到的，大家都差不多想到了，我們只有在實(shí)際用的時(shí)候給出一個(gè)合適的測(cè)度，來對(duì)我們后面?zhèn)€聚類工作更適合就好了。

向compact類型的類，我們可以考慮均值矢量，均值中心，中值中心等。像線性或者其它形狀的類，我們也許可以找一些跟形狀類似的代表。

聚類

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開發(fā)時(shí)間和成本降低90%

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

中國(guó)游戲市場(chǎng)開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

華為張平安：數(shù)字世界話語(yǔ)權(quán)最終由生態(tài)繁榮決定！

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

海南區(qū)6家凱悅系酒店與嵐圖達(dá)成戰(zhàn)略合作，共同推動(dòng)新能源出行體驗(yàn)

安嵐攜手妮可?巴菲特開啟療愈之旅在秋日紅葉的浪漫中療愈身心

不懼美國(guó)封鎖！華為：我們給大家提供系統(tǒng)、存儲(chǔ)等

尼爾森IQ深耕中國(guó)四十載，共繪未來新篇章

第二十二屆跨盈年度B2B營(yíng)銷高管峰會(huì)2025聚焦"營(yíng)銷競(jìng)?cè)。蚱剖袌?chǎng)內(nèi)卷實(shí)現(xiàn)認(rèn)知進(jìn)化"

恒久動(dòng)力馳騁天地美孚1號(hào)攜手周冠宇邀您縱擎馳騁，勁享駕趣體驗(yàn)

美通社母公司Cision發(fā)布CisionOne平臺(tái)，進(jìn)軍亞太地區(qū)媒體監(jiān)測(cè)市場(chǎng)

移遠(yuǎn)通信推出大模型解決方案，重塑千行百業(yè)智能邊界

高途公布2024年第二季度未經(jīng)審計(jì)業(yè)績(jī)

華為發(fā)布AI百校計(jì)劃：培養(yǎng)AI人才每年獲最高100萬(wàn)支持