當(dāng)前位置:首頁(yè) > 芯聞號(hào) > 充電吧
[導(dǎo)讀]聚類(lèi)clustering,無(wú)監(jiān)督學(xué)習(xí)unsupervised learning分類(lèi)也。 聚類(lèi)有不少經(jīng)典的方法,我們先從基本概念,本質(zhì)屬性開(kāi)始討論,慢慢把這些方法掌握,應(yīng)用到實(shí)際問(wèn)題中。1、基本概念。?

聚類(lèi)clustering,無(wú)監(jiān)督學(xué)習(xí)unsupervised learning分類(lèi)也。 聚類(lèi)有不少經(jīng)典的方法,我們先從基本概念,本質(zhì)屬性開(kāi)始討論,慢慢把這些方法掌握,應(yīng)用到實(shí)際問(wèn)題中。

1、基本概念。

? 既然要把給出的特征向量分成不同的類(lèi)里,我們首先應(yīng)該想到的是,什么是類(lèi)(cluster或者group)? 在研究過(guò)程中大家不斷的給出一些定義, 但是都比較模糊和寬泛,很難找到一個(gè)大家都容易接受的定義,最近的一個(gè),差不多大家都比較認(rèn)同的定義是這樣描述的。

"continuous regions of this space containing a relatively high density of points, separated from other high density regions by regions of relatively low density of points"

this space 是指特征向量空間,每個(gè)特征向量被看成空間中的一個(gè)點(diǎn)。


什么是聚類(lèi)呢??

我們需要聚類(lèi)的數(shù)據(jù)集是:X = {x_1, ..., x_N}, 表示有N個(gè)特征向量需要聚類(lèi)。

定義X的m聚類(lèi),就是將X分成m組向量,每一組類(lèi)用C表示,C_1, ..., C_m

其中 C_i != 空集; C的并是X; 任意兩個(gè)類(lèi)的交集是空集。在同一個(gè)類(lèi)中的特征向量是相似的(similar),不同類(lèi)中的特征向量不相似(dissimilar),量化這兩個(gè)詞有點(diǎn)困難,可能需要根據(jù)你的實(shí)際情況來(lái)定義相似性和不相似性。?

大約有三種不同的類(lèi)別,如下圖

圖1, Compact Cluster

圖 2, Elongated clusters


圖3、 Spherical and ellipsoidal clusters

這三種不同的cluster類(lèi)型,對(duì)相似度的量化有所差異。


前面描述的這種聚類(lèi)方式一般稱(chēng)之為硬聚類(lèi)(hard 或者 crisp)

還有一種方式是軟聚類(lèi),就是說(shuō)每個(gè)特征屬于某個(gè)類(lèi)有一個(gè)隸屬度來(lái)表述它,比如x屬于C_1的隸屬度為0.2, 屬于C_2的隸屬度為0.8 ,對(duì)于兩類(lèi)的情況,這樣是合理的。


2、 關(guān)于proximity measure

之前寫(xiě)這篇博文的時(shí)候,不想寫(xiě)這部分,現(xiàn)在覺(jué)得還是寫(xiě)寫(xiě)的好啊,保證知識(shí)的完整性,多多思考還是好的。

我們可以用 相似度(similarity)或不相似度(dissimilarity) 來(lái)量化兩個(gè)特征向量、特征向量與一組特征向量以及兩組特征向量之間的proximity。

多數(shù)人認(rèn)為兩個(gè)向量的proximity測(cè)度是最基礎(chǔ)的,proximity就翻譯成近鄰吧。

什么是相似度?定義兩個(gè)向量之間的相似度,它是一個(gè)函數(shù),滿(mǎn)足如下規(guī)則:

? ?* 相似度函數(shù)與特征向量的輸入順序無(wú)關(guān)。 s(v1, v2) = s(v2, v1)

? ?* 任意的同一個(gè)特征向量的相似度取得最大值。 s(v,v) 取得相似度函數(shù)的值域中的最大值。并且當(dāng)且僅當(dāng)輸入向量相同的時(shí)候,才能取得這個(gè)最大值。

? ?* 還有一個(gè)不等式需要滿(mǎn)足: s(x,y) s(y,z) <= [s(x,y)+s(y,z)]s(x,z), for all x,y,z in X


什么是不相似度? 也用函數(shù)定義,也滿(mǎn)足一下規(guī)則:

? ?* 當(dāng)且僅當(dāng)兩個(gè)輸入向量相同時(shí),不相似度函數(shù)取到最小值,就是說(shuō)只有這個(gè)時(shí)候,兩個(gè)向量才最不不相似,就是最相似。

? ?* 不相似度函數(shù)的值與輸入順序無(wú)關(guān)。

? ?* 滿(mǎn)足三角不等式。 d(x,z) <= d(x,y) + d(y,z) , 對(duì)任意 x,y,z in X都成立。


常用的,或者現(xiàn)在大家用過(guò)的相似度與不相似度函數(shù),大家可以參考 《Pattern Recognition》第四版 影印版 604頁(yè)。

在書(shū)中根據(jù)特征向量的類(lèi)型,分了幾種情況。 向量的分量為可連續(xù)實(shí)數(shù)時(shí)、向量的分量為整數(shù)時(shí)、混合類(lèi)型情況,還有模糊測(cè)度,數(shù)據(jù)缺失情況下的測(cè)度。


關(guān)于特征向量與一組特征向量之間的測(cè)度,可以由兩個(gè)方向我們選擇。一種是,集合中的每個(gè)向量都參與與給定的另一個(gè)向量之間測(cè)度,去個(gè)最大的或者最小的,等等。

一種是找一個(gè)類(lèi)的代表,用給定的向量與這個(gè)代表之間做測(cè)量,來(lái)表示類(lèi)與給定向量之間的近鄰測(cè)度。


相似的,兩組特征向量之間也可以采用這兩個(gè)方向。?


這就給了我們一些選擇的余地,根據(jù)我們的需要作出相應(yīng)的認(rèn)為選擇。


對(duì)某個(gè)類(lèi)選一個(gè)代表出來(lái)也是可以研究下的,不過(guò)現(xiàn)在能想到的,大家都差不多想到了,我們只有在實(shí)際用的時(shí)候給出一個(gè)合適的測(cè)度,來(lái)對(duì)我們后面?zhèn)€聚類(lèi)工作更適合就好了。


向compact類(lèi)型的類(lèi),我們可以考慮均值矢量,均值中心,中值中心等。 像線(xiàn)性或者其它形狀的類(lèi),我們也許可以找一些跟形狀類(lèi)似的代表。





本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉