基于Alpha-NMF的AD樣本分類及特異性基因選擇方法

時間：2012-05-25 13:51:01

關(guān)鍵字： AD ALPHA BSP 非負矩陣分解

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]摘要：由于基因表達譜數(shù)據(jù)的高噪聲、高維性、高冗余以及數(shù)據(jù)分布不均勻等特點使得在分析過程中仍然有很多挑戰(zhàn)性問題?；谠撃康?，將一種無監(jiān)督學(xué)習(xí)方法--非負矩陣分解方法，應(yīng)用到基因表達譜數(shù)據(jù)中，挖掘出與AD相關(guān)

摘要：由于基因表達譜數(shù)據(jù)的高噪聲、高維性、高冗余以及數(shù)據(jù)分布不均勻等特點使得在分析過程中仍然有很多挑戰(zhàn)性問題?；谠撃康?，將一種無監(jiān)督學(xué)習(xí)方法--非負矩陣分解方法，應(yīng)用到基因表達譜數(shù)據(jù)中，挖掘出與AD相關(guān)的信息基因。然而標(biāo)準(zhǔn)NMF算法其效率較低，并且在基因表達數(shù)據(jù)的應(yīng)用有效性低。為了適應(yīng)該領(lǐng)域的需求，采用了Alpha-NMF算法。該算法能夠有效的克服標(biāo)準(zhǔn)NMF算法的缺陷，獲得較好的實驗結(jié)果。多次運行Alpha-NMF算法，選取分類準(zhǔn)確率和穩(wěn)定性最優(yōu)的實驗結(jié)果，對其集合基因設(shè)定一閾值，篩選出集合基因中大于該閾值的信息基因。最后通過基因功能分類以及生物功能結(jié)構(gòu)圖來驗證所捉煉出的特異性基因的有用性和可靠性。
關(guān)鍵詞：無監(jiān)督學(xué)習(xí)；阿爾茨海默病；非負矩陣分解(NMF)；基因表達譜數(shù)據(jù)；Alpha-NMF

    阿爾茨海默病(Alzheimer disease，AD)是德國神經(jīng)病學(xué)家Alois Alzheimer于1907年首次對一位51歲的病人描述的，至今對AD的認識和研究已經(jīng)進行了100余年了。它是老年人中最常見的神經(jīng)退行性疾病之一，其臨床特點是隱襲起病，逐漸出現(xiàn)記憶力減退、認知功能障礙、行為異常和社交障礙。65歲以上老年癡呆人群中超過55％的病例是阿爾茨海默病。隨著全球人口的老齡化，癡呆患病人數(shù)大量增加，阿爾茨海默病已經(jīng)成為人類共同面臨的嚴峻挑戰(zhàn)。
    DNA微陣列技術(shù)能夠?qū)Υ罅康幕蜻M行同步、快速測量，同時提供成千上萬條基因的表達水平，使得生物學(xué)家能夠在基因組層次上研究任何種類細胞在任意給定時間、任意給定條件下的基因表達模式。由于基因表達譜數(shù)據(jù)的高噪聲、高維性、高冗余以及數(shù)據(jù)分布不均勻等特點使得在分析過程中仍然有很多挑戰(zhàn)性問題。
    非負矩陣分解(non-negative matrix factorization，NMF)方法由Lee和Seung在一篇關(guān)于無監(jiān)督學(xué)習(xí)的文章中提出的一種新的矩陣分解方法。該方法在矩陣分解過程中對矩陣元素進行非負約束，在實際應(yīng)用中具有明確的物理意義。相比一些傳統(tǒng)的算法，NMF具有實現(xiàn)簡便，分解形式和分解結(jié)果可解釋性強等靖多優(yōu)點。NMF算法被提出后，隨著研究的不斷深入，為了適應(yīng)不同領(lǐng)域的要求，一些研究者設(shè)計了基于多種目標(biāo)函數(shù)的算法對標(biāo)準(zhǔn)NMF算法進行改進。目前，應(yīng)用比較頻繁的有釋疏非負矩陣分解(sparse non-negativematrix factorization，SNMF)、非平滑非負矩陣分解(non-smoothnon-negative matrix factorization，NSNMF)以及加權(quán)非負矩陣分解(weighted non-negative matrix factorization，WNMF)等。NMF已運漸應(yīng)用于語音信號處理、模式識別、圖像分析等研究領(lǐng)域中，并且獲得了很好的效果。相信不久的將來，NMF能夠適應(yīng)于更多領(lǐng)域的需求。

1 非負矩陣分解算法原里
    NMF理論上是利用非負約束條件來獲取數(shù)據(jù)表示的一種方法。NMF問題可以描述為：已知非負矩陣Vnxm，找到一個非負矩陣Wnxr和Hrxm一個非負矩陣，使得：
    V≈WH     (1)
    此時矩陣V中的列向量可以近似地看作是非負矩陣W的列向量的非負線性組合，組合系數(shù)為hj的分量。因此矩陣W=(w1，…，wr)可以看成是對V進行線性估計的一組基，而H則是V在基W上的非負投影系數(shù)。
1．1 基本NMF算法
    根據(jù)NMF理論的數(shù)學(xué)模型，必須找到一個分解過程V≈WH，使得WH盡量逼近V，可以定義一個目標(biāo)函數(shù)來保證逼近的效果。目標(biāo)函數(shù)可以利用某些距離的測量來獲得，通常使用的目標(biāo)函數(shù)是歐式距離，即：

    當(dāng)且僅當(dāng)V=WH時取最小值為0。因此NMF問題可以轉(zhuǎn)化為優(yōu)化問題用迭代方法交替求解W和H。雖然式(2)對于單獨的W和H來講均是凸函數(shù)，但是同時對于W和H卻不是凸函數(shù)，因此找剄一個全局最優(yōu)解是不太現(xiàn)實的，但可以尋找一個局都最優(yōu)解。NMF算法可以定義為如下優(yōu)化問題：最小化‖V-WH‖2，交替更新W，H。最簡單易行的更新方法就是梯度下降法，但是其收斂速度非常緩慢。更新規(guī)則如下：

    定理1：在(3)迭代規(guī)則下，歐式距離‖V-WH‖2是單調(diào)不增的，如果當(dāng)W和H的值是固定的，‖V-WH‖2保持不變。
1．2 Alpha-NMF算法
    Alpha-NMF算法是NMF算法的一種改進，它是針對信號處理所提出的一種新的算法。
    Alpha-NMF算法的數(shù)學(xué)模型為：

2 非負矩陣分解在基因表達譜數(shù)據(jù)中的應(yīng)用
2．1 數(shù)據(jù)預(yù)處理
    文中所選的實驗數(shù)據(jù)為基因表達綜合數(shù)據(jù)庫(GEO)中23組大腦海馬區(qū)域(HIP)和23組內(nèi)嗅區(qū)皮質(zhì)(EC)的AD樣本，54 675個基因表達數(shù)據(jù)；其中海馬區(qū)域的基因數(shù)據(jù)集由13個control AD樣本和10個affected AD樣本組成，內(nèi)鼻皮質(zhì)區(qū)域的基因數(shù)據(jù)集由13個control AD樣本和10個affectedAD樣本組成。由于基因表達譜數(shù)據(jù)的復(fù)雜性，在進行聚類分析前必須先進行預(yù)處理和數(shù)據(jù)轉(zhuǎn)換等過程。本文先采用小波變換(wave let transform，WT)方法對數(shù)據(jù)進行降噪，然后通過微陣列顯著性分析(significance analysis of microarrays,SAM)工具箱篩選出顯著變化的上下調(diào)基因。
2．2 Alpha-NMF算法應(yīng)用于基因表達譜數(shù)據(jù)
    Alpha-NMF算法被提出后，至今還設(shè)被應(yīng)用于基因表達數(shù)據(jù)中，通過大量的實驗，證明了Alpha-NMF算法能夠有效的應(yīng)用到該領(lǐng)域中，相比傳統(tǒng)NMF算法，其算法穩(wěn)定性和分類準(zhǔn)確率明顯較高。
    基因表達譜數(shù)據(jù)的Alpha-NMF混合模型如圖1所示。Y表示mxn維基因表達譜數(shù)據(jù)，每一行表示一個樣本集，每一列表示一個基因在不同條件下的表達水平。yij表示第j個基因在條件i下的表達水平。通常nm。

    任一樣本yi可以表示為：

    也就是說每一個樣本可以近似看做是非負矩陣X的行向量的非負線性組合，組合系數(shù)是矩陣A對應(yīng)行向量的分量。把分解后的矩陣X的每一行稱為一個集合基因。矩陣A的第k列為X的第k個集合基因的系數(shù)，若矩陣X能表征原始數(shù)據(jù)的局部特征，則系數(shù)矩陣A與樣本類別緊密相關(guān)，即類別c1對于特征k的貢獻大，而c2對于特征k的貢獻小。對于每一個集合基因(圖2為HIP數(shù)據(jù)經(jīng)Alpha-NMF算法，α=0．5時分解后相關(guān)系數(shù)為0．97集合基因的柱狀圖)，若元素的值相對較大，說明其對應(yīng)的基因j與AD緊密相關(guān)。

3 實驗結(jié)果與分析
首先采用WT-SAM方法分別對HIP和EC數(shù)據(jù)進行預(yù)處理，篩選后的基因數(shù)分別為13 587個、6 567個，再對數(shù)據(jù)進行菲負化處理，然后通過Alphs-NMF算法進行分解，利用分解后的A矩陣進行聚類，本文采用k均值聚類方法對A的行向量進行聚類，得到一聚類結(jié)果。對于矩陣X，設(shè)定一閾值，篩選出集合基因中大于該閾值的信息基因。
由于NMF算法受初值和維數(shù)r的影響，因此對每組實驗分別取r=2，3，4，5時運行NMF算法20次。為了衡量由于r值選取不同導(dǎo)致的聚類的穩(wěn)定性問題，定義了一個共表型相關(guān)系數(shù)(圖3分類穩(wěn)定性比較)，共表型相關(guān)系數(shù)越接近于1，分類越穩(wěn)定。

    觀察圖3和圖4的結(jié)果，通過比較可以發(fā)現(xiàn)，隨著r的增加，其相關(guān)系數(shù)和分類正確率普遍降低，當(dāng)r=2時，其分類穩(wěn)定性和識別正確率明顯高于r=3，4，5時的情況。此時，Alpha-NMF算法相比標(biāo)準(zhǔn)NMF算法具有較高的分類準(zhǔn)確性和穩(wěn)定性。尤其當(dāng)α=0．5時，效果最佳。因此，選擇Alpha-NMF算法α=0．5，r=2處理后的集合基因，如圖2所示，選擇某一閾值(此處閾值為50)，可以分別提煉出268個(HIP)、172(EC)個探針表達變化具有顯著差異。

4 討論
4．1 特異性基因及其功能分類
    將上節(jié)提煉出的探針號與AD基因組進行比對，共確定有320個基因為特異性基因。這些基因主要于細胞信號傳導(dǎo)、物質(zhì)代謝、物質(zhì)傳輸?shù)壬镞^程有關(guān)。
    MiMI(Michigan Molecular Interactions)是國家衛(wèi)生研究所疾病預(yù)防控制綜合生物情報中心中的一部分。它可以提供蛋白質(zhì)間的相互作用，并且利用這些數(shù)據(jù)進行融合，集合成一個復(fù)雜的網(wǎng)絡(luò)；還能檢索大量基因的生物功能。
    使用MiMI對上上述特異性基因進行功能分類，其中有88基爵在GO(Gene Ontology)上沒有注釋，因此沒有對其分類，僅對其余的232個基因進行分類，根據(jù)分類結(jié)果，主要分為以下幾類：1)物質(zhì)代謝過程；包括蛋白質(zhì)代謝、細胞氮化合物代謝、核苷酸代謝；2)細胞周期過程，包括細胞形態(tài)發(fā)生和發(fā)展、細胞自動調(diào)節(jié)機能、生殖細胞形成；3)定位過程，包括蛋白質(zhì)定位、細胞定位、大分子定位；4)細胞成分組織，包括細胞內(nèi)大分子聚集、細胞膜組織以及細胞內(nèi)各器官組織；5)生物合成過程，包括核苷酸合成、小分子合成；6)基因表達、轉(zhuǎn)錄、翻譯；7)神經(jīng)系統(tǒng)調(diào)節(jié)，包括神經(jīng)元的形成、神經(jīng)突觸傳導(dǎo)、神經(jīng)元變異、神經(jīng)傳導(dǎo)素生成及傳輸；8)細胞凋亡；9)物質(zhì)運輸，包括ATP水解耦合質(zhì)子運輸、陽離子運輸、胞內(nèi)蛋白質(zhì)運輸、離子跨膜運輸。上述基因功能分類如表1所示。

4．2 利用Cytoscape工具構(gòu)建基因功能結(jié)構(gòu)圖
BiNGO是Cytoscape里的一個插件，它讓Cytoscape鏈接到Gene Ontology，使每個基因賦予注釋，構(gòu)建基于目的的基因功能的結(jié)構(gòu)圖。
將232個特異性基因提交給BINGO，輸出一幅包含123個節(jié)點和165條邊的結(jié)構(gòu)圖，基因功能結(jié)構(gòu)圖中每個節(jié)點表示一個生物過程，每一條邊表示生物功能間的關(guān)系。其中節(jié)點的大小表示與該過程相關(guān)的基因占232個信息基因的比例，點的顏色與p-value相關(guān)，顏色越深表示p-value越大，也就是說該節(jié)點顯著過表達。如圖5所示，可以發(fā)現(xiàn)，提取的232個基因主要在細胞周期過程、定位過程及傳輸過程等生物過程上顯著過表達；在生物合成、代謝過程和一些與神經(jīng)系統(tǒng)相關(guān)的生物過程也有一定程度的顯著過表達。這些特異性基因有的與AB的聚集有關(guān)，有的與神經(jīng)遞質(zhì)的傳輸有關(guān)或與神經(jīng)元的形成發(fā)展有關(guān)，還有的與金屬的代謝相關(guān)，它們都能伴隨著細胞的炎癥反應(yīng)，導(dǎo)致神經(jīng)元損害，引起記憶
減退和認知障礙，產(chǎn)生癡呆癥狀。

5 結(jié)論
通過以上的實驗和闡述可以看出，Alpha-NMF算法較傳統(tǒng)NMF算法具有較高的分類準(zhǔn)確性和穩(wěn)定性，算法的運算速度也有較大的提高。由Alpha-NMF算法處理后所提煉出來的特異性基因具有顯著差異表達，并且它能提煉出目前確定與AD致病相關(guān)的基因(APP)。通過構(gòu)建基因功能結(jié)構(gòu)圖，加深了對生物過程的理解，從而為生物學(xué)實驗的驗證提供的明確的方向。