聚類和降維有什么區(qū)別與聯(lián)系?
一、聚類和降維的區(qū)別與聯(lián)系
區(qū)別
降維就是復(fù)雜的高維數(shù)據(jù)信息簡(jiǎn)化為更容易閱讀的低維數(shù)據(jù)信息,就像素描把三維的立體圖形繪制在二維的平面上,而我們可以通過(guò)繪制而成的二維平面來(lái)了解到三維物體本身是什么,卻不用我們到作者的繪畫現(xiàn)場(chǎng)去看畫的東西到底是什么樣。我們需要通過(guò)對(duì)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)降維,來(lái)獲得更容易閱讀的低維數(shù)據(jù)信息。
聚類就是歸類,按照一定的標(biāo)準(zhǔn)來(lái)進(jìn)行歸類就是聚類。我們得到降維后的數(shù)據(jù)后,就能根據(jù)聚類算法對(duì)細(xì)胞進(jìn)行分群聚類,通過(guò)可視化圖來(lái)呈現(xiàn)更直觀的效果。這里,我們還是以樹(shù)葉比作細(xì)胞來(lái)方便大家理解。我們把不同年份的葉子比作不同種類的細(xì)胞來(lái)進(jìn)行分類。由于上述摘葉子(降維)的方式不同,我們最終呈現(xiàn)出來(lái)分葉子(聚類)的可視化情況也會(huì)有所不同。
相同或相近年份的葉子會(huì)在一定程度上相似(如顏色、大小、葉脈紋路等),就好比我們同類細(xì)胞或者相近來(lái)源的細(xì)胞,他們某些基因表達(dá)量是相近的。將不同年份的葉子顏色、大小、葉脈紋路等的差異理解為不同細(xì)胞的基因的表達(dá)情況和表達(dá)量的差異。
聯(lián)系
降維和聚類是同時(shí)進(jìn)行的兩個(gè)獨(dú)立過(guò)程,將兩者結(jié)果合并才是我們最終得到的可視化結(jié)果。但這個(gè)合并過(guò)程中一定會(huì)存在矛盾的地方,這也是影響了可視化圖中分群邊界與聚集遠(yuǎn)近的最主要原因。
PCA是經(jīng)典的線性降維方式,每一個(gè)維度代表了數(shù)據(jù)的一個(gè)特征信息,用越多的特征信息去描述一個(gè)數(shù)據(jù)就越接近真實(shí);取用的維度越少,信息的丟失量越多。而在可視化中,我們只能使用“最有特色”的兩個(gè)或三個(gè)主成分去描述數(shù)據(jù),這就使得大量的細(xì)胞無(wú)法被良好地區(qū)分開(kāi),最終呈現(xiàn)的結(jié)果就是不同類型的細(xì)胞類型之間的邊界不明顯。
此外,還需要提及的一點(diǎn)是,并不是所有聚類分出的同種細(xì)胞都會(huì)降維在一起。在可視化圖中相同的細(xì)胞類型可能也會(huì)有較遠(yuǎn)的分布。
tSNE的算法使得高維的相近距離在低維觀測(cè)的時(shí)候有一定幾率變成較遠(yuǎn)距離,可視化圖上就會(huì)看起來(lái)不像是同一簇細(xì)胞。而UMAP雖然能比tSNE更好地將相似細(xì)胞簇聚集,不同類細(xì)胞簇分開(kāi),但當(dāng)UMAP的計(jì)算距離和聚類的計(jì)算距離差異較大時(shí),可視化結(jié)果就也會(huì)顯示同一個(gè)細(xì)胞聚類被分了開(kāi)來(lái)。
延伸閱讀:
二、搭梯子摘(tSNE)
以一個(gè)隨機(jī)的位置作為起始點(diǎn),架個(gè)梯子爬上去摘,每次摘一部分就得爬到樹(shù)下放葉子,然后再爬上梯子繼續(xù)摘,那整個(gè)過(guò)程就會(huì)變得十分漫長(zhǎng),耗時(shí)耗力,但優(yōu)點(diǎn)是能有效地還原一部分樹(shù)生長(zhǎng)高度的位置信息,并能將生長(zhǎng)在一起的葉子放在同一摞。
這種方法與之對(duì)應(yīng)的降維法便是非線性降維tSNE算法,由于tSNE的計(jì)算過(guò)程較為復(fù)雜且耗時(shí)長(zhǎng),往往需要先通過(guò)PCA進(jìn)行預(yù)降維處理。PCA降維過(guò)的數(shù)據(jù)再進(jìn)行tSNE降維(降至二維或三維)實(shí)現(xiàn)可視化。而tSNE算法其實(shí)主要就是通過(guò)將臨近的相似點(diǎn)距離收縮,較遠(yuǎn)的(非相似)點(diǎn)距離增大將各集群邊界分開(kāi)。
以上就是關(guān)于聚類和降維有什么區(qū)別與聯(lián)系的內(nèi)容希望對(duì)大家有幫助。

猜你喜歡LIKE
相關(guān)推薦HOT
更多>>
Concurrent Programming, Parallel Programming 的本質(zhì)區(qū)別是什么?
一、Concurrent Programming, Parallel Programming 的本質(zhì)區(qū)別略有交叉,各有不同。Parallel Programming強(qiáng)調(diào)如何在多于1個(gè)CPU等情況下對(duì)系詳情>>
2023-10-13 23:11:46
簡(jiǎn)單工廠模式、工廠方法模式和抽象工廠模式有何區(qū)別?
一、簡(jiǎn)單工廠模式、工廠方法模式和抽象工廠模式的區(qū)別簡(jiǎn)單工廠模式簡(jiǎn)單工模式時(shí)類的創(chuàng)建模式,又叫做靜態(tài)工廠方法(static Factory Method)。...詳情>>
2023-10-13 21:42:32
聚類和降維有什么區(qū)別與聯(lián)系?
一、聚類和降維的區(qū)別與聯(lián)系區(qū)別降維就是復(fù)雜的高維數(shù)據(jù)信息簡(jiǎn)化為更容易閱讀的低維數(shù)據(jù)信息,就像素描把三維的立體圖形繪制在二維的平面上,而...詳情>>
2023-10-13 20:26:02
OC中協(xié)議和多態(tài)有什么區(qū)別?
一、OC中協(xié)議和多態(tài)的區(qū)別在Objective-C中,協(xié)議(Protocol)和多態(tài)(Polymorphism)是兩個(gè)不同的概念,它們的區(qū)別如下:協(xié)議(Protocol):協(xié)...詳情>>
2023-10-13 20:01:13熱門推薦
大家都在用的Mpp數(shù)據(jù)庫(kù)有哪些?
沸Concurrent Programming, Parallel Programming 的本質(zhì)區(qū)別是什么?
熱lua編譯器和lua解釋器有什么區(qū)別?
熱怎么自定義Visual Studio代碼折疊識(shí)別的區(qū)域?
新4核4線程和4核8線程區(qū)別?
簡(jiǎn)單工廠模式、工廠方法模式和抽象工廠模式有何區(qū)別?
Spark 和 Hadoop 有什么區(qū)別?
cs和bs區(qū)別?
axios和ajax區(qū)別?
ar模型和ma模型的區(qū)別?
聚類和降維有什么區(qū)別與聯(lián)系?
DOF和HP有什么區(qū)別?
OC中協(xié)議和多態(tài)有什么區(qū)別?
SAS 9.0中,class指令跟by指令有哪些區(qū)別?
技術(shù)干貨







快速通道 更多>>
-
課程介紹
點(diǎn)擊獲取大綱 -
就業(yè)前景
查看就業(yè)薪資 -
學(xué)習(xí)費(fèi)用
了解課程價(jià)格 -
優(yōu)惠活動(dòng)
領(lǐng)取優(yōu)惠券 -
學(xué)習(xí)資源
領(lǐng)3000G教程 -
師資團(tuán)隊(duì)
了解師資團(tuán)隊(duì) -
實(shí)戰(zhàn)項(xiàng)目
獲取項(xiàng)目源碼 -
開(kāi)班地區(qū)
查看來(lái)校路線