<option id="mwy0y"><strong id="mwy0y"></strong></option>
  • <ul id="mwy0y"><sup id="mwy0y"></sup></ul>
  • <ul id="mwy0y"></ul>
  • <del id="mwy0y"><dfn id="mwy0y"></dfn></del><ul id="mwy0y"><sup id="mwy0y"></sup></ul>
  • <abbr id="mwy0y"></abbr>

    千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機(jī)構(gòu)

    400-811-9990
    手機(jī)站
    千鋒教育

    千鋒學(xué)習(xí)站 | 隨時(shí)隨地免費(fèi)學(xué)

    千鋒教育

    掃一掃進(jìn)入千鋒手機(jī)站

    領(lǐng)取全套視頻
    千鋒教育

    關(guān)注千鋒學(xué)習(xí)站小程序
    隨時(shí)隨地免費(fèi)學(xué)習(xí)課程

    上海
    • 北京
    • 鄭州
    • 武漢
    • 成都
    • 西安
    • 沈陽(yáng)
    • 廣州
    • 南京
    • 深圳
    • 大連
    • 青島
    • 杭州
    • 重慶
    當(dāng)前位置:長(zhǎng)沙千鋒IT培訓(xùn)  >  技術(shù)干貨  >  聚類和降維有什么區(qū)別與聯(lián)系?

    聚類和降維有什么區(qū)別與聯(lián)系?

    來(lái)源:千鋒教育
    發(fā)布人:xqq
    時(shí)間: 2023-10-13 20:26:02

    一、聚類和降維的區(qū)別與聯(lián)系

    區(qū)別

    降維就是復(fù)雜的高維數(shù)據(jù)信息簡(jiǎn)化為更容易閱讀的低維數(shù)據(jù)信息,就像素描把三維的立體圖形繪制在二維的平面上,而我們可以通過(guò)繪制而成的二維平面來(lái)了解到三維物體本身是什么,卻不用我們到作者的繪畫現(xiàn)場(chǎng)去看畫的東西到底是什么樣。我們需要通過(guò)對(duì)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)降維,來(lái)獲得更容易閱讀的低維數(shù)據(jù)信息。

    聚類就是歸類,按照一定的標(biāo)準(zhǔn)來(lái)進(jìn)行歸類就是聚類。我們得到降維后的數(shù)據(jù)后,就能根據(jù)聚類算法對(duì)細(xì)胞進(jìn)行分群聚類,通過(guò)可視化圖來(lái)呈現(xiàn)更直觀的效果。這里,我們還是以樹(shù)葉比作細(xì)胞來(lái)方便大家理解。我們把不同年份的葉子比作不同種類的細(xì)胞來(lái)進(jìn)行分類。由于上述摘葉子(降維)的方式不同,我們最終呈現(xiàn)出來(lái)分葉子(聚類)的可視化情況也會(huì)有所不同。

    相同或相近年份的葉子會(huì)在一定程度上相似(如顏色、大小、葉脈紋路等),就好比我們同類細(xì)胞或者相近來(lái)源的細(xì)胞,他們某些基因表達(dá)量是相近的。將不同年份的葉子顏色、大小、葉脈紋路等的差異理解為不同細(xì)胞的基因的表達(dá)情況和表達(dá)量的差異。

    聯(lián)系

    降維和聚類是同時(shí)進(jìn)行的兩個(gè)獨(dú)立過(guò)程,將兩者結(jié)果合并才是我們最終得到的可視化結(jié)果。但這個(gè)合并過(guò)程中一定會(huì)存在矛盾的地方,這也是影響了可視化圖中分群邊界與聚集遠(yuǎn)近的最主要原因。

    PCA是經(jīng)典的線性降維方式,每一個(gè)維度代表了數(shù)據(jù)的一個(gè)特征信息,用越多的特征信息去描述一個(gè)數(shù)據(jù)就越接近真實(shí);取用的維度越少,信息的丟失量越多。而在可視化中,我們只能使用“最有特色”的兩個(gè)或三個(gè)主成分去描述數(shù)據(jù),這就使得大量的細(xì)胞無(wú)法被良好地區(qū)分開(kāi),最終呈現(xiàn)的結(jié)果就是不同類型的細(xì)胞類型之間的邊界不明顯。

    此外,還需要提及的一點(diǎn)是,并不是所有聚類分出的同種細(xì)胞都會(huì)降維在一起。在可視化圖中相同的細(xì)胞類型可能也會(huì)有較遠(yuǎn)的分布。

    tSNE的算法使得高維的相近距離在低維觀測(cè)的時(shí)候有一定幾率變成較遠(yuǎn)距離,可視化圖上就會(huì)看起來(lái)不像是同一簇細(xì)胞。而UMAP雖然能比tSNE更好地將相似細(xì)胞簇聚集,不同類細(xì)胞簇分開(kāi),但當(dāng)UMAP的計(jì)算距離和聚類的計(jì)算距離差異較大時(shí),可視化結(jié)果就也會(huì)顯示同一個(gè)細(xì)胞聚類被分了開(kāi)來(lái)。

    延伸閱讀:

    二、搭梯子摘(tSNE)

    以一個(gè)隨機(jī)的位置作為起始點(diǎn),架個(gè)梯子爬上去摘,每次摘一部分就得爬到樹(shù)下放葉子,然后再爬上梯子繼續(xù)摘,那整個(gè)過(guò)程就會(huì)變得十分漫長(zhǎng),耗時(shí)耗力,但優(yōu)點(diǎn)是能有效地還原一部分樹(shù)生長(zhǎng)高度的位置信息,并能將生長(zhǎng)在一起的葉子放在同一摞。

    這種方法與之對(duì)應(yīng)的降維法便是非線性降維tSNE算法,由于tSNE的計(jì)算過(guò)程較為復(fù)雜且耗時(shí)長(zhǎng),往往需要先通過(guò)PCA進(jìn)行預(yù)降維處理。PCA降維過(guò)的數(shù)據(jù)再進(jìn)行tSNE降維(降至二維或三維)實(shí)現(xiàn)可視化。而tSNE算法其實(shí)主要就是通過(guò)將臨近的相似點(diǎn)距離收縮,較遠(yuǎn)的(非相似)點(diǎn)距離增大將各集群邊界分開(kāi)。

    以上就是關(guān)于聚類和降維有什么區(qū)別與聯(lián)系的內(nèi)容希望對(duì)大家有幫助。

    聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。

    猜你喜歡LIKE

    怎么自定義Visual Studio代碼折疊識(shí)別的區(qū)域?

    2023-10-13

    hcip和hcnp有什么區(qū)別?

    2023-10-13

    layui和vue的區(qū)別?

    2023-10-13

    最新文章NEW

    cs和bs區(qū)別?

    2023-10-13

    DOF和HP有什么區(qū)別?

    2023-10-13

    hold和host的區(qū)別?

    2023-10-13

    相關(guān)推薦HOT

    更多>>

    快速通道 更多>>

    最新開(kāi)班信息 更多>>

    網(wǎng)友熱搜 更多>>