❶ 單細胞綜述之整合分析
文章發表於nature review genetics: Integrative single- cell analysis ,作者是Tim Stuart與 Rahul Satija 。做過單細胞分析的對他們應該不陌生。
scRNA-seq技術的發展契合了研究個體細胞表觀遺傳、空間研究、蛋白質組與譜系信息的方法需要,這為研究多類型數據的綜合方法提出了獨特的機遇與挑戰。綜合分析可以發現細胞之間的模式關系,獲取細胞的整體狀態信息,產生涵蓋不同樣本與不同研究手段的數據集。該文重點討論了單細胞基因表達數據與其他類型的單細胞分析方法的整合。
多模態(Multimodal)數據 :多種類型數據的組合,如RNA與蛋白質數據組合,是一種多維度數據,類似多組學。
單模態 :單個類型數據
Pseudotime :擬時分析
聯合聚類(Joint-clustering) :通過聯合不同類型數據對細胞進行分組。
典型相關分析(CCA) : 利用綜合變數對之間的相關關系來反映兩組指標之間的整體相關性的多元統計分析方法。
動態時間規整(Dynamic time warping) :一種局部拉伸或壓縮兩個一維矢量以校正一個矢量相對於另一個矢量的滯後的方法。
MNNs :標准化基因表達空間中最臨近的細胞。聚類用校正批次效應。
梯度推進(Gradient boosting) :一種預測模型演算法。
隨著分子生物學、微流控與納米技術的發展,催生了許多類型的單細胞測序技術。過去的方法集中在單模態測量上,如DNA序列、RNA表達量和 染色質可及性 上。雖然這些技術促進了我們對細胞多樣性與發育景觀的理解,但是它們並不能很好地解析單細胞內分子間互作關系。而這些互作關系是深入探索細胞狀態的關鍵。此外,隨著可用數據集規模的快速增長,迫切需要用於標准化與聯合分析且考量到批次效應與個體差異的計算方法。
scRNA-seq是應用最為廣泛的單細胞測序技術之一。而後出現了一系列互補技術如單細胞基因組、表觀基因組和蛋白質組分析技術,涵蓋了單細胞基因組測序( Vitak, S. A. et al., 2017 ; Navin, N. et al., 2011 )、染色質可及性( Pott, S., 2017 ; Corces, M. R. et al., 2016 ; Buenrostro, J. D. et al., 2015 ; Cusanovich, D. A. et al., 2015 ; Lake, B. B. et al., 2018 )、DNA甲基化( Luo, C. et al., 2017 ; Smallwood, S. A. et al., 2014 ; Guo, H. et al., 2013 ; Mulqueen, R. M. et al., 2018 )、膜蛋白( Stoeckius, M. et al., 2017 ; Peterson, V. M. et al., 2017 )、小RNA( Faridani, O. R. et al., 2016 )、組蛋白修飾( Gomez, D. te al., 2013 ; Rotem, A. et al., 2015 )和染色體構象( Ramani, V. et al., 2017 ; Nagano, T. et al., 2013 )等技術。目前已開發出研究單細胞空間結構和譜系信息的方法( Frieda, K. L. et al., 2017 ; Shah, S. et al., 2016 )。
單細胞多模態綜合分析方法示意
單模態與多模態分析方法匯總
CEL-seq :線性擴增測序法
CITE- seq :膜蛋白豐度與基因表達水平測定
G&T-seq :基因組轉錄組測序
LINNAEUS :譜系追蹤
MARS-seq :大規模平行單細胞RNA測序
MEMOIR :譜系與空間結構測定
MERFISH :主要是細胞間結構測定
osmFISH :環狀單分子熒光原位雜交,空間結構測定
REAP- seq :膜蛋白豐度與基因表達水平測定
scATAC-seq :單細胞空間結構測定
scBS-seq :單細胞甲基化測序
scChIP-seq :單細胞ChIP-seq
scGESTALT :結合CRISPR-cas9的譜系追蹤弄方法
scHi-C-seq :測定染色體組裝
sciATAC-seq :結合index轉座酶的scATAC-seq
sci-CAR :利用index聯合分析mRNA和染色質可及性譜
sci-MET :利用index分析單細胞甲基化水平
sci-RNA-seq :結合index的scRNA-seq
SCI-seq :單細胞組合標記測序,檢測CNV
scM&T-seq :單細胞甲基化組和轉錄組測序,可研究未知的DNA甲基化與基因表達之間的關系
scNOMe- seq :核小體佔位與甲基化組測序
scRRBS :單細胞限制性代表區域甲基化測序
scTHS- seq :單細胞轉座體超敏性位點測序
seqFISH :內含子序貫熒光原位雜交,擴展觀測到基因數量
snmC-seq :單核甲基胞嘧啶測序
SNS :單核測序
SPLiT-seq :丐版scRNA-seq
STARmap :原位單細胞測序
理想的實驗流程應當全面洞悉細胞的所有方面,包括分子狀態、空間構象、胞外環境互作的全部過程。盡管當下技術手段無法做到,但多模態技術與綜合計算方法可以是我們離該目標越來越近。文章希望提出整合單細胞轉錄組學、基因組學、表觀組學與蛋白組學的數據統一分析方法,重點在結合其他數據類型分析scRNA-seq數據,尤其是整合來自於同一細胞的不同類型數據。
文章分為四大塊,首先探討了多模態單細胞分析方法,其次研究了不同實驗不同數據整合分析,然後討論了單細胞空間測序數據整合分析方法,最後給出了整合分析方法的前景與必要性。
最初的單細胞分析方法主要關注細胞某狀態下的某類分子水平。而現在更引人矚目的是同時分析單細胞內多種分子以建立更全面的單細胞分子視圖。通常這些方法是將scRNA-seq數據與其它分析手段的結合,目前主要有四種策略從單細胞中得到多模態數據:
嚴格來說這種方法算單模態。
一些scRNA-seq workflow採用流式分選細胞,隨後進行scRNA-seq(MARS-seq/Smart-seq/2),這樣可以同時獲得單細胞與對應的熒光信號,將熒光所表示的蛋白質水平與轉錄組在同一細胞中關聯( Ramsköld, D. et al., 2012 ; Jaitin, D. A. et al., 2014 ; Picelli, S. et al., 2013 )。早期研究( Hayashi, T. et al., 2010 )利用FACS結合半定量RT-PCR(作者稱之為FBSC‐PCR),結合scRNA-seq,明確了細胞表面marker可以區分細胞類型與狀態( Wilson, N. K. et al., 2015 ;該文結合了Smart-seq2),( Paul, F. et al., 2015 ;該文結合了MARS-seq)和鑒定稀有細胞的思路。 Paul, F. et al., 2015 與 Nestorowa, S. et al., 2016 利用該workflow研究發現了小鼠造血祖細胞由轉錄組定義不同細胞簇的免疫表型, Wilson, N. K. et al., 2015 則分離了小鼠HSCs,鑒定細胞維持乾性相關的表面marker。但是囿於熒光光譜的重疊現象,利用該法測到的每個細胞的參數范圍有限。
針對熒光無法分選的部分,FACS顯然是不合適的,尤其是需要同時測得單細胞基因組與胞內蛋白的scRNA-seq實驗。此時需要物理分離或通過不同tag篩選出不同組分。
G&T-seq通過加入oligo(dT)特異性分離mRNA同時保留基因組DNA從而實現了基因組轉錄組平行測序( Macaulay, I. C. et al., 2015 )DR-seq通過則通過加入barcode特異擴增cDNA序列實現基因組轉錄組平行測序( Dey, S. S. et al., 2015 )。這使得單細胞基因表達水平與其對應基因型聯系起來,深度揭示單細胞間DNA拷貝數變異與染色體重排對下游mRNA豐度的具體關聯。這些方法適用於研究體細胞基因高度變異的腫瘤組織。
DNA甲基化與轉錄組水平結合研究是基於 Macaulay, I. C. et al., 2015 的G&T-seq和 Smallwood, S. A. et al., 2014 的scBS- seq技術發展的,同普通BSP一樣,用亞硫酸氫鈉處理DNA片段隨後進行擴增,結合G&T-seq,可以分析同一細胞內的DNA甲基化模式和基因表達數據( Angermueller, C. et al., 2016 )。由於DNA甲基化存在不穩定性和異質性,因此若要研究DNA甲基化與基因表達間的關系,則必須將表觀基因組變異與細胞間的異質性區別開來。
通過DNA甲基化與轉錄組關聯分析,為啟動子甲基化與基因表達間的負相關性提供深層次的證據。此外,利用barcode系統選擇性標記基因組DNA與cDNA,結合index系統,可以對數千個單細胞進行染色質可及性與基因表達水平間的關聯分析,同時鑒定出影響基因表達的順式調控元件( Cao, J. et al., 2018 )。
關於胞內蛋白與mRNA關聯研究,有兩種思路可供借鑒。其一( Darmanis, S. et al., 2016 )是將FACS sort到的細胞裂解後分離裂解液,分別進行蛋白質與RNA定量。作者採用 PEA (鄰近探針延伸分析) 檢測蛋白並用RT-qPCR定量,採用qRT-PCR定量mRNA。該法可以同時檢測82個mRNA/75個蛋白;其二( Genshaft, A. S. et al. )是將FACS sort到的細胞在微流控晶元中同時進行逆轉錄和PEA而不分離裂解液。該法可以同時檢測96個mRNA/38個蛋白。這兩種方法檢測的蛋白與mRNA數量與質量均有限。
這些技術的出現表明若將可以細胞信息轉化為有序的barcode,我們就可以在分析單細胞轉錄組時將這些信息同時獲取。這種策略不僅適用於分析細胞的自然狀態,也適用於大規模基因擾動研究。目前有Perturb-Seq( Dixit, A. et al., 2016 )和CRISPR-Seq( Adamson, B. et al., 2016 ; Datlinger, P. et al., 2017 ; Jaitin, D. A. et al., 2016 ),他們將scRNA-seq與CRISPR-cas9結合進行遺傳篩選,使得研究正向遺傳學的大規模基因擾動試驗成為可能。具體原理是給單個基因擾動和受到影響的細胞添加barcode,通過scRNA-seq能夠鑒定出這兩者,從而推斷CRISPR靶向基因和由此產生的單個細胞的轉錄譜間的關系。目前應用在基因調控網路( Dixit, A. et al., 2016 )、未折疊蛋白反應( Adamson, B. et al., 2016 )、免疫細胞分化發育( Datlinger, P. et al., 2017 )和T細胞受體激活( Jaitin, D. A. et al., 2016 ),非編碼區調控元件( Klann, T. S. et al., 2017 )。此外,還可以結合CRISPR-dcas9系統,擴展到轉錄調控、表觀遺傳調控領域中( Thakore, P. I. et al., 2016 ; Liu, X. S. et al., 2016 ; Hilton, I. B. et al., 2015 ; Konermann, S. et al., 2015 ; Gilbert, L. A. et al., 2017 ),18年發展了同時靶向和敲除基因的技術( Boettcher, M. et al., 2018 )。
另一個應用是結合CRISPR-cas9的譜系追蹤技術。單細胞譜系追蹤是去年的大熱方向之一,此處提到三種mRNA+lineage方法: scGESTALT 、 ScarTrace 、 LINNAEUS 。這三種方法各有不同,但大體是利用CRISPR-cas9連續切割結合到基因組上的barcode,細胞會用NHEJ來應對這種損傷。但NHEJ容易出錯,從而在DNA序列中產生隨機突變,這些突變通過細胞分裂進行遺傳,結合scRNAseq利用這些突變作為復合barcode來構建組織或器官發育譜系。
另一種略有不同的方法是 MEMOIR ,它結合smFISH與CRISPR-cas9系統,可以同時檢測細胞譜系與空間位置。
普通的scRNA-seq流程除了可以做轉錄本豐度外,還可以進行諸如體細胞突變、遺傳變異、RNA isoform等分析。
關於體細胞突變目前已有研究( Lodato, M. A. et al., 2015 ),該文通過對人大腦的少量單細胞全基因組測序,分析了發生的細胞突變,構建了人大腦神經細胞譜系。作者發現突變大多發生在高轉錄活性相關位置,這表明可能可以通過scRNA-seq數據來分析神經細胞突變情況,根據轉錄狀態重構神經細胞譜系。此外,分析scRNA-seq數據中的拷貝數變異,可以研究癌症非整倍體與異質性等情況( Tirosh, I. et al., 2016 ; Fan, J. et al., 2018 )。
單細胞分析也為理解DNA自然變異如何影響基因表達與細胞狀態提供了新思路。有研究結合GWAS+scRNAseq,鑒定出了不同個體之間的eQTL( Kang, H. M. et al., 2018 )。
多模態測序策略正在催生與之相匹配的數據分析方法。多模數據集可以檢測到細胞間的細微差異,而單模數據很可能無法做到這一點。由於scRNAseq數據存在dropout,故而它更容易忽略細胞間的細微差別;但與來自同一細胞的其他數據互補分析可以改善這一問題。例如,很難通過scRNA-seq數據區分不同的T細胞亞群,但聯合膜蛋白分析則可以顯著提高亞群解析度( Stoeckius, M. et al., 2017 ),同樣,RNA+chromatin、RNA+methylation聯合可能揭示單個細胞間的調控異質性,不再贅述。
單細胞多模態分析思路很可能受到bulk-seq多組學聯合分析的啟發( Meng, C. et al., 2016 ), Argelaguet 開發了一種名為MOFA( multi- omics factor analysis)的方法,該方法在多組學bulk-seq數據中效果良好,同時測試了單細胞DNA甲基化數據與RNA數據聯合處理情況,效果也可以。這暗示適用於bulk-seq的多組學數據處理方式可能也適用於單細胞多模態數據。鑒於單細胞數據規模遠超bulk-seq,多視圖機器學習不失為一種重要的補充手段( Colomé- Tatché, M. & Theis, F. J., 2018 )。
單細胞多模態研究策略為解析細胞內不同組分間的關系提供了新方法。如CITE-seq和REAP-seq可以輕易鑒別出相關度較低的RNA-protein模塊,表明此處存在活躍的轉錄後調節。還有一個很有意思的是通過測量剪接過的成熟RNA與未剪接RNA的相對豐度,可以建立RNA與蛋白的關聯動態模型( La Manno, G. et al., 2018 )。
此外,還可以在不同類型數據間建立統計模型。前面提到的sci-CAR文章建立了染色質可及性與基因表達水平間的統計模型,通過染色質可及性數據估計細胞內基因表達水平( Cao, J. et al., 2018 ),另一組研究人員建立了gRNA與基因表達水平間的線性回歸模型,用以識別細胞應答的前後關系,重構轉錄網路(Perturb-Seq( Dixit, A. et al., 2016 ))。通過這種手段可以研究目標物種復雜的調控網路。
前面主要講了在同一測序實驗同一批細胞進行的多模態數據整合,而不同測序實驗數據整合分析才是亟需解決的關鍵問題。同bulk seq 數據一樣,處理批次效應是綜合分析不同實驗室、不同workflow產出數據的首要問題(SVA包( Leek, J. T. 2014 ))。然而目前bulk seq水平的處理方法無法處理單細胞數據(( Haghverdi, L, et al., 2018 ,作者用MNN處理數據,該法在 mnnpy 中得到改進); Butler, A, et al,. 2018 )。目前最新方法利用 CCA / MNN 可以識別出兩個數據集間共有的部分,判定細胞間共有的生物學狀態,然後以這些相同狀態的細胞為基準消除批次效應。
此處作者介紹了他自己在Seurat V2中開發的方法( Satija, R, et al., 2015 ;),該法用 CCA 鑒別出不同數據集間相同的細胞類型且可以避免出現由批次效應或常規PCA造成的假陽性細胞類型;接下來採用動態時間規整演算法校正數據集間細胞密度差異。這兩步驟可以將細胞投影到一個低維空間,具有相同生物學狀態的細胞相互接近且消除了不同數據集帶來的影響。
另一種方法即mnnCorrect,最早用於計算機領域圖形識別。該法尋找不同數據集間最接近的細胞,將之判定為潛在的狀態相同細胞,隨後利用成對MNNs距離計算一個批次參數(batch vector),用以校正原始表達矩陣( Haghverdi, L., 2018 )。
CCA/mnnCorrect在整合處理不同來源的scRNA-seq數據時表現良好。這將極大提升發現稀有細胞、微弱轉錄差異細胞及與之對應maker的能力( Haghverdi, L, et al,.2018 ; Butler, A,et al,. 2018 ) 。這為建立一個統一的單細胞參考數據集提供了依據。在此基礎上,scRNA-seq數據整合分析得到了快速發展( Hie, B. L, et al., 2018 ; Barkas, N. et al., 2018 ; Park, J.-E., 2018 ; Korsunsky, I. et al., 2018 ; Stuart, T. et al., 2018 ; Welch, J. et al., 2018 )。這種多數據集整合分析的應用遠不止用於校正批次效應這么單一。它可以在單細胞尺度上深入比較細胞間的狀態,發現細胞對環境及基因擾動的特異性響應,對不同疾病及不同治療下的患者的測序數據進行標准化。
scRNA-seq數據整合分析還可以擴展至跨物種分析。 Karaiskos,N 比較了兩種果蠅早期胚胎的空間基因表達模式,通過構建空間基因表達圖譜,該研究系統比較了兩個果蠅的同源基因表達譜,鑒定出了彼此間的進化波動。 Tosches 比較了爬行動物與哺乳動物腦細胞間的相關性。 Baron 分析了人與小鼠胰島細胞scRNA-seq數據,鑒定出了二者間的保守亞群。 Alpert 開發出了cellAlign,在一維水平上比對了人與小鼠的擬時軌跡,發現人胚胎合子激活要比小鼠晚,小鼠中比人活躍的基因皆與蛋白合成相關。跨物種分析未來是光明的,但對於多物種整合分析而言,精確鑒定物種間同源基因是多物種整合分析至關重要的一步。
以細胞分類信息的形式串聯不同的scRNA-seq數據集,或者借鑒到自己實驗中,是優於合並數據集然後de novo聚類這種方法的。且隨著 有參細胞圖譜 的開發,這種方式將更加尋常。目前已開發對應方法: scmap- cell & scmap- cluster ,其中scmap-cell 用乘積量化( proct quantization )演算法進行比對,而scmap-cluster則用於識別未知數據集中的cluster。
利用已有的注釋數據集,目前開發的新方法採用 奇異值分解 、 線性判別分析 和 支持向量機 演算法來對細胞進行分類。此外,隨著引用數據集的大小、范圍與深度越來越高,監督聚類在解析細胞類型方面要比無監督聚類強得多。通過以上這些方法,可以更精確地識別並解析細胞亞群。
satija已有相關文章研究: Comprehensive Integration of Single-Cell Data
這一部分講的是將scRNA-seq數據與其它不同來源和類型數據諸如甲基化、染色質結構等整合分析的方法。
將scRNA-seq數據與其它類型、不同來源的單細胞數據整合分析是無法提取到數據間的共同特徵的,因為它們不是一個類型的數據,需要不同的分析方法。這點在基於基因組的數據(如染色質可及性與甲基化數據)與基於基因的數據(如基因與蛋白表達數據)間整合分析尤為明顯。但如果這些數據來自於同一類細胞群,由於存在著共同的生物學狀態,此時可以聯立分析以發現不同數據集類型間的對應關系。
MATCHER 是一種在一維水平上比較不同類型測序數據擬時軌跡的方法。簡單來說就是比對不同類型測序數據的擬時軌跡,以確定這些數據集間的對應關系。這種方法可以識別不同數據集間的「等效細胞」而不需預先知道彼此間的對應關系。開發者用scM&T- seq( Angermueller, C. et al., 2016 )和scRNA-seq數據做了驗證,准確預測了DNA甲基化與基因表達之間的關系。
其他sc-seq數據不同於scRNA-seq數據一樣可以藉助Marker解析細胞類型,因此可以利用scRNA-seq解析出的細胞信息為其他sc-seq數據分析做參考。有研究( Lake, B. B. et al., 2018 )對不同腦組織切片進行了單核RNAseq(snRNA-seq)與單細胞轉座子超敏性位點測序(scTHS-seq),通過梯度推進演算法利用單細胞基因表達譜指導了染色質可及性測序數據集的細胞分類:作者首先鑒別出snRNA-seq數據集與scTHS-seq數據集共有的細胞亞群,訓練一個可以將基因表達與染色質可及性數據關聯的模型;然後利用該模型去分類scTHS-seq中剩餘未被分類的細胞。這種方法可以更細致地對大腦組織中的細胞進行分類。同樣,可以整合scATAC-seq數據集來分析單細胞DNA甲基化或轉座酶染色質可及性間的細胞分類。
目前正在開發的新方法有利用假定等價特徵、或識別在所有類型數據中的假定相關共享特徵來進行數據交叉模態分類。 Welch 開發了一種集成非負矩陣分解(iNMF)的方法,名為LIGER,可以跨模態整合數據。他們對同一類型 皮質細胞 分別進行了亞硫酸鹽測序(snmC- seq)與scRNA-seq並對其進行了分類。他們假設基因體甲基化與其表達水平負相關從而整合了不同模態測序數據進行細胞分類。在seurat v3.0中,作者也引入了假定等價特徵或關聯特徵進行多模態整合數據細胞分類的方法。這些方法優點如上所述,即可以利用scRNA-seq的細胞分類信息來指導scATAC-seq數據細胞分類,鑒別出染色質可及性與DNA甲基化的細胞特異模塊。
組織中細胞的空間結構常反映出細胞間的功能差異與細胞命運和譜系的差異。不同基因表達引導細胞向不同方向分化,不同細胞精確排列形成不同組織。關鍵是單細胞實驗通常在分析前細胞已被解離,組織原位信息無法保留,scRNA-seq得到的表達譜不能完全反應細胞空間信息。具有相似基因表達譜的細胞可能存在於不同的空間位置中,故而細胞分離過程中空間信息的缺失是很多單細胞實驗的主要缺點。結合高解析度基因表達譜與空間表達圖譜 (spatial expression maps) 將細胞空間坐標與基因表達譜聯系起來,可以解決這一問題。有兩類方法:計算模型或者RNA原位定量,可以同時收集到細胞空間坐標與基因表達值。
❷ Genome medicine :經過驗證的單細胞在復雜疾病的診斷和治療靶標的策略
1.1 基因組醫學為鑒定復雜疾病的生物標志物和可治療靶標鋪平了道路,單細胞RNA測序研究(scRNA-seq)可以表徵整個器官中的此類復雜變化。取而代之的是,在多個細胞類型的多個因果機制的分散體是通過其他一些研究。這種復雜性的一個極端後果是可能需要大量的葯物才能有效治療每種疾病。為了解決這個問題,我們理想地需要表徵所有與疾病相關的細胞類型和途徑,然後優先確定相對最重要的細胞。據我們所知,這兩個挑戰都沒有得到系統解決。一個原因是患者可能無法獲得許多細胞類型,另一個原因是缺乏在細胞類型和途徑之間進行優先排序的方法。
1.2 作者的策略的普遍適用性通過對151例患有13種自身免疫性,過敏性,感染性,惡性,內分泌性,代謝性和心血管性疾病以及53個年齡和性別匹配的對照的患者進行的前瞻性診斷研究得到了支持。該策略的治療潛力得到了對這些疾病的基於網路的分析以及對關節炎小鼠模型的研究的支持。綜上所述,作者的結果支持我們的策略可能具有優先考慮復雜疾病中治療和診斷目標的潛力。
2.1 試驗設計
2.1.1總而言之,本研究描述了構建MCDM並將其用於診斷和治療的可擴展的分步策略。該策略已通過臨床和實驗研究驗證。該策略基於應用網路工具來組織和分析來自關節炎和人類類風濕性關節炎小鼠模型的scRNA-seq數據。使用來自13種疾病的前瞻性臨床研究的表達譜數據和潛在的蛋白質生物標記物進行診斷驗證研究。通過對關節炎小鼠模型的治療研究,使用表型,免疫組織化學和細胞分析作為讀數,檢查了候選葯物。
2.1.2 類風濕關節炎小鼠模型
使用bcl2fastq Conversion和Picard軟體將單細胞數據處理為數字基因表達矩陣。從GRCh38(2017年4月,Ensembl)獲取用於人類數據(和GRCm38(2017年6月,Ensembl)用於小鼠的讀數的索引參考。使用STAR軟體獲取數據。根據使用STAR軟體的作圖質量,在下游分析期間僅考慮了與參考基因組的初步比對。通過每個細胞至少有10,000個讀數,400個轉錄本和少於20%的線粒體基因來評估細胞的質量。由於存在文庫重復的風險,導致兩個或更多細胞共享細胞條形碼,因此,基於對轉錄物計數的高估,可以移除異常值。結果分別獲得了7086和1333個細胞用於關節和淋巴結數據。然後使用Seurat [34]將單細胞數據歸一化以進行進一步分析。為了減少數據中的雜訊,對每個組織矩陣分別進行K最近鄰平滑處理,至少使用5個k,或者如果捕獲到5000個以上的單元,則要佔單元總數的〜0.1%。
3.1 抗原誘導性關節炎(AIA)小鼠模型的scRNA-seq分析
a AIA滑鼠模型的概述。 b 蘇木精和曙紅(H&E)染色後,來自幼稚小鼠和關節炎關節的代表性關節圖像。B,骨髓;S,滑膜腔;C,軟骨。箭頭指示(1)炎性細胞向滑膜的浸潤,(2)軟骨/骨破壞,和(3)滑膜內膜的增生。 c 使用參考成分分析(RCA)對seq-well scRNA-seq和細胞類型進行鑒定的示意圖。 d t-SNE圖顯示7086個健康和RA關節細胞( n = 4個健康小鼠樣品和5個患病小鼠樣品)以及1333個健康和AIA淋巴結細胞( n = 4個健康小鼠樣品和5個患病小鼠樣品),由RCA簇著色
3.1來自AIA小鼠模型的多細胞疾病模型(MCDM)
通過將每種細胞類型中差異表達的基因與所有其他細胞類型中預測的上游調節子相連接,基於scRNA-seq數據構建MCDM。像元類型大小對應於中心性得分。節點指示的數字表示已識別的特定類型的細胞數(例如,在RA關節中,我們已識別出4258個粒細胞)。 一個 從關節炎小鼠的淋巴結的MCDM。 b 來自關節炎關節的MCDM。 c 健康小鼠關節的多細胞模型(未顯示淋巴結模型,因為只有一種預測的相互作用)。預測的上游調節子的基因名稱顯示在箭頭上。Treg,T調節細胞。 d 細胞類型的中心性評分與通過GWAS鑒定的具有遺傳變異的基因的富集和差異表達基因之間專家管理的存儲庫之間的相關性(這些基因來自DisGeNet並基於人類基因的小鼠直向同源物進行了分析)
3.3疾病相關細胞類型的網路模型
a 24個細胞類型和亞群均顯著富集與RA相關GWAS富集後生標記。像元類型大小對應於關聯-ln( p 值)。 b 與類風濕關節炎(RA)相關的細胞類型的網路模型。節點對應於細胞類型,節點大小對應於關聯的重要性(-log10 RA GWAS-表觀遺傳標記富集 p 值)。具有潛在空間相互作用的單元格類型被鏈接在一起,並且單元格類型的位置取決於中心得分,如背景中的圓環所示。 C 按與175種人類疾病的關聯的重要性排序的細胞類型類別的條形圖(Fisher結合了富含GWAS的表觀遺傳標記–為每種細胞類型類別計算的疾病關聯 p 值)。 d 基於與 b中 相同的參數的與175種疾病相關的細胞類型的網路模型(有關詳細信息,請參閱 結果 )
3.4根據13種疾病的臨床概況研究,CD4 + T細胞具有診斷潛力。
疾病模塊 的 玩具模型。疾病相關基因(紅色)被映射到人蛋白質-蛋白質相互作用網路中的蛋白質(藍色)上。共定位的疾病相關基因形成一個模塊。 b 基於模塊的分析概述。第一步是在前瞻性CD4 + T細胞微陣列研究中確定的13種疾病中的每一種的疾病模塊的識別。對於每種疾病模塊,基因將患者與健康對照區分開。為了成對比較疾病,將兩個模塊的結合中的基因分開患有不同疾病的患者。例如,流感和哮喘模塊中的基因將流感患者與患有AUC為0.99的哮喘患者區分開, p = 3.3×10 -5,如 c 所示。 c 使用彈性網基於模塊相交基因在13種疾病分類的曲線下面積(AUC)值上顯示熱圖。 d 基於在CD4 + T細胞中測得的預先選擇的生物標志物(基因),對乳腺癌患者( n = 24)和健康受試者( n = 14)的分類准確性進行的獨立驗證研究。用彈性網進行分類,保留與原始研究相同的λ( λ )值。 e – j 根據在潰瘍性結腸炎(UC)和克羅恩病(CD)模塊相交處鑒定出的六種分泌血漿蛋白,對IBD患者進行潛在的診斷分類。這些蛋白質可以將患者與健康對照(HCs)分開。 e CXCL11; f CCL25; g CXCL1; h CXCL8; i IL1B; Ĵ TNF。 k 克羅恩病和潰瘍性結腸炎患者根據CXCL1和CXCL8的標准化蛋白質水平進行分類。UC,潰瘍性結腸炎;CD,克羅恩病;HC,健康對照。星號表示 p 值<0.05。 d – k 方框中的條形圖代表中位數,第25和第75個百分位數,而晶須延伸到± 2.7σ (請參見「 方法 」部分)
3.5苯扎貝特可預防抗原誘發的關節炎(AIA)
用苯扎貝特( n = 4)或模擬(AIA對照, n = 5)腹膜內(ip)治療mBSA誘導的關節炎的雌性小鼠。 一個 基於在兩個組的組織病理學第28天的關節炎嚴重性評分(H&E染色,垂直條表示中值,使用曼-惠特尼評估組間差異的 ü 測試,* p <0.05)。 b 來自苯扎貝特治療的小鼠的代表性H&E聯合圖像。 c 從模擬(AIA對照, n = 5)或苯扎貝特治療( n )分離的脾和淋巴結細胞中,CD4 +輔助性T細胞的抗原召回反應 = 4)小鼠;豎線表示平均值±SEM,使用雙面Mann-Whitney U 檢驗評估的組間差異* p <0.05)
4.1由於成千上萬的基因參與了許多不同的細胞類型,因此了解復雜疾病中的致病機制和確定葯物靶標是一項艱巨的挑戰。諸如GWAS和scRNA-seq等無偏倚的全基因組方法表明,多種致病機制分散在許多細胞類型中。
4.2葯物發現的困難以及為什麼許多患者對治療無反應。盡管如此,疾病相關細胞類型的系統表徵和優先順序以及用於診斷和治療的機制仍未解決。一種明顯的方法是識別並確定最重要的途徑。在作者對AIA的scRNA-seq研究中,發現涉及T細胞分化的途徑最為重要。這與對RA發病機理的當前理解是一致的,並已導致靶向此類途徑的葯物。但是,效果是可變的。作者對scRNA-seq數據的系統分析提出了一種可能的解釋,該數據揭示了每種細胞類型中的大量其他途徑和治療靶標,以及細胞類型之間的重疊有限。
4.3結果支持基於網路的原理可以同時應用於兩者。將來自AIA和人類RA的scRNA-seq數據整理成MCDM。取代任何具有明顯關鍵調節作用的獨特細胞類型或機制,MCDM中的大多數細胞類型都相互作用,形成了多向網路,其中多種細胞類型可能導致了發病機理。盡管一種細胞類型和機制可能發揮關鍵作用,但對遺傳和表觀遺傳學數據的分析支持致病機制分散在多種細胞類型中。
4.4作者發現支持MCDM和網路原理可能具有優先考慮細胞類型以及生物標志物和葯物發現機制的潛力。提供了所有提供的數據和方法以促進此類研究。
-----在讀博士,代謝,組學研究 王平寫作
Gawel, Danuta R et al. 「A validated single-cell-based strategy to identify diagnostic and therapeutic targets in complex diseases.」 Genome medicine vol. 11,1 47. 30 Jul. 2019, doi:10.1186/s13073-019-0657-3
❸ 單細胞數據處理小細節匯總
1. Seurat對象查看當前的Assay
在進行了SCTransform操作後,矩陣默認會變成SCT矩陣,如果不加設置,後續的PCA等操作都是基於SCT矩陣。
修改DefaultAssay:
2. Seurat使用FindVariables找到高變基因後增刪高變基因
3. 不同運行步驟中的文件來源和儲存位置⚠️
⚠️:PCA的值是可以被覆蓋的,使用三步法對矩陣進行標准化後進行PCA後再使用SCT矩陣進行標准化,PCA的矩陣變成了SCT的PCA矩陣,原有的PCA矩陣不會保留。後續的TSNE和UMAP降維圖也和三步法不一樣。
4. @data標准化矩陣 和 @scale.data 歸一化矩陣 的區別
單細胞RNA 測序數據中,文庫之間測序覆蓋率的系統差異通常是由細胞間的cDNA 捕獲或PCR 擴增效率方面的技術差異引起的,這歸因於用最少的起始材料難以實現一致的文庫制備。標准化旨在消除這些差異(例如長度,GC 含量),以使它們不幹擾細胞之間表達譜的比較。這樣可以確保在細胞群體中觀察到的任何異質性或差異表達都是由生物學而不是技術偏倚引起的(批次矯正僅在批次之間發生,並且必須同時考慮技術偏差和生物學差異,標准化只需考慮技術差異)。
軟體Seurat 提供了三種標准化的方法,分別為LogNormalize、CLR、RC,通常情況下我們採用LogNormalize 的方式進行標准化,計算公式為:log1p((Feature counts/total counts) ∗ scale. factor)
歸一化的目的則是使特徵具有相同的度量尺度
參考: Seurat的normalization和scaling
5. 關於有些細胞屬於同一個cluster但是在umap或者tsne圖上相聚較遠的問題:UMAP和TSNE是各自的演算法在PCA降維的基礎上再進行非線形降維,在二維圖上把其各自演算法認為相近的細胞聚在一起。但是FindClusters輸入的不是UMAP或TSNE降維的數據,而是FindNeighbors的數據,而FindNeighbors輸入的數據是PCA降維數據,是用另外一種演算法計算的細胞之間的距離。因此會出現有些細胞被認為是同一個cluster,但是在umap或者tsne圖上相聚較遠(尤其是一些散在的,脫離主群的細胞)
6. marker基因鑒定,查看marker基因的表達是使用RNA矩陣還是sct矩陣?
這是一個爭議性問題,兩個都可以,目前建議最好使用RNA矩陣。
sct的到的count並不是真實的基因表達值,而是通過scaledata倒推出來的,它是一個回歸,運算之後的殘差。
7. 關於FindAllMarks找到的基因
如下圖,先看cluster0的Marker基因:cluster0的差異基因是cluster0的細胞和剩下的所有的cluster合在一起的細胞做對比得到的。pct.1是這個基因在cluster0中的表達比例(S100A8在cluster0的細胞中的表達比例是100%),pct.2是這個基因在除了cluster0以外的所有細胞中的表達比例(S100A8在除cluster0以外的細胞中的表達比例是51.2%)。avg_log2FC是表達差異倍數,p_val_adj是校正後的p值。
8. 在提取Marker基因時比較好的辦法:因為單細胞矩陣算出來的結果,p_val_adj==0的有很多,所以可以先把p_val_adj==0先提出來。再把p_val_adj<0.01的按差異倍數靠前的20/30/500...(按需要)個基因提出來,然後把兩個矩陣合在一起(取交集)用來做細胞鑒定。(結合p值和fc來做篩選效果更好)
⚠️:提取沒有核糖體和線粒體的marker基因更好。(這些基因對鑒定沒有幫助)
有些基因比如Foxp3,對細胞鑒定很重要,但常常在篩選Marker基因的時候篩選不出來。 非負矩陣分解 可能更好。
參考: 過濾線粒體核糖體基因
9. 提取亞群
⚠️ 新提取的亞群需要重新進行降維聚類 (和大群相比,標記基因發生了變化),並重新尋找marker基因,重新分群,注釋。❗️subset提取子集後,不同樣本間批次校正的信息也被去除,需要重新進行批次矯正
參考: Seurat取子集時會用到的函數和方法 ⚠️⚠️⚠️
10. 取子集後如何去除空子集(還存在這個level,但裡麵包含的細胞為0,如何去除) as.factor(as.character())
11. 雙細胞的預測和去除如DoubletFinder建議單樣本進行,不建議雙樣本一起預測。除此之外,其他步驟都可以多樣本一起做,質控的時候也可以多樣本一起做,但是建議每個樣本都單獨看一看。
12. 單細胞多樣本整合:merge();多樣本拆分:SplitObject()
13. 在做多組數據整合,每個組又有多個樣本的時候,最好把單獨的每個樣本當成批次,而不是把不同的組當成批次。
14. 多核運算
參考: 單細胞數據分析中future包的使用
15. pbmc3k.final@commands$FindClusters 可以查看FindClusters運行時間和記錄。Seurat是記錄其分析過程的,也可查看command下其他操作
16. 關於質控標准:同一組織的最好用同樣的標准,不同組織的可以不一樣。不同組織線粒體含量等可能存在差異。
17. 可視化的方法總結
參考: https://www.jianshu.com/p/0d1e2c7d21a4
18. circos圖繪制
19. 單細胞數據思維導圖,有利於查看單細胞數據格式。
https://www.jianshu.com/p/7560f4fd0d77
20. 對於舊版本Seurat對象的更新
scRNA <- UpdateSeuratObject(scRNA)
UpdateSeuratObject {SeuratObject} :Update old Seurat object to accommodate new features
21. 對有些操作需要用到python設置的情況
22. 單細胞數據做pooling的好處:可以盡量的降低dropout的問題。(dropout就是矩陣中的zero,這些zero實際上並不是0,而是每個液滴裡面起始反應量太低了。而一般的反轉錄效率只能到30%左右,70%的轉錄本實際上在反轉錄那一步是被丟掉的,這是單細胞測序一個比較大的問題)。
但是一旦做了pooling,你必須要證明pooling對結果是沒有影響的(下圖的右面三個圖)。
23. Seurat的VlnPlot中的combine參數,在如下畫三個基因的情況下,設置成T就畫一張圖,設置成False,會將三個基因各畫一張圖。
24. rev()這一步是將橫坐標的基因反過來排序
這兩個畫出來的圖橫坐標基因的順序是相反的(見NicheNet)
25. 堆疊小提琴圖的繪制
完成這個需求有以下幾種實現方法:
1. Seurat包直接就可以實現(stack = T)
2. 通過Seuart->scanpy來實現,第一張是Seurat包VlnPlot函數畫的圖,第二張是scanpy中stacked_violin函數畫的圖,那麼現在問題就變成為Seurat對象到scanpy對象的轉換
3. 用R原生函數實現StackedVlnPlot的方法
4. 使用基於scanpy包衍生的scanyuan包來說實現
5. 使用R包MySeuratWrappers來實現
最簡單的方法1如下:
如果不設置level,會按字母順序排列,case會自動排在con前面。
使用Seurat的 RenameIdents 函數也可以
x: table
margin: a vector giving the margins to split by. E.g., for a matrix 1 indicates rows, 2 indicates columns, c(1, 2) indicates rows and columns. When x has named dimnames, it can be a character vector selecting dimension names.
得到的HC_1樣本的orig.ident默認是樣本名中第一個_號的前一部分。所以要保證矩陣的列名是 樣本名_細胞barcode 這樣的格式。
如果有多個分組,例如兩個樣本矩陣中細胞分別命名為HC_1_barcode,HC_2_barcode,在直接通過如下方法得到兩個Seurat對象,再對其進行merge之後,兩個樣本會被合並成一個。也就是樣本信息只保留了第一個_號之前的HC,沒有保留_號之後的1和2。
為了避免這種情況,可以在構建Seurat對象時通過參數進行設置
⚠️PC數的選擇:Seurat官網提供的三種方法只能給出PC數的粗略范圍,選擇不同PC數目,細胞聚類效果差別較大,因此,需要一個更具體的PC數目。作者提出一個確定PC閾值的三個標准:
一般先選默認解析度(0.8),大概可能會分出十幾個群。因為最終都是要注釋到每一個barcode,所以首先可以看大類marker的分布(不受解析度影響),可以根據marker基因的分布來調整解析度。是否需要精細的分群得看精細的分群對研究有沒有決定作用,還有很重要的一點是 看分出的各個cluster在Findallmarkers給出的結果中marker的熱圖是不是能明顯分開 。精細劃分的細胞本來就很類似,如果有部分小群的熱圖明顯分不開或者非常類似,就可以考慮把解析度調小。
這實際上是沒有必要的必須保持一致的。下游的都是用pca之後的,pca是為了壓縮數據。
umap和tsne是為了可視化(僅僅是可視化),但是FindNeighbor是計算細胞間距離矩陣。找類群數目和可視化可以說沒有關系。
map函數:
R語言循環第三境界:purrr包map函數!
淺析R語言中map(映射)與rece(規約)
參考: monocle2
查看不同細胞群的中位基因也是一樣
查看不同樣品的中位基因也是一樣
或者也可以
❹ 單細胞多模態數據整合分析
隨著單細胞測序技術的發展,多種組學的單細胞數據也越來越多,要如何更好的使用多組學的數據去解析樣本的細胞組成和特徵情況呢?今年4月份發表在Cell雜志上單細胞多模態數據的整合分析這篇文章中介紹了WNN(Weighted-nearest neighbor,加權最近鄰)的演算法,seurat團隊使用不同的數據集對演算法模型的構建、驗證及應用進行了深入淺出的說明。在對文章進行說明前,首先來了解一下10XGenomics推出的一份樣本獲得兩種組學的產品10XATAC_GEM雙組學的原理。
單細胞轉錄組的優勢在於可以發現新的細胞類群,但難以發現分子相似,功能不同的類群,例如T細胞中,RNA量少,RNA酶多,就難以區分亞類群,而此時多組學就有了更多的優勢。10X單細胞雙組學的原理如下圖所示:
獲取細胞核後,先利用轉座酶試劑對其進行轉座反應,對染色質開放區的DNA進行打斷和片段化,單細胞分選,油包水液滴(GEM)中並被回收,隨後細胞核開始裂解並釋放出DNA片段及mRNA,在GEM液滴中完成逆轉錄反應,同時為DNA片段及cDNA標記上該液滴中Gelbead所帶有的特定Barcode標簽序列。最終構建出如下圖所示的兩種不同的文庫包括單細胞核轉錄組文庫和ATAC的文庫:
這兩種文庫與單獨的轉錄組和ATAC文庫無異,僅在ATAC的index序列中增加了8bp的spacer序列。
那麼問題來了如何整合這兩個組學的數據呢?seurat團隊給我們提供了一個有效的演算法和思路。
多模態分析(multimodal analysis)就是同時測量單細胞的多模態數據,它代表了單細胞基因組學的一個發展方向,同時也需要基於多種數據類型的新的計算方法來描述細胞狀態。文章介紹了「加權最近鄰(weighted-nearest neighbor,WNN)」分析:使用一個無監督的框架來學習每個細胞中每種數據類型的相對效用,使多種模式的整合分析成為可能。將文章的演算法應用於包含幾十萬個人類白細胞的CITE-seq數據集以及228個抗體的panel上,以構建一個循環免疫系統的多模態參考圖譜。文章表明整合分析大大提高了描述細胞狀態的能力,並驗證了新的淋巴亞群的存在。此外,文章還演示了如何利用這一參考快速繪制新數據集,並解釋免疫接種和COVID-19的免疫反應。
文章概覽如下:
對人類免疫系統中豐富多樣的細胞類型進行分類鑒定,對單細胞基因組學來說是一個有力的證明,但也展現出了他的局限性。雖然單細胞轉錄組 (scRNA-seq)能夠發現異質組織中的新細胞類型和狀態,但單靠轉錄組學常常無法分離分子上相似但功能上不同的免疫細胞類型。盡管T細胞具有功能多樣性,但不同的T細胞群,如效應細胞、調節細胞、細胞內固定細胞和黏膜相關不變T細胞(MAIT),即使使用最敏感和最尖端的技術,通常也不能僅用scRNA-seq有效地分離它們。
多模態單細胞技術,在同一細胞中同時描述多種數據類型,代表了細胞狀態發現和鑒定的新前沿。例如,最近引入了CITE-seq,它利用寡核苷酸偶聯抗體,通過測序抗體衍生標簽(antibody-derived tags ,ADTs),同時量化單細胞內RNA和表面蛋白的豐度。此外,隨著技術進步,現在可以在染色質可及性(ATAC)、DNA甲基化、核小體佔位(nucleosome occupancy )或空間定位的同時對轉錄組進行分析。這些方法都提供了一個令人興奮的解決方案,以克服scRNA-seq固有的局限性,並探索多種細胞模式如何影響細胞狀態和功能。
在這里,文章引入了「加權最近鄰」(weighted-nearest neighbor,WNN)方法,這是一個分析框架,用於集成細胞內測量的多種數據類型,並獲得細胞狀態的聯合定義。該方法是基於非監督策略來學習細胞特定模態的「權重」,它反映每個模態的信息內容,並確定其在下游分析中的相對重要性。我們證明,WNN分析大大提高了我們定義多種生物數據類型中的細胞狀態的能力。我們利用這種方法,基於包含211,000人外周血單核細胞(PBMC)的CITE-seq數據集生成多模式「圖譜」,具有可擴展228個抗體的大細胞表面蛋白標記panel。利用這個數據集來識別和驗證人類淋巴細胞中的異質細胞狀態,並探索人類免疫系統對疫苗接種和SARS-CoV-2感染的反應。WNN在開源R工具包Seurat的更新版本中實現,代表了對單細胞數據進行綜合多模態分析的廣泛適用的策略。
文章使用臍帶血單核細胞的CITE-seq數據和10個免疫標記共檢測8617個細胞來進行演算法的構建。要整合分析這兩種狀態的數據,要求分析方法滿足以下條件:第一,robust,適應不同模態的數據;第二,能夠進行多模態下游分析;第三,多模態比單模態下,性能能強。基於這個數據和要求構建了WNN的演算法。如下圖所示,在分析轉錄組時,CD8+和CD4+ T細胞部分混合在一起,但在蛋白數據中清晰分離。相比之下,傳統的樹突狀細胞(cDCs),以及罕見的紅系祖細胞和小鼠類3T3對照,在分析RNA時形成不同的簇,但根據表面蛋白豐度顯示存在與其他類型的細胞混合。對每個細胞,首先計算每個模態k=20個最近鄰的集合,接下來分別對蛋白近鄰的分子和RNA近鄰的分子表達量求平均值,並將平均值與原始值進行比較。結果顯示基於蛋白knn的預測比基於RNA knn的預測更准確。然後利用預測的相對准確性來計算RNA和蛋白質的權重,從而衡量每個細胞中的相對信息。
WNN工作流中,關鍵的步驟如下:1.獲得各模態預測和跨模態預測;2.基於細胞特定帶寬核(cell-specific bandwidth kernel)將這些預測轉化為預測親和力;3.使用softmax變換計算模態權重。RNA和蛋白質模態權重是非負的,對每個細胞都是唯一的,總和為1。
最後一步整合並創建一個加權最近鄰圖(WNN圖),基於標准化後的RNA和蛋白質的加權平均值,計算一組新的knn的細胞。計算公式如下圖:
驗證數據集1:CITE-seq和25中抗體,共檢測30672個細胞
該數據集的結果表明WNN的整合大大提高了對細胞狀態的注釋,相較於單一模態更加精細化,更加完善,例如T細胞組,在scRNA分析中基本被掩蓋,但是卻有較高的蛋白模態的權重。驗證WNN的穩定性時,高斯噪音比重增加時會降低蛋白模態在數據分析中的比重。
驗證數據集2:10xGenomic PBMC細胞的ATAC和轉錄組數據,共檢測11351個細胞
該數據集結果表明,模態組合展現了更優秀的免疫亞群的分類,其中ATAC-seq數據更能分離初始CD8 +及CD4 + T細胞狀態由於可靠的檢測細胞特定類型開放的染色質區域。該演算法能夠更敏感和強勁捕獲異質性,可靈活地應用於多種數據類型,進行綜合多模態分析。
驗證數據集3:ASAP-seq HumanPBMC細胞的ATAC數據和227個蛋白,共檢測4725個細胞
驗證數據集4:SHARE-seq 小鼠的皮膚細胞的ATAC數據和轉錄組數據,共檢測34774個細胞
以上兩個數據集同樣證明了WNN優秀的整合分析的能力,更加的精細化。
文章應用這個分析方法研究了多個主題方向,其中之一就是人類外周血單核細胞的多模態圖譜。利用CITE-seq技術以及優化的抗體panel和整合的WNN分析策略,生成人類PBMC的多模態圖譜。從8名參與艾滋病毒疫苗試驗的志願者中獲得了PBMC樣本,年齡跨度20-49歲(中位年齡36.5歲)。每個受試者在三個時間點採集PBMCs:注射HIV疫苗前(第0天)、第3天和第7天。整個數據集由24個樣本組成,並使用「Cell hash」來最小化技術批次效應。對於每個樣本,我們使用10X Chromium 3 '(使用228 TotalSeq A抗體)對細胞進行分析,總共代表了161,764個細胞(平均8,003個RNA分子/細胞,5,251個ADT/細胞)。並且還使用ECCITE-seq對所有樣本中共49,147個細胞進行了分析,該技術可使用10X 5 '技術對表面蛋白進行。雖然後一組實驗包含了54種抗體,其中包括實驗室偶聯抗體和TotalSeq-C試劑,反映了在實驗時商業偶聯的可用性,但我們也能夠對這些細胞進行免疫庫圖譜分析。經過NovaSeq測序、嚴格的質量控制和雙重過濾(補充方法),我們最終的數據集包含210,911個細胞,並允許我們分析靜息(未接種)和激活(接種後)免疫系統的細胞異質性。
該WNN分析中鑒定了57個類群,包括所有主要和次要的免疫細胞類型,並揭示了細胞的多樣性,特別是在淋巴細胞中。除了罕見的細胞類型外,每一類群的細胞都來自全部24個樣本。我們的聚類可以分為幾個大類別,包括CD4 + T細胞(12類),CD8 + T細胞(12類),非傳統的T細胞(7類),NK細胞(6類),B細胞,漿細胞和plasmablasts(8類),樹突細胞和單核細胞(8類),和罕見的集群造血祖細胞、血小板、紅細胞和循環先天淋巴細胞(ILC)。為了更好的解釋聚類結果,文章為將細胞進行三個粒度越來越大的注釋(級別1,8個類別;第2級,30個類別;3級,57個類別)。雖然在T細胞亞群有較大程度的異質性,我們的分析明確確定異構子集的髓細胞與最近的高解析度scRNA-seq完全整合分析排序的數量,包括極其罕見的人群(0.02%)定義的樹突狀細胞表達 AXL 和SIGLEC6。
總之,WNN演算法的分析有助於揭示細胞的亞種群差異。雖然我們目前對WNN分析的實現側重於對兩種模式的分析,但隨著這些技術的成熟,該框架可以很容易地擴展到處理任意數量的多模態數據。因此,其為綜合多模態分析提供了一種途徑,可以超越細胞的局部和轉錄聚焦的觀點,並對細胞行為、身份和功能進行統一定義。
[1] Hao Y , Hao S , Andersen-Nissen E , et al. Integrated analysis of multimodal single-cell data[J]. 2021.
[2] https://www.10xgenomics.com/
[3] https://atlas.fredhutch.org/nygc/multimodal-pbmc/
❺ Nature綜述:單細胞和空間轉錄組的數據整合
器官包含了眾多類型的細胞,其中不同的細胞在空間上的相互作用,與其功能密切相關。然而,單細胞測序破壞了細胞間的空間關系,而空間轉錄組並不能區分出特定的細胞。如何將這兩類數據整合使用,自然遺傳學綜述21年6月的論文「整合單細胞和空間轉路組數據,來闡述組織空間細胞間動態的論文,概述了相關方法。
空間轉錄結合單細胞,可應用於對組織內穩態,組織發育,疾病微環境,腫瘤和免疫細胞組織的微環境中,不同類型的細胞如何在空間互作的研究。
該類研究的步驟是,先對不同類型的細胞測序後進行聚類,之後通過空間標記及染色切片,拿到空間的轉錄信息,之後對空間中的每個方格進行細胞類型判別,得出圖d中,兩種細胞間相互作用的,關於配體受體相互作用的發現,即綠色的細胞和紅色的細胞相鄰,而紅色的藍色的細胞不相鄰,故其中沒有相互作用。
具體的研究步驟,首先是選出研究的關注點,之後對組織樣本進行切片,通過空間標記和單細胞測序,找出高解析度RNA探針的影像(HPRI),之後對方格進行細胞類型判別,識別出組織間的分界線,之後對細胞間的交互進行分析。
單細胞和空間轉錄數據的結合演算法,可以分為三類。
第一類是逆卷積Deconvolution ,其輸入是單細胞數據和空間標記(barcoding)得到的空間轉路組數據,輸出是每個方格內,不同細胞類型所佔的比例及每類細胞個數,該類方法包括SPOTlight,SpatialDWLS,stereoscope,Robust cell-type decomposition及cell2location。
Deconvolution 式整合的示意圖
第二類方法映射 ,是對探針得出的某部分組織的轉錄本數據(HPRI),根據和單細胞數據進行共聚類或最近鄰回歸,得到某個區域中最可能的細胞類型或不同細胞類型的概率餅圖,該類方法包括pciSeq,Harmony,LIGER,Seurat等。
映射法整合空間轉錄和單細胞的方法示意圖
逆轉錄和映射這兩種方法之間,並不存在清晰的分界線。前者分別關注每個空間中方格的情況,後者則是全局的進行分析。從使用的統計模型,可以將單細胞和空間轉錄整合的方法,分為以下四種,分別是,基於回歸的,基於概率模型店,通過相對聚集程度計算得分的,基於後聚類的方法,每種方法越來越倚重整個切片的全局信息,而不是對每個方格進行獨立地判定。
四種統計模型及其和前述的兩類方法的對應關系
而第三類方法,可以直接完成空間上的配體受體相互作用分析 ,例如Fawkner Corbett 等 在2021年提出的方法,可以使用barcoding空間轉錄組和單細胞數據,算出相鄰的以及單個方格內部,一對指定細胞間,是否存在相互通訊的P值和相關系數;Giotto則是根據HPRI或barcoding數據,得出每對不同類型的細胞間相互通訊的分值。SpaOTsc則是得出二維或三維的細胞間通訊地圖,而SVCA(空間差異成分分析),則可量化的估計空間上的表達量差異,有多少比例可以被細胞間的互作解釋。
在判定細胞間的相互作用是否存在時,具體的機制分為兩種,首先是下圖A中描述的,相鄰的細胞間存在相互作用,而圖B描述的,則是對於空間上不相鄰的兩類細胞,如果一個細胞表達了另一個細胞所需的目標基因,那麼也可以判定這兩類細胞間存在著相互通信。最下方的圖,則說明只基於單細胞數據,可以根據表達的基因判定兩類細胞間,並不存在相互通信,但空間組數據的引入,可以預測細胞間通信的最長可能距離,並發現之前根據染色數據得出的,空間上能夠相互交流的細胞可位於的最遠的距離其實比實際距離要低。
該研究的未來方向,一是關注多個切片放映的組織學特徵,而不僅僅是單張切片上細胞間的相互交流,例如 ST-Net,可以根據102個基因的空間變化,通過深度學習識別組織層面的相互作用;二是臨床上的應用,例如對腫瘤及神經退行性疾病發展過程中,不同類型細胞發揮的作用的研究。