❶ 单细胞综述之整合分析
文章发表于nature review genetics: Integrative single- cell analysis ,作者是Tim Stuart与 Rahul Satija 。做过单细胞分析的对他们应该不陌生。
scRNA-seq技术的发展契合了研究个体细胞表观遗传、空间研究、蛋白质组与谱系信息的方法需要,这为研究多类型数据的综合方法提出了独特的机遇与挑战。综合分析可以发现细胞之间的模式关系,获取细胞的整体状态信息,产生涵盖不同样本与不同研究手段的数据集。该文重点讨论了单细胞基因表达数据与其他类型的单细胞分析方法的整合。
多模态(Multimodal)数据 :多种类型数据的组合,如RNA与蛋白质数据组合,是一种多维度数据,类似多组学。
单模态 :单个类型数据
Pseudotime :拟时分析
联合聚类(Joint-clustering) :通过联合不同类型数据对细胞进行分组。
典型相关分析(CCA) : 利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。
动态时间规整(Dynamic time warping) :一种局部拉伸或压缩两个一维矢量以校正一个矢量相对于另一个矢量的滞后的方法。
MNNs :标准化基因表达空间中最临近的细胞。聚类用校正批次效应。
梯度推进(Gradient boosting) :一种预测模型算法。
随着分子生物学、微流控与纳米技术的发展,催生了许多类型的单细胞测序技术。过去的方法集中在单模态测量上,如DNA序列、RNA表达量和 染色质可及性 上。虽然这些技术促进了我们对细胞多样性与发育景观的理解,但是它们并不能很好地解析单细胞内分子间互作关系。而这些互作关系是深入探索细胞状态的关键。此外,随着可用数据集规模的快速增长,迫切需要用于标准化与联合分析且考量到批次效应与个体差异的计算方法。
scRNA-seq是应用最为广泛的单细胞测序技术之一。而后出现了一系列互补技术如单细胞基因组、表观基因组和蛋白质组分析技术,涵盖了单细胞基因组测序( Vitak, S. A. et al., 2017 ; Navin, N. et al., 2011 )、染色质可及性( Pott, S., 2017 ; Corces, M. R. et al., 2016 ; Buenrostro, J. D. et al., 2015 ; Cusanovich, D. A. et al., 2015 ; Lake, B. B. et al., 2018 )、DNA甲基化( Luo, C. et al., 2017 ; Smallwood, S. A. et al., 2014 ; Guo, H. et al., 2013 ; Mulqueen, R. M. et al., 2018 )、膜蛋白( Stoeckius, M. et al., 2017 ; Peterson, V. M. et al., 2017 )、小RNA( Faridani, O. R. et al., 2016 )、组蛋白修饰( Gomez, D. te al., 2013 ; Rotem, A. et al., 2015 )和染色体构象( Ramani, V. et al., 2017 ; Nagano, T. et al., 2013 )等技术。目前已开发出研究单细胞空间结构和谱系信息的方法( Frieda, K. L. et al., 2017 ; Shah, S. et al., 2016 )。
单细胞多模态综合分析方法示意
单模态与多模态分析方法汇总
CEL-seq :线性扩增测序法
CITE- seq :膜蛋白丰度与基因表达水平测定
G&T-seq :基因组转录组测序
LINNAEUS :谱系追踪
MARS-seq :大规模平行单细胞RNA测序
MEMOIR :谱系与空间结构测定
MERFISH :主要是细胞间结构测定
osmFISH :环状单分子荧光原位杂交,空间结构测定
REAP- seq :膜蛋白丰度与基因表达水平测定
scATAC-seq :单细胞空间结构测定
scBS-seq :单细胞甲基化测序
scChIP-seq :单细胞ChIP-seq
scGESTALT :结合CRISPR-cas9的谱系追踪弄方法
scHi-C-seq :测定染色体组装
sciATAC-seq :结合index转座酶的scATAC-seq
sci-CAR :利用index联合分析mRNA和染色质可及性谱
sci-MET :利用index分析单细胞甲基化水平
sci-RNA-seq :结合index的scRNA-seq
SCI-seq :单细胞组合标记测序,检测CNV
scM&T-seq :单细胞甲基化组和转录组测序,可研究未知的DNA甲基化与基因表达之间的关系
scNOMe- seq :核小体占位与甲基化组测序
scRRBS :单细胞限制性代表区域甲基化测序
scTHS- seq :单细胞转座体超敏性位点测序
seqFISH :内含子序贯荧光原位杂交,扩展观测到基因数量
snmC-seq :单核甲基胞嘧啶测序
SNS :单核测序
SPLiT-seq :丐版scRNA-seq
STARmap :原位单细胞测序
理想的实验流程应当全面洞悉细胞的所有方面,包括分子状态、空间构象、胞外环境互作的全部过程。尽管当下技术手段无法做到,但多模态技术与综合计算方法可以是我们离该目标越来越近。文章希望提出整合单细胞转录组学、基因组学、表观组学与蛋白组学的数据统一分析方法,重点在结合其他数据类型分析scRNA-seq数据,尤其是整合来自于同一细胞的不同类型数据。
文章分为四大块,首先探讨了多模态单细胞分析方法,其次研究了不同实验不同数据整合分析,然后讨论了单细胞空间测序数据整合分析方法,最后给出了整合分析方法的前景与必要性。
最初的单细胞分析方法主要关注细胞某状态下的某类分子水平。而现在更引人瞩目的是同时分析单细胞内多种分子以建立更全面的单细胞分子视图。通常这些方法是将scRNA-seq数据与其它分析手段的结合,目前主要有四种策略从单细胞中得到多模态数据:
严格来说这种方法算单模态。
一些scRNA-seq workflow采用流式分选细胞,随后进行scRNA-seq(MARS-seq/Smart-seq/2),这样可以同时获得单细胞与对应的荧光信号,将荧光所表示的蛋白质水平与转录组在同一细胞中关联( Ramsköld, D. et al., 2012 ; Jaitin, D. A. et al., 2014 ; Picelli, S. et al., 2013 )。早期研究( Hayashi, T. et al., 2010 )利用FACS结合半定量RT-PCR(作者称之为FBSC‐PCR),结合scRNA-seq,明确了细胞表面marker可以区分细胞类型与状态( Wilson, N. K. et al., 2015 ;该文结合了Smart-seq2),( Paul, F. et al., 2015 ;该文结合了MARS-seq)和鉴定稀有细胞的思路。 Paul, F. et al., 2015 与 Nestorowa, S. et al., 2016 利用该workflow研究发现了小鼠造血祖细胞由转录组定义不同细胞簇的免疫表型, Wilson, N. K. et al., 2015 则分离了小鼠HSCs,鉴定细胞维持干性相关的表面marker。但是囿于荧光光谱的重叠现象,利用该法测到的每个细胞的参数范围有限。
针对荧光无法分选的部分,FACS显然是不合适的,尤其是需要同时测得单细胞基因组与胞内蛋白的scRNA-seq实验。此时需要物理分离或通过不同tag筛选出不同组分。
G&T-seq通过加入oligo(dT)特异性分离mRNA同时保留基因组DNA从而实现了基因组转录组平行测序( Macaulay, I. C. et al., 2015 )DR-seq通过则通过加入barcode特异扩增cDNA序列实现基因组转录组平行测序( Dey, S. S. et al., 2015 )。这使得单细胞基因表达水平与其对应基因型联系起来,深度揭示单细胞间DNA拷贝数变异与染色体重排对下游mRNA丰度的具体关联。这些方法适用于研究体细胞基因高度变异的肿瘤组织。
DNA甲基化与转录组水平结合研究是基于 Macaulay, I. C. et al., 2015 的G&T-seq和 Smallwood, S. A. et al., 2014 的scBS- seq技术发展的,同普通BSP一样,用亚硫酸氢钠处理DNA片段随后进行扩增,结合G&T-seq,可以分析同一细胞内的DNA甲基化模式和基因表达数据( Angermueller, C. et al., 2016 )。由于DNA甲基化存在不稳定性和异质性,因此若要研究DNA甲基化与基因表达间的关系,则必须将表观基因组变异与细胞间的异质性区别开来。
通过DNA甲基化与转录组关联分析,为启动子甲基化与基因表达间的负相关性提供深层次的证据。此外,利用barcode系统选择性标记基因组DNA与cDNA,结合index系统,可以对数千个单细胞进行染色质可及性与基因表达水平间的关联分析,同时鉴定出影响基因表达的顺式调控元件( Cao, J. et al., 2018 )。
关于胞内蛋白与mRNA关联研究,有两种思路可供借鉴。其一( Darmanis, S. et al., 2016 )是将FACS sort到的细胞裂解后分离裂解液,分别进行蛋白质与RNA定量。作者采用 PEA (邻近探针延伸分析) 检测蛋白并用RT-qPCR定量,采用qRT-PCR定量mRNA。该法可以同时检测82个mRNA/75个蛋白;其二( Genshaft, A. S. et al. )是将FACS sort到的细胞在微流控芯片中同时进行逆转录和PEA而不分离裂解液。该法可以同时检测96个mRNA/38个蛋白。这两种方法检测的蛋白与mRNA数量与质量均有限。
这些技术的出现表明若将可以细胞信息转化为有序的barcode,我们就可以在分析单细胞转录组时将这些信息同时获取。这种策略不仅适用于分析细胞的自然状态,也适用于大规模基因扰动研究。目前有Perturb-Seq( Dixit, A. et al., 2016 )和CRISPR-Seq( Adamson, B. et al., 2016 ; Datlinger, P. et al., 2017 ; Jaitin, D. A. et al., 2016 ),他们将scRNA-seq与CRISPR-cas9结合进行遗传筛选,使得研究正向遗传学的大规模基因扰动试验成为可能。具体原理是给单个基因扰动和受到影响的细胞添加barcode,通过scRNA-seq能够鉴定出这两者,从而推断CRISPR靶向基因和由此产生的单个细胞的转录谱间的关系。目前应用在基因调控网络( Dixit, A. et al., 2016 )、未折叠蛋白反应( Adamson, B. et al., 2016 )、免疫细胞分化发育( Datlinger, P. et al., 2017 )和T细胞受体激活( Jaitin, D. A. et al., 2016 ),非编码区调控元件( Klann, T. S. et al., 2017 )。此外,还可以结合CRISPR-dcas9系统,扩展到转录调控、表观遗传调控领域中( Thakore, P. I. et al., 2016 ; Liu, X. S. et al., 2016 ; Hilton, I. B. et al., 2015 ; Konermann, S. et al., 2015 ; Gilbert, L. A. et al., 2017 ),18年发展了同时靶向和敲除基因的技术( Boettcher, M. et al., 2018 )。
另一个应用是结合CRISPR-cas9的谱系追踪技术。单细胞谱系追踪是去年的大热方向之一,此处提到三种mRNA+lineage方法: scGESTALT 、 ScarTrace 、 LINNAEUS 。这三种方法各有不同,但大体是利用CRISPR-cas9连续切割结合到基因组上的barcode,细胞会用NHEJ来应对这种损伤。但NHEJ容易出错,从而在DNA序列中产生随机突变,这些突变通过细胞分裂进行遗传,结合scRNAseq利用这些突变作为复合barcode来构建组织或器官发育谱系。
另一种略有不同的方法是 MEMOIR ,它结合smFISH与CRISPR-cas9系统,可以同时检测细胞谱系与空间位置。
普通的scRNA-seq流程除了可以做转录本丰度外,还可以进行诸如体细胞突变、遗传变异、RNA isoform等分析。
关于体细胞突变目前已有研究( Lodato, M. A. et al., 2015 ),该文通过对人大脑的少量单细胞全基因组测序,分析了发生的细胞突变,构建了人大脑神经细胞谱系。作者发现突变大多发生在高转录活性相关位置,这表明可能可以通过scRNA-seq数据来分析神经细胞突变情况,根据转录状态重构神经细胞谱系。此外,分析scRNA-seq数据中的拷贝数变异,可以研究癌症非整倍体与异质性等情况( Tirosh, I. et al., 2016 ; Fan, J. et al., 2018 )。
单细胞分析也为理解DNA自然变异如何影响基因表达与细胞状态提供了新思路。有研究结合GWAS+scRNAseq,鉴定出了不同个体之间的eQTL( Kang, H. M. et al., 2018 )。
多模态测序策略正在催生与之相匹配的数据分析方法。多模数据集可以检测到细胞间的细微差异,而单模数据很可能无法做到这一点。由于scRNAseq数据存在dropout,故而它更容易忽略细胞间的细微差别;但与来自同一细胞的其他数据互补分析可以改善这一问题。例如,很难通过scRNA-seq数据区分不同的T细胞亚群,但联合膜蛋白分析则可以显着提高亚群分辨率( Stoeckius, M. et al., 2017 ),同样,RNA+chromatin、RNA+methylation联合可能揭示单个细胞间的调控异质性,不再赘述。
单细胞多模态分析思路很可能受到bulk-seq多组学联合分析的启发( Meng, C. et al., 2016 ), Argelaguet 开发了一种名为MOFA( multi- omics factor analysis)的方法,该方法在多组学bulk-seq数据中效果良好,同时测试了单细胞DNA甲基化数据与RNA数据联合处理情况,效果也可以。这暗示适用于bulk-seq的多组学数据处理方式可能也适用于单细胞多模态数据。鉴于单细胞数据规模远超bulk-seq,多视图机器学习不失为一种重要的补充手段( Colomé- Tatché, M. & Theis, F. J., 2018 )。
单细胞多模态研究策略为解析细胞内不同组分间的关系提供了新方法。如CITE-seq和REAP-seq可以轻易鉴别出相关度较低的RNA-protein模块,表明此处存在活跃的转录后调节。还有一个很有意思的是通过测量剪接过的成熟RNA与未剪接RNA的相对丰度,可以建立RNA与蛋白的关联动态模型( La Manno, G. et al., 2018 )。
此外,还可以在不同类型数据间建立统计模型。前面提到的sci-CAR文章建立了染色质可及性与基因表达水平间的统计模型,通过染色质可及性数据估计细胞内基因表达水平( Cao, J. et al., 2018 ),另一组研究人员建立了gRNA与基因表达水平间的线性回归模型,用以识别细胞应答的前后关系,重构转录网络(Perturb-Seq( Dixit, A. et al., 2016 ))。通过这种手段可以研究目标物种复杂的调控网络。
前面主要讲了在同一测序实验同一批细胞进行的多模态数据整合,而不同测序实验数据整合分析才是亟需解决的关键问题。同bulk seq 数据一样,处理批次效应是综合分析不同实验室、不同workflow产出数据的首要问题(SVA包( Leek, J. T. 2014 ))。然而目前bulk seq水平的处理方法无法处理单细胞数据(( Haghverdi, L, et al., 2018 ,作者用MNN处理数据,该法在 mnnpy 中得到改进); Butler, A, et al,. 2018 )。目前最新方法利用 CCA / MNN 可以识别出两个数据集间共有的部分,判定细胞间共有的生物学状态,然后以这些相同状态的细胞为基准消除批次效应。
此处作者介绍了他自己在Seurat V2中开发的方法( Satija, R, et al., 2015 ;),该法用 CCA 鉴别出不同数据集间相同的细胞类型且可以避免出现由批次效应或常规PCA造成的假阳性细胞类型;接下来采用动态时间规整算法校正数据集间细胞密度差异。这两步骤可以将细胞投影到一个低维空间,具有相同生物学状态的细胞相互接近且消除了不同数据集带来的影响。
另一种方法即mnnCorrect,最早用于计算机领域图形识别。该法寻找不同数据集间最接近的细胞,将之判定为潜在的状态相同细胞,随后利用成对MNNs距离计算一个批次参数(batch vector),用以校正原始表达矩阵( Haghverdi, L., 2018 )。
CCA/mnnCorrect在整合处理不同来源的scRNA-seq数据时表现良好。这将极大提升发现稀有细胞、微弱转录差异细胞及与之对应maker的能力( Haghverdi, L, et al,.2018 ; Butler, A,et al,. 2018 ) 。这为建立一个统一的单细胞参考数据集提供了依据。在此基础上,scRNA-seq数据整合分析得到了快速发展( Hie, B. L, et al., 2018 ; Barkas, N. et al., 2018 ; Park, J.-E., 2018 ; Korsunsky, I. et al., 2018 ; Stuart, T. et al., 2018 ; Welch, J. et al., 2018 )。这种多数据集整合分析的应用远不止用于校正批次效应这么单一。它可以在单细胞尺度上深入比较细胞间的状态,发现细胞对环境及基因扰动的特异性响应,对不同疾病及不同治疗下的患者的测序数据进行标准化。
scRNA-seq数据整合分析还可以扩展至跨物种分析。 Karaiskos,N 比较了两种果蝇早期胚胎的空间基因表达模式,通过构建空间基因表达图谱,该研究系统比较了两个果蝇的同源基因表达谱,鉴定出了彼此间的进化波动。 Tosches 比较了爬行动物与哺乳动物脑细胞间的相关性。 Baron 分析了人与小鼠胰岛细胞scRNA-seq数据,鉴定出了二者间的保守亚群。 Alpert 开发出了cellAlign,在一维水平上比对了人与小鼠的拟时轨迹,发现人胚胎合子激活要比小鼠晚,小鼠中比人活跃的基因皆与蛋白合成相关。跨物种分析未来是光明的,但对于多物种整合分析而言,精确鉴定物种间同源基因是多物种整合分析至关重要的一步。
以细胞分类信息的形式串联不同的scRNA-seq数据集,或者借鉴到自己实验中,是优于合并数据集然后de novo聚类这种方法的。且随着 有参细胞图谱 的开发,这种方式将更加寻常。目前已开发对应方法: scmap- cell & scmap- cluster ,其中scmap-cell 用乘积量化( proct quantization )算法进行比对,而scmap-cluster则用于识别未知数据集中的cluster。
利用已有的注释数据集,目前开发的新方法采用 奇异值分解 、 线性判别分析 和 支持向量机 算法来对细胞进行分类。此外,随着引用数据集的大小、范围与深度越来越高,监督聚类在解析细胞类型方面要比无监督聚类强得多。通过以上这些方法,可以更精确地识别并解析细胞亚群。
satija已有相关文章研究: Comprehensive Integration of Single-Cell Data
这一部分讲的是将scRNA-seq数据与其它不同来源和类型数据诸如甲基化、染色质结构等整合分析的方法。
将scRNA-seq数据与其它类型、不同来源的单细胞数据整合分析是无法提取到数据间的共同特征的,因为它们不是一个类型的数据,需要不同的分析方法。这点在基于基因组的数据(如染色质可及性与甲基化数据)与基于基因的数据(如基因与蛋白表达数据)间整合分析尤为明显。但如果这些数据来自于同一类细胞群,由于存在着共同的生物学状态,此时可以联立分析以发现不同数据集类型间的对应关系。
MATCHER 是一种在一维水平上比较不同类型测序数据拟时轨迹的方法。简单来说就是比对不同类型测序数据的拟时轨迹,以确定这些数据集间的对应关系。这种方法可以识别不同数据集间的“等效细胞”而不需预先知道彼此间的对应关系。开发者用scM&T- seq( Angermueller, C. et al., 2016 )和scRNA-seq数据做了验证,准确预测了DNA甲基化与基因表达之间的关系。
其他sc-seq数据不同于scRNA-seq数据一样可以借助Marker解析细胞类型,因此可以利用scRNA-seq解析出的细胞信息为其他sc-seq数据分析做参考。有研究( Lake, B. B. et al., 2018 )对不同脑组织切片进行了单核RNAseq(snRNA-seq)与单细胞转座子超敏性位点测序(scTHS-seq),通过梯度推进算法利用单细胞基因表达谱指导了染色质可及性测序数据集的细胞分类:作者首先鉴别出snRNA-seq数据集与scTHS-seq数据集共有的细胞亚群,训练一个可以将基因表达与染色质可及性数据关联的模型;然后利用该模型去分类scTHS-seq中剩余未被分类的细胞。这种方法可以更细致地对大脑组织中的细胞进行分类。同样,可以整合scATAC-seq数据集来分析单细胞DNA甲基化或转座酶染色质可及性间的细胞分类。
目前正在开发的新方法有利用假定等价特征、或识别在所有类型数据中的假定相关共享特征来进行数据交叉模态分类。 Welch 开发了一种集成非负矩阵分解(iNMF)的方法,名为LIGER,可以跨模态整合数据。他们对同一类型 皮质细胞 分别进行了亚硫酸盐测序(snmC- seq)与scRNA-seq并对其进行了分类。他们假设基因体甲基化与其表达水平负相关从而整合了不同模态测序数据进行细胞分类。在seurat v3.0中,作者也引入了假定等价特征或关联特征进行多模态整合数据细胞分类的方法。这些方法优点如上所述,即可以利用scRNA-seq的细胞分类信息来指导scATAC-seq数据细胞分类,鉴别出染色质可及性与DNA甲基化的细胞特异模块。
组织中细胞的空间结构常反映出细胞间的功能差异与细胞命运和谱系的差异。不同基因表达引导细胞向不同方向分化,不同细胞精确排列形成不同组织。关键是单细胞实验通常在分析前细胞已被解离,组织原位信息无法保留,scRNA-seq得到的表达谱不能完全反应细胞空间信息。具有相似基因表达谱的细胞可能存在于不同的空间位置中,故而细胞分离过程中空间信息的缺失是很多单细胞实验的主要缺点。结合高分辨率基因表达谱与空间表达图谱 (spatial expression maps) 将细胞空间坐标与基因表达谱联系起来,可以解决这一问题。有两类方法:计算模型或者RNA原位定量,可以同时收集到细胞空间坐标与基因表达值。
❷ Genome medicine :经过验证的单细胞在复杂疾病的诊断和治疗靶标的策略
1.1 基因组医学为鉴定复杂疾病的生物标志物和可治疗靶标铺平了道路,单细胞RNA测序研究(scRNA-seq)可以表征整个器官中的此类复杂变化。取而代之的是,在多个细胞类型的多个因果机制的分散体是通过其他一些研究。这种复杂性的一个极端后果是可能需要大量的药物才能有效治疗每种疾病。为了解决这个问题,我们理想地需要表征所有与疾病相关的细胞类型和途径,然后优先确定相对最重要的细胞。据我们所知,这两个挑战都没有得到系统解决。一个原因是患者可能无法获得许多细胞类型,另一个原因是缺乏在细胞类型和途径之间进行优先排序的方法。
1.2 作者的策略的普遍适用性通过对151例患有13种自身免疫性,过敏性,感染性,恶性,内分泌性,代谢性和心血管性疾病以及53个年龄和性别匹配的对照的患者进行的前瞻性诊断研究得到了支持。该策略的治疗潜力得到了对这些疾病的基于网络的分析以及对关节炎小鼠模型的研究的支持。综上所述,作者的结果支持我们的策略可能具有优先考虑复杂疾病中治疗和诊断目标的潜力。
2.1 试验设计
2.1.1总而言之,本研究描述了构建MCDM并将其用于诊断和治疗的可扩展的分步策略。该策略已通过临床和实验研究验证。该策略基于应用网络工具来组织和分析来自关节炎和人类类风湿性关节炎小鼠模型的scRNA-seq数据。使用来自13种疾病的前瞻性临床研究的表达谱数据和潜在的蛋白质生物标记物进行诊断验证研究。通过对关节炎小鼠模型的治疗研究,使用表型,免疫组织化学和细胞分析作为读数,检查了候选药物。
2.1.2 类风湿关节炎小鼠模型
使用bcl2fastq Conversion和Picard软件将单细胞数据处理为数字基因表达矩阵。从GRCh38(2017年4月,Ensembl)获取用于人类数据(和GRCm38(2017年6月,Ensembl)用于小鼠的读数的索引参考。使用STAR软件获取数据。根据使用STAR软件的作图质量,在下游分析期间仅考虑了与参考基因组的初步比对。通过每个细胞至少有10,000个读数,400个转录本和少于20%的线粒体基因来评估细胞的质量。由于存在文库重复的风险,导致两个或更多细胞共享细胞条形码,因此,基于对转录物计数的高估,可以移除异常值。结果分别获得了7086和1333个细胞用于关节和淋巴结数据。然后使用Seurat [34]将单细胞数据归一化以进行进一步分析。为了减少数据中的噪声,对每个组织矩阵分别进行K最近邻平滑处理,至少使用5个k,或者如果捕获到5000个以上的单元,则要占单元总数的〜0.1%。
3.1 抗原诱导性关节炎(AIA)小鼠模型的scRNA-seq分析
a AIA鼠标模型的概述。 b 苏木精和曙红(H&E)染色后,来自幼稚小鼠和关节炎关节的代表性关节图像。B,骨髓;S,滑膜腔;C,软骨。箭头指示(1)炎性细胞向滑膜的浸润,(2)软骨/骨破坏,和(3)滑膜内膜的增生。 c 使用参考成分分析(RCA)对seq-well scRNA-seq和细胞类型进行鉴定的示意图。 d t-SNE图显示7086个健康和RA关节细胞( n = 4个健康小鼠样品和5个患病小鼠样品)以及1333个健康和AIA淋巴结细胞( n = 4个健康小鼠样品和5个患病小鼠样品),由RCA簇着色
3.1来自AIA小鼠模型的多细胞疾病模型(MCDM)
通过将每种细胞类型中差异表达的基因与所有其他细胞类型中预测的上游调节子相连接,基于scRNA-seq数据构建MCDM。像元类型大小对应于中心性得分。节点指示的数字表示已识别的特定类型的细胞数(例如,在RA关节中,我们已识别出4258个粒细胞)。 一个 从关节炎小鼠的淋巴结的MCDM。 b 来自关节炎关节的MCDM。 c 健康小鼠关节的多细胞模型(未显示淋巴结模型,因为只有一种预测的相互作用)。预测的上游调节子的基因名称显示在箭头上。Treg,T调节细胞。 d 细胞类型的中心性评分与通过GWAS鉴定的具有遗传变异的基因的富集和差异表达基因之间专家管理的存储库之间的相关性(这些基因来自DisGeNet并基于人类基因的小鼠直向同源物进行了分析)
3.3疾病相关细胞类型的网络模型
a 24个细胞类型和亚群均显着富集与RA相关GWAS富集后生标记。像元类型大小对应于关联-ln( p 值)。 b 与类风湿关节炎(RA)相关的细胞类型的网络模型。节点对应于细胞类型,节点大小对应于关联的重要性(-log10 RA GWAS-表观遗传标记富集 p 值)。具有潜在空间相互作用的单元格类型被链接在一起,并且单元格类型的位置取决于中心得分,如背景中的圆环所示。 C 按与175种人类疾病的关联的重要性排序的细胞类型类别的条形图(Fisher结合了富含GWAS的表观遗传标记–为每种细胞类型类别计算的疾病关联 p 值)。 d 基于与 b中 相同的参数的与175种疾病相关的细胞类型的网络模型(有关详细信息,请参阅 结果 )
3.4根据13种疾病的临床概况研究,CD4 + T细胞具有诊断潜力。
疾病模块 的 玩具模型。疾病相关基因(红色)被映射到人蛋白质-蛋白质相互作用网络中的蛋白质(蓝色)上。共定位的疾病相关基因形成一个模块。 b 基于模块的分析概述。第一步是在前瞻性CD4 + T细胞微阵列研究中确定的13种疾病中的每一种的疾病模块的识别。对于每种疾病模块,基因将患者与健康对照区分开。为了成对比较疾病,将两个模块的结合中的基因分开患有不同疾病的患者。例如,流感和哮喘模块中的基因将流感患者与患有AUC为0.99的哮喘患者区分开, p = 3.3×10 -5,如 c 所示。 c 使用弹性网基于模块相交基因在13种疾病分类的曲线下面积(AUC)值上显示热图。 d 基于在CD4 + T细胞中测得的预先选择的生物标志物(基因),对乳腺癌患者( n = 24)和健康受试者( n = 14)的分类准确性进行的独立验证研究。用弹性网进行分类,保留与原始研究相同的λ( λ )值。 e – j 根据在溃疡性结肠炎(UC)和克罗恩病(CD)模块相交处鉴定出的六种分泌血浆蛋白,对IBD患者进行潜在的诊断分类。这些蛋白质可以将患者与健康对照(HCs)分开。 e CXCL11; f CCL25; g CXCL1; h CXCL8; i IL1B; Ĵ TNF。 k 克罗恩病和溃疡性结肠炎患者根据CXCL1和CXCL8的标准化蛋白质水平进行分类。UC,溃疡性结肠炎;CD,克罗恩病;HC,健康对照。星号表示 p 值<0.05。 d – k 方框中的条形图代表中位数,第25和第75个百分位数,而晶须延伸到± 2.7σ (请参见“ 方法 ”部分)
3.5苯扎贝特可预防抗原诱发的关节炎(AIA)
用苯扎贝特( n = 4)或模拟(AIA对照, n = 5)腹膜内(ip)治疗mBSA诱导的关节炎的雌性小鼠。 一个 基于在两个组的组织病理学第28天的关节炎严重性评分(H&E染色,垂直条表示中值,使用曼-惠特尼评估组间差异的 ü 测试,* p <0.05)。 b 来自苯扎贝特治疗的小鼠的代表性H&E联合图像。 c 从模拟(AIA对照, n = 5)或苯扎贝特治疗( n )分离的脾和淋巴结细胞中,CD4 +辅助性T细胞的抗原召回反应 = 4)小鼠;竖线表示平均值±SEM,使用双面Mann-Whitney U 检验评估的组间差异* p <0.05)
4.1由于成千上万的基因参与了许多不同的细胞类型,因此了解复杂疾病中的致病机制和确定药物靶标是一项艰巨的挑战。诸如GWAS和scRNA-seq等无偏倚的全基因组方法表明,多种致病机制分散在许多细胞类型中。
4.2药物发现的困难以及为什么许多患者对治疗无反应。尽管如此,疾病相关细胞类型的系统表征和优先级以及用于诊断和治疗的机制仍未解决。一种明显的方法是识别并确定最重要的途径。在作者对AIA的scRNA-seq研究中,发现涉及T细胞分化的途径最为重要。这与对RA发病机理的当前理解是一致的,并已导致靶向此类途径的药物。但是,效果是可变的。作者对scRNA-seq数据的系统分析提出了一种可能的解释,该数据揭示了每种细胞类型中的大量其他途径和治疗靶标,以及细胞类型之间的重叠有限。
4.3结果支持基于网络的原理可以同时应用于两者。将来自AIA和人类RA的scRNA-seq数据整理成MCDM。取代任何具有明显关键调节作用的独特细胞类型或机制,MCDM中的大多数细胞类型都相互作用,形成了多向网络,其中多种细胞类型可能导致了发病机理。尽管一种细胞类型和机制可能发挥关键作用,但对遗传和表观遗传学数据的分析支持致病机制分散在多种细胞类型中。
4.4作者发现支持MCDM和网络原理可能具有优先考虑细胞类型以及生物标志物和药物发现机制的潜力。提供了所有提供的数据和方法以促进此类研究。
-----在读博士,代谢,组学研究 王平写作
Gawel, Danuta R et al. “A validated single-cell-based strategy to identify diagnostic and therapeutic targets in complex diseases.” Genome medicine vol. 11,1 47. 30 Jul. 2019, doi:10.1186/s13073-019-0657-3
❸ 单细胞数据处理小细节汇总
1. Seurat对象查看当前的Assay
在进行了SCTransform操作后,矩阵默认会变成SCT矩阵,如果不加设置,后续的PCA等操作都是基于SCT矩阵。
修改DefaultAssay:
2. Seurat使用FindVariables找到高变基因后增删高变基因
3. 不同运行步骤中的文件来源和储存位置⚠️
⚠️:PCA的值是可以被覆盖的,使用三步法对矩阵进行标准化后进行PCA后再使用SCT矩阵进行标准化,PCA的矩阵变成了SCT的PCA矩阵,原有的PCA矩阵不会保留。后续的TSNE和UMAP降维图也和三步法不一样。
4. @data标准化矩阵 和 @scale.data 归一化矩阵 的区别
单细胞RNA 测序数据中,文库之间测序覆盖率的系统差异通常是由细胞间的cDNA 捕获或PCR 扩增效率方面的技术差异引起的,这归因于用最少的起始材料难以实现一致的文库制备。标准化旨在消除这些差异(例如长度,GC 含量),以使它们不干扰细胞之间表达谱的比较。这样可以确保在细胞群体中观察到的任何异质性或差异表达都是由生物学而不是技术偏倚引起的(批次矫正仅在批次之间发生,并且必须同时考虑技术偏差和生物学差异,标准化只需考虑技术差异)。
软件Seurat 提供了三种标准化的方法,分别为LogNormalize、CLR、RC,通常情况下我们采用LogNormalize 的方式进行标准化,计算公式为:log1p((Feature counts/total counts) ∗ scale. factor)
归一化的目的则是使特征具有相同的度量尺度
参考: Seurat的normalization和scaling
5. 关于有些细胞属于同一个cluster但是在umap或者tsne图上相聚较远的问题:UMAP和TSNE是各自的算法在PCA降维的基础上再进行非线形降维,在二维图上把其各自算法认为相近的细胞聚在一起。但是FindClusters输入的不是UMAP或TSNE降维的数据,而是FindNeighbors的数据,而FindNeighbors输入的数据是PCA降维数据,是用另外一种算法计算的细胞之间的距离。因此会出现有些细胞被认为是同一个cluster,但是在umap或者tsne图上相聚较远(尤其是一些散在的,脱离主群的细胞)
6. marker基因鉴定,查看marker基因的表达是使用RNA矩阵还是sct矩阵?
这是一个争议性问题,两个都可以,目前建议最好使用RNA矩阵。
sct的到的count并不是真实的基因表达值,而是通过scaledata倒推出来的,它是一个回归,运算之后的残差。
7. 关于FindAllMarks找到的基因
如下图,先看cluster0的Marker基因:cluster0的差异基因是cluster0的细胞和剩下的所有的cluster合在一起的细胞做对比得到的。pct.1是这个基因在cluster0中的表达比例(S100A8在cluster0的细胞中的表达比例是100%),pct.2是这个基因在除了cluster0以外的所有细胞中的表达比例(S100A8在除cluster0以外的细胞中的表达比例是51.2%)。avg_log2FC是表达差异倍数,p_val_adj是校正后的p值。
8. 在提取Marker基因时比较好的办法:因为单细胞矩阵算出来的结果,p_val_adj==0的有很多,所以可以先把p_val_adj==0先提出来。再把p_val_adj<0.01的按差异倍数靠前的20/30/500...(按需要)个基因提出来,然后把两个矩阵合在一起(取交集)用来做细胞鉴定。(结合p值和fc来做筛选效果更好)
⚠️:提取没有核糖体和线粒体的marker基因更好。(这些基因对鉴定没有帮助)
有些基因比如Foxp3,对细胞鉴定很重要,但常常在筛选Marker基因的时候筛选不出来。 非负矩阵分解 可能更好。
参考: 过滤线粒体核糖体基因
9. 提取亚群
⚠️ 新提取的亚群需要重新进行降维聚类 (和大群相比,标记基因发生了变化),并重新寻找marker基因,重新分群,注释。❗️subset提取子集后,不同样本间批次校正的信息也被去除,需要重新进行批次矫正
参考: Seurat取子集时会用到的函数和方法 ⚠️⚠️⚠️
10. 取子集后如何去除空子集(还存在这个level,但里面包含的细胞为0,如何去除) as.factor(as.character())
11. 双细胞的预测和去除如DoubletFinder建议单样本进行,不建议双样本一起预测。除此之外,其他步骤都可以多样本一起做,质控的时候也可以多样本一起做,但是建议每个样本都单独看一看。
12. 单细胞多样本整合:merge();多样本拆分:SplitObject()
13. 在做多组数据整合,每个组又有多个样本的时候,最好把单独的每个样本当成批次,而不是把不同的组当成批次。
14. 多核运算
参考: 单细胞数据分析中future包的使用
15. pbmc3k.final@commands$FindClusters 可以查看FindClusters运行时间和记录。Seurat是记录其分析过程的,也可查看command下其他操作
16. 关于质控标准:同一组织的最好用同样的标准,不同组织的可以不一样。不同组织线粒体含量等可能存在差异。
17. 可视化的方法总结
参考: https://www.jianshu.com/p/0d1e2c7d21a4
18. circos图绘制
19. 单细胞数据思维导图,有利于查看单细胞数据格式。
https://www.jianshu.com/p/7560f4fd0d77
20. 对于旧版本Seurat对象的更新
scRNA <- UpdateSeuratObject(scRNA)
UpdateSeuratObject {SeuratObject} :Update old Seurat object to accommodate new features
21. 对有些操作需要用到python设置的情况
22. 单细胞数据做pooling的好处:可以尽量的降低dropout的问题。(dropout就是矩阵中的zero,这些zero实际上并不是0,而是每个液滴里面起始反应量太低了。而一般的反转录效率只能到30%左右,70%的转录本实际上在反转录那一步是被丢掉的,这是单细胞测序一个比较大的问题)。
但是一旦做了pooling,你必须要证明pooling对结果是没有影响的(下图的右面三个图)。
23. Seurat的VlnPlot中的combine参数,在如下画三个基因的情况下,设置成T就画一张图,设置成False,会将三个基因各画一张图。
24. rev()这一步是将横坐标的基因反过来排序
这两个画出来的图横坐标基因的顺序是相反的(见NicheNet)
25. 堆叠小提琴图的绘制
完成这个需求有以下几种实现方法:
1. Seurat包直接就可以实现(stack = T)
2. 通过Seuart->scanpy来实现,第一张是Seurat包VlnPlot函数画的图,第二张是scanpy中stacked_violin函数画的图,那么现在问题就变成为Seurat对象到scanpy对象的转换
3. 用R原生函数实现StackedVlnPlot的方法
4. 使用基于scanpy包衍生的scanyuan包来说实现
5. 使用R包MySeuratWrappers来实现
最简单的方法1如下:
如果不设置level,会按字母顺序排列,case会自动排在con前面。
使用Seurat的 RenameIdents 函数也可以
x: table
margin: a vector giving the margins to split by. E.g., for a matrix 1 indicates rows, 2 indicates columns, c(1, 2) indicates rows and columns. When x has named dimnames, it can be a character vector selecting dimension names.
得到的HC_1样本的orig.ident默认是样本名中第一个_号的前一部分。所以要保证矩阵的列名是 样本名_细胞barcode 这样的格式。
如果有多个分组,例如两个样本矩阵中细胞分别命名为HC_1_barcode,HC_2_barcode,在直接通过如下方法得到两个Seurat对象,再对其进行merge之后,两个样本会被合并成一个。也就是样本信息只保留了第一个_号之前的HC,没有保留_号之后的1和2。
为了避免这种情况,可以在构建Seurat对象时通过参数进行设置
⚠️PC数的选择:Seurat官网提供的三种方法只能给出PC数的粗略范围,选择不同PC数目,细胞聚类效果差别较大,因此,需要一个更具体的PC数目。作者提出一个确定PC阈值的三个标准:
一般先选默认分辨率(0.8),大概可能会分出十几个群。因为最终都是要注释到每一个barcode,所以首先可以看大类marker的分布(不受分辨率影响),可以根据marker基因的分布来调整分辨率。是否需要精细的分群得看精细的分群对研究有没有决定作用,还有很重要的一点是 看分出的各个cluster在Findallmarkers给出的结果中marker的热图是不是能明显分开 。精细划分的细胞本来就很类似,如果有部分小群的热图明显分不开或者非常类似,就可以考虑把分辨率调小。
这实际上是没有必要的必须保持一致的。下游的都是用pca之后的,pca是为了压缩数据。
umap和tsne是为了可视化(仅仅是可视化),但是FindNeighbor是计算细胞间距离矩阵。找类群数目和可视化可以说没有关系。
map函数:
R语言循环第三境界:purrr包map函数!
浅析R语言中map(映射)与rece(规约)
参考: monocle2
查看不同细胞群的中位基因也是一样
查看不同样品的中位基因也是一样
或者也可以
❹ 单细胞多模态数据整合分析
随着单细胞测序技术的发展,多种组学的单细胞数据也越来越多,要如何更好的使用多组学的数据去解析样本的细胞组成和特征情况呢?今年4月份发表在Cell杂志上单细胞多模态数据的整合分析这篇文章中介绍了WNN(Weighted-nearest neighbor,加权最近邻)的算法,seurat团队使用不同的数据集对算法模型的构建、验证及应用进行了深入浅出的说明。在对文章进行说明前,首先来了解一下10XGenomics推出的一份样本获得两种组学的产品10XATAC_GEM双组学的原理。
单细胞转录组的优势在于可以发现新的细胞类群,但难以发现分子相似,功能不同的类群,例如T细胞中,RNA量少,RNA酶多,就难以区分亚类群,而此时多组学就有了更多的优势。10X单细胞双组学的原理如下图所示:
获取细胞核后,先利用转座酶试剂对其进行转座反应,对染色质开放区的DNA进行打断和片段化,单细胞分选,油包水液滴(GEM)中并被回收,随后细胞核开始裂解并释放出DNA片段及mRNA,在GEM液滴中完成逆转录反应,同时为DNA片段及cDNA标记上该液滴中Gelbead所带有的特定Barcode标签序列。最终构建出如下图所示的两种不同的文库包括单细胞核转录组文库和ATAC的文库:
这两种文库与单独的转录组和ATAC文库无异,仅在ATAC的index序列中增加了8bp的spacer序列。
那么问题来了如何整合这两个组学的数据呢?seurat团队给我们提供了一个有效的算法和思路。
多模态分析(multimodal analysis)就是同时测量单细胞的多模态数据,它代表了单细胞基因组学的一个发展方向,同时也需要基于多种数据类型的新的计算方法来描述细胞状态。文章介绍了“加权最近邻(weighted-nearest neighbor,WNN)”分析:使用一个无监督的框架来学习每个细胞中每种数据类型的相对效用,使多种模式的整合分析成为可能。将文章的算法应用于包含几十万个人类白细胞的CITE-seq数据集以及228个抗体的panel上,以构建一个循环免疫系统的多模态参考图谱。文章表明整合分析大大提高了描述细胞状态的能力,并验证了新的淋巴亚群的存在。此外,文章还演示了如何利用这一参考快速绘制新数据集,并解释免疫接种和COVID-19的免疫反应。
文章概览如下:
对人类免疫系统中丰富多样的细胞类型进行分类鉴定,对单细胞基因组学来说是一个有力的证明,但也展现出了他的局限性。虽然单细胞转录组 (scRNA-seq)能够发现异质组织中的新细胞类型和状态,但单靠转录组学常常无法分离分子上相似但功能上不同的免疫细胞类型。尽管T细胞具有功能多样性,但不同的T细胞群,如效应细胞、调节细胞、细胞内固定细胞和黏膜相关不变T细胞(MAIT),即使使用最敏感和最尖端的技术,通常也不能仅用scRNA-seq有效地分离它们。
多模态单细胞技术,在同一细胞中同时描述多种数据类型,代表了细胞状态发现和鉴定的新前沿。例如,最近引入了CITE-seq,它利用寡核苷酸偶联抗体,通过测序抗体衍生标签(antibody-derived tags ,ADTs),同时量化单细胞内RNA和表面蛋白的丰度。此外,随着技术进步,现在可以在染色质可及性(ATAC)、DNA甲基化、核小体占位(nucleosome occupancy )或空间定位的同时对转录组进行分析。这些方法都提供了一个令人兴奋的解决方案,以克服scRNA-seq固有的局限性,并探索多种细胞模式如何影响细胞状态和功能。
在这里,文章引入了“加权最近邻”(weighted-nearest neighbor,WNN)方法,这是一个分析框架,用于集成细胞内测量的多种数据类型,并获得细胞状态的联合定义。该方法是基于非监督策略来学习细胞特定模态的“权重”,它反映每个模态的信息内容,并确定其在下游分析中的相对重要性。我们证明,WNN分析大大提高了我们定义多种生物数据类型中的细胞状态的能力。我们利用这种方法,基于包含211,000人外周血单核细胞(PBMC)的CITE-seq数据集生成多模式“图谱”,具有可扩展228个抗体的大细胞表面蛋白标记panel。利用这个数据集来识别和验证人类淋巴细胞中的异质细胞状态,并探索人类免疫系统对疫苗接种和SARS-CoV-2感染的反应。WNN在开源R工具包Seurat的更新版本中实现,代表了对单细胞数据进行综合多模态分析的广泛适用的策略。
文章使用脐带血单核细胞的CITE-seq数据和10个免疫标记共检测8617个细胞来进行算法的构建。要整合分析这两种状态的数据,要求分析方法满足以下条件:第一,robust,适应不同模态的数据;第二,能够进行多模态下游分析;第三,多模态比单模态下,性能能强。基于这个数据和要求构建了WNN的算法。如下图所示,在分析转录组时,CD8+和CD4+ T细胞部分混合在一起,但在蛋白数据中清晰分离。相比之下,传统的树突状细胞(cDCs),以及罕见的红系祖细胞和小鼠类3T3对照,在分析RNA时形成不同的簇,但根据表面蛋白丰度显示存在与其他类型的细胞混合。对每个细胞,首先计算每个模态k=20个最近邻的集合,接下来分别对蛋白近邻的分子和RNA近邻的分子表达量求平均值,并将平均值与原始值进行比较。结果显示基于蛋白knn的预测比基于RNA knn的预测更准确。然后利用预测的相对准确性来计算RNA和蛋白质的权重,从而衡量每个细胞中的相对信息。
WNN工作流中,关键的步骤如下:1.获得各模态预测和跨模态预测;2.基于细胞特定带宽核(cell-specific bandwidth kernel)将这些预测转化为预测亲和力;3.使用softmax变换计算模态权重。RNA和蛋白质模态权重是非负的,对每个细胞都是唯一的,总和为1。
最后一步整合并创建一个加权最近邻图(WNN图),基于标准化后的RNA和蛋白质的加权平均值,计算一组新的knn的细胞。计算公式如下图:
验证数据集1:CITE-seq和25中抗体,共检测30672个细胞
该数据集的结果表明WNN的整合大大提高了对细胞状态的注释,相较于单一模态更加精细化,更加完善,例如T细胞组,在scRNA分析中基本被掩盖,但是却有较高的蛋白模态的权重。验证WNN的稳定性时,高斯噪音比重增加时会降低蛋白模态在数据分析中的比重。
验证数据集2:10xGenomic PBMC细胞的ATAC和转录组数据,共检测11351个细胞
该数据集结果表明,模态组合展现了更优秀的免疫亚群的分类,其中ATAC-seq数据更能分离初始CD8 +及CD4 + T细胞状态由于可靠的检测细胞特定类型开放的染色质区域。该算法能够更敏感和强劲捕获异质性,可灵活地应用于多种数据类型,进行综合多模态分析。
验证数据集3:ASAP-seq HumanPBMC细胞的ATAC数据和227个蛋白,共检测4725个细胞
验证数据集4:SHARE-seq 小鼠的皮肤细胞的ATAC数据和转录组数据,共检测34774个细胞
以上两个数据集同样证明了WNN优秀的整合分析的能力,更加的精细化。
文章应用这个分析方法研究了多个主题方向,其中之一就是人类外周血单核细胞的多模态图谱。利用CITE-seq技术以及优化的抗体panel和整合的WNN分析策略,生成人类PBMC的多模态图谱。从8名参与艾滋病毒疫苗试验的志愿者中获得了PBMC样本,年龄跨度20-49岁(中位年龄36.5岁)。每个受试者在三个时间点采集PBMCs:注射HIV疫苗前(第0天)、第3天和第7天。整个数据集由24个样本组成,并使用“Cell hash”来最小化技术批次效应。对于每个样本,我们使用10X Chromium 3 '(使用228 TotalSeq A抗体)对细胞进行分析,总共代表了161,764个细胞(平均8,003个RNA分子/细胞,5,251个ADT/细胞)。并且还使用ECCITE-seq对所有样本中共49,147个细胞进行了分析,该技术可使用10X 5 '技术对表面蛋白进行。虽然后一组实验包含了54种抗体,其中包括实验室偶联抗体和TotalSeq-C试剂,反映了在实验时商业偶联的可用性,但我们也能够对这些细胞进行免疫库图谱分析。经过NovaSeq测序、严格的质量控制和双重过滤(补充方法),我们最终的数据集包含210,911个细胞,并允许我们分析静息(未接种)和激活(接种后)免疫系统的细胞异质性。
该WNN分析中鉴定了57个类群,包括所有主要和次要的免疫细胞类型,并揭示了细胞的多样性,特别是在淋巴细胞中。除了罕见的细胞类型外,每一类群的细胞都来自全部24个样本。我们的聚类可以分为几个大类别,包括CD4 + T细胞(12类),CD8 + T细胞(12类),非传统的T细胞(7类),NK细胞(6类),B细胞,浆细胞和plasmablasts(8类),树突细胞和单核细胞(8类),和罕见的集群造血祖细胞、血小板、红细胞和循环先天淋巴细胞(ILC)。为了更好的解释聚类结果,文章为将细胞进行三个粒度越来越大的注释(级别1,8个类别;第2级,30个类别;3级,57个类别)。虽然在T细胞亚群有较大程度的异质性,我们的分析明确确定异构子集的髓细胞与最近的高分辨率scRNA-seq完全整合分析排序的数量,包括极其罕见的人群(0.02%)定义的树突状细胞表达 AXL 和SIGLEC6。
总之,WNN算法的分析有助于揭示细胞的亚种群差异。虽然我们目前对WNN分析的实现侧重于对两种模式的分析,但随着这些技术的成熟,该框架可以很容易地扩展到处理任意数量的多模态数据。因此,其为综合多模态分析提供了一种途径,可以超越细胞的局部和转录聚焦的观点,并对细胞行为、身份和功能进行统一定义。
[1] Hao Y , Hao S , Andersen-Nissen E , et al. Integrated analysis of multimodal single-cell data[J]. 2021.
[2] https://www.10xgenomics.com/
[3] https://atlas.fredhutch.org/nygc/multimodal-pbmc/
❺ Nature综述:单细胞和空间转录组的数据整合
器官包含了众多类型的细胞,其中不同的细胞在空间上的相互作用,与其功能密切相关。然而,单细胞测序破坏了细胞间的空间关系,而空间转录组并不能区分出特定的细胞。如何将这两类数据整合使用,自然遗传学综述21年6月的论文“整合单细胞和空间转路组数据,来阐述组织空间细胞间动态的论文,概述了相关方法。
空间转录结合单细胞,可应用于对组织内稳态,组织发育,疾病微环境,肿瘤和免疫细胞组织的微环境中,不同类型的细胞如何在空间互作的研究。
该类研究的步骤是,先对不同类型的细胞测序后进行聚类,之后通过空间标记及染色切片,拿到空间的转录信息,之后对空间中的每个方格进行细胞类型判别,得出图d中,两种细胞间相互作用的,关于配体受体相互作用的发现,即绿色的细胞和红色的细胞相邻,而红色的蓝色的细胞不相邻,故其中没有相互作用。
具体的研究步骤,首先是选出研究的关注点,之后对组织样本进行切片,通过空间标记和单细胞测序,找出高分辨率RNA探针的影像(HPRI),之后对方格进行细胞类型判别,识别出组织间的分界线,之后对细胞间的交互进行分析。
单细胞和空间转录数据的结合算法,可以分为三类。
第一类是逆卷积Deconvolution ,其输入是单细胞数据和空间标记(barcoding)得到的空间转路组数据,输出是每个方格内,不同细胞类型所占的比例及每类细胞个数,该类方法包括SPOTlight,SpatialDWLS,stereoscope,Robust cell-type decomposition及cell2location。
Deconvolution 式整合的示意图
第二类方法映射 ,是对探针得出的某部分组织的转录本数据(HPRI),根据和单细胞数据进行共聚类或最近邻回归,得到某个区域中最可能的细胞类型或不同细胞类型的概率饼图,该类方法包括pciSeq,Harmony,LIGER,Seurat等。
映射法整合空间转录和单细胞的方法示意图
逆转录和映射这两种方法之间,并不存在清晰的分界线。前者分别关注每个空间中方格的情况,后者则是全局的进行分析。从使用的统计模型,可以将单细胞和空间转录整合的方法,分为以下四种,分别是,基于回归的,基于概率模型店,通过相对聚集程度计算得分的,基于后聚类的方法,每种方法越来越倚重整个切片的全局信息,而不是对每个方格进行独立地判定。
四种统计模型及其和前述的两类方法的对应关系
而第三类方法,可以直接完成空间上的配体受体相互作用分析 ,例如Fawkner Corbett 等 在2021年提出的方法,可以使用barcoding空间转录组和单细胞数据,算出相邻的以及单个方格内部,一对指定细胞间,是否存在相互通讯的P值和相关系数;Giotto则是根据HPRI或barcoding数据,得出每对不同类型的细胞间相互通讯的分值。SpaOTsc则是得出二维或三维的细胞间通讯地图,而SVCA(空间差异成分分析),则可量化的估计空间上的表达量差异,有多少比例可以被细胞间的互作解释。
在判定细胞间的相互作用是否存在时,具体的机制分为两种,首先是下图A中描述的,相邻的细胞间存在相互作用,而图B描述的,则是对于空间上不相邻的两类细胞,如果一个细胞表达了另一个细胞所需的目标基因,那么也可以判定这两类细胞间存在着相互通信。最下方的图,则说明只基于单细胞数据,可以根据表达的基因判定两类细胞间,并不存在相互通信,但空间组数据的引入,可以预测细胞间通信的最长可能距离,并发现之前根据染色数据得出的,空间上能够相互交流的细胞可位于的最远的距离其实比实际距离要低。
该研究的未来方向,一是关注多个切片放映的组织学特征,而不仅仅是单张切片上细胞间的相互交流,例如 ST-Net,可以根据102个基因的空间变化,通过深度学习识别组织层面的相互作用;二是临床上的应用,例如对肿瘤及神经退行性疾病发展过程中,不同类型细胞发挥的作用的研究。