单细胞RNA系列专题之一:单细胞RNA测序中质控之重要细节 (上篇)

如题所述

第1个回答  2022-07-10

单细胞RNA测序是目前的一大热门。通过单细胞RNA测序,能够带给我们原来 bulk RNA (群体RNA)测序所得不到的信息,对于研究发育生物学、肿瘤生物学、免疫等有着极其重要的价值。单细胞测序的核心就是T-sne降维,以及聚类。那么在做这些工作之前的质控,会影响到整个分析的成败。这篇文章我就来给大家讲讲单细胞质控的那些事儿。

首先,我们介绍转录表达中的一个现象:transcriptional bursting。什么叫做trancriptional bursting? 如下图:

我们都知道,基因的转录和表达是有周期性的。当基因的转录被激活时,mRNA的水平会突然上升,然后慢慢下降,而相应的蛋白水平的变化会有一定的滞后。

这种周期的频率,以及每次波动的大小,在RNA分析中都会影响最终的表达量(可以是FPKM值、RPKM值)。这种周期性的转录现象,就是同transcriptional bursting有关。

我们在分析RNA表达量的时候,会发现这样一个现象,很多重要转录调控因子的FPKM值往往比较低。推测可能他们只在某一特定的时间段在特定的细胞中表达。

最终,我们拿到的结果可能就与实际情况出入很大,如下图所示。

我们来看看单细胞实验的整体流程如下图,分析一下哪些环节会带来偏好性,以及如何发现和质控 。

我们在做单细胞测序的时候,首先要做细胞分离。细胞分离必须要在短时间内完成,否则会影响到细胞的状态,甚至可能导致RNA从细胞中漏出。

从组织中分离出细胞往往很困难,具体方法可以参考《Tissue Handling and Dissociation for Single-Cell RNA-Seq》这本书。这里总结一下从组织中分离出单细胞可能遇到的问题:

在a图和b图中,一些高表达的基因被证明是由细胞分离的操作引起的。(van den Brink et al. Nature methods 2017)。

在细胞分离的过程中可能存在着污染。如图所示,在day3的样本中都存在着Neutrophil细胞的marker基因的表达。这有可能就是样本中存在着RNA的污染。

解决的方法就是利用空的droplets 来估计背景信号,利用软件SoupX来移除背景噪音(Young MD, BiorXiv 2018)。

我们在做细胞分选的过程中还会遇到如下的问题:

对于不同的单细胞测序的策略总结如下。因此,对于自己研究的组织应该采用什么样的单细胞策略,需要十分慎重。

另外,细胞质量比较差、亦或有很多死细胞或者细胞碎片的话,也会造成有很多droplet中存在多个细胞。如下图所示:有三个冻存样本有很高比列的droplet存在多个细胞。

在实际进行数据分析的过程中,这些droplet有可能会被单独聚为一类,也有可能会富集在两个细胞群的中间区域。

我们通过如下情况来判断是否存在douplet(含有多个细胞的液滴):

目前,有一系列的软件可以帮助我们筛选到doublet,例如:

检测doublet的软件算法都非常类似,基本的原理非常简单,有下面几个步骤:

在做单细胞测序的之前,需要对细胞进行裂解。不同的细胞组织,裂解条件也会不一样。如果裂解条件过于严格,就会影响文库制备。

构建文库同时加入浓度已知的spike-in,其中包括:

Spike-ins 的用途
1.去除技术噪音
2.检测捕获效率
3.计算RNA的起始量
4.数据的normalization

Spike-ins的问题
1.Spike-ins与内源基因还是有区别的,如在扩增偏好性方面
2.一般不用于drop-seq

sample Multiplexing(请参考以下网址) 很多时候并不好用。每个细胞的total reads依旧会有很大的区别。
https://emea.illumina.com/science/technology/next-generation-sequencing/plan-experiments/multiplex-sequencing.html

测序过程也有可能受到很多因素的影响:
1.文库复杂性太低,容易形成primer dimer
2.污染问题,请参考:
https://www.illumina.com/science/education/minimizing-index-hopping.html )

本次的分享就到这里,相信大家对整体的实验有了一定了解。下一篇我们继续讲解质控方面的细节。

相似回答
大家正在搜