单细胞RNA系列专题之一：单细胞RNA测序中质控之重要细节（上篇）

如题所述

第1个回答 2022-07-10

单细胞RNA测序是目前的一大热门。通过单细胞RNA测序，能够带给我们原来 bulk RNA （群体RNA）测序所得不到的信息，对于研究发育生物学、肿瘤生物学、免疫等有着极其重要的价值。单细胞测序的核心就是T-sne降维，以及聚类。那么在做这些工作之前的质控，会影响到整个分析的成败。这篇文章我就来给大家讲讲单细胞质控的那些事儿。

首先，我们介绍转录表达中的一个现象：transcriptional bursting。什么叫做trancriptional bursting? 如下图：

我们都知道，基因的转录和表达是有周期性的。当基因的转录被激活时，mRNA的水平会突然上升，然后慢慢下降，而相应的蛋白水平的变化会有一定的滞后。

这种周期的频率，以及每次波动的大小，在RNA分析中都会影响最终的表达量（可以是FPKM值、RPKM值）。这种周期性的转录现象，就是同transcriptional bursting有关。

我们在分析RNA表达量的时候，会发现这样一个现象，很多重要转录调控因子的FPKM值往往比较低。推测可能他们只在某一特定的时间段在特定的细胞中表达。

最终，我们拿到的结果可能就与实际情况出入很大，如下图所示。

我们来看看单细胞实验的整体流程如下图，分析一下哪些环节会带来偏好性，以及如何发现和质控。

我们在做单细胞测序的时候，首先要做细胞分离。细胞分离必须要在短时间内完成，否则会影响到细胞的状态，甚至可能导致RNA从细胞中漏出。

从组织中分离出细胞往往很困难，具体方法可以参考《Tissue Handling and Dissociation for Single-Cell RNA-Seq》这本书。这里总结一下从组织中分离出单细胞可能遇到的问题：

在a图和b图中，一些高表达的基因被证明是由细胞分离的操作引起的。(van den Brink et al. Nature methods 2017)。

在细胞分离的过程中可能存在着污染。如图所示，在day3的样本中都存在着Neutrophil细胞的marker基因的表达。这有可能就是样本中存在着RNA的污染。

解决的方法就是利用空的droplets 来估计背景信号，利用软件SoupX来移除背景噪音（Young MD, BiorXiv 2018）。

我们在做细胞分选的过程中还会遇到如下的问题：

对于不同的单细胞测序的策略总结如下。因此，对于自己研究的组织应该采用什么样的单细胞策略，需要十分慎重。

另外，细胞质量比较差、亦或有很多死细胞或者细胞碎片的话，也会造成有很多droplet中存在多个细胞。如下图所示：有三个冻存样本有很高比列的droplet存在多个细胞。

在实际进行数据分析的过程中，这些droplet有可能会被单独聚为一类，也有可能会富集在两个细胞群的中间区域。

我们通过如下情况来判断是否存在douplet(含有多个细胞的液滴):

目前，有一系列的软件可以帮助我们筛选到doublet，例如：

检测doublet的软件算法都非常类似，基本的原理非常简单，有下面几个步骤：

在做单细胞测序的之前，需要对细胞进行裂解。不同的细胞组织，裂解条件也会不一样。如果裂解条件过于严格，就会影响文库制备。

构建文库同时加入浓度已知的spike-in，其中包括：

Spike-ins 的用途
1.去除技术噪音
2.检测捕获效率
3.计算RNA的起始量
4.数据的normalization

Spike-ins的问题
1.Spike-ins与内源基因还是有区别的，如在扩增偏好性方面
2.一般不用于drop-seq

sample Multiplexing（请参考以下网址）很多时候并不好用。每个细胞的total reads依旧会有很大的区别。
https://emea.illumina.com/science/technology/next-generation-sequencing/plan-experiments/multiplex-sequencing.html

测序过程也有可能受到很多因素的影响：
1.文库复杂性太低，容易形成primer dimer
2.污染问题，请参考：
https://www.illumina.com/science/education/minimizing-index-hopping.html )

本次的分享就到这里，相信大家对整体的实验有了一定了解。下一篇我们继续讲解质控方面的细节。

相似回答

大家正在搜

单细胞RNA系列专题之一：单细胞RNA测序中质控之重要细节 （上篇）

单细胞RNA系列专题之一：单细胞RNA测序中质控之重要细节（上篇）