实验记录3:用R包Seurat进行QC、PCA分析与t-SNE聚类

如题所述

第1个回答  2022-07-08

参考网站: https://satijalab.org/seurat/pbmc3k_tutorial.html
(注意!!!现在这个网站会自动跳转到3.0版本)
Seurat的安装:R中运行install.packages("Seurat")

经过Cellranger的数据整理之后,得到:

Seurat是一种R包,设计用于QC,分析和探索单细胞RNA-seq数据。 Seurat旨在使用户能够从单细胞转录组测量中识别和解释异质性来源,并整合不同类型的单细胞数据。

运行R,并且加载这两个包

读取数据

原始数据的 基因数为33694,细胞数为1960.

比较普通与疏松矩阵的内存使用:

初始化Seurat对象:
命令 CreateSeuratObject
输入数据spleen.data
留下所有在>=3个细胞中表达的基因min.cells = 3;
留下所有检测到>=200个基因的细胞min.genes = 200。
(为了除去一些质量差的细胞)

剩下15655 基因和 1959 个细胞

以下步骤包括Seurat中scRNA-seq数据的标准预处理工作流程。这些代表了Seurat对象的创建,基于QC指标的细胞选择和过滤,数据标准化和缩放,以及高度可变基因的检测。

过滤细胞,根据上面的两幅图,去除异常值,这里选择基因数从300-5000,线粒体基因占比大于0.1的细胞。(主要看小提琴图1和图3)

查看过滤掉剩下多少细胞:

剩下15655个基因,1940个细胞。

加个log:

您的单细胞数据集可能包含“不感兴趣”的变异来源。这不仅包括 技术噪音 ,还包括 批次效应 ,甚至包括生物变异来源(细胞周期阶段)。正如(Buettner, et al NBT,2015)中所建议的那样,从分析中回归这些信号可以改善下游维数减少和聚类。为了减轻这些信号的影响,Seurat构建线性模型以基于用户定义的变量预测基因表达。这些模型的缩放得分残差存储在Scale.data槽中,用于降维和聚类。

我们可以消除由批次(如果适用)驱动的基因表达中的细胞 - 细胞变异,细胞比对率(由Drop-seq数据的Drop-seq工具提供),检测到的分子数量和线粒体基因表达。对于循环细胞,我们还可以学习“细胞周期”评分(参见此处的示例)并对其进行回归。在这个有丝分裂后血细胞的简单例子中,我们回归了每个细胞检测到的分子数量以及线粒体基因含量百分比。

主成分分析是什么?

将数据集降维,利用低阶的变量去反应整体的结果。

选择了前10个PC成分

将R变量保存,利于后续的分析。

一些补充:
过滤低质量细胞:
在 scRNA-seq 分析中,有些细胞质量比较低,比如细胞处于凋亡状态,细胞中 RNA 发生降解等,这些细胞的存在会影响分析,因此我们第一步需要对细胞进行过滤。主要可分为三类:

①利用细胞检测到的基因数或者是 reads 比对率来判断技术噪音。
但不管是基因检测数目还是比对率都跟实验方法有很大相关性。 如果 比对率太低,表明 RNA 可能发生了降解,或者文库有污染或者细胞裂解不完全

②如果实验中加入了 spike-ins(本实验没有),可以通过计算比对到内源性 RNA 和外源性 RNA(spike-ins)的 reads 比例来过滤低质量细胞。
比值偏低表明细胞中的 RNA 数量较低,细胞可丢弃。但是也需要注意其实当细胞状态不一样,比如处于不同细胞周期时,细胞的 RNA 数量是具有很大差异的。不过我们依然认为在一大群细胞中,spike-ins比例特别高的细胞在很大概率上应该被排除在外。软件 SinQC (Single-cell RNA-seq Quality Control)可以根据比对率和检测到的基因数来过滤细胞。

③根据整体的基因表达谱来定义技术噪音。
比如对细胞进行聚类分析,PCA 分析等,将 outlier 细胞删除,或者细胞表达中位值低于某一设定阈值时将该细胞过滤掉。当然这种方法也存在误删具有真正生物学差异的细胞,因此在删除细胞时需要小心,可与上述另外两种方法连用。

如果你的数据量过大,使用Seurat时内存不足,请看
实验记录11:海量scRNA-seq数据的质量控制、PCA、聚类