GEO/TCGA数据是否需要标准化的问题

如题所述

第1个回答  2022-06-19
GEO中的Series Matrix File(s)通常是经过了标准化和对数转换的数据,但是不是所有的都是

可以通过boxplot函数观察一下样本表达丰度值的分布是否整齐进行判断

如果表达丰度的数值在50以内,通常是经过log2转化的。如果数字在几百几千,则是未经转化的。

芯片数据标准化:

对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)

aw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是基因长度、测序深度不同不可以比较。所以我们要进行标准化把count矩阵转变为相对值,去除基因长度、测序深度的影响,我们采用分析的

RPM (Reads per million mapped reads):RPM方法:10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。

RPKM/FPKM方法:10 3标准化了基因长度的影响,10 6标准化了测序深度的影响。TCGA的数据分析多采用这种结果

TPM (Transcript per million):TPM的计算方法也同RPKM/FPKM类似,TPM可以看作是RPKM/FPKM值的百分比。TPM实际上改进了RPKM/FPKM方法在跨样品间定量的不准确性。TPM的使用范围与RPKM/FPKM相同。

具体还可参考生信技能树老师此文
RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同: https://cloud.tencent.com/developer/article/1484078