GEO下载的矩阵数据如何归一化：踩坑无数后的血泪总结-iida888 智创

GEO下载的矩阵数据如何归一化

做生信分析这几年，我见过太多新手在数据预处理这一步直接卡死。不是代码报错，就是结果出来全是噪点，根本没法做后续的差异表达分析。今天不整那些虚头巴脑的理论，直接聊聊我在实际项目中处理GEO数据时遇到的那些坑，以及我是怎么一步步把数据清洗干净的。

很多人一拿到GEO的数据，急着跑流程，结果发现不同样本间的表达量差异巨大，有的样本均值是1000，有的才100。这正常吗？太正常了。因为测序深度不同，文库大小不一样，直接拿原始计数值（Raw Counts）去比较，简直就是耍流氓。这时候你就得问自己，GEO下载的矩阵数据如何归一化才能消除这些技术偏差？

我手头有个真实的案例，是一个关于乳腺癌的研究，GSE编号记不清了，反正数据量不小。当时我下载下来的矩阵，里面混着一些低表达的基因，还有几个样本的测序深度明显偏低。如果直接做PCA，这几个低深度样本会把自己和其他样本拉开巨大的距离，导致聚类完全错误。

我的处理步骤大概是这样的。第一步，过滤。别舍不得，那些在所有样本里表达量都接近于0的基因，直接扔了。它们不仅没信息量，还会增加计算负担。我用的是limma包里的filterByExpr函数，这个比手动设阈值靠谱多了。

第二步，标准化。这里有个误区，很多人觉得TPM或者FPKM就够了。但在做差异表达分析时，尤其是用DESeq2或者edgeR这些工具时，它们内部有自己强大的标准化算法（比如Median of Ratios）。所以，如果你用的是这些工具，千万别提前做TPM转换，否则反而会把数据搞乱。但如果你是用limma-voom或者想直接看表达量分布，那RMA标准化或者log2转换是必须的。

我有一次因为偷懒，没做log2转换，直接拿原始数据跑聚类，结果那个热图红红绿绿一片，根本看不出任何生物学意义。后来加了log2(1+x)转换，世界瞬间清净了。注意，这里加1是为了避免log(0)的错误，虽然这会在数学上引入一点点偏差，但在高表达基因中这个偏差可以忽略不计。

再说说那个让人头疼的批次效应。有时候你从GEO下载的数据，可能来自不同的平台，或者不同的实验室。这时候，GEO下载的矩阵数据如何归一化就显得尤为关键。我通常用ComBat函数来校正批次效应。但这玩意儿也得小心用，你得先确定批次信息，别把生物学分组当成批次给校正没了。

记得有一次，我把一个重要的亚型给“校正”没了，后来复查才发现，那是真正的生物学差异，不是技术噪音。所以，校正前一定要画个PCA图看看，确认哪些是批次，哪些是信号。

还有个细节，就是缺失值。GEO的数据有时候会有NA。别直接删行，那样样本量会少很多。我用的是KNN填补法，或者简单的中位数填补。对于大多数情况，中位数填补已经够用了，除非你的缺失率特别高，那可能就得考虑这个样本是不是该扔了。

最后，我想说，没有一种方法是万能的。你得根据你的下游分析目的来选择。如果是做WGCNA，那可能需要更严格的标准化；如果是做简单的差异分析，DESeq2自带的标准化就很好用。

别怕犯错，我在第一次独立分析时，把正负链搞反了，结果所有的基因都表达反了，查了三天才查出来。所以，每一步都要检查，画图检查，统计检查。

如果你还在为数据预处理头疼，或者不确定自己的标准化方法对不对，欢迎随时来聊聊。别一个人死磕，有时候旁观者一眼就能看出你的逻辑漏洞。

本文关键词：GEO下载的矩阵数据如何归一化