搞懂geo芯片数据归一化，别再让批次效应毁了你的实验结果-iida888 智创

做生物信息分析这几年，见过太多人栽在数据预处理上。特别是刚接触geo芯片数据归一化的朋友，拿到一堆raw数据，看着密密麻麻的数字头都大了。很多人第一反应是跑个标准化流程，然后直接做差异分析，结果发现p值好看，但生物学意义全是噪音。这就像你炒菜，盐放多了没尝出来，直接端给客人，客人吃一口吐出来，你还觉得委屈。今天不扯那些高深的数学公式，就聊聊怎么把这一堆乱码变成能用的数据。

第一步，下载数据要细心。很多人去GEO数据库下载，直接点Series Matrix Files，觉得省事。其实对于芯片数据，最好去下载CEL文件。为啥？因为Matrix文件有时候是别人处理过的，你拿过来可能已经归一化过了，或者处理得不符合你的需求。自己去下CEL文件，虽然文件大点，但掌握主动权。下载完别急着解压，先看看样本信息，把对照组和实验组分清楚，这一步错了，后面全白搭。

第二步，背景校正和归一化。这是最关键的环节。对于Affymetrix芯片，我推荐用R语言里的affy包或者oligo包。别用那些在线工具，不稳定还容易出错。用RMA算法吧，虽然它默认做了分位数归一化，但对于大多数情况足够用了。如果你发现有些样本离群特别严重，别犹豫，直接剔除。别想着用算法去“修正”它，有时候离群样本就是实验做砸了，硬拉进来只会污染整个数据集。这里要注意，geo芯片数据归一化的核心目的是消除技术误差，而不是掩盖生物学差异。

第三步，探针映射到基因。这一步很多人忽略，或者随便选一个映射表。千万别这么干。芯片上的探针可能对应多个基因，或者一个基因有多个探针。你要选表达量最高、或者最稳定的那个探针代表这个基因。如果某个基因在所有样本里都检测不到信号，那就删掉。别留着占地方，后面分析的时候看着心烦。这时候你会发现数据量小了很多，别慌，这是正常的，干净的数据比海量垃圾数据有用得多。

第四步，检查批次效应。这是个大坑。如果你用的数据来自不同时间、不同实验室，甚至不同操作员，那批次效应肯定存在。用PCA图看看，如果样本不是按分组聚类，而是按批次聚类，那你得小心了。这时候要用ComBat或者limma里的removeBatchEffect函数。但记住，只有在确认是技术因素导致的批次差异时才用，如果是生物学因素，强行去除会丢失真实信息。这一步做不好，后面的差异分析就是耍流氓。

第五步，可视化验证。别急着做差异分析，先画个箱线图或者密度图。看看各个样本的分布是否一致。如果有的样本分布明显偏左或偏右，说明归一化可能没做好，或者样本有问题。这时候回头检查前面的步骤。别嫌麻烦，这一步能省你后面几十个小时的调试时间。

我有个学生，之前做实验，数据跑出来差异基因几百个，看着挺热闹。结果我让他画个PCA图，发现所有样本都混在一起，根本分不开。后来发现是他在下载数据时，把不同平台的探针混在一起分析了，根本没做正确的映射和归一化。折腾了半个月，最后推倒重来。所以，geo芯片数据归一化不是简单的点击运行，而是要理解每一步背后的意义。

最后，保存中间结果。别每次重新跑一遍，太浪费时间。把背景校正后的数据、归一化后的数据、映射后的数据都保存下来。万一后面发现哪里不对，可以回溯。数据分析就像做饭，备菜、切菜、炒菜，每一步都要留好后路。

总之，做geo芯片数据归一化没有捷径，就是细心加耐心。别指望一个脚本解决所有问题，多看看数据，多问问自己，这数据合理吗？别被工具牵着鼻子走。数据是死的，人是活的，只有你理解了数据，数据才能为你所用。