我打算做一个RNA-seq项目,研究一株细菌在两个环境条件下的表达差异。现在,我打算确定生物学重复的个数,以便可以得到统计学上有意义的结果。我打算每个环境的样本设置两个生物学重复,而不打算测更多重复。请问,两个重复的设置是否合理?
1.如果是我的话,我会选择设置三个生物学重复。要知道两个生物学重复意味着双倍的工作量但没有双倍的效果。如果做两个生物学重复,你会引入无法校正的噪音。如果两个重复结果一样,那能说明问题,但如果不一样,你就解释不了了。如果样品制备不是非常难,经费不是非常有限,我建议还是设置3个生物学重复吧。
2.这是个有意思的问题,从统计学的角度来说
排除生物学意义,从统计学的角度来说,不同的统计方法,对生物学重复的个数的要求并不相同。
如果使用T检验,你应该设置尽可能多的生物学重复,建议至少3个重复。当然T检验的方法,在RNA-seq的差异分析里不是很合理。因为RNA-seq的误差分布,并不符合正态分布。
如果你选择的统计模型是Fisher 精Que检验类的统计模型(包括超几何分布或泊松分布),即使没有生物重复也是可以进行统计的。当然,没有生物学重复只是在统计学上可行,但实际上无算估算生物差异或实验误差带来的系统误差。所以,这样的策略现在发表论文的话,可能会被质疑的。
如果你选择一些软件,例如Deseq这样的软件,一般也要求2个以上的生物学重复。
这个是非常有意思的问题,我提供的建议非常有限,期望其他人有更好的回答。
“虎式坦克”的回答不错。关于生物学重复与统计的关系,我补充一下。在我们的测序样本中,每一个基因表达量的方差包含两个方面的内容:
1)处理方差,就是我们的实验处理导致的差异,这些差异当然就是我们关注的;
2)误差方差,就是与我们实验处理无关的差异,例如,生物个体间的差异,实验技术不稳定导致的偏差等。误差方差并非我们关注的,但这些差异会引入假阳性。
所以生物学重复的价值在于帮助我们估算误差方差的大小,从而我们可以从总体方差中剔除误差方差的影响。
以上的内容,就是生物统计学中“方差分析”所讲的内容。其实RNA-seq差异分析的主体思路和方差分析基本相同,只是把误差分布的假设从方差分析的正态分布,替换为了其他更合理的分布,例如负二项分布。 那么,生物学重复在这里的意义就是用于计算误差方差的大小。因为生物学重复间不存在处理效应,任何差异都属于误差方差的范畴。
但还需要补充一点,由于我们大部分二代测序只有2~3个生物学重复。这么少的重复数,正确预估每个基因误差方差其实是不够的(也就是单个基因的方差估计很不稳定)。所以,一般的差异表达分析软件(例如,Deseq,edgerR)使用了一个代偿的方法。这个方法假设:对于表达量相似的基因,其误差方差也应该是相似的。所以在Deseq里面,会使用所有基因的方差获得拟合曲线,来获得不同表达量的基因的期望方差(如下图)。在重复数比较少的情况下,拟合得到的期望方差理论上会比单个基因的估算更准。
回答完统计学角度的问题,我们再从生物学试验设计的角度来考虑重复数设置的问题。我们一般会建议老师测3个生物学重复,除了统计角度的考虑,还有考虑试验的意外因素。如果测两个重复,而其中一个样本发现有问题而需要被剔除,就会导致这组数据将非常不可信。但如果我们有三个重复,剔除一个样本后,依然留有两个样本,保证这组数据依然是有重复的。
我认为从统计的角度,4个重复是理想的。当然,从费用的角度来说,目前依然是太贵了。随着测序价格不断下降,重复的设置应该会慢慢提高的。