Nature News今天的一篇评论,说是现在越来越多人使用高通量的RNA数据,但忽略了统计分析的严密性和重要性,而得到了一些值得怀疑的结论。
举了两个例子。
第一个,2010年,Harvard的Catherine Dulac和Christopher Gregg在Science上发了一篇文章,号称1300多个小鼠的基因都属于烙印基因(imprinted gene:两个等位基因,一个表达一个沉默)。但是Standford的Tomas Babak用同样的数据得到了不同的结果,并于2012年3月将其分析结果发表在PLoS Genetics上。Babak认为原文章所用的统计方法会有很高的假阳性。
另一个例子就是前段时间引起巨大争议的关于RNA编辑广泛存在的那篇文章。后来又有多篇评论发表在Science上,强烈置疑该文章分析方法的可靠性。
造成这种争议的原因是什么呢?
一是RNA-Seq还没有像DNA测序一样建立起一个标准化的、错误偏差少的分析方法。
二是这些文章一般号称在生物学上某一点上取得了突破,所以一般是搞生物的来审核,缺少搞数学和统计的人把关。
个人觉得:很少有懂统计的人把生物理解的很清楚,更少有搞生物的把统计学好的,现在生物大数据时代,都需要补补课了。这两篇文章因为是有了“突破性的发现”,所以很多双眼睛在盯着,引起了怀疑。至于其他灌水文章,也不知道能有多少篇把统计方法用对的。这算是方法论的问题,只要提出来了,多探索一般能有个定论。更可怕的是搞科研的为了发文章,不惜更改数据或忽略负面数据,前几天不是有人抱怨癌症治疗的研究大部分都是在骗人么?!
希望以后有所改观,至少做到自重吧。