Bioops

Bioinformatics=(ACGAAG->AK)+(#!/bin/sh)+(P(A|B)=P(B|A)*P(A)/P(B))

上了火的RNA-seq

| Comments

Nature News今天的一篇评论,说是现在越来越多人使用高通量的RNA数据,但忽略了统计分析的严密性和重要性,而得到了一些值得怀疑的结论。

举了两个例子。

第一个,2010年,Harvard的Catherine DulacChristopher Gregg在Science上发了一篇文章,号称1300多个小鼠的基因都属于烙印基因(imprinted gene:两个等位基因,一个表达一个沉默)。但是Standford的Tomas Babak用同样的数据得到了不同的结果,并于2012年3月将其分析结果发表在PLoS  Genetics上。Babak认为原文章所用的统计方法会有很高的假阳性。

另一个例子就是前段时间引起巨大争议的关于RNA编辑广泛存在的那篇文章。后来又有多篇评论发表在Science上,强烈置疑该文章分析方法的可靠性。

造成这种争议的原因是什么呢?

一是RNA-Seq还没有像DNA测序一样建立起一个标准化的、错误偏差少的分析方法。

二是这些文章一般号称在生物学上某一点上取得了突破,所以一般是搞生物的来审核,缺少搞数学和统计的人把关。

个人觉得:很少有懂统计的人把生物理解的很清楚,更少有搞生物的把统计学好的,现在生物大数据时代,都需要补补课了。这两篇文章因为是有了“突破性的发现”,所以很多双眼睛在盯着,引起了怀疑。至于其他灌水文章,也不知道能有多少篇把统计方法用对的。这算是方法论的问题,只要提出来了,多探索一般能有个定论。更可怕的是搞科研的为了发文章,不惜更改数据或忽略负面数据,前几天不是有人抱怨癌症治疗的研究大部分都是在骗人么?!

希望以后有所改观,至少做到自重吧。

Comments