Protected: 与妻书

May 19th, 2012 Enter your password to view comments.

This post is password protected. To view it please enter your password below:


Categories: Life Tags:

String-graph based next-generation sequencing assemblers

May 8th, 2012 No comments

Please read this article or the following linked papers for the reason using string-graph algorithm.

Readjoiner (Gonnella and Kurtz 2012) Readjoiner is a sequence assembler based on the assembly string graph framework (Myers 2005). It is faster and uses less memory than previous string graph-based assemblers.

SGA (Simpson and Durbin 2012) SGA is a de novo genome assembler based on the concept of string graphs. The major goal of SGA is to be very memory efficient, which is achieved by using a compressed representation of DNA sequence reads.

Edena (Hernandez et al 2008) The program is under development. Edena is based on the classical overlap layout assembly framework. In addition, it includes two features to improve the assembly of very short sequences: exact matching and detection of spurious reads.

LEAP (Dinh and Rajasekaran 2011) LEAP incorporates a memory-efficient data structure for the overlap graph. This data structure requires only linear time to construct and and linear memory to store.

Categories: NGS Tags: , ,

Nature: 染色体镶嵌性、年龄和癌症之间的关系

May 8th, 2012 No comments

5月6日的Nature同时发布了两篇研究方向非常相似的论文,揭示了染色体镶嵌性会随着年龄的增长而增加,并与癌症发生有一定关联。

一篇National Cancer Institute (NCI)Stephen Chanock领导完成。将 31,717个癌症患者和26,136健康人血液或口腔拭子的SNP芯片数据分析比较。健康人中染色体复制异常的比率随着年龄而增长,50岁以下0.23%,到了70多岁就飙到了1.91%。平均下来,癌症患者中染色体复制异常的比率比健康者高一些(0.97% VS 0.74%)。有些白血病患者被诊断出来前一年的血液样本中的染色体复制异常也比健康人普遍。

另一篇来自Gene Environment Association Studies Consortium (GENEVA)。他们分析了超5万人血液样本的SNP芯片数据,发现50岁以下人的基因组样本中,复制异常低于0.5%,而在50岁之后的人中迅速增长至2–3%。有很多复制异常都在以前发现的和血液癌症有关的位点上。虽然这些有“污点记录”的位点只占所发现的异常位点的3%,统计学分析表明,有复制异常的人得血液癌症的概率是正常人的十倍。

笔记:上面涉及到一些概率,我没仔细看文章,可能理解有错。人体细胞复制不可靠。年老的人更容易得癌症。50岁是个坎儿。生孩子要趁早。

Categories: News, Paper Tags: , ,

上了火的RNA-seq

April 25th, 2012 2 comments

Nature News今天的一篇评论,说是现在越来越多人使用高通量的RNA数据,但忽略了统计分析的严密性和重要性,而得到了一些值得怀疑的结论。

举了两个例子。

第一个,2010年,Harvard的Catherine DulacChristopher Gregg在Science上发了一篇文章,号称1300多个小鼠的基因都属于烙印基因(imprinted gene:两个等位基因,一个表达一个沉默)。但是Standford的Tomas Babak用同样的数据得到了不同的结果,并于2012年3月将其分析结果发表在PLoS  Genetics上。Babak认为原文章所用的统计方法会有很高的假阳性。

另一个例子就是前段时间引起巨大争议的关于RNA编辑广泛存在的那篇文章。后来又有多篇评论发表在Science上,强烈置疑该文章分析方法的可靠性。

造成这种争议的原因是什么呢?

一是RNA-Seq还没有像DNA测序一样建立起一个标准化的、错误偏差少的分析方法。

二是这些文章一般号称在生物学上某一点上取得了突破,所以一般是搞生物的来审核,缺少搞数学和统计的人把关。

个人觉得:很少有懂统计的人把生物理解的很清楚,更少有搞生物的把统计学好的,现在生物大数据时代,都需要补补课了。这两篇文章因为是有了“突破性的发现”,所以很多双眼睛在盯着,引起了怀疑。至于其他灌水文章,也不知道能有多少篇把统计方法用对的。这算是方法论的问题,只要提出来了,多探索一般能有个定论。更可怕的是搞科研的为了发文章,不惜更改数据或忽略负面数据,前几天不是有人抱怨癌症治疗的研究大部分都是在骗人么?!

希望以后有所改观,至少做到自重吧。

Categories: News, NGS Tags: , , ,

真核基因组注释

April 23rd, 2012 No comments

测一个未知基因组(de nove sequence),要进行测序、拼接及注释。关于测序仪和拼接软件已经讲的很多了,很少有关于基因组注释的文章。一篇最近在Nature Review Genetics上的文章,A beginner’s guide to eukaryotic genome annotation,非常详细地讲解了如何做基因组注释,是一篇非常好的入门文章。

基因组拼接好后,一般要先进行重复序列的检测和注释,然后mask掉这些重复序列,再进行编码基因的预测(有时候也预测非编码RNA),最后一步是整合。因为要通过不同的方法和参考来源来预测,会得到不同的结果,整合时综合考虑预测错误和可变剪接,得到可靠的注释,这一步要一个个手工检测。

有很多软件可以做注释(可见文章内的列表),主要分为ab initio和evidence-driven两种预测方法。

现在RNA-seq技术也很成熟了,一般都是在测基因组时也要做RNA-seq,这些RNA-seq既可用于分析基因的表达,也是非常好的基因注释的参考资源。

Categories: NGS Tags: , , ,