在二代测序之前,生物学家处理的生物数据大多数可以通过手工完成。因为数据量不大,所以都能在文献中附上自己用到的序列,NCBI也会每年出几本纸质版的数据集合。
但是二代测序之后,一切都改变了。原先可能只需要将1000多条序列与基因组比对,而现在却要将成千上亿序列比对到参考序列上。处理这类生物大数据,对计算机性能和软件算法都是一种挑战。
在目前高通量测序领域,根据测序的文库类型,可以分为DNA-Seq,RNA-Seq,ChIP-Seq等。DNA-Seq又可以继续分为全基因组测序(WGS),全外显子测序(WES),简化基因组测序()如RAD-Seq)。 RNA-Seq也可以继续分为mRNA-Seq, lncRNA-Seq等。目前比较火的单细胞序(single-cell Sequencing),则是各种测序在单个细胞水平上的操作。
刚进入这个领域,你一定会迷惘,不知所措,到底要学哪一个? 我的建议是学习RNA-Seq,尤其是差异基因座表达分析这一部分。因为在这个方面,体系趋于成熟,大部分问题都能通过搜索引擎得到解答。因此我根据自己的学习感悟,将RNA-Seq 差异基因表达分析流程分为8步进行介绍,从环境准备开始,到从文献中下载数据,还有下载参考基因组和注释信息,接着是序列比对,基因read计数,在到差异基因表达分析,最后是富集分析。中间还需要进行质量控制以及可视化。
我希望这能帮到你,当然这也是我学习的一次总结。
学完这一个系列,你未必真的能顺利入门生物信息学。你需要补习操作系统基础(Linux),你需要掌握基础的统计学知识(概率分布,统计推断等),你还得掌握几门编程语言,R,Python,Java, C等。 在编程语言上的掌握,不只是你会调用软件包,还得根据语法结构写自己的脚本。当然你还得保证你的
当你看到目前那么多测序类型和种类繁多的数据分析方法,你肯定会慌乱,觉得自己无法掌握那么多的数据分析方法。请冷静下来,安心把基础打扎实。如果你不了解比对的原理,你就难以通过调整默认参数,用来适应当前的研究。如果你不懂得基础的统计学原理,对照组和实验组都只有一个样本,还企图算出p值,当然p值本身都是议论纷纷。还有富集分析,你要是不知道叫做基因本体论(GO),结果你都未必能看懂。
因此,虽然高通量数据分析方法变化很快,但是先通过RNA-Seq入门生物信息,知道这是什么,能做什么,然后再把基础打扎实,那么就能以不变应万变。