全基因组组装工作是生物信息领域最基础也是最难的课题之一。长久以来,这项工作的实现需要耗用极大量计算机内存。曾在我园动植物关系研究组工作的叶承羲(现今马里兰大学计算机系计算生物方向的博士研究生)在我园工作期间内,提出一新颖简洁的算法解决了这一难题。该工作已发表在在BMC Bioinformatics杂志,2012年4月叶承羲在生物信息大会Recomb-seq国际会议上报告了该成果,其方法实现的高效性和组装结果的高质量,获得与会专家的一致肯定。
叶承羲在他的全基因组装工作中提出的一种新颖的稀疏k-mer图结构,该结构是叶承羲针对目前生物信息领域广泛采用的de Bruijn图的稀疏的改进。相对de Bruijn图,稀疏k-mer图略去了以往储存在de Bruijn图中的绝大多数冗余信息,节省了90-95%的计算资源,同时达到更好的效果。这项技术有望将以往仅仅能在超级计算机上进行的人类基因组组装任务在个人计算机上就能完成。该文方法目前已经在美国马里兰大学生物信息与计算生物学中心被实现为一个新的组装软件SparseAssembler。