动脉网知识库

V币充值

微信扫码进入充值页

充值完成后刷新本页查看余额

成为会员

微信扫描二维码购买会员

登录动脉网

数据执掌未来?基于AWS云服务,人和未来搭建了基因数据的超算系统

周梦亚 2017-07-27 16:44

IMG_5142.JPG


2017年7月26日,2017 “云•执掌未来””AWS技术峰会在北京国家会议中心召开。围绕多项云计算热门议题,覆盖大数据和人工智能、架构、安全、IOT等十大技术分会场,360、英伟达等众多技术团队的大咖共同探讨云计算的创新发展之路。

 

利用IT(信息技术)在BT(生物技术)行业创造了新纪录,人和未来因此受邀了参加此次峰会。这也是继2014年华大基因之后,第二家被邀请的生物技术企业。

 

B00A8042.JPG


结合基因大数据与云计算处理,人和未来CTO宋卓对基于AWS云服务构建高性能的基因数据超级计算系统进行了介绍,以下为精彩内容:

 

随着基因检测的应用范围越来越广,基因测序的成本越来越低,收益人群也越来越多,导致基因数据的规模呈爆炸性增长趋势。

 

以Illumina公司最新产品Novaseq测序仪为例,满负荷运转产生数据速度为6TB/30小时。一个人的基因组测序数据文件大小大约为200 GB,即该机器每小时能产出一个人的基因组测序数据。据了解,目前国内 Novaseq订购量已超过100台,根据已订购的各类测序设备估计,2017年全国范围内的基因产业数据将超过100PB(1PB=1百万GB)。

 成本.png 

测序数据是原始数据,需要经过大量计算和解读才能显现其临床和健康意义。如此大规模的数据,给计算解读提出了严峻的考验。

 

目前,分析一个人基因组200 GB数据的单机计算耗时为30小时。若以这样的数据分析计算速度来应对已经到来的大数据潮流,其结果必然是数据分析赶不上生成的速度,导致数据堆积。

 

因为基因数据的特性以及全基因组测序成本超摩尔定律下降,数据传输、存储、计算以及数据处理过程中的成本控制成为行业挑战。

 

人和未来在2014年成立之初就在大数据压缩存储、传输和高性能计算方向上进行了前瞻性部署。而且结合国内实际情况,在计算加速领域同时开发了弹性云计算和本地硬件加速两个解决方案。

 

云计算是一种基于互联网相关服务的资源虚拟化计算模式。具有良好的动态扩展性,可以实现每秒10万亿次量级的强大计算能力,而且“不求所有,但求所用”的特点是其成本较低的原因。

 

机器规模的扩大并不能线性提升计算性能,大数据传输所导致的IO墙使得计算资源规模扩大到一定程度后反而会显著降低计算性能。

 

人和未来依托AWS云平台构建云计算加速系统,以创新的数据分发技术、数据混洗技术为基础,通过开发高性能分布式数据库StageDB,结合生物基因组知识,成功实现18分钟内计算完成人类基因组400 GB(55x)数据的分析任务,使计算性能和计算资源规模之间的关系近似于理想的线性关系。

 

据宋卓介绍,GTX.WGS技术的研发过程相当于打了三场战役:

 

第一役:数据高速分发


首先,针对超大型数据向250台AWS EC2服务器的高速分发,人和未来根据基因组生物学特性和高性能计算数据均衡性需求开发了独特的大数据切分技术,将原本66分钟的任务压缩到1分钟内完成,使得整体分析任务的计算时间降低到3-4小时。

 

第二役:数据混洗


公司研发人员采用了AWS S3对象存储方案,开发了数据混洗技术,对切分出的海量数据文件进行了重排,实现了20-25分钟内完成109条DNA片段在基因组上按照位置进行排列的任务,将整个计算时间压缩进60分钟。

 

第三役:存储攻关


虽然这个计算性能已经达到了国内外基因大数据分析性能的领先水平,但人和未来仍然不满足这一成绩。公司进一步在数据存储方面进行攻关,开发了一套高层次化的Key-Value数据库StageDB,使得上一步的数据重排时间减小到40秒,整体时间缩短为18分钟,赢得了战役的胜利,获得了2016年11月第11届国际基因组学大会(ICG)计算加速竞赛的冠军。


在硬件加速方面,人和未来自行设计和研发了基因数据分析的FPGA硬件加速卡,并构建了基因数据分析专用计算机GTX-One。该单机能够在15分钟内完成30X全基因组的比对和突变分析。计算速度处于世界第一的同时,也刷新了基因数据分析的最低能耗纪录。

 

除此之外,人和未来开发了集基因大数据压缩存储、满带宽传输、数据分发三大功能一体的解决方案GTX.Zip,通过超高的基因数据压缩效率实现存储成本的大量降低,通过压缩后数据传输、满负载传输、边压缩边传输等特性为基因大数据的分发和传输提供了除寄送硬盘以外的高效可操作性方案。

 

实际上,结合自行开发的基因大数据解读方案,人和未来还构建了一整套基因测序数据的分析体系,实现了自数据从测序仪下机之后的全部快速处理过程,补齐了基因检测服务中的数据分析耗时、耗资源的短板,推动基因检测走向更多人群和更大的应用范围,为大健康产业解决了痛点为其大步前进提供了动力。


注:文中出现的采访数据,均由受访者提供并确认。如果您有资源对接,联系报道项目,寻求合作等需求请填写 需求表

声明:动脉网所刊载内容为动脉网及或相关权利人专属所有或持有,转载请联系tg@vcbeat.net。

还没有评论,快来抢沙发吧!

分享

微信扫描二维码分享文章