荣之联极道BIOSTACK助力诺禾致源基因测序分析

关于诺禾致源

北京诺禾致源科技股份有限公司于20113月在北京中关村生命科学园注册成立,专注于开拓前沿分子生物学技术和高性能计算在生命科学研究和人类健康领域的应用,致力于成为全球领先的基因组学产品和服务提供者。

业务挑战

       诺禾致源全基因组重测序采用先进的测序平台,快速、高效地读取高质量的测序数据。随着公司业务的发展,高性能计算平台将会持续更新并扩容,以保证高效的数据处理和安全的数据存储。然而随着计算集群规模的不断扩大,海量数据的存储、管理等方面临着诸多的挑战:

      • 面对爆发式增长的基因数据,如何有效的存储和存取大规模生物数据,以适应基因研究的需要;
      • 不同的测序技术、不同的分析阶段访问数据的模式、对于存储的带宽、IOPS和延迟等性能指标都有不同的要求,所以无法通过单一的存储系统,来解决生物信息分析所面对的所有问题;
      • 除了解决数据存储空间问题,生物数据分析经常有通过不同维度组织数据分析的需求,如何根据多样化的生物数据特征从海量数据中快速发现数据和组织数据集?

      解决方案

      整体方案理念


      在充分理解用户需求的基础上,荣之联极道存储系统针对不同数据存储模型,做了极致的性能优化,集合多套存储系统,把他们有效的整合在一起,达到物尽其用的效果。同时通过与数据管理与计算系统的结合,使得数据不再僵化的存储在一个大池子里面,而是能够智能的流动起来。


      二代基因分析存储方案

      应用特征分析

      二代基因分析业务对存储性能、存储容量要求都非常高,主要体现在如下方面:


      • 存储数据量大: 例如:一套 HiSeq X10 系统三天一轮测序分析产生的数据量约为 73TB 其中 26TB 需要永久或长期保留,一年产生的数据需要大约3PB 的有效存储空间;
      • 存储带宽要求高: 基因分析过程对存储和网络带宽要求高,至少需要存储系统具备 3GB/S 以上的吞吐能力,且对实时性要求非常高,否则可能导致数据不完整。
      • 小文件很多:此类文件用于存储原始或临时的基因组信息,例如:BCL格式文件,通常小于64KB。与处理大文件不同,因为每个文件的I/O都需要对数据和元数据进行两次操作,生成和访问大量文件的负载会非常大,对底层存储系统的IOPS性能也具有很高的要求。

      解决方案

      荣之联极道生物数据存储为了解决生物信息数据空间和数据持久化问题而设计,能够理解应用场景,实现极致性能优化。

      其中极道Alamo-D存储系统针对高带宽为主的应用类型设计,能够提供卓越的带宽性能(每个节点1GB以上),针对频繁的元数据操作和访问,存储还具有SSD元数据加速、缓存加速技术来保证高IOPS响应。

      同时荣之联极道生物数据存储能够智能追踪元数据的变化,自动提取数据特征信息,与数据管理系统结合实现快速发现数据、数据多维有序、动态组织数据集和数据溯源等功能;


      方案拓扑示意图


      【三代基因分析存储方案】

      应用特征分析

      二代测序和三代测序都属于高通量测序技术,测序数据产出量很大,需要结合高性能计算技术来进行后续的测序数据分析。三代基因测序组装这类应用对于系统的计算性能、存储性能等方面都有很高的要求。

      目前,由Pacbio公司开发的FALCON是第三代基因测序组装领域的主流软件。FALCON由于把测序数据(rawdata)切割成KB级别的卷来进行纠错,因而需要频繁的磁盘I/O,所以在计算过程中,磁盘I/O经常会成为系统瓶颈。

      FALCON应用特征:

      1.磁盘IO 方面,程序运行过程会产生并产生大量小文件,IO操作较为频繁;

      2。raw_data merge 部分,IO压力较大;

      解决方案

      为了应对三代测序对于高磁盘IO操作的应用特点,荣之联极道采用Anna存储系统-----一款针对IO性能优化的分布式存储系统。利用NVMeSSD 硬盘构成高速缓存池,极大的优化了IO响应性能,并且通过智能分层技术动态的将数据从SSD层迁移至HDD层,降低总体成本的同时,进一步提升了数据的可靠性。

      存储规划:

           存储节点:3Anna分布式存储节点

           数据保护:双副本

           存储空间规划:

      √CachePool 3 3.2TB NVMe SSD/节点;

      √MetaData1 800GB SATA SSD/节点;

      √DataPool10 8TB 7。2K HDD/节点;

      方案价值

      1)理解应用场景,极致性能优化

      荣之联极道分布式存储系统是为解决生物信息数据空间和数据持久化的问题而设计的。推出Alamo-DAnnaAlamo三个系列的分布式集群存储系统,分别满足应用对高带宽、高 IOPS、数据归档的需求。多套存储系统能够实现统一部署、统一管理,构成统一的生物数据空间。

      2) 与“管”结合: 数据感知,多维数据呈现;

      通过独有的数据感知引擎,实时跟踪记录数据特征,实现快速的数据发现和组织。

      3) 与“算” 结合: 应用感知,智能数据空间分配;

      通过与计算系统的紧密结合,能够智能感知应用负载类型,调用合适的存储空间。

      相关新闻

      产品推荐

      彩票平台777 彩客网平台 e博彩票平台 盈彩网平台 4u彩票平台 盈彩网平台 36彩票平台 大都会彩票平台 265彩票平台 美娱彩票平台