北京诺禾致源科技股份有限公司于2011年3月在北京中关村生命科学园注册成立,专注于开拓前沿分子生物学技术和高性能计算在生命科学研究和人类健康领域的应用,致力于成为全球领先的基因组学产品和服务提供者。
诺禾致源全基因组重测序采用先进的测序平台,快速、高效地读取高质量的测序数据。随着公司业务的发展,高性能计算平台将会持续更新并扩容,以保证高效的数据处理和安全的数据存储。然而随着计算集群规模的不断扩大,海量数据的存储、管理等方面临着诸多的挑战:
【整体方案理念】
在充分理解用户需求的基础上,荣之联极道存储系统针对不同数据存储模型,做了极致的性能优化,集合多套存储系统,把他们有效的整合在一起,达到物尽其用的效果。同时通过与数据管理与计算系统的结合,使得数据不再僵化的存储在一个大池子里面,而是能够智能的流动起来。
【二代基因分析存储方案】
二代基因分析业务对存储性能、存储容量要求都非常高,主要体现在如下方面:
荣之联极道生物数据存储为了解决生物信息数据空间和数据持久化问题而设计,能够理解应用场景,实现极致性能优化。
其中极道Alamo-D存储系统针对高带宽为主的应用类型设计,能够提供卓越的带宽性能(每个节点1GB以上),针对频繁的元数据操作和访问,存储还具有SSD元数据加速、缓存加速技术来保证高IOPS响应。
同时荣之联极道生物数据存储能够智能追踪元数据的变化,自动提取数据特征信息,与数据管理系统结合实现快速发现数据、数据多维有序、动态组织数据集和数据溯源等功能;
方案拓扑示意图
二代测序和三代测序都属于高通量测序技术,测序数据产出量很大,需要结合高性能计算技术来进行后续的测序数据分析。三代基因测序组装这类应用对于系统的计算性能、存储性能等方面都有很高的要求。
目前,由Pacbio公司开发的FALCON是第三代基因测序组装领域的主流软件。FALCON由于把测序数据(rawdata)切割成KB级别的卷来进行纠错,因而需要频繁的磁盘I/O,所以在计算过程中,磁盘I/O经常会成为系统瓶颈。
FALCON应用特征:
1.磁盘IO 方面,程序运行过程会产生并产生大量小文件,IO操作较为频繁;
2。raw_data 的merge 部分,IO压力较大;
为了应对三代测序对于高磁盘IO操作的应用特点,荣之联极道采用Anna存储系统-----一款针对IO性能优化的分布式存储系统。利用NVMeSSD 硬盘构成高速缓存池,极大的优化了IO响应性能,并且通过智能分层技术动态的将数据从SSD层迁移至HDD层,降低总体成本的同时,进一步提升了数据的可靠性。
存储规划:
• 存储节点:3台Anna分布式存储节点
• 数据保护:双副本
• 存储空间规划:
√CachePool :3 块 3.2TB NVMe SSD/节点;
√MetaData:1块 800GB SATA SSD/节点;
√DataPool:10 块8TB 7。2K HDD/节点;
1)理解应用场景,极致性能优化
荣之联极道分布式存储系统是为解决生物信息数据空间和数据持久化的问题而设计的。推出Alamo-D、Anna和 Alamo三个系列的分布式集群存储系统,分别满足应用对高带宽、高 IOPS、数据归档的需求。多套存储系统能够实现统一部署、统一管理,构成统一的生物数据空间。
2) 与“管”结合: 数据感知,多维数据呈现;
通过独有的数据感知引擎,实时跟踪记录数据特征,实现快速的数据发现和组织。
3) 与“算” 结合: 应用感知,智能数据空间分配;
通过与计算系统的紧密结合,能够智能感知应用负载类型,调用合适的存储空间。