丁肇中太空AMS计划:私有云如何助力暗物质发现?

  AMS计划,阿尔法磁谱仪计划(Alpha Magnetic Spectrometer),是由1976年诺贝尔奖获奖者、著名美籍华裔物理学家、美国麻省理工学院丁肇中教授领导的,由全球包括美国、中国台湾与大陆、俄罗斯、意大利、瑞士、德国等16个国家和地区的56个研究机构、1500多名科研人员参与合作承担的国际性大型科研项目,造价约7亿美元。这是人类第一次在太空中使用粒子物理精密探测仪器和技术的实验。AMS计划是国际空间站上唯一的大型科学实验,是人类第一次在太空中使用粒子物理精密探测仪器和技术的实验。其目的是通过探测宇宙中的反物质和暗物质,探索宇宙的起源与未知。

  2002年开始,东南大学作为中国大陆第一所参与AMS项目的高校与丁肇中教授合作,包括参与AMS探测器的合作研制和建立东南大学AMS-02数据处理和分析中心(AMS-SOC)。自2011年5月AMS探测器升空以来,目前已累计接收并分析来自国际空间站的数据超过1PB,未来十年的实验数据总量将达到4PB,对这些海量数据存储、处理和分析是一个典型的科学大数据应用,同时也是AMS实验当前工作的重中之重。作为AMS-02实验在亚洲地区乃至世界范围内最主要的数据处理中心,东南大学大数据共享服务平台主要承担AMS实验数据的处理和分析,利用云计算和大数据技术助力AMS以给出暗物质存在的有力证据。

  东南大学大数据共享服务平台面临的四大挑战

  随着近些年的数据爆炸、历史数据沉积和计算量的猛增,东南大学现有的高性能云计算中心受到硬件规模及性能、软件配置等方面明显的限制,已经无法满足平台上承载的AMS实验数据处理等大数据应用需求。从平台管理、稳定性、性能和扩展性方面均提出了巨大挑战:

  管理:为实现对现有平台虚拟机、物理机、容器等实例资源的整合与调度,并确保计算高性能,东南大学要求以OpenStack作为软件框架重新构建云计算平台,支撑大数据服务等高性能计算应用;

  稳定性:高性能计算和大数据等应用对平台的稳定性和高可用性提出了双重挑战,要求基于云平台所有的模块都能够稳定运行,并且任何模块都需要有高可用功能支持;

  性能:为支撑AMS计划等高性能计算任务,云平台需要结合高速并行文件系统,在保证高可靠的前提下,并行文件系统实际持续并发读写性能≥10GB/s;

  扩展性:为支撑PB级数据处理,云平台需要具备在统一平台上纳管物理机、虚拟机、容器、大数据、高速分布式文件系统、网络SDN解决方案,并且任何一个方向都能做到灵活扩展。

  易捷行云EasyStack如何助力东南大学AMS计划?

  为满足东南大学大数据共享服务平台多项建设目标,对AMS实验平台进行升级,东南大学选择基于EasyStack ECS易捷行云企业云将原有大数据共享服务平台重构为云计算平台,用以支撑AMS实验数据处理、机械仿真、5G通信仿真等大数据应用,该项目建设具体实现了:

  管理方面:通过ECS易捷行云企业云,基于OpenStack架构为东南大学建设云计算架构平台,利用OpenStack的ironic组件来进行纯物理机的管理,在物理机上搭建高性能计算集群,利用Nova组件来进行虚拟机的管理、利用Magnum来进行容器的管理,既可满足高性能计算应用发挥极限性能,又可对整个高性能计算集群的监控和平台统一管理;

  稳定性方面:通过ECS易捷行云企业云所提供的热迁移以及高可用特性,保证任何物理节点故障都不会影响上层业务的正常服务能力,除此之外,还通过业务层数据同步机制实现业务层级的高可用;

  性能方面:通过ECS易捷行云企业云的Nova、Glance和Cinder组件,整合高速并行文件系统GPFS,通过GPFS并行文件系统实现对于所有IO硬盘的同时读写,持续保证并行文件系统实际并发读写性能≥10GB/s;

  扩展性方面:通过ECS易捷行云企业云,实现API,物理机、虚拟机、容器、大数据、高速分布式文件系统、网络SDN高扩展性,有效支撑PB级数据处理和存储需求。

最热讨论DISCUSS