正在阅读：采用ARM CPU 日本1300亿日元兴建百亿亿次超算采用ARM CPU 日本1300亿日元兴建百亿亿次超算

2019-02-21 00:15 出处：PConline原创作者：张垞责任编辑：zhangcha1

　　【PConline 干货铺】日前，日本富士通宣布将斥资1300亿日元(约合12亿美元，79亿人民币)打造一台名为“后京”(Post Kyo)的超级计算机，预计性能将达到百亿亿级。而在这恐怖的性能背后则是最新一代定制化的ARM架构处理器。

　　“后京”前传

由日本富士通研制的超算京（Kyo，简称K）

　　世界上有很多榜单的竞争都是综合国力的竞争，超级计算机就是其中之一。自从中国天河1A超算以2.59千万亿次的性能在2010年11月榜单中勇夺TOP500全球超算排行榜第一名开始，地球最强计算系统的王座在大部分时间里都由中美两个大国轮流坐庄。而之所以要用“大部分”这个词，是因为在11年，来自日本的超算“京”(Kyo，或简称K)曾短暂的占据了超算排行榜的位置。

富士通SPARC64 VIIIfx处理器

　　作为日本最顶尖的超级计算机，京隶属于RIKEN计算科学高级研究所，由富士通负责建造。当时的京共安装了88128颗富士通研制的SPARC64 VIIIfx处理器，共计705,024个物理内核，1,410,048GB内存，采用“豆腐”(ToFu)总线进行互联，是人类首台峰值性能超亿亿次的计算设备。然而时过境迁，在2018年11月TOP500.org公布的最新一次全球超算排行榜中，京只能排在第18名。

　　SPARC64 VIIIfx处理器采用SPARC-v9架构设计，富士通45nm工艺制造(后期产品更新为富士通20nm工艺)，拥有8核心、6MB共享2级缓存，TDP58W，理论性能128GFLOPS。同时，类似架构的处理器也用在Sun公司生产的小型机设备上(于2009年被Oracle收购)。但随着Oracle在硬件设备上的战略转型，下一代SPARC处理器已经基本凉凉，而富士通本身也无力继续支撑SPARC架构和指令集的继续研发。所以SPARC64 VIIIfx也就成为了SPARC架构在超算领域中的绝唱。

　　但日本和富士通不打算因为SPARC处理器的问题在超算的道路上一蹶不振。而它们的眼光则投向了目前在超算领域中冉冉升起的ARM架构。

　　一台采用ARM架构处理器的百亿亿级超算

　　从ARM v8架构开始，ARM就不仅仅定位于低功耗的终端设备，更增加了对多核心、高主频和强大互联架构的支持，从而具备进军桌面系统甚至企业级市场的实力。

　　目前，除了常见的苹果A系列处理器、高通骁龙系列处理器、三星Exynos系列处理器、华为海思系列处理器、联发科Helio系列处理器之外，包括高通公司在内，全球还有很多专注于企业级商用市场的ARM处理器制造商。而借助扩展性能的强大的ARM v8及8.1架构，很多ARM产品都具备了不输于传统x86处理器的性能。

　　而本次“后京”超算所使用的富士通A64fx处理器便是新一代高性能ARM处理器中的一员。

富士通A64fx处理器架构

富士通A64fx处理器架构细节

　　富士通A64fx是全球首款采用ARM v8.2A架构的处理器，每13个处理器组成一簇（CMG），每颗处理器包含4簇共计52个物理核心(之所以会采用这一特殊的处理器构型，是因为每簇内核中会包含一个专门负责内部互联的内核，因此，整个处理器就是48计算内核+4辅助内核)。每簇处理器包含独立的8MB二级缓存，并与一个容量为8BG的片上HBM2内存模组相连。4簇处理器由一个环形内部总线链接，处理器间的内部互联架构采用新一代“豆腐”(ToFu)控制器完成，包含2个Lane，10个端口，带宽为3.8GB/s;同时，处理器还包含一个PCIe 3.0 16 lane的IO控制器。为了提升并行处理能力，富士通A64fx处理器还支持512bit位宽的SVE技术(Scalable Vector Extension)，能够明显提升高性能计算场景中的处理器计算性能。

富士通A64fx处理器核心特性

与SPARC64 XIfx的性能对比

　　富士通A64fx处理器将包含87.86亿晶体管，将采用7nm FinFET工艺进行制造，理论性能2.7TFLOPS，内存总线带宽1024GB/s。在整体性能上，相较于目前的富士通SPARC64 XIfx拥有2.5-9.4倍的性能提升。

　　在操作系统上，采用富士通A64fx的“后京”超算将支持标准Linux操作系统级MCKernel(一种轻量化的Linux内核)。而编程环境也将支持并行开发中主流的OpenMP、Open MPI等语言以及最新的XcalableMP(一种针对分布式内存系统的指令语言)。

　　“后京”超算隶属于日本理化研究所的旗舰2020项目(Flagship)，从2014年开始进行基础研究，2015年进入细节设计阶段，2018年开始制造及组装工作，预计2020年完成建设，2021年开始对外提供服务。新超算仍将隶属于日本理化研究所，主要用于健康与生命、灾害防治与环境研究、能源研究、先进制造与新材料研发、基础科学等方面的研究。

　　全球顶尖超算竞争依旧激烈

由IBM设计制造并采用NVIDIA加速卡的最强超算——Summit

　　目前，TOP500全球超算排行榜第一名是美国Summit超算，由IBM设计与制造，峰值性能20亿亿次(200PetaFlops)，隶属于美国能源部旗下的橡树岭国家实验室。经过升级后的Summit超算由4576个节点构成，每节点包含两颗IBM POWER9处理器(22核心，3.07GHz)以及6块NVIDIA Teala Volta GV100计算卡;采用Mellanox EDR 100G Infiniband互联，标准功耗9.73MW，峰值功耗13MW。性能超出排名第三的中国最强超算神威·太湖之光60%，标准功耗则仅是神威·太湖之光的63.6%。

HPE

中国自主研发的天河三号原型机

　　不过目前包括中国、美国、日本及欧盟在内的各大超算强国都在积极备战百亿亿次超算。中国自主的百亿亿级超算——天河三号已于2018年5月完成原型机制造，并于年底对外提供服务。天河三号采用自主研发的飞腾系列处理器，天河互联架构以及自主麒麟操作系统。不过目前投入使用的仅是天河三号的开发型号，包含6组机柜，处理能力约为2.5千万亿次(PetaFlops)，完整版的天河三号将于2021-2022年完成建设。每套系统预计造价为3.5-5亿美元。而美国的百亿亿次超算则要等到2022-2023年才能完成，系统造价约为6亿美元;欧盟的百亿亿次超算会更晚出现，预计为2023-2024年，造价3-3.5亿美元。

　　超算四大集团的百亿亿次产品不仅完成时间十分接近，而且都会使用自主技术的处理器来进行建造。这也侧面说明百亿亿次超算的难度和对国家的重要性。

　　另一方面，由于中国百亿亿次超算——天河三号预计要到2021年才能投入使用，因此在此之前的TOP500超算排行榜冠军估计也要与中国无缘了。