在“富岳”主机上投影富士山
“科学大设施”的第二回将介绍日本引以为豪的理化学研究所的超级计算机“富岳”。 富岳自2020年春季投入使用以来,先后用于模拟来势凶猛的新型冠状病毒的解析及传播模式,在过去三年多的时间里取得了众多成果。本文就来介绍一下,至今仍拥有世界顶级性能的“富岳”的惊人性能以及支持其运行的设施状况。
分析棒球选手大谷的变化球,预测线状降水带
大谷翔平是美国职业棒球大联盟中投打双优的超级选手。他作为投手的制胜法宝“横扫滑球”的秘密,已被富岳解开。根据东京工业大学等研究团队的分析,这种球由于旋转轴的倾斜使球很难向下滑落,而会在横向有较大的移动。
此外,日本气象厅在6月启动了基于模拟的预报实验,也是利用“富岳”对导致集中暴雨的线状降水带进行的预测。该实验将持续到10月。虽然气象厅提供了去年以来的线状降水带的生成预测信息,但使用过去的超级计算机的方法的预测精度并不理想。此次的目标是使用“富岳”在高分辨率图像数据的基础上进行模拟计算,以提高天气预报的精度。
“富岳”设置于神户市沿海的一个人工岛屿“港岛”的一角。从神户市中心的三宫搭乘轻轨港湾线大约15分钟就可以到达计算科学中心站。出站后步行不远即可到达理研计算科学研究中心,“富岳”就在这里运行,富岳是为了取代上一代超级计算机“京”而构建的。
计算科学研究中心的外观。前面矗立的雕塑是一个算盘珠,表示“京”的计算速度的位数。“富岳”的计算速度高达京的100 倍。
正式完成前就进行了飞沫感染模拟
“富岳”在日本广为人知,是因为它模拟了新冠病毒感染症(COVID-19)的病毒飞沫传播情况。模拟结果在电视节目等媒体上被多次报道,让许多一般人知道了“富岳”这个名字。这一结论是理研计算科学研究中心复杂现象统一解法研究小组的组长坪仓诚(神戸大学研究生院系统信息学研究科教授)等人研究分析出来的。
除此之外,“富岳”还从多个角度进行了有关新冠病毒的研究,包括预测疫情对经济的影响、寻找候选治疗药物、解析病毒侵入细胞的机制等。这些研究不仅是在科学领域,在社会上也产生了重大影响。理研计算科学研究中心的主任松冈聪自豪地说道:“我们在设法抑制感染的同时,还避免了国内生产总值(GDP)的大幅下降。”
事实上,这些研究都是在“富岳”正式完成前的试运行期间进行的。作为“京”的继任者,“富岳”的搭建和安装工作始于2019年12月。尽管在2020年初新冠流行期间,物流等方面出现了困难,但截至2020年2月,它的整机的六分之一已经开始运行,那时“富岳”的性能已经是日本第一。因此,研究人员紧急启动了应对新冠的项目。
松冈介绍说,“富岳”之所以能够在尚未正式完工的情况下应对全球危机,是因为他们事先进行了多方面的科研和应用程序研发,“以前的超级计算机通常是在机器完工后才开始运用应用程序,真正投入运行通常要等到1〜2年后。然而,‘富岳’是日本超级计算机历史上首次在广泛的科学领域内同时准备了机器和应用程序。”
由于事先准备的应用中有可用于应对新冠的内容,因此能够迅速开展各种研究。这一举措不仅在日本国内,在国际上也受到关注,在表彰使用超级计算机进行杰出科学技术研究的戈登·贝尔奖中,基于“富岳”的病毒飞沫传播研究于2021年荣获了新冠研究特别奖。
戈登贝尔新冠研究特别奖的颁奖典礼(左二为坪仓,左三为松冈。照片由理化学研究所计算科学研究中心提供)
计算能力达到每秒50京次以上,同时具备通用性
2021年3月开始全面投入使用的“富岳”,能够进行每秒50京次(1京等于1亿个亿)以上的计算。这相当于2000万部智能手机的性能。它的性能强大到可以在仅1秒钟内完成一个需要所有日本人连续不停计算100年以上才能完成的计算任务。并且,由于注重通用性,它还可以运行与智能手机相同的程序。这种性能和通用性的兼顾便是“富岳”的新特点。
提到计算机,可能很多人想到的都是放在桌子上的台式机或者笔记本电脑。而“富岳”却占用了整栋建筑。“富岳”安装在计算机栋,是一个有着地下1层和地上3层的建筑,其主系统位于3层的计算机室。
进入计算机室,便可以看到一个个宽度约85cm,厚度约140cm,高度约220cm的方形机箱,整齐排列在一个大约有半个足球场那么大的房间中。这些便是“富岳”的主体机箱,计算机室内总共有432个这样的机箱,排列成12行36列,而且每个机箱之间的间距都基本相同。
计算机室内整齐地排列着一个个机箱
每个机箱内叠放了192块主板,每块主板上有2个CPU(中央处理器)芯片,因此每个机箱内有384个CPU芯片。此外,每个CPU芯片内集成了48个独立的CPU。单个CPU就可以作为一台计算机工作,但“富岳将它们集成到一个芯片上,并通过超高速网络连接,让所有CPU作为一台超级计算机运行。
以原来40倍的速度运行,电力消耗仅为原来的2倍
全球超级计算机性能排名每半年会更新一次。从2020年上半年到2021年上半年,还处于试运行阶段的“富岳”便在“TOP500”、“HPCG”、“HPL-AI”和“Graph500”四项排名中获得了第一。即使在2023年上半年,它仍然保持着全球最高水平的性能,在“HPCG”和 “Graph500”中仍位居第一,在“TOP500”中排名第二,在“HPL-AI”更名后的“HPL-MxP”中排名第三。
由于性能高,“富岳”每小时要消耗大约20MW的电力,相当于一个四口之家四年的用电量。然而在实际运行中,计算速度最高可达到“京”的100倍以上“富岳”的电力消耗仅比“京”高出2到3成,因此可以说“富岳”也拥有世界最高水平的节能性能。
当“富岳”进行高速计算时,每个CPU都会产生大量的热量。虽然计算机室内的空调可以将室温保持在20摄氏度左右,但这并不足以使CPU冷却。因此,“富岳”采用了水冷方式,将水冷管铺设到整个计算机系统中,然后通过贴在每个CPU上的散热器,流过约为15摄氏度的冷水来进行冷却。
热源机械栋的1层,排列着一排排巨大的冷冻机
空调设备、制造并输送CPU用冷却水的设备以及电压转换器等都安装在计算机栋的楼下以及隔壁的热源机械栋,为“富岳”的稳定运行提供支持。热源机械栋中还配置了燃气轮机发电设备,用于为“富岳”提供部分电力。计算科学研究中心设施运转技术部门的松下聪介绍说:“即使由于灾害等原因发生停电,这些设备也能供电,因此文件系统中保存的‘富岳’的计算结果等也不会丢失。”
将建筑物与地面隔开的免震结构
此外,为了防止包括700吨重的“富岳”在内的重型设备在大地震时受损,计算机栋配备了与高层建筑相同的建筑物与地面分离的免震结构。即使是阪神淡路大地震那样规模的大地震,也能保护“富岳”的安全性。
为了应对地震,设置富岳本体的地板层留有足够的空间
松下在介绍地下的免震结构。左侧是U型钢制阻尼器,右侧是铅制阻尼器。这些结构用于吸收地震时的晃动,以确保即使发生大规模地震,也不会影响“富岳”的功能。
下一代将是AI“科学家”成为人类的合作伙伴
“富岳”此刻也在进行着计算,并不断产生新的成果。由于准备了许多应用程序,因此已建立了即便不是超级计算机专家也可以轻松使用“富岳”的计算资源的机制。此外,“富岳”的下一代超级计算机也已在考虑之中。 松冈主任说:“今后,为了推进科学研究,将使用超级计算机的先进AI技术广泛应用于科学领域是非常重要的。”
像最近的ChatGPT一样,大型超算同时也使得模仿人类智能的AI的形成成为可能。这种高度智能的AI可能会像传统的模拟一样,有潜力对科学技术的发展做出重大贡献,相关研究工作也开始取得进展。例如,可以从人类无法处理的大规模观测数据中有新的发现,还可以对那些即使对于超算来说也运算量繁重的模拟通过基于AI的近似替代,以实现高速化,等等。
松冈认为,为了推动科学向前发展,在科学研究中,将这种使用超算的AI与模拟紧密结合是非常必要的。并表示:“富岳之后的下一代超算可能会培养出‘AI科学家’,他们可以作为人类的伙伴,帮助人类做出新的发现。”
研究中心的松冈在德国汉堡举行的HPC(高性能计算)国际会议“ISC2023”展览场地内搭建的巨大模型前讲解“富岳”
听起来如同动漫或电影里的情节,但很有可能10年后,人们就会在日常生活中普遍使用AI,科学技术将充分利用这些最前沿的技术。“富岳”之后,超级计算机将如何进化,我们将继续关注。
日文:JST Science Portal 编辑部
中文:JST客观日本编辑部
【相关链接】
「富岳」について(理化学研究所)
「富岳」を用いたCOVID-19の飛沫・エアロゾル拡散モデルシミュレーションが、2021年ゴードン・ベル賞COVID-19研究特別賞受賞(理化学研究所)
「富岳」の見学について(理化学研究所)
動画で見る、スパコン「富岳」による飛沫のシミュレーション(動画:MiraikanChannel)