客观日本

NEC构建AI研究用超级计算机,为日本企业中的最大规模

2022年06月06日 信息通信

为了能在AI的全球开发竞争日益激烈的情况下保持和强化优势地位,NEC已开始着手构建AI研究用超级计算机。计划在2023年3月运行580PFLOPS以上的系统。FLOPS是表示计算机处理性能的单位,表示每秒可以执行的浮点运算次数。P(Peta)表示1000万亿,580PFLOPS代表每秒可以执行580×1000万亿(58京)次浮点运算。这是目前日本国内企业中规模最大的AI研究用超级计算机。

title

AI超级计算机机房效果图(供图:NEC)

NEC的数百名AI研究人员已开始使用这款AI研究用超级计算机的部分系统(100PFLOPS),该公司今后将追加构建480PFLPOS的系统,创造专门用于AI的国内最强研发环境,以快速开发更高级的先进AI。另外,将来的目标是通过与客户和合作伙伴的共创,实现能产生先进社会价值的AI卓越研究中心。

作为AI核心技术的深度学习正在迅速发展,其应用领域也在不断扩大。另外,开发深度学习所需的运算量也在不断扩大,为推进全社会的数字化转型(DX),需要能迅速开发出各种先进AI的大规模计算资源。

NEC将为已开始构建的AI研究用超级计算机投入数十亿日元的开发费用。该系统由116台每个节点配备8个高端GPU“NVIDIA A100 80GB Tensor 核心GPU”的最新GPU服务器(美超微电脑公司生产)和配备16PB兆EXAScaler高性能并行文件系统(DataDirect Networks公司生产)的存储装置构成。

该系统的理论处理性能已超过580PFLOPS,只需几分钟即可学习数千万张图像。另外,网络采用高速以太网交换机“NVIDIA Spectrum SN3700”。以200GbE连接所有服务器,通过用RoCE(RDMA over Converged Ethernet)v2进行超高速、低延迟通信,实现了高速分布式学习。

该公司通过以开源容器管理技术Kubernetes为核心的独特系统构建技术,将这些尖端硬件和软件紧密结合,由此将实现高性能且高度便利的系统。

NEC的目标是开发可以实时、灵活地应对前景不透明、未来难以预测的VUCA时代社会课题的先进AI,以促进社会的数字化转型、提高人类活动的知识和身体创造性及生产力、实现可持续发展的地球环境。为此,将利用此次的AI研究用超级计算机,实现将客户、合作伙伴和该公司的AI研究人员聚集起来,共同创造先进社会价值的AI卓越研究中心。

原文:《科学新闻》
翻译编辑:JST客观日本编辑部