日本统计数理研究所、东京理科大学、物质与材料研究机构等的联合研究团队发布了关于准晶体及其相关“近似晶体”的大规模数据库“HYPOD-X”。准晶体是一种既具有非周期性的原子排列又具备有序结构的物质,其物理特性与传统晶体完全不同。HYPOD-X是全球首个专注于准晶体和近似晶体的大规模数据库,提供了从论文和书籍的文本及图表中提取的有关准晶体和近似晶体的组成、结构、物理特性的数据,便于研究人员和工程师加以利用。相关成果已发表在期刊《Scientific Data》上。
图1:构成HYPOD-X的三个数据集和数据收集步骤(供图:统计数理研究所)
HYPOD-X由组成数据集、相图数据集、物性数据集三个数据集组成。这些数据通过手动或半自动方式提取,并经专家的严格验证后以CSV格式发布。
成分数据集是关于准晶体和近似晶体的最基本信息。包含组成、结构分类、热处理条件等数据,经过专家的严密校验后录入数据库。此外,通过引入自动化误差数据提取算法,显著提高了数据质量。数据量大约达到了之前整理准晶体成分的研究文献的10倍。研究团队通过使用了该数据集进行机器学习,成功发现了新的准晶体。
物性数据集包含从论文和书籍的图表中提取的热物性、电物性、磁物性等性质的温度依赖性曲线。通过统观这些数据,有望发现连准晶体专家都易忽视的新规律。例如,准晶体的热导率往往随着温度的升高而增加。这是一种在普通金属或晶体中没有的特性。通过利用这一特性,就可以开发出控制热量向特定方向流动的热整流材料。通过从海量的数据中识别出表现最佳温度依赖性的准晶体,能够加速新型热管理器件的开发。
相图数据集包含将论文和书籍的图片数值化后得到的数据。这些数据显示了准晶体和近似晶体热力学稳定的成分范围和其他条件。通过将机器学习应用于这些数据,就可以预测准晶体或近似晶体的新型物质相。
目前,物质科学和材料科学的各个领域都在推动数据驱动型研究的基础建设。然而,由于准晶体领域此前缺乏全面的开放数据,所以该领域的数据驱动型研究进展受到了制约。
此次,通过整备开放数据库,未来将有望开展多种数据驱动型研究。此外,借助对海量数据的全面分析,有望在准晶体研究中找到崭新的视角和科学规律。
研究团队表示,今后还将持续扩展数据库内容,推动准晶领域的进一步发展。
原文:《科学新闻》
翻译:JST客观日本编辑部
【论文信息】
期刊:Scientific Data
论文:Comprehensive experimental datasets of quasicrystals and their approximants
DOI:10.1038/s41597-024-04043-z