当地时间11月15日下午,中国科大入围国际戈登•贝尔奖提名的超算应用成果 “2.5 Million-Atom Ab Initio Electronic-Structure Simulation of Complex Metallic Heterostructures with DGDFT”,参加了在美国得克萨斯州达拉斯市召开的全球超级计算大会(SC22)的线上答辩,报告了中国科大在新一代神威超级计算机上采用低标度高精度第一性原理计算软件DGDFT首次实现250万原子复杂金属异质结(锂钠金属合金)的超大规模材料模拟,这是中国科大第二次作为第一完成单位入围戈登•贝尔奖提名。戈登•贝尔奖是国际上高性能计算应用领域的最高学术奖项,被誉为“超算领域的诺贝尔奖”,由ACM(美国计算机学会)每年评选和颁发,奖励在高性能计算应用领域具有突出成就的工作,具有巨大的国际影响力。此项成果由合肥微尺度物质科学国家研究中心杨金龙院士课题组胡伟团队与欧亿6蓝狮在线安虹教授课题组联合攻关,在崂山实验室(原青岛海洋科学与技术试点国家实验室)、中国科学院计算技术研究所、北京大学、中国科学院软件研究所、齐鲁工业大学,以及国家并行计算机工程技术研究中心相关研究人员的紧密配合下完成。
图1 ACM Gordon Bell奖提名
先进材料是国民经济的基石,是实现制造业转型升级的重要基础。由于新型材料的研发难度较大,用于验证材料性质的物理实验设计复杂、代价昂贵。量子力学和高性能计算技术的出现从根本上改变了这种状况。通过输入材料的结构信息,利用量子力学的第一性原理计算就可以较为准确地预测已知材料的基态结构和基本的物理化学性质,并实现原子级别的精准控制。这是二十一世纪解决实验理论问题和预测新材料结构性能的最具竞争力的方法和技术途径。这种方法不需要开展真实的实验,不仅可以极大地节省实验成本,缩短新材料的开发周期,而且可以为材料的制备和改性、新材料的开发,以及对极端环境下材料性质的研究提供有效的理论指导。
1933年,薛定谔和狄拉克因发展了量子力学的薛定谔-狄拉克方程而获得诺贝尔物理学奖。尽管在量子力学建立之时狄拉克就曾预言寻求物理和化学基本规律的任务已大体完成。但是,由于描述这些基本规律的方程求解过于复杂,用基本原理来解决实际问题依然非常困难。直到上世纪60年代出现了高性能计算(HPC),我们也只能解出有几十个原子的薛定谔方程,这离真正的复杂系统相距遥远。1998年,Kohn和Sham发展了基于Kohn-Sham方程的密度泛函理论(DFT),将3N维波函数问题简化为三维粒子密度问题,从而将从头算电子结构模拟的计算复杂度降到O(N^3),获得了诺贝尔化学奖。2013年,三位化学家Martin Karplus, Michael Levitt和Arieh Warshel因在现代超级计算机上开发出复杂系统的多尺度建模方法而获得诺贝尔化学奖。Kohn-Sham方程第一次将量子力学引入到包含数千个原子的真正复杂系统。但是,由于第一性原理材料模拟的计算复杂度会随着模拟材料的尺度而急剧增加,研究人员对软件的性能和计算资源的需求越来越大。
超级计算机和高性能计算技术的快速发展为第一性原理计算的发展提供了机遇,使其在凝聚态物理、化学、材料和生物等研究领域发挥着越来越重要的作用。在后摩尔时代,从头算电子结构模拟成为我们理解现代信息技术的唯一方法。全量子力学模拟对于设计10纳米以下的下一代场效应晶体管来说是必不可少的,但要求模拟的尺度至少要达到数十万个原子。近三十年来,现代高性能计算技术已经将从头算建模带到了真实的物理世界。这种能力对大多数的科学和工程领域十分重要,如能源、材料、生物医学、催化反应和强关联物理。
那么,在当代最先进的超级计算机上,利用Kohn-Sham方程我们究竟可以模拟多大尺度的系统呢? 实现大规模从头算电子结构模拟主要有三种计算方法,分别是线性标度算法、人工智能算法和通用立方标度算法。采用这三种算法的研究工作都曾获得过戈登·贝尔奖或戈登·贝尔奖提名。线性标度算法和人工智能算法对分子、半导体和绝缘体的模拟过度依赖于近似原理,因而不能应用于复杂的金属体系。而目前最先进的采用通用的立方标度算法的DFT-FE软件,截止2019年,只能模拟11K个原子的固体材料,比线性标度算法和人工智能算法要小得多。
采用基组离散Kohn-Sham方程是实现第一性原理电子结构计算的基础。传统基于平面波基组的第一性原理材料模拟具有三阶的计算复杂度,很难通过大规模并行加速应用于复杂的大体系。基于局域原子轨道基组的线性标度算法可以实现大尺度模拟,但是往往精度不够并难以应用于金属体系,同时还面临非规则稀疏矩阵难以实现高度并行计算的难题。全新的自适应性局域基组(Adaptive Local Basis, ALB),在实空间严格截断且正交,结合了平面波(正交完备性)和数值原子轨道(局域性)各自的优点,既有媲美平面波的高精度又能利用适合于大尺度计算的线性标度算法。并且,由ALB基组构造的哈密顿矩阵具有固定的三对角块状的稀疏特性,适合于实现高度并行。中国科大与中科院计算所、中科院软件所等单位合作,以ALB基组和间断伽辽金有限元方法为基础,发展了第一性原理计算软件DGDFT(Discontinuous Galerkin density functional theory),结合多级 并行优化设计和最先进的稀疏矩阵求解器PEXSI的低标度对角化算法,在数值算法、稀疏矩阵并行和数据通讯等方面进行一系列关键技术创新,采用在新一代神威超级计算机上自主设计的DGDFT软件,首次对复杂金属体系实现了250万原子的高精度第一性原理电子结构模拟,达到了介观尺度(> 100 nm)范围,可用于设计基于二维材料的新一代电子晶体管。
图2 基组离散Kohn-Sham方程、场效应管异质结体系、求解时间和性能
DGDFT软件的先进性体现在:(1)相比于国际上同类第一性原理计算软件,DGDFT软件具有低标度、高精度以及高并行可扩展性优势,克服了常规DFT方法难以应用于复杂金属体系、稀疏矩阵并行扩展性差等多个一直困扰材料模拟领域和高性能计算领域的难题。(2)尽管间断伽辽金方法广泛应用于求解偏微分方程,但是目前只有DGDFT软件采用了该方法来求解Kohn-Sham方程。(3)通过ALB基组离散的矩阵具有三角块稀疏的固定格式,相关的研究目前仍然非常前沿,国际上尚无同类的第一性原理软件。(4)低标度PEXSI算法适合于金属体系,其对于准二维体系具有1.5次的计算复杂度。经过团队优化后的PEXSI算法可以在新一代神威超算上实现64 PFLOPS和5%的峰值,远超目前最先的HPCG稀疏矩阵性能基准测试记录(Fugaku, Summit 和新神威分别为16 PFLOPS、2.9 PFLOPS 和5.9 PFLOPS ,相应于3.6%、1.5% 和 0.5%的峰值)。
得益于上述创新,DGDFT的模拟的尺度比目前最先进的高标度DFT-FE软件(采用23 K GPUs模拟11K原子)增加了175倍,模拟原子尺度远超同类软件(比如,目前最流行的VASP只能模拟1K个原子),在保证化学精度的前提下可以模拟250万的金属体系;与此同时,DGDFT具有极快的计算速度,求解时间比DFT-FE快了2054倍。与项目组2021年发表的研究成果在神威•太湖之光上可模拟约1万个碳原子的二维金属石墨烯体系的电子结构性质(Science Bulletin, 2021, Vol.66, Issue 2)相比,在新一代神威上的模拟尺度比之前的模拟结果提升了250倍。
未来,随着超级计算机算力达到10E级,DGDFT软件的高可扩展性可以将模拟的体系进一步提升,可以把第一性原理材料模拟进一步扩展到宏观尺度(>1000nm),从而实现对真实材料和器件的模拟,为第一性原理材料模拟软硬件一体化的工业应用铺平道路。
安虹教授、贾伟乐副研究员、杨金龙教授为本论文的共同通讯作者;胡伟研究员、博士研究生郭卓强和姜庆彩、秦新明副研究员为共同第一作者。该研究得到了国家自然科学基金、国家重点研发计划、欧亿6蓝狮在线“双一流工程”研究基金、中科院战略重点研究计划等项目的共同资助。同时,崂山实验室、欧亿6蓝狮在线超算中心、国家超级计算济南中心等单位为本项目研究提供了超算资源的支持。
相关链接:
[1] https://www.computer.org/csdl/proceedings-article/sc/2022/544400a048/1I0bSKXvg7m
[2] https://www.sciencedirect.com/science/article/pii/S2095927320304230
[3] 国家自然科学基金委报道
https://nsfc.gov.cn/publish/portal0/tab448/info78199.htm
[4] 中国科学报报道
http://news.sciencenet.cn/sbhtmlnews/2020/7/356267.shtm
[5] CCTV 新闻联播和东方时空的专题报道
[7] 我国战略高技术领域取得的新跨越十项代表性成果之一
http://m.cnr.cn/news/20210528/t20210528_525498856.html
(欧亿6蓝狮在线、合肥微尺度物质科学国家研究中心、科研部)