世界第一超算Frontier,启动至今无法连续工作一天

Frontier 上线给科学家提供算力的日期已经推迟到了明年。

在全球范围内,很多机构都在争相构建 E 级(每秒百亿亿次)超级计算机,性能指数级跨越的超算预计会在人工智能、医疗、气象等领域发挥重大作用,是超级电脑工程的重要里程碑。

世界第一台 E 级超算是美国橡树岭国家实验室(ORNL)的「Frontier」,它也是当前全球超算 TOP500 榜单的第一名,但虽说性能领先,Frontier 却远远无法达到超算应有的效率。

近日,一些海外媒体接连报道称,当前世界最快的超算的硬件出现了大量故障,机器甚至无法运行一整天。

ORNL Frontier 目前最多只能产生 60% 即 1 FP64 ExaFLOPS 的算力,而该系统旨在提供 1.685 FP64 ExaFLOPS。虽然官方还没有就具体问题给出任何消息,但一些信息正被曝光。

在最新一期,2022 年 6 月的 TOP500 榜单中,Frontier 位列第一名,其标称的速度是 1.685 FP64 ExaFLOPS。

橡树岭实验室的 Frontier 是业界首个使用 AMD 的 64 核 EPYC Trento 处理器、Instinct MI250X 计算 GPU 和 Hewlett Packard Enterprise(HPE)的 Slingshot 互连,能以 21 兆瓦功率提供高达 1.685 FP64 ExaFLOPS 峰值性能的系统。HPE 构建了该系统并使用了 Cray EX 架构,它专为横向扩展应用程序设计,适用于超高速超级计算机。

虽然从表面上看 Frontier 性能强大,并且系统硬件部分已经交付,但当前面临的问题似乎一直让机器无法保持正常运转,并且无法稳定提供即使是不及标称的 1 FP64 ExaFLOPS 的性能供研究人员使用。

OLCF 项目主管 Justin Whitt 表示:「我们正在解决硬件问题,并确保找出关键问题所在。目前看来主要是规模问题和应用程序的广度问题,系统运行的项目过大,很难让所有硬件协同运行,通常间隔几小时就会出现一次故障。」从某种意义上说,Frontier 是在超级计算机的期末考试上成绩不佳。

实际上,关于 Frontier 潜在硬件故障的流言已经出现了很长一段时间。InsideHPC 曾报道称有人说故障原因是系统遇到了 Slingshot 互连的问题。此外,还有人表示今年 AMD 的 Instinct MI250X 计算 GPU 的可靠性不如预期,并且具有更多流处理器和高时钟的 X 版本仅适用于特定客户。

Justin Whitt 没有证实该系统遇到了 Instinct 或 Slingshot 等任何特定问题,他只是强调该机器存在许多硬件问题。

OLCF 负责人表示:「很多挑战都集中在 GPU 上,GPU 是非常重要的硬件组成部分。但我们对 AMD 的产品尚且没有太多担忧。」

橡树岭国家实验室的 Frontier 超级计算机并不是唯一一个使用 HPE Cray EX 架构、 Slingshot 互连、AMD EPYC CPU 和 AMD Instinct 计算 GPU 的系统,芬兰的 Lumi 超级计算机(Cray EX , EPYC Milan, Instinct MI250X 计算 GPU) 能提供 550 PetaFLOPS 峰值性能,并已被 TOP 500 正式列为世界第三强大的超级计算机。也许对于此类使用上千万零件组成的超算来说,问题不是孤立的。

从官方论述来看,HPE 和 AMD 已在今年秋季提前向 ORNL 交付了新的 Frontier 系统。美国能源部 E 级超算项目的 Mike Bernhardt 表示,ORNL Frontier 的全面集成将从明年开始提供给研究人员,但并未引述对 Frontier 超级计算机的全面启动有任何担忧或问题。

在错过了原先设定的 Deadline 后,Frontier 超级计算机计划于 2023 年 1 月 1 日全面投入运行。

人们都在期待 E 级超算带来的研究成果,不过伴随世界第一而来的还有部分怀疑。一些专家认为,在 E 级计算的竞争中 Frontier 比不上中国的两个计算机系统,后者的运营商还没有向 TOP500 提交测试结果。外媒 the Nextplatform 曾表示,神威海洋之光(oceanlite,太湖之光的升级版)和天河 3 号超算在 2021 年 3 月就达到了持续的 E 级算力。

去年 11 月的全球超级计算大会 SC21 上,来自中国的超算应用团队因「超大规模量子随机电路实时模拟」成果获得戈登 · 贝尔奖。该团队表示,研究基于的新一代神威超级计算机可提供每秒 4.4 百亿亿次的持续计算性能,是超算领域全世界当时已知的最高混合精度浮点计算性能。

专家们表示,中美之间的紧张关系可能是中国没有向 TOP500 提交测试结果的原因。【责任编辑/李小可】

参考内容:

https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure

https://www.top500.org/lists/top500/2022/06/

https://www.tsinghua.edu.cn/info/1173/89027.htm

来源:机器之心

IT时代网(关注微信公众号ITtime2000,定时推送,互动有福利惊喜)所有原创文章版权所有,未经授权,转载必究。
创客100创投基金成立于2015年,直通硅谷,专注于TMT领域早期项目投资。LP均来自政府、互联网IT、传媒知名企业和个人。创客100创投基金对IT、通信、互联网、IP等有着自己独特眼光和丰富的资源。决策快、投资快是创客100基金最显著的特点。

相关文章
世界第一超算Frontier,启动至今无法连续工作一天
英伟达冲刺超算应用,一场抢食英特尔、AMD的“上位”计划?
美国首台E级超算为何登顶全球?外媒:中国E级超算不参加国际排名
“大胃王吃播”渐渐退出,“喝播”又来了!停!

精彩评论