AI训练54天，每3小时就故障一次，GPU故障率是CPU的120倍！

网站首页 낀 AI训练54天，每3小时就故障一次，GPU故障率是CPU的120倍！

近日，Meta发布了其最新的Llama 3 405B大语言模型，并公布了一项研究成果，405B模型通过由16384张英伟达H100 80G GPU组成的服务器集群，训练运行持续了54天。在这54天中，集群遭遇了419次意外组件故障，平均每3小时就发生一次故障，超过50%的故障都是由GPU或其上HBM3导致的，据统计，GPU故障率是CPU的120倍以上。

系统越大、组件越多，其故障率必然就越高！Meta的这一研究再次印证了这一观点。16384个GPU训练规模和数据同步特性极易导致故障，如果故障没有得到及时缓解，单个GPU故障可能会导致整个训练任务崩溃，最终导致整个集群重启。不过据Llama 3团队透露，其保持了90%以上的有效训练时间。

据研究数据显示，在为期54天的训练过程中，总计发生了466次任务终端，其中47次是计划中断，而419次都是意外中断。计划中断主要是用于自动维护，而意外中断则主要源于硬件问题，其中GPU故障导致的中断次数最多，比例高达58.7%。但只有三起时间需要大量的人工干预，其余时间均由自动化管理。

从上图可以看到，在419次意外中断事件中，148次（30.1%）是由各种GPU故障（包括NVLink故障）引发的，72次（17.2%）是由于HBM3内存导致的。而在54天的训练过程中，只有两起故障中断是CPU引发的。毋庸置疑，GPU是AI训练中最重要的组件，显然其也是最脆弱的组件，41.3%的意外故障是由多种因素造成的，包括软件错误和网络故障。

并且，Meta研究数据还显示，环境因素也是影响GPU集群性能的因素之一。比如温度波动会导致吞吐量变化1~2%，从而影响训练性能，同时GPU的动态电压和频率缩放也会受到这些温度变化的影响。

同时，Llama 3团队在训练过程中的另一大挑战是电力，数万张GPU卡同时高负荷运行会给数据中心电力带来极强的压力，有时候其电力需求甚至高达数十兆瓦，超出了电网的极限。

2024年7月31日 09:15

ꄘ浏览量：0

ꂃ上一篇：无

ꁹ下一篇：无

商务支持

邮箱：Sales@aeasylink.com

电话：400-880-9586

技术支持

邮箱：support@aeasylink.com

电话：400-880-9586

企业微信

客服电话

服务时间

微信二维码

AI训练54天，每3小时就故障一次，GPU故障率是CPU的120倍！