AI训练54天,每3小时就故障一次,GPU故障率是CPU的120倍!

网站首页    AI训练54天,每3小时就故障一次,GPU故障率是CPU的120倍!
近日,Meta发布了其最新的Llama 3 405B大语言模型,并公布了一项研究成果,405B模型通过由16384张英伟达H100 80G GPU组成的服务器集群,训练运行持续了54天。在这54天中,集群遭遇了419次意外组件故障,平均每3小时就发生一次故障,超过50%的故障都是由GPU或其上HBM3导致的,据统计,GPU故障率是CPU的120倍以上。
系统越大、组件越多,其故障率必然就越高!Meta的这一研究再次印证了这一观点。16384个GPU训练规模和数据同步特性极易导致故障,如果故障没有得到及时缓解,单个GPU故障可能会导致整个训练任务崩溃,最终导致整个集群重启。不过据Llama 3团队透露,其保持了90%以上的有效训练时间。
据研究数据显示,在为期54天的训练过程中,总计发生了466次任务终端,其中47次是计划中断,而419次都是意外中断。计划中断主要是用于自动维护,而意外中断则主要源于硬件问题,其中GPU故障导致的中断次数最多,比例高达58.7%。但只有三起时间需要大量的人工干预,其余时间均由自动化管理。

 
从上图可以看到,在419次意外中断事件中,148次(30.1%)是由各种GPU故障(包括NVLink故障)引发的,72次(17.2%)是由于HBM3内存导致的。而在54天的训练过程中,只有两起故障中断是CPU引发的。毋庸置疑,GPU是AI训练中最重要的组件,显然其也是最脆弱的组件,41.3%的意外故障是由多种因素造成的,包括软件错误和网络故障。
并且,Meta研究数据还显示,环境因素也是影响GPU集群性能的因素之一。比如温度波动会导致吞吐量变化1~2%,从而影响训练性能,同时GPU的动态电压和频率缩放也会受到这些温度变化的影响。
同时,Llama 3团队在训练过程中的另一大挑战是电力,数万张GPU卡同时高负荷运行会给数据中心电力带来极强的压力,有时候其电力需求甚至高达数十兆瓦,超出了电网的极限。
 
 

 

2024年7月31日 09:15
浏览量:0