分享液冷技术在AI芯片降温上的应用

时间:2024-07-04

当前各种AI大模型如火如荼,推动全球算力需求呈现爆炸式增长,伴随着算力需求的增长,全球电力、功耗方面的成本不断增加。据相关统计,AI算力下主流芯片功耗正不断增加,如Intel的多款CPU芯片的TDP已突破350W,NVIDIA的H100系列GPU芯片TDP更是达到700W,B100 TDP或将达到1000W左右。英伟达 GTC大会上,英伟达CEO黄仁勋发布了更高性能的GPU芯片——基于Blackwell架构的B200以及超级芯片GB200。由于功耗太高,液冷的散热方式成为系统的标配。英伟达还推出了超级计算机机柜DGX GB200 NVL72,拥有18个GB200节点机架,每个节点搭配2个GB200 GPU。黄仁勋表示,一个DGX GB200 NVL72机柜可以训练27万亿参数的模型。但由于功耗过大,所以也必须要采用液冷的方式进行冷却。

(图片来源于网络)


目前PC行业应用水冷技术越来越多,高端电脑基本上都是采用水冷散热,相比普通的风冷散热,散热效率上最大提升50%-60%,噪音也比普通风冷要低。

液冷以接触方式划分的话可分为接触式液冷和非接触式液冷,其中浸没式、喷淋式液冷等终端和载冷液直接接触的为接触式液冷,而通过冷板间接和终端连接,利用换热冷板和终端的热交换带走热量的称为非接触式液冷,我们在PC机上应用最多的就是这种非接触式液冷,冷头固定接触在CPU表面,通过水的流动,在冷头内部跟CPU进行热交换,带走CPU产生的热量。

目前市场上几乎所有的PC的液冷散热系统都是被动式的散热,即散热系统本身不产生冷量,而是通过冷排端的翅片冷凝器将系统的热量排出去从而形成散热,简单有效,散热效果比风冷强,但是也强不了太多,因为该系统不能主动产生冷量,当电脑进行超频时,CPU功率快速增加,发热量也同步增加被动式散热很难及时将热量带走,一般被动液冷极限也就到300-400W

为了解决此问题,酷凌时代针对AI芯片开发了压缩机制冷系统,冷量从300W-2000W,并采用静音降噪技术,压缩机可以实现变频和低冷量运行,适用于各种状态和模式下工作的CPU或是GPU,保证CPUGPU长时间处于合理、稳定和最佳工作状态。

下图为酷凌时代的Q520系列,如图所示

外置主机散热系统Q520图


基础版冷量达到500W,进阶版冷量达到600W,后续陆续推出1000W以上的机器和设备,用于超频或是CPUGPU同时稳定运行。

下图为1600W的主动降温系统,实测可以满足目前最新的CPU(如i9-14900KS)和GPU(如RTX4090)以最佳状态运行,而噪音也不大,55dB以内,满足民用的使用环境。

1600W主动降温系统图

(图片来源于网络)


液冷行业在蓬勃发展的同时也存在一些挑战,液冷技术在国内外发展已有十余年,但当前生态不完善,各家产品形态各异,产品规范化程度较低。目前业内尚无PC系统一接口规范标准,机柜与服务器深度耦合,各家PC设备、冷却液、制冷管路、供配电等产品形态各异,不同厂家产品接口不同、不能互相兼容,势必限制竞争,影响产业高质量发展。

因此,液冷技术标准、产业链生态仍有待更进一步的建立与规范,酷凌时代积极参与液冷技术规范的编写,利用自身在液冷行业的丰富经验和应用案例,推动液冷行业快速、高效、规范发展。


(本文章部分内容参考:来源于网络)