分享液冷技术在AI芯片降温上的应用

时间：2024-07-04

当前各种AI大模型如火如荼，推动全球算力需求呈现爆炸式增长，伴随着算力需求的增长，全球电力、功耗方面的成本不断增加。据相关统计，AI算力下主流芯片功耗正不断增加，如Intel的多款CPU芯片的TDP已突破350W，NVIDIA的H100系列GPU芯片TDP更是达到700W，B100 TDP或将达到1000W左右。英伟达 GTC大会上，英伟达CEO黄仁勋发布了更高性能的GPU芯片——基于Blackwell架构的B200以及超级芯片GB200。由于功耗太高，液冷的散热方式成为系统的标配。英伟达还推出了超级计算机机柜DGX GB200 NVL72，拥有18个GB200节点机架，每个节点搭配2个GB200 GPU。黄仁勋表示，一个DGX GB200 NVL72机柜可以训练27万亿参数的模型。但由于功耗过大，所以也必须要采用液冷的方式进行冷却。图片来源于网络

（图片来源于网络）

目前PC行业应用水冷技术越来越多，高端电脑基本上都是采用水冷散热，相比普通的风冷散热，散热效率上最大提升50%-60%，噪音也比普通风冷要低。

液冷以接触方式划分的话可分为接触式液冷和非接触式液冷，其中浸没式、喷淋式液冷等终端和载冷液直接接触的为接触式液冷，而通过冷板间接和终端连接，利用换热冷板和终端的热交换带走热量的称为非接触式液冷，我们在PC机上应用最多的就是这种非接触式液冷，冷头固定接触在CPU表面，通过水的流动，在冷头内部跟CPU进行热交换，带走CPU产生的热量。

目前市场上几乎所有的PC的液冷散热系统都是被动式的散热，即散热系统本身不产生冷量，而是通过冷排端的翅片冷凝器将系统的热量排出去从而形成散热，简单有效，散热效果比风冷强，但是也强不了太多，因为该系统不能主动产生冷量，当电脑进行超频时，CPU功率快速增加，发热量也同步增加被动式散热很难及时将热量带走，一般被动液冷极限也就到300-400W。

为了解决此问题，酷凌时代针对AI芯片开发了压缩机制冷系统，冷量从300W-2000W，并采用静音降噪技术，压缩机可以实现变频和低冷量运行，适用于各种状态和模式下工作的CPU或是GPU，保证CPU和GPU长时间处于合理、稳定和最佳工作状态。

下图为酷凌时代的Q520系列，如图所示

外置主机散热系统Q520

外置主机散热系统Q520图

基础版冷量达到500W，进阶版冷量达到600W，后续陆续推出1000W以上的机器和设备，用于超频或是CPU、GPU同时稳定运行。

下图为1600W的主动降温系统，实测可以满足目前最新的CPU（如i9-14900KS）和GPU（如RTX4090）以最佳状态运行，而噪音也不大，55dB以内，满足民用的使用环境。

1600W主动降温系统

1600W主动降温系统图

（图片来源于网络）

液冷行业在蓬勃发展的同时也存在一些挑战，液冷技术在国内外发展已有十余年，但当前生态不完善，各家产品形态各异，产品规范化程度较低。目前业内尚无PC系统一接口规范标准，机柜与服务器深度耦合，各家PC设备、冷却液、制冷管路、供配电等产品形态各异，不同厂家产品接口不同、不能互相兼容，势必限制竞争，影响产业高质量发展。

因此，液冷技术标准、产业链生态仍有待更进一步的建立与规范，酷凌时代积极参与液冷技术规范的编写，利用自身在液冷行业的丰富经验和应用案例，推动液冷行业快速、高效、规范发展。

（本文章部分内容参考：来源于网络）

分享液冷技术在AI芯片降温上的应用

友情链接