AI算力需求增长对液冷产业链的带动作用分析报告
一、引言
随着生成式AI(如ChatGPT、GPT-4)、大模型训练、智能驾驶等高性能计算应用的爆发,全球AI算力需求呈现指数级增长。据OpenAI数据,训练GPT-3所需算力约为3.14×10²³ FLOPs,是2012年ImageNet竞赛算力的100万倍;而GPT-4的算力需求更是达到GPT-3的10倍以上。算力的提升直接推动服务器功耗激增——英伟达H100 GPU功耗高达700W,AMD MI300X GPU功耗亦超过600W,传统风冷散热(散热效率约为0.02W/cm·K)已无法满足高密度算力部署的需求。液冷技术(散热效率约为0.6-1.0W/cm·K)因具备更高的散热效率、更低的能耗(PUE,数据中心能耗效率)及更强的算力密度支持能力,成为AI时代数据中心的核心散热解决方案。
本文从
需求驱动逻辑
、
产业链环节带动作用
、
技术趋势
、
竞争格局
等维度,系统分析AI算力增长对液冷产业链的带动效应。
二、AI算力增长驱动液冷需求的核心逻辑
1. 算力密度提升倒逼散热技术升级
AI算力的核心载体是GPU/TPU等加速芯片,其算力与功耗呈正相关(如H100 GPU的算力为8 petaFLOPs,功耗700W;而2020年的A100 GPU算力为312 TFLOPs,功耗400W)。为提升算力密度,服务器厂商需在有限空间内集成更多芯片(如英伟达DGX H100服务器搭载8颗H100 GPU,功耗超过5kW),传统风冷(每机柜功率密度约5-10kW)无法有效散热,可能导致芯片降频、性能下降甚至损坏。液冷技术(尤其是浸没式液冷)可支持每机柜20-30kW的功率密度,完美匹配AI算力的高密度部署需求。
2. 液冷的能耗优势显著,降低数据中心运营成本
数据中心的主要成本为
电费
(占比约40%),而散热系统能耗占数据中心总能耗的30%-40%。液冷数据中心的PUE(Power Usage Effectiveness,即数据中心总能耗与IT设备能耗的比值)可降至1.1以下(如阿里张北液冷数据中心PUE为1.09),远低于风冷数据中心的1.3-1.5。以一个10MW的AI数据中心为例,液冷每年可节省电费约1500-2000万元(按0.5元/度计算),其初始投资(比风冷高20%-30%)可在2-3年内通过电费节省回收。
3. 政策与技术标准推动液冷普及
全球多国推出“双碳”目标(如中国“2030碳达峰、2060碳中和”),数据中心作为高能耗行业(占全球电力消耗的2%-3%),需通过液冷等节能技术降低碳排放。此外,行业标准(如ISO/IEC 21941《液冷服务器技术规范》)的出台,规范了液冷设备的设计、制造与测试,降低了客户的采用门槛。
二、液冷产业链各环节的带动作用
液冷产业链分为**上游(材料与组件)、中游(液冷设备与系统)、下游(算力与数据中心)**三大环节,AI算力增长对各环节的带动作用依次传导。
1. 上游:材料与组件需求爆发
上游是液冷产业链的基础,主要包括
冷却液、散热组件(如散热片、泵阀)、电子元件(如温度传感器)
。
2. 中游:液冷设备与系统成为核心增长点
中游是液冷产业链的核心,主要包括
液冷服务器、液冷机柜、冷却系统(如冷水机组、冷却塔)
。
液冷服务器
:是AI算力的载体,其市场规模随AI需求增长快速扩张。据Gartner数据,2023年全球液冷服务器市场规模为112亿美元,2027年将达到340亿美元,CAGR为32%。国内厂商如(液冷服务器及散热系统)、华为
(昇腾芯片液冷服务器)、联想
(ThinkSystem SR670 V2液冷服务器)均推出了AI优化的液冷服务器。例如,英维克的液冷服务器采用“冷板式+浸没式”混合设计,支持8颗H100 GPU,算力密度达到20kW/机柜。
液冷机柜
:集成了服务器、冷却系统、电源等组件,是高密度算力部署的关键。**佳力图(603912.SH)**的“液冷智能机柜”采用一体化设计,支持16颗GPU,PUE降至1.1以下,已应用于腾讯、阿里的AI数据中心。
冷却系统
:包括冷水机组、冷却塔、泵组等,用于为液冷服务器提供低温冷却液。**高澜股份(300499.SZ)**的“纯水冷却系统”采用智能控制算法,可根据GPU负载调整冷却液流量,提高散热效率30%以上,已成为英伟达、AMD等厂商的核心供应商。
3. 下游:算力与数据中心的液冷改造需求
下游是液冷产业链的需求端,主要包括
AI算力厂商(如英伟达、阿里、腾讯)、数据中心运营商(如三大运营商、万国数据)
。
AI算力厂商
:英伟达的DGX SuperPOD(基于H100 GPU的液冷集群)是AI训练的标杆产品,其算力达到1 exaFLOPs(每秒10¹⁸次浮点运算),需通过浸没式液冷维持芯片温度在80℃以下。国内厂商如百度
(文心一言大模型液冷数据中心)、字节跳动
(抖音AI推荐算法液冷集群)均在大规模部署液冷服务器。
数据中心运营商
:传统数据中心需改造为液冷以支持AI算力。例如,中国移动
(2023年启动“液冷数据中心改造计划”)、联通
(“算力网络液冷试点项目”)均计划将10%以上的传统数据中心改造为液冷,以满足AI客户的需求。
三、技术趋势:从“被动散热”到“智能液冷”
AI算力增长推动液冷技术向
更高效率、更智能、更集成
方向发展:
浸没式液冷渗透率提升
:浸没式液冷(将服务器完全浸入冷却液中)的散热效率是冷板式的2-3倍(冷板式仅冷却芯片表面,而浸没式冷却整个服务器),适合更高密度的GPU部署。据IDC预测,2027年浸没式液冷的渗透率将从2023年的15%提升至40%。
智能液冷系统
:采用AI算法优化冷却液的流量、温度、压力,实现“按需散热”。例如,英维克
的“AI智能液冷系统”通过收集GPU的温度、负载数据,用深度学习模型预测散热需求,调整泵阀转速,降低能耗15%以上。
液冷与算力的融合
:液冷服务器的设计与GPU/TPU的架构深度融合,例如英伟达的H100 GPU采用“ Chip-on-Wafer-on-Substrate(CoWoS)”封装,配合浸没式液冷可支持更高的频率(如2.5GHz以上),提升性能20%以上。
四、竞争格局:国内厂商加速崛起
液冷产业链的竞争格局呈现“全球巨头与国内厂商共存”的特点:
上游冷却液
:全球巨头如3M(氟化液)、陶氏化学(合成油)占据高端市场,国内厂商如长城科技
(纯水冷却剂)、中科润达
(氟化液)通过成本优势抢占中低端市场。
中游液冷设备
:国内厂商如英维克
(液冷服务器及散热系统)、佳力图
(液冷机柜)、高澜股份
(纯水冷却系统)已进入全球第一梯队,其产品性能(如PUE、算力密度)与国际巨头(如戴尔、惠普)相当,而价格低20%-30%。
下游算力
:英伟达(H100 GPU)占据AI算力的主导地位(市场份额约80%),国内厂商如华为
(昇腾910B GPU)、阿里
(平头哥玄铁910 GPU)正在追赶,其液冷服务器的性能已接近国际水平。
五、风险因素
初始成本较高
:液冷服务器的价格比风冷高20%-30%,部分中小数据中心可能因资金限制推迟采用。
维护难度较大
:液冷系统的维护需要专业人员(如冷却液的更换、泄漏检测),而国内具备液冷维护能力的人员不足。
技术标准不完善
:虽然已有部分行业标准,但针对浸没式液冷、智能液冷的标准仍在制定中,可能导致产品兼容性问题。
六、结论
AI算力需求增长是液冷产业链的
核心驱动力
,其带动作用从上游材料、中游设备到下游算力依次传导。随着算力密度的提升(如GPU功耗从400W增至700W以上),液冷的渗透率将从2023年的10%提升至2027年的35%(据IDC预测),产业链各环节均将受益。
投资建议
:重点关注中游液冷设备厂商(如英维克、佳力图、高澜股份),其产品直接受益于AI算力增长;上游冷却液厂商(如长城科技、中科润达)也将迎来需求爆发;下游算力厂商(如英伟达、华为)的液冷服务器销量增长将带动整个产业链的升级。
总之,液冷产业链是AI时代的“基础设施”,其增长潜力巨大,值得长期关注。