关闭

意见反馈/举报

反馈/举报信息:

联系方式:

3D打印水冷散热模拟小游戏,体验英伟达显卡随时烧毁

昨天的文章关于3D打印散热的:

电化学3D打印铜散热水冷板,将榨出数据中心更多算力

热阻、压降、PUE、所谓1GW数据中心释放344MW。

参数数字硬,但文章读起来还是抽象的。

所以我们花了一些时间,试图把这篇论文做成一个网页游戏。

下面想和大家分享的是这个过程,怎么从一篇论文一步步想到现在这个版本,以及读者打开游戏能玩到什么。


最初的想法做一个仪表盘

最直觉的做法当然是仪表盘。

一堆滑块,调流量、调入口温度、调泵转速,实时可以算温度PUE和温度。

我们玩了五分钟,就放弃了。

毫无游戏感,游戏需要冲突。

温度涨上来要烧GPU,必须有一个明确的、玩家能看见的对手或目标。


第二个想法做成愤怒小鸟

玩家拉弓蓄力,水珠飞出去撞GPU降温。

这是mobile游戏最容易上手的玩法。

视觉上挺好玩,发射有手感,命中有反馈。

但调着调着发现两件事不对。

散热不是离散事件,是连续过程。

真实冷板里水是24小时不停流的,不是玩家拉一次发一波。

拓扑冷板居然在游戏里成了劣势。

调参数的时候发现,拓扑优化的铜针翅结构会把水流打得到处弹,反而到不了GPU。

原因是弹弓模式里我们把流场扰动建模成了水被打散,反了。游戏机制错了,参数怎么调都救不回来,准备换个机制。


找到合适机制,连续粒子流

第三版的想法很简单,水是流动的,不是弹射的。

冷板有三个入口,每帧持续喷射粒子,粒子数量由一个全局流量滑块控制。

粒子在画布里飞,撞到针翅就给那颗GPU的散热能力加一些。

散热跟不上发热,温度就涨;跟得上,温度就降。

这个机制有几个好处。

温度往哪里走、走多快、玩家拉一下滑块多久能看到效果,都是连续的、有反馈的。

而且滑块和游戏世界直接对应,拉大流量,画面里粒子立刻变密;

切换工艺,针翅形状立刻变化。

读者不需要看HUD,光看画面就能感受到自己干了什么。

更重要的是需要自然涌现出工艺差异。

CNC是直水道,比表面面积低散热效率低,不过流阻也低很明显。

3D打印(SLM/ECAM)的各类针翅膀,水粒子被打得有扰动但每颗GPU区都被覆盖到。

这种差异不需要我们额外写规则,通过粒子的自然运动能大差不差的模拟。

但这个版本上线后,又发现问题。


被纠正的物理细节

我们一开始让GPU直接被水粒子撞。

但实际是GPU通过导热界面材料把热传给铜底板,铜底板把热扩散到针翅,水流冲针翅才是真正的对流换热。

GPU自己根本不接触水。

这次重写做了三件事,把GPU画成半透明矩形浮在冷板表面、给针翅加字段标记它属于哪颗GPU、粒子撞这些归属针翅时给对应GPU散热。

虽然不是真实的物理传热原理但修完之后画面终于和真实冷板物理的感觉差不多对得上了。


现在打开游戏能玩到什么

三入口连续水流、可选8款真实GPU、4种制造工艺、实时热阻。

游戏现在是一个自由实验台。

打开就是默认场景:四颗NVIDIA H100,SLM冷板,40%流量。

这时候GPU温度会缓慢涨,提示你必须做点什么。

可以做的事情有四件.

选GPU型号

8款真实数据中心芯片:

发热速率按比例计算。

选制造工艺

四种内部结构CNC直水道、SLM粗针翅、ECAM精细方块、ECAM拓扑(论文方案)。

切换的时候不只是参数变,画面里的针翅也立刻重建。

CNC模式画三条平行水道,ECAM-TO是密集分叉造型,一眼能看出谁的比表面积大。

调冷却水流量滑块

从0到100%。

流量越大粒子越密、散热越好,但泵功耗以平方关系上涨。

这是真实冷板里最重要的工程取舍。

HUD实时显示泵功耗,超过250W会变红警告。

点击放置/删除GPU

最多12颗。

下游GPU易比上游热。

有些数据中心如果散热系统设计的不好是存在上下游不均匀的问题的,游戏里通过粒子的能量衰减自然涌现。

游戏右上角的五格 HUD 会实时算几个数:

最热GPU温度(带 ↑ ↓ 趋势箭头)、已稳定GPU数量、泵功耗、比表面积、热阻R_th。


几个建议玩法

进游戏后可以试试这几条。

默认配置切到CNC

看温度怎么飙,300%流量下几B300配CNC冷板,几秒开始爆温,烧了好几块。

这就是论文的核心信息,传统冷板上不了下一代GPU。

默认配置切到ECAM-TO

50%流量轻松稳住,同样GPU配置,工艺一变,操作空间不一样。

每次切换都可以看HUD数字怎么变,看针翅画面怎么变,看粒子尾迹怎么变。


这个游戏的边界

想说一下游戏不能做的事,避免误会。

它不是Fluent,不是Flotherm,不是任何专业仿真CFD软件的简化版。

专业软件做的是真实物理场仿真,结果可以和实验对照。

我们做的是几百个粒子在画布上飞,撞针翅时计数器加一,物理上至少差三个数量级。

游戏里的R_th热阻数字只能横向对比工艺间相对差距,不能当真实测量值。

游戏的价值我们认为是直觉训练。

比如拉一下流量你就知道泵功耗平方关系;

切一次制造工艺就看到比表面积怎么影响散热效率;

多放几颗B300就明白数据中心得用新型散热。

AM易道的游戏不会让你成为散热工程师。

但下次再有人讨论散热、铜、冷板,你大概率能分得清哪些话有内容,哪些只是数字游戏。

游戏链接在此,点击即玩。

05-11 08:12 本文为 AM易道 原创内容,如对内容有疑问,请联系我们:yihanzhong@amedao.com
点赞
反对
收藏
分享
标签
英伟达 NVIDIA H100 B300 SLM ECAM CNC GPU 水冷板 AM易道 拓扑优化 针翅 数据中心 热阻 泵功耗 比表面积 冷板
AM易道招聘编辑 招募AM易道行业合伙人