<使用電腦或平板,採淺色背景有更好閱讀體驗>
老實說,跟電子產品相關的東西,我不愛投資散熱。
原因有幾個,原本的散熱產業為金屬加工業、氣冷為主、規模很類似、市場就那麼大塊、不一定只有上市櫃公司可以製作。簡言之,散熱類的企業,不符合我的投資理念,但不影響我認識這一塊,一樣從需求面開始談起,但後面AI教主欽點液冷散熱,就是另外一種概念惹。
熱源在哪?
電子產品,運轉必然會產生熱,原因是消耗電力,電力不會100%轉換成需要的能量,有部分會轉換成廢熱出現(這應該是最簡單的解釋)。既然要散熱,首先我們需要知道熱源有哪些
- 處理器
- CPU
- SoC
- GPU
- Networking Controller..
- 或是其他控制器
- 儲存裝置
- HDD
- SSD
- M.2
- NvME
- 電源 IC
不用列舉太多,凡是關係到 Data 讀寫傳輸、具有高功率傳輸的單元都是熱源。
散熱的必要性?
以處理器而言,在工程術語我們有分die的溫度、封裝表面的溫度、均熱片表面的溫度,但不管哪一種,只要溫度逼近安全上限,處理器會自我保護,降低工作效率(吃電沒那麼兇),強制自我降溫。更甚則會自動強制關機,達成絕對保護。當然我們不希望,服務突然中斷,在設計產品當下就會考量如何解熱。
iphone過熱時的畫面
要下什麼散熱方案,要先了解熱源需要什麼解掉多少熱,隨意找intel最近的server CPU產品,Intel® Xeon® Platinum 8580 Processor,這是一顆60核心、總執行緒120、基礎頻率2GHz、最高可達4GHz、最重要的數據TDP:350W。
350W是什麼概念,一般文書機250W~350W整台功耗,現在是一顆CPU就需要350W。
TDP是什麼,intel官網解釋整理如下,這邊的眉角是基礎頻率運行,且在高複雜度運算,得出的平均功耗,之後再透過spec確認每使用一瓦會提升多少度,可以給散熱工程師、機構工程師、熱流模擬參考。
熱設計功耗是處理器以基頻運行,且所有核心都在承受 Intel 所定義的高複雜性工作負載時的平均功耗,單位為瓦特。散熱解決方案需求詳見技術資料。
那最高頻率4GHz拿來做什麼?非工程設計人員,甚至一些菜鳥會以為4GHz可以常態維持。留意了,通常只能維持 100 mS(0.1秒) 看每一顆CPU的定義,所以這就是有點像是CPU放大招的感覺,瞬間加快運算把工作處理掉。瞬間產生的熱,也只是一瞬間,並非常態。實際上CPU是可以使用超過TDP的電量,但又回到前文,當100mS過後,會自動降頻回去。
散熱的方式?
科普一串之後,解熱的方式主要有哪些?
- 散熱片 配 自然空氣對流
- 散熱片 配 主動空氣對流
- 銅管散熱片 配 主動空氣對流
- 液冷散射片 配 主動空氣對流
- 沉浸式散熱(泡在冷卻液)
第一種
常見工業電腦(可參考研華產品),整個外殼都是散熱片造型,不配風扇。原因很簡單,硬體是不穩定的!風扇壞掉還要去更換,萬一這台是放在火車軌道旁偵測異常用,有多麻煩。
第二、三種是主流設計
散熱片材質大部分是鋁合金,需要導熱更快則會配上銅製導熱管。先說外型是鰭片(借用尼得科的產品)的好處,增加風流過的面積。製作過程有些是切的方式,有些是模具擠壓(01:00),這些外型只有一種作用,增加散熱面積。
銅管(尼得科產品)其實是中空,內部含有類似冷媒的液狀物,在熱源處吸收熱,汽化轉移到低溫區,冷卻後變回液體回流熱源處。會採用銅管的產品,大多是筆電、有厚度考量、空氣對流難以觸及熱源的解熱方式。因為銅比較貴、中空加工費用高、客製品,因此當銅價上揚、筆電出貨旺,這類產熱產品也具有較高的銷量。
主動空氣對流是什麼?風扇。將外部溫度低的空氣,抽進機殼內部,擠壓內部溫度高的空氣,讓其由另一端流出,達到散熱效果。
整串散熱流程就是
- 熱源的廢熱,傳遞到金屬散熱片上
- 散熱片與機殼內空氣交換熱
- 風扇引進冷風將熱空氣擠壓出機殼外
第四種,目前 AI server 最夯
如果有看懂,銅管那一段,那接下來液冷散熱您一定會懂,首先先看熱源的TDP,第3頁可以看到700W,一台AI Server 最低要配4片H200,瘋掉~請問這樣的熱該如何解,散熱片全銅、風扇最大風量催蕊?所以就衍生出液冷在AI server變成主流的方案。
- 熱源的廢熱,傳遞到金屬散熱片(或者要稱為液冷片也行)
- 散熱片與冷液模組交換熱
- 外部機器(冷卻機)抽走熱液,持續輸入冷夜
很難想像對吧,先看一下銅管冷氣,這是類似的概念,所以整個散熱核心內容,就是我要用什麼介質更有效率且經濟實惠的方式將處理器的熱給帶走。
第五種,韭菜的玩意兒
新建置的機房,才有機會去導入沉浸式散熱,反正就是整組泡在冷卻液,外部一樣會有冷卻系統交換熱液。
我先說個人的產業觀點:
優點
- 該機房基本上不需要冷氣了,反正都跑在冷卻液內。
- 安靜,沒風扇,風扇非常吵。
- 沒了。
缺點
- 現有機房難以改制
- 同樓層情況,原本建制是垂直堆疊,水平擴張,沉浸式只能水平擴張。
- 有多少廠商需要認證與保固,他們的元件通電時,可以泡在該冷卻液內。
- 主機壞了,取出放入都比現有的麻煩,需要額外的夾取裝置。
- 如果只是SSD壞掉,需要整台都停機a!!
- 現有的熱插拔,直接更換就好了。
- 除非冷氣錢的費用大於建置沉浸式,不知道有什麼好處。
潛在商機XD
- 在無法裝空調的地方建置資料中心。
- 海裡?感覺日本人會做
- 沙漠?
- 沒有正式機房的企業,只需要少數server,因為沒有風扇就沒有噪音。
- 但現有很多代管主機的商務服務
結論
散熱技術,你所看到的那五種,其實都存在滿久,只是產品是否需要那樣的解決方案。成本絕對是業主的最大考量,增加一顆風扇就可以解決的事情,為什麼需要拿銅管?用銅管就可以解決的事情,為何需要液冷?
另外是額外增開模具、對於成本也是一大挑戰。業主當然是能繼續使用就別更新,此外以前CPU的算力基本上也不會增加太多,因為現有的應用只需要這樣的能力而已,導致散產業的股價,在AI server 尚未出現之前,算是長期低迷。
有些人在談氣冷限制,液冷是未來,可取代xxxx,這我只能說,希望他夢想成真。一切都要從設計成本去思考,與其加大風量,增加耗電,考量整體成本後,黃仁勳欽點液冷也是不得不做的事。因為氣冷解熱已經不經濟實惠。
題外話:液冷的冷卻板與冷熱歧管,要做到不漏液,其快接頭也是技術之一,後來嘉澤也有作,可以在留意相關的產品,是否有其他廠商切入。
股價方面當然也有市場氛圍、市場作手、投顧老師...等,不明的散戶投資人,常常就是隨波逐流。有賺當然好事,凹到解套下次就別這樣。
就自己的觀察下來,想要更多的算力,就是用更多的功耗去堆,就會產生更多熱,那是否會出現算力過剩的情況?如果AI模型都訓練的差不多,後續的版本進步%越來越小,是否就是趨近企業認知的完美。
黃仁勳也說,新一代產品可以大幅降低訓練時間..等等,不就代表新產品在加快AI模型更完善的時間?科技業就是這樣,硬體大幅進步的時候,軟體應用是跟不上,當軟體應用出現的時候,就會產生額外的週邊硬體配合。
既然算力增加已成事實,看到一窩蜂的企業在堆算力的時候,我們要開始著眼,算力要用在哪?
現階段第一個是文字語言,老狗變不出新把戲,第二個肯定是視覺與聽覺,代替人眼判斷、接收人語資訊,產生對應資料。第三個是細微的動作感知。用這些方向去判斷AI應用,我認為是一項很好的投資研究,看些免費文章,找到一些應用,在去搜尋哪些企業可能可以提供物料、製造、服務。
給你四位數嗎?自己找吧~
- 本文完 -