“以全球最高價買入GPU、再以全球最低價出租的國內(nèi)算力市場,背后癥結(jié)是什么?”
作者丨趙之齊
編輯丨胡敏
“5-10年內(nèi),算力行業(yè)可能從當前的動態(tài)平衡,逐步轉(zhuǎn)向長期的賣方市場。”
當基模創(chuàng)業(yè)公司放緩訓練腳步、數(shù)據(jù)中心退租現(xiàn)象頻發(fā),外界紛紛唱衰智算市場,商湯旗下負責智算業(yè)務的子公司煒燁智算的商務副總裁孟健雄,卻有此信心。
這份信心,源于他在智算領域的經(jīng)驗與積累。2022年,孟健雄就加入算力領域知名公司、彼時算力板塊的“領頭羊”英博數(shù)科團隊,與團隊共同打造了當時中國最大的單體成建制高性能GPU集群。當時,他們把英偉達DGX A100 SuperPOD集群引入中國落地,后來也成為英偉達在中國唯一的AI創(chuàng)新賦能中心?!翱梢哉f,我們是智算行業(yè)的拓荒者”,他如此定位這段經(jīng)歷。
而后,孟健雄和核心團隊離開英博數(shù)科,創(chuàng)立煒燁智算。公司聚焦智算中心全生命周期管理,業(yè)務覆蓋從前期規(guī)劃、基礎設施建設、供應鏈整合,到后期運維運營及資本退出的完整鏈路,定位為新質(zhì)生產(chǎn)力資產(chǎn)管理平臺。
與此同時,商湯科技在AI全鏈路技術領域的深厚積累,尤其是其大裝置平臺軟件的核心能力,吸引了團隊的關注。雙方達成合作,煒燁智算引入商湯科技的天使輪投資,此后正式成為商湯科技智算業(yè)務板塊的核心載體,對接頭部KA客戶,成為商湯智算業(yè)務布局中的 “特種部隊”。
也因此,在大家普遍感受到智算市場的消納降溫、利潤下滑時,處于大廠陣營內(nèi)的煒燁智算,仍能保持相對可觀的毛利率水平。
不過,孟健雄也看到了行業(yè)的消納痛點。在他看來,此前算力需求很多源于基礎大模型的訓練,但當前的核心瓶頸是LLM(大語言模型)撞到了數(shù)據(jù)的天花板,基模訓練短期內(nèi)難以提供算力增量;可是,新的潛在消納動能也已在醞釀:后續(xù)多模態(tài)對顯存和算力的需求很大,一旦能突破訓練數(shù)據(jù)匱乏的困境,將引發(fā)遠超 “2022-2023年全球算力荒” 的需求爆發(fā)。
在尚未走出消納困局的此刻,行業(yè)內(nèi)卷仍在加劇。孟健雄直接地點出國內(nèi)GPU市場的成本困境:“國內(nèi)市場是用全球最高的價格買GPU,再用全球最低的價格把它們租出去。”
他觀察到,比起物理屬性,GPU此刻更像是一種金融資產(chǎn),其價格是被Scaling Law這個宏大敘事?lián)纹饋淼?,當下GPU的價格其實是人們對AI未來發(fā)展的凈現(xiàn)值的預測。盡管一系列政策以及GPU服務器二手市場也已逐漸興起,為改善這種“高買低賣”的情況提供了可能,但具體效果還需要時間進行檢驗。
然而,在智算行業(yè)面對消納滯漲的同時,算力相關廠商卻在二級市場迎來暖春——近來,協(xié)創(chuàng)數(shù)據(jù)、云天勵飛、銳捷網(wǎng)絡等多支算力概念股迎來大漲。孟健雄也指出,英偉達過去十幾年最大的技術突破發(fā)生在2012-2022年里,市值上升10倍卻發(fā)生在最近30個月里。對金融屬性非常敏感的他,認為未來第三方AIDC廠商,除了和大客戶捆綁、定制化成長外,也要借助金融工具謀求出路,才能在大廠、運營商稱霸的算力市場里有一席之地。
在“AI一天、人間一年”的當下,孟健雄對算力行業(yè)的未來有何預判?推理算力需求什么時候會迎來爆發(fā)?未來端側(cè)與數(shù)據(jù)中心之間會呈現(xiàn)出什么形態(tài)?第三方AIDC廠商的出路又在哪里?以下是雷峰網(wǎng)與孟健雄的對話。為了方便理解,對話內(nèi)容經(jīng)編輯。
01
Agent算力需求何時爆發(fā)?樂觀估計6-12個月內(nèi)
雷峰網(wǎng):在DeepSeek出圈后,許多基模創(chuàng)業(yè)公司似乎也放慢了訓練的腳步,數(shù)據(jù)中心退租現(xiàn)象明顯,這是否意味著未來數(shù)據(jù)中心市場需求會下降?在你看來,訓練帶來的算力需求未來增長潛力預計如何?
孟健雄:我認為,未來人們對算力的需求會有機會變成“無底洞”。
為什么這么說?一方面,現(xiàn)在LLM撞到數(shù)據(jù)的天花板了,基模的訓練在短期內(nèi)提供不了什么算力需求增量;但在改善推理性能方面,后訓練部分還會帶來一段時間的算力需求。
但另一方面,多模態(tài)對顯存和算力的需求比LLM更大,只是多模態(tài)領域還沒有遇到一個Transformer之于LLM那樣的加速器,尤其是具身智能方向,現(xiàn)在可以說是有算法、有算力但沒數(shù)據(jù),一旦解決訓練數(shù)據(jù)的匱乏,對算力的需求會比2022年底到2023年那段時間的“全球算力荒”更甚。
雷峰網(wǎng):除了訓練這一核心需求外,當下AI推理的需求也持續(xù)攀升,目前已經(jīng)帶來哪些具體的改變?
孟健雄:推理算力占比的暴漲,一是讓大模型本身by token API的生產(chǎn)力已經(jīng)廣泛商業(yè)化了,并且,Agent、DeepResearch這種極度吃推理算力的模型產(chǎn)品形態(tài),也找到了PMF,有用戶喜歡、也能收費,后面用量的繼續(xù)加速爬坡是個確定的事情。
雷峰網(wǎng):推理端用量加速爬坡,預計什么時候占比會比訓練端更大?
孟健雄:這主要取決于爆款應用什么時候出來。目前看起來,Agent是最有希望的方向,最接近消費、對算力消耗也很大,行業(yè)里比較樂觀的估計是6-12個月內(nèi)。大廠們前段時間以來已經(jīng)開始增加推理算力配置,其實也是對這種預估的一種驗證。
回顧起來距離我們最近的一場推理算力需求的爆發(fā)是挖礦,挖礦的盡頭是專用集成電路ASIC,現(xiàn)在AI應用還沒有在這一方向上大量占領市場,只是因為推理需求的特征還沒收斂。
雷峰網(wǎng):有說法說,未來邊緣端數(shù)據(jù)會占整個社會總量數(shù)據(jù)的80%,在你看來,邊緣計算的崛起是否會影響智算中心發(fā)展的可持續(xù)性?
孟健雄:很好的問題。中長期來看,邊緣數(shù)據(jù)的采集效率及采集量、和邊緣推理計算的算力總量,注定會有一個爆發(fā)期,但這對中心化的數(shù)據(jù)中心來說,其實是synergy(協(xié)同發(fā)展)關系,而不是零和關系。
雷峰網(wǎng):怎么理解兩者間的協(xié)同?
孟健雄:拿具身智能舉例,每臺機器人、每輛電動車、每架無人機,都在不停采集多模態(tài)數(shù)據(jù)、在端側(cè)進行實時計算,但如果工作在端側(cè)就結(jié)束了,那端側(cè)就依舊是孤島。
這些端側(cè)個體采集到的數(shù)據(jù)和反饋,海量、多樣、且結(jié)構(gòu)化,只有集中到中心化的數(shù)據(jù)中心或智算中心分析和訓練計算,才能發(fā)揮價值。并且,也只有這些中心化的場所,能更低成本高效率地完成這種量級工作。
所以,一句話總結(jié),端側(cè)的發(fā)展實際上會為數(shù)據(jù)中心帶來需求的增量,而不是反過來影響其發(fā)展。
雷峰網(wǎng):最終兩者間會呈現(xiàn)出什么樣的狀態(tài),行業(yè)又應該對此做些什么準備?
孟健雄:大家常聽到的觀點是:日后邊緣計算與中心化計算的協(xié)同模式,是“邊緣計算+分布式數(shù)據(jù)中心”,但我們認為,最終整個計算業(yè)態(tài),還是會收斂到“少數(shù)超大型中心化數(shù)據(jù)中心+與之高速互聯(lián)的邊緣節(jié)點”模式。
數(shù)據(jù)上說,小型邊緣節(jié)點PUE(能源使用效率)是2.0左右,遠高于集約化數(shù)據(jù)中心的PUE 1.2-1.5,所以只有“超大型中心化+互聯(lián)邊緣”這種架構(gòu),才能使得整個體系的成本最低、效率最高。在這種趨勢下,能源與通信成本就是底層競爭力,從這個角度講,我非常看好中國。
雷峰網(wǎng):那整體來說,除了推理算力占比的提升,未來AIDC行業(yè)還會面臨什么新的挑戰(zhàn),AIDC廠商需要如何應對?
孟健雄:可以從幾類不同的主體來看。對于大廠來說,平臺化的商務模式韌性很高,主要還是滿足整體市場內(nèi)的共性需求,捆綁自身能力銷售。運營商這類主體,相對以追求資產(chǎn)價值為主,商務能力較強但創(chuàng)新能力存在一定提升空間。
而對于第三方AIDC廠商,盡頭是跟大客戶捆綁、定制化成長,也能因此最終走上自己獨特的技術路線,這個類別也會是金融工具使用最為頻繁的——因為大廠、運營商自身的資金成本低,或者本身自有資金就很豐富,所以其它AIDC廠商可能就要借助資金杠桿上突破創(chuàng)新,才能與前兩者對齊。
但總的來說,接下來的算力市場,最底層共性還是要提升經(jīng)營效率、算力效率和能源效率,等達到效率優(yōu)化的邊際以后,資本熱點其實也就向生態(tài)上層轉(zhuǎn)移了。到時候,焦點會更多集中在數(shù)據(jù)、算法上的突破,和這些突破帶來的應用層的價值,這一層最有想象空間。
雷峰網(wǎng):在未來資本市場焦點發(fā)生轉(zhuǎn)移前,當下資本市場的關注焦點,主要還放在什么層面?
孟健雄:先從最簡單的說,根據(jù)我們觀察,如果是純算力建設的項目,性質(zhì)更傾向于類債項目,就是風險和收益上與傳統(tǒng)債券有相似性的投資項目或資產(chǎn)。這部分投資者主要是看硬件軟件的先進性和財務表現(xiàn),包括最重要的項目財務健康度和投資回報周期等。2023年、2024年一部分以市值管理為目的的投資者,也是用這個邏輯。
基于長期主義的投資者,考量角度就比較復雜了。算力是AI應用的基礎,中長期主義投資者會更關注未來上層的價值產(chǎn)出,智算項目的規(guī)模、算力效率、技術架構(gòu)乃至整個智算平臺生態(tài)的價值都是考量因素,屬于更偏向成長型權益類投資。
雷峰網(wǎng):那現(xiàn)在的算力市場,大家對智算項目的期待和考量,整體會比以前更理性了嗎?
孟健雄:是的,踩過很多市場亂象的坑后,現(xiàn)在大家會更關注項目穿透到最后是誰。不過市場上仍有時間差的,部分投資者還是2023年、2024年的思想狀態(tài),這跟大家入場時間點不同有很大關系。
02
“5-10年內(nèi),算力行業(yè)可能轉(zhuǎn)向賣方市場”
雷峰網(wǎng):你在2022年左右就加入英博數(shù)科團隊,可以說是很早一批踩過算力市場坑的人,在你看來,現(xiàn)在這些亂象問題背后的癥結(jié)是什么?
孟健雄:現(xiàn)在的市場亂象,比如包銷、消納協(xié)議違約等,是因為大家“不這么做就算不過來賬”,但說到底就是成本太高、售價太低。
先說成本問題。其實GPU的價格是被Scaling Law這個宏大敘事?lián)纹饋淼模ミ_這家公司在過去十幾年最大的技術突破發(fā)生在2012-2022年里,但市值上升10倍卻發(fā)生在最近30個月里,所以當下GPU的價格,其實是人們對AI未來發(fā)展的凈現(xiàn)值的預測,這種定價思維偏離了成本考量的定價邏輯,把GPU物理產(chǎn)品變成了一種金融屬性的資產(chǎn)。
接下來是算力售價問題。國內(nèi)市場是用全球最高的價格買GPU、再用全球最低的價格把它們租出去。中國的算力供需市場除了電力成本比美國低,其它都比美國高,所以你看,美國人在喊智算的盡頭是能源,我們在發(fā)展國產(chǎn)可控自主。
雷峰網(wǎng):怎么理解GPU變成一種金融屬性的資產(chǎn)呢?
孟健雄:舉個例子,你買一臺用來做土建工程挖溝的挖掘機,你就會關注這機器貴不貴、扛不扛風吹日曬;但如果你買的是可以挖金礦的挖掘機,是不是就不會對它的價格太敏感了?而且大家都想挖金礦,就算你不買,也有別人買,價格自然就高上去了。
雷峰網(wǎng):所以說,因為GPU是AI這類“高收益項目” 的基礎,它的價格就不再只是由硬件成本決定,而是像金融資產(chǎn)一樣,價格會隨收益預期和稀缺性而波動。
孟健雄:是的。正好借此說回剛才提到的兩個問題癥結(jié),成本高這塊我們解決不了,產(chǎn)業(yè)鏈不在我們手里,所以能讓大家發(fā)揮點主觀能動性的,就是售價這一塊——這也是更根本的地方。
投資方怕售價低、本兒收不回來,就會要求建設方運營方包銷兜底。而在售價低的情況下,運營方或消納方要想兌現(xiàn)協(xié)議,只能從各個方面努力爭取降低消納壓力,最直觀的就是能源補貼和算力券等方法。如果這些方法也爭取不到,違約退租就是消納方最后的止損方法。
雷峰網(wǎng):智算中心售價低,卻反而可能導致違約退租的情況出現(xiàn),如何理解這種看似矛盾的市場狀態(tài)呢?
孟健雄:現(xiàn)在的GPU租賃市場上,我們常聽到兩種相互矛盾的聲音:一種是“算力設備閑置、價格內(nèi)卷”,一種是“客戶在市場上找不到合適的算力、大廠們都忙著在全國收算力”,這兩種情況都真實存在。
但“設備閑置、價格內(nèi)卷”更具體點講,是“零散、異構(gòu)的算力匹配不到合適的客戶,而被迫閑置”。這有兩種可能,一是集群性能達不到專業(yè)客戶的要求;二是好不容易找到了要求一般的客戶、但用不了幾個月他們訓練工作就結(jié)束了,與此同時,新的用戶還沒找到,這些智算中心因為在空檔期就被迫降價傾銷。
而與之對應的“算力稀缺”情況,則是客戶們需要穩(wěn)定存儲、網(wǎng)絡和平臺軟件配套齊全的成建制集群。能達到這種水平的目前基本只有大廠,但大廠們自己也要用,高質(zhì)量資源售罄的情況下,想找到合格可用的算力也很難。
雷峰網(wǎng):性能和技術門檻,確實也是行業(yè)內(nèi)反復提到的導致現(xiàn)在算力“結(jié)構(gòu)性過剩”的一個關鍵核心。但在你看來大家成建制集群跟不上大廠的原因是什么,真的是自身研發(fā)能力不夠嗎?
孟健雄:導致各地智算中心追不上大廠水平的原因,本質(zhì)還是在于這些項目是資本驅(qū)動的。
資本更看中他們懂的那部分:不動產(chǎn)、大機電、GPU等這些資產(chǎn)管理的東西,但智算中心能收多少租金,最終靠的是交付質(zhì)量。從資產(chǎn)到算力交付,中間隔著巨大的技術水平鴻溝。但現(xiàn)在市場上沒有那么多大廠供資本選擇,所以很多資本退而求其次,以最低配置跑步入場。
并且,一個智算項目同時還可能需要滿足太多其它目標,最終就形成了設備閑置、價格內(nèi)卷的現(xiàn)象。
雷峰網(wǎng):現(xiàn)在也已經(jīng)有一系列政策對這種現(xiàn)象進行干預,在你看來,這種情況有在好轉(zhuǎn)嗎?
孟健雄:長期看好,但可能短期內(nèi)不會改善。雖然國家出臺了相應窗口文件,但其影響還需要一段時間來沉淀出結(jié)果。民間也有逐漸興起GPU服務器二手市場,也能對這種情況有改善,但具體改善多少,有待時間驗證。
雷峰網(wǎng):結(jié)構(gòu)性過剩畢竟也是一種“過?!?,這意味著現(xiàn)在智算市場可能對大多數(shù)廠商來說,已經(jīng)飽和了嗎?
孟健雄:市場是有周期性的。具身智能(包括自動駕駛)的iPhone時刻已經(jīng)到來,關鍵在于核心技術突破在什么時候發(fā)生,比如AI生成多模態(tài)訓練數(shù)據(jù)的能力、電機和電池的革新。小周期應該是從當前供大于求,向供需平衡、直至供小于求發(fā)展。
雷峰網(wǎng):這個周期預計會多久?
孟健雄:我認為未來5-10年內(nèi),算力市場會呈現(xiàn)出一個向長期賣方市場變化的趨勢。
03
煒燁與商湯“聯(lián)姻”背后:獲取技術與KA客戶資源的雙贏
雷峰網(wǎng):目前算力市場很多廠商是在貼著成本價去做,那么成立至今只有一年多的煒燁智算,利潤如何?
孟健雄:煒燁智算作為商湯科技智算業(yè)務板塊的載體,處于智算大廠陣營,天然有些技術優(yōu)勢和規(guī)模成本優(yōu)勢,這部分溢價讓煒燁智算的毛利率水平能保持在行業(yè)高位。
歷史上,百團大戰(zhàn)最后就剩下美團和餓了么,百模大戰(zhàn)迅速就只剩下頭部幾個基模,未來智算行業(yè)大概率也只會聚焦于經(jīng)營效率最優(yōu)化的頭部玩家,發(fā)展慢就會被動下牌桌,這是客觀發(fā)展規(guī)律。
雷峰網(wǎng):但現(xiàn)在智算領域仍有許多創(chuàng)業(yè)公司存在。
孟健雄:創(chuàng)業(yè)公司要發(fā)展獨特性,或說細分市場,如果沒有差異化,就會敗給效率更高的平臺。大廠為了追求平臺效率最高,會優(yōu)先滿足客戶的共性需求,犧牲定制化。跟大廠競爭的事情交給運營商去做。
雷峰網(wǎng):你們強調(diào)自己在做的是“智算中心的全生命周期管理”,這是否是你們的差異化?要做到這一點,主要困難會在哪里?
孟健雄:現(xiàn)在市面上許多玩家都只負責數(shù)據(jù)中心建設其中某個環(huán)節(jié),但我們是從規(guī)劃、建設、供應鏈、運維運營到資本退出,整個穿透。
我們團隊從2022年底開始沉淀供應鏈、技術、項目建設與運營相關的資源,做這件事的主要難點就在于每個層級就都要有積累,不能為了一個項目臨時攢局。
雷峰網(wǎng):你們吸引到投資者,主要就是你們選擇的這條路線嗎?
孟健雄:還有我們的背景。煒燁智算創(chuàng)始團隊在2022年,將英偉達DGX A100 SuperPOD集群引入中國落地的團隊,做成了當時中國最大的單體成建制高性能GPU集群,是第一個做成這件事的人。后來我們成為英偉達在中國唯一的AI創(chuàng)新賦能中心,最早開始經(jīng)營英偉達生態(tài)建設,我們認為自己是智算行業(yè)早期的拓荒者。
商湯科技也是看中了我們的背景,在煒燁智算團隊獨立創(chuàng)業(yè)后投資了我們,并把智算業(yè)務交給煒燁來做。
雷峰網(wǎng):團隊出來創(chuàng)業(yè)時,市場上投煒燁智算的人多嗎?為什么選擇了商湯呢?
孟健雄:當時我們還挺搶手的,也和其他資方包括大廠談過,但最后選擇了商湯,是因為商湯是非常技術驅(qū)動的公司,他們的技術加上煒燁智算自己的經(jīng)驗和商業(yè)化能力,是一個很好的合作契機,能讓商湯的技術能力在市場中得到最大化的回報。
雷峰網(wǎng):具體來說,商湯什么方面的技術對你們非常重要?
孟健雄:商湯在AI上的全鏈路技術全棧都有,但最貼近煒燁業(yè)務的是商湯大裝置的平臺軟件能力。
目前市面上經(jīng)歷過長期生產(chǎn)環(huán)境檢驗、支持異構(gòu)混訓的這種真正能打的GPU云服務平臺不多,商湯可以說是國內(nèi)最早一批做異構(gòu)的企業(yè),從成立的第一天就開始。
異構(gòu)混推本來就很難,混訓對技術要求更高,因為混訓后如果效率拉低就沒有生產(chǎn)意義了。早先商湯沒有那么多卡的時候,就只能“被迫”混訓。在人工智能還沒現(xiàn)在這么火的時候,他們已經(jīng)開始做積累。
雷峰網(wǎng):那商湯投資了煒燁智算后,是否會給煒燁提供客戶入口,相當于會幫助解決消納?
孟健雄:商湯自身的算力剛需很大,確實在必要時可以提供消納方面的支持。不過更準確說,是煒燁為商湯提供更多樣化的客戶入口,尤其是頂級AI客戶和頭部行業(yè)客戶。
雷峰網(wǎng):不過你們和商湯自身大裝置團隊之間的客源如何區(qū)分呢?
孟健雄:商湯的大裝置平臺商務團隊人多,集團化作戰(zhàn)效率很高,煒燁相比起來團隊規(guī)模小,但打的都是top級KA客戶,單個客戶ARPU值(每用戶平均收入)極高,形象一點說是“特種部隊”。
雷峰網(wǎng):那么現(xiàn)在煒燁智算在算力上的布局情況和主要業(yè)務方向如何?整體出租率如何?
孟健雄:目前實控算力2.3萬P,年底可達近 2.6萬P,主要集中在商湯自營臨港機房及各地納管智算中心?,F(xiàn)在主要是圍繞國央企需求,選擇與合適的地方政府合作整體智算項目。
我們的算力部署,主要在經(jīng)濟相對發(fā)達、基礎設施完善的區(qū)域,出租率穩(wěn)定在接近滿租的狀態(tài)。
雷峰網(wǎng):那接下來發(fā)展策略是什么樣的?
孟健雄:我們在為踩下一個引爆點做準備。目前來說,煒燁的策略已經(jīng)從硬件層向軟件和商務模式方向進化,例如利用商湯大裝置平臺軟件的技術優(yōu)勢,實現(xiàn)訓練by token計費的方法,在算力銷售環(huán)節(jié)探索引入合規(guī)金融衍生品,相關嘗試正在合規(guī)推進中。
專題介紹
2023 年來,智算產(chǎn)業(yè)迎來爆發(fā)式增長。但兩年過去,國內(nèi)智算企業(yè)的生存狀態(tài)如何?在技術突破與場景落地中做了哪些新探索、又面臨什么新挑戰(zhàn)?智算行業(yè)的未來還有什么想象空間?本專題與一眾智算領域的先鋒從業(yè)者對話,回顧近年智算行業(yè)在技術與商業(yè)上的拓展實踐歷程,并展望未來發(fā)展方向。即便身處行業(yè)氣候更迭之際,從業(yè)者們憑借智慧與韌性、懷揣對智算未來的堅信,開辟多樣化發(fā)展路徑。對此專題感興趣的從業(yè)者,歡迎添加微信 Ericazhao23 共同參與討論。
關于我們|版權聲明| 違法和不良信息舉報電話:010-84151598 | 網(wǎng)絡敲詐和有償刪帖舉報電話:010-84151598
Copyright ? 2008-2024 by {當前域名}. all rights reserved