4637億美元,這個(gè)金額是美國(guó)“阿波羅登月計(jì)劃”累計(jì)投資的1.5倍,也是知名研究機(jī)構(gòu)Dell'Oro Group對(duì)2025年全球云計(jì)算投資規(guī)模的市場(chǎng)預(yù)測(cè)[1]。
從巴黎奧運(yùn)會(huì)全球電視網(wǎng)絡(luò)直播,到《歌手2025》全鏈路4K超高清直播;從支持自動(dòng)駕駛算法訓(xùn)練,到支撐3A游戲流暢運(yùn)行;從推動(dòng)通義千問Qwen、Kimi等國(guó)產(chǎn)大模型迭代,到托起中國(guó)企業(yè)出海業(yè)務(wù)……云端的世界,AI正在開疆?dāng)U土。
2025年8月29日,阿里巴巴最新一季財(cái)報(bào)公布,阿里云收入同比增長(zhǎng)26%,AI相關(guān)產(chǎn)品收入連續(xù)8個(gè)季度保持三位數(shù)增長(zhǎng),成為支撐阿里巴巴發(fā)展的“新的增長(zhǎng)極”。截至當(dāng)天美股收盤,阿里巴巴股價(jià)大漲近13%。
如果說20世紀(jì)是“電”的世紀(jì),那么21世紀(jì)就是“計(jì)算”的世紀(jì):21世紀(jì)第一個(gè)十年,算力開始成為生產(chǎn)力新的度量衡,經(jīng)典互聯(lián)網(wǎng)時(shí)代井噴的數(shù)據(jù)要通過計(jì)算挖掘價(jià)值,移動(dòng)互聯(lián)網(wǎng)時(shí)代爆發(fā)的流量也只有在云端才能承接;而今,云計(jì)算又成為AIGC時(shí)代沖鋒的彈藥。
當(dāng)“ChatGPT時(shí)刻”叩響AIGC的大門,云計(jì)算也從后臺(tái)浮出水面,迎來價(jià)值重估,從生態(tài)基座位躍升至戰(zhàn)略級(jí)資源,成為AIGC所有愿景落地的前提。
而這一切的起點(diǎn),來源于21世紀(jì)初期那批瘋狂技術(shù)人“計(jì)算普惠”的樸素念頭。彼時(shí),在海外,亞馬遜推出了彈性計(jì)算EC2;在國(guó)內(nèi),阿里云于2010年發(fā)布了彈性計(jì)算服務(wù)ECS。
十五年來,中國(guó)市場(chǎng)成為率先擁抱新技術(shù)的沃土,中國(guó)的企業(yè)和開發(fā)者也在不斷用云計(jì)算改進(jìn)業(yè)務(wù)、提升效率,如今,中國(guó)技術(shù)也正引領(lǐng)著第三次云計(jì)算“彈性”革命。
鑿山鋪路十五年,云計(jì)算是一條隱秘而光輝的暗線,它陪伴和支撐中國(guó)科技產(chǎn)業(yè)從傳統(tǒng)互聯(lián)網(wǎng)走入移動(dòng)互聯(lián)網(wǎng),現(xiàn)在又大步邁向AIGC的新技術(shù)時(shí)代。
互聯(lián)網(wǎng)風(fēng)起,讓計(jì)算上云
一個(gè)不爭(zhēng)的事實(shí)是,當(dāng)前,中美兩國(guó)最強(qiáng)的云計(jì)算公司,都脫胎于電商。這是為什么?
要回答這個(gè)問題,就要回到15年前。2010年的雙11,淘寶單日交易額達(dá)到19.5億元,平均每分鐘賣出4.8萬(wàn)件商品,而承擔(dān)交易重任的支付寶卻經(jīng)歷了“驚魂4秒”——距離系統(tǒng)崩潰只差4秒[2]。
這充分說明了彼時(shí)計(jì)算與需求之間的不平衡,一面是井噴的數(shù)據(jù),另一面是不足的算力。
更早的2008年,中國(guó)電商市場(chǎng)規(guī)模突破3萬(wàn)億元,網(wǎng)購(gòu)用戶在網(wǎng)民中占比近50%(1.2億/2.53億)[3],海量的交易讓算力捉襟見肘。對(duì)當(dāng)時(shí)的行業(yè)巨頭而言,不斷買服務(wù)器最省事,但不省錢,而且還得聽別人說了算。
彼時(shí),一臺(tái)IBM小型服務(wù)器至少幾十萬(wàn)元,商業(yè)數(shù)據(jù)庫(kù)、存儲(chǔ)設(shè)備、軟硬件維護(hù)成本上千萬(wàn)元。阿里內(nèi)部曾預(yù)測(cè),擴(kuò)大服務(wù)器規(guī)模的投入,很可能會(huì)在未來“拖垮阿里”。
2009年,阿里云成立,首個(gè)KPI就是廣為人知的“飛天”,將傳統(tǒng)IT架構(gòu)轉(zhuǎn)向云計(jì)算架構(gòu)。云計(jì)算擺脫服務(wù)器的肉體凡胎,算力集中上云并按需分配,在規(guī)模效應(yīng)下,提升了算力的使用效率、降低了算力成本,打破算力增長(zhǎng)的天花板。
在行業(yè)對(duì)這套云計(jì)算新系統(tǒng)仍持觀望態(tài)度時(shí),阿里率先開展實(shí)踐。2012年雙11,191億元的單日交易額中,20%的訂單在云上實(shí)現(xiàn),一年后,這一數(shù)字提升到了80%。
幾乎與“飛天”同時(shí)啟動(dòng)的,還有另一個(gè)不太為人知的神秘項(xiàng)目。2009年秋天,阿里集團(tuán)內(nèi)部技術(shù)骨干集結(jié),在西湖邊上的一家茶館,定下了名為“后羿”的彈性計(jì)算項(xiàng)目,初衷是希望將“飛天”強(qiáng)大的云計(jì)算能力,提供給更多中小企業(yè)的外部客戶。
到年底,彈性計(jì)算ECS beta版本發(fā)布,此時(shí),阿里剛剛收購(gòu)的專注于域名領(lǐng)域的中國(guó)萬(wàn)網(wǎng),意外地成為了彈性計(jì)算的第一批種子客戶。
作為當(dāng)時(shí)的業(yè)內(nèi)頭部,中國(guó)萬(wàn)網(wǎng)囊括了最前沿的互聯(lián)網(wǎng)和電商公司客戶,還有大批中小站長(zhǎng),他們身處行業(yè)中心,更早感受到流量暴增,對(duì)計(jì)算資源不足也深有體會(huì),他們希望找到性價(jià)比更高的計(jì)算資源。2009年底,中國(guó)萬(wàn)網(wǎng)提出,希望對(duì)外售賣ECS。
雙方一拍即合。2010年5月,名為AH-Cloud的合作項(xiàng)目正式發(fā)布,阿里云彈性計(jì)算由此進(jìn)入更多互聯(lián)網(wǎng)企業(yè)的底層架構(gòu),將云計(jì)算的火種撒向各行各業(yè)。從藝術(shù)創(chuàng)作到互聯(lián)網(wǎng)金融,從奧運(yùn)會(huì)轉(zhuǎn)播到氣象預(yù)測(cè),算力搭乘著各類終端連接而成的網(wǎng)絡(luò),隨著數(shù)據(jù)的遷徙滲透進(jìn)人們的工作和生活。
《昆塔:盒子總動(dòng)員》利用云計(jì)算渲染呈現(xiàn)的3D畫面
2013年,阿里最后一臺(tái)IBM小型機(jī)在支付寶下線,上云也成為中國(guó)企業(yè)的共識(shí),各類第三方云計(jì)算企業(yè)誕生,友商巨頭扎堆入局。
中國(guó)云計(jì)算正發(fā)軔,亞馬遜AWS就在2013年底強(qiáng)勢(shì)來襲。戰(zhàn)爭(zhēng)打響,阿里云選擇正面硬剛:通過“神龍架構(gòu)”等自研技術(shù)創(chuàng)新,持續(xù)降低云計(jì)算成本,同時(shí)結(jié)合市場(chǎng)需求的充分挖掘和理解,用產(chǎn)品說服客戶,通過技術(shù)創(chuàng)新實(shí)現(xiàn)成本優(yōu)勢(shì)。
移動(dòng)流量爆發(fā),新架構(gòu)革命
2010年代后半段,移動(dòng)互聯(lián)網(wǎng)爆發(fā),2016年雙11,天貓單日交易額突破1000億元,移動(dòng)端交易占比高達(dá)82.42%[5]。
網(wǎng)購(gòu)不限制于臺(tái)式機(jī)前,而是隨時(shí)隨地發(fā)生。與此同時(shí),社交、短視頻、直播等手機(jī)應(yīng)用野蠻生長(zhǎng),拼接成移動(dòng)互聯(lián)網(wǎng)的另一個(gè)側(cè)面。
微博熱搜取代報(bào)紙頭條成了輿論場(chǎng)的重心。數(shù)億用戶同時(shí)互動(dòng)、搜索、發(fā)布內(nèi)容,瞬間激增的流量不僅需要強(qiáng)大算力支撐,更考驗(yàn)資源調(diào)度的靈活性。這一趨勢(shì)使得長(zhǎng)期困擾云計(jì)算發(fā)展的“虛擬化損耗”問題,從技術(shù)隱疾演變?yōu)楸仨氁黄频年P(guān)鍵性能瓶頸。
作為云計(jì)算的核心技術(shù),“虛擬化”指的是通過軟件將服務(wù)器的各類計(jì)算資源抽取出來,分類集中到各個(gè)資源池,再根據(jù)需求統(tǒng)一調(diào)配、打包成“虛擬機(jī)”。
實(shí)現(xiàn)虛擬化,本身需要消耗算力等資源,比如一臺(tái)32核的物理服務(wù)器,有12核用來做虛擬化,帶來接近40%的虛擬化損耗。隨著云上規(guī)模的不斷擴(kuò)大,虛擬化損耗帶來的資源浪費(fèi)愈發(fā)凸顯。
2016年的雙11復(fù)盤會(huì),彈性計(jì)算團(tuán)隊(duì)收到了“最后通牒”——必須將“虛擬化損耗”降到接近0%,阿里云由此開始了又一次架構(gòu)革命。
破局關(guān)鍵在于軟硬件協(xié)同。
2017年,阿里云發(fā)布自研的神龍架構(gòu)。通過定制虛擬化芯片、專用主板與MOC卡,結(jié)合自研軟件,實(shí)現(xiàn)接近零損耗的高性能虛擬化,比亞馬遜的專用芯片Amazon Nitro的推出時(shí)間還早了1個(gè)月。
神龍自研硬件體系
在向“神龍”進(jìn)化的過程中,彈性計(jì)算的另一個(gè)“分支”——容器技術(shù),開始在阿里內(nèi)部生長(zhǎng)。
相較于傳統(tǒng)虛擬化技術(shù),容器技術(shù)天然迎合移動(dòng)互聯(lián)網(wǎng)的高并發(fā)特性,它根據(jù)進(jìn)程分配算力的機(jī)制更靈活,啟動(dòng)速度從分鐘級(jí)提高到了秒級(jí),能夠應(yīng)對(duì)突發(fā)、瞬時(shí)、海量的用戶請(qǐng)求,且支持跨平臺(tái)遷移。
2019年,第二代神龍架構(gòu)(MOC1.5)規(guī)模化,開始基于一個(gè)軟硬件體系,統(tǒng)一支持三種算力類型(裸金屬服務(wù)器+虛擬機(jī)服務(wù)+容器),容器服務(wù)正式加入了彈性計(jì)算“全家桶”,更大程度地覆蓋了不同層級(jí)的算力調(diào)配需求,“朋友圈”進(jìn)一步擴(kuò)大。
截至目前,神龍架構(gòu)已迭代至第五代,阿里云還在2022年率先推出了云基礎(chǔ)設(shè)施處理器CIPU。
在這過程中,阿里云也與最頂尖的產(chǎn)業(yè)公司深入合作,不斷刷新云計(jì)算的性能上限。比如,阿里云與AMD在2016年達(dá)成戰(zhàn)略合作,陸續(xù)推出了基于AMD不同代際處理器平臺(tái)的ECS實(shí)例,成為了諸多頂流app的云原生平臺(tái)底座,在游戲、工業(yè)物聯(lián)網(wǎng)等領(lǐng)域滿足著持續(xù)增長(zhǎng)的算力需求。
小紅書上阿里云就是典型案例。作為以內(nèi)容分享和社交互動(dòng)為核心的平臺(tái),小紅書需要支持海量用戶同時(shí)在線,在大數(shù)據(jù)處理、實(shí)時(shí)搜索與智能推薦等高負(fù)載場(chǎng)景下實(shí)現(xiàn)快速響應(yīng)。
為應(yīng)對(duì)這一挑戰(zhàn),小紅書基于阿里云自研的CIPU架構(gòu)的ECS AMD實(shí)例進(jìn)行了深度技術(shù)升級(jí),將內(nèi)存帶寬提升125%,峰值達(dá)到350GB/s,大幅提升了特定場(chǎng)景的性能,還將集群資源利用率提升至40%,從容承接了年初那波“TikTok難民”的涌入浪潮。
小紅書、AMD與阿里云三方探索出“云基座+深度定制”的全新用云模式,也成為業(yè)內(nèi)上云新范式。
2025年8月14日,阿里云更是一口氣發(fā)布三款企業(yè)級(jí)實(shí)例——u2a、g9a、g9ae,均搭配AMD最新第五代EPYC處理器Turin,全新的“Zen 5”核心架構(gòu)相較上一代帶來17%的IPC(每周期指令數(shù))提升,以及全鏈路AVX-512(主要用于加速 AI 計(jì)算和高性能計(jì)算任務(wù))能力的支持,AI和高性能計(jì)算(HPC)的IPC提升37%。
AMD第五代EPYC處理器Turin
與AMD長(zhǎng)達(dá)十年的合作見證了阿里云彈性計(jì)算二次革命。在移走了“虛擬化損耗”的大山、滿足移動(dòng)互聯(lián)網(wǎng)時(shí)代的算力需求后,數(shù)據(jù)開始以更高的精度和更龐大的規(guī)模展示其價(jià)值。
AIGC奇點(diǎn)的快步到來再次改寫了計(jì)算的范式,也讓云計(jì)算的長(zhǎng)跑進(jìn)入新一輪的馬拉松。
AIGC時(shí)代,做創(chuàng)新的承重墻
2021年前后,AIGC以另一種維度展現(xiàn)了數(shù)據(jù)的價(jià)值,揭示了其徹底顛覆人們生產(chǎn)生活的潛力。
這些愿景被寄托于算力之上,云計(jì)算規(guī)模成為劃定AIGC發(fā)展進(jìn)程的標(biāo)尺,如何應(yīng)對(duì)前所未有的算力需求暴漲,也成為云計(jì)算廠商的全新考題。
當(dāng)時(shí),小鵬汽車找到阿里云,希望提供“超算”支持其自動(dòng)駕駛訓(xùn)練,以解決自動(dòng)駕駛算法訓(xùn)練中海量視頻處理量超載的問題。
“超算”是個(gè)“小眾且頂奢”的概念。與傳統(tǒng)云服務(wù)器注重資源共享、適用于通用計(jì)算場(chǎng)景相比,“超算”強(qiáng)調(diào)極致的計(jì)算能力和并行處理能力,常用來解決需要大量計(jì)算資源的科學(xué)研究等問題。
但代價(jià)極度昂貴。特斯拉當(dāng)年的Dojo超算集群運(yùn)行在1萬(wàn)顆GPU上,建造成本3億美元起步,對(duì)于任何企業(yè)都是無(wú)法輕易消化的支出,而Dojo最后的無(wú)疾而終更證明了高投入背后的高風(fēng)險(xiǎn)。
作為國(guó)內(nèi)自動(dòng)駕駛的領(lǐng)跑者之一,小鵬是最早決定將超算應(yīng)用于自動(dòng)駕駛訓(xùn)練的新勢(shì)力之一。但放眼全球,能夠滿足需求的超算集群屈指可數(shù)。幸運(yùn)的是,阿里云是為數(shù)不多具備該能力的企業(yè)之一。
2022年8月,阿里云宣布與小鵬汽車合建烏蘭察布智算中心“扶搖”,飛天智算平臺(tái)與智能計(jì)算靈駿同時(shí)出道,以15 EFLOPS的算力成為當(dāng)時(shí)全球最大規(guī)模智算平臺(tái)。
而今復(fù)盤,“靈駿”的公開時(shí)點(diǎn)相當(dāng)微妙——它甚至比ChatGPT發(fā)布還早三個(gè)月。
糧草先行的“靈駿”,也成為后來國(guó)產(chǎn)大模型奮起直追的底氣。巔峰時(shí)期,國(guó)內(nèi)80%以上的大模型都是在“靈駿”上訓(xùn)練的,還承擔(dān)了包括通義千問Qwen、Kimi在內(nèi)的top級(jí)國(guó)產(chǎn)大模型的日常訓(xùn)練和推理。
AIGC給云計(jì)算帶來新的需求,也進(jìn)一步提高了后來者入局的門檻,大模型上云的背后,是對(duì)彈性更為極致的考驗(yàn):
一方面要更能“伸”,以持續(xù)擴(kuò)容的算力應(yīng)對(duì)大規(guī)模任務(wù)和參數(shù)規(guī)模指數(shù)級(jí)增長(zhǎng)的模型訓(xùn)練。
這個(gè)過程并非簡(jiǎn)單的算卡堆疊,其中涉及到并行計(jì)算同步性等諸多“技術(shù)陷阱”,業(yè)內(nèi)尚無(wú)通用之法,只能倒逼云計(jì)算廠商從芯片到網(wǎng)絡(luò)架構(gòu)、系統(tǒng)軟件多個(gè)維度自研。但有能力做到的廠商屈指可數(shù)。
另一方面要更能“縮”,即對(duì)不同的計(jì)算資源進(jìn)行顆粒度更高的分配,避免資源的浪費(fèi),同時(shí)能夠更加快速、靈活地拉起進(jìn)程,以應(yīng)對(duì)諸如對(duì)話、智能駕駛等需要及時(shí)反饋的需求。
比如大語(yǔ)言模型日常需要處理文字、圖像、音頻等各類數(shù)據(jù),需要足夠豐富的計(jì)算資源以供調(diào)配。同時(shí),用戶對(duì)不同任務(wù)的體驗(yàn)標(biāo)尺不同,比如“詢問天氣”對(duì)延遲的容忍度最低,文獻(xiàn)歸納對(duì)精確度要求最高,需要更科學(xué)的資源調(diào)度策略。
這便是對(duì)技術(shù)積累厚度實(shí)打?qū)嵉目简?yàn)。阿里云從“飛天”到“神龍”,從虛擬化技術(shù)到裸金屬技術(shù)、容器技術(shù),積累的“工具箱”可謂應(yīng)有盡有,隨取隨用。
根據(jù)Gartner發(fā)布的2025年度全球《容器管理魔力象限》報(bào)告,阿里云成為亞太地區(qū)唯一一家連續(xù)三年進(jìn)入“領(lǐng)導(dǎo)者”象限的云容器服務(wù)供應(yīng)商。 在其關(guān)鍵能力評(píng)估報(bào)告中阿里云云端部署(Cloud Deployment)與運(yùn)維能力(IT Operations)兩項(xiàng)評(píng)分更是位列第一。
在技術(shù)硬實(shí)力的基礎(chǔ)上,對(duì)用戶需求的洞察力,則是當(dāng)前擺在云計(jì)算廠商面前更棘手的問題。
在阿里云,產(chǎn)品經(jīng)理要隨時(shí)與客戶研發(fā)團(tuán)隊(duì)保持密切溝通,不僅要參與到客戶模型的算子優(yōu)化,在交付后還要頻繁回訪,跟蹤使用效率,排查故障、優(yōu)化迭代。
百花齊放的模型帶來了高度定制化的需求,決定了云計(jì)算供應(yīng)商需要更早地參與到客戶的研發(fā)流程,而創(chuàng)新的不確定性,也需要產(chǎn)業(yè)鏈原本獨(dú)立的各個(gè)環(huán)節(jié)重新擰成一股繩。
云計(jì)算作為基礎(chǔ)設(shè)施,貫穿模型產(chǎn)品的整個(gè)生命周期,意味著廠商需要始終走在下游需求的前面,以保證有足夠大的算力和足夠豐富的工具箱承接住更多的“ChatGPT時(shí)刻”。
阿里云AI Infra
2024年,彈性計(jì)算產(chǎn)品線迎來了再次升級(jí),集通用計(jì)算、容器計(jì)算和加速計(jì)算三大產(chǎn)品線于一體,進(jìn)一步釋放了解決方案的靈活性和適應(yīng)性。
這一年,阿里云用戶范圍擴(kuò)大至全球29個(gè)地域、89個(gè)可用區(qū),在各行各業(yè)密集落地。Gartner報(bào)告顯示,阿里云在亞太地區(qū)IaaS市場(chǎng)份額繼續(xù)排名第一。
在AI需求的強(qiáng)勁驅(qū)動(dòng)下,阿里云彈性計(jì)算的服務(wù)器集群正以前所未有的速度迅猛擴(kuò)張,以機(jī)械之身托舉起人類歷經(jīng)數(shù)個(gè)世紀(jì)對(duì)人工智能的全部憧憬與想象。
尾聲
2013年初,一封來自秦嶺巴山的感謝信,悄然落在阿里云辦公室的案頭。
寫信人是一位鐵路巡線工,常年在幽深隧道中徒步巡查。過去,他靠雙腳傳遞險(xiǎn)情;如今,他用手機(jī)拍照上傳,信息幾秒內(nèi)就能送達(dá)調(diào)度中心。改變這一切的,不是驚天動(dòng)地的技術(shù)突破,而是一次安靜的算力遷移——從機(jī)房到云端,從企業(yè)級(jí)系統(tǒng)到底層個(gè)體的工作流。
這個(gè)故事沒有出現(xiàn)在財(cái)報(bào)里,也未被寫進(jìn)發(fā)布會(huì)的PPT,但它成了阿里云彈性計(jì)算十五年歷程中最真實(shí)的注腳:真正的技術(shù)價(jià)值,往往藏在那些看不見的地方。
十五年來,從支撐雙11流量洪峰的“飛天”系統(tǒng),到打破虛擬化損耗瓶頸的“神龍架構(gòu)”;從率先推出CIPU,到構(gòu)建大規(guī)模智算集群“靈駿”——阿里云始終在做一件事:把復(fù)雜的底層技術(shù)變成簡(jiǎn)單可用的算力服務(wù)。
今天,算力正在從“資源”演變?yōu)椤澳芰Α?,而彈性,也不再只是資源的伸縮,更是對(duì)千行百業(yè)復(fù)雜需求的精準(zhǔn)適配。這條路依然漫長(zhǎng),挑戰(zhàn)遠(yuǎn)未終結(jié)。
但歷史已經(jīng)證明:那些在無(wú)人處“鑿山鋪路”的人,終會(huì)被時(shí)代看見。而那些默默支撐變革的系統(tǒng),終將成為新世界的底色。
參考資料
[1]AI to lift cloud investment to $460bn in 2025, more than Apollo program, Nikkei Asia
[2]“雙11”幕后:支付寶曾差4秒就崩潰,今年只需十幾人待命,澎湃新聞
[3]《中國(guó)電子商務(wù)報(bào)告(2008-2009)》,商務(wù)部
[4]看淘寶這十年:改變國(guó)人消費(fèi)觀念印證商業(yè)變遷,人民網(wǎng)
[5]2016天貓雙11正式進(jìn)入“千億時(shí)代” 移動(dòng)端占比82.42%,中國(guó)經(jīng)濟(jì)網(wǎng)
[6]《在線》,王堅(jiān)
[7]爆發(fā)了,阿里的云,華商韜略
作者:何律衡
編輯:李墨天
責(zé)任編輯:何律衡
封面圖片來自ShotDeck