近年來,AI 通過聊天機(jī)器人等工具深刻改變了我們的生活,并在醫(yī)療、氣象和材料設(shè)計(jì)等領(lǐng)域落地應(yīng)用。這一進(jìn)步主要依賴 GPU 的算力和數(shù)據(jù)規(guī)模的增長。但隨著模型規(guī)模不斷擴(kuò)大,傳統(tǒng)數(shù)字 GPU 的局限性愈發(fā)明顯。要突破這一瓶頸,AI 需要在保證精度和吞吐量的同時(shí),降低訓(xùn)練與推理的延遲和能耗。
一個(gè)備受關(guān)注的研究方向是“物理神經(jīng)網(wǎng)絡(luò)”(Physical Neural Networks,PNNs),它利用光、電、振動等物理系統(tǒng)進(jìn)行計(jì)算,有望擺脫對傳統(tǒng)數(shù)字芯片的依賴,實(shí)現(xiàn)更高效、更大規(guī)模的 AI 訓(xùn)練與推理。
日前,來自洛桑聯(lián)邦理工學(xué)院的研究團(tuán)隊(duì)及其合作者,在權(quán)威科學(xué)期刊
Nature上發(fā)表了一篇最新綜述,從訓(xùn)練角度全面回顧了物理神經(jīng)網(wǎng)絡(luò)的發(fā)展,并以“從零開始”的視角探索其普適性方法。
論文鏈接:
https://www.nature.com/articles/s41586-025-09384-2
研究團(tuán)隊(duì)表示,“只要有足夠的研究投入”,未來的物理神經(jīng)網(wǎng)絡(luò)就有可能改變?nèi)斯ぶ悄埽ˋI)計(jì)算的方式。
更快、更節(jié)能、更實(shí)用
物理神經(jīng)網(wǎng)絡(luò)是一類利用模擬物理系統(tǒng)進(jìn)行計(jì)算的類神經(jīng)網(wǎng)絡(luò),能夠比傳統(tǒng)計(jì)算硬件更直接、更靈活、更隨機(jī)地利用模擬物理計(jì)算,可能會改變 AI 系統(tǒng)的可實(shí)現(xiàn)性與實(shí)用性。目前分為兩類:
同構(gòu)型物理神經(jīng)網(wǎng)絡(luò)(Isomorphic PNNs):通過設(shè)計(jì)硬件,實(shí)現(xiàn)與預(yù)定義數(shù)學(xué)變換的嚴(yán)格操作級同構(gòu)來執(zhí)行數(shù)學(xué)變換。一個(gè)典型實(shí)例是電子交叉陣列,其設(shè)計(jì)目的是直接執(zhí)行矩陣-向量乘法,陣列中每個(gè)交叉結(jié)點(diǎn)的電導(dǎo)值,與待乘矩陣中的一個(gè)元素一一對應(yīng)。
破缺同構(gòu)型物理神經(jīng)網(wǎng)絡(luò)(broken-isomorphism PNNs):直接訓(xùn)練硬件的物理變換,這些物理變換應(yīng)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的數(shù)學(xué)操作大致相似,但無需以精確的一一對應(yīng)方式關(guān)聯(lián)。
圖|物理神經(jīng)網(wǎng)絡(luò)
盡管物理神經(jīng)網(wǎng)絡(luò)還處于實(shí)驗(yàn)室階段,但已經(jīng)顯現(xiàn)出較大潛力。它能更直接地利用物理規(guī)律,理論上比傳統(tǒng)硬件更節(jié)能、速度更快,最終可應(yīng)用于數(shù)據(jù)中心和邊緣計(jì)算場景,既能驅(qū)動大型生成式模型運(yùn)行,又能輔助本地推理或智能傳感器。
無論哪種應(yīng)用場景,都需要對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,但具體約束條件會因應(yīng)用領(lǐng)域而異。主要訓(xùn)練技術(shù)包括:
1.計(jì)算機(jī)模擬訓(xùn)練(In silico training)
訓(xùn)練 PNNs 最直接的方法是在計(jì)算機(jī)仿真環(huán)境中對其進(jìn)行訓(xùn)練。該方法采用 PNNs 的數(shù)字孿生模型,從而實(shí)現(xiàn)權(quán)重梯度計(jì)算和反向傳播運(yùn)算。數(shù)字孿生通常通過兩種方式構(gòu)建:一是直接對 PNNs 進(jìn)行特征描述,二是采用數(shù)據(jù)驅(qū)動法——即獲取 PNNs 的輸入-輸出樣本數(shù)據(jù),并將數(shù)字孿生模型擬合到這些數(shù)據(jù)上。訓(xùn)練時(shí)在數(shù)字世界算梯度、更參數(shù),再把結(jié)果套到物理硬件上。
2.物理感知反向傳播(PAT)
物理感知訓(xùn)練法(PAT)強(qiáng)化了一個(gè)核心理念:只要對物理系統(tǒng)建立近似預(yù)測模型,就能可靠實(shí)現(xiàn)梯度提取。其核心機(jī)制是物理系統(tǒng)執(zhí)行前向傳播,而通過微分?jǐn)?shù)字模型來完成反向傳播,關(guān)鍵在于前向與反向傳播的非匹配性。與多數(shù)訓(xùn)練算法相似,僅需數(shù)字模型生成的估計(jì)梯度與真實(shí)梯度保持近似對齊即可。相較于要求完美數(shù)字模型的嚴(yán)苛條件,這種寬松標(biāo)準(zhǔn)使 PAT 在多數(shù)場景下可直接替代計(jì)算機(jī)模擬訓(xùn)練,同時(shí)保留原位訓(xùn)練算法的諸多優(yōu)勢。
這種方法已經(jīng)在光學(xué)、機(jī)械、電子系統(tǒng)上驗(yàn)證過。既能減少物理噪聲的影響,又能保持反向傳播的精準(zhǔn)度。缺點(diǎn)在于物理參數(shù)更新慢時(shí),訓(xùn)練會變緩。
3.反饋對齊(FA/DFA)
在物理神經(jīng)網(wǎng)絡(luò)中,權(quán)重直接體現(xiàn)在硬件組件中而非傳統(tǒng)存儲器中。與數(shù)字系統(tǒng)中矩陣轉(zhuǎn)置是簡單的計(jì)算操作不同,在物理神經(jīng)網(wǎng)絡(luò)中這種轉(zhuǎn)置操作并不天然存在。提取或計(jì)算轉(zhuǎn)置通常需要更多硬件模塊或物理結(jié)構(gòu)的重新配置來實(shí)現(xiàn)權(quán)重轉(zhuǎn)置。
反饋對齊(FA)和直接反饋對齊(DFA)這兩種方法允許在不將前向傳播權(quán)重轉(zhuǎn)移到反向傳播的情況下訓(xùn)練物理神經(jīng)網(wǎng)絡(luò),從而提高效率,但通常以犧牲性能為代價(jià),并且仍需依賴激活函數(shù)的導(dǎo)數(shù)和各層的激活狀態(tài),存在精度衰減的問題。FA 的核心優(yōu)勢在于采用固定隨機(jī)反饋權(quán)重,通過逐層傳遞誤差信號訓(xùn)練。DFA 則通過使用固定隨機(jī)反饋權(quán)重矩陣,將誤差信號同步廣播至所有層,從而實(shí)現(xiàn)了對深層網(wǎng)絡(luò)的高效訓(xùn)練。
4.物理局部學(xué)習(xí)(PhyLL)
PhyLL 通過兩次正負(fù)樣本數(shù)據(jù)傳遞間的余弦相似度進(jìn)行學(xué)習(xí),省去了物理實(shí)現(xiàn)中頗具挑戰(zhàn)性的層歸一化操作。該方法在聲學(xué)、微波和光學(xué)三大物理神經(jīng)網(wǎng)絡(luò)領(lǐng)域完成實(shí)驗(yàn)驗(yàn)證,實(shí)現(xiàn)了監(jiān)督與無監(jiān)督訓(xùn)練模式,且無需掌握非線性物理層的詳細(xì)特性參數(shù)。
5.零階梯度和無梯度訓(xùn)練
這類算法可分為兩大類:第一類是微擾方法,通過在不同坐標(biāo)點(diǎn)(權(quán)重值)采樣目標(biāo)函數(shù)(即損失函數(shù))來估算梯度,隨后利用傳統(tǒng)梯度下降法優(yōu)化權(quán)重;第二類無梯度方法則采用基于種群的采樣策略。并非直接追求梯度近似,而是通過迭代方式生成更優(yōu)的候選解。遺傳算法、進(jìn)化策略和群體型算法遵循啟發(fā)式標(biāo)準(zhǔn),強(qiáng)化學(xué)習(xí)則采用迭代優(yōu)化的候選生成策略。
6.通過物理動力學(xué)進(jìn)行梯度下降訓(xùn)練
梯度下降優(yōu)化算法是當(dāng)前最先進(jìn)機(jī)器學(xué)習(xí)系統(tǒng)的核心技術(shù)。研究人員提出了四種無需數(shù)字孿生即可實(shí)現(xiàn)梯度下降的物理訓(xùn)練方法。
通過線性倒數(shù)物理系統(tǒng)實(shí)現(xiàn)矩陣-向量乘法運(yùn)算:目標(biāo)是將傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)和反向傳播映射到模擬硬件上。核心思路在于,前向傳播(推理)和反向傳播(訓(xùn)練)所需的矩陣-向量乘法運(yùn)算,可以通過線性倒數(shù)物理系統(tǒng)實(shí)現(xiàn)。
基于線性波散射的非線性計(jì)算:該方法將輸入數(shù)據(jù)編碼為不可觸碰的物理參數(shù),而其他參數(shù)則在訓(xùn)練過程中進(jìn)行優(yōu)化,最終通過神經(jīng)形態(tài)系統(tǒng)輸出散射響應(yīng)。梯度更新直接基于輸出諧振腔與更新點(diǎn)之間的傳輸信號計(jì)算得出。
平衡傳播(EP):此方法適用于能量型系統(tǒng),輸入作為邊界條件提供,而物理規(guī)律則驅(qū)動系統(tǒng)達(dá)到能量最小值(即平衡狀態(tài))以產(chǎn)生響應(yīng)(輸出)。在 EP 的原始公式中,權(quán)重通過局部對比規(guī)則更新,該規(guī)則基于比較對應(yīng)不同邊界條件的兩個(gè)平衡態(tài)。相較于其他對比學(xué)習(xí)算法,EP 的主要優(yōu)勢在于能夠計(jì)算任意成本函數(shù)的權(quán)重度。
哈密頓回溯反向傳播(HEB):在提取權(quán)重梯度的基礎(chǔ)上,直接利用物理動力學(xué)原理生成正確的權(quán)重更新,無需任何反饋機(jī)制。訓(xùn)練過程中,前向傳播階段中,信號波與可訓(xùn)練參數(shù)波共同穿過非線性介質(zhì)并發(fā)生相互作用。誤差信號疊加在信號波上,通過時(shí)間反轉(zhuǎn)操作使兩波重新穿過介質(zhì)。經(jīng)過反向傳播過程后,可訓(xùn)練參數(shù)波會自動朝成本函數(shù)梯度方向進(jìn)行更新。
圖|物理神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法。各子圖分別展示不同方法的計(jì)算需求與學(xué)習(xí)特性,通過對比三種核心指標(biāo):(1)在成本函數(shù)上執(zhí)行梯度下降的能力;(2)所需的數(shù)字運(yùn)算量;(3)展示了大規(guī)模數(shù)據(jù)集性能。 訓(xùn)練好的物理系統(tǒng)用淺灰色表示,固定的物理系統(tǒng)用深灰色表示。前向和后向傳遞分別用綠色和紅色箭頭表示。
商業(yè)可行性如何?
大型 AI 模型在物理尺寸上確實(shí)非常龐大,但這并不意味著物理神經(jīng)網(wǎng)絡(luò)毫無應(yīng)用前景。
事實(shí)上,對于這種規(guī)模的計(jì)算,任何硬件設(shè)備都不可避免地需要較大的物理空間。這或許揭示了未來大規(guī)模物理神經(jīng)網(wǎng)絡(luò) AI 系統(tǒng)最重要的擴(kuò)展性考量:若物理神經(jīng)網(wǎng)絡(luò)硬件設(shè)計(jì)得當(dāng),其底層物理特性可能使其展現(xiàn)出與數(shù)字電子設(shè)備不同的能量擴(kuò)展特性。
這意味著,當(dāng)模型規(guī)模足夠大時(shí),物理神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)方案與數(shù)字系統(tǒng)相比,模擬硬件可能具有更高的效率優(yōu)勢,盡管其存在諸多開銷成本。
圖|模擬大型模型
需要強(qiáng)調(diào)的是,算力的拓展并非只依賴硬件升級。Transformers 架構(gòu)之所以成為當(dāng)下主流,不僅因其算法突破,更在于與可擴(kuò)展硬件形成了協(xié)同效應(yīng)。展望超大規(guī)模物理神經(jīng)網(wǎng)絡(luò)的發(fā)展,或?qū)⑹芟抻趯ΜF(xiàn)有算法框架的固守。未來必須構(gòu)建軟硬件協(xié)同的新型組合方案。
考慮到基礎(chǔ)設(shè)施的路徑依賴,以及高效數(shù)字大模型的快速進(jìn)展,若要具備商業(yè)可行性,物理神經(jīng)網(wǎng)絡(luò)的能效必須較數(shù)字電子設(shè)備高出數(shù)千倍乃至數(shù)百萬倍。要實(shí)現(xiàn)這一目標(biāo),需要設(shè)計(jì)能夠整體應(yīng)對規(guī)模挑戰(zhàn)的物理計(jì)算機(jī),并以硬件與軟件的協(xié)同優(yōu)化為核心,將高效挖掘物理計(jì)算能力作為首要目標(biāo)。
未來挑戰(zhàn)
除訓(xùn)練問題外,物理神經(jīng)網(wǎng)絡(luò)還面臨一些需深入研究的突出挑戰(zhàn):
物理神經(jīng)網(wǎng)絡(luò)面臨的一個(gè)嚴(yán)峻挑戰(zhàn)是計(jì)算過程中的噪聲及其累積效應(yīng)。噪聲來源包括內(nèi)部隨機(jī)過程、制造缺陷以及參數(shù)漂移等。盡管神經(jīng)網(wǎng)絡(luò)計(jì)算對噪聲的容忍度高于傳統(tǒng)計(jì)算,但當(dāng)多種噪聲共存時(shí),如何維持計(jì)算精度成為實(shí)現(xiàn)實(shí)際應(yīng)用的關(guān)鍵瓶頸。此外,為了最小化功耗,物理神經(jīng)網(wǎng)絡(luò)常需在接近內(nèi)部噪聲量級的條件下運(yùn)行,這進(jìn)一步加劇了精度保持的難度。
另一大挑戰(zhàn)是現(xiàn)代物理神經(jīng)網(wǎng)絡(luò)與模擬物理硬件的適配問題。當(dāng)前大多數(shù)架構(gòu)尚未針對模擬物理硬件擅長的自然運(yùn)算進(jìn)行優(yōu)化。雖然破缺同構(gòu)型物理神經(jīng)網(wǎng)絡(luò)為利用物理系統(tǒng)的原生變換進(jìn)行機(jī)器學(xué)習(xí)提供了途徑,但研究者仍需通過逐例耗時(shí)評估,才能判斷特定硬件的變換是否適合神經(jīng)網(wǎng)絡(luò)計(jì)算。
此外,神經(jīng)形態(tài)與物理形態(tài)的平衡是物理神經(jīng)網(wǎng)絡(luò)面臨的核心挑戰(zhàn)。針對特定硬件——如互補(bǔ)金屬氧化物半導(dǎo)體(CMOS)、電子或光子物理神經(jīng)網(wǎng)絡(luò)——的優(yōu)化設(shè)計(jì)與訓(xùn)練算法,其關(guān)鍵特性可能與人腦存在顯著差異。如何在借鑒神經(jīng)形態(tài)的啟發(fā)同時(shí),充分契合實(shí)際硬件的物理特性,是解決兩者矛盾的關(guān)鍵所在。
在這項(xiàng)研究中,研究團(tuán)隊(duì)主要關(guān)注大型模型的推理問題,這是物理神經(jīng)網(wǎng)絡(luò)最實(shí)際、最有潛力的應(yīng)用方向。也就是說,利用物理系統(tǒng)驅(qū)動的神經(jīng)網(wǎng)絡(luò),不僅在能耗上可能比傳統(tǒng)方法更有優(yōu)勢,還可能在計(jì)算規(guī)模和速度上取得進(jìn)一步提升。雖然物理神經(jīng)網(wǎng)絡(luò)多在模擬電子或光子系統(tǒng)中研究,但它們最大的亮點(diǎn)在于平臺幾乎不受限制:只要物理系統(tǒng)可重構(gòu),都可以用來搭建物理神經(jīng)網(wǎng)絡(luò)。
從應(yīng)用來看,物理神經(jīng)網(wǎng)絡(luò)面臨的挑戰(zhàn)不是找到唯一“最好”的訓(xùn)練方法,而是針對不同場景選出最合適的方案,并理解各種方法之間的取舍。未來的突破,很可能來自于開發(fā)既通用、高效,又魯棒的訓(xùn)練方法,讓物理神經(jīng)網(wǎng)絡(luò)真正走進(jìn)實(shí)際應(yīng)用場景。
整理:小瑜
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
智譜上線 Glm Coding Plan
20 元包月,「1/7 價(jià)格、3 倍用量」
暢享 Claude Code 編碼體驗(yàn)
開發(fā)者用了都說好
歡迎體驗(yàn)~
關(guān)于我們|版權(quán)聲明| 違法和不良信息舉報(bào)電話:010-84151598 | 網(wǎng)絡(luò)敲詐和有償刪帖舉報(bào)電話:010-84151598
Copyright ? 2008-2024 by {當(dāng)前域名}. all rights reserved