全流程國產(chǎn)GPU，上下文提速100倍！中國科學院發(fā)布「線性復雜度」類腦大模型

來源：厲世摩鈍網(wǎng)-工人日報

2025-09-11 05:50:43

新智元報道

編輯：LRST

【新智元導讀】SpikingBrain借鑒大腦信息處理機制，具有線性/近線性復雜度，在超長序列上具有顯著速度優(yōu)勢，在GPU上1M長度下TTFT 速度相比主流大模型提升26.5x， 4M長度下保守估計速度提升超過100x；在手機CPU端64k-128k-256k長度下較Llama3.2的同規(guī)模模型Decoding速度提升4.04x-7.52x-15.39x，展示了通過借鑒大腦結構和功能構建新一代AI基礎模型和架構的研究路徑具有強大潛力。

當前主流大模型基于Transformer架構、在Scaling law驅動下通過增加網(wǎng)絡規(guī)模、算力資源和數(shù)據(jù)量提升智能水平并取得了巨大成功。

然而，Transformer架構相對于序列長度具有二次方復雜度，使其訓練和推理開銷巨大，超長序列處理能力受限。

近日，中國科學院自動化研究所李國齊、徐波團隊借鑒大腦神經(jīng)元內(nèi)部復雜工作機制，發(fā)布了國產(chǎn)自主可控類腦脈沖大模型SpikingBrain (瞬悉)-1.0，能夠以極低的數(shù)據(jù)量實現(xiàn)高效訓練，模型具有線性/近線性復雜度，顯著提升長序列的訓練和推理效率，訓練和推理全流程在國產(chǎn)GPU算力平臺上完成。

網(wǎng)絡端的試用端口網(wǎng)址：https://controller-fold-injuries-thick.trycloudflare.com

中文技術報告網(wǎng)址：https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf

英文技術報告網(wǎng)址： https://arxiv.org/abs/2509.05276

模型代碼網(wǎng)址：https://github.com/BICLab/SpikingBrain-7B

研究背景

現(xiàn)有主流大模型基于Transformer架構，其基本計算單元為點神經(jīng)元模型：簡單乘加單元后接非線性函數(shù)，這條簡單神經(jīng)元加網(wǎng)絡規(guī)模拓展的技術路徑可以被稱為「基于外生復雜性」的通用智能實現(xiàn)方法。

如前所述，這一路徑面臨著功耗高、可解釋性差等問題。

人腦是目前唯一已知的通用智能系統(tǒng)，包含約1000億神經(jīng)元和約1000萬億突觸數(shù)量、具有豐富的神經(jīng)元種類、不同神經(jīng)元又具有豐富的內(nèi)部結構，但功耗僅20W左右。

鑒此，李國齊研究團隊相信還有另一條路徑-「基于內(nèi)生復雜性」的通用智能實現(xiàn)方法：即找到一條融合神經(jīng)元豐富動力學特性、構建具有生物合理性和計算高效性的神經(jīng)網(wǎng)絡新路徑，其將充分利用生物神經(jīng)網(wǎng)絡在神經(jīng)元和神經(jīng)環(huán)路上的結構和功能特性。

在該思路下，探索腦科學與人工智能基礎模型架構之間的橋梁、構建新一代非Transformer的類腦基礎模型架構，或將引領下一代人工智能的發(fā)展方向、為實現(xiàn)國產(chǎn)自主可控類腦大模型生態(tài)提供基礎積累。

核心技術

SpikingBrain-1.0基于脈沖神經(jīng)元構建了線性（混合）模型架構，具有線性（SpikingBrain-7B）及近線性復雜度（SpikingBrain-76B，激活參數(shù)量12B）的類腦基礎模型（圖1）。

圖1. SpikingBrain框架概覽

為解決脈沖編碼時的性能退化問題，構建了自適應閾值神經(jīng)元模型，模擬生物神經(jīng)元脈沖發(fā)放的核心過程，隨后通過虛擬時間步策略實現(xiàn)「電位-脈沖」的轉換，將整數(shù)脈沖計數(shù)重新展開為稀疏脈沖序列。

借助動態(tài)閾值脈沖化信息編碼方案，可以將模型中計算量占比90%以上的稠密連續(xù)值矩陣乘法，替換為支持事件驅動的脈沖化算子，以實現(xiàn)高性能與低能耗二者兼顧：脈沖神經(jīng)元僅在膜電勢累積達到閾值時發(fā)放脈沖事件，脈沖到達時觸發(fā)下游神經(jīng)元活動，無脈沖時則可處于低能耗靜息狀態(tài)。

進一步，網(wǎng)絡層面的MoE架構結合神經(jīng)元層面的稀疏事件驅動計算，可提供微觀-宏觀層面的稀疏化方案，體現(xiàn)按需計算的高效算力分配。

該團隊在理論上建立了脈沖神經(jīng)元內(nèi)生動力學與線性注意力模型之間的聯(lián)系，揭示了現(xiàn)有線性注意力機制是樹突計算的特殊簡化形式，從而清晰地展示了一條不斷提升模型復雜度和性能的新型可行路徑。

基于這一理解以及團隊前期工作，團隊構建了與現(xiàn)有大模型兼容的通用模型轉換技術和高效訓練范式，可以將標準的自注意力機制轉換為低秩的線性注意力模型，并適配了所提出的脈沖化編碼框架。

此外，為實現(xiàn)國產(chǎn)算力集群對類腦脈沖大模型的全流程訓練和推理支持，團隊開發(fā)了面向國產(chǎn)GPU集群的高效訓練和推理框架、Triton/CUDA 算子庫、模型并行策略以及集群通信原語。

SpikingBrain-7B 和SpikingBrain-76B分別為層間混合純線性模型和層內(nèi)混合的混合線性 MoE 模型（圖2）。

其中SpikingBrain-7B由線性注意力和滑窗注意力1:1層間堆疊而成。而SpikingBrain-76B則包含 128 個 sink token、16個路由專家以及1個共享專家；對于線性層，在第 [1, 2, 3, 5, 7, 9, 11] 層布置了7個稠密FFN，其余層均實現(xiàn)為MoE層；

對于注意力模塊在第[7, 14, 21, 28]層采用線性注意力+Softmax注意力(LA+FA)組合，在其他層均采用線性注意力+ 滑窗注意力（LA+SWA）組合。

在推理階段，SpikingBrain利用脈沖編碼將激活值轉換為整數(shù)計數(shù)用于GPU執(zhí)行，或轉換為脈沖序列用于事件驅動的神經(jīng)形態(tài)硬件。

圖2. SpikingBrain網(wǎng)絡架構

性能亮點

SpikingBrain1.0的長序列訓練效率顯著提升。SpikingBrain-1.0-7B模型能以極低的數(shù)據(jù)量（約為主流大模型的2%）,實現(xiàn)與眾多開源Transformer模型相媲美的通用語言建模性能（表1）。

SpikingBrain-1.0-76B混合線形模型通過擴展更多的參數(shù)量和更精細的注意力設計，基本保持了基座模型的性能，能使用更少的激活參數(shù)接近甚至優(yōu)于Llama2-70B、Mixtral-8*7B、Gemma2-27B等先進的Transformer模型（表2）。

SpikingBrain-1.0-7B模型在Huggingface框架下適配了多卡序列并行推理（使用ZeCO加上P2P通信），并支持4M長度的Prefill。

結果顯示，相比于使用標準注意力和A2A通信的Qwen baseline，SpikingBrain-1.0-7B在512K和1M長度下TTFT（提交提示到生成第一個Token所需的時間）加速分別達到13.88倍和26.5倍，且隨序列長度和卡數(shù)擴展具有幾乎恒定的時間開銷，在4M長度下Qwen已經(jīng)無法評測，根據(jù)擬合scaling曲線，保守估計速度提升超過100倍（表4）。

團隊將壓縮到1B的SpikingBrain-1.0部署到CPU手機端推理框架上，在64k-128k-256k長度下較Llama3.2的1B模型Decoding速度分別提升4.04x-7.52x-15.39x。

圖2 基于CPU移動推理框架下，不同輸出長度的解碼速度比較

對話Demo和網(wǎng)絡試用端口：團隊提供了SpikingBrain-1.0-76B模型的網(wǎng)絡端的試用端口供大家體驗，該模型基于vLLM推理框架部署在國產(chǎn)GPU集群上，可以支持數(shù)百人的并發(fā)請求。

為支持類腦研究生態(tài)的構建，團隊開源了SpikingBrain-1.0-7B模型（詳見技術報告）。

總結

本次發(fā)布的國產(chǎn)自主可控類腦脈沖大模型探索了脈沖神經(jīng)元內(nèi)生復雜神經(jīng)動力學與線性注意力模型之間的機制聯(lián)系，設計了線性模型架構和基于轉換的異構模型架構，通過動態(tài)閾值脈沖化解決了脈沖驅動限制下的大規(guī)模類腦模型性能退化問題，實現(xiàn)了國產(chǎn)GPU算力集群對類腦脈沖大模型訓練和推理的全流程支持。

超長序列的建模在復雜多智能體模擬、DNA序列分析、分子動力學軌跡等超長序列科學任務建模場景中將具有顯著的潛在效率優(yōu)勢。

未來該團隊將進一步探索神經(jīng)元內(nèi)生復雜動態(tài)與人工智能基礎算子之間的機制聯(lián)系，構建神經(jīng)科學和人工智能之間的橋梁，期望通過整合生物學見解來突破現(xiàn)有人工智能瓶頸，進而實現(xiàn)低功耗、高性能、支持超長上下文窗口的類腦通用智能計算模型，為未來的類腦芯片設計提供重要啟發(fā)。

參考資料：

https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf

責任編輯：厲世摩鈍網(wǎng)