發(fā)布時間:2025-09-10 來源:伯樂相馬網(wǎng)作者:Sunny2022
快科技9月7日消息,據(jù)報道,NVIDIA的RTX 5090和RTX PRO 6000顯卡最近被發(fā)現(xiàn)存在一個可復現(xiàn)的虛擬化重置漏洞,該漏洞會導致顯卡完全無響應(yīng),直到主機系統(tǒng)物理重啟才能恢復。
CloudRift是一家GPU云服務(wù)提供商,他們在生產(chǎn)環(huán)境中多個配備Blackwell芯片的系統(tǒng)上遇到了這個問題后,詳細公布了問題的分析報告,并懸賞1000美元,公開征集能夠找到解決方案或根本原因的人。
根據(jù)CloudRift的日志,這個漏洞發(fā)生在GPU通過KVM和VFIO傳遞給虛擬機后。在虛擬機關(guān)閉或GPU重新分配時,主機系統(tǒng)會發(fā)出一個PCIe功能級重置(FLR)。
但與正常情況不同的是,GPU并沒有恢復到良好狀態(tài),而是停止響應(yīng),內(nèi)核報告稱:"FLR后65535毫秒仍未就緒;放棄。"
此時,顯卡也變得無法被lspci讀取,lspci會拋出"未知頭部類型7f"的錯誤,CloudRift指出,唯一恢復正常操作的方法是對整個機器進行斷電重啟。
AI初創(chuàng)公司Tiny Corp也復現(xiàn)了CloudRift的發(fā)現(xiàn),并直接提出了一個問題:"RTX 5090和RTX PRO 6000是否有硬件缺陷?我們已經(jīng)調(diào)查過,但找不到解決方案。"
社區(qū)的討論中,許多家庭用戶和其他RTX 5090的早期采用者也報告了類似的問題,一位用戶表示在關(guān)閉Windows虛擬機后,整個主機系統(tǒng)掛起,即使操作系統(tǒng)級別的重啟后,GPU也無法重新初始化。
用戶證實,切換PCIe ASPM或ACS設(shè)置并不能緩解故障,目前還沒有報告稱舊型號顯卡(如RTX 4090)存在類似問題,這表明該漏洞可能僅限于NVIDIA的Blackwell系列。