今年以來,國產人工智能大模型DeepSeek大熱。前不久,《麻省理工科技評論》一篇題爲《關注DeepSeek之外的四家中國人工智能初創公司》的文章引發關注,無問芯穹便是文中列舉的四家初創公司之一,專注於異構算力。雖然成立不滿兩年,無問芯穹已經吸引了近10億元融資。
DeepSeek火爆之後,行業探討的一個焦點是,這將會如何影響國產算力?可以看到,DeepSeek出圈後,國內的芯片廠商反應迅速,華爲昇騰、海光信息、沐曦、天數智能、摩爾線程、壁仞等多家國產AI芯片等宣佈完成適配DeepSeek模型。記者近日專訪了無問芯穹CEO夏立雪,聚焦當前市場對於國產算力的三大關切點。
一問:DeepSeek的低成本,是否意味着對算力需求變低?
從DeepSeek正式發佈的技術報告來看,R1的基礎模型V3總訓練成本僅爲557萬美元。相較之下,GPT-4o這樣的模型訓練成本約爲1億美元。這意味着DeepSeek的成本只有GPT-4o的1/20。
低成本實現的背後,是DeepSeek對於算力的高效利用。“我們進一步對DeepSeek-V3的論文做解讀,可以看到它用十多頁專門介紹系統架構設計,核心是利用軟硬件協同設計的思想,不斷提升‘系統開銷’(即模型的訓練成本)到模型尺寸、能力的轉化率。”夏立雪說。
既然依靠低算力,也能訓練出“厲害”的大模型,是否意味着,未來關於算力的需求並沒有預想的那麼多?夏立雪給出了否定的答案。
一直以來,大模型行業存在“Scaling law”,即通過增加模型規模、數據量和計算能力,可以持續提升大模型性能。這也導致了一種趨勢,即盲目追求更大的模型和更多的算力,常常忽視了計算資源和能源消耗的成本,以及模型在實際應用中的效率問題。
“DeepSeek並沒有證明Scaling law是錯的。量變引起質變,規模擴大依然是DeepSeek獲得智能提升的基礎。DeepSeek模型共發佈了3個大版本,大概每半年更新一次,參數規模從67B擴大到236B再到如今671B。能讓DeepSeek出圈的一個重要因素是,它的模型體量提升了10倍,但所使用的算力並沒有隨着模型尺寸等比例成倍增加,可以說遠低於預期。”
事實上,DeepSeek出來之後,美國的大廠並沒有削減其算力開支,反而以更大、更激進的投入卷“算力”。
2月18日,埃隆·馬斯克發佈其最新一代大模型Gork3,宣稱使用了20萬塊H100 GPU,據估算這一成本相當於DeepSeek模型的200多倍。
從公開數據來看,2025年美國科技四巨頭資本支出仍將高速增長。最新財報電話會顯示,微軟計劃2025年資本支出將環比增加;亞馬遜計劃2025年投入1000億美元資本支出,增速將接近30%,谷歌計劃在2025年投入750億美元資本支出,增速將超過40%。Meta預計2025年資本支出爲600億-650億美元,增速將高達60%-75%。
不過夏立雪提到,隨着DeepSeek的火爆,未來關於算力的需求結構會發生變化,相較而言,推理算力的需求會急劇增加。“DeepSeek的開源,夯實了一個市場上的重要生態位,叫做‘好用的中文開源模型’,尤其是其在推理能力上的突破,將會激發越來越多的下游應用創造力。”
二問:DeepSeek的火爆,爲國產芯片帶來哪些機會?
“對於國產芯片來說,DeepSeek首先是證明了一種方法論的可行性,讓軟硬件聯合優化的技術路徑再次被印證。”夏立雪說。
“DeepSeek在工程化方面的優化,讓我們感受到了一種匠人精神。”夏立雪解釋稱,DeepSeek提出了多個軟硬件協同設計方法,並通過“極致”的系統工程落地來實現。
“這些優化大致可分爲兩類。一是深入到底層硬件的硬核優化,這需要對底層的硬件有充分理解,並能夠在硬件層面得到足夠開放的軟件生態,比如對底層PTX編程,又如極致的內存優化;第二是打通從算法到硬件的協同優化,這需要對於從算法到硬件各個層次都有充分的理解,並具有極致的工程實現能力。”
這條路徑的走通,可以說爲國產芯片注入了一劑“強心針”。“既然DeepSeek能夠通過軟硬件協同優化提升英偉達芯片的效能,那麼也可以用同樣的思路提升國產芯片的效能。國產芯片與海外芯片的差距,有望通過這種方式得到部分彌合。這也證明了我們的預判,用代際相對落後的算力來訓練先進模型是可行路徑。”夏立雪說。
走通軟硬件協同的路徑,需要關注模型、系統、芯片三個關鍵因素。在海外,這三者已經形成閉環生態。
“英偉達一直知道,它下一代芯片的優化方向是什麼,這是CUDA(Compute Unified Device Architecture,軟硬體統一計算架構)爲其帶來的護城河,也是讓英偉達芯片保持領先的原因之一。CUDA的軟件堆棧,可以讓研究人員和軟件開發者更好地在GPU上編程和構建各種各樣的應用,從而牽引下一代芯片的迭代方向。”夏立雪表示。
困擾國產芯片的其中一個問題就在於,生態難形成。夏立雪表示,如今,國產芯片也有機會迎來自己的正向循環。
“DeepSeek的突破激發了越來越多的下游應用創造力,不僅將激發國產芯片的市場需求,也爲打造全國產AI產業閉環,實現更可控的自主算力發展創造了有力條件。”
談及國產芯片的未來,夏立雪提出了“三步走”的思路,第一步是基於主流芯片開展極致軟硬件協同優化,以有限算力實現國產模型能力追趕;第二步,是推動國產芯片開放底層生態,搭建“異構”AI系統解決算力缺口,實現模型能力趕超;第三步,則是構建國產“同構”系統,實現“國產模型-國產芯片-國產系統”的全國產AI產業閉環,實現更可控的自主算力發展。
三問:國產算力的“異構”模式,商業路徑走通了嗎?
“我們希望讓算力使用起來像水、電、煤一樣便捷。”夏立雪這樣描述無問芯穹的願景。
“中國當前特有的AI基礎設施是多模型和多芯片,存在大量的異構算力,需要把它們變得能用,進而變得好用。只有在使用的閉環中,才能形成硬件與算法之間的正向循環。”夏立雪說。
記者瞭解到,無問芯穹希望通過異構雲,擴大國內大模型產業可用算力的範圍,提升算力利用效率。“未來,我們會把各種異構的、跨地域的算力整合起來提供給客戶,將異構算力轉化爲標準的算力,服務於人工智能行業。”
前不久的2月11日,無問芯穹宣佈獲七家國產芯片支持,將打通DeepSeek-R1、V3在壁仞、海光、摩爾線程、沐曦、昇騰、燧原、天數智芯等七個硬件平臺的多芯片適配優化,成爲首個同時支持DeepSeek多芯片適配和推理的平臺。
構建異構算力平臺,需要攻破很多技術瓶頸。夏立雪坦言,異構情況下的確出過現相同數量的國產芯片加上英偉達芯片,訓練表現不如單獨英偉達芯片的情況。如今,隨着技術的逐漸成熟和上下游生態的共同努力,這一商業模式已見曙光。
“在某些特定場景下,使用國產芯片或異構芯片已被驗證性價比能超過英偉達。隨着DeepSeek激發下游應用創造力,更多中腰部廠商將嘗試這種方式。”夏立雪說。
|