您可以輸入30

理財

您所在的位置:
浪潮信息再發大模型:時隔兩年,源2.0與源1.0有何不同?
 

  11月27日,浪潮信息正式發佈“源2.0”基礎大模型,包括1026億、518億、21億三種參數規模,並且全面開源。

  在大模型方面,浪潮信息算是中國市場的先行者。早在2021年9月,浪潮信息就發佈了源1.0大模型,該模型參數爲2457億,是當時業界規模最大的大模型。

  從源1.0到源2.0,時間間隔了兩年多,行業也發生了重大變化。尤其是ChatGPT的發佈,引發了一場全新的技術革命,而浪潮信息作爲“兩個時代”的見證者,其先後發佈的兩代大模型,也有着完全不同的結構。

  OpenAI的影響

  在浪潮信息人工智能軟件研發總監吳韶華看來,這輪大模型競賽,從OpenAI發佈GPT 3時就已經開始了。2020年5月,GPT 3發佈,它提出了一種新的大模型訓練和應用模式,即基礎大模型經過訓練後,通過零樣本或小樣本提示的形式直接賦能行業應用。

  2021年8月,OpenAI進行了GPT 3.5的路演,在這個版本中,OpenAI在基礎大模型之上,引入了指令微調的技術手段,並藉此將模型能力和人的意圖進行了對齊,讓大模型能夠理解人的意圖,並且反饋更真實的回答。

  在OpenAI不斷迭代大模型產品的過程中,浪潮信息也在同步開發大模型。吳韶華表示,源1.0採用了比較經典的transformer結構,這和GPT 3的結構很類似。

  2022年底,ChatGPT的橫空出世,驚豔了世界,同時也帶給了業界諸多的探究空間。不過,業界很快就獲悉ChatGPT的訓練方法——GPT 3+強化學習。對於浪潮信息來說,因爲有源1.0的基礎,在引入強化學習的方法後,也很快就做出了類似ChatGPT的一套系統,並且這套系統一直在迭代和改進,只不過浪潮信息一直沒有對外發布。

  “相比ChatGPT,GPT 4帶給業界的震撼要更大”,吳韶華坦言,“ChatGPT的方法還有跡可循,但GPT 4沒有對外披露,而且它展現出的能力要更全面,也更強大”。

  所以2023年3月,GPT 4發佈後,業界都在探究它到底是通過什麼樣的技術來實現這樣的模型能力,浪潮信息也不例外。而這些,在今天的源2.0身上交出了答案,基於算法、數據層面的思考,浪潮信息逐漸形成了一套較成熟的模型結構改進方案。

  源2.0的創新

  據吳韶華介紹,源2.0的創新主要體現在三個方面。首先是算法方面,源2.0提出並採用了一種新型的注意力算法結構——局部注意力過濾增強機制(LFA:Localized Filtering-based Attention)。

  LFA通過先學習相鄰詞之間的關聯性,然後再計算全局關聯性的方法,能夠更好地學習到自然語言的局部和全局的語言特徵。這使得模型可以在使用更少的訓練算力、更小的模型參數的情況下,同樣可以獲得更高的模型精度和涌現能力。

  其次是數據方面,源2.0通過使用中英文書籍、百科、論文等高質量中英文資料,降低了互聯網語料內容佔比,並結合高效的數據清洗流程,爲大模型訓練提供了高質量的專業數據集和邏輯推理數據集。

  比如爲了獲取中文數學數據,浪潮信息清洗了從2018年至今約12PB的互聯網數據,最後獲取到了約10GB的數學數據。

  最後在算力方面,源2.0採用了非均勻流水並行的方法,綜合運用“流水線並行+優化器參數並行+數據並行”的策略,讓模型在流水並行各階段的顯存佔用量分佈更均衡,避免出現顯存瓶頸導致的訓練效率降低的問題。

  經過驗證,源2.0大模型算力集羣的線性擴展效率爲47.3%,這遠高於同類千億參數大模型的算力集羣線性擴展效率(業界普遍算力效率爲27%-35%)。

  也正是得益於這些創新,使得源2.0的模型參數雖然比源1.0更小,但是在各方面能力上,卻遠超於源1.0。

  對於接下來的發展,吳韶華表示,針對後續的源2.5、源3.0模型,浪潮信息依然會從算法和數據兩個維度入手。“算法方面我們剛剛進入一個新領域,這裏值得探索的內容還很多,而在數據方面,我們會構建一套高質量數據自動生成系統,來持續爲大模型提供高質量的數據。”

  (工行網站特約作者:白楊)

  文章來源:21世紀經濟報道

  注:本信息僅代表專家個人觀點僅供參考,據此投資風險自負。

【關閉窗口】