您可以輸入30

理財

您所在的位置:
阿里雲宣佈通義千問開源720億參數模型
 

  12月1日,阿里雲宣佈開源通義千問720億參數模型Qwen-72B、18億參數模型Qwen-1.8B和音頻大模型Qwen-Audio。

  此前,通義千問已經開源了Qwen-7B、Qwen-14B和視覺理解模型Qwen-VL。據阿里雲CTO周靖人介紹,這幾款模型的累計下載量已超過150萬,並催生出150多款新模型、新應用。

  隨着這次又新開源三款大模型,通義千問的開源大模型矩陣也擴展到18億、70億、140億、720億參數的4款大語言模型,以及視覺理解、音頻理解兩款多模態大模型,真正實現了“全尺寸、全模態”開源。

  周靖人在發佈會上表示,開源生態對促進中國大模型的技術進步與應用落地至關重要,通義千問將持續投入開源,希望成爲“AI時代最開放的大模型”。

  在這次新開源的大模型中,最值得關注的是Qwen-72B。在此之前,中國大模型市場還沒出現足以對標Llama 2-70B的優質開源模型,而Qwen-72B填補了國內空白。

  據悉,Qwen-72B基於3T tokens高質量數據訓練,可以處理最多32k的長文本輸入,在10個權威基準測評中奪得開源模型最優成績,在部分測評中超越閉源的GPT-3.5和GPT-4。

  周靖人介紹稱,阿里雲研發團隊優化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游應用集成。比如,Qwen-72B搭載的系統指令(System Prompt)能力,讓用戶用一句提示詞就可定製AI助手,並要求大模型扮演某個角色或者執行特定的回覆任務。

  Qwen-72B的開源,也爲業界提供了一款不亞於商業閉源大模型的選擇。而除了Qwen-72B,這次開源的Qwen-1.8B也是目前尺寸最小的中國開源大模型。周靖人表示,“這款可推理2K長度文本內容,顯存僅需3G的大模型,主要是面向消費級終端。”

  發佈會上,阿里雲還披露了通義千問閉源模型的最新進展。據悉,一個月前發佈的通義千問2.0版閉源模型最近已迭代至2.1版,其上下文窗口長度已擴展到32k,代碼理解生成能力、數學推理能力、中英文百科知識、幻覺誘導抵抗能力也分別提升了30%、10%、近5%和14%。

  (工行網站特約作者:白楊)

  文章來源:21世紀經濟報道

  注:本信息僅代表專家個人觀點僅供參考,據此投資風險自負。

【關閉窗口】