中國工商銀行中國網站-理財頻道-白楊欄目-阿里雲宣佈通義千問開源720億參數模型

您所在的位置：

阿里雲宣佈通義千問開源720億參數模型

　　12月1日，阿里雲宣佈開源通義千問720億參數模型Qwen-72B、18億參數模型Qwen-1.8B和音頻大模型Qwen-Audio。

　　此前，通義千問已經開源了Qwen-7B、Qwen-14B和視覺理解模型Qwen-VL。據阿里雲CTO周靖人介紹，這幾款模型的累計下載量已超過150萬，並催生出150多款新模型、新應用。

　　隨着這次又新開源三款大模型，通義千問的開源大模型矩陣也擴展到18億、70億、140億、720億參數的4款大語言模型，以及視覺理解、音頻理解兩款多模態大模型，真正實現了“全尺寸、全模態”開源。

　　周靖人在發佈會上表示，開源生態對促進中國大模型的技術進步與應用落地至關重要，通義千問將持續投入開源，希望成爲“AI時代最開放的大模型”。

　　在這次新開源的大模型中，最值得關注的是Qwen-72B。在此之前，中國大模型市場還沒出現足以對標Llama 2-70B的優質開源模型，而Qwen-72B填補了國內空白。

　　據悉，Qwen-72B基於3T tokens高質量數據訓練，可以處理最多32k的長文本輸入，在10個權威基準測評中奪得開源模型最優成績，在部分測評中超越閉源的GPT-3.5和GPT-4。

　　周靖人介紹稱，阿里雲研發團隊優化了Qwen-72B的指令遵循、工具使用等技能，使之能更好地被下游應用集成。比如，Qwen-72B搭載的系統指令（System Prompt）能力，讓用戶用一句提示詞就可定製AI助手，並要求大模型扮演某個角色或者執行特定的回覆任務。

　　Qwen-72B的開源，也爲業界提供了一款不亞於商業閉源大模型的選擇。而除了Qwen-72B，這次開源的Qwen-1.8B也是目前尺寸最小的中國開源大模型。周靖人表示，“這款可推理2K長度文本內容，顯存僅需3G的大模型，主要是面向消費級終端。”

　　發佈會上，阿里雲還披露了通義千問閉源模型的最新進展。據悉，一個月前發佈的通義千問2.0版閉源模型最近已迭代至2.1版，其上下文窗口長度已擴展到32k，代碼理解生成能力、數學推理能力、中英文百科知識、幻覺誘導抵抗能力也分別提升了30%、10%、近5%和14%。

　　（工行網站特約作者：白楊）

　　文章來源：21世紀經濟報道

　　注：本信息僅代表專家個人觀點僅供參考，據此投資風險自負。

（）

【關閉窗口】