美國時間12月6日,谷歌正式發佈了Gemini大模型。谷歌CEO桑達爾·皮查伊(Sundar Pichai)稱,這是谷歌迄今爲止功能最強大、最通用的模型。
距離ChatGPT發佈,已經過去一年零一週。伴隨着ChatGPT的發佈,OpenAI成爲了人工智能領域最耀眼的公司,尤其是在大模型領域,它也是其他所有科技公司的追趕目標,其中包括谷歌。
過去八年,谷歌一直把AI-first作爲公司戰略,2016年打敗人類圍棋冠軍的AlphaGo便是出自谷歌之手。毫不誇張地說,是谷歌掀起的一股AI浪潮,改變了整個AI行業的發展,但現在,它亟需在大模型領域證明自己。
據悉,在Gemini 1.0版本中包含三個不同尺寸,分別是Gemini Ultra、Gemini Pro、Gemini Nano。其中,Gemini Nano主要應用於設備端,Pixel 8 Pro將是第一款搭載Gemini Nano的智能手機;Gemini Pro則適用於在各種任務中擴展,谷歌便計劃用Gemini Pro來升級旗下的聊天機器人Bard,以及包括搜索、廣告、Chrome等在內的更多谷歌產品中。
對於功能最強悍的Gemini Ultra,谷歌稱目前正在進行信任和安全檢查,以及通過微調和基於人類反饋的強化學習(RLHF)進一步完善模型,預計明年初向開發人員和企業客戶推出。
桑達爾·皮查伊表示,Gemini的發佈,是人工智能發展的一個重要里程碑,也是谷歌新時代的開始。
超越GPT-4?
據谷歌DeepMind首席執行官黛米斯·哈薩比斯(Demis Hassabis)介紹,Gemini是由谷歌團隊從頭開始構建的多模態模型,這意味着它可以概括並無縫理解、處理不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
在性能測試上,Gemini Ultra在32個大語言模型基準測試中的30箇中超過了當前最優成績,另外在MMLU(大規模多任務語言理解)中,Gemini Ultra的得分爲90%,成爲首個超越人類專家的大模型。
據悉,MMLU通過結合數學、物理、歷史、法律、醫學和倫理學等57個科目,來測試大模型對世界知識和解決問題的能力。此前,GPT-4在該測試中的成績爲86.4%,而人類專家的成績爲89.8%。
而在MMMU基準測試中,Gemini Ultra取得了59.4%的最高得分,GPT-4V的成績爲56.8%,該項測試由跨越不同領域的多模態任務組成。
黛米斯·哈薩比斯稱,在測試圖像基準過程中,Gemini Ultra在沒有來自圖像字符識別(OCR)系統的幫助下,就超越了此前最先進的模型。這些基準測試凸顯了Gemini的多模態能力,也展現出其具有更復雜推理能力的早期跡象。
目前,創建多模態模型的標準方法主要是通過訓練不同模態的單獨組件,然後將它們拼接在一起。但這樣操作的結果是,這些模型有時在執行某些任務(如描述圖像)方面表現良好,但往往難以處理更復雜的推理。
“我們將Gemini設計爲原生多模態,它從一開始就針對不同模態進行了預訓練,然後我們使用額外的多模態數據對其進行微調,以進一步提高其效果。”黛米斯·哈薩比斯介紹道,“這幫助Gemini從頭開始就能無縫理解和推理各種輸入,遠遠優於現有的多模態模型,而且其能力在幾乎所有領域都達到了最先進的水平。”
比如在推理方面,Gemini 1.0可以理解複雜的書面和視覺信息,它通過閱讀、篩選和理解信息,能夠從數十萬份文檔中提取見解。
另外,Gemini 1.0經過訓練,可以同時識別和理解文本、圖像、音頻等,因此它能更好地理解微妙的信息,並能回答涉及複雜主題的問題,比如進行數學和物理等複雜學科的推理。
而在編碼方面,Gemini 1.0能夠理解、解釋和生成世界上最流行的編程語言(如Python、Java、C++和Go)的高質量代碼。兩年前,谷歌曾推出AI代碼生成平臺AlphaCode,現在在Gemini的助力下,該平臺迭代到AlphaCode 2,性能也得到大幅提升,可以解決之前幾乎兩倍數量的問題。
仍在持續優化安全性
桑達爾·皮查伊表示,現在已經有數百萬人正在使用谷歌產品中的生成式AI,做一年前還做不到的事情,從回答更復雜的問題到使用新工具進行協作和創造。與此同時,開發人員正在使用谷歌的模型和基礎架構構建新的生成式AI應用程序,全球的初創公司和企業也正在利用谷歌的AI工具不斷成長。
在其看來,這種趨勢已經有些令人難以置信,但是,這還僅僅是開始。
“我們正在大膽而負責任地開展這項工作。這意味着我們的研究要有雄心壯志,追求能夠爲人類和社會帶來巨大利益的能力,同時也要建立保障措施,並與政府和專家合作,以應對隨着AI變得更加強大而產生的風險。”桑達爾·皮查伊稱。
因此在Gemini的開發過程中,谷歌也加強了安全審查工作。黛米斯·哈薩比斯介紹,在谷歌的AI原則和產品安全政策基礎上,谷歌團隊正爲Gemini的多模態能力添加新的保護措施。
不僅如此,黛米斯·哈薩比斯還強調,在開發的每個階段,谷歌都會考慮潛在風險,並努力測試和減輕它們。
據悉,Gemini具有到目前爲止所有谷歌AI模型中最全面的安全評估,包括對偏見和有害信息的評估。同時,爲了識別內部評估方法中的盲點,谷歌還在與各種外部專家和團隊合作,對Gemini模型在各種問題上進行壓力測試。
另外值得關注的是,Gemini的訓練是基於谷歌自己的張量處理單元(TPUs)——v4和v5e。在這些TPUs上,Gemini比谷歌之前的模型運行速度更快、成本更低。所以除了新模型外,谷歌還宣佈將推出新的TPU系統——Cloud TPU v5p,這是專爲訓練尖端AI模型而設計的,也將用於Gemini的開發。
有業內人士向記者表示,谷歌此次發佈的Gemini雖然在很多性能上超越了GPT-4,但是它與OpenAI仍存在時間差,GPT-4發佈已經半年多,新一代模型應該也在開發過程中。
“所以對谷歌而言,與GPT-4進行各種基準測試的比較,只是展現其現階段能力的一方面,能否依靠自身積累以及強大的資源,縮短與OpenAI的時間差纔是關鍵。”該人士指出。另外,Gemini作爲谷歌在大模型時代構建的全新基礎設施,比起測試數據,能否滿足日常用戶以及企業客戶,纔是檢驗Gemini能力的真正標準。
黛米斯·哈薩比斯表示,谷歌已經開始在搜索中試驗Gemini,它使用戶的搜索生成體驗變得更快,在美國的英語搜索中,延遲減少了40%,同時在質量方面也有所提升。
而接下來,在加速Gemini 1.0落地應用的過程中,谷歌也在進一步擴展其未來版本的功能,包括增加上下文窗口以處理更多信息,進而提供更好的響應。
(工行網站特約作者:白楊)
文章來源:21世紀經濟報道
|