界面新聞記者 | 李京亞
OpenAI空前崛起之際,谷歌毅然打響了絕地反擊戰。
北京時間12月7日凌晨,谷歌CEO桑達爾?皮查伊和Deepmind CEO戴密斯·哈薩比斯在谷歌官網聯名發文,官宣了最新多模態大模型Gemini 1.0(雙子星)版本正式上線。這個上線時間早于外界猜測的明年1月,保密程度很高,僅有少數媒體提前猜出。
Gemini 1.0是谷歌籌備了一年之久的GPT4真正競品,也是目前谷歌能拿出手的功能最為強悍、適配最為靈活的大模型,包括三種不同套件,分別是Gemini Ultra, Gemini Pro和Gemini Nano。其中Ultra的能力最強,復雜度最高,能夠處理最為困難的多模態任務;Pro能力稍弱,是一個可擴展至多任務的模型;Nano則是一款可以在手機端側運行的模型。這說明,Gemini的觸達范圍很廣,可以下探至數據中心,也可以上行至移動設備端側。
谷歌的Bard聊天機器人,此番也已經升級到了Gemini,可以說Gemini的初始版本已于今日開始在Bard中提供。從5月的I/O大會之后,谷歌就將自己此前最強的人工智能模型PaLm 2融入了Gemini的能力之中。
在一段公布的演示視頻中,桑達爾?皮查伊展示了Gemini對視頻、圖像的非同凡響的識別能力。在視頻中,Gemini極為自如地在圖像、音頻、視頻各模態之間的轉換,展現了驚人的解鎖應用場景與產品形態的潛力。

僅從谷歌釋出的演示視頻結果看,市面上現有的全部多模態大模型與Gemini的性能表現都有代際差,包括Meta 5月開源的跨6個模態的AI模型ImageBind以及GPT-4。

今年4月開始,隨著多模態技術不斷升級,以及疊加模型調用成本等性能的優化,GPT4及國內外一眾模型持續迭代,實現了跨模態性能的不斷增強。一時間,多模態大模型呈百花齊放之勢。但有國內頭部大模型初創開發工程師對界面新聞記者表示,現今絕大部分多模態大模型都是在大語言模型LLM之上生長出多模態的應用,而并非從頭開始訓練的多模態的大模型,這是多模態大模型目前“不能言說的秘密”。

谷歌自己也提到,到目前為止,創建多模態模型的標準方法基本是針對不同模態訓練單獨的組件,然后將它們拼接以粗略模仿其中一些功能。這會導致這些模型有時擅長執行某些任務,例如描述圖像,但難以處理更概念性和復雜的推理。
其通過60頁的相關技術報告證明,Gemini是一個真正原生的多模態大模型,因為從最初的預訓練數據開始,Gemini就在針對不同模態的模型進行訓練,因此其功能在每個重大領域都達到了SOTA(State of the art,特指領先水平的大模型)。

在權威MMMU基準測試中,Gemini Ultra獲得了59.4%的SOTA分數。這項基準測試是經典的多模態測試,由跨不同領域的多模式任務組成,能夠體現大模型的深度推理能力,而推理過程本身,需要花費的成本要遠遠高于模型訓練。谷歌技術報告同時顯示,谷歌是使用TPUv5e和TPUv4來訓練Gemini,尤其是訓練Gemini Ultra時,使用了跨多個數據中心的大量TPUv4。
多模態能力之外,Gemini在專業知識儲備和高級編碼等領域都處在最前列。比如,Gemini Ultra在MMLU(大規模多任務語言理解數據集)中的得分率高達90.0%,這款MMLU數據集包含數學、物理、歷史、法律、醫學和倫理等57個科目,專門用于測試大模型的知識儲備和解決問題能力。Gemini Ultra是第一個在MMLU上超越人類專家的大模型。
值得一提的是,谷歌此番并沒有透露Ultra和Pro版本的具體參數規模,但根據量子位的分析,Gemini與谷歌此前的主力大模型PaLM-2相比,參數規模上要增大許多。此前,PaLM-2被曝參數規模為3400億。
谷歌方面表示,Gemini將通過谷歌產品推向數十億用戶。從12月13日開始,開發者和企業客戶可以通過Google AI Studio或Google Cloud Vertex AI中的Gemini API訪問Gemini Pro。
今天凌晨,谷歌還同步發布了最新版本的計算芯片TPU v5p,相較上一代TPU v4性價比提升2.3倍,但這則消息完全被Gemini的光芒所掩蓋。