文|IT時報 賈天榮
編輯|孫妍
過去一周,小模型戰(zhàn)場悄然開“卷”。大模型訓練成本如滾雪球般越滾越大,曾經(jīng)堅信“大力出奇跡”的科技巨頭們,如今紛紛轉向小模型賽道,試圖在這場技術與商業(yè)的角逐中尋找新的突破口。
OpenAI、谷歌、微軟乃至蘋果,各自帶著小模型利器紛紛亮相,誰能在這場成本與性能較量中找到黃金分割點?
小模型 更小、更好、更便宜
7月18日,Open AI推出了號稱迄今為止最具成本效益的小模型GPT-4o mini。
據(jù)Open AI介紹,小模型產(chǎn)品是想通過顯著降低AI使用成本,擴大AI使用范圍。GPT-4o mini在MMLU上的得分為82%,并在LMSYS排行榜的聊天偏好測試中表現(xiàn)優(yōu)于GPT-4。
GPT-4o mini適用于一系列任務,第一類是需要多次調用模型的應用,例如調用多個API;第二類是需要向模型傳遞大量上下文信息的應用,例如完整的代碼庫或對話歷史;第三類是通過快速的實時文本響應與客戶互動的應用,例如聊天機器人。
目前,GPT-4o mini在API中支持文本和視覺處理,未來將支持文本、圖像、視頻和音頻的輸入和輸出。該模型的上下文窗口為128K tokens,每次請求支持多達16K輸出tokens,并且具備截至2023年10月的知識。
GPT-4o mini成為主推產(chǎn)品,已在 ChatGPT 免費版上線。在學術基準測試中,GPT-4o mini在文本智能和多模態(tài)推理方面超越了GPT-3.5 Turbo和其他小型模型,支持與GPT-4o相同范圍的語言。它還在函數(shù)調用方面表現(xiàn)出色,使開發(fā)人員能夠構建與外部系統(tǒng)交互的應用,并在長上下文處理性能方面優(yōu)于GPT-3.5 Turbo。
圖源:Open AI
就在OpenAI推出GPT-4o mini模型不久后,英偉達和法國明星AI獨角獸Mistral聯(lián)合發(fā)布了名為Mistral NeMo的小模型,提供性能優(yōu)越、部署便捷、安全性高的企業(yè)級AI功能。由于 Mistral NeMo 依賴于標準架構,因此易于使用,可以直接替換任何使用 Mistral 7B 的系統(tǒng)。
同樣不走尋常路的還有最新殺入AI戰(zhàn)場的蘋果。近期,蘋果公司作為 DataComp-LM(DCLM)項目的研究機構之一,在 Hugging Face 上發(fā)布了 DCLM-7B 開源模型,而且比其他公司更開放。據(jù)了解,該模型性能已經(jīng)超越了 Mistral 7B,并且正在逼近其他領先的開源模型,包括 Llama 3 和 Gemma。
對此有科學家發(fā)出驚嘆:“Apple發(fā)布了一個擊敗Mistral 7B的模型,但更棒的是他們完全開源了,包括預訓練數(shù)據(jù)集!”
小模型或成價格戰(zhàn)“利器”
有人將AI領域如此熱鬧的一周戲稱為“小模型周”。事實上,今年以來,小模型的賽道早已開跑,今年5月,谷歌發(fā)布了輕量級模型Gemini 1.5 Flash。4月,微軟推出SLM(小語言模型)Phi-3系列,微軟強調Phi-3便宜得多,但響應能力接近比它大10倍的模型,號稱能力對標GPT3.5。
小模型,顧名思義指的是參數(shù)規(guī)模遠小于一些大型語言模型的模型,常見的參數(shù)規(guī)模有1.5b、3b、7b等。盡管參數(shù)較少,但通過特定的設計和優(yōu)化,小模型依然能夠在某些任務上實現(xiàn)與大型模型相近的性能,同時降低計算資源消耗,提高能耗比。
曾經(jīng)信仰“大力出奇跡”的巨頭們,如今前赴后繼地入局小模型賽道,仍舊是出于那個繞不開的理由:“成本”。
今年以來,國內外大模型賽道的價格戰(zhàn)愈演愈烈。自去年以來,OpenAI已經(jīng)進行了4次降價,國內方面,5月,字節(jié)跳動把定價降低了一個數(shù)量級,從以分計價進入以厘計價時代。根據(jù)火山引擎公布的價格計算,1元就能買到豆包主力模型的125萬Tokens,大約是200萬個漢字。7月5日,2024世界人工智能大會(WAIC 2024)期間,百度宣布文心旗艦款模型ERNIE 4.0和ERNIE 3.5大幅降價,ERNIE Speed、ERNIE Lite兩款主力模型持續(xù)免費。
價格戰(zhàn)打得火熱的背后,尖端AI訓練成本居高不下,甚至越來越高。
斯坦福HAI研究所發(fā)布的報告指出,當前尖端AI的訓練成本正越來越高,報告顯示,2017年訓練最初的Transformer模型的成本僅為約900美元,而到了2019年,RoBERTa Large模型的訓練成本已經(jīng)升至約16萬美元。到了2023年,OpenAI GPT-4和Google Gemini Ultra的訓練成本更是分別達到約7800萬美元和近2億美元。
為此,小模型以更低的成本,極致的性價比,成為AI模型公司卷價格戰(zhàn)的“利器”。
GPT-4o mini發(fā)布后,山姆·奧特曼在推特上發(fā)文指出,早在2022年,世界上最好的模型是text-davinci-003,它比GPT-4o mini差得多,但成本要貴上100多倍。
成本更低的小模型給成本敏感型企業(yè)多了一重選擇。GPT-4o mini的每百萬輸入tokens 為15美分,每百萬輸出tokens 為60美分,相對的,此前入門款模型GPT-3.5 Turbo輸入/輸出定價是0.5美元/1.5美元,GPT-4o mini在此基礎上便宜了超60%。
根據(jù)Artificial Analysis的統(tǒng)計,GPT-4o mini已經(jīng)達到美國AI公司主流“小模型”里價格最低位置,比起Anthropic、谷歌的同類型競品都要更具性價比。
“在過去的幾年里,我們見證了人工智能的顯著進步,同時也見證了成本的大幅低,我們致力于提高模型性能的同時繼續(xù)降低成本。”O(jiān)penAI方面表示,自2022年以來,模型每token的成本下降了99%。
小模型正成為新風口
真正落地后,性價比成為企業(yè)的重要考量,小模型或將越來越受青睞。
《華爾街日報》近日報道,企業(yè)正越來越多地部署中小型的AI模型,它們更青睞規(guī)模較小、更具成本效益的AI技術,而不是在AI熱潮早期掀起波瀾的大型昂貴模型。
對于一些最常見的AI用例來說,比如涉及文檔分類等小范圍、重復的任務,中小型模型更有意義。當前企業(yè)正在部署更多AI用例,它們也面臨著管理這種昂貴技術的成本和回報的壓力。
營銷服務公司W(wǎng)PP集團正在使用谷歌Gemini的中型模型Flash,其首席技術官斯蒂芬·普雷托留斯提到,一年前,企業(yè)被少數(shù)幾款大型模型吸引。當公司有限度地、試驗性地使用它們的能力時,情況還好,但現(xiàn)在隨著它們的規(guī)模擴大,大模型的成本可能很快就會失控。
“企業(yè)傾向于構建小模型來完成特定任務。”山海引擎COO彭璐在接受《IT時報》采訪時曾表示,國內算力需求正從大規(guī)模模型訓練轉向推理需求,尤其是企業(yè)對于私有化部署的推理需求日益增長。隨著開源模型能力的提升,企業(yè)發(fā)現(xiàn)通過微調開源模型即可滿足特定任務需求,無須投入巨資訓練超大規(guī)模模型。
在今年年初召開的2024百度AI開發(fā)者大會上,李彥宏也表示,基于百度文心4.0,用戶可以結合效果、響應速度及推理成本等多維度因素,靈活剪裁出適用于不同場景的小尺寸模型。相較于直接使用開源模型調整得到的模型,這些定制的小模型在同等尺寸下展現(xiàn)出了更為顯著的效果優(yōu)勢;而在同等效果下,其成本則更低廉。
“在一些特定場景中,經(jīng)過精調后的小模型,其使用效果甚至可以媲美大模型。”李彥宏論斷,未來大型的AI原生應用將主要采用大小模型混合使用的方式,根據(jù)不同場景選擇適合的模型。
排版/ 季嘉穎