国产精品一区二区,亚洲中文字幕第一页在线,四虎影视永久地址WWW成人

界面新聞?dòng)浾?| 李京亞

距離谷歌推出自己的最強(qiáng)大模型Gemini已將近一周時(shí)間，不少國(guó)內(nèi)AI公司都在試圖探究，這款大模型到底具有多大的威力。

和此前業(yè)內(nèi)推出的很多大模型不同，谷歌Gemini此次繞開了文字環(huán)節(jié)，直接靠視覺和聲音來理解世界，盡管其現(xiàn)場(chǎng)演示demo曾涉嫌造假和過分夸大能力。

Gemini的演示視頻讓大量用戶誤以為Gemini能實(shí)時(shí)讀取視頻信息，進(jìn)而通過理解回答用戶問題，但實(shí)際上，谷歌員工是通過提示詞才讓Gemini生成了這些回復(fù)。圖源：谷歌

為了了解Gemini的出現(xiàn)會(huì)對(duì)OpenAI以及其他AI公司產(chǎn)生何種影響，界面新聞近日走訪了多家頭部生成式AI公司的業(yè)務(wù)負(fù)責(zé)人及開發(fā)者，他們認(rèn)為Gemini的最大特色便是“原生”的多模態(tài)大模型。

“理論上說，原生多模態(tài)比‘拼接’多模態(tài)大模型效果更好，因?yàn)楹笳咴谟?xùn)練階段極易遇到瓶頸。”循環(huán)智能的AI負(fù)責(zé)人陳虞君告訴界面新聞?dòng)浾撸捎谀壳斑€未深度使用過，Gemini的實(shí)際優(yōu)勢(shì)有待進(jìn)一步了解。

多位大模型初創(chuàng)開發(fā)人員表示，即便Gemini系列最大尺寸的Ultra尚未正式推出，Gemini已經(jīng)在文本方面展示出和GPT-4同水準(zhǔn)的能力。

在谷歌官方釋出的基準(zhǔn)測(cè)試集中，Gemini Ultra在大部分文本測(cè)試中的表現(xiàn)都優(yōu)于GPT-4，在幾乎全部多模態(tài)任務(wù)測(cè)試中的表現(xiàn)都優(yōu)于GPT-4v。如果以GPT-4的測(cè)試條件為基準(zhǔn)，Gemini Ultra在MMLU上的表現(xiàn)弱于GPT-4，但仍然優(yōu)于其他主流大模型。圖源：Gemini Technical Report 中信建投研報(bào)

在Gemini的演示視頻中，這個(gè)大模型仿佛可以實(shí)時(shí)觀察人類的行為，并給予反饋，例如可以完美描述出一只鴨子從草圖到填色的過程；可在換杯游戲中追蹤紙團(tuán)，輔助進(jìn)行數(shù)學(xué)、物理的解題；能夠辨別手勢(shì)，做課堂動(dòng)手類游戲互動(dòng)，還可以重新排列行星草圖。

開發(fā)者們普遍認(rèn)為，無論造假成分幾何，Gemini已經(jīng)展現(xiàn)出較強(qiáng)的理解、推理、創(chuàng)作和實(shí)時(shí)互動(dòng)能力，實(shí)現(xiàn)了對(duì)OpenAI多模態(tài)模型GPT-4v的全面超越。谷歌的回應(yīng)也基本被業(yè)界所接受，“所有用戶提示和輸出都是真實(shí)的，只是為了簡(jiǎn)潔起見進(jìn)行了縮短。”

三個(gè)月前OpenAI低調(diào)發(fā)布的GPT-4v能做多模態(tài)任務(wù)，例如理解和圖像生成，但效果并不太好，并且，其關(guān)鍵的推理能力是和其他模型配合完成。而抽象推理能力本身，是大模型最為關(guān)鍵的能力。

企業(yè)級(jí)生成式AI平臺(tái)猴子無限CEO尹伯昊對(duì)界面新聞解釋稱，GPT-4v和Gemini是基于兩種完全不同的訓(xùn)練邏輯，“GPT-4v它是一個(gè)近視眼，看東西不清楚，因此性能也不好，是典型的外掛式方案。Gemini則是把多個(gè)模態(tài)混合在一起訓(xùn)練。”

但在一位多模態(tài)大模型公司算法負(fù)責(zé)人看來，Gemini應(yīng)該還沒有全面超越GPT-4，“在評(píng)測(cè)時(shí)，GPT-4和Gemini在文本生成上沒有完全形成公平對(duì)比。”

另有不少網(wǎng)友實(shí)測(cè)表示，Gemini Pro在以圖搜物和精準(zhǔn)搜圖方面的能力吊打了GPT-4。對(duì)于這一情況，追一科技CTO劉云峰認(rèn)為，谷歌的搜索業(yè)務(wù)天然具有文字和其他模態(tài)對(duì)齊的數(shù)據(jù)，確實(shí)更利于訓(xùn)練原生多模態(tài)大模型。

Gemini能夠正確識(shí)別學(xué)生手寫答案并驗(yàn)證物理問題的推理過程，圖源：Gemini Technical Report

谷歌在人工智能領(lǐng)域的任何大動(dòng)作都會(huì)解鎖市場(chǎng)的新興探索方向，但在Gemini發(fā)布之前，AI模型全面多模態(tài)化趨勢(shì)已日漸明朗。

早在3月GPT-4發(fā)布之初，OpenAI就表示將在該次迭代中加入多模態(tài)整合。9月開始，Runway、 Midjourney、Adobe和Stability AI等明星公司陸續(xù)有多款多模態(tài)產(chǎn)品問世。

國(guó)內(nèi)方面，百度的文心大模型4.0在跨模態(tài)文生圖領(lǐng)域有明顯進(jìn)展，國(guó)內(nèi)公開融資最高的大模型初創(chuàng)智譜AI，其生成式AI助手智譜清言在視覺領(lǐng)域頗具優(yōu)勢(shì)。

多位開發(fā)者都告訴界面新聞，多模態(tài)大模型是行業(yè)內(nèi)公認(rèn)的明確發(fā)展方向，不會(huì)因?yàn)楣雀璧拇髣?dòng)作而“幡然醒悟”，但Gemini的到來會(huì)刺激國(guó)內(nèi)公司加速研發(fā)。前述多模態(tài)大模型公司算法負(fù)責(zé)人也指出了Gemini的局限性，“其在圖像生成上的能力以及視頻生成、圖像生成上面的參考意義有限。”

就目前來看，還很難得出Gemini全面超越GPT-4的結(jié)論，但谷歌成為OpenAI的最強(qiáng)對(duì)手已是不爭(zhēng)的事實(shí)。其也用Gemini證明了一個(gè)道理：任何多模態(tài)大模型都必須依賴大語言模型的訓(xùn)練過程，才能實(shí)現(xiàn)真正的多模態(tài)AI。

界面新聞?dòng)浾?| 李京亞

距離谷歌推出自己的最強(qiáng)大模型Gemini已將近一周時(shí)間，不少國(guó)內(nèi)AI公司都在試圖探究，這款大模型到底具有多大的威力。

多位大模型初創(chuàng)開發(fā)人員表示，即便Gemini系列最大尺寸的Ultra尚未正式推出，Gemini已經(jīng)在文本方面展示出和GPT-4同水準(zhǔn)的能力。

簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

歷史搜索全部刪除

熱門搜索

國(guó)內(nèi)開發(fā)者看谷歌Gemini : 雖陷“造假”爭(zhēng)議，但它找到了超越OpenAI之路

OpenAI

評(píng)論

國(guó)內(nèi)開發(fā)者看谷歌Gemini : 雖陷“造假”爭(zhēng)議，但它找到了超越OpenAI之路