界面新聞記者 | 李如嘉
界面新聞編輯 | 文姝琪
4月10日,在商湯技術交流日上,商湯科技正式推出全新版本的“商湯日日新 SenseNova”多模態融合大模型及“商湯大裝置 SenseCore 2.0”端到端能力體系。
本次發布的“日日新 SenseNova V6”大模型系列包含四個版本,其中SenseNova V6 Pro為原生多模態通用大模型,采用了6200億參數的混合專家架構,實現文本、圖像和視頻的原生融合;SenseNova V6 Reasoner Pro在SenseNova V6 Pro基礎上通過多模態長思維鏈訓練和多模態增強學習,形成突出的多模態推理能力;SenseNova V6 Video是視頻理解模型,可以理解總結視頻內容,并在此基礎上進行深入分析和推理;SenseNova V6 Omni是輕量級的全模態交互模型,深度融合語言、語音和視頻,提供實時交互體驗。
在現場,商湯展示了SenseNova V6的多模態能力。例如,用戶可以將自己的數學題手寫答案拍照上傳,通過V6 Reasoner Pro的多步驟推理思考,模型先進行解題,并對用戶的答案進行分析,然后通過V6 Omni的音視頻溝通能力,模型以引導提問的方式為用戶逐步剖析解題思路,還支持語音實時答疑,隨時解答用戶在解題過程中遇到的問題。
比起市面上的其他拍照搜題應用,V6更像是一個“一對一私教”。SenseNova V6還可以實現通過攝像頭實時解讀繪本,根據畫面和用戶的語音要求講故事,在交流中,V6可針對不同的對話內容和場景需求,即時切換語氣、情感與音調。
“未來的交互一定是一個多模態、全模態的交互,商湯要打通未來交互入口的核心技術。”商湯科技聯合創始人、執行董事及人工智能基礎設施和大模型首席科學家林達華告訴界面新聞,人類生活在一個豐富多彩的世界,交流的方式一直是多模態的,而不是單純的文字交流,這也是未來大模型發展的必然方向。
“從Gemini 2.0、GPT 4.5到最近剛發布的Llama 4,都可以看到國際主流機構正在持續提升原生多模態能力。”他表示,但目前在國內還很少有企業集中在多模態推理、交互能力的研發上。因此,基于在計算機視覺領域的積累,商湯選擇不去參與大語言模型的競爭,而是提前進入多模態大模型的賽道,希望能搶占未來多模態交互的入口。
商湯稱,目前SenseNova V6 Pro的多模態綜合能力可以對標Gemini 2.0 Pro和GPT-4.5。此外,在技術能力上還有三項關鍵突破:強推理、強交互和長記憶。
此前,商湯科技確立了“大裝置-大模型-應用”三位一體核心戰略,以日日新(SenseNova)多模態大模型為基石,以生產力工具和交互工具為兩大落地方向。
其認為,在AI 2.0時代,基礎設施、大模型和應用三者的關系是密不可分的:應用場景推動模型發展,而大模型通過差異化創新來突破各種垂直領域的需求;同時,大模型的發展也牽引了AI基礎設施的持續優化,反過來,強大的AI基礎設施又能支撐大模型能力的躍遷。
具體從大模型和應用兩者之間的關系來看,商湯認為,大模型對商業應用主要有兩個方面的關鍵價值:一是融入真實的業務應用,具備處理復雜信息和解決復雜問題的能力;二是以更有親和力的方式與人交互,讓人感受到和模型交流的良好體驗,愿意和模型持續交流。
為了實現上述目標,模型需要具備強大的推理能力,以支撐對人類意圖的深度理解、對復雜信息的分析判斷、以及解決真實環境中的復雜問題;能理解情感,與人共情,并且可以和人實時互動;能記住過去一段時間發生的事情,并且捕捉其中的關鍵信息并融入推理。這也是商湯在V6中做到的主要突破。
“靠單純的技術很難形成長久的壁壘,現在一個新的模型發布后很快就會有一系列模型追趕上來,開源也會進一步縮小大家在技術上的差距。技術和行業的深度結合才能形成持久壁壘。”林達華認為。商湯希望能夠把模型嵌入到真實的業務場景中,真正替代掉業務鏈條中的某些環節。
目前,基于多模態大模型,商湯開發了多種新場景應用。例如在長視頻上,商湯上線了視頻理解功能,提供對教學視頻、旅游視頻、生活視頻的解析、總結、對話,以及對情景之外的情節和邏輯的補全。面向日常應用的需求,SenseNova V6 Omni具備數學解題、點讀翻譯、文旅講解、繪本講解四大功能。在財務審核、購物比價、商鋪運營等場景中也可以利用V6來解決用戶需求。
此外,在技術交流日上,商湯還展示了和具身智能企業傅利葉的合作。基于SenseNova V6 Omni,傅利葉的機器人可以通過融合圖像、視頻、語音和文本信息理解環境,進行思考與表達,洞察用戶的需求與情緒,與人類進行交互。機器人在輸出語音的同時,還能同步生成與語義相匹配的動作,實現語言與行為的統一。