文 | 雪豹財經社 于米
一提到“數據標注公司”,外界的印象通常是:
技術含量低、工作內容重復枯燥、依賴大量低成本人力完成簡單機械的標注任務,例如給圖片打標簽、文本分類或音頻轉錄。這類公司被視作AI產業鏈底層“苦力”,利潤微薄、附加值低,很難形成核心競爭力或行業話語權。在公眾眼中,它們更多是幕后無名的外包工廠,而非高科技創新企業。
不過,隨著一筆硅谷投資交易浮出水面,你可能要重新構建對數據標注公司的價值評估了。
據多家媒體報道,6月中旬,Facebook母公司Meta出資143億美元(約合人民幣1028億元)獲得數據標注公司Scale AI的49%無投票權股份,將后者的估值一舉推高到了290億美元(約合人民幣2082億元)。
你可能對290億美元的估值沒有概念。截至6月20日收盤,百度和理想汽車的市值分別是287.5億美元和263.6億美元。
這是Meta歷史上第二大投資,僅次于2014年以190億美元收購WhatsApp。作為交易的一部分,Scale AI創始人兼CEO Alexandr Wang在保留原公司董事會成員身份的同時,也將攜部分公司成員加入Meta。

一石激起千層浪。
得知這一消息后,包括谷歌、微軟、OpenAI、馬斯克的xAI等在內多家AI巨頭先后表示計劃撤出與Scale AI的合作。而Scale AI空出的訂單,正被一眾同行瘋搶。
一家數據標注公司何以賣出千億,Meta這次的大動作背后,藏著多少AI巨頭們殘酷爭斗的暗線?
何以估值2000億?
算力是AI軍備競賽中的關鍵戰略資源。要下場做大模型就得囤顯卡,已然成為了一個共識。但易為人忽視的是,訓練數據的質量決定了模型能力的上限,它與囤卡同樣至關重要。
打個比方,如果說大模型是一個勤奮的學生,訓練數據就相當于它的教材。只有給大模型投喂高質量的數據,大模型才能夠給出真實、準確、全面和符合倫理的回答。反之,則會越學越糊涂,無法提供符合預期的輸出。
流傳于業內的一句俗語說,“垃圾進,垃圾出”,說的就是這個道理。在Scaling Laws逐漸失效,靠算力和模型規模硬解的打法陷入瓶頸的當下,提高數據質量有時甚至能起到點石成金的奇效。
以往,數據標注工作主要集中在文本、圖像和音視頻等方面。但現在的數據標注開始變得更為復雜。隨著行業轉向帶有“思維鏈”的推理模型,專家數據成為了AI巨頭們眼中的金礦。
這也是為什么如今的AI標注團隊里,你不僅能看到完成單調原始工作的合同工和外包人員,有時也會看到不同學科和領域的專業人士。他們會寫下解決復雜問題所需要的思考步驟,輔導大模型模仿人類的思考方式。
Scale AI的商業模式,正是為客戶提供數據標注解決方案。通過Remotasks和Outlier AI這樣的平臺,他們招募并管理著全球數以十萬計的勞動力。同時,他們也開出不菲的時薪來吸引計算機科學、數學、自然科學、社會科學等專業的博士來撰寫語料。
但若只是如此,Scale AI和市面上其他的數據標注公司并沒有形成差異。
這家公司的真正優勢在于,通過AI輔助的自動化標注能力和成熟的平臺體系,他們能夠高效且靈活地滿足不同客戶的定制化需求,從一家單純的數據標注公司,一躍成為能夠深度參與數據管理與模型訓練流程的數據基礎設施企業。

此前,Scale AI已經贏得了Meta、OpenAI、Google、微軟和美國政府等大金主的訂單。這些頂級客戶不僅為Scale AI帶來了不菲的收入,也為之提高了聲譽,給估值的水漲船高提供了背書。
2024年,Scale AI的營收達到8.7億美元,其估值在與Meta的交易之前就來到了140億美元。
Meta下場,谷歌們“割席”
Meta拿下Scale AI的49%股份,最顯而易見的收獲當然是后者在數據標注業務上的能力。
有了Scale AI的加持,Meta可以依托前者現有的平臺,建立起一個大型的高質量數據標注網絡,助力自家大模型Llama的開發。
今年4月初,Meta發布了最新開源大模型Llama 4,可它卻完全沒有了前代產品的驚艷,不但在實測中表現平平,甚至還被爆出了疑似在基準測試中作弊的丑聞。而其旗艦模型Behemoth一再推遲發布,至今難產。

如果能夠通過訓練數據質量的提升來改善模型的真實水平,或許可以拯救Meta在開發大模型這一戰線上的頹勢,縮小與OpenAI和Anthropic等對手的身位差距。
不過,光看這一點,可能還無法解釋Meta為何愿意按照Scale AI一年前估值(140億美元)的兩倍來出價,尤其是考慮到從2023年到2024年,Scale AI的營收不過從7.6億美元提高到8.7億美元。
有業內人士猜測,除了搶占大模型訓練數據這一座山頭之外,Meta對Scale AI的這筆大額投資,其實還有通過Scale AI了解對手研發動態的目的。
正如Handshake(Scale AI的競爭對手)的CEO Garrett Lord所說:“如果你是通用汽車或豐田,你不會希望你的競爭對手走進你的制造工廠,看你的流程是如何運轉的。”
雖然Scale AI作為一家數據標注公司無法接觸到大模型的核心算法,但他們有機會從接觸到的數據和產品模型對客戶的商業戰略和研發重點進行了解。
可能正是出于這樣的擔憂,盡管Scale AI的發言人Joe Osborne在一份聲明中表示“公司將繼續保持獨立”,多家主要客戶(包括谷歌、微軟、OpenAI、馬斯克的xAI等)都決定退出與Scale AI的合作。

這其中,谷歌作為Scale AI的最大客戶,原本計劃在今年支付2億美元購買人工標注數據。去年Scale AI 8.7億美元的營收中,谷歌一家就貢獻了1.5億美元。
AI巨頭們果斷切割的想法其實很好理解,與Scale AI的合作涉及高度敏感的商業機密,他們不可能放心將這些交給Meta大額持股的公司。
當下,各家數據標注公司還在鯰魚搶食,冀望吃下Scale AI “被分手”以后空出的訂單量。Handshake一夜之間訂單量激增到原來的三倍,Labelbox的CEO則表示,該公司可能會從Scale AI的老客戶那里獲得數億美元的收入。
Scale AI將如何度過這一波用戶流失潮,目前還不得而知。但這筆交易可能會成為數據標注行業的轉折點。可以預見的是,AI巨頭們要么會加大投入去養自家的數據標注團隊,要么就會將需求分散到多家供應商。
無論哪種模式下,數據標注行業或許將很難再滋養出一家超大公司——AI巨頭們不會允許自己的數據供應鏈被一家獨大的供應商拿捏。
AI大戰來到新高度
僅從賬面上看,Meta花費如此大的代價投資Scale AI,算不上是一筆好買賣。
Scale AI原本被看好在2025年實現20億美元的營收,但在流失了多家重量級客戶之后,哪怕汽車自動駕駛和政府業務相關的客戶全部留下,要達到這一業績也難度頗高。
而其290億美元的天價估值,也將在對客戶的吸引力下降后冷卻下來。有媒體報道稱,Scale AI的一位早期投資者已經萌生了套現離場的想法。
很難想象Meta會對這樣的業界反應毫無預料,但或許從一開始,Meta就沒有帶著要在財務投資中獲利的心態去做交易。
Meta真正的意圖是什么?他們想要的不僅是Scale AI,還有Scale AI背后的領路人Alexandr Wang。

類似的“招聘式投資”近些年在硅谷早有先例。
去年,微軟花費6.5億美元,換來AI初創公司Inflection的軟件授權,并聘用了該公司包括老板Mustafa Suleyman在內的大部分員工。在一筆類似的操作中,谷歌以逾20億美元的估值投資Character.ai,好讓后者團隊中的30人加入Gemini的開發。
對于規模龐大、組織僵化以至于缺乏創新土壤的大公司來說,直接以這種方式引入經過市場驗證的人才,也不失為一種破局的手段。
Meta確實也十分看重Alexandr Wang的加盟,他們一度想授予這位年輕人“首席AI官”的頭銜。接下來,Meta計劃讓他擔任新部門“超級智能(Superintelligence)”的高級崗位,直接向扎克伯格匯報。
有趣的是,雖然Alexandr Wang即將成為”超級智能“實驗室的領導者,但他卻并非科班出身的研究人員。
2016年,年僅19歲的Alexandr Wang在用AI攝像頭來監控冰箱庫存的嘗試中,發現了AI數據標注的巨大商機,當年他就從MIT輟學并創立了Scale AI。
在經歷了初期的探索后,這家公司開始專注于與自動駕駛相關的數據標注工作,隨后又開始將業務重心轉向生成式AI。24歲時,Alexandr Wang成為全世界最年輕的白手起家億萬富翁。
Alexandr Wang也以其過人的社交能力在圈內著稱,OpenAI的CEO Altman就和他關系密切。Scale AI能夠接連從AI巨頭和美國政府手里接下訂單,與Alexandr Wang強大的人脈也不無關系。

此前,據Altman爆料,Meta曾拿出1億美金的簽約獎金到OpenAI撬墻角未果。隨著Alexandr Wang的加盟,Meta不但完成了一次頂級人才的重磅引進,也給后續繼續招兵買馬增加了砝碼。
在對元宇宙的巨額投資收益慘淡,大模型研發又開始落后于頭部對手的當下,Meta試圖通過“超級智能”彎道超車以奪回AI大戰主動權,也不失為一次富有魄力的嘗試。
買數據、挖情報、搶人......Meta通過對Scale AI的收購,已經將硅谷的AI大戰帶到了新的高度。不管接下來還有什么精彩戲碼上演,這場大戰還遠遠沒有迎來拐點。