文|科技新知 思原
編輯丨蕨影
在AI時代,用戶輸入的信息不再僅僅屬于個人隱私,而是成為了大模型進步的“墊腳石”。
“幫我做一份PPT”“幫我做一版新春海報”“幫我總結一下文檔內容”,大模型火了以后,用AI工具提效已經成了白領們工作的日常,甚至不少人開始用AI叫外賣、訂酒店。
然而,這種數據收集和使用的方式也帶來了巨大的隱私風險。很多用戶忽視了數字化時代,使用數字化技術、工具的一個主要問題,就是透明度的缺失,他們不清楚這些AI工具的數據如何被收集、處理和存儲,不確定數據是否被濫用或泄露。
今年3月,OpenAI承認ChatGPT存在漏洞,導致部分用戶的歷史聊天記錄被泄露。此事件引發了公眾對大模型數據安全和個人隱私保護的擔憂。除了ChatGPT數據泄露事件,Meta的AI模型也因侵犯版權而飽受爭議。今年4月,美國作家、藝術家等組織指控Meta的AI模型盜用他們的作品進行訓練,侵犯其版權。
同樣,在國內也發生了類似的事件。最近,愛奇藝與“大模型六小虎”之一的稀宇科技(MiniMax)因著作權糾紛引發關注。愛奇藝指控海螺AI未經許可使用其版權素材訓練模型,此案為國內首例視頻平臺對AI視頻大模型的侵權訴訟。
這些事件引發了外界對大模型訓練數據來源和版權問題的關注,說明AI技術的發展需要建立在用戶隱私保護的基礎之上。
為了解當前國產大模型信息披露透明度情況,「科技新知」選取了豆包、文心一言、kimi、騰訊混元、星火大模型、通義千文、快手可靈這7款市面主流大模型產品作為樣本,通過隱私政策和用戶協議測評、產品功能設計體驗等方式,進行了實測,發現不少產品在這方面做得并不出色,我們也清晰地看到了用戶數據與AI產品之間的敏感關系。
撤回權形同虛設
首先,「科技新知」從登錄頁面可以明顯看到,7款國產大模型產品均沿襲了互聯網APP的“標配”使用協議和隱私政策,并且均在隱私政策文本中設有不同章節,以向用戶說明如何收集和使用個人信息。
而這些產品的說法也基本一致,“為了優化和改進服務體驗,我們可能會結合用戶對輸出內容的反饋以及使用過程中遇到的問題來改進服務。在經過安全加密技術處理、嚴格去標識化的前提下,可能會將用戶向AI輸入的數據、發出的指令以及AI相應生成的回復、用戶對產品的訪問和使用情況進行分析并用于模型訓練。”
事實上,利用用戶數據訓練產品,再迭代更好產品供用戶使用,似乎是一個正向循環,但用戶關心的問題在于是否有權拒絕或撤回相關數據“投喂”AI訓練。
而「科技新知」在翻閱以及實測這7款AI產品后發現,只有豆包、訊飛、通義千問、可靈四家在隱私條款中提及了可以“改變授權產品繼續收集個人信息的范圍或撤回授權”。
其中,豆包主要是集中在語音信息的撤回授權。政策顯示,“如果您不希望您輸入或提供的語音信息用于模型訓練和優化,可以通過關閉“設置”-“賬號設置”-“改進語音服務”來撤回您的授權”;不過對于其他信息,則是需要通過公示的聯系方式與官方聯系,才能要求撤回使用數據用于模型訓練和優化。
在實際操作過程中,對于語音服務的授權關閉并不算難,但對于其他信息的撤回使用,「科技新知」在聯系豆包官方后一直未能得到回復。
通義千問與豆包類似,個人能操作的僅有對語音服務的授權撤回,而對于其他信息,也是需要聯系通過披露的聯系方式與官方聯系,才能改變或者收回授權收集和處理個人信息的范圍。
可靈作為視頻及圖像生成平臺,在人臉使用方面有著重表示,稱不會將您的面部像素信息用于其他任何用途或共享給第三方。但如果想要取消授權,則需要發送郵件聯系官方進行取消。
相比豆包、通義千文以及可靈,訊飛星火的要求更為苛刻,按照條款,用戶如果需要改變或撤回收集個人信息的范圍,需要通過注銷賬號的方式才能實現。
值得一提的是,騰訊元寶雖然沒有在條款中提到如何改變信息授權,但在APP中我們可以看到“語音功能改進計劃”的開關。
而Kimi雖然在隱私條款中提到了可以撤銷向第三方分享聲紋信息,并且可以在APP中進行相應操作,但「科技新知」在摸索良久后并沒有發現更改入口。至于其他文字類信息,也未找到相應條款。
其實,從幾款主流的大模型應用不難看出,各家對于用戶聲紋管理更為重視,豆包、通義千文等都能通過自主操作去取消授權,而對于地理位置、攝像頭、麥克風等特定交互情況下的基礎授權,也可以自主關閉,但對撤回“投喂”的數據,各家都不那么順暢。
值得一提的是,海外大模型在“用戶數據退出AI訓練機制”上,也有相似做法,谷歌的Gemini相關條款規定,“如果你不想讓我們審核將來的對話或使用相關對話來改進Google的機器學習技術,請關閉Gemini應用活動記錄。”
另外,Gemini也提到,當刪除自己的應用活動記錄時,系統不會刪除已經過人工審核員審核或批注的對話內容(以及語言、設備類型、位置信息或反饋等相關數據),因為這些內容是單獨保存的,并且未與Google賬號關聯。這些內容最長會保留三年。
ChatGPT的規則有些模棱兩可,稱用戶可能有權限制其處理個人數據,但在實際使用中發現,Plus用戶可以主動設置禁用數據用于訓練,但對于免費用戶,數據通常會被默認收集并用于訓練,用戶想要選擇退出則需要給官方發件。
其實,從這些大模型產品的條款我們不難看出,收集用戶輸入信息似乎已經成了共識,不過對于更為隱私的聲紋、人臉等生物信息,僅有一些多模態平臺略有表現。
但是這并非經驗不足,尤其是對于互聯網大廠來說。比如,微信的隱私條款中就詳盡地列舉了每一項數據收集的具體場景、目的和范圍,甚至明確承諾“不會收集用戶的聊天記錄”抖音也是如此,用戶在抖音上上傳的信息幾乎都會在隱私條款中標準使用方式、使用目的等詳細說明。
互聯網社交時代被嚴格管控的數據獲取行為,如今在AI時代中卻成了一種常態。用戶輸入的信息已經被大模型廠商們打著“訓練語料”的口號隨意獲取,用戶數據不再被認為是需要嚴格對待的個人隱私,而是模型進步的“墊腳石”。
除了用戶數據外,對于大模型嘗試來說,訓練語料的透明也至關重要,這些語料是否合理合法,是否構成侵權,對于用戶的使用來說是否存在潛在風險等都是問題。我們帶著疑問對這7款大模型產品進行了深度挖掘、評測,結果也令我們大吃一驚。
訓練語料“投喂”隱患
大模型的訓練除了算力外,高質量的語料更為重要,然而這些語料往往存在一些受版權保護的文本、圖片、視頻等多樣化作品,未經授權便使用顯然會構成侵權。
「科技新知」實測后發現,7款大模型產品在協議中都未提及大模型訓練數據的具體來源,更沒有公開版權數據。
至于大家都非常默契不公開訓練語料的原因也很簡單,一方面可能是因為數據使用不當很容易出現版權爭端,而AI公司將版權產品用作訓練語料是否合規合法,目前還未有相關規定;另一方面或與企業之間的競爭有關,企業公開訓練語料就相當于食品公司將原材料告訴了同行,同行可以很快進行復刻,提高產品水平。
值得一提的是,大多數模型的政策協議中都提到,會將用戶和大模型的交互后所得到的信息用于模型和服務優化、相關研究、品牌推廣與宣傳、市場營銷、用戶調研等。
坦白講,因為用戶數據的質量參差不齊,場景深度不夠,邊際效應存在等多方面原因,用戶數據很難提高模型能力,甚至還可能帶來額外的數據清洗成本。但即便如此,用戶數據的價值仍然存在。只是它們不再是提升模型能力的關鍵,而是企業獲取商業利益的新途徑。通過分析用戶對話,企業可以洞察用戶行為、發掘變現場景、定制商業功能,甚至和廣告商共享信息。而這些也恰巧都符合大模型產品的使用規則。
不過,也需要注意的是,實時處理過程中產生的數據會上傳到云端進行處理,也同樣會被存儲至云端,雖然大多數大模型在隱私協議中提到使用不低于行業同行的加密技術、匿名化處理及相關可行的手段保護個人信息,但這些措施的實際效果仍有擔憂。
例如,如果將用戶輸入的內容作為數據集,可能過段時間后當其他人向大模型提問相關的內容,會帶來信息泄露的風險;另外,如果云端或者產品遭到攻擊,是否仍可能通過關聯或分析技術恢復原始信息,這一點也是隱患。
歐洲數據保護委員會(EDPB)前不久發布了對人工智能模型處理個人數據的數據保護指導意見。該意見明確指出,AI模型的匿名性并非一紙聲明即可確立,而是必須經過嚴謹的技術驗證和不懈的監控措施來確保。此外,意見還著重強調,企業不僅要證實數據處理活動的必要性,還必須展示其在處理過程中采用了對個人隱私侵入性最小的方法。
所以,當大模型公司以“為了提升模型性能”而收集數據時,我們需要更警惕去思考,這是模型進步的必要條件,還是企業基于商業目的而對用戶的數據濫用。
數據安全模糊地帶
除了常規大模型應用外,智能體、端側AI的應用帶來的隱私泄漏風險更為復雜。
相比聊天機器人等AI工具,智能體、端側AI在使用時需要獲取的個人信息會更詳細且更具有價值。以往手機獲取的信息主要包括用戶設備及應用信息、日志信息、底層權限信息等;在端側AI場景以及當前主要基于讀屏錄屏的技術方式,除上述全面的信息權限外,終端智能體往往還可以獲取錄屏的文件本身,并進一步通過模型分析,獲取其所展現的身份、位置、支付等各類敏感信息。
例如榮耀此前在發布會上演示的叫外賣場景,這樣位置、支付、偏好等信息都會被AI應用悄無聲息地讀取與記錄,增加了個人隱私泄露的風險。
如“騰訊研究院”此前分析,在移動互聯網生態中,直接面向消費者提供服務的APP一般均會被視為數據控制者,在如電商、社交、出行等服務場景中承擔著相應的隱私保護與數據安全責任。然而,當端側AI智能體基于APP的服務能力完成特定任務時,終端廠商與APP服務提供者在數據安全上的責任邊界變得模糊。
往往廠商會以提供更好服務來當作說辭,當放到整個行業量來看,這也并非“正當理由”,Apple Intelligence就明確表示其云端不會存儲用戶數據,并采用多種技術手段防止包括Apple自身在內的任何機構獲取用戶數據,贏得用戶信任。
毋庸置疑,當前主流大模型在透明度方面存在諸多亟待解決的問題。無論是用戶數據撤回的艱難,還是訓練語料來源的不透明,亦或是智能體、端側 AI 帶來的復雜隱私風險,都在不斷侵蝕著用戶對大模型的信任基石。
大模型作為推動數字化進程的關鍵力量,其透明度的提升已刻不容緩。這不僅關乎用戶個人信息安全與隱私保護,更是決定整個大模型行業能否健康、可持續發展的核心要素。
未來,期待各大模型廠商能積極響應,主動優化產品設計與隱私政策,以更加開放、透明的姿態,向用戶清晰闡釋數據的來龍去脈,讓用戶能夠放心地使用大模型技術。同時,監管部門也應加快完善相關法律法規,明確數據使用規范與責任邊界,為大模型行業營造一個既充滿創新活力又安全有序的發展環境,使大模型真正成為造福人類的強大工具。