文|三易生活
幾年前,“打開App、閱讀全文”堪稱是大家上網時一個幾乎無法逃脫的“毒瘤”,稍有不慎就會被強制跳轉到應用商店下載App。以至于在2022年春季,工信部發文督促相關互聯網企業整改、不得要求用戶不下載App就不給看全文,并不得自動或強制下載應用。然而近日有網友爆料稱,知乎網頁端又開始出現了非登錄用戶無法查看全文的情況。
根據我們的實測,非登錄用戶如果點擊“展開閱讀全文”,知乎確實會自動彈出登錄窗口。不過讓人意外的的是,在WAP端以非登錄狀態查看知乎的網頁仍可以完整查看內容。這也就意味著,知乎似乎沒有走上當年一眾資訊類App的老路,即完整內容只對登錄用戶開放、非登錄用戶只能看到片段。但就像目前一眾頭部電商網站的網頁版必須完成驗證才能使用完整功能一樣, 背后其實都有商業方面的考量。
自進入大數據時代以來,用戶數據的價值就陸續被充分挖掘,互聯網廠商也發現通過分析用戶的行為,進而可以總結出某一類用戶群體的偏好,因此也就有了所謂的用戶畫像。而借助用戶畫像,互聯網廠商可以知道每一位用戶是什么的年齡、性別、購物偏好,由此數字廣告行業也就有了完成精準投放的可能。
但用戶畫像的完善和更新都依賴用戶登錄,如果用戶“退化”為訪客,這一切就變成了空中樓閣,互聯網廠商也就無法知道你的行為了。但廣告無疑都是大量互聯網廠商最重要的業務,所以為了自家的錢袋子,這些廠商當然就有強烈的動力去“督促”用戶登錄自己的賬號。
為了給非登錄用戶“添堵”,長期以來知乎其實對于未登錄用戶都不那么友好,只要打開子頁面就會一直使用彈窗要求用戶登錄。在有了彈窗喚醒用戶登錄的操作在前,進一步強制要求用戶必須登錄才能查看完整內容的也就不那么令人感到意外了。
更何況,與之前用戶可以通過油猴腳本等方式屏蔽知乎的登錄彈窗不同,這一次知乎做得“更絕”。打開F12查看網頁的源代碼就會發現,在沒有登錄的情況下,知乎壓根就沒有傳輸回答的完整數據。換而言之,就算通過技術手段屏蔽登錄彈窗,用戶也不能在非登錄狀態下查看完整的知乎回答。
那么知乎為什么要這樣做呢?如果再結合近期知乎修改robots.txt文件,答案也就呼之欲出了。
robots.txt是一種存放于網站根目錄下的ASCII編碼的文本文件,是控制網站被搜索內容的一種策略,它的唯一作用就是告訴搜索引擎的user-agent(網絡爬蟲),網站中的哪些內容是不對搜索引擎開放、哪些內容又可以被爬取。
在這一次robots.txt的修改之后,知乎方面已經只允許百度和搜狗這兩個搜索引擎抓取內容,此前的谷歌和Bing則被從名單上移除,這也就意味著用戶在知乎發布的任何新內容都不會被谷歌和Bing收錄。為何只有搜狗和百度例外,當然是兩者與和知乎有著緊密的關系。根據知乎回港上市時披露的信息顯示,搜狗背后的騰訊是知乎的大股東,百度也在2019年聯合快手對知乎進行了4.5億美元的戰略投資。
先是不再向未登錄用戶傳輸完整的回答數據,再是修改robots.txt、屏蔽谷歌和Bing,知乎的這一套組合拳指向性其實已經非常明確,為的就是不讓谷歌和Bing再繼續爬取自己的內容。
事實上,目前內容平臺向AI廠商賣數據已經成為常態,并且不同于網絡巨魔頻出的Reddit,作為問答社區的知乎在內容質量上是更有保障的。當初微軟的New Bing搞AI搜索時,就把知乎的回答作為了重要的參考文獻。
知乎創始人周源在一年前發布“知海圖AI”中文大模型的時候就曾強調,知乎擁有中文互聯網大量高質量內容,這正是其研發大語言模型的優勢所在。到了2024知乎發現大會,周源更是表示,專業、真實的真人分享,認真、友善的人際交流,和透明、高效的信息機制,讓知乎可以成為AI時代的可信賴社區。由此可見,知乎管理層對于平臺內容在AI領域的價值是有清晰認知的。
既然如此,無論是強制登錄、還是禁止搜索引擎抓取,都是知乎為了避免自家內容被某些AI廠商抓取、成為訓練AI大模型的語料,所做出的防御性措施。既然百度和騰訊是知乎的股東、是重要的合作伙伴,向其開放數據就是應有之義,而在業務上沒有聯系的微軟和谷歌,自然是不可能繼續免費獲取數據了。但如果將知乎的這一操作視為是向谷歌和微軟詢價,似乎也不是不可以。
只可惜在這一過程中,知乎方面似乎沒有把用戶體驗當回事。