簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

AI廠商拿Robots協議當草紙,互聯網秩序“禮樂崩壞”

掃一掃下載界面新聞APP

AI廠商拿Robots協議當草紙,互聯網秩序“禮樂崩壞”

隨著流量紅利的枯竭,互聯網進入存量競爭時期后,就得刺刀見紅了。

圖片來源:界面新聞 匡達

文|三易生活

就在一眾AI大模型廠商還在為盈利發愁時,英偉達靠賣算力已成功登頂全球市值第一公司的寶座,再次證明了當淘金熱洶涌時候、只有賣鐵鏟的最賺錢。但訓練大模型不僅要算力、還要有數據,以至于Reddit、X等內容平臺紛紛做起了數據買賣這個生意。只不過,如今這個生意也越來越不好做了。

近日根據路透社報道,內容授權初創公司TollBit近日向出版商發出警告稱,多家人工智能公司正在規避他們用于阻止抓取內容的通用網絡標準,并將抓取的內容用于訓練生成式AI系統。幾乎在同一時間,知名科技雜志《Wired》也發文稱,AI搜索公司Perplexity存在繞過機器人排除協議(Robots Exclusion Protocol),以獲取受限網絡內容的行為。

再算上此前OpenAI使用YouTube上的視頻內容訓練打模型,谷歌也曾被曝出修改用戶協議、以免費獲取旗下平臺用戶數據的消息。似乎上至一線巨頭、下至初創企業,AI行業儼然集體化身為了“數據小偷”。

一直以來,數據無疑是訓練AI大模型的基礎,而高質量數據更是決定了大模型的性能上限,這也正是AI廠商如同饕餮般吞噬數據的真相。為此他們可謂是滿世界買數據,但現實卻是可供交易的數據已經滿足不了大模型的胃口了。

當正常買賣數據這條路不好走了之后,“偷數據”似乎就變成了AI廠商心照不宣的操作。比如這次被部分AI廠商無視的Robots Exclusion Protocol(以下簡稱Robots協議),其實是一個存放于網站根目錄下的ASCII編碼文本文件,它是控制網站被搜索內容的一種策略,也就是/Robots.txt。

Robots協議的唯一作用,就是告訴user-agent(網絡爬蟲)網站中的哪些內容允許被爬取、哪些內容又不能抓取。以2008年9月宣布屏蔽百度搜索引擎的淘寶為例,當時這家電商網站的Robots協議非常簡單,直接就禁止了“Baiduspider”、即百度蜘蛛訪問網站的任何部分。依靠這樣的Robots協議,淘寶避免了流量外溢到百度,進而催生了其站內的競價排名體系。

為什么這樣簡簡單單的代碼就能攔住了百度的爬蟲呢?這是因為百度簽署了《互聯網搜索引擎服務自律公約》,承諾遵守Robots協議,并愿意限制搜索引擎抓取應有行業公認合理的正當理由、不利用這一協議進行不正當競爭行為。這也是后來百度起訴360違反Robots協議時,會大義凜然指責360搜索在明確承認Robots協議約束力后、又規避了這個協議的底氣。

盡管Robots協議并不俱備法律層面的強制力,甚至都不是行業自律公約,實質上僅僅只是一個君子協定,可是在過去三十年里,Robots協議在事實層面成為了網站和搜索引擎共同遵守的一個有關數據抓取的規則。一個缺乏強制力的君子協定能存在、并得到不同文化背景互聯網公司的認可,自然是有它的道理。

Robots協議的成功之處,就在于做到了搜索引擎和網站的雙贏。其中搜索引擎抓取了網站的網頁、讓自己的索引庫更加充實,進而滿足用戶對于信息的需求,而網站方則從搜索引擎處得到了流量作為回饋,進而通過流量變現賺到真金白銀。

以AI搜索獨角獸Perplexity為代表的一眾AI廠商打破乃至無視Robots協議的趨勢,如果要用一個詞來形容,“禮樂崩壞”似乎是最合適的。

周朝用“禮樂”實現了人人各安其位各樂其業,長幼有序尊卑井然,上下和睦貴賤相安的秩序,而互聯網的奠基人則用開放、平等、協作、快速、分享塑造了互聯網世界的行為準則。互聯網精神雖然并不要求每一個參與者都具備這種精神,但是Tim Berners-Lee、Marc Andreessen等早期互聯網的締造者,卻在頂層設計中用“無形的大手”促使每一個參與者需要遵循互聯網精神。

一個很簡單的例子,就是如果大家曾經不相信互聯網精神,那么Copy  to China根本就不會發生。所以問題就來了,為什么互聯網世界如今會“禮樂崩壞”呢?韓非子有言,“事異則備變。上古競于道德,中世逐于智謀,當今爭于氣力”。早期的互聯網世界“競于道德”,是因為彼時的互聯網還是蠻荒之地,大片的處女地等待著參與者來開拓,一旦找對了賽道就能扶搖直上。

可到了移動互聯網時代,隨著互聯網世界的拓荒時代結束,每一條賽道幾乎都站滿了巨頭,創業者就得靠智謀才能成功,否則即使成為風口上的豬,風停了也得摔下來。

而當下隨著流量紅利的枯竭,互聯網進入存量競爭時期后,就得刺刀見紅了。這時候對于AI廠商來說,獲取更多的數據以訓練更強的模型、再用更強的模型拉到更多的投資才是王道,遵守Robots協議反而會讓自己在市場競爭中落后。

當然,AI廠商并非就想離經叛道,而是他們拿不出讓數據擁有著滿意的籌碼。此前網站站長愿意向Googlebot敞開大門,還不是因為谷歌搜索能回饋流量,可AI廠商并不像搜索引擎那樣能用流量來作為報酬,反倒是AI廠商訓練的大模型可能會代替網站。所以指望網站像接納搜索引擎一樣接納AI廠商,無異于難如登天。

所以當數據擁有者不想給、可AI廠商偏偏又很想要的情況下,“禮樂崩壞”也就來了。

本文為轉載內容,授權事宜請聯系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

AI廠商拿Robots協議當草紙,互聯網秩序“禮樂崩壞”

隨著流量紅利的枯竭,互聯網進入存量競爭時期后,就得刺刀見紅了。

圖片來源:界面新聞 匡達

文|三易生活

就在一眾AI大模型廠商還在為盈利發愁時,英偉達靠賣算力已成功登頂全球市值第一公司的寶座,再次證明了當淘金熱洶涌時候、只有賣鐵鏟的最賺錢。但訓練大模型不僅要算力、還要有數據,以至于Reddit、X等內容平臺紛紛做起了數據買賣這個生意。只不過,如今這個生意也越來越不好做了。

近日根據路透社報道,內容授權初創公司TollBit近日向出版商發出警告稱,多家人工智能公司正在規避他們用于阻止抓取內容的通用網絡標準,并將抓取的內容用于訓練生成式AI系統。幾乎在同一時間,知名科技雜志《Wired》也發文稱,AI搜索公司Perplexity存在繞過機器人排除協議(Robots Exclusion Protocol),以獲取受限網絡內容的行為。

再算上此前OpenAI使用YouTube上的視頻內容訓練打模型,谷歌也曾被曝出修改用戶協議、以免費獲取旗下平臺用戶數據的消息。似乎上至一線巨頭、下至初創企業,AI行業儼然集體化身為了“數據小偷”。

一直以來,數據無疑是訓練AI大模型的基礎,而高質量數據更是決定了大模型的性能上限,這也正是AI廠商如同饕餮般吞噬數據的真相。為此他們可謂是滿世界買數據,但現實卻是可供交易的數據已經滿足不了大模型的胃口了。

當正常買賣數據這條路不好走了之后,“偷數據”似乎就變成了AI廠商心照不宣的操作。比如這次被部分AI廠商無視的Robots Exclusion Protocol(以下簡稱Robots協議),其實是一個存放于網站根目錄下的ASCII編碼文本文件,它是控制網站被搜索內容的一種策略,也就是/Robots.txt。

Robots協議的唯一作用,就是告訴user-agent(網絡爬蟲)網站中的哪些內容允許被爬取、哪些內容又不能抓取。以2008年9月宣布屏蔽百度搜索引擎的淘寶為例,當時這家電商網站的Robots協議非常簡單,直接就禁止了“Baiduspider”、即百度蜘蛛訪問網站的任何部分。依靠這樣的Robots協議,淘寶避免了流量外溢到百度,進而催生了其站內的競價排名體系。

為什么這樣簡簡單單的代碼就能攔住了百度的爬蟲呢?這是因為百度簽署了《互聯網搜索引擎服務自律公約》,承諾遵守Robots協議,并愿意限制搜索引擎抓取應有行業公認合理的正當理由、不利用這一協議進行不正當競爭行為。這也是后來百度起訴360違反Robots協議時,會大義凜然指責360搜索在明確承認Robots協議約束力后、又規避了這個協議的底氣。

盡管Robots協議并不俱備法律層面的強制力,甚至都不是行業自律公約,實質上僅僅只是一個君子協定,可是在過去三十年里,Robots協議在事實層面成為了網站和搜索引擎共同遵守的一個有關數據抓取的規則。一個缺乏強制力的君子協定能存在、并得到不同文化背景互聯網公司的認可,自然是有它的道理。

Robots協議的成功之處,就在于做到了搜索引擎和網站的雙贏。其中搜索引擎抓取了網站的網頁、讓自己的索引庫更加充實,進而滿足用戶對于信息的需求,而網站方則從搜索引擎處得到了流量作為回饋,進而通過流量變現賺到真金白銀。

以AI搜索獨角獸Perplexity為代表的一眾AI廠商打破乃至無視Robots協議的趨勢,如果要用一個詞來形容,“禮樂崩壞”似乎是最合適的。

周朝用“禮樂”實現了人人各安其位各樂其業,長幼有序尊卑井然,上下和睦貴賤相安的秩序,而互聯網的奠基人則用開放、平等、協作、快速、分享塑造了互聯網世界的行為準則。互聯網精神雖然并不要求每一個參與者都具備這種精神,但是Tim Berners-Lee、Marc Andreessen等早期互聯網的締造者,卻在頂層設計中用“無形的大手”促使每一個參與者需要遵循互聯網精神。

一個很簡單的例子,就是如果大家曾經不相信互聯網精神,那么Copy  to China根本就不會發生。所以問題就來了,為什么互聯網世界如今會“禮樂崩壞”呢?韓非子有言,“事異則備變。上古競于道德,中世逐于智謀,當今爭于氣力”。早期的互聯網世界“競于道德”,是因為彼時的互聯網還是蠻荒之地,大片的處女地等待著參與者來開拓,一旦找對了賽道就能扶搖直上。

可到了移動互聯網時代,隨著互聯網世界的拓荒時代結束,每一條賽道幾乎都站滿了巨頭,創業者就得靠智謀才能成功,否則即使成為風口上的豬,風停了也得摔下來。

而當下隨著流量紅利的枯竭,互聯網進入存量競爭時期后,就得刺刀見紅了。這時候對于AI廠商來說,獲取更多的數據以訓練更強的模型、再用更強的模型拉到更多的投資才是王道,遵守Robots協議反而會讓自己在市場競爭中落后。

當然,AI廠商并非就想離經叛道,而是他們拿不出讓數據擁有著滿意的籌碼。此前網站站長愿意向Googlebot敞開大門,還不是因為谷歌搜索能回饋流量,可AI廠商并不像搜索引擎那樣能用流量來作為報酬,反倒是AI廠商訓練的大模型可能會代替網站。所以指望網站像接納搜索引擎一樣接納AI廠商,無異于難如登天。

所以當數據擁有者不想給、可AI廠商偏偏又很想要的情況下,“禮樂崩壞”也就來了。

本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 佛教| 贡山| 新绛县| 香港| 开封市| 淮南市| 万全县| 开平市| 修武县| 安新县| 娄烦县| 阿城市| 栾城县| 绥棱县| 崇明县| 遂昌县| 修水县| 灵山县| 喀什市| 临洮县| 浪卡子县| 扬州市| 富源县| 阳西县| 沾益县| 五莲县| 都昌县| 科技| 道真| 同江市| 雅江县| 罗源县| 吴江市| 军事| 石林| 万源市| 瑞丽市| 淄博市| 麦盖提县| 娱乐| 盱眙县|