校园春色欧美,永久不封国产毛片av网煮站,日本语の中の义理と人情

文|產業家皮爺

在過去的一段時間里，“AI-native”成為所有工具的一個顯著探索趨勢，不論是算力集群的智算中心，還是數據庫側的向量數據庫，再或者是不斷進化的算法，都在以一種更適配大模型架構的方式被推演出來。

那么，大模型時代，數據應該如何訓練？或者說，如何把數據在大模型側做更好的表達？

“大模型如何落地？”

在近一年的時間以來，關于這個問題的討論正在愈演愈烈。如果說市場對于大模型最開始的關注點更多的在參數、算力、開源，那么如今越來越多人的視線開始向更核心的環節轉移——數據。

相較于算力等更簡單粗暴的命題，數據要更為復雜。從某種層面來說，它對應的是模型的知識質量。

在10月底的一個關于大模型的閉門會上，這個問題更是被鮮明地提出。參會的人不乏底層通用大模型產品負責人，而更多地則是已經開始嘗試將大模型進行落地的企業從業者，其中模型接入方法有自研，也更有開源，但作為第一批將大模型內嵌到企業場景的人，他們的共同反饋是：不能用，不好用。

“我們很難把模型訓練成能嵌入場景或應用的樣子，不知道是哪里出了問題，是通用大模型本身能力不行，還是我們自己的數據訓練、標注不到位。”一位企業創始人表示。

實際上，在大模型被越發高頻嘗試的當下，這正在成為越來越多企業面臨的問題。即在市面上即見即得的模型之外，如何將其轉化成企業自身能自己使用的大模型？

“我們剛開始訓練了三輪，但越到后面越不好訓練，中間不僅花費算力，更花費的是人力。”上述創始人告訴產業家。

但在最核心環節之一的數據側，進度卻始終緩慢。這種“緩慢”甚至成為著大模型在大規模場景落地的最關鍵掣肘之一。

那么，大模型時代，數據應該如何訓練？或者說，如何把數據在大模型側做更好的表達？在即將到來的2024年，這個被擺到臺面上的問題已經不僅是這一步應該怎么邁，更升級的挑戰是這一步應該怎樣邁好。

誰能先答好這個命題，誰就能快人一步。

一、大模型的“關鍵一道門”，應該如何推開？

“我們現在是把一些大模型的數據標注交給外包團隊。”這是在9月份和一位金融方向的IT負責人交流中他和我們的講述，主要面向方向是基于線下網點的客服和營銷。

如何把數據“挪移”到大模型中來？在當下的大模型潮流里，數據標注和訓練幾乎是所有大模型企業必須經歷的一個環節。

數據標注，對其固有的標簽是對數據進行知識型標注，在過去多年的發展里其更多的以拖、拉、勾、畫等方式存在包括自動駕駛等需要大量數據標注的行業，從業人員畫像較為復雜，標注任務相較簡單。

但如今的大模型標注不同。“我們替換了兩個標注團隊，最終才經過訓練，有了不錯的門店服務和引導效果。”上述負責人告訴產業家。

更具體的情況是，其采用的是國內某互聯網大廠的開源模型，基于開源的框架進行自己模型的搭建，整體進度較快，但在數據訓練環節，時間卻被大大放緩。

他表示，最開始選擇的外包團隊也是市面上的某標注企業，但從最開始提出需求到最后的效果驗收，不僅時間較長，而且最終的準確率也不高；而第二次選擇的團隊盡管同樣花費時間長，但最終效果還算滿意。

這正在成為越來越多企業的縮影。即伴隨著國內底層大模型的逐步低門檻化，越來越多的挑戰已然不聚焦在模型算法本身，更多的在于數據，也就是如何把模型從“可用變得好用”。

實際上，做好大模型的數據標注不是一件容易的事情。

首先從數據本身而言，和之前的標注相比，大模型需要的數據量級更大，而且數據結構更為復合，除了單個數據標簽之外，不少大模型的訓練需要用到合成數據（即用AI產生的數據），這也就意味著數據本身的標注模型和標注方法與之前不再相同。

此外，在單純的標注環節，相較于過往的托拉拽的客觀標注，現在的更多標注需要人工的主動判斷和主動干預，如排序、改寫、生成等，而在更專業具體的問題上，甚至需要專業的人士來接入，配合整體標注規則的建立和部分問題的拆解訓練。

更有標注人員團隊上的不同，如果說之前固有的標注需要的僅是簡單的質檢和輕微干預，那么如今在如今大模型的標注人員團隊建設上，需要對團隊進行定向的培訓，其中更包括不同專業知識以及安全合規等多方面能力的學習。

在過去的一段時間里，市面上的大模型企業有不少都采取自建標注棧的模式，即專門招聘人員成立標注團隊，同時研發自身的標注工具，但一個更為真實的現狀是：由于缺乏固有的標注體系和流程積累，在數據工具層面和人員層面始終存在短板，不論是標注，還是中間的模型訓練、評估環節，效果始終無法達到最好。

具體來看，即相較于數據存儲側的向量數據庫等更加適配大模型的產品，在數據訓練和應用側市面上大模型企業大部分采取的是傳統的標注工具和標注方法，因而帶來的是巨大的人力和精力投入，同時也對應的是不夠高效的訓練方法。

這種短板也更在影響著大模型的實際落地。

即伴隨著產業和應用成為大模型的主戰場，對特定產業或場景數據的標注和訓練也更在成為大模型落地的必行之道，但由于固有的標注方法和標注工具存在限制，一定程度上延緩了大模型能力的成型和在實際場景的應用落地。

大模型的“關鍵一道門”，應該怎么邁？

二、如何做好“AI運營”？

“優質的大模型的數據標注更像是一套成型的AI數據運營。”一位相關人士表示。

以百度智能云為例，其目前對外提供的是一系列圍繞大模型全生命開發周期的數據服務，其中包括預訓練、監督微調、RLHF、評估等，其覆蓋了大模型中數據訓練的方方面面，不論是前期的數據標注還是微調等等。

這一系列的數據標注工作恰似大模型的“AI數據運營”。據了解，在百度智能云的交付過程中，其部分項目會尋找代碼、教育、法律、等領域專業人員，一起進行需求的規則制定和數據訓練，進而保證數據的真實性和準確性。

此外，在標注工具側，和其它大模型廠商不同的是，百度智能云也更研發了自身專有的大模型標注平臺工具，針對不同場景、不同需要以及不同的數據量可以按照不同的方式進行訓練，比如其可覆蓋大語言模型、多模態大模型及代碼等專項標注場景多種數據標注需求。

同時，結合輔助標注算法可以全流程助力標注師提升標注質量和效率。而在標注能力之外，其也具備著更為靈活的項目管理機制，可以更好地適配嚴苛的交付周期及復雜多變的標注規則，進而滿足不同賽道企業的大模型訓練需求。

據了解，盡管目前市面上的大模型廠商會在內部進行自我模型的AI訓練，但效果往往沒辦法達到最好，最終還是會找到像百度智能云這樣的擁有專門標注工具的企業進行訓練標注。

被優化的大模型訓練模塊還不僅于工具，更在團隊。比如在標注人員團隊培訓上，百度智能云在海口建設了全國首個大模型數據標注基地，常駐數百名數據標注師，本科學歷達到100%，覆蓋漢語言文學、計算機、法學等學科專業。

在服務過程中，除了固有的一體化的模型訓練能力，對不少大模型企業而言，其還有部分專項能力的需求，比如安全能力的強化。

“大模型的輸入是可控的，但是輸出是不可控的，甚至很多時候會因為幻覺等原因，有不良或者不合規的信息出現。”一位國內頭部AI大模型負責人告訴我們。這也造成了對大模型訓練而言，安全必須是其中要核心把控的指標，而百度智能云基于自身的“AI數據運營”能力，則是可以幫助企業的大模型迅速強化這項專有能力。

實際上，百度智能云的模式也恰在成為國內大模型訓練的最先進路徑縮影。即不論是在預訓練，還是中間的監督微調，抑或是后期的模型評估優化等，更為高效的方式恰是這種“AI-native”的標注模式。

而基于百度智能云這套“AI-native”的標注模式，企業恰等同于裝備了一個足夠專業的“AI數據運營”工具箱，其可以幫助企業實現從大模型數據到效果的整體運作。這其中不僅有被“刷新”的數據標注團隊，也更囊括了一系列包括從預訓練到模型評估，再到能力強化等全部流程在內的大模型訓練閉環，進而更高效、更低成本地構建好自身可用、安全的大模型。

三、從模型到應用：數據在產業要如何表達？

在能更快更好地訓練出大模型之外，數據訓練的下一步是什么？實際上，更為真實的答案是：應用和場景。

誠然如此。如果說第一階段的挑戰更多的在模型參數量級，即在一定范圍內模型本身伴隨著數據量越發凸顯的能力，那么在當下的階段，更大的競爭點則是來自于實際場景的應用和業務表達。這種表達或在金融，或在工業制造，或在教育、電商等等。

就當下而言，產業或場景大模型的最大難點不是算力和算法，而更大的卡點恰是數據表達。

相較于通用大模型的訓練，這種基于特定場景的訓練對標注能力的要求更高。即在大量的數據中，其不僅包含無數結構化、非結構化的數據，更對參與的人員團隊有足夠專業的要求，此外，在特定的行業數據服務上，其對于具體的流程模型也更有特殊的要求。

此外，給數據服務帶來難度的不僅是場景，更有如今討論日漸增多的應用。即隨著如今越來越多的AI應用，如Agent、文生圖軟件等被推出，往往更需要在通用大模型能力的基礎上收束某項或者某些方面的特有能力，將其加持到軟件內部，對應到數據服務側則是在應用需求之上的某些專項能力的強化和不斷評估訓練。

也更可以說，大模型的數據訓練和標注，正在伴隨著產業模型和AI應用時代的到來進入深水區。

這也恰是百度智能云等深耕過數據服務行業的企業價值。伴隨著大模型載體的到來，它們正基于自己對數據的多年理解和沉淀，成為推動數據到業務表達的最核心力量。

從幕后走到臺前，從數據標注到數據運營，從初始的模型訓練到細致的模型調優，肉眼可見的是，如百度智能云這樣具備數據資源整合和強大研發能力的科技巨頭企業，正重塑著行業市場格局。而伴隨著大模型向深水區的延展，它們的價值也更在愈發凸顯。

文|產業家皮爺

那么，大模型時代，數據應該如何訓練？或者說，如何把數據在大模型側做更好的表達？

“大模型如何落地？”

相較于算力等更簡單粗暴的命題，數據要更為復雜。從某種層面來說，它對應的是模型的知識質量。

“我們剛開始訓練了三輪，但越到后面越不好訓練，中間不僅花費算力，更花費的是人力。”上述創始人告訴產業家。

但在最核心環節之一的數據側，進度卻始終緩慢。這種“緩慢”甚至成為著大模型在大規模場景落地的最關鍵掣肘之一。

誰能先答好這個命題，誰就能快人一步。

一、大模型的“關鍵一道門”，應該如何推開？

如何把數據“挪移”到大模型中來？在當下的大模型潮流里，數據標注和訓練幾乎是所有大模型企業必須經歷的一個環節。

但如今的大模型標注不同。“我們替換了兩個標注團隊，最終才經過訓練，有了不錯的門店服務和引導效果。”上述負責人告訴產業家。

實際上，做好大模型的數據標注不是一件容易的事情。

這種短板也更在影響著大模型的實際落地。

大模型的“關鍵一道門”，應該怎么邁？

二、如何做好“AI運營”？

“優質的大模型的數據標注更像是一套成型的AI數據運營。”一位相關人士表示。

在服務過程中，除了固有的一體化的模型訓練能力，對不少大模型企業而言，其還有部分專項能力的需求，比如安全能力的強化。

三、從模型到應用：數據在產業要如何表達？

在能更快更好地訓練出大模型之外，數據訓練的下一步是什么？實際上，更為真實的答案是：應用和場景。

就當下而言，產業或場景大模型的最大難點不是算力和算法，而更大的卡點恰是數據表達。

也更可以說，大模型的數據訓練和標注，正在伴隨著產業模型和AI應用時代的到來進入深水區。

簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

歷史搜索全部刪除

熱門搜索

誰在成為大模型的“AI運營”？

一、大模型的“關鍵一道門”，應該如何推開？

二、如何做好“AI運營”？

三、從模型到應用：數據在產業要如何表達？

評論

誰在成為大模型的“AI運營”？

一、大模型的“關鍵一道門”，應該如何推開？

二、如何做好“AI運營”？

三、從模型到應用：數據在產業要如何表達？