电竞比分网-中国电竞赛事及体育赛事平台

分享

合成數據:前世今生

 long16 2024-03-20 發(fā)布于河南

導語

Sora橫空出世,又一次引爆了科技圈。我們在探尋文生視頻大模型的又一次出圈背后,除了算力、算法的不斷演進迭代外,數據依然是繞不開的話題。據分析,OpenAI在訓練過程使用了部分由游戲引擎生成的合成視頻作為訓練集。當然,合成數據并不只用于文生視頻大模型上,在大語言模型上也早有應用。伴隨著大模型不斷發(fā)展,合成數據有望成為未來各類模型訓練的關鍵數據,加速推動大模型在多領域、多產業(yè)落地應用。

本系列推送將分為三篇,嘗試回答合成數據的一些關鍵問題。在上篇《合成數據:前世今生》,我們會重點關注為什么要用到合成數據?合成數據是什么?在中篇《合成數據:大模型訓練和應用的新方案》,將討論合成數據如何作用于大模型訓練?合成數據能否替代真實數據?合成數據在大模型和推薦系統中如何應用?在下篇《合成數據:治理之智》,我們會基于合成數據的價值和風險,討論合成數據可及性和安全性問題,并給出合成數據治理的相關政策建議。

一、合成數據帶來的思考

在生成式人工智能技術不斷發(fā)展的趨勢下,訓練數據來源是人們最關心的問題之一。在已經使用的訓練語料中,有用于語言大模型訓練的文本數據,包括網頁信息、書籍、科研論文、知識百科、專業(yè)問答、代碼、以及領域知識,也有用于多模態(tài)模型的圖片、視頻、音頻等媒體數據。根據Epoch AI的估算,書籍、科研論文等高質量語言數據集可能會在2024年前耗盡。人們正在積極探索新數據源,以緩解訓練語料可能面臨不足的問題。一種思路是將未數字化的知識數字化,如在最新發(fā)布的Claude 3中,提到了將大量未數字化的書籍和資料做OCR生成,成為模型可讀取的訓練語料。還可利用機器感知數據,比如將無人車、無人機、其他智能硬件設備等生成的大量物理世界數據用于訓練。另一種思路是利用模型或算法,批量生成新數據,比如合成數據,然后利用它們訓練模型。

近期,合成數據在大模型訓練和應用的話題引起了廣泛關注。一方面,高質量的合成數據可以作為真實數據的補充和替代,模擬現實世界的復雜性和多樣性,被視為擴展模型學習范圍與能力的重要手段。另一方面,合成數據的生成過程可能存在偏差或噪聲,導致其質量和真實性無法完全模擬客觀世界。由此引出一系列值得深入討論的問題:對于合成數據的價值,它能否拓展大模型能力的邊界?又是否能替代真實數據,緩解優(yōu)質數據供給不足的問題?此外,合成數據能否通過對現有數據的深加工,將之前不能被用于訓練的數據轉化為可用,提升模型對數據利用的可能性?而對于合成數據的風險,人們也會擔憂是否會出現“大模型自己產生數據進行自我訓練”的循環(huán),導致初始偏差被不斷放大,最終使模型失控?這種新數據源還會帶來哪些新風險?

合成數據:前世今生

二、什么是合成數據?

合成數據(Synthetic Data)是通過算法和數學模型創(chuàng)建的。首先建模真實數據的分布,然后在該分布上進行采樣,創(chuàng)建出新數據集,模擬真實數據中的統計模式和關系。合成數據類似于數據的“替身演員”,發(fā)揮補充或替代真實數據的作用。在機器學習和人工智能領域,合成數據可以為模型提供訓練材料,幫助它們學習、理解和預測。

與合成數據相關性較高的另一種技術是數據增強(Data Augmentation)。兩者目的都是為了提高模型的性能和泛化能力,但它們在實現這一目標時采取了不同的方法。合成數據涉及到創(chuàng)建全新的數據點,是從頭開始生產的;而數據增強則是在已有數據的基礎上進行修改以產生新的變體。在NLP領域,合成數據可以通過使用生成式模型基于現有數據生成新句子來創(chuàng)建;如當現實世界的數據有限或不平衡時,可以使用合成數據來訓練模型進行文本分類。而NLP中的數據增強技術包括同義詞替換、隨機刪除、隨機插入和文本換行等。

這兩種方法也不是解決數據問題的萬能藥。如果生成過程設計不當,合成數據也可能缺乏保真度,對客觀世界的模擬出現偏差。而數據增強通常會受限于原始訓練數據的質量和多樣性。

三、為什么需要用到合成數據?

什么情況下會用到合成數據?本質原因是真實世界中獲取數據遇到困難。一是真實世界中難以觀測,如罕見病或極端天氣等。利用合成數據可以設計比真實數據集更廣泛的情況,對Corner Case進行模擬,提升訓練數據集的全面性和多樣性,確保在處理邊緣案例時也有良好性能,提升模型泛化能力。二是真實世界中數據獲取的成本高,如大模型對齊訓練中需要人類大量的高質量反饋。利用合成數據可以實現對齊流程自動化,幾乎不需人類標注,大幅節(jié)省成本,提高獲取效率。三是數據獲取和處理涉及到真實世界中的個信甚至敏感信息,特別是醫(yī)療健康和金融領域。合成數據可以利用差分隱私對個體信息“加噪聲”等方法,模擬真實數據集的分布,而不模擬其中的真實個人信息,實現對個信去標識化。由此歸納出,合成數據具有全面性和多樣性、經濟高效、有利于隱私保護等優(yōu)點。

四、合成數據的生成方法及分類

根據是否基于實際數據集生成,合成數據生成方法主要分為兩大類。第一種是基于真實數據集構建的:人們會建立模型以捕獲真實數據的分布特性和結構特征,刻畫數據中的多變量關系和相互作用。然后從該模型中抽樣或生成合成數據。如果模型能很好地代表真實數據,那么合成數據將具有與真實數據相似的統計特性。以ChatGPT為例,它深入研究了人類寫的數十億例文本,分析了詞語之間的關系,并構建了一個模型來理解它們是如何組合在一起的。在生成文本時,每一個單詞的選擇也都取決于它前一個單詞出現的統計概率。第二種生成方法并不來源于真實數據,而是通過使用現有模型或者人類專業(yè)背景知識來創(chuàng)建?,F有的模型可以是某個過程的統計模型,也可以是模擬模型(Simulation)。模擬可以通過游戲引擎等方法創(chuàng)建,如最近火爆的Sora文生視頻模型,里面用到了由游戲引擎(Unity、Unreal Engine 5等)合成的視頻數據作為訓練集,以提高生成質量。

根據用于訓練的AI類型,可以將合成數據分為應用于生成式AI和判別式AI訓練兩類。應用于生成式AI訓練的通常有媒體合成數據,即由模型和算法合成的視頻、圖像或聲音。文本合成數據,即 在自然語言處理中由模型生成的文本。而判別式AI訓練(分類或回歸)所需的通常是表格合成數據,類似真實生活中數據記錄或表格的合成數據。

合成數據:前世今生

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多