什麼是合成數據?
合成數據是由電腦創建的數據,目的是模擬或增強現有數據。
為什麼合成數據有用?
我們都體驗過 ChatGPT、Llama 和最近的 DeepSeek 等語言模型的成功。這些語言模型在社會中被廣泛使用,並引發了許多聲明,認為我們正迅速接近人工通用智能(Artificial General Intelligence,AGI)——能夠複製任何人類功能的人工智慧。
在過於興奮或害怕之前,根據 Epoch 研究所的一篇論文 [1],我們也正迅速面臨這些語言模型發展的障礙。他們估計到 2028 年,我們將達到訓練語言模型所需數據的上限。
如果我們的數據用完了會怎樣?
如果我們的數據用完了,那麼我們將沒有新的數據來訓練我們的語言模型。這些模型將停止改進。如果我們想追求人工通用智能,我們需要想出新的方法來改進人工智慧,而不僅僅是增加現實世界的訓練數據量。
一個潛在的解決方案是合成數據,它可以生成模擬現有數據的數據,並已經用於提高像 Gemini 和 DBRX 這樣的模型的性能。
合成數據的其他應用
除了克服大型語言模型的數據稀缺問題,合成數據還可以用於以下情況:
- 敏感數據——如果我們不想共享或使用敏感屬性,可以生成合成數據,模擬這些特徵的屬性,同時保持匿名。
- 昂貴的數據——如果收集數據的成本很高,我們可以從少量的現實數據中生成大量的合成數據。
- 數據不足——當某個群體的個別數據點數量不成比例地少時,數據集會有偏見。合成數據可以用來平衡數據集。
不平衡數據集
不平衡數據集可能會有問題,因為它們可能沒有足夠的信息來有效地訓練預測模型。例如,如果一個數據集中男性的數量遠多於女性,我們的模型可能會偏向於識別男性,並將未來的女性樣本錯誤分類為男性。
在這篇文章中,我們展示了流行的 UCI 成人數據集 [2] 中的不平衡情況,以及如何使用變分自編碼器生成合成數據來改善這個例子的分類。
我們首先下載成人數據集。這個數據集包含年齡、教育和職業等特徵,可以用來預測目標結果“收入”。
如何生成合成數據?
生成合成數據的方法有很多種,包括傳統的方法,如 SMOTE 和高斯噪聲,這些方法通過修改現有數據來生成新數據。或者,生成模型如變分自編碼器(Variational Autoencoders,VAE)或生成對抗網絡(Generative Adversarial Networks,GAN)則更適合生成新數據,因為它們的架構學習了真實數據的分佈,並利用這些來生成合成樣本。
變分自編碼器
變分自編碼器(VAE)非常適合生成合成數據,因為它們使用真實數據來學習一個連續的潛在空間。我們可以將這個潛在空間視為一個魔法桶,從中我們可以抽取與現有數據相似的合成數據。這個空間的連續性是它們的一個重要優勢,因為這意味著模型能夠很好地概括,而不僅僅是記住特定輸入的潛在空間。
VAE 由編碼器和解碼器組成,編碼器將輸入數據映射到概率分佈(均值和方差),而解碼器則從潛在空間重建數據。
在這個過程中,VAE 使用了一個重參數化技巧,通過學習的均值和方差來縮放和移動隨機噪聲向量,確保潛在空間中的平滑和連續表示。
現在我們已經訓練了 BasicVAE,能夠準確重建成人數據集,我們可以使用它來生成合成數據。我們希望生成更多的正類樣本(收入超過 50K 的個體),以平衡類別並消除模型的偏見。
為此,我們選擇 VAE 數據集中所有收入為正類的樣本,然後將這些樣本編碼到潛在空間中。由於我們只選擇了正類樣本進行編碼,這個潛在空間將反映正類的特性,我們可以從中抽樣以創建合成數據。
我們從這個潛在空間中抽取 15000 個新樣本,並將這些潛在向量解碼回輸入數據空間,作為我們的合成數據點。
現在我們生成了正類的合成數據,我們可以將其與原始訓練數據結合,生成一個平衡的合成數據集。
我們現在可以使用這個平衡的訓練合成數據集來重新訓練我們的隨機森林分類器,然後在原始測試數據上評估這個新模型,以查看我們的合成數據在減少模型偏見方面的有效性。
我們的新分類器在平衡的合成數據集上訓練後,在原始測試集上的錯誤率降低到了 14%。
然而,我們仍然無法顯著減少錯誤的差異,正類的錯誤率仍然是 36%。這可能是由於以下原因:
- VAE 的一個優勢是學習連續的潛在空間,但如果多數類別佔主導地位,潛在空間可能會偏向多數類別。
- 由於數據不足,模型可能未能為少數類別學習到明確的表示,這使得從該區域準確抽樣變得困難。
在這個教程中,我們介紹並構建了一個 BasicVAE 架構,可以用來生成合成數據,從而改善不平衡數據集上的分類準確性。
請關注未來的文章,我將展示如何構建更複雜的 VAE 架構,以解決上述不平衡抽樣等問題。
[1] Villalobos, P., Ho, A., Sevilla, J., Besiroglu, T., Heim, L., & Hobbhahn, M. (2024). 我們會用完數據嗎?基於人類生成數據的 LLM 擴展的限制。arXiv 預印本 arXiv:2211.04325, 3。
[2] Becker, B. & Kohavi, R. (1996). 成人 [數據集]。UCI 機器學習資料庫。https://doi.org/10.24432/C5XW20。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!