AI數據使用的擔憂趨勢
根據與麻省理工學院技術評論(MIT Technology Review)獨家分享的研究結果,AI的數據使用方式顯示出一個令人擔憂的趨勢:數據的集中使用可能會讓少數大型科技公司掌握過多的權力。
早期的數據來源
麻省理工學院的研究員Shayne Longpre表示,在2010年代初期,數據集來自多種來源。
這些數據不僅來自百科全書和網路,還包括國會記錄、財報電話會議和天氣報告等來源。Longpre指出,當時的AI數據集是根據不同的任務特別策劃和收集的。
變革的開始
2017年,語言模型的基礎架構——變壓器(transformers)被發明,AI領域的表現開始隨著模型和數據集的增大而改善。如今,大多數AI數據集是隨意從網路上收集資料。自2018年以來,網路已成為所有媒體(如音頻、圖像和視頻)中數據集的主要來源,從而出現了從網路抓取的數據與更精心策劃的數據集之間的差距,並且這個差距不斷擴大。
數據的規模與多樣性
Longpre表示:“在基礎模型的開發中,數據的規模和多樣性似乎對能力的影響最大。”對於規模的需求也大幅推動了合成數據的使用。
多模態生成AI的興起
近幾年來,多模態生成AI模型的興起使得生成視頻和圖像成為可能。像大型語言模型一樣,它們需要盡可能多的數據,而最佳的數據來源已成為YouTube。
視頻數據的集中性
對於視頻模型,根據這張圖表,超過70%的語音和圖像數據集來自同一個來源。
這對於Alphabet(谷歌母公司)來說可能是個好消息,因為它擁有YouTube。與文本在網路上分散並由許多不同網站和平台控制不同,視頻數據在一個平台上的集中度非常高。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!