機構數據計畫與波士頓公共圖書館合作
除了大量的書籍,機構數據計畫(Institutional Data Initiative, IDI)也在與波士頓公共圖書館合作,掃描數百萬篇現在已經進入公共領域的報紙文章。他們表示,未來會開放與其他類似機構合作的可能性。目前,書籍數據集的具體發布方式尚未確定。機構數據計畫已經請求谷歌(Google)一起合作進行公共發佈,而谷歌也承諾會提供支持。
數據集的影響
無論機構數據計畫的數據集如何發布,它都將加入許多類似的專案、初創公司和計畫,這些專案承諾能讓公司獲得大量高品質的人工智慧(AI)訓練材料,而不會面臨版權問題。像是Calliope Networks和ProRata等公司已經出現,發放許可證並設計補償計畫,以確保創作者和權利持有者能夠因提供AI訓練數據而獲得報酬。
新的公共領域專案
還有其他新的公共領域專案。去年春天,法國的AI初創公司Pleias推出了自己的公共領域數據集,名為Common Corpus,根據專案協調員Pierre-Carl Langlais的說法,這個數據集包含約300到400萬本書籍和期刊收藏。這個專案得到了法國文化部的支持,這個月在開源AI平台Hugging Face上已經下載超過60,000次。上週,Pleias宣布他們將發布第一組基於這個數據集訓練的大型語言模型,Langlais告訴WIRED,這些模型是“首次完全基於開放數據並符合歐盟(EU)AI法案”進行訓練的模型。
創建影像數據集的努力
目前也在努力創建類似的影像數據集。AI初創公司Spawning在今年夏天發布了自己的數據集Source.Plus,這個數據集包含來自維基共享資源(Wikimedia Commons)以及各種博物館和檔案館的公共領域影像。許多重要的文化機構早已將自己的檔案作為獨立專案向公眾開放,例如大都會藝術博物館(Metropolitan Museum of Art)。
對於數據集的看法
Ed Newton-Rex曾是Stability AI的高管,現在他運營一個非營利組織,負責認證倫理訓練的AI工具。他表示,這些數據集的興起顯示,建立高效能和高品質的AI模型不需要竊取版權材料。OpenAI之前告訴英國立法者,沒有使用版權作品,創造像ChatGPT這樣的產品是“不可能的”。Newton-Rex說:“像這樣的大型公共領域數據集進一步推翻了某些AI公司用來辯解竊取版權作品以訓練模型的‘必要性辯護’。”
對未來的擔憂
但他仍然對機構數據計畫及類似專案是否真的會改變訓練現狀抱有保留態度。他說:“這些數據集只有在被使用的情況下,可能與其他數據的授權一起,才能對替代竊取的版權作品產生正面影響。如果它們只是被添加到混合中,成為一個包含世界創作者未授權作品的數據集的一部分,那麼它們將主要使AI公司受益。”
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!