專案亞歷山大：透過結構化事實提取與大型語言模型實現科學知識的民主化

科學出版在近幾十年中有了顯著的增長，但對於許多人來說，尤其是在發展中國家、獨立研究者和小型學術機構，獲取重要研究仍然受到限制。期刊訂閱費用的上漲加劇了這種差距，即使在資金充足的大學中，知識的可獲得性也受到限制。儘管有推動開放獲取（Open Access, OA）的努力，但障礙依然存在，像德國和美國因與出版商的價格爭議而造成的大規模訪問損失就是明證。這種限制妨礙了科學進步，讓研究人員尋找其他方法來使科學知識更易於獲取，同時又要遵守版權限制。

目前獲取科學內容的方法主要包括直接訂閱、機構訪問或依賴法律模糊的資料庫。這些方法要麼在經濟上無法持續，要麼在法律上有爭議。雖然OA出版有所幫助，但並未完全解決可獲取性危機。大型語言模型（Large Language Models, LLMs）提供了一種從學術文本中提取和總結知識的新途徑，但其使用引發了版權問題。挑戰在於如何將事實內容與受版權法保護的創意表達分開。

為了解決這個問題，研究團隊提出了亞歷山大計畫（Project Alexandria），引入了知識單元（Knowledge Units, KUs），這是一種結構化格式，用於提取事實信息，同時省略風格元素。KUs編碼關鍵的科學見解，例如定義、關係和方法細節，存儲在結構化數據庫中，確保只保留不受版權保護的事實內容。這一框架符合法律原則，如思想-表達二分法，該原則指出事實不能受到版權保護，只有它們的具體措辭和呈現方式可以。

知識單元是通過LLM管道生成的，該管道處理段落大小的學術文本，提取核心概念及其關係。每個KU包含：

– 實體：文本中識別的核心科學概念。
– 關係：實體之間的聯繫，包括因果或定義性聯繫。
– 屬性：與實體相關的具體細節。
– 上下文摘要：確保多個KUs之間的一致性的簡要摘要。
– 句子MinHash：跟踪源文本的指紋，而不存儲原始措辭。

這種結構化的方法在知識保留和法律防禦之間取得了平衡。段落級的分段確保了最佳的粒度——如果太小，信息會分散；如果太大，LLM的性能會下降。

從法律的角度來看，這一框架符合德國和美國的版權法。德國法律明確排除了事實的版權保護，並允許在特定例外下進行數據挖掘。同樣，美國的合理使用（Fair Use）原則允許轉化性使用，如文本和數據挖掘，只要不損害原作品的市場價值。研究團隊證明，KUs通過排除表達性元素而保留事實內容，滿足這些法律條件。

為了評估KUs的有效性，團隊使用生物學、物理學、數學和計算機科學的摘要和全文文章進行了多選題測試。結果顯示，使用KUs的LLMs達到了幾乎與原始文本相同的準確性。這表明，儘管去除了表達性元素，但絕大多數相關信息仍然被保留。此外，抄襲檢測工具證實KUs與原始文本之間的重疊極小，進一步強化了這種方法的法律可行性。

除了法律考量，研究還探討了現有替代方案的局限性。文本嵌入，通常用於知識表示，無法捕捉精確的事實細節，使其不適合用於科學知識提取。直接的改寫方法則有可能與原始文本保持過多相似性，可能違反版權法。相比之下，KUs提供了一種更結構化且法律上合理的方法。

研究還針對常見的批評進行了回應。雖然有人認為將知識提取到數據庫中可能會導致引用稀釋，但可追溯的歸屬系統可以減輕這一擔憂。另一些人擔心科學研究中的細微差別可能會丟失，但團隊強調，大多數複雜元素，如數學證明，根本不受版權保護。對潛在法律風險和幻覺傳播的擔憂也得到了認可，並建議採用混合的人類與人工智慧驗證系統來增強可靠性。

自由獲取的科學知識對多個領域的影響深遠。研究人員可以更有效地跨學科合作，醫療專業人員可以更高效地獲取關鍵醫學研究，教育工作者可以在沒有成本障礙的情況下開發高質量的課程。此外，開放的科學知識促進了公眾信任和透明度，減少了錯誤信息，並使人們能夠做出明智的決策。

展望未來，團隊確定了幾個研究方向，包括通過交叉引用來提高事實準確性，開發基於KU的知識傳播的教育應用，以及建立知識圖譜的互操作性標準。他們還提出將KUs整合到更廣泛的科學發現語義網中，利用人工智慧自動化和驗證提取的知識。

總之，亞歷山大計畫提供了一個有前景的框架，使科學知識在尊重版權限制的同時更易於獲取。通過系統地從學術文本中提取事實內容並將其結構化為知識單元，這種方法提供了一個法律上可行且技術上有效的解決方案，以應對科學出版中的可獲取性危機。廣泛的測試證明了其在不違反版權法的情況下保留關鍵信息的潛力，使其成為促進科學社群知識民主化的重要一步。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 專案亞歷山大透過結構化事實提取與大型語言模型實現科學知識的民主化