在美國特朗普政府於一月下旬上任後不久,《紐約時報》發現超過8,000個政府網站和數據庫的頁面被刪除。雖然許多頁面現在已經恢復,但仍有數千頁被刪除了與性別和多樣性倡議相關的內容,像是美國國際開發署 (USAID) 的網站仍然無法訪問。
到2月11日,一位聯邦法官裁定政府機構必須恢復公眾對疾病控制與預防中心 (CDC) 和食品藥物管理局 (FDA) 維護的頁面和數據集的訪問。許多科學家因為恐慌而逃向線上檔案館,諷刺的是,司法部曾辯稱提起訴訟的醫生並未受到損害,因為被刪除的信息在互聯網檔案館 (Internet Archive) 的時光機 (Wayback Machine) 上仍然可以找到。作為回應,一位聯邦法官寫道:「法庭並不信服」,指出用戶必須知道被檔案化頁面的原始網址才能查看。
互聯網檔案館的時光機主任馬克·格雷厄姆 (Mark Graham) 說,政府的法律論點「有點有趣」,他認為法官的裁決是「恰如其分」的。在過去幾週,互聯網檔案館和其他檔案網站因為保存政府數據庫和網站而受到關注。但這些項目已經進行了多年。互聯網檔案館成立於近30年前,作為一個非營利組織,致力於提供普遍的知識訪問,現在每天記錄超過十億個網址。
自2008年以來,互聯網檔案館還托管了一個可訪問的任期結束網頁檔案 (End of Term Web Archive),這是一個記錄聯邦政府網站在政府更迭前後變化的合作項目。在最近的收集中,它已經檔案化了超過500TB的資料。
補充爬蟲
格雷厄姆表示,互聯網檔案館的優勢在於規模。「我們通常可以快速、大規模地保存東西,但在分析方面經驗不深。」與此同時,像環境數據與治理倡議 (Environmental Data and Governance Initiative) 和醫療記者協會 (Association of Health Care Journalists) 等團體則幫助活動家和學者識別和記錄變化。
哈佛法學院的圖書館創新實驗室 (Library Innovation Lab) 也加入了這一努力,建立了數據.gov 的檔案,這是一個包含超過311,000個公共數據集的16TB集合,並每天更新新數據。該項目始於2024年末,當時圖書館意識到數據集在其他網頁爬蟲中經常被忽略,軟體工程師兼圖書館創新實驗室主任傑克·庫什曼 (Jack Cushman) 說。
「你可能會錯過任何需要與JavaScript、按鈕或表單互動的內容。」—傑克·庫什曼,圖書館創新實驗室
典型的爬蟲在捕捉基本的HTML、PDF或CSV文件時沒有問題。但檔案化由數據庫驅動的互動網絡服務則面臨挑戰。格雷厄姆表示,檔案化像亞馬遜 (Amazon) 這樣的網站幾乎是不可能的。
圖書館創新實驗室 (LIL) 正在努力檔案化的數據集同樣難以捕捉。「如果你只是從鏈接點擊到鏈接,像任期結束檔案那樣,你可能會錯過任何需要與JavaScript、按鈕或表單互動的內容,這需要請求許可然後註冊或下載一些東西。」庫什曼解釋說。
「我們想做一些補充現有網頁爬蟲的事情,我們的做法是進入API。」他說。通過進入API,這些API繞過網頁直接訪問數據,LIL的程序可以獲取完整的數據集目錄——無論是CSV、Excel、XML或其他文件類型——並提取相關的網址來創建檔案。在數據.gov的情況下,庫什曼和他的同事編寫了一個腳本,發送300個正確的查詢,每個查詢獲取1,000個項目,然後通過300,000個總項目來收集數據。「我們尋找的是一些自動化可以解鎖大量新數據的領域,這些數據在其他情況下無法獲得。」庫什曼說。
LIL檔案的另一個重要因素是確保數據以可用格式存在。「你可能會在網頁爬蟲中獲得某些東西,這些數據分散在100,000個網頁上,但很難將其提取到電子表格或可以分析的格式中。」庫什曼說。使其可用,無論是在數據格式還是用戶界面上,幫助創建可持續的檔案。
大量副本保護資料安全
保護互聯網數據的關鍵原則是LOCKSS:大量副本保護資料安全。
當互聯網檔案館在去年十月遭遇網絡攻擊時,檔案館關閉了網站三個半星期,以審核整個網站並實施安全升級。「圖書館傳統上總是受到攻擊,所以這並不奇怪。」格雷厄姆說。作為防禦的一部分,檔案館現在在美國內外的不同物理位置擁有多個材料副本。
「美國政府是世界上最大的出版商。」格雷厄姆指出。它在各種主題上發布材料,「其中許多對人們有益,不僅在這個國家,還在全世界,無論是關於能源、健康、農業還是安全。」而且,許多個人和組織為保護數字世界做出貢獻,這實際上是一件好事。
「目標是讓這些副本在你能想到的每個指標上都是多樣的。它們應該在不同類型的媒介上。它們應該由不同的人控制,擁有不同的資金來源,以不同的格式存在。」庫什曼說。「備份之間的每一種相似性都會增加損失的風險。」數據.gov的檔案主要副本存儲在雲服務中,其他副本作為備份。該檔案還包括開源軟體,使其易於複製。
除了維護副本外,庫什曼表示,還必須包括加密簽名和時間戳。每次創建檔案時,都會用創建者的電子郵件地址和時間的加密證明簽名,這有助於驗證檔案的有效性。
持續的挑戰
自特朗普總統上任以來,許多材料已從美國聯邦網站上刪除——這比以往任何新政府上任時的情況都要多,格雷厄姆說。然而,從全球範圍來看,這並不是前所未有的。
在美國,自比爾·克林頓 (Bill Clinton) 以來,每次新政府上任時,官方政府網站都會發生變化,互聯網檔案館的「自由範圍檔案員」傑森·斯科特 (Jason Scott) 說。「這次更混亂。」斯科特說。「但網絡是一個非常高熵的實體……谷歌就像超市是一個食物博物館。」
數字檔案員的工作是艱難的,特別是面對跨越互聯網標準演變的網站積壓。但這些努力並不新。「增長只會體現在磁碟空間和帶寬資源上,而不是已經持續的過程。」斯科特說。
對庫什曼來說,參與這個項目讓他更加認識到公共數據的價值。「我們擁有的政府數據就像GPS信號。」他說。「它不告訴我們該去哪裡,但告訴我們周圍的情況,以便我們可以做出決策。第一次以這種方式接觸它真的幫助我欣賞我們擁有的寶藏。」
來自您網站的文章
相關文章
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!