我們的下一版前沿安全框架(FSF)設定了更強的安全協議,朝向通用人工智慧(AGI)邁進
人工智慧(AI)是一個強大的工具,幫助我們解決許多當前最大的挑戰,從氣候變遷到藥物發現。然而,隨著其發展進步,先進的能力可能會帶來新的風險。
這就是為什麼我們去年推出了第一版前沿安全框架(Frontier Safety Framework)——一套協議,幫助我們預防來自強大前沿AI模型的潛在嚴重風險。自那以來,我們與業界、學術界和政府的專家合作,加深了對這些風險的理解,並進行了實證評估來測試這些風險,以及我們可以採取的減輕措施。我們還在評估像是Gemini 2.0這樣的前沿模型的安全和治理過程中實施了這個框架。今天,我們發布了更新的前沿安全框架。
框架的主要更新包括:
- 對我們的關鍵能力水平(CCLs)提出安全級別建議,幫助識別在哪裡需要加強防範外洩風險的努力。
- 實施更一致的程序來應用部署減輕措施。
- 概述行業領先的欺騙性對齊風險應對方法。
加強安全的建議
安全減輕措施幫助防止未經授權的人員竊取模型權重。這尤其重要,因為獲得模型權重可以移除大多數安全防護。考慮到未來越來越強大的AI,若處理不當,可能會對安全造成嚴重影響。我們的初步框架認識到需要分級的安全方法,允許根據風險實施不同強度的減輕措施。這種比例方法也確保我們在減輕風險和促進訪問及創新之間取得平衡。
自那以後,我們借鑒了更廣泛的研究,發展了這些安全減輕級別,並為每個CCL推薦了一個級別。這些建議反映了我們對前沿AI領域應該對這些模型應用的最低安全級別的評估。這一映射過程幫助我們確定在哪裡需要最強的減輕措施來降低最大的風險。在實踐中,由於我們強大的整體安全姿態,我們的某些安全措施可能超過此處建議的基準級別。
這個框架的第二版對於機器學習研究和開發(R&D)領域的CCLs建議特別高的安全級別。我們認為,前沿AI開發者在未來的情境中需要強大的安全性,因為他們的模型可能會顯著加速和/或自動化AI的發展。因為這種能力的失控擴散可能會對社會管理和適應AI快速發展的能力帶來重大挑戰。
確保尖端AI系統的持續安全是一個全球共同挑戰,也是所有領先開發者的共同責任。重要的是,正確處理這一問題是一個集體行動的問題:如果沒有廣泛應用於整個領域,任何單一行為者的安全減輕措施的社會價值將大大降低。建立我們認為可能需要的安全能力將需要時間,因此所有前沿AI開發者必須共同努力,朝著加強安全措施的方向邁進,並加快朝著共同行業標準的努力。
部署減輕措施程序
我們在框架中還概述了部署減輕措施,重點是防止我們部署的系統中關鍵能力的濫用。我們已經更新了我們的部署減輕方法,對達到CCL的模型在濫用風險領域應用更嚴格的安全減輕過程。
更新的方法包括以下步驟:首先,我們準備一套減輕措施,通過不斷迭代一系列安全防護來實現。在這個過程中,我們還會制定一個安全案例,這是一個可評估的論證,顯示與模型的CCLs相關的嚴重風險已被降低到可接受的水平。然後,適當的公司治理機構會審查這個安全案例,只有在獲得批准後,才會進行一般可用的部署。最後,我們在部署後繼續審查和更新安全防護和安全案例。我們之所以做出這一改變,是因為我們認為所有關鍵能力都需要這一徹底的減輕過程。
應對欺騙性對齊風險的方法
框架的第一版主要集中在濫用風險(即威脅行為者利用已部署或被竊取模型的關鍵能力造成傷害的風險)。在此基礎上,我們採取了行業領先的方法,主動應對欺騙性對齊的風險,即自主系統故意削弱人類控制的風險。
對這個問題的初步方法集中在檢測模型何時可能發展出基線的工具性推理能力,讓它們在沒有安全防護的情況下削弱人類控制。為了減輕這一風險,我們探索自動監控,以檢測工具性推理能力的非法使用。
我們不期望自動監控在長期內仍然足夠,如果模型達到更強的工具性推理水平,因此我們正在積極進行研究,並強烈鼓勵進一步開發這些情境的減輕方法。雖然我們尚不清楚這些能力出現的可能性,但我們認為,這個領域應該為這種可能性做好準備。
結論
我們將繼續隨著時間的推移審查和發展這個框架,並遵循我們的AI原則,這進一步闡明了我們對負責任開發的承諾。
作為我們努力的一部分,我們將繼續與社會各界的夥伴合作。例如,如果我們評估某個模型已達到對整體公共安全構成未減輕且實質性風險的CCL,我們的目標是與適當的政府機構分享信息,以促進安全AI的發展。此外,最新的框架概述了若干潛在的進一步研究領域——我們期待與研究社區、其他公司和政府合作。
我們相信,開放、迭代和合作的方法將有助於建立共同的標準和最佳實踐,以評估未來AI模型的安全性,同時確保它們為人類帶來好處。首爾前沿AI安全承諾標誌著這一集體努力的重要一步——我們希望我們更新的前沿安全框架能進一步促進這一進展。展望AGI,正確處理這一問題將意味著解決非常重要的問題——例如正確的能力門檻和減輕措施——這些問題需要更廣泛的社會,包括政府的參與。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!