如何利用 Amazon Bedrock 簡化教育品質報告的 BQA

今天，數據的價值非常重要，各行各業的組織都在處理大量的數據，這些數據有不同的格式。手動檢查和處理這些信息是一個具有挑戰性且耗時的任務，並且可能會出現錯誤。這就是智能文檔處理 (IDP) 和生成式人工智慧 (generative AI) 結合出現的原因，這是一個改變遊戲規則的解決方案。

生成式人工智慧的整合增強了IDP的能力，這種技術利用大型語言模型 (LLMs) 和生成技術來理解和生成類似人類的文本。這種整合使得組織不僅能夠從文檔中提取數據，還能解釋、總結和生成從提取的信息中獲得的見解，從而實現更智能和自動化的文檔處理工作流程。

巴林王國的教育與培訓質量管理局 (BQA) 在提升教育和培訓服務的質量方面發揮了關鍵作用。BQA 會評估所有教育和培訓機構的表現，包括學校、大學和職業學院，從而促進國家人力資本的專業發展。

BQA 監督一個全面的質量保證過程，包括設定表現標準和對教育及培訓機構進行客觀評估。這個過程涉及收集和分析大量的文檔，包括自我評估報告 (SERs)、支持證據和來自被評估機構的各種媒體格式。

BQA 與亞馬遜網路服務 (AWS) 的合作是通過雲創新中心 (CIC) 計劃實現的，這是一個由 AWS、Tamkeen 和巴林的主要大學（包括巴林多元學院和巴林大學）共同發起的計劃。CIC 計劃旨在促進公共部門的創新，提供一個協作環境，讓政府機構能夠與 AWS 顧問和大學學生密切合作，利用最新的雲技術開發尖端解決方案。

作為 CIC 計劃的一部分，BQA 建立了一個概念驗證解決方案，利用 AWS 服務和生成式人工智慧的能力。這個概念驗證的主要目的是測試和驗證所提議的技術，展示它們在簡化 BQA 報告和數據管理過程中的可行性和潛力。

在這篇文章中，我們探討了 BQA 如何利用亞馬遜基石 (Amazon Bedrock)、亞馬遜 SageMaker JumpStart 和其他 AWS 服務來簡化整體報告工作流程。

挑戰：簡化自我評估報告

BQA 傳統上為教育和培訓機構提供了一個自我評估報告 (SER) 的模板，作為評估過程的一部分。機構需要提交一個包含完成的 SER 和支持材料的評估資料夾，這些材料有時並未完全遵循既定的報告標準。

現有的過程面臨一些挑戰：

提交不準確或不完整 – 機構可能在提交的報告和支持證據中提供不完整或不準確的信息，導致缺乏進行全面評估所需的數據。
缺少或不足的支持證據 – 機構提供的支持材料經常無法證實其報告中的主張，這對評估過程造成挑戰。
耗時且資源密集 – 該過程需要投入大量時間和資源來手動檢查提交的材料，並在需要時跟進機構以請求額外信息來修正提交，這導致整體評估過程的延遲。

這些挑戰突顯了需要一種更簡化和高效的提交和評估過程。

解決方案概述

所提議的解決方案使用亞馬遜基石和亞馬遜泰坦快遞 (Amazon Titan Express) 模型來啟用 IDP 功能。這個架構無縫整合了多個 AWS 服務與亞馬遜基石，實現高效的數據提取和比較。

亞馬遜基石是一項完全管理的服務，通過統一的 API 提供來自領先人工智慧初創公司和亞馬遜的高效基礎模型 (FMs) 的訪問。它提供多種基礎模型，讓您可以選擇最適合您特定用例的模型。

以下圖示展示了解決方案的架構。

該解決方案包括以下步驟：

相關文檔上傳並存儲在亞馬遜簡單存儲服務 (Amazon S3) 的桶中。
向亞馬遜簡單佇列服務 (Amazon SQS) 佇列發送事件通知，以便對每個文件進行進一步處理。亞馬遜 SQS 作為緩衝區，使不同組件能夠可靠地發送和接收消息，而不必直接耦合，從而增強系統的可擴展性和容錯性。
由 SQS 佇列調用文本提取的 AWS Lambda 函數，處理每個排隊的文件並使用亞馬遜 Textract 從文檔中提取文本。
提取的文本數據被放入另一個 SQS 佇列以進行下一步處理。
文本總結的 Lambda 函數由這個新佇列調用，該佇列包含提取的文本。這個函數向 SageMaker JumpStart 發送請求，部署一個 Meta Llama 文本生成模型，根據提供的提示總結內容。
同時，調用 SageMaker 的 Lambda 函數被調用以進行比較和評估。它將提取的文本與 BQA 標準進行比較，評估文本的合規性、質量和其他相關指標。
總結的數據和評估結果存儲在亞馬遜 DynamoDB 表中。
根據請求，調用基石的 Lambda 函數調用亞馬遜基石生成生成式人工智慧的總結和評論。該函數構建了一個詳細的提示，旨在指導亞馬遜泰坦快遞模型評估大學的提交。

使用亞馬遜基石的提示工程

為了利用亞馬遜基石的力量並確保生成的輸出符合所需的結構和格式要求，根據以下指導方針開發了一個精心設計的提示：

證據提交 – 根據相關指標呈現機構提交的證據，為模型提供必要的評估背景。
評估標準 – 概述應該根據的具體標準來評估證據。
評估指示 – 指示模型如下：

如果證據與指標無關，則標示為 N/A。
根據標準評估大學的自我評估。
為每條評論分配 1–5 的分數，並直接引用內容中的證據。

回應格式 – 指定回應為要點，專注於相關分析和證據，字數限制為 100 字。

要使用這個提示模板，您可以在您的項目中創建一個自定義的 Lambda 函數。該函數應該處理所需數據的檢索，例如指標名稱、大學提交的證據和評分標準。在函數中，包含提示模板並動態填充佔位符（${indicatorName}、${JSON.stringify(allContent)} 和 ${JSON.stringify(c.comment)}）以獲取的數據。

亞馬遜泰坦文本快遞模型將根據提供的提示指示生成評估回應，遵循指定的格式和指導方針。您可以在函數內處理和分析模型的回應，提取合規分數、相關分析和證據。

以下是一個示例提示模板：

for (const c of comments) {
const prompt = `
以下是大學在指標 “${indicatorName}” 下提交的證據：
${JSON.stringify(allContent)}

根據提供的評分標準分析和評估大學的證據：
${JSON.stringify(c.comment)}

– 如果證據與指標無關，則標示為不適用 (N/A)，不需額外評論。

根據提交的證據選擇以下合規分數之一：
1. 不合規：評論不符合標準或標準。
2. 合規但有建議：評論符合標準，但包含改進建議。
3. 合規：評論符合標準或標準。

回應結尾應該是分數：[分數：合規或不合規或合規但有建議]
用簡潔的要點寫下您的回應，專注於相關分析和證據。
**限制您的回應為 100 字。**

logger.info(`提示對於評論 ${c.commentId}: ${prompt}`);

const body = JSON.stringify({
inputText: prompt,
textGenerationConfig: {
maxTokenCount: 4096,
stopSequences: [],
temperature: 0,
topP: 0.1,
},
});

以下截圖顯示了亞馬遜基石生成的回應示例。

結果

實施亞馬遜基石為機構帶來了變革性的好處。通過自動化和簡化大量文檔的收集和分析，包括自我評估報告、支持證據和各種媒體格式，機構可以在報告過程中實現更高的準確性和一致性，並為評估過程做好準備。這不僅減少了與手動數據處理相關的時間和成本，還提高了對質量期望的合規性，從而增強了機構的可信度和質量。

對於 BQA 而言，實施幫助實現了其專注於簡化報告過程的戰略目標，並在多個關鍵指標上取得了顯著改善，顯著提高了其運營的整體效率和效果。

預期的主要成功指標包括：

更快的周轉時間，生成 70% 準確且符合標準的自我評估報告，從而提高整體效率。
減少報告過程中出現錯誤或不合規的風險，強化遵循既定指導方針。
能夠將冗長的提交總結為簡潔的要點，使 BQA 評審能夠快速分析和理解最相關的信息，減少 30% 的證據分析時間。
更準確的合規反饋功能，幫助評審有效評估提交是否符合既定標準和指導方針，並通過流程優化實現 30% 的運營成本降低。
通過無縫互動增強透明度和溝通，使用戶能夠輕鬆請求額外文件或澄清。
實時反饋，讓機構能夠及時進行必要的調整。這對於保持提交的準確性和完整性特別有用。
通過提供數據見解增強決策能力。這幫助大學識別改進領域，並做出基於數據的決策來提升其流程和運營。

以下截圖顯示了使用亞馬遜基石生成新評估的示例。

結論

這篇文章概述了亞馬遜基石在教育與培訓質量管理局 (BQA) 的實施，展示了生成式人工智慧在革命性地改變教育和培訓領域質量保證過程中的潛力。對於那些有興趣進一步探索技術細節的人，這次實施的完整代碼可在以下 GitHub 倉庫中獲得。如果您有興趣與我們進行類似的概念驗證，請將您的挑戰想法提交到巴林多元學院或巴林大學的 CIC 網站。