隨著網路內容的快速增長,如何有效地提取和總結相關資訊成為了一個挑戰。在這個教學中,我們將展示如何使用 Firecrawl 進行網頁爬蟲,並利用像 Google Gemini 這樣的 AI 模型處理提取的數據。通過在 Google Colab 中整合這些工具,我們創建了一個端到端的工作流程,能夠抓取網頁、檢索有意義的內容,並使用最先進的語言模型生成簡潔的摘要。無論你想自動化研究、從文章中提取見解,還是構建 AI 驅動的應用程式,這個教學都提供了一個強大且靈活的解決方案。
首先,我們安裝 google-generativeai 和 firecrawl-py,這兩個庫是這個教學所需的基本工具。google-generativeai 提供了訪問 Google 的 Gemini API 以進行 AI 驅動的文本生成,而 firecrawl-py 則通過以結構化格式從網頁抓取內容來實現網頁爬蟲。
from getpass import getpass
# 輸入你的 API 金鑰(輸入時將隱藏)
os.environ[“FIRECRAWL_API_KEY”] = getpass(“輸入你的 Firecrawl API 金鑰: “)
接著,我們在 Google Colab 中安全地設置 Firecrawl API 金鑰作為環境變數。它使用 getpass() 提示用戶輸入 API 金鑰,並不顯示,確保了保密性。將金鑰存儲在 os.environ 中,允許在整個會話中無縫地進行 Firecrawl 的網頁爬蟲功能的身份驗證。
firecrawl_app = FirecrawlApp(api_key=os.environ[“FIRECRAWL_API_KEY”])
target_url = “https://en.wikipedia.org/wiki/Python_(programming_language)”
result = firecrawl_app.scrape_url(target_url)
page_content = result.get(“markdown”, “”)
print(“抓取的內容長度:”, len(page_content))
我們通過使用存儲的 API 金鑰創建 FirecrawlApp 實例來初始化 Firecrawl。然後,它抓取指定網頁(在這個例子中是維基百科的 Python 程式語言頁面)的內容,並以 Markdown 格式提取數據。最後,它打印抓取內容的長度,讓我們在進一步處理之前驗證成功獲取。
from getpass import getpass
# 安全地輸入你的 Gemini API 金鑰
GEMINI_API_KEY = getpass(“輸入你的 Google Gemini API 金鑰: “)
genai.configure(api_key=GEMINI_API_KEY)
我們通過安全地捕獲 API 金鑰來初始化 Google Gemini API,使用 getpass() 防止其以明文顯示。genai.configure(api_key=GEMINI_API_KEY) 命令設置 API 客戶端,允許與 Google 的 Gemini AI 進行文本生成和摘要任務的無縫互動。這確保了在向 AI 模型發送請求之前的安全身份驗證。
print(model.name)
我們使用 genai.list_models() 遍歷 Google Gemini API 中可用的模型並打印它們的名稱。這幫助用戶確認哪些模型可以使用他們的 API 金鑰,並選擇適合文本生成或摘要任務的模型。如果找不到模型,這一步有助於調試和選擇替代方案。
response = model.generate_content(f”總結這個:\n\n{page_content[:4000]}”)
print(“摘要:\n”, response.text)
最後,我們使用 genai.GenerativeModel(“gemini-1.5-pro”) 初始化 Gemini 1.5 Pro 模型,並發送請求生成抓取內容的摘要。它將輸入文本限制為 4,000 個字符,以符合 API 限制。模型處理請求並返回簡潔的摘要,然後打印出來,提供提取的網頁內容的結構化和 AI 生成的概述。
總結來說,通過結合 Firecrawl 和 Google Gemini,我們創建了一個自動化的管道,能夠抓取網頁內容並生成有意義的摘要,幾乎不需要任何努力。這個教學展示了多種 AI 驅動的解決方案,根據 API 的可用性和配額限制提供靈活性。無論你是在進行自然語言處理應用、研究自動化還是內容聚合,這種方法都能實現高效的數據提取和摘要。
這是 Colab 筆記本的連結。另外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 80k+ ML SubReddit。
🚨 介紹 Parlant:一個以 LLM 為首的對話 AI 框架,旨在為開發者提供對 AI 客戶服務代理的控制和精確度,利用行為指導和運行時監督。🔧 🎛️ 它使用易於使用的 CLI 📟 和 Python 及 TypeScript 的原生客戶端 SDK 操作 📦。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!