使用 Firecrawl 進行網頁爬蟲的編碼實現及使用 Google Gemini 的 AI 驅動摘要

隨著網路內容的快速增長，如何有效地提取和總結相關資訊成為了一個挑戰。在這個教學中，我們將展示如何使用 Firecrawl 進行網頁爬蟲，並利用像 Google Gemini 這樣的 AI 模型處理提取的數據。通過在 Google Colab 中整合這些工具，我們創建了一個端到端的工作流程，能夠抓取網頁、檢索有意義的內容，並使用最先進的語言模型生成簡潔的摘要。無論你想自動化研究、從文章中提取見解，還是構建 AI 驅動的應用程式，這個教學都提供了一個強大且靈活的解決方案。

!pip install google-generativeai firecrawl-py

首先，我們安裝 google-generativeai 和 firecrawl-py，這兩個庫是這個教學所需的基本工具。google-generativeai 提供了訪問 Google 的 Gemini API 以進行 AI 驅動的文本生成，而 firecrawl-py 則通過以結構化格式從網頁抓取內容來實現網頁爬蟲。

import os
from getpass import getpass

# 輸入你的 API 金鑰（輸入時將隱藏）
os.environ[“FIRECRAWL_API_KEY”] = getpass(“輸入你的 Firecrawl API 金鑰: “)

接著，我們在 Google Colab 中安全地設置 Firecrawl API 金鑰作為環境變數。它使用 getpass() 提示用戶輸入 API 金鑰，並不顯示，確保了保密性。將金鑰存儲在 os.environ 中，允許在整個會話中無縫地進行 Firecrawl 的網頁爬蟲功能的身份驗證。

from firecrawl import FirecrawlApp

firecrawl_app = FirecrawlApp(api_key=os.environ[“FIRECRAWL_API_KEY”])

target_url = “https://en.wikipedia.org/wiki/Python_(programming_language)”
result = firecrawl_app.scrape_url(target_url)
page_content = result.get(“markdown”, “”)
print(“抓取的內容長度:”, len(page_content))

我們通過使用存儲的 API 金鑰創建 FirecrawlApp 實例來初始化 Firecrawl。然後，它抓取指定網頁（在這個例子中是維基百科的 Python 程式語言頁面）的內容，並以 Markdown 格式提取數據。最後，它打印抓取內容的長度，讓我們在進一步處理之前驗證成功獲取。

import google.generativeai as genai
from getpass import getpass

# 安全地輸入你的 Gemini API 金鑰
GEMINI_API_KEY = getpass(“輸入你的 Google Gemini API 金鑰: “)
genai.configure(api_key=GEMINI_API_KEY)

我們通過安全地捕獲 API 金鑰來初始化 Google Gemini API，使用 getpass() 防止其以明文顯示。genai.configure(api_key=GEMINI_API_KEY) 命令設置 API 客戶端，允許與 Google 的 Gemini AI 進行文本生成和摘要任務的無縫互動。這確保了在向 AI 模型發送請求之前的安全身份驗證。

for model in genai.list_models():
print(model.name)

我們使用 genai.list_models() 遍歷 Google Gemini API 中可用的模型並打印它們的名稱。這幫助用戶確認哪些模型可以使用他們的 API 金鑰，並選擇適合文本生成或摘要任務的模型。如果找不到模型，這一步有助於調試和選擇替代方案。

model = genai.GenerativeModel(“gemini-1.5-pro”)
response = model.generate_content(f”總結這個:\n\n{page_content[:4000]}”)
print(“摘要:\n”, response.text)

最後，我們使用 genai.GenerativeModel(“gemini-1.5-pro”) 初始化 Gemini 1.5 Pro 模型，並發送請求生成抓取內容的摘要。它將輸入文本限制為 4,000 個字符，以符合 API 限制。模型處理請求並返回簡潔的摘要，然後打印出來，提供提取的網頁內容的結構化和 AI 生成的概述。

總結來說，通過結合 Firecrawl 和 Google Gemini，我們創建了一個自動化的管道，能夠抓取網頁內容並生成有意義的摘要，幾乎不需要任何努力。這個教學展示了多種 AI 驅動的解決方案，根據 API 的可用性和配額限制提供靈活性。無論你是在進行自然語言處理應用、研究自動化還是內容聚合，這種方法都能實現高效的數據提取和摘要。

這是 Colab 筆記本的連結。另外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 80k+ ML SubReddit。

🚨 介紹 Parlant：一個以 LLM 為首的對話 AI 框架，旨在為開發者提供對 AI 客戶服務代理的控制和精確度，利用行為指導和運行時監督。🔧 🎛️ 它使用易於使用的 CLI 📟 和 Python 及 TypeScript 的原生客戶端 SDK 操作 📦。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！