星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

使用 Firecrawl 進行網頁爬蟲的編碼實現及使用 Google Gemini 的 AI 驅動摘要

2025-03-10
in AI 綜合新聞
0 0
0
使用 Firecrawl 進行網頁爬蟲的編碼實現及使用 Google Gemini 的 AI 驅動摘要
Share on FacebookShare on Twitter
Your Ad


隨著網路內容的快速增長,如何有效地提取和總結相關資訊成為了一個挑戰。在這個教學中,我們將展示如何使用 Firecrawl 進行網頁爬蟲,並利用像 Google Gemini 這樣的 AI 模型處理提取的數據。通過在 Google Colab 中整合這些工具,我們創建了一個端到端的工作流程,能夠抓取網頁、檢索有意義的內容,並使用最先進的語言模型生成簡潔的摘要。無論你想自動化研究、從文章中提取見解,還是構建 AI 驅動的應用程式,這個教學都提供了一個強大且靈活的解決方案。

!pip install google-generativeai firecrawl-py

首先,我們安裝 google-generativeai 和 firecrawl-py,這兩個庫是這個教學所需的基本工具。google-generativeai 提供了訪問 Google 的 Gemini API 以進行 AI 驅動的文本生成,而 firecrawl-py 則通過以結構化格式從網頁抓取內容來實現網頁爬蟲。

import os
from getpass import getpass

# 輸入你的 API 金鑰(輸入時將隱藏)
os.environ[“FIRECRAWL_API_KEY”] = getpass(“輸入你的 Firecrawl API 金鑰: “)

接著,我們在 Google Colab 中安全地設置 Firecrawl API 金鑰作為環境變數。它使用 getpass() 提示用戶輸入 API 金鑰,並不顯示,確保了保密性。將金鑰存儲在 os.environ 中,允許在整個會話中無縫地進行 Firecrawl 的網頁爬蟲功能的身份驗證。

from firecrawl import FirecrawlApp

firecrawl_app = FirecrawlApp(api_key=os.environ[“FIRECRAWL_API_KEY”])

target_url = “https://en.wikipedia.org/wiki/Python_(programming_language)”
result = firecrawl_app.scrape_url(target_url)
page_content = result.get(“markdown”, “”)
print(“抓取的內容長度:”, len(page_content))

我們通過使用存儲的 API 金鑰創建 FirecrawlApp 實例來初始化 Firecrawl。然後,它抓取指定網頁(在這個例子中是維基百科的 Python 程式語言頁面)的內容,並以 Markdown 格式提取數據。最後,它打印抓取內容的長度,讓我們在進一步處理之前驗證成功獲取。

import google.generativeai as genai
from getpass import getpass

# 安全地輸入你的 Gemini API 金鑰
GEMINI_API_KEY = getpass(“輸入你的 Google Gemini API 金鑰: “)
genai.configure(api_key=GEMINI_API_KEY)

我們通過安全地捕獲 API 金鑰來初始化 Google Gemini API,使用 getpass() 防止其以明文顯示。genai.configure(api_key=GEMINI_API_KEY) 命令設置 API 客戶端,允許與 Google 的 Gemini AI 進行文本生成和摘要任務的無縫互動。這確保了在向 AI 模型發送請求之前的安全身份驗證。

for model in genai.list_models():
print(model.name)

我們使用 genai.list_models() 遍歷 Google Gemini API 中可用的模型並打印它們的名稱。這幫助用戶確認哪些模型可以使用他們的 API 金鑰,並選擇適合文本生成或摘要任務的模型。如果找不到模型,這一步有助於調試和選擇替代方案。

model = genai.GenerativeModel(“gemini-1.5-pro”)
response = model.generate_content(f”總結這個:\n\n{page_content[:4000]}”)
print(“摘要:\n”, response.text)

最後,我們使用 genai.GenerativeModel(“gemini-1.5-pro”) 初始化 Gemini 1.5 Pro 模型,並發送請求生成抓取內容的摘要。它將輸入文本限制為 4,000 個字符,以符合 API 限制。模型處理請求並返回簡潔的摘要,然後打印出來,提供提取的網頁內容的結構化和 AI 生成的概述。

總結來說,通過結合 Firecrawl 和 Google Gemini,我們創建了一個自動化的管道,能夠抓取網頁內容並生成有意義的摘要,幾乎不需要任何努力。這個教學展示了多種 AI 驅動的解決方案,根據 API 的可用性和配額限制提供靈活性。無論你是在進行自然語言處理應用、研究自動化還是內容聚合,這種方法都能實現高效的數據提取和摘要。

這是 Colab 筆記本的連結。另外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 80k+ ML SubReddit。

🚨 介紹 Parlant:一個以 LLM 為首的對話 AI 框架,旨在為開發者提供對 AI 客戶服務代理的控制和精確度,利用行為指導和運行時監督。🔧 🎛️ 它使用易於使用的 CLI 📟 和 Python 及 TypeScript 的原生客戶端 SDK 操作 📦。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: Firecrawlgeminigoogle使用的進行網頁爬蟲的編碼實現及使用驅動摘要
Previous Post

這篇AI論文介紹了CODI:一個用於高效且可擴展的鏈式思考推理的自我蒸餾框架在大型語言模型中的應用

Next Post

人工智慧的倫理及其對你的影響

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
人工智慧的倫理及其對你的影響

人工智慧的倫理及其對你的影響

請教數據倫理學家:我們如何能夠倫理地評估人工智慧系統對人類的影響?

請教數據倫理學家:我們如何能夠倫理地評估人工智慧系統對人類的影響?

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。