像大多數人一樣,我們對 NotebookLM 生成播客的能力感到印象深刻:兩個虛擬人物進行討論。你可以給它一些連結,它會根據這些連結生成播客。這些播客既有趣又引人入勝,但也有一些限制。
NotebookLM 的問題在於,雖然你可以給它一個提示,但它基本上會按照自己的方式運行。它生成一個有兩個聲音的播客——一個男性聲音和一個女性聲音,並且你對結果的控制非常有限。雖然有一個可選的提示來自定義對話,但這個單一的提示並不能讓你做太多事情。具體來說,你不能告訴它討論哪些主題或以什麼順序討論。你可以嘗試,但它不會聽。它也不是對話式的,這讓人有些驚訝,因為我們現在都已經習慣與人工智慧聊天。你不能像使用 ChatGPT 或 Gemini 一樣告訴它“這很好,但請生成一個新的版本,改變這些細節”。
我們能做得更好嗎?我們能否將我們對書籍和技術的知識與人工智慧的總結能力結合起來?我們已經主張(並將繼續主張)僅僅學會如何使用人工智慧是不夠的;你需要學會如何用人工智慧做一些比人工智慧自己能做的更好的事情。你需要將人工智慧與人類智慧結合起來。為了看看這在實踐中會是什麼樣子,我們建立了自己的工具鏈,讓我們對結果有更多的控制。這是一個多階段的流程:
我們使用人工智慧為每一章書生成摘要,確保所有重要主題都被涵蓋。我們使用人工智慧將章節摘要組合成一個總結。這一步實際上給了我們一個擴展的大綱。我們使用人工智慧生成兩人對話,作為播客的腳本。我們手動編輯腳本,再次確保摘要涵蓋正確的主題和順序。這也是糾正錯誤和幻覺的機會。我們使用 Google 的語音轉文字多說話者 API(仍在預覽中)生成一個有兩位參與者的摘要播客。
為什麼我們專注於摘要?摘要對我們來說有幾個原因。首先,讓我們面對現實:讓兩個不存在的人討論你寫的東西是非常迷人的——特別是因為他們聽起來真的很感興趣和興奮。聽到不存在的虛擬人討論你的作品讓你感覺像生活在科幻幻想中。更實際的是:生成式人工智慧在總結方面無疑是很好的。錯誤很少,幾乎沒有明顯的幻覺。最後,我們的用戶想要摘要。在 O’Reilly Answers 上,我們的客戶經常要求摘要:總結這本書,總結這一章。他們想找到所需的信息。他們想知道是否真的需要閱讀這本書——如果需要,哪些部分。摘要幫助他們做到這一點,同時節省時間。它讓他們快速發現這本書是否會有幫助,並且比書背面的介紹或 Amazon 上的簡介更好。
考慮到這一點,我們必須思考對我們的會員來說,最有用的摘要應該是什麼。應該有一個講者還是兩個?當一個合成的聲音總結這本書時,我的眼睛(耳朵?)很快就會變得無聊。聽一個播客風格的摘要,虛擬參與者興奮而熱情,像 NotebookLM 上的那樣,遠比聽一場講座容易得多。即使是模擬的討論互動,也讓播客充滿了單一講者所沒有的活力。
摘要應該多長?這是一個重要的問題。在某個時刻,聽眾會失去興趣。我們可以將一本書的整個文本輸入語音合成模型,並獲得一個音頻版本——我們可能會這樣做;這是一些人想要的產品。但總的來說,我們預期摘要的長度是幾分鐘,而不是幾小時。我可能會聽10分鐘,也許30分鐘,如果這是一個我覺得迷人的主題或講者。但我在聽播客時特別不耐煩,而且我沒有通勤或其他空閒時間來聽。你的偏好和情況可能會非常不同。
聽眾對這些播客究竟有什麼期待?用戶期望學到東西,還是只想知道這本書是否有他們正在尋找的內容?這取決於主題。我看不出有人能從摘要中學會 Go 語言——也許更重要的是,我看不出流利的 Go 語言使用者能學會如何用人工智慧編程。摘要對於呈現書中提出的關鍵思想是有用的:例如,Cloud Native Go 的摘要很好地概述了 Go 如何用來解決編寫雲端運行軟體的人所面臨的問題。但真正學習這些材料需要查看示例、編寫代碼和實踐——這在僅限於音頻的媒介中是無法做到的。我聽過人工智慧讀出 Python 的源代碼清單;這是可怕且無用的。學習更有可能發生在像 Facilitating Software Architecture 這樣的書上,這本書更關注概念和思想,而不是代碼。有人可以從討論中獲得一些有用的想法,並可能付諸實踐。但再次強調,播客摘要僅僅是一個概述。要獲得所有的價值和細節,你需要閱讀這本書。在最近的一篇文章中,Ethan Mollick 寫道:“要求摘要並不等於自己閱讀。要求人工智慧為你解決問題並不是一種有效的學習方式,即使它感覺應該是這樣。要學習新東西,你必須自己閱讀和思考。”
NotebookLM 播客和我們的播客之間的另一個差異可能更重要。我們從工具鏈生成的播客長度大約是六分鐘。NotebookLM 生成的播客則在10到25分鐘之間。較長的長度可能使 NotebookLM 播客更詳細,但實際上並不是這樣。NotebookLM 通常將書籍作為更廣泛討論的起點,而不是討論書本本身。O’Reilly 生成的播客則更具針對性。它們遵循書籍的結構,因為我們提供了一個計劃,一個大綱,讓人工智慧遵循。虛擬播客主持人仍然表現出熱情,仍然引入其他來源的想法,但他們有一個方向。相比之下,NotebookLM 的較長播客可能顯得無目的,重複回到已經討論過的想法。對我來說,這至少是一個重要的觀點。當然,將書籍作為更廣泛討論的起點也是有用的,並且需要保持平衡。你不想讓它感覺像是在聽目錄。但你也不想讓它感覺無焦點。如果你想討論一本書,你應該得到一本書的討論。
這些人工智慧生成的播客都不是沒有限制的。人工智慧生成的摘要不擅長檢測和反映原始寫作中的細微差別。在 NotebookLM 中,這顯然不在我們的控制之下。使用我們自己的工具鏈,我們可以編輯腳本以反映我們想要的內容,但聲音本身不在我們的控制之下,並且不一定會遵循文本的引導。(可以說,在六分鐘的播客中反映一本250頁書的細微差別是一個失敗的提議。)偏見——一種隱含的細微差別——是一個更大的問題。我們對 NotebookLM 的第一次實驗往往是女性聲音提問,男性聲音回答,儘管這隨著時間的推移似乎有所改善。我們的工具鏈給了我們控制權,因為我們提供了腳本。我們不會聲稱我們是無偏見的——沒有人應該這樣聲稱——但至少我們控制了我們的虛擬人物如何表現自己。
我們的實驗已經結束;是時候向你展示我們創造的東西了。我們選取了五本書,使用 NotebookLM 和我們的工具鏈生成了簡短的播客摘要,並將這兩組內容發布在 oreilly.com 和我們的學習平台上。我們將在2025年添加更多書籍。聽聽它們——看看哪個對你有用。並請告訴我們你的想法!
新聞來源
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的
AI TAIWAN 台灣人工智慧中心
FB 社團,隨時掌握最新 AI 動態與實用資訊!