文字分析揭示寫作量的生成方式
自然語言處理(Natural Language Processing)可以將語言轉換成有用的結構。由於深度學習的嵌入技術非常強大,因此這種技術已成為標準:選擇一個模型,嵌入你的數據,選擇一個指標,進行一些 RAG(檢索增強生成)。要增加新的價值,從不同的角度來分析語言會有所幫助。我今天要分享的這個想法,源於幾年前的一本書。
《蘭花小偷》(The Orchid Thief)是一本非虛構的書,充滿了惡作劇。我在二十多歲時第一次讀到它,跳過了大部分的歷史資料,只想看第一人稱的敘述。當時,我大笑不已,但也因為有人能如此深刻地生活並寫得如此好而感到憤怒。我不太確定這兩者是否真的是不同的事情。
一年後,我搬到了倫敦,開始新的生活。我進入了金融服務行業,這就像是為書呆子們準備的主題公園。在接下來的十年裡,我只會選擇需要大量寫作的工作。
大量是關鍵詞。
在現代專業服務的外表下,英國的工業仍然活躍於舊工廠和船廠。它雇用艾莉斯(Alice)來做某件事,然後交給鮑勃(Bob);他擰幾個螺絲,然後交給查理(Charlie)。一個月後,我們又重複這個過程。作為新來者,我注意到習慣不僅僅是一個陷阱,而是一個可以建立的土堆。
我也在大量閱讀。好吧,我在讀《紐約客》(The New Yorker)。我最喜歡的事情是翻開一本新的雜誌,從封底開始,讀安東尼·萊恩(Anthony Lane)寫的電影評論的開頭句子。多年來,我一次都沒有去看過電影。
偶爾,一些閃光的東西會讓我感到驚訝。在《紐約客》的作品和我那些非普利策(non-Pulitzer)作品之間,有一條微弱的聯繫。在這兩個作品集中,每一篇文章都與其兄弟姐妹不同,但又…不完全相同。相似之處在回響。我知道我工作的那些相似之處是通過重複的過程產生的。
2017年,我開始思考將感覺公式化的寫作與可以明確寫出公式的寫作之間的界限。
這個論點是這樣的:重複的量暗示了一種(通常是隱性的)算法決策過程。但程序性的重複會留下指紋。追蹤指紋可以揭示出這個過程;找出算法;然後軟體幾乎就能自動生成。
在我最後一份工作中,我不再是大量寫作。我的軟體在寫作。
公司理論上可以學習到足夠的內部流程以獲得巨大的收益,但很少有人去做。人們似乎更關心別人在做什麼。
例如,我的上司和後來的客戶一直希望他們的員工能模仿《經濟學人》(The Economist)的風格。但你怎麼能找到《經濟學人》是如何達到那種聲音的呢?
進入文字分析
讀一篇《經濟學人》的文章,感覺輕鬆而自信。讀很多篇後,它們聽起來有點相似。每週會出版一次完整的印刷雜誌。是的,我在押注過程。
為了好玩,讓我們對幾百篇《經濟學人》的文章應用可讀性函數(以教育年限計算)。我們也對幾百篇由一位沮喪的歐洲資產管理者發表的文章做同樣的事情。
然後,讓我們製作一個直方圖來看看這些可讀性分數是如何分佈的。
僅僅兩個函數,看看我們得到的見解!
注意這些曲線是多麼分開;這位資產管理者的風格與《經濟學人》不相似。我們可以深入探討造成這種差異的原因。(首先,通常是超長的句子。)
但同時,注意《經濟學人》對可讀性分數設置了嚴格的限制。這條曲線是不自然的,顯示出他們在編輯過程中應用了嚴格的可讀性檢查。
最後——許多我的客戶在這方面掙扎——《經濟學人》承諾寫得足夠簡單,讓普通高中生都能理解。
我原本預期這些圖表。我曾經在紙上草擬過它們。但當一個真實的圖表首次在我的螢幕上閃現時,就像語言本身在微笑。
現在,我並不是第一個發現這一點的人。1964年,統計學家弗雷德里克·莫斯特勒(Frederick Mosteller)和大衛·華萊士(David Wallace)登上了《時代》(Time)雜誌的封面,他們的法醫文學分析解決了一個長達140年的著作權爭議,關於一組著名的匿名文章的作者身份。
但法醫分析總是將單一項目與兩個文本集進行比較:一個是懷疑的作者創作的,另一個是虛無假設。比較分析只關心比較文本的集合。
建立文字分析引擎
讓我們回顧一下:給定一個文本集,我們對每個文本應用了相同的函數(可讀性函數)。這將文本集映射到一組數字。在這組數字上,我們應用了另一個函數(直方圖)。最後,我們對兩個不同的文本集進行了這個操作——並比較結果。
如果你仔細看,你會發現我剛剛描述的是 Excel。
看起來像一個表格的實際上是一個管道,依次處理列。首先沿著列,然後對結果進行函數處理,最後進行比較分析函數。
好吧,我想要的是 Excel,但用於文本。
不是字串——是文本。我想應用像計算動詞或第一段主題或第一個重要句子的函數。而且它必須足夠靈活,讓我可以提出任何問題;誰知道什麼會變得重要?
在2020年,這種解決方案並不存在,所以我自己建造了它。這個軟體可不是「幾乎自動生成」的!能夠提出任何問題需要一些好的架構決策,而我在修正問題之前錯誤了兩次。
最終,函數是根據它們對單一輸入文本所做的事情定義一次的。然後,你可以選擇管道步驟和它們作用的文本集。
這樣,我開始了一家寫作技術顧問公司,名為 FinText。我計劃在與客戶合作的同時進行建設,看看什麼能成功。
市場的反應
我想到的第一個商業用例是社交聆聽。市場研究和民調是大生意。當時正值疫情高峰,大家都待在家裡。我想,處理專門線上社區的活躍討論可能是一種新的獲取客戶想法的方式。
任何第一個軟體客戶都會感到特別,但這個客戶讓我興奮,因為我的創造實際上幫助了真實的人擺脫困境:
他們正在為一個大型活動做準備,計劃發布一份旗艦報告,裡面包含來自付費 YouGov 調查的數據。但結果卻平平無奇。因此,利用他們剩下的預算,他們購買了一份 FinText 的研究。我們的發現成為了他們最終報告的重點。
但社交聆聽並沒有起飛。投資行業是古怪的,因為資金池總是需要一個家;唯一的問題是誰是房東。我與行業人士交談時,他們大多想知道競爭對手在做什麼。
因此,第二個用例——競爭內容分析——得到了更熱烈的反應。我向大約半打公司銷售了這個解決方案(例如,Aviva Investors)。
在此期間,我們的引擎收集了其他人沒有的數據。如此聰明,甚至不是我想出的主意去舉辦培訓課程,最初是客戶要求的。這就是我了解到公司喜歡購買培訓的原因。
否則,我的蒸汽龐克風格的寫作方法證明很難銷售。這一切都太抽象。我需要的是一個儀表板:漂亮的圖表,帶有真實的數字,從實時數據中計算出來。一個管道進行計算,我雇了一個小團隊來製作漂亮的圖表。
在儀表板中,兩個圖表顯示了主題的細分,其他的則分析了寫作風格。關於這個選擇,我想說幾句話。
每個人都相信他們所說的事情是重要的。如果別人不在乎,那真的就是一種道德失敗,重視風格勝過實質。有點像壞品味只有別人才有。
科學家們已經計算了點擊次數,追蹤眼球,監控滾動,計時注意力。我們知道讀者決定某些東西是否「適合他們」只需一瞬間,他們是通過模糊地將新信息與他們已經喜歡的東西進行比較來做出決定的。風格是一種入場券。
儀表板顯示的內容
之前,我並沒有追蹤收集的數據,但現在我有了這些漂亮的圖表。它們顯示我既是對的,又是非常錯的。
最初,我只對幾家大型投資公司有直接了解,並懷疑他們競爭對手的流量看起來差不多。這證明是正確的。
但我也假設稍微小一點的公司會有稍微少一點的產出。這根本不是真的。
文字分析在公司已經具備寫作生產能力的情況下是有幫助的。否則,他們需要的是一個運作中的工廠。第一類公司太少,因為其他人都擠在第二類。
結語
作為一個產品,文字分析是一個複雜的結果。它賺了一些錢,可能還能賺更多,但不太可能成為一個成功的產品。
此外,我對《紐約客》的興趣也減少了。在某個時候,它過於公式化,魔力消失了。
隨著大型語言模型如 ChatGPT 的出現,文字現在進入了批發時代。早期,我考慮過應用管道來辨別文本是否由機器生成,但這樣做有什麼意義呢?
相反,在2023年末,我開始著手開發一種解決方案,幫助公司擴大為專業客戶寫作的能力。這是一個完全不同的冒險,仍在起步階段。
最終,我開始將文字分析視為一副額外的眼鏡。偶爾,它能讓模糊變得清晰。我把它放在口袋裡,以備不時之需。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!