“網路是一堆資料,但卻很混亂,”Exa的共同創辦人兼執行長Will Bryk說。“這裡有一段Joe Rogan的影片,那裡有一篇《大西洋月刊》的文章。沒有組織。但我們的夢想是讓網路感覺像是一個資料庫。”
Websets的目標是針對那些需要尋找其他搜尋引擎不擅長找到的東西的高級使用者,例如各種人或公司。當你詢問“製造未來硬體的創業公司”時,你會得到一個具體的公司列表,長達數百個,而不是隨便連結到提到這些詞的網頁。Bryk表示,Google無法做到這一點:“對於投資者、招聘者或任何想要從網路獲取資料的人來說,這有很多有價值的應用。”
自從《麻省理工科技評論》在2021年報導Google研究人員探索使用大型語言模型來開發新型搜尋引擎以來,事情發展得很快。這個想法很快吸引了激烈的批評者,但科技公司卻沒有太在意。三年後,像Google和Microsoft這樣的巨頭與Perplexity和OpenAI等新興公司競爭,這些公司在十月推出了ChatGPT Search,爭奪這個熱門新趨勢的份額。
Exa目前並不打算超越這些公司。相反,它提出了一個新的想法。大多數其他搜尋公司將大型語言模型包裹在現有的搜尋引擎上,利用這些模型來分析用戶的查詢,然後總結結果。但搜尋引擎本身並沒有太大改變。例如,Perplexity仍然將查詢導向Google搜尋或Bing。可以把今天的AI搜尋引擎想像成一個有新鮮麵包但餡料過期的三明治。
不只是關鍵字
Exa為用戶提供熟悉的連結列表,但利用大型語言模型背後的技術來重新定義搜尋的方式。基本的想法是:Google透過爬網來建立一個龐大的關鍵字索引,然後將這些關鍵字與用戶的查詢匹配。Exa則是爬網並將網頁內容編碼成一種稱為嵌入(embeddings)的格式,這可以被大型語言模型處理。
嵌入將單詞轉換為數字,讓意思相似的單詞變成數值相近的數字。這樣一來,Exa就能捕捉到網頁文本的意義,而不僅僅是關鍵字。
大型語言模型使用嵌入來預測句子中的下一個單詞。Exa的搜尋引擎則預測下一個連結。當你輸入“製造未來硬體的創業公司”時,模型會提供可能跟隨該短語的(真實)連結。
然而,Exa的這種方法是有成本的。編碼網頁而不是索引關鍵字的過程既慢又昂貴。Bryk表示,Exa已經編碼了數十億個網頁。這與Google的約一兆個網頁相比,數量微不足道。但Bryk並不認為這是個問題:“你不需要編碼整個網路才能有用,”他說。(有趣的事實:“exa”代表一個後面跟著18個0的數字,而“googol”代表一個後面跟著100個0的數字。)
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!