語意網是全球資訊網發展的下一個階段。在所謂的 Web 3.0 中,資訊不再只是被連結,而是網頁內容被豐富化並與機器可讀的語意元資料連結。其目的是透過讓機器能夠辨識並特定處理機器可讀的意義,來優化網路上的資訊交換,也就是語意內容。
語意網:術語歷史
「語意網」這個詞是用來定義全球資訊網語意發展的許多術語之一。除了語意網,還有以下術語用來討論全球語意連結的資訊網路:
Web 3.0:這個詞是由美國記者約翰·馬科夫 (John Markoff) 提出的,用來描述如何將機器可讀的意義添加到互動式的 Web 2.0 中。
GGG (巨型全球圖譜):這是全球資訊網的發明者提姆·伯納斯-李 (Tim Berners-Lee) 使用的術語,用來描述一個使用語意結構的全球資訊架構;GGG 在概念上與網路語意重疊。
連結開放資料:這個詞是在 2007 年提出的,強調元資料標準、查詢程序和網路語意資料作為語意網的基礎。
資料網:這是由 W3C (全球資訊網聯盟) 在 2013 年提出的定義,將資料的語法和語意互聯性結合在一起。
語意學是語言學的一個分支,描述字符和字符串的意義。語意網為網頁內容添加語意資訊,並賦予機器辨識意義的能力(根據上下文,一個字符,例如單詞,可以有多重意義,而不同的字符可以有相同的意義)。為此,使用各種標準和本體(資訊集)來制定機器可讀的語意元資料。
語意網站的背景
到目前為止,全球資訊網主要是針對資訊的語法。在這裡,電腦程式使用算法來分析數據索引、關鍵字和搜索查詢。根據查詢的獨特性,搜索引擎提供的搜索結果(SERP)可能會更合適或不合適。然而,對於用戶和公司來說,程式能夠盡可能有效地處理搜索和用戶意圖是很重要的。語意網不僅與搜索詞和語法對齊,還與意義價值相符。這樣,機器就能找到內容並理解和區分其意義。
例如,如果用戶搜索「巴拉克·奧巴馬 (Barack Obama) 的總統任期是什麼時候開始的?」,搜索引擎不會簡單地返回「2009 年 1 月 20 日」,而是會提供最合適的與巴拉克·奧巴馬相關的結果。在語意網中,機器不僅理解內容,還理解搜索查詢的意義,並提供準確的答案。此外,語意網中的意義分析不僅包括文本,還包括圖像、聲音、數字和符號—換句話說,所有承載意義的特徵。到目前為止,全球資訊網主要是針對資訊的語法。在這裡,電腦程式使用算法來分析數據索引、關鍵字和搜索查詢。根據查詢的獨特性,搜索引擎提供的搜索結果(SERP)可能會更合適或不合適。然而,對於用戶和公司來說,程式能夠盡可能有效地處理搜索和用戶意圖是很重要的。語意網不僅與搜索詞和語法對齊,還與意義價值相符。這樣,機器就能找到內容並理解和區分其意義。
語意網的基礎
如果我們要理解語意網作為全球資訊網的發展階段,也就是 Web 3.0,那麼它是基於 Web 1.0 和 Web 2.0。如果由全球資訊網的創始人提姆·伯納斯-李來決定,Web 1.0 除了基於資訊的位置和形式外,還應該基於意義。「經典」網路是基於 HTML、URL 和 HTTP 等標準,也就是標記語言、地址描述和結構化數據的傳輸協議。然而,大多數網頁內容仍然以非結構化的方式分佈在網路上。
HTML 文件很少定義其內容的意義以及它們與其他內容的區別。雖然使用了元資料,但其意義仍然有限。因此,電腦程式可以搜索內容地址,但無法識別它們所尋找的資訊的意義或它們與其他資訊的區別。額外的邏輯陳述幫助程式找到內容,但也能理解它們如果放在預先制定的語意上下文中。
什麼是實體和本體?
實體和本體是語意網的核心組成部分。「實體」是語意學中的一個術語—它由一個識別符和相關屬性組成。例如,「巴拉克·奧巴馬」就是一個實體中的識別符,而「美國總統」、「律師」、「民主黨人」等資訊則是屬性,也就是描述性特徵。實體之間可以相互關聯,並且主題上相關或不同。
如果實體彼此之間存在上下文關係,則稱為「本體」。本體是有序的資訊集和邏輯陳述,以人類或機器可讀的方式表述,並建立聯繫和顯示關係。
實體和本體對於語意網至關重要。程式使用它們來理解單詞、句子、圖像和字符之間的關係,智能地過濾多重意義和重複內容,解釋網頁內容,並主題上區分實體。這樣,就會創建一個豐富的知識網絡,不僅由非結構化資訊組成,還包括關鍵字和地址。未來,人工智慧將能夠表面上搜尋全球資訊網的累積知識,並以更具目標導向的方式理解和解釋它。
語意網如何運作?
要實現語意網,電腦程式必須學會提取意義。這只有在現有或新的全球資訊網內容包含以機器可讀的方式制定的結構化數據時才能實現。結構化數據是使用特定標準和分類進行制定的,並以模式標記和頁內標記的形式編碼在網站上。結構化數據使程式能夠清楚地區分,例如「銀行」作為金融機構與「銀行」指河岸的物體。反過來,統一的機器可讀語言需要 W3 聯盟制定的語意網標準。
其他統一語意網標準的做法包括上下文瀏覽語言 (CBL),它描述資訊之間的關係,以及網路本體語言 (OWL),它以層級方式組織和分類資訊。此外,以下標記和標準等有助於創建語意元陳述、標準和規則:
RDF/RDFa(資源描述網路屬性):用於詳細描述網站,以便對任意內容做出邏輯的語意陳述,並可以通過 RDFa 將 RDF 與 XML 整合。
URI(統一資源識別符):識別資訊單元並指向可用的連結開放資料 (LOD),即在 HTTP 文件中持續的數據。
RIF(規則交換格式):定義根據上下文創造意義的規則。
都柏林核心:一種嵌入數位文件中的元資料標準,用於機器可讀的解釋。
RDFS(資源描述框架方案):識別 RDF 詞彙並指定要使用的結構和語法。
SPARQL(SPARQL 協議和 RDF 查詢語言):作為查詢語言和協議,用於 RDF 系統中的內容,該系統由數據的邏輯描述和關係組成。
語意網及其對線上行銷的意義
語意網的優勢不容小覷。公司已經依賴它來適應商業世界的數位化。那些分析客戶和目標群體的購買和搜索行為的公司,可以提供個性化的資訊並產生更多流量。在線上行銷中,針對網頁內容的語意進行調整的廣告,可以更好地適應並連結到與公司服務和產品相符的關鍵字。
對於經過搜索引擎優化的網站來說,這不僅僅是關於好的關鍵字,而是關於結構化內容的語意資訊,並確保機器可讀的資訊架構。務必在網站中包含結構化數據,並使用語意標準使網頁內容盡可能有意義。這樣,你可以改善搜索引擎排名,並被你希望吸引的目標群體找到。
語意網的實際例子
語意網仍然處於起步階段,但已經邁出了實現的第一步。例如,語意網的可能性可以在 Google 的 Rank Brain 中看到,它可以主題性地分配先前未知的搜索查詢。Google 的圖像搜索已經能夠「識別」用戶在搜索什麼,並提供主題相似的圖像結果。同樣,Google 的知識圖譜功能能夠識別語意實體,並在搜索結果中顯示最重要的相關或連結資訊。同樣,Google 的豐富摘要和豐富卡片以資訊旋轉木馬和網站摘錄的形式準備結構化數據。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!