「你不需要成為專家就能欺騙別人,但你可能需要一些專業知識來可靠地識別何時被欺騙。」
當我的共同講師和我開始在華盛頓大學教授的數據視覺化課程中進行有關欺騙性視覺化的季度課程時,他強調了上述觀點。隨著現代科技的發展,製作漂亮且令人信服的數據聲明變得比以往任何時候都容易。任何人都可以製作出看似合理的內容,但其中可能存在使其不準確甚至有害的疏漏。此外,還有一些惡意行為者,他們積極想要欺騙你,並研究了一些最佳方法來做到這一點。
我經常以一個小玩笑開始這堂課,認真地看著我的學生,問兩個問題:
「如果有人在對你進行心理操控,這是一件好事嗎?」
在學生們普遍困惑的低語聲中,隨後達成共識認為心理操控確實不好後,我問第二個問題:「確保沒有人能對你進行心理操控的最佳方法是什麼?」
學生們通常會思考這個問題更久一點,然後笑著意識到答案:就是學習人們是如何進行心理操控的。這不是為了利用別人,而是為了防止別人利用你。
在錯誤資訊和假資訊的領域也是如此。那些想要用數據誤導他人的人擁有一系列工具,從高速互聯網到社交媒體,最近還有生成式人工智慧和大型語言模型。要保護自己不被誤導,你需要學會他們的把戲。
在這篇文章中,我從我的數據視覺化課程中有關欺騙的單元中提取了關鍵思想——這些思想來自阿爾貝托·卡伊羅 (Alberto Cairo) 的優秀著作《圖表如何說謊》(How Charts Lie)——並將它們擴展為一些關於欺騙和數據的一般原則。我的希望是你能閱讀它,內化它,並帶著它來武裝自己,抵禦那些惡意人士利用數據散播的謊言。
人類無法解讀面積
至少,沒有我們解讀其他視覺提示那麼好。讓我們用一個例子來說明這一點。假設我們有一組非常簡單的數字數據;它是一維的,只包含兩個值:50和100。一種視覺表示這些數據的方法是通過條形的長度,如下所示:
這與基礎數據是正確的。長度是一維量,我們將其加倍以表示值的加倍。但是,如果我們想用圓形來表示相同的數據會發生什麼呢?嗯,圓形並不真正由長度或寬度來定義。一個選擇是將半徑加倍:

嗯。第一個圓的半徑是100像素,第二個圓的半徑是50像素——所以如果我們想加倍半徑,這在技術上是正確的。然而,由於面積的計算方式(πr²),我們的面積實際上已經超過了加倍。所以如果我們試著這樣做,因為這似乎在視覺上更準確呢?這是一個修訂版本:

現在我們有了一個不同的問題。較大的圓的面積在數學上是較小圓的兩倍,但它看起來不再是這樣。換句話說,即使這是一個在視覺上準確的加倍數量比較,人眼也很難正確感知。
這裡的問題在於試圖使用面積作為視覺標記。這不一定是錯的,但它令人困惑。我們在增加一個一維的值,但面積是一個二維的量。對於人眼來說,準確解讀總是會很困難,尤其是與像條形這樣更自然的視覺表示相比時。
現在,這可能看起來不是一個大問題——但讓我們看看當你將其擴展到實際數據集時會發生什麼。下面,我貼了兩張我在Altair(一個基於Python的視覺化包)中製作的圖表。每個圖表顯示了2012年第一週在美國西雅圖的最高氣溫(攝氏度)。第一個使用條形長度來進行比較,第二個使用圓形面積。


哪一個更容易看到差異?第二個圖的圖例有幫助,但如果我們誠實地說,這是個失敗的案例。在這樣有限的數據環境中,使用條形進行精確比較要容易得多。
請記住,視覺化的目的是澄清數據——讓隱藏的趨勢對普通人來說更容易看見。為了實現這個目標,最好使用簡化區分過程的視覺提示。
小心政治標題(任何方向)
在課程的第四週,我有時會在作業中問我的學生一個小的技巧問題。這個作業主要涉及在Python中生成視覺化——但在最後一個問題中,我給他們一個我自己生成的圖表,並附上一個問題:

問題:上面的圖表有一個明顯錯誤,這是數據視覺化中不可原諒的錯誤。這是什麼?
大多數人認為這與坐標軸、標記或其他視覺方面有關,經常建議像填充圓形或使坐標軸標籤更具信息性等改進。這些都是不錯的建議,但不是最迫切的。
上面圖表中最明顯的缺陷(或缺失)是缺少標題。標題對於有效的數據視覺化至關重要。沒有它,我們怎麼知道這個視覺化到底是什麼?目前,我們只能推測它大概與某段時間內的二氧化碳水平有關。這並不多。
許多人認為這個要求過於嚴格,辯稱視覺化通常應該在上下文中理解,作為更大文章或新聞稿或其他伴隨文本的一部分。不幸的是,這種思維方式過於理想化;實際上,視覺化必須獨立存在,因為它往往是人們唯一會查看的東西——在社交媒體爆炸的情況下,甚至是唯一會被廣泛分享的東西。因此,它應該有一個標題來解釋自己。
當然,這一小節的標題告訴你要小心這樣的標題。這是真的。雖然它們是必要的,但它們也是一把雙刃劍。由於視覺化設計者知道觀眾會注意標題,心懷不軌的人也可以利用它來引導人們朝不準確的方向。讓我們看一個例子:
上面是2017年白宮公共推特帳戶分享的一張圖片。這張圖片也被阿爾貝托·卡伊羅 (Alberto Cairo) 在他的書中引用,強調了我現在將要提出的許多觀點。
首先,詞語「鏈式移民」(chain migration)是指正式稱為家庭移民的情況(即移民可以贊助家庭成員來美國),這一詞語受到許多批評,認為它不必要地激進,並使合法移民聽起來毫無理由地威脅。
當然,政治本質上是分裂的,任何一方都可以提出激烈的論點。這裡的主要問題實際上是一個與數據相關的問題——具體來說,在推文中共享的圖表中使用「鏈」這個詞所暗示的含義。「鏈式移民」似乎暗示人們可以一個接一個地移民,形成一個看似無窮無盡的流動,不受家庭關係距離的影響。然而,現實是,單個移民通常只能贊助直系家庭成員,即使這也需要相當長的時間。但是,當人們讀到「鏈式移民」這個詞,然後立即看到一個看似合理的圖表時,很容易相信一個人實際上可以以基數三的指數增長率產生額外的移民。
這就是任何政治標題的問題——它使得用實際的數據處理、分析和視覺化來掩蓋不誠實、不準確的運作變得過於容易。
上面的圖表沒有任何數據作為基礎。沒有。零。它完全是隨機的,這對於一個故意看起來像是顯示有意義和定量內容的圖表來說是不可接受的。
作為一個有趣的小話題,這裡有一個鏈接到FloorCharts,一個在推特上發布美國國會大廳中最荒謬圖形的帳戶,突顯了政治標題在數據中的危險。
不要使用3D圖表。請。
我將在一個稍微輕鬆的話題上結束這篇文章——但仍然是一個重要的話題。在任何情況下——絕對不——你都不應該使用3D圖表。如果你是觀眾——也就是說,如果你在看別人製作的3D圓餅圖——不要相信它。
這個原因很簡單,並且與我之前討論的圓形和矩形有關:第三維度會嚴重扭曲通常是一維度量的實際情況。面積已經難以解讀——你真的認為人眼對體積的理解會更好嗎?
這是一個我用隨機數字生成的3D圓餅圖:

現在,這是完全相同的圓餅圖,但在二維中:

注意藍色的面積並不像3D版本所暗示的那樣佔主導地位,而紅色和橙色的大小也比原本所描繪的更接近。我還故意去掉了百分比標籤(技術上這是壞習慣),以強調即使在第一個圖中有標籤的情況下,我們的眼睛自動會更關注那些視覺差異更大的部分。如果你以分析的眼光閱讀這篇文章,也許你會認為這並沒有太大區別。但事實是,你經常會在新聞或社交媒體上看到這樣的圖表,而它們只會得到快速的瞥見。
確保那個快速瞥見所講述的故事是真實的,這是很重要的。
最後的想法
數據科學常被稱讚為統計學、計算和社會的完美結合,是獲取和分享有關信息密集型世界的深刻和有意義見解的一種方式。這是正確的——但隨著分享這些見解的能力擴大,我們的解讀能力也必須提高。我希望在這種情況下,你能發現這篇入門文章是有幫助的。
敬請期待第二部分,在那裡我將談論一些更複雜的欺騙技術——包括基數比例、(不)可信的統計測量和相關性測量。
在此期間,儘量不要被欺騙。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!