在遊戲理論中,玩家如何能夠結束遊戲,如果他們可能還有更好的選擇呢?也許有一位玩家仍然想改變他們的決定。但是如果他們這麼做,另一位玩家也可能想改變。那麼他們如何能夠逃出這個惡性循環呢?為了解決這個問題,納什均衡的概念是遊戲理論中非常重要的一部分,我將在這篇文章中解釋它。
這篇文章是關於遊戲理論的四章系列的第二部分。如果你還沒有查看第一章,我鼓勵你先去看看,以便熟悉遊戲理論的主要術語和概念。如果你已經看過了,那麼你就準備好繼續我們的遊戲理論之旅了。讓我們開始吧!
尋找解決方案
現在我們將嘗試為遊戲找到解決方案。在遊戲理論中,解決方案是一組行動,每位玩家都能最大化自己的效用,因此行為是理性的。這並不一定意味著每位玩家都贏得了遊戲,而是他們在不知道其他玩家會怎麼做的情況下,做出了最佳的選擇。讓我們考慮以下遊戲:

如果你不熟悉這種矩陣表示法,你可能想回去看看第一章,刷新一下記憶。你還記得這個矩陣給出了每位玩家在特定行動組合下的獎勵嗎?例如,如果玩家1選擇行動Y,玩家2選擇行動B,則玩家1將獲得1的獎勵,而玩家2將獲得3的獎勵。
那麼,玩家們現在應該選擇什麼行動呢?玩家1不知道玩家2會怎麼做,但他們仍然可以嘗試找出根據玩家2的選擇,哪個行動會是最佳的。如果我們比較行動Y和Z的效用(在下一個圖中用藍色和紅色框標示),我們會注意到一些有趣的事情:如果玩家2選擇行動A(矩陣的第一列),玩家1將獲得3的獎勵,如果他們選擇行動Y,而選擇行動Z則獲得2的獎勵,因此在這種情況下行動Y更好。但是如果玩家2選擇行動B(第二列)呢?在這種情況下,行動Y給予1的獎勵,而行動Z給予0的獎勵,因此Y再次比Z好。如果玩家2選擇行動C(第三列),Y仍然比Z好(獎勵2對1)。這意味著玩家1永遠不應該使用行動Z,因為行動Y總是更好。

我們比較了玩家1對於行動Y和Z的獎勵。
根據上述考慮,玩家2可以預測玩家1永遠不會使用行動Z,因此玩家2不必關心行動Z的獎勵。這使得遊戲變得更小,因為現在玩家1只剩下兩個選擇,這也幫助玩家2決定他們的行動。

我們發現,對於玩家1來說,Y總是比Z好,因此我們不再考慮Z。
如果我們看縮減後的遊戲,我們會看到,對於玩家2來說,選擇B總是比選擇A好。如果玩家1選擇X,行動B(獎勵2)比選擇A(獎勵1)好,對於玩家1選擇行動Y也是如此。請注意,如果行動Z仍然在遊戲中,情況就不會這樣。然而,我們已經看到玩家1無論如何都不會玩行動Z。

我們比較了玩家2對於行動A和B的獎勵。
因此,玩家2永遠不會使用行動A。現在如果玩家1預測到玩家2永遠不會使用行動A,遊戲再次變小,考慮的選擇也減少了。

我們看到,對於玩家2來說,行動B總是比行動A好,因此我們不再考慮A。
我們可以以類似的方式繼續,看到對於玩家1來說,X現在總是比Y好(2>1和4>2)。最後,如果玩家1選擇行動A,玩家2將選擇行動B,這比行動C更好(2>0)。最終,只有行動X(對於玩家1)和B(對於玩家2)剩下。這就是我們遊戲的解決方案:

最終,只剩下一個選擇,即玩家1使用X,玩家2使用B。
對於玩家1來說,選擇行動X是理性的,對於玩家2來說,選擇行動B也是如此。請注意,我們得出這個結論時並不知道另一位玩家會怎麼做。我們只是預測某些行動永遠不會被採取,因為它們總是比其他行動更差。這些行動被稱為嚴格支配行動。例如,行動Z被行動Y嚴格支配,因為Y總是比Z好。
最佳答案

這些嚴格支配的行動並不總是存在,但有一個類似的概念對我們來說是重要的,稱為最佳答案。假設我們知道另一位玩家選擇了哪個行動。在這種情況下,決定行動變得非常簡單:我們只需選擇獎勵最高的行動。如果玩家1知道玩家2選擇了選項A,那麼玩家1的最佳答案將是Y,因為Y在那一列中獲得的獎勵最高。你看到我們之前一直在尋找最佳答案嗎?對於另一位玩家的每一個可能行動,我們都在尋找最佳答案。如果更正式地說,玩家i對所有其他玩家的特定行動集的最佳答案是玩家1在考慮其他玩家行動的情況下最大化效用的行動。還要注意,嚴格支配的行動永遠不會是最佳答案。
讓我們回到第一章介紹的遊戲:囚徒困境。這裡的最佳答案是什麼呢?

如果玩家2選擇認罪或否認,玩家1應該如何決定呢?如果玩家2認罪,玩家1也應該認罪,因為獎勵-3比獎勵-6好。如果玩家2否認呢?在這種情況下,認罪再次更好,因為它將給予獎勵0,這比否認的獎勵-1好。這意味著對於玩家1來說,無論玩家2的行動是什麼,認罪都是最佳答案。玩家1根本不需要擔心另一位玩家的行動,而應該始終選擇認罪。由於遊戲的對稱性,玩家2也是如此。對他們來說,認罪也是最佳答案,無論玩家1怎麼做。
納什均衡

如果所有玩家都選擇他們的最佳答案,我們就達到了稱為納什均衡的遊戲解決方案。這是遊戲理論中的一個關鍵概念,因為它有一個重要的特性:在納什均衡中,沒有玩家有理由改變他們的行動,除非其他玩家也這麼做。這意味著所有玩家在這種情況下都感到滿意,即使他們可以,也不會改變。考慮一下上面的囚徒困境:當兩人都認罪時達到納什均衡。在這種情況下,沒有玩家會在沒有其他玩家改變的情況下改變自己的行動。他們可以變得更好,如果兩人都改變行動並選擇否認,但由於他們無法溝通,他們不會期待另一位玩家的改變,因此他們自己也不會改變。
你可能會想知道,每個遊戲是否總是只有一個納什均衡。讓我告訴你,也可以有多個納什均衡,就像我們在第一章中已經了解的巴赫與斯特拉文斯基遊戲:

這個遊戲有兩個納什均衡:(巴赫,巴赫)和(斯特拉文斯基,斯特拉文斯基)。在這兩種情況下,你可以輕易想像,沒有任何玩家會單獨改變他們的行動。如果你和朋友坐在巴赫的音樂會上,你不會單獨離開座位去斯特拉文斯基的音樂會,即使你更喜歡斯特拉文斯基而不是巴赫。同樣,巴赫的粉絲也不會離開斯特拉文斯基的音樂會,因為這樣會讓他的朋友孤單。然而,在剩下的兩種情況下,你會有不同的想法:如果你獨自在斯特拉文斯基的音樂會上,你會想要離開那裡,去和你的朋友一起參加巴赫的音樂會。也就是說,即使另一位玩家不改變,他們也會改變自己的行動。這告訴你,你所處的情境不是納什均衡。
然而,也有一些遊戲根本沒有納什均衡。想像一下,你是一名足球守門員,面對點球。為了簡化,我們假設你可以向左或向右跳。對方的足球運動員也可以向左或右角射門,我們假設如果你選擇與他們相同的角度,你就能接住球,而如果你選擇相反的角度,你就接不住球。我們可以這樣顯示這個遊戲:

在這裡你找不到任何納什均衡。每種情況都有明確的贏家(獎勵1)和明確的輸家(獎勵-1),因此其中一位玩家總是想要改變。如果你向右跳並接住球,你的對手會想要改變到左角。但是你又會想改變你的決定,這會使你的對手再次選擇另一個角,依此類推。
總結

這一章展示了如何通過使用納什均衡的概念來找到遊戲的解決方案。讓我們總結一下我們到目前為止學到的:
- 在遊戲理論中,遊戲的解決方案最大化每位玩家的效用或獎勵。
- 如果有另一個行動總是更好,那麼這個行動被稱為嚴格支配行動。在這種情況下,玩這個嚴格支配的行動是非理性的。
- 在考慮其他玩家的行動時,產生的最高獎勵的行動被稱為最佳答案。
- 納什均衡是一種狀態,在這種狀態下每位玩家都選擇他們的最佳答案。
- 在納什均衡中,沒有玩家想要改變他們的行動,除非其他玩家也這麼做。從這個意義上說,納什均衡是最佳狀態。
- 有些遊戲有多個納什均衡,而有些遊戲則沒有。
如果你對某些遊戲中沒有納什均衡的事實感到難過,不要絕望!在下一章中,我們將介紹行動的概率,這將使我們能夠找到更多的均衡。敬請期待!
參考資料
這裡介紹的主題通常在標準的遊戲理論教科書中涵蓋。我主要使用這本雖然是德文的書:
- Bartholomae, F., & Wiens, M. (2016). Spieltheorie. Ein anwendungsorientiertes Lehrbuch. Wiesbaden: Springer Fachmedien Wiesbaden.
另一個英文的選擇可以是這本:
- Espinola-Arredondo, A., & Muñoz-Garcia, F. (2023). Game Theory: An Introduction with Step-by-step Examples. Springer Nature.
遊戲理論是一個相對年輕的研究領域,第一本主要的教科書是這本:
- Von Neumann, J., & Morgenstern, O. (1944). Theory of games and economic behavior.
喜歡這篇文章嗎?請關注我,以便獲得我未來文章的通知。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!