當你無法決定單一行動時

在遊戲理論中，玩家通常需要對其他玩家的行動做出假設。對方會做什麼呢？他會出石頭、剪刀還是布？你永遠無法確定，但在某些情況下，你可能會猜測某些行動的機率比其他行動高。加入這種機率或隨機性的概念，為遊戲理論開啟了一個新章節，讓我們能分析更複雜的情境。

這篇文章是四章系列中第三章，介紹遊戲理論的基本概念。如果你還沒有查看前兩章，我鼓勵你先去看看，以便熟悉接下來使用的基本術語和概念。如果你覺得準備好了，那麼我們就開始吧！

混合策略

據我所知，足球的重點是進球，雖然這種情況發生得很少。照片來源：Zainu Color於Unsplash

到目前為止，我們一直考慮每位玩家選擇一個行動的遊戲。現在我們將擴展遊戲，允許每位玩家以給定的機率選擇不同的行動，這稱為混合策略。如果你玩石頭剪刀布，你不知道對手會選擇什麼行動，但你可能會猜測他們每個行動的機率是33%。如果你玩99局石頭剪刀布，你可能會發現對手大約選擇每個行動33次。通過這個例子，你可以直接看到為什麼我們想要引入機率的主要原因。首先，它讓我們能描述多次進行的遊戲，其次，它使我們能考慮玩家行動的（假設）可能性。

讓我更詳細地說明後一點。我們回到第二章看到的足球比賽，守門員決定跳向哪個角落，而另一位玩家決定瞄準哪個角落。

如果你是守門員，當你選擇與對手相同的角落時，你會贏（獎勵為1），而如果你選擇了另一個角落，你會輸（獎勵為-1）。對於你的對手來說，情況正好相反：如果你選擇不同的角落，他們就會贏。這個遊戲只有在守門員和對手隨機選擇角落的情況下才有意義。更準確地說，如果一位玩家知道另一位玩家總是選擇同一個角落，他們就知道該怎麼做才能贏。因此，這個遊戲成功的關鍵是通過某種隨機機制來選擇角落。現在的主要問題是，守門員和對手應該給兩個角落分配什麼機率？選擇正確角落的機率是80%會是一個好策略嗎？可能不是。

要找到最佳策略，我們需要找到納什均衡，因為那是沒有玩家可以通過改變行為來獲得更好結果的狀態。在混合策略的情況下，這樣的納什均衡由行動的機率分佈描述，沒有玩家想要增加或減少任何機率。換句話說，這是最佳的（因為如果不是最佳的，某個玩家會想要改變）。如果我們考慮預期獎勵，我們可以找到這個最佳的機率分佈。正如你可能猜到的，預期獎勵是由玩家獲得的獎勵（也稱為效用）乘以該獎勵的可能性（如上面的矩陣所示）。假設射手以機率p選擇左角，並以機率1-p選擇右角。守門員可以預期獲得什麼獎勵呢？如果他們選擇左角，他們可以預期獲得p*1 + (1-p)*(-1)的獎勵。你能看出這是如何從遊戲矩陣中推導出來的嗎？如果守門員選擇左角，射手選擇相同角落的機率是p，這對守門員有利（獎勵為1）。但以(1-p)的機率，射手選擇另一個角落，守門員輸（獎勵為-1）。同樣地，如果守門員選擇右角，他可以預期獲得(1-p)*1 + p*(-1)的獎勵。因此，如果守門員以機率q選擇左角，並以機率(1-q)選擇右角，守門員的總預期獎勵是q乘以左角的預期獎勵加上(1-q)乘以右角的獎勵。

現在讓我們從射手的角度來看。他希望守門員在角落之間猶豫不決。換句話說，他希望守門員在任何一個角落都看不到優勢，因此隨機選擇。數學上這意味著兩個角落的預期獎勵應該相等，即：

這可以解決為p=0.5。因此，射手保持守門員猶豫不決的最佳策略是以機率p=0.5選擇右角，並且以相等的機率p=0.5選擇左角。

但現在想像一下，一位射手以選擇右角而聞名。你可能不會預期每個角落的機率是50/50，但你假設他會以70%的機率選擇右角。如果守門員仍然保持50/50的選擇角落，他們的預期獎勵是0.5乘以左角的預期獎勵加上0.5乘以右角的預期獎勵：

這聽起來不錯，但還有更好的選擇。如果守門員總是選擇右角（即q=1），他們會獲得0.4的獎勵，這比0要好。在這種情況下，守門員的最佳答案是偏向射手喜歡的角落。然而，這會降低射手的獎勵。如果守門員總是選擇右角，射手會以70%的機率獲得-1的獎勵（因為射手自己以70%的機率選擇右角），在剩下的30%的情況下獲得1的獎勵，這樣的預期獎勵為0.7*(-1) + 0.3*1 = -0.4。這比他們選擇50/50時獲得的0的獎勵要差。你還記得納什均衡是指沒有玩家有理由改變行動的狀態嗎？這種情況不是納什均衡，因為射手有動機將他的行動改變得更接近50/50，即使守門員不改變他的策略。然而，這50/50的分配是納什均衡，因為在這種情況下，射手和守門員都不會因為改變選擇某一個角落的機率而獲得任何好處。

打鬥的鳥

食物可能是鳥類互相打鬥的原因。照片來源：Viktor Keri於Unsplash

從之前的例子中我們看到，玩家對其他玩家行動的假設也會影響第一位玩家的行動選擇。如果一位玩家想要理性行為（這是我們在遊戲理論中總是期望的），他們會選擇行動，以最大化他們在其他玩家混合行動策略下的預期獎勵。在足球場景中，如果你假設對手會更常選擇某個角落，那麼更頻繁地跳向那個角落就很簡單，因此讓我們繼續一個更複雜的例子，帶我們走出自然。

當我們走過森林時，我們注意到野生動物的一些有趣行為。假設兩隻鳥來到一個有食物的地方。如果你是一隻鳥，你會怎麼做？你會和另一隻鳥分享食物，這意味著你們兩個的食物都會減少嗎？還是你會選擇打鬥？如果你威脅對手，他們可能會讓步，然後你就可以獨自擁有所有食物。但如果另一隻鳥和你一樣具有攻擊性，你們就會真正打鬥，互相傷害。那麼你可能會更希望一開始就讓步，然後不打鬥就離開。正如你所見，你的行動結果取決於另一隻鳥。準備打鬥可能是非常有利的，如果對手讓步，但如果另一隻鳥也願意打鬥，那麼這會非常昂貴。在矩陣表示法中，這個遊戲看起來是這樣的：

問題是，對於一組打鬥或讓步的鳥來說，什麼是理性的行為？如果你身處一個非常危險的環境，許多鳥都以攻擊性打鬥者著稱，你可能會更願意讓步以避免受傷。但如果你假設大多數其他鳥都是懦夫，你可能會看到準備打鬥的潛在好處，讓其他鳥害怕。通過計算預期獎勵，我們可以找出打鬥和讓步的鳥的確切比例，形成一個均衡。假設打鬥的機率用p表示，對於鳥1，讓步的機率就是1-p，對於鳥2，打鬥的機率用q表示，讓步的機率就是1-q。在納什均衡中，沒有玩家想要改變他們的策略，除非其他玩家改變。正式來說，這意味著兩個選擇需要產生相同的預期獎勵。因此，對於鳥2來說，以機率q打鬥需要和以機率(1-q)讓步一樣好。這導致我們可以解決的以下公式：

對於鳥2來說，以機率1/3打鬥和以機率2/3讓步是最佳的，對於鳥1來說也是如此，因為遊戲的對稱性。在一個大型鳥類群體中，這意味著三分之一的鳥是打鬥者，通常尋求打鬥，而其餘的三分之二則更喜歡讓步。由於這是一個均衡，這些比例將隨著時間保持穩定。如果發生更多的鳥變成懦夫，總是讓步，打鬥將變得更有利，因為獲勝的機會增加。然而，這樣會導致更多的鳥選擇打鬥，懦夫鳥的數量減少，穩定的均衡再次達成。

報案

這裡沒有什麼可看的。繼續前進，了解更多關於遊戲理論的知識。照片來源：JOSHUA COLEMAN於Unsplash

現在我們已經理解了如何通過比較不同選擇的預期獎勵來找到最佳的納什均衡，我們將在一個更複雜的例子中使用這一策略，釋放遊戲理論分析在現實複雜情境中的力量。

假設在市中心發生了一起犯罪事件，並且有多位目擊者。問題是，現在誰來報警呢？由於周圍有很多人，每個人可能都期望其他人會報警，因此他們自己不會這樣做。我們可以再次將這種情況建模為一個遊戲。假設我們有n個玩家，每個人都有兩個選擇，即報警或不報警。那麼獎勵是什麼呢？對於獎勵，我們區分三種情況。如果沒有人報警，獎勵為零，因為犯罪沒有被報告。如果你報警，你會有一些成本（例如你需要花時間等待並告訴警察發生了什麼），但犯罪會被報告，有助於保持你的城市安全。如果其他人報告了犯罪，城市仍然會保持安全，但你自己沒有報警的成本。正式來說，我們可以這樣寫：

v是保持城市安全的獎勵，無論是其他人報警（第一行）還是你自己報警（第二行）時，你都能獲得這個獎勵。然而，在第二種情況下，你的獎勵會因為你必須承擔的成本c而稍微減少。然而，假設c小於v，這意味著報警的成本永遠不會超過保持城市安全的獎勵。在最後一種情況下，當沒有人報警時，你的獎勵為零。

這個遊戲看起來和我們之前的遊戲有些不同，主要是因為我們沒有將其顯示為矩陣。事實上，它更複雜。我們沒有指定玩家的確切數量（我們只是稱其為n），而且我們也沒有明確地指定獎勵，而只是引入了一些值v和c。然而，這幫助我們將一個相當複雜的現實情況建模為一個遊戲，並將使我們能夠回答更有趣的問題：首先，如果更多人目擊了犯罪，會發生什麼？是否會更有可能有人報告犯罪？其次，成本c如何影響犯罪被報告的可能性？我們可以用我們已經學到的遊戲理論概念來回答這些問題。

與之前的例子一樣，我們將使用納什均衡的特性，即在最佳狀態下，沒有人應該想要改變他們的行動。這意味著，對於每個個體來說，報警應該和不報警一樣好，這導致我們以下的公式：

左邊是你自己報警的獎勵(v-c)。這應該和其他人報警的獎勵v乘以其他人報警的可能性一樣好。現在，任何其他人報警的機率等於1減去沒有人報警的機率。如果我們用p表示個體報警的機率，則單個個體不報警的機率是1-p。因此，兩個個體都不報警的機率是單個機率的乘積(1-p)*(1-p)。對於n-1個個體（除了你以外的所有個體），這給了我們最後一行的項(1-p)的n-1次方。我們可以解決這個方程，最終得到：

這最後一行給了你單個個體報警的機率。如果有更多目擊者犯罪，會發生什麼？如果n變大，指數變小（1/n趨近於0），最終導致：

由於x的0次方總是1，p變為零。換句話說，周圍目擊者越多（n越高），你報警的可能性就越小，對於無限多的其他目擊者，這個機率降到零。這聽起來合理。周圍的人越多，你越有可能期望其他人會報警，並且你會認為自己的責任越小。自然地，所有其他個體也會有同樣的想法。但這聽起來也有點悲劇，不是嗎？這是否意味著如果有很多目擊者，沒有人會報警？

嗯，不一定。我們剛剛看到，單個人報警的機率隨著n的增加而下降，但周圍仍然有更多的人。也許周圍的人數抵消了這種下降的機率。100個人每個人報警的機率都很小，可能仍然比幾個人有中等的個體機率更有價值。現在讓我們看看任何人報警的機率。

任何人報警的機率等於1減去沒有人報警的機率。就像之前的例子一樣，沒有人報警的機率由1-p的n次方描述。我們然後使用之前推導的方程（見上面的公式）將(1-p)^(n-1)替換為c/v。

當我們查看計算的最後一行時，現在對於大的n會發生什麼？我們已經知道p降到零，留下的機率是1-c/v。這是如果周圍有很多人，任何人報警的可能性（注意這與單個個體報警的機率不同）。我們看到，這種可能性在很大程度上取決於c和v的比率。c越小，任何人報警的可能性就越大。如果c接近於零，幾乎可以肯定會報警，但如果c幾乎和v一樣大（即報警的成本吃掉了報告犯罪的獎勵），那麼任何人報警的可能性就變得不太可能。這為影響報告犯罪的機率提供了一個槓桿。報警和報告犯罪應該儘可能簡單和低門檻。

總結

今天我們學到了很多關於機率和隨機選擇行動的知識。照片來源：Robert Stump於Unsplash

在這一章中，我們在遊戲理論的領域中介紹了所謂的混合策略，這使我們能夠通過不同行動的機率來描述遊戲。我們可以總結出以下關鍵發現：

混合策略由不同行動的機率分佈描述。

在納什均衡中，玩家可以採取的所有行動的預期獎勵必須相等。

在混合策略中，納什均衡意味著沒有玩家想要改變他們的行動機率。

我們可以通過將兩個（或更多）選擇的預期獎勵設置為相等來找出納什均衡中不同行動的機率。

遊戲理論概念使我們能夠分析具有無限玩家的情境。這些分析還可以告訴我們獎勵的具體設計如何影響納什均衡中的機率。這可以用來啟發現實世界中的決策，正如我們在報案示例中所看到的。

我們的遊戲理論基本概念系列快要結束了。在下一章也是最後一章中，我們將介紹在遊戲中輪流的想法。敬請期待！

參考文獻

這裡介紹的主題通常在遊戲理論的標準教科書中涵蓋。我主要使用了這本雖然是德文的書：

Bartholomae, F., & Wiens, M. (2016). Spieltheorie. Ein anwendungsorientiertes Lehrbuch. Wiesbaden: Springer Fachmedien Wiesbaden.

英文的替代書籍可以是這本：

Espinola-Arredondo, A., & Muñoz-Garcia, F. (2023). Game Theory: An Introduction with Step-by-step Examples. Springer Nature.

遊戲理論是一個相對年輕的研究領域，第一本主要的教科書是這本：

Von Neumann, J., & Morgenstern, O. (1944). Theory of games and economic behavior.

喜歡這篇文章嗎？請關注我，以便獲得我未來文章的通知。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

當你無法決定單一行動時

受絲啟發的就地網絡纏繞技術應用於情境機器人

阿里巴巴研究人員提出START：一種新穎的工具整合長鏈推理LLM，通過利用外部工具顯著增強推理能力

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph：一個可視化和分析大型語言模型推理過程的網絡平台

生成式人工智慧的影響及其對數據科學家的啟示

這篇AI論文介紹了BD3-LMs：一種結合自回歸模型和擴散模型的混合方法，用於可擴展和高效的文本生成

九個生鏽的Pico PIO瓦特（第二部分）

開始使用 Amazon Bedrock Agents 的電腦操作

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

阿里巴巴研究人員提出START：一種新穎的工具整合長鏈推理LLM，通過利用外部工具顯著增強推理能力

宣布 Amazon Bedrock 知識庫 GraphRAG 與 Amazon Neptune 分析的正式推出

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

當你無法決定單一行動時

混合策略

打鬥的鳥

報案

總結

參考文獻

受絲啟發的就地網絡纏繞技術應用於情境機器人

阿里巴巴研究人員提出START：一種新穎的工具整合長鏈推理LLM，通過利用外部工具顯著增強推理能力

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆