欧美日韩国产在线观看,国产va在线完整高清观看,麻豆国内精品欧美在线

前言：想要寫出一篇令人眼前一亮的文章嗎？我們特意為您整理了5篇博弈最優策略范文，相信會為您的寫作帶來幫助，發現更多的寫作思路和靈感。

博弈最優策略

博弈最優策略范文第1篇

[關鍵詞]公地悲劇；博弈論；內生規則

[DOI]1013939/jcnkizgsc201529111

1968年英國哈丁教授（Garrett Hardin）在《The tragedy of the commons》一文中首先提出“公地悲劇”這一概念，它意味著“環境的退化會發生在任何時候，只要許多人共同使用一種稀缺資源”。本文把博弈論的概念和思想引入到“公地悲劇”這一現象中，致力于找出化解“公地悲劇”的方法。

1“公地悲劇”的博弈論模型

假設在由n個牧民共同擁有的草原上，每個牧民都養羊，根據世代多年放牧的傳統，他們都知道這片草原上羊的最優的飼養數量，我們把這一數量設為Q1，那么每個牧民的最優飼養量為Q1/n。由于草原是公共的，只要有利可圖，牧民養羊的飼養數量越多越好。假定每個牧民能獲得收益的飼養量不低于Q1/n，這樣，每個牧民羊的飼養數量有兩個可能，一是超額飼養，二是根據統一的指標限額飼養。

為了使我們的分析更具有一般的普遍性，把草原上的n個牧民簡化為兩個典型性的代表A和B，A和B共同在這片草原上放牧，把羊的飼養量的確定過程看作是A和B相互之間的博弈，那么A和B就有兩個可選擇的策略，即超額或限額。在A、B選擇不同的策略的情況下，A、B會出現收益變化：①A超額、B限額，在市場均衡的情況下，A的飼養里比B的飼養量多，收益也多，A的收益為a，B的收益為b，則a>b；②B超額、A限額，A的收益為b，B的收益為a，同理，有a>b；③A、B都限額，總收益為T，達到社會最優，A、B共享收益π，每人π/2，由公地放牧會導致非帕累托最優，有π>a+b，④A、B都超額，那么A、B的收益均為τ/2，有τ

2博弈模型分析

首先，假定以上“公地悲劇”博弈模型是在完全信息的情況下進行的，即A、B都知道對方的策略和收益；之后，將A和B的博弈分為同時博弈和序貫博弈兩種情形。下面將對以上兩種情形進行敘述分析。

當A和B同時博弈，對A來說，當B采取限制飼養數量的策略時，A的收益a>π/2，A的最優選擇是超額；當B采取超額飼養策略時，A的收益b>τ/2；由以上分析可知對A不存在占優策略，A所采取的策略需要根據B的策略進行選擇。對B來說，當A采取限額策略時，B的收益為a>π/2；當A采取超額策略時，B的收益b>τ/2，B的最優選擇是限額；同樣，B也不存在占優策略，B所采取的策略需要根據A的策略進行選擇。

由以上分析可知，在同時博弈的情形下，A、B之間有著兩個納什均衡，即（限額；超額）與（超額；限額）。因為同時博弈存在的階段性，納什均衡不具有唯一解，這說明在實際情況下A和B會面臨策略選擇上的困境，在這樣的情形下，為了實現自身利益的最大化，A和B均有可能以一定的概率選擇超額策略或限額策略。那么，我們假定A選擇限額策略的概率是r1，選擇超額策略的概率是1-r1；B選擇限額策略的概率是r2，選擇超額策略的概率是1-r2，那么，A的最優化模型為：

VA=r1[[SX（]π[]2[SX）]r2+（1-r2）b]+（1-r1）[ar2+（1-r2）[SX（]τ[]2[SX）]]

求A在概率r1下的收益最大值Max[DD（X]r1[DD）]VA，有：[SX（]π[]2[SX）]r2+b（1-r2）-ar2-[SX（]τ[]2[SX）]（1-r2）=0，則，r2=[SX（]b-[SX（]τ[]2[SX）][]（a+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）[SX）]>0

根據支付矩陣的對稱性，可推出：r1=r2=[SX（]b-[SX（]τ[]2[SX）][]（a+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）[SX）]

綜上可知：r*1=r*2=[SX（]b-[SX（]τ[]2[SX）][]（1+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）[SX）]為混合策略的納什均衡，這一均衡說明了當A以概率r*1選擇限額策略時，A進行策略選擇時沒有必要參考B的策略選擇來進行，同樣的，B以概率r*2選擇限額策略時的策略選擇也不需要考慮A的策略選擇。

根據以上描述可得到以下結果：A、B選擇限額策略的聯合概率分布為：P（A=不超額；B=不超額）=r*1×r*2=[SX（]（b-[SX（]τ[]2[SX）]）2[][（a+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）]2[SX）]；A、B選擇超額飼養策略的概率分布為：P（A=超額；B=超額）=（1-r*1）（1-r*2）；A、B選擇相異策略的概率為：r*1（1-r*2）+r*2（1-r*1）=2η*（1-r*2）=2r*2（1-r*1）。A和B中只要有一人選擇了超額飼養策略，草原的飼養量將偏離帕累托最優，出現“公地悲劇”現象，出現的概率為：P（A=超額；B=超額）+P（A=超額；B=不超額）+P（A=不超額；B=超額）=（1-r*1）（1-r*2）+2η*（1-r*2）；根據概率的相關知識，“公地悲劇”出現的概率也可表示為1-P（A=不超額；B=不超額）=1-r*1×r*2∈[0，1]。

把A和B兩個牧民決定羊的飼養數量的決策過程看作是一個博弈，根據以上計算可知，“公地悲劇”這一現象會以一定的概率出現在博弈的收益中，這樣，從博弈論的視角分析“公地悲劇”就有了可行性。

其次，A、B連續博弈。當A和B兩個牧民中有一個人在某些方面優于另一個人即具備先行者的優勢時，那么先行者就有觀望和利用先行者優勢兩種選擇，這時A、B之間的博弈不再是同時博弈而是連續博弈。這里假設在完全信息的情況下，A是先行者，A先行動、B后行動，收益矩陣和同時博弈的時候相同。

對A來說，A知道假如他選擇超額策略，由于b>[SX（]π[]2[SX）]，B的最優策略為限額策略，那么，A將獲得a的收益，B獲得b；假如A選擇限額策略，那么B一定超額，那么A獲得收益b，B獲得a。當A具有先行者優勢時，A能夠先行動，并獲得a的收益（a>b），所以無論如何A也會選擇超額策略，這時，博弈的均衡解釋（超額；限額）。這就表示在連續一次性的博弈過程中，A、B兩個牧民的羊的總的飼養數量將超過草原上的帕累托最優數量，出現“公地悲劇”。

從上文中的分析可知，理論上，在一次博弈的情形下，不管是同時博弈還是連續博弈，“公地悲劇”都可能發生，但在實際情況下，因為養羊這個活動是不間斷連續進行下去的，那么草原上牧民之間養羊數量的決策過程就是重復博弈的過程。一旦存在重復博弈，牧民之間由于人際關系、文化等原因會形成一種相互牽制的情況，最終使草原上羊群的飼養數量限制在符合集體利益最大化的帕累托最優數量上面。

3對策研究

由以上分析可知，A、B因為存在a-[SX（]π[]2[SX）]的超額收益而產生了超額飼養羊的投機心理。A和B都是理性人，都是自私的，都不愿意因為自己限額而損失了額外的收益，更不愿意看到因為雙方都超額而帶來的共同損失。當不存在一個實際有效的機制來約束雙方行為時，為了能減少自身的損失，在博弈的過程中，博弈雙方會透露這樣的信息：如果在社會交換的過程中出現了違約者，則拒絕與他合作，而拒絕合作給違約者造成的損失大于他不違約的損失，這樣就形成了一種可信的、有效的威脅。A和B在牧羊博弈的過程當中自主地限制羊的數量，使其形成一個內生的規則。當限額策略合理地解決了“公地悲劇”問題時，在接下來的重復博弈中，人們會將這一行為堅持下去，就成為了一種制度，一種內生的制度，“公地悲劇”便得到了解決，不再出現。

4結論

通過以上分析，當牧民們在選擇羊的飼養數量時，相互之間存在一種相互約束、制約機制，并且這一博弈是重復進行時，那么，飼養羊數量的限額將成為一個內生的博弈規則，它不需要借助外界或第三方的力量來保證實施便能自己起到約束雙方行為的作用，因而“公地悲劇”能夠依靠內部的約束機制自發解決。

參考文獻：

博弈最優策略范文第2篇

【關鍵詞】無線電博弈論納什均衡

一、博弈論的概述

1.1概念

博弈論（game theory）是研究決策主體的行為發生直接相互作用時候的決策以及這種決策的均衡問題的理論[20]。也就是說，博弈論研究當一個主體，譬如說一個人或一個企業的選擇受到其他人（其他企業）的選擇的影響，而且反過來影響到其他人（其他企業）選擇時的決策問題和均衡問題。所以在這個意義上說，博弈論又稱為“對策論”。博弈論是一種使用嚴謹數學模型來解決現實中利害沖突的理論，由于沖突、合作、競爭等行為是現實中常見的現象，因此很多領域都能應用博弈論，如軍事領域、經濟領域、政治外交等。

1.2博弈論模型簡介

博弈論自產生到發展至今已形成了較成熟的理論體系，它并不是經濟學的一個分支，它是一種方法，應用范圍不僅包括經濟學，政治學、軍事、外交、國際關系、公共選擇，還有犯罪學等都涉及到博弈論。不過博弈論也具有自身的基本模型，可以對一個博弈過程用5個方面來描述，G={P，A，O，I，U}

① P（player）：博弈的參與方。

② A（action）：博弈方可選擇的全部行為或策略的集合

③ O（orders）：博弈的次序。

④ I（information）：博弈的信息。

⑤ U（utility）：博弈方的收益。

以上五個方面是定義一個博弈時必須首先設定的，確定了上述五個方面就是確定了一個博弈。博弈論就是系統研究用上述方法定義的各種各樣的博弈問題，尋求各博弈方合理選擇策略的情況下博弈的解，也既是均衡。

1.3博弈論的分類

現實中各種博弈可以按照不同的辦法進行分類。根據參與人的多少，可以將博弈分為兩人博弈和多人博弈；根據參與人是否合作，可以將博弈分為合作博弈和非合作博弈；根據博弈結果的不同，又可以將博弈分為零和博弈、常和博弈和變和博弈。

1.4納什均衡

1.4.1納什均衡的定義

納什均衡（Nash Equilibrium）[20]是一種策略組合，它能夠使得每個參與者的策略都是對其他參與者策略的最優反應。“最優反應”指的是該策略帶給采用它的博弈方的利益或期望利益，大于或至少不小于其它任何策略能帶來的利益。博弈的目的，就是為了尋求這樣的一個最佳的策略組合。

1.5 一些特殊的博弈模型

1.5.1重復博弈模型

重復博弈是目前人們了解的最為透徹的一類動態博弈，參與人每一期都面對同樣的“階段博弈”或“選民博弈”，而且參與人的全部收益是每階段所得收益的加權平均。參與者基于對博弈過程的認知，例如對過去行為的了解，對未來的預期和對當前情況的觀察，在每一個階段的博弈中選擇自身的策略。這些策略可以是固定的，也可以隨其它參與者行動的改變而變化，甚至可以是自適應的。

1.5.2潛在博弈模型

潛在博弈是一般形式博弈中的一種特殊類型，存在函數u：SR當單方面的背離發生時，u的變化Δu將被反映到單方面背離博弈者的效用上。

二、在無線通信系統資源分配問題中應用博弈論的可行性分析

隨著無線通信系統的飛速發展，許多概念和技術與現有系統相比都有很大的變化。通信系統將具有智能的資源管理，采用大量動態的、分布式的、自適應式的資源管理方式。

三、基于博弈論的動態頻譜接入方法

如何利用博弈論方法對認知無線電技術的研究進行分析，其中的關鍵是如何將博弈論引入到相應算法的設計和分析中，找到算法的納什均衡點。在開始具體的算法研究之前，需要將所研究的問題抽象成博弈論問題模型。

3.1 分布式自適應頻譜接入方法

博弈論模型適用于分析認知無線電系統各用戶競爭頻譜的分布式行為，各用戶根據自己獲得的信息單獨進行決策。

博弈最優策略范文第3篇

[關鍵詞]合作困境　博弈分析　現實對策

中圖分類號：D125?4　文獻標識碼：A　文章編號：1007-1369(2007)2-0046-05

石油是現代經濟的血液，對于經濟快速發展的中國和資源匱乏的日本具有重大的戰略意義。從“安大線”、“安納線”較量到東海海洋權益爭端，再到現在日趨浮現的在非洲石油輸出國的競爭，石油因素在兩國關系及其政治話語中已具有重要地位。鑒于中日兩國政治關系的脆弱性，以及國際能源環境變化的不確定性和全球化、區域化下的雙邊、多邊能源合作的快速發展，加強中日海外石油合作，對于發展面向21世紀的穩定的中日關系具有重大的現實意義。

本文采用博弈論的分析方法，通過對中日之間在海外石油市場上競爭態勢的分析，探討中日在海外石油上采取合作策略的制約困境與現實對策。

制約困境的博弈分析

1.博弈理論的一般說明博弈是假定為理者的個人、團體或組織，面對一定的環境，在一定的約束條件下，依靠所掌握的信息，同時或先后，一次或多次，從各自可能的行為或策略中進行選擇并實施，各自從中取得相應結果或收益的過程。由于它強調理者之間相互影響的制衡關系，因此在全球化不斷發展，國家間聯系不斷增多的情況下，博弈及其研究理論日益被用來描述、研究國家間日趨復雜的相互依存關系。鑒于國際社會天然的無政府狀態與國家不懈的自助努力，因此在博弈理論中，非合作博弈又成為現代博弈論研究的重點。

按照博弈理論的一般分類，根據行為者所占有的信息集的完全程度和行為的行動順序，非合作博弈可分為：

其中，完全信息靜態博弈是其他博弈分析的起點，有著較為嚴格的條件假設--它要求追求利益最大化的理者掌握完全的信息集(即對博弈策略與利益有清楚的了解)，并且在決策時不存在相互間的信息交換，而且一旦決策后就只能等待結果。因此，對于行為者來說，盡管此類博弈中占有完全的信息集，但是由于決策時信息交流的阻斷，導致行為者無法確定對方是否會采取“背德”行為使自己利益受損，以致為了實現自身利益的最大化而不得不采取自己的“最優策略”，所以由此看來，在完全信息靜態博弈中，主導行為者最優決策思維的并非是帕累托最優，而是風險上策均衡。其結果便是，行為者從自身利益最大化出發，不約而同地采取了“坦白”策略，卻最終得到了“集體利益”最小化的“囚徒困境”。而在目前中日兩國的海外石油競爭中，此種情況卻大量存在。

比如在中日在俄輸油管線的較量中，本來中俄議定的“安大線”全長只有2400公里，造價只有20～25美元(其中俄方17億，可從中方獲得50％的貸款)，且所經地區自然環境優越，便與施工養護。假如日本在此問題上合作，共擔建設費用和管理成本，共享由此獲得的石油收益，那么兩國各自在投資上必然小于20～25美元。但是，由于日本擔心中國在俄的輸油管建設威脅其“太平洋石油管線”“戰略計劃”，所以在“安大線”即將開工之際，日本便提出了從西伯利亞地區安加爾斯克至海參崴地區納霍德卡的“安納線”計劃。該線不僅全長3 765公里，造價50億美元(全部由日本承擔，而且日本還需再追加10億美元助俄管道建設)，而且所經地區有1100公里的地震區，施工養護條件惡劣。此后，中日兩國展開了激烈的競爭，其結果便是俄羅斯改建“泰納線”(從泰舍特至納霍德卡)，日本不僅要為此方案提供50億美元貸款，中國亦愿意向該工程陸續投放120億美元的貸款，而且還讓俄羅斯給中日兩國附加上了“安全保障”。所以與先前的“安大線”相比，可見其代價之巨大。

但是，值得注意的是，完全信息靜態博弈的理論假設之一是行為者在決策時不發生任何的信息交換。可從現實來看，中日之間在多邊與雙邊層次上存在著不同程度、不同形式的對話交流，比如在多邊層次上，中日兩國可通過聯合國、亞太經合組織、東盟論壇、東亞峰會等場合進行對話交流；在雙邊層次上，中日之間可借助中日戰略對話和東海問題磋商等會議進行信息交換和對話磋商，所以可以認為，當中日兩國的決策者在進行策略選擇時，可以從多種渠道了解對方的策略意圖--從目前來看，實現石油供應源的多樣化，穩定石油來源等已成為中日兩國各自對對方能源戰略的基本認知，而世界石油的儲量、價格、交易、運輸等信息更是兩國都能掌握的公共信息。所以這不得不令人發問：中日兩國為何在具備信息交流的情況下，還不能突破困擾兩國的“囚徒困境”?

要回答這問題，完全信息靜態博弈由于其嚴格的條件限定，已不能擔此重任，而需借助于條件限定較為放寬的完全信息動態博弈。在完全信息動態博弈中，行為者追求利益最大化的本性與掌握完全信息集的要求并未改變，但是允許行為者在做出策略選擇時有先后順序，后行動者可以根據先行動者的行為信息做出自己的策略選擇，從而實現一定程度的信息交流，因此比較適合用于分析中日兩國在海外石油博弈中所遇到的“囚徒困境”。

實際上，假如采用“大歷史觀”的審視問題視角，從技術角度看待事物之間的相互聯系與歷史脈絡，將中日兩國在海外石油上的博弈放人中日兩國“雙重崛起”(即中國的和平發展與日本謀求政治大國的訴求)的背景下，將中日“雙重崛起”下的國家戰略性博弈與其他次國家層面或超國家層面的各類博弈總計為G，將中日在海外石油市場上的博弈記為g，那么在g與G之間便因石油本身在現代社會政治話語中所具有的戰略性意義，不僅自然聯系起來，形成一個簡化的次數為2的“有限次重復博弈”，而且使石油在g中得益在G中的作用直接體現出來，使構建得益函數UG=UG(ug)成為可能。

在有限次重復博弈中，在每次重復博弈之前，以前博弈的結果各行為者都能觀察到，成為下次博弈中行為者行動的參考依據，所以在有限次重復博弈中，行為者不能只考慮某個階段的得益，而需顧及前次博弈的得益對后次博弈的影響以及最后的總得益。因此對于中日兩國間由g與G構成的有限次重復博弈，中日雙方不僅要考慮g的得益，還要考慮g的得益對G的影響以及最后的總得益。由于是有限次數重復，所以可以借助“逆向歸納法”對此作具體的博弈分析。

2.具體的博弈分析

首先，進行條件假設。由于石油作為一次性能源的不可再生性，其探明儲量與產量在特定時期，技術發展既定的情況下是有限的，所以石油資

源人類活動約束已呈現出“存量約束”的形式。所以可假定在只有中日兩國的封閉系統中，海外石油資源存量為X，中國對外石油的依賴度為d，那么中國就需要從外進口石油量為dX，假如中國能實現這一進口量，那么日本獲取海外石油量為(1-d)X。由此根據基數效用理論假定出中國在g中的得益為ugl=AdX-BP，日本在g中的得益為ug2=C(1-d)X-DP(其中A、B，C、D分別為中日在g中的得益系數，在一定的技術條件下A、B，C、D恒定，但是，從現實來看，在一定技術條件下，日本的技術水平在常態分布上高于中國，所以A

其次，用逆向歸納法對上述假設進行具體分析。由于中日之間政治互信度比較低，在中日之間雙重崛起的背景下，一方面中國政府由于日本對歷史問題的虛無主義態度，對華關系的定位(目前日本將中日關系定性為“協調與共存”、“競爭與摩擦”混在的關系)以及近來日本對周邊的一些舉動等，擔心日本走向政治大國后的政策走向；另一方面，日本政府面對中國快速的和平發展和自己過去所經歷的“喪失的十年”，心理上難以調適并擔心發展起來的中國危及自身的戰略利益，特別是日本作為目前國際體系的既得利益者，其固有的保守心態是它尤其擔心作為后發國家的中國縮小與它的差距，從而改變現有利益布局，所以在中日兩國的博弈中，日本政府的最優策略便是使U1'

求解導數R∞=U1’，可得U1’=Ad{1+[E(b1)/(1+r1)]}①，同理可得U2'=C(-d){l+[E(b2)/(1+r2)]}②(這里“一”表示中日兩國間的負相關關系，比較時取其絕對值)，比較①與②，可以發現，由于從2003-2006年間，中國經濟的r1一直保持高位運行，分別是10.O％、10.1％、10.4％、10.7％，日本經濟的r2則為1.4％、2.6％、0.8％、2.8％，所以1，(1+r1)必然小于1/(1+b)。而在E(h)函數上，由于日本在2001年的能耗強度為0.91，而同期中國的能耗強度卻為8.45，換句話講，就是同等能耗，日本將有更多的產出，因而也就對生更大的影響，即E(h1)

究其原因，癥結就在于未能將納什均衡貫徹于動態博弈的各個階段，實現子博弈精煉納什均衡。按照子博弈精煉納什均衡的條件要求，行為者的最優策略必須貫徹于博弈的各個階段，以便在博弈的各個階段實現納什均衡。而在上述分析中，δ與E等系數借助影響單位X增益而作用于G博弈在日本政府的最優策略中得到了體現，盡管借此可實現策略選擇在G博弈中的納什均衡，但是卻忽視了最優策略在g博弈中的貫徹，因而也就未能在g博弈中實現納什均衡。所以對于日本政府來說，將最優策略進一步貫徹于g博弈中以便在g博弈也實現納什均衡，就成為其必然的策略選擇。從上述表達式來看，U1

實際上，日本政府選擇阻擾或干擾中國海外油源拓展的對抗策略，就是這一策略考量的直接體現。因為在貼現系數存在的情況下，盡管阻擾或干擾中國海外油源的拓展的舉動并不能必然帶給日本單位x的增益，但是由于r1>r2，帶來δ1

自己在既得利益分布中的地位。而對中國來說，情況亦是如此，只能采取“針鋒相對”的策略，不斷拓展自己穩定的海外油源(這在客觀上起到了阻擾或干擾日本海外油源拓展的作用)，才能保證自己的損失總小于日方。由此可以看出，雙方的對抗策略借助對d的影響將納什均衡貫徹到了博弈中，從而實現了在整個次數為2的有限性重復博弈中的子博弈精煉納什均衡。由此也就可以理解為何在海外石油市場上，中日之間不斷出現拓展、干擾、再拓展、再干擾……局面的原因。

最后，經過上述分析，基本可以得出如下結論：

(1)雙方缺乏政治互信，才使得雙方不斷追求相對得益，奉行自我利益占優的納什均衡策略。

(2)減弱d的影響，緩解相互制約的負相關關系，既是雙方貫徹最優策略，在博弈的兩個階段實現納什均衡的著力點，也是雙方實現子博弈精煉納什均衡后的客觀結果。

(3)油價因素在上述條件下的博弈中并不發揮主要作用。換言之，高油價并不必然導致合作產生，有時高油價還會導致對穩定油源的進一步爭奪。

現實對策：訂立基于互信的政治契約

1.訂立基于互信的政治契約的必要性

基于上述分析，可以看出，中日兩國缺乏政治互信是導致兩國不斷追求相對利益，奉行自我利益占優的納什均衡策略的主要原因。按照新現實主義的看法，感到不安全的國家總關心收益如何分配，它們并不注重參與者兩方是否都收益，而只關心誰多得益。如果收益分配不均，得益的國家總想要削弱對方以改變自己在利益分配中處于不利地位，即使利益分配的雙方有獲得絕對收益這種愿望，但都害怕對方的實力增強對自己有威脅，所以合作起來就不成功。

因此，要實現中日在海外石油上的合作，就必須首先在雙方之間訂立基于互信的政治契約，消除因對對方不信任而產生的不安全感以及由此引發的對相對收益的追求。而一旦這種政治契約得以訂立，那么按照新制度經濟學的判斷，將促進雙方實現“記憶編碼”，使其參與的博弈轉變成“制度支持的完美記憶”(institution-assisted perfectrecall)博弈，從而大大提高信息交換的效率，穩定雙方在博弈中的行動策略與心理預期，進而緩解雙方因對方政策可能出現的突變性而產生的不安全感，降低談判中的“討價還價”成本，推動合作進程的快速發展。

在這一點上，法德和解給與了歷史的佐證。在1963年，法德兩國簽署了《法德友好條約》。其意義不僅在于標志著法德雙方和解的開始，更在于它還是法德之間基于互信訂立的一種政治契約，使得雙方從此可以秉信釋疑，開誠布公地探討地區合作事宜，攜手推動歐洲一體化的發展。

2.訂立基于互信的政治契約的著力點

任何政治契約的訂立，都是緣于對利益的關注，也都以利益為訂立契約的著力點，所以中日之間訂立基于互信的政治契約，也必須以兩國利益為著力點。

根據上述困境分析，減弱d的影響，緩解相互制約的負相關關系是雙方在整個有限性博弈中貫徹最優策略，實現各自利益占優的著力點：日本政府借此緩解中日之間相互制約的負相關關系的策略是對抗，即阻撓或干擾中國海外油源的拓展，導致中國也不得不采取針鋒相對的策略，最終形成了雙方追求各自利益占優的子博弈精煉納什均衡。

實際上，在當今世界，保證穩定的油源，緩解相互制約的負相關關系一直有兩條思路：一是直接拓展油源，保證有穩定的石油供給，上述中日博弈也就是在這方面展開；二是尋找替代能源，發展節能技術。如果說前者在中日博弈中證明其占優策略為對抗的話，那么第二種則要在合作中實現自我利益最優。所以只要中日雙方轉換思維，加強雙方在替代能源、節能技術上的合作，那么就可以規避在前者中面臨的納什均衡，在合作中實現各自利益的最優。因此，中日雙方訂立基于互信的政治契約，其著力點就可以放在尋找替代能源，發展節能技術上。首先在“節流”上培養雙方的信任度，隨后在一定程度時將此信任度“外溢”至“開源”領域，從而實現雙方“記憶的編碼”，緩解雙方在此領域的擔心與焦慮，進而達到訂立互信政治契約的目的，最后消除雙方的不安全感，使雙方摒棄對相對收益的追求，在“開源”領域實現合作的最優收益。

而且從現實來看，此種著力點也有其存在的客觀現實性：

第一，中國有尋找替代能源，發展節能技術的積極愿望。“節能優先”已成為中國可持續能源戰略的重要組成部分。

第二，日本有著較為發達的開發替代能源、發展節能技術的科技水平。比如2005年9月，日本與印度簽署的兩國在能源領域進行綜合性合作的共同聲明，已堪稱能源合作的典范。

博弈最優策略范文第4篇

【關鍵詞】傾銷反傾銷博弈分析

一、前言

隨著經濟全球化和貿易自由化的不斷發展，進口關稅、配額和出口補貼等貿易保護手段作為保護本國經濟的一種手段，其作用越來越弱。反傾銷作為一種被世界貿易組織所允許的合法而有效的手段，被越來越多的國家所采用。改革開放以來，中國對外貿易迅速發展，但隨之而來的是國外反傾銷調查的迅速增加。根據WTO統計，截止至2012年12月，我國所遭受反傾銷調查數量為885件，是全球遭受反傾銷調查最多的國家。世界各國對我國頻繁實施的反傾銷訴訟已經嚴重阻礙了我國對外貿易的健康發展。

傾銷是指以低于成本的價格將一國商品銷售到另外一國市場的行為。WTO反傾銷協議規定，如果一項產品從一國出口到另一國的出口價格低于在出口國國內消費的正常貿易過程中的同類產品的可比價格，則該產品被認為是傾銷產品。反傾銷指進口國當局依法向對進口國產業造成損害的傾銷行為采取征收反傾銷稅等措施，以抵消損害后果的法律行為，這是一種被世界各國普遍認可的限制進口手段。

目前，國外對傾銷與反傾銷的博弈研究既有理論研究，又有實證分析。理論研究主要集中在完全信息條件下雙寡頭靜態博弈，如Brander、Krugman、Spencer等。Prusa、Tharakan等則對反傾銷進行了實證分析，并從博弈角度論述了反傾銷法作為指導局中雙方博弈的規則尚有不完善的地方需要修訂。國內運用博弈論分析傾銷與反傾銷問題的尚不多見，張維迎和馬捷從產權角度研究了產權對傾銷問題的影響，楊仕輝就外國對華反傾銷的逆向選擇作了實證分析，楊仕輝和張娟通過構建不完全信息條件下的傾銷與反傾銷動態博弈模型對反傾銷效應進行了理論推導。本文在參考國內外文獻的基礎上，運用博弈論為分析工具，建立了傾銷與反傾銷的博弈模型，對傾銷與反傾銷中出現的問題進行分析。

二、傾銷與反傾銷的博弈論分析

（一）傾銷與反傾銷的完全信息博弈分析

假定國外企業不進行傾銷而國內企業不進行反傾銷訴訟，其效用分別為u1 和u2；國外企業進行傾銷，傾銷成本為c1，同時國內企業不進行反傾銷時國外企業進行傾銷的利潤為m；國內企業進行反傾銷，反傾銷成本為c2。通常m>c1，m>c2。博弈矩陣如圖1。

當國外企業傾銷時，如果國內企業進行反傾銷，國內企業的效用為u2-c2；如果國內企業不進行反傾銷，國內企業的效用為u2-m，由于u2-c2>u2-m，國內企業的最優策略是進行反傾銷。當國外企業不傾銷時，如果國內企業進行反傾銷，國內企業的效用為u2-c2；如果國內企業不進行反傾銷，國內企業的效用為u2，由于u2-c2

如果一個人采取混合戰略，其對手不能準確地猜出他實際上會選擇的戰略。假定國外企業進行傾銷的概率為p，不傾銷的概率為1-p；國內企業進行反傾銷的概率為q，不進行反傾銷的概率為1-q。

（二）傾銷與反傾銷的不完全信息博弈分析

假設進行傾銷與反傾銷博弈的參與人仍是國外企業和國內企業，他們追求利潤最大化。但信息是不完全的，潛在國外企業決定是否對某國進行傾銷，國內企業并不知道國外企業的成本函數。假定國外企業有兩個可能的類型：低成本或高成本；國外企業是低成本時，實施低價策略不會導致國內企業反傾銷的成功，而高成本時國外企業的低價策略會導致國內企業反傾銷的成功。兩種成本情況下的支付矩陣如圖2所示。

國內企業在博弈開始時只知道國外企業是高成本的概率為p，低成本的概率為1-p。無論國外企業是低成本還是高成本，出口到某國的選擇都有低價格和高價格。博弈的第一階段，當國外企業選擇低價策略，國內企業的最優選擇是反傾銷；當國外企業選擇高價格，國內企業的最優選擇是不反傾銷。博弈的第二階段，國內企業是否對國外企業的價格策略實施反傾銷，依賴于國內企業對國外企業成本的判斷，如果國外企業是低成本的時候，國內企業的最優選擇是不反傾銷，當國外是高成本，選擇低價格的時候，國內企業的最優選擇是反傾銷；反之，則不反傾銷。國內企業是否進行反傾銷，依賴于他對國外企業成本的判斷。高成本國外企業如果選擇價格a21時，會招致國內企業的反傾銷，因此，高成本企業可能會選擇價格a11或a12，以避免招致國內企業的反傾銷。在觀測到國外企業的第一階段的價格選擇后，國內企業會修正對國外企業的成本函數的先驗概率p。如果國內企業觀測到國外企業選擇低價格a21，就可以推斷國外企業一定是高成本，采取反傾銷就是最優選擇。國內企業看到國外企業選擇低價策略，可以估計國外企業在低價條件下低成本和高成本的概率，即P（c1∣p1）和P（c2∣p1）。

假設p=0.5，低成本條件下選擇低價格策略的概率大于高成本條件下選擇低價格的概率，即a1>a2，可以得出P（c1∣p1）>P（c2∣p1）。如果國內企業作出這樣的估計，就不會對國外企業進行反傾銷了，反之，則選擇進行反傾銷。如圖3，博弈方國外企業選擇了低價策略，這個低價策略可能來自兩種不同的成本類型。博弈方國內企業在決策點有兩種選擇，即反傾銷和不反傾銷。如果國外企業是低成本類型，即沒有傾銷行為，國內企業的最優選擇是不反傾銷，因為b11b32。如果國內企業估計A 是高成本類型的，他會選擇進行不反傾銷，但是國內企業估計錯誤，那他會選擇不進行反傾銷，而事實上卻遭受了傾銷，這樣給貿易雙方都帶來了一定的損失。

三、結論

近些年，我國在外貿出口取得巨大成就的同時，面臨嚴重的反傾銷危機，中國企業在面對反傾銷調查時，大都采取消極避戰的態度，助長了國外對華反傾銷的氣焰。從博弈的角度來看，主要是因為我國企業還沒有積極參與國際市場的博弈過程，不能通過主動介入改變被動局面。要改變這種局面，必須積極參與博弈，并利用可置信威脅改變對方的博弈路徑，以獲取利潤最大化。同時，在企業選擇價格策略時，要從長遠利益出發，注意進口國對自己價格策略的反應，盡量不給進口國一個低價傾銷的印象，以免使自己陷入反傾銷的訴訟中。

參考文獻

[1]張維迎，馬捷.惡性競爭的產權基礎[J].經濟研究，1999（06）.

[2]楊仕輝.反傾銷博弈與逆向選擇[J].世界經濟，2000（01）.

[3]楊仕輝，張娟.不完全信息條件下傾銷與反傾銷動態博弈[J].中國管理科學，2000（03）.

博弈最優策略范文第5篇

【關鍵詞】博弈論；非合作博弈；納什均衡；應用

文章編號：ISSN1006―656X（2013）12-0043-01

一、博弈論的概述

博弈論（game theory），又稱對策論，是研究決策主體的行為發生直接相互作用時的決策以及這種決策的均衡問題，也就是一些個人或組織，面對特定的環境條件，在一定的規則約束下，同時或先后，一次或多次，從各自的行為或策略中進行選擇并加以實施，各自取得相應結果的過程。

一個完整的博弈一般包含幾個要素：參與者，行動，策略，結果，均衡等。參與者、行動和結果統稱為博弈規則，博弈分析的目的是使用博弈規則來決定均衡。但是，博弈的行動不等同于博弈的策略，博弈的結果不等同于博弈的均衡。根據參與人的數量，可分為二人博弈和多人博弈；根據參與人是否合作，可分為合作博弈和非合作博弈；根據博弈結果的不同，可分為零和博弈、常和博弈和變和博弈。

博弈論對我們的經濟生活有重要意義，人們之間決策行為相互影響的例子有很多：從國家角度出發，在國際貿易中合理運用博弈論可使本國和其他國家都受益，取得雙贏效果；從個人角度出發，在生活中合理運用博弈論可使自己選擇最優策略，減少不必要的成本開支。

二、非合作博弈――納什均衡

非合作博弈是指不允許存在有約束力協議的博弈。完全信息靜態博弈屬于非合作博弈，該博弈中，每個博弈方的策略都是針對其他博弈方策略或策略組合的最佳對策，具有這種性質的策略組合，正是非合作博弈理論中最重要的一個概念“納什均衡”。

用表示一個博弈，如果有個博弈方，每個博弈方的全部可選策略的集合稱為“策略空間”，用表示；表示博弈方的第個策略，其中可取有限個值（有限策略博弈），也可取無限個值（無限策略博弈）；博弈方的得益用表示，是各博弈方策略的多元函數。個博弈方的博弈常寫成。在博弈中，如果由各個博弈方的每一個策略組成的某個策略組合中，任一博弈方的策略，都是對其余博弈方策略組合的最佳對策，即

，對任意都成立，則稱為的一個“納什均衡”。

納什均衡的求解，常采用得益矩陣法。在囚徒困境中，每個參與者都能猜出對方策略，稱該納什均衡為純策略納什均衡。囚徒困境問題反映了非合作博弈的根本特征，體現了個人理性與集體理性的矛盾。兩寡頭企業選擇產量的博弈就是囚徒困境問題在經濟學上的應用。若兩企業聯合形成卡特爾，選擇壟斷利潤最大化的產量，每個企業都能得到更多利潤。但卡特爾協定不是納什均衡，給定對方遵守協議，每個企業都有增加產量的沖動，最后每個企業只能得到納什均衡產量的利潤，它嚴格小于卡特爾產量下的利潤。

在某類博弈中，每個理性人都不能猜出對方的策略，參與人是以一定的概率選擇某種策略的，這樣的策略稱為混合策略，相應的均衡稱為混合策略納什均衡。純策略是混合策略的特例。相關的例子有日常生活中的打撲克、劃拳等。

三、治理河流污水排放的制度設計

環境保護，人人有責，限制企業的污水排放符合社會各界的呼聲。檢查和制止排污是政府的職責，對于以利潤最大化為目標的企業，其一直采取各種措施盡可能降低生產成本。政府和企業間的關系可用經濟學中的監督博弈來解釋。

該博弈的參與者是政府和企業，政府的策略選擇是檢查或不檢查，企業的策略選擇是排污或不排污。假設是企業治理污水（不排污）增加的生產成本，若排污，為自己多得的收益。是政府檢查所需成本。是政府對企業排污的罰款金額。是企業排污對社會利益的損害。假設且，即政府對排污企業采取重罰措施。對應不同策略組合的得益矩陣可見下表。

政府和企業的得益矩陣

在以上假設條件下，政府和企業都猜不出對方會采取何種策略，因而不存在純策略納什均衡，只能求解混合策略納什均衡。如果假定條件不成立，通過劣策略剔除可得到占優策略，即（檢查，不排污）或（不檢查，排污）為占優均衡。

在得益矩陣中，用表示政府檢查的概率，表示企業排污的概率。給定，政府檢查和不檢查的期望收益分別為：

由，得。即如果企業排污概率小于，政府的最優選擇是不檢查；如果大于，政府的最優選擇是檢查；如果等于，政府隨機地選擇檢查或不檢查。

政府的最終目標是降低企業排污概率并保護環境。據的結果，有兩種措施：一是增大分母，即采取重罰措施，使企業平日不敢排污；二是減小分子，即降低檢查成本。現階段可行做法是設立舉報電話，避免政府盲目檢查，提高辦事效率。

再者，給定，企業選擇排污和不排污的期望收益分別為：

由得，即如果政府的檢查概率小于，企業的最優選擇是排污。現實中，政府對排污的懲罰越重，企業因排污獲得的收益越低，企業的排污概率就越小。反之，企業的排污概率就越大。

企業因排污獲得收益的大小，政府難以準確把握。前面談到的企業都是以利潤最大化為目標的企業，適于民營企業。現實中大多排污者是國有企業，這就涉及企業經營的控制權收益問題。企業因排污獲得的生產成本降低部分可以很容易轉化為企業經營者的控制權收益，這些收益包括獎金、福利或者因企業效益上升而帶來的升遷機會。反過來，如果企業因為排污而受罰，經營者并沒有控制權損失，因為罰款由企業出，經營者只是沒有控制權收益而已。

四、小結

本文以納什均衡為理論基礎，分析了純策略納什均衡和混合策略納什均衡在經濟生活中的應用。但本文探討的只是博弈論中一個很小的方面，對均衡問題中的子博弈精煉納什均衡等沒有涉及到，但它們的應用也很廣泛。在日常經濟生活中，小到購物時的討價還價，大到企業間的競爭與合作、國家間的傾銷與反傾銷等，都可歸結為博弈問題。

參考文獻：

博弈最優策略

博弈最優策略范文第1篇

博弈最優策略范文第2篇

博弈最優策略范文第3篇

博弈最優策略范文第4篇

博弈最優策略范文第5篇

相關推薦更多

熱門文章排行更多

相關期刊更多

邏輯學研究

管理工程學報

供應鏈管理

精品文章排行更多