• player/agent: nn
  • (pure) stratety/action: aiAia_i\in A_i (AiA_i 是一个离散的有限集合)
    • (mixed) strategy: pip_{i},即在 AiA_i 上的概率分布。并且 pi(a)=Pr(player i plays action a)p_{i}(a)=\operatorname{Pr}(\text{player i plays action } a)
  • utility/payoff for user i: ui(a1,a2,,an)u_i(a_1,a_2, \ldots ,a_n)
    • 对于 mixed strategy (p1,p2,,pn)(p_1, p_2, \ldots ,p_{n}) 来说,utility 应该为(此处假设了 mixed strategy 的概率独立同分布)

    a1A1a2A2anAnui(a1,a2,,an)p1(a1)p2(a2)pn(an)\sum_{a_1\in A_1}\sum_{a_2\in A_2}\cdots \sum_{a_{n}\in A_{n}} u_i(a_1,a_2, \ldots ,a_n)p_1(a_1)p_2(a_2)\cdots p_n(a_n)

    • 上式可以简记为 ui(pi,pi)u_i(p_{i},-p_{i})

Best response for player i:
给定其他 agent 的策略 pip_{-i},记 Best response 为 BPi(pi)BP_{i}(p_{-i}),有

BPi(pi)=arg maxpiui(pi,pi)BP_{i}(p_{-i}) = \argmax_{p_{i}} u_i(p_{i},p_{-i})

  • BPi(pi)BP_{i}(p_{-i}) 可能是一个集合。 (有多个满足条件的 pip_{i})
  • BPi(pi)BP_{i}(p_{-i}) 是一个 convex set。 (即假如 p1,p2BPi(pi)p_1,p_2 \in BP_{i}(p_{-i}),那么 p3=αp1+(1α)p2,α(0,1)p_3=\alpha p_1+(1-\alpha)p_2, \alpha \in (0,1),仍满足 p3BPi(pi)p_3\in BP_{i}(p_{-i}))。

纳什均衡

纳什均衡 (Nash Equilibrium):用于刻画 nn 个 agent 的策略
如果 ui(pi,pi)ui(pi,pi),i,piu_i(p_{i},p_{-i}^{*})\le u_i(p_{i}^{*},p_{-i}^{*}), \forall i,p_{i},那么 p=(p1,p2,,pn)p^{*}=(p_1^{*},p_2^{*}, \ldots ,p_n^{*}) 是一个纳什均衡。

由于 piBPi(pi)p_{i}^{*}\in BP_{i}(p_{-i}^{*}),那么可以写出

(p1p2pn)(BP1(p1)BP2(p2)BPn(pn))pBP(p)\begin{pmatrix} p_1^{*} \\ p_2^{*} \\ \vdots \\ p_n^{*} \end{pmatrix} \in \begin{pmatrix} BP_1(p_{-1}^{*}) \\ BP_2(p_{-2}^{*}) \\ \vdots \\ BP_{n}(p_{-n}^{*}) \end{pmatrix} \Rightarrow p^{*} \in BP(p^{*})

因此算子 BPBP 如果有不动点(fixed point),那么存在纳什均衡。在数学上可以证明上述不动点总是存在的,因此纳什均衡也总是有 mixed strategy。

Example

partner game

  • player:p1,p2
  • actions: work hard, be lazy (W,LW,L)
  • utility:
    (p1,p2) WW LL
    WW (10,10) (-5,5)
    LL (5,-5) (0,0)

满足纳什均衡的 pure strategy 有 (W,W)(W,W)(L,L)(L,L)
对于 mixed strategy,设 p1 work 的概率为 xx, lazy 的概率为 1x1-x;p2 work 和 lazy 的概率则为 yy1y1-y。此时两个 player 的 utility 为:

u1=10xy+(5)x(1y)+5(1x)y+0(1x)(1y)=10xy+5y5x=5x(2y1)+5yu2=5y(2x1)+5x\begin{aligned} u_1 &= 10xy+(-5)x(1-y)+5(1-x)y+0(1-x)(1-y) = 10xy+5y-5x = 5x(2y-1) + 5y \\ u_2 &= 5y(2x-1) + 5x \end{aligned}

x={1  if y > 1/20  if y < 1/2[0,1]  if y = 1/2y={1  if x > 1/20  if x < 1/2[0,1]  if x = 1/2\Rightarrow x^{*}=\begin{cases} 1 \text{~ if y > 1/2} \\ 0 \text{~ if y < 1/2} \\ [0,1] \text{~ if y = 1/2} \\ \end{cases} \quad y^{*}=\begin{cases} 1 \text{~ if x > 1/2} \\ 0 \text{~ if x < 1/2} \\ [0,1] \text{~ if x = 1/2} \\ \end{cases}

由图像可得最终结果为 (1/2,1/2)(1 /2, 1/2)

Dominant & Dominated Strategy

Dominant Strategy

A strategy is a dominant strategy for player ii if

ui(ai,ai)ui(ai,ai)ai,aiu_i(a_i,a_{-i})\le u_i(a_i^{*},a_{-i}) \quad \forall a_i, a_{-i}

可以看出这个条件比纳什均衡更强。

A strategy profile A=(a1,a2,,an)A=(a_1^{*},a_2^{*}, \ldots ,a_n^{*}) is a dominant strategy equilibrium if aia_i^{*} is a dominant strategy for each player ii.

DSE(Dominant Strategy Equilibrium)并不是总是存在的,而 NE 却总是存在的。

prisoner dilemma Example

  • player:p1,p2
  • actions: confess, deny (C,DC,D)
  • utility:
    (p1,p2) CC DD
    CC (-3,-3) (0,-5)
    DD (-5,0) (-1,-1)

在这个例子中,无论对手选择的是什么,选择 CC 总是对自己更加有利的。因此 (C,C)(C,C) 不仅是一个 pure strategy NE,同时也是 Dominant Strategy。

Dominated Strategy

A strategy aia_i is a dominated strategy for player ii if ai\exists a_i'

ui(ai,ai)>ui(ai,ai)aiu_i(a_i',a_{-i}) > u_i(a_i,a_{-i}) \quad \forall a_{-i}

因此假如一个 game 里存在 dominated strategy,我们就可以直接将这个策略去掉。

prisoner dilemma Example

还是上面的例子,但是让第一个囚徒加上自杀(suicide)的选项:

(p1,p2) CC DD
CC (-3,-3) (0,-5)
DD (-5,0) (-1,-1)
S (-100,-3) (-100,0)

此时 SS 对于 CC 来说就是一个 dominated strategy。

Correlated Equilibrium

Let P(a)P(a) be a (joint) probability distribution over aA1×A2××Ana\in A_1\times A_2\times \cdots \times A_n, then P(a)P^{*}(a) is a correlated equilibrium (CE) if

aip(aiai)×ui(ai,ai)aip(aiai)×ui(ai,ai)ai,ai\sum_{a_{-i}}p^{*}(a_{-i}|a_i)\times u_i(a_i,a_{-i}) \ge \sum_{a_{-i}} p^{*}(a_{-i}|a_i)\times u_i(a_i',a_{-i}) \quad \forall a_i,a_i'

这里表示所有的 player 都没有动机去 deviate。

上面的式子经过数学变换之后同样可以写为

aip(ai,ai)×ui(ai,ai)aip(ai,ai)×ui(ai,ai)ai,ai\sum_{a_{-i}}p^{*}(a_{-i}, a_i)\times u_i(a_i,a_{-i}) \ge \sum_{a_{-i}} p^{*}(a_{-i}, a_i)\times u_i(a_i',a_{-i}) \quad \forall a_i,a_i'

我们希望能够调整 P(a)P(a) 使得结果更优,因此这是个优化问题:

maxp(a)ui(a)aAp(a)=1p(a)0\max_{} \sum_{} p^{*}(a) u_i(a) \\ \sum_{a\in A} p^{*}(a)=1 \\ p^{*}(a)\ge 0

可以看出这是个线性规划,有多项式复杂度的方法可以求解。但是 MNE(Mixed Nash Equilibrium) 是没有特定解法的。因此 Correlated Equilibrium 更弱。

Traffic light game Example

Example1

(p1,p2) GoGo YieldYield
GoGo (-10,-10) (5,0)
YieldYield (0,5) (-1,-1)

可以得到

  • pure NE: (G,Y)(G,Y), (Y,G)(Y,G)
  • mixed NE: x=Pr(player 1 plays G),y=Pr(player 2 plays G)x=\operatorname{Pr}(\text{player 1 plays G}), y=\operatorname{Pr}(\text{player 2 plays G})
    • x=y=3/8x^{*}=y^{*}=3 /8
  • the expected payoff to p1 is 15/32-15 /32

上述情况是两个人的选择是独立的。但是假如出现了红绿灯,那么就会影响两个 player 的选择。假设

Pr(G,Y)=0.5Pr(Y,G)=0.5\operatorname{Pr}(G,Y)=0.5 \quad \operatorname{Pr}(Y,G)=0.5

其中 (G,Y)(G,Y) 表示红绿灯推荐 player 1 往前走,player 2 停下。

那么此时我们需要考虑两个 player 是否会遵守红绿灯。

  • If p1 is told to play GG, it knows that p2 is playing YY
  • If p1 is told to play YY, it knows that p2 is playing GG

the expected payoff to p1 is 3/23/2

可以得知两个 player 都会遵守。

Example2

假如红绿灯的情况更加复杂

Pr(G,Y)=0.55Pr(Y,G)=0.4Pr(Y,Y)=0.05\operatorname{Pr}(G,Y)=0.55 \quad \operatorname{Pr}(Y,G)=0.4 \quad \operatorname{Pr}(Y,Y)=0.05

  • If p1 is told to play GG, it knows that p2 is playing YY
  • If p1 is told to play YY, it knows the probability of p2 playing YY is 1/91/9; GG is 8/98 /9
    • If p1 stick to YY, its expected payoff is 1/9×(1)+8/9×0=1/91 /9 \times (-1) + 8 /9 \times 0 = -1/ 9
    • If p1 stick to YY, its expected payoff is 1/9×5+8/9×(10)=75/91 /9 \times 5 + 8 /9 \times (-10) = -75/ 9

因此 player 仍然会选择 YY