- player/agent: n
- (pure) stratety/action: ai∈Ai (Ai 是一个离散的有限集合)
- (mixed) strategy: pi,即在 Ai 上的概率分布。并且 pi(a)=Pr(player i plays action a)
- utility/payoff for user i: ui(a1,a2,…,an)
- 对于 mixed strategy (p1,p2,…,pn) 来说,utility 应该为(此处假设了 mixed strategy 的概率独立同分布)
a1∈A1∑a2∈A2∑⋯an∈An∑ui(a1,a2,…,an)p1(a1)p2(a2)⋯pn(an)
- 上式可以简记为 ui(pi,−pi)
Best response for player i:
给定其他 agent 的策略 p−i,记 Best response 为 BPi(p−i),有
BPi(p−i)=piargmaxui(pi,p−i)
- BPi(p−i) 可能是一个集合。 (有多个满足条件的 pi)
- BPi(p−i) 是一个 convex set。 (即假如 p1,p2∈BPi(p−i),那么 p3=αp1+(1−α)p2,α∈(0,1),仍满足 p3∈BPi(p−i))。
纳什均衡
纳什均衡 (Nash Equilibrium):用于刻画 n 个 agent 的策略
如果 ui(pi,p−i∗)≤ui(pi∗,p−i∗),∀i,pi,那么 p∗=(p1∗,p2∗,…,pn∗) 是一个纳什均衡。
由于 pi∗∈BPi(p−i∗),那么可以写出
p1∗p2∗⋮pn∗∈BP1(p−1∗)BP2(p−2∗)⋮BPn(p−n∗)⇒p∗∈BP(p∗)
因此算子 BP 如果有不动点(fixed point),那么存在纳什均衡。在数学上可以证明上述不动点总是存在的,因此纳什均衡也总是有 mixed strategy。
Example
partner game
- player:p1,p2
- actions: work hard, be lazy (W,L)
- utility:
| (p1,p2) |
W |
L |
| W |
(10,10) |
(-5,5) |
| L |
(5,-5) |
(0,0) |
满足纳什均衡的 pure strategy 有 (W,W) 和 (L,L)。
对于 mixed strategy,设 p1 work 的概率为 x, lazy 的概率为 1−x;p2 work 和 lazy 的概率则为 y 和 1−y。此时两个 player 的 utility 为:
u1u2=10xy+(−5)x(1−y)+5(1−x)y+0(1−x)(1−y)=10xy+5y−5x=5x(2y−1)+5y=5y(2x−1)+5x
⇒x∗=⎩⎨⎧1 if y > 1/20 if y < 1/2[0,1] if y = 1/2y∗=⎩⎨⎧1 if x > 1/20 if x < 1/2[0,1] if x = 1/2
由图像可得最终结果为 (1/2,1/2)
Dominant & Dominated Strategy
Dominant Strategy
A strategy is a dominant strategy for player i if
ui(ai,a−i)≤ui(ai∗,a−i)∀ai,a−i
可以看出这个条件比纳什均衡更强。
A strategy profile A=(a1∗,a2∗,…,an∗) is a dominant strategy equilibrium if ai∗ is a dominant strategy for each player i.
DSE(Dominant Strategy Equilibrium)并不是总是存在的,而 NE 却总是存在的。
prisoner dilemma Example
- player:p1,p2
- actions: confess, deny (C,D)
- utility:
| (p1,p2) |
C |
D |
| C |
(-3,-3) |
(0,-5) |
| D |
(-5,0) |
(-1,-1) |
在这个例子中,无论对手选择的是什么,选择 C 总是对自己更加有利的。因此 (C,C) 不仅是一个 pure strategy NE,同时也是 Dominant Strategy。
Dominated Strategy
A strategy ai is a dominated strategy for player i if ∃ai′
ui(ai′,a−i)>ui(ai,a−i)∀a−i
因此假如一个 game 里存在 dominated strategy,我们就可以直接将这个策略去掉。
prisoner dilemma Example
还是上面的例子,但是让第一个囚徒加上自杀(suicide)的选项:
| (p1,p2) |
C |
D |
| C |
(-3,-3) |
(0,-5) |
| D |
(-5,0) |
(-1,-1) |
| S |
(-100,-3) |
(-100,0) |
此时 S 对于 C 来说就是一个 dominated strategy。
Let P(a) be a (joint) probability distribution over a∈A1×A2×⋯×An, then P∗(a) is a correlated equilibrium (CE) if
a−i∑p∗(a−i∣ai)×ui(ai,a−i)≥a−i∑p∗(a−i∣ai)×ui(ai′,a−i)∀ai,ai′
这里表示所有的 player 都没有动机去 deviate。
上面的式子经过数学变换之后同样可以写为
a−i∑p∗(a−i,ai)×ui(ai,a−i)≥a−i∑p∗(a−i,ai)×ui(ai′,a−i)∀ai,ai′
我们希望能够调整 P(a) 使得结果更优,因此这是个优化问题:
max∑p∗(a)ui(a)a∈A∑p∗(a)=1p∗(a)≥0
可以看出这是个线性规划,有多项式复杂度的方法可以求解。但是 MNE(Mixed Nash Equilibrium) 是没有特定解法的。因此 Correlated Equilibrium 更弱。
Traffic light game Example
Example1
| (p1,p2) |
Go |
Yield |
| Go |
(-10,-10) |
(5,0) |
| Yield |
(0,5) |
(-1,-1) |
可以得到
- pure NE: (G,Y), (Y,G)
- mixed NE: x=Pr(player 1 plays G),y=Pr(player 2 plays G)
- x∗=y∗=3/8
- the expected payoff to p1 is −15/32
上述情况是两个人的选择是独立的。但是假如出现了红绿灯,那么就会影响两个 player 的选择。假设
Pr(G,Y)=0.5Pr(Y,G)=0.5
其中 (G,Y) 表示红绿灯推荐 player 1 往前走,player 2 停下。
那么此时我们需要考虑两个 player 是否会遵守红绿灯。
- If p1 is told to play G, it knows that p2 is playing Y
- If p1 is told to play Y, it knows that p2 is playing G
the expected payoff to p1 is 3/2
可以得知两个 player 都会遵守。
Example2
假如红绿灯的情况更加复杂
Pr(G,Y)=0.55Pr(Y,G)=0.4Pr(Y,Y)=0.05
- If p1 is told to play G, it knows that p2 is playing Y
- If p1 is told to play Y, it knows the probability of p2 playing Y is 1/9; G is 8/9。
- If p1 stick to Y, its expected payoff is 1/9×(−1)+8/9×0=−1/9
- If p1 stick to Y, its expected payoff is 1/9×5+8/9×(−10)=−75/9
因此 player 仍然会选择 Y。