一,对称进化博弈简介
对于只有2个对称博弈策略的两个博弈方,会有以下博弈收益矩阵表示
(1,1)=(a,a),(1,2)=(b,c),(2,1)=(c,b),(2,2)=(d,d)
在这里,2个博弈方可以看作2个人,也可以看作很多人分成2组,在后一种情况下我们可以假设博弈方I占的比率为x,而博弈方II占的比率为1-x。
此时博弈方I的期望收益为
U1=x*a+(1-x)*b
此时博弈方II的期望收益为
U2=x*c+(1-x)*d
而整体博弈期望收益为
U3=x*u1+(1-x)*u2
假如我们假设,x随时间的变化率即和x自身成正比,又和(u1-u3)成正比,也就是所谓的复制动态思想,那么可得复制动态方程
Dx/dt=x*(u1-u3)=x*(1-x)(u1-u2)=x*(1-x)*(x*(a-c)+(1-x)*(b-d))=f(x)
对于此方程,很容易看出,对应于不随时间改变的平衡态会有解
X1=0
X2=1
X3=(d-b)/(a+d-b-c)
解x3可能是0,1,也可能落在区间(0,1)外而被舍去,也有可能在区间(0,1)中而保留,这要看参数的具体数值。
这几个解虽然对应了平衡态,但却不能保证这是稳定态,因而要对f(x)加上约束,即在解附近有条件df/dx<0,具有这样性质的解是平衡稳定态。
二,市民与小偷
我们很多人有被小偷偷过东西的经历(或者周边亲人朋友被偷过),对小偷应该是气的牙根痒痒,抓到一个恨不得揍他一顿。而在现实生活中,确实有这样倒霉的小偷被抓获,并被打的鼻青脸肿,甚至丢了性命。下面就分析一下市民(这是个没有组织的乌合之众)为什么能够自发抓小偷并对小偷大打出手。
考虑到市民对小偷的愤恨心情,我们可以假设某个市民要是参加抓(打)小偷,那么他将获得a的心理满足感;而要是他不参加抓(打)小偷而是看别人抓(打)小偷,那将获得c的心理满足感(c应该小于a,毕竟看来的高兴不如亲自操刀;但应该大于后面的d);而要是他不参加抓(打)小偷,别人也不参加抓(打)小偷,从而让小偷跑了,那么他将获得d的心理满足感(这种情况可以假设d小于0,毕竟小偷跑了是个令人很郁闷的事情,最小也应该假设为0)。
打小偷是有被打危险的(我们假设市民在打的过程是一对一,因而打人的同时也有挨揍的可能),那么这个风险可用e来表示,e对每个参与的人数值都是一样的。
同时打人是有把人打坏从而赔偿的风险的,比如打断肋骨住院,那么这个风险要所有参与打人的市民共同承担,我们假设为g/(n*x),其中n是所有在场的市民。
因此,在第一节提出的收益矩阵被替换为
(1,1)=(a-e-f/(n*x),a-e-f/(n*x)),(1,2)=( a-e-f/(n*x),c),(2,1)=(c, a-e-f/(n*x)),(2,2)=(d,d)。
不准备具体解这个方程,只是看看对小偷这个特例,在极端假设下,会出现什么情况。
在打小偷的过程中,参与市民一般不会把g考虑的过大:就是打了他一拳嘛,还能打死人?另外,参与人数越多则这个风险就更小(法不责众嘛),所以可以把它略去。
在市民心中,小偷者,无胆小贼也。被发现只有逃跑的份,还敢回头咬人?因而对e的心理期望值也不会大,也可以略去。
再假设d=0(纯粹为了简化,不取负值)
这样解3就成了x3=(a-c)/c
可以证明,只有解3是平衡稳定态,a>2c时,x2=1是平衡稳定态,而x1=0不是平衡稳定态。
这个解也确实能够说明为什么看起来是一群乌合之众的市民能够自发起来抓小偷,并常常能把小偷打个半死或者全死,因为一点点扰动都可以让平静的市民激动兴奋起来(在这里这个扰动是肯定会有的,丢钱包那个主会哭喊着追小偷的),并很快趋向x3确定的平衡稳定态。
小偷唯一的办法就是尽快逃走,否则一人一拳足够他承受。
在现实中我曾看到一个结果是丢钱包那个人最后反而为小偷求起情来,央求大家不要再打了。这恐怕是怕打死小偷自己担负主要责任,这也可以用博弈不同策略和相应收益来分析,这里就不展开了。
三,市民和强盗
假如以上小偷换成强盗或者地痞流氓,那会出现什么情况呢?
显然,面对地痞流氓,被他们揍的可能性很大(尤其他们再拿把刀枪什么的),因此e的数值会很大,不能忽略。
而g值呢,假设和小偷一样(毕竟地痞不是什么好鸟,不用可惜他们),不过这里先忽略掉以简化计算(不忽略只会加大e的效应)。
此时x3=(a-e-c)/c
要想此值大于0,需要a-c>e才行。也就是说需要市民的参与满足感减去旁观别人教训地痞的满足感大于万一失败地痞对自己的伤害才行。在e很大的情况下,这无疑是很少的(不能说没有,我们不是经常在电影中看到打抱不平的英雄豪杰吗)。在大多数情况下,这个博弈的平衡稳定态是零,即没有人出头。假如万一有个好汉出现,那么市民还是不会出头,不过会拍手鼓掌。这在模型中也有体现,看着高兴嘛,这就是看客心理。
小结
这种乌合之众状态下市民自发组织起来的群体行为,群体理性是很低级的(能用这么简单的描述动物进化的模型来表述就是一个明证),并且很多时候没有道德感(这在模型中倒没有对应)。以上的实例主要打击对象要么是小偷要么是地痞流氓弱化了这种感觉,其实在文革中所谓的批斗大会种种过激行为也可以用这种模型来描述,这也就夹杂上了残忍和屈辱。更让人愤慨的是袁崇焕死前遭受的屈辱伤害,让人们永远亏对这位民族英雄(那时他的状态恐怕连小偷都不如,小偷还有逃跑的选择)。他的心情恐怕是会感到无限孤寂,悲怆,凄凉吧。倘是在天有灵,魂兮归来,不必原谅这些愚民和他们的不肖子孙,只要他们还在那种愚昧的状态下生活。
(本文第一节参考谢识予的经济博弈论第二版第5章)