Welcome to Changhai Lu's Homepage

基于德州扑克游戏的人脑模型

:: 前一篇主题:偶感(三) ::

新用户注册 | 用户登陆 | 回复 | 刷新

大漠孤狼


发表文章数: 183
内力值: 178/178
贡献度: 1576
人气: 253
武功等级:
拈花指 (第八重)

基于德州扑克游戏的人脑模型 [文章类型: 原创]

我一直对一个人面对不同数量金钱会有什么反应这个问题感兴趣,苦于没有数据。几个月前突然想到,德州扑克正是非常快速直接面对金钱并作出相应判断与决策的一个游戏,或许能提供相应数据,于是就试着玩了起来。

在玩的过程中,为了提高自己的技能,看了几本关于德州扑克方面的经典专著,并仔细阅读了一个扑克策略学校的策略文章,结合这几年对心理学经济学与大脑神经网络等方面的学习,就有了一些想法,并有了想整理一下这些想法的欲望,也算是把近几年所学的知识做个一个串联与综合吧。

线上德州扑克最近在中国发展很快,四处收罗帖子拜师学艺的网民大有人在,我非常怕他们受到我的这个帖子某些错误知识的误导,先做一下声明:

1,在德州扑克方面,我只是一个新手,很多问题的解读未必正确。

2,这个系列帖子,主要是讲一个与德州扑克相关的简化大脑模型,并借助于这个简化模型,来说明一些德州扑克策略的心理基础与数学基础。这和如何玩好德州扑克所需的技巧是有一定差距的。

3,这个系列贴不讲玩德州扑克所需的规则与策略。假如有网友对德州扑克感兴趣,不要希望能在本系列贴找到如何玩德州扑克方面的知识。最好找到一个专业德州扑克策略学校学习相应的知识与策略。

之所以啰嗦这么一大套郭德纲不上春晚式的告白,主要是德州扑克玩的是真金白银,把持不住是会输大钱的;要是真因为我而发生了那样的事情,罪莫大焉。

发表时间: 2012-02-16, 21:39:41 >> 察看个人资料

大漠孤狼


发表文章数: 183
内力值: 178/178
贡献度: 1576
人气: 253
武功等级:
拈花指 (第八重)

Re: 基于德州扑克游戏的人脑模型 [文章类型: 原创]

一,与德州扑克游戏相关的2个脑袋假设

在神经心理学上,已经有人提出人有3个相对独立脑这样的设想,并从进化角度命名为爬行动物脑,旧哺育动物脑,新哺育动物脑;而从人脑生理结构上,也可以把大脑先粗略划分为3个相对独立的层次:即网状结构区(第一),边缘系统区(第二),联络皮层区(第三)。这2种分类方法,基本是对应的;即,爬行动物脑=网状结构区,旧哺育动物脑=边缘系统区,新哺育动物脑=联络皮层区。而在不同脑区的功能上也有不同侧重点,比如网状结构区主要负责觅食避敌性交,边缘系统区负责情绪反应,联络皮层区负责认知推理等。

记得看到这个模型时,对我触动最大的并不是对大脑具体功能的划分(这个模型本身很简略,相信随着时间的推移与对人脑认知的深入,必将会有更准确细致的生理划分与功能定位),而是我们的大脑并非只有一个控制中心这样的理念。这个理念,在以往的书籍或许也曾接触过,但如此清晰的确立起来并理解到这意味着什么,则是了解了这个模型以后的事。

有了这样的知识背景,当阅读德州扑克方面的书籍时,看到一些作者非常费力的表述某些观点时--比如,他知道自己直觉知道应该如何去玩一手牌;或者,他知道对手知道自己的真实弃牌率,因而,自己要调整弃牌率为***--时就想,假如从多个脑控制中心角度,应该如何表达这些情形呢?对于德州扑克这个游戏来说,又该如何假设各个控制中心的特点才能更合理呢?

显然,性交觅食与德州扑克无关,然而假如把避敌引申为对危险的避让,则可成为弃牌率的基础解释之一。问题在于,规避风险是3个脑区都具有的功能,而对金钱损失的规避是后天习得,而第一个脑区功能多是进化结果,并无相关。而对金钱的认识是否能够深入到第二脑我并不知道(我也不知道是否有人知道)。由于存在这些困难,索性从整体功能上来假设相对于德州扑克游戏的脑控制特性。

假设人们在玩德州扑克时的决策与选择是由2个相对独立的脑区共同控制的结果,分为A脑与B脑。

A脑定义为对不同外界信息的直接应激反应的不同模式加权组合,而某个模式的权重改变是由该模式引起结果导致的情绪不同来反馈调整。A脑无法认知A脑的状态。

B脑定义为具有认知能力的脑区,它可以对外界信息进行进一步的思考判断推理,也可以认知A脑,也具有认知B脑有多少认知外界信息与A脑能力的能力。B脑的认知能力中的一种,是利用科学手段认知外界信息与A脑与B脑的能力。由于B脑的这些特性,B脑具有控制人行为以获得长期利益的能力。

发表时间: 2012-02-17, 02:58:21 >> 察看个人资料

大漠孤狼


发表文章数: 183
内力值: 178/178
贡献度: 1576
人气: 253
武功等级:
拈花指 (第八重)

Re: 基于德州扑克游戏的人脑模型 [文章类型: 原创]

二,好的结果与正确的玩牌

在德州扑克中,“好”“坏”非常容易定义。一局牌的结果是好的,就是赢了这局牌;而好的强度,与这局牌赢到钱的数量正相关。同样,坏就是输掉了这局牌,坏的强度与输掉钱的数量正相关。

在德州扑克中,如何才是正确的玩牌,对此不同的人有不同的解读。斯克兰斯基给出了一个建立在概率基础之上的完全客观的定义:

所谓正确的玩牌,就是某个人在玩牌过程中所选的策略,与能够看到对手手牌(假设这个人有透视眼或者对手把手牌公开而让他看到)时按照出牌数正确计算输赢概率后所选最佳策略一样时,他就是在正确的玩牌。假如这个人玩法与正确玩牌不一致,他就是在错误的玩牌。而玩牌的错误度与正确玩牌与错误玩牌下注数量之差正相关。

斯克兰斯基的这个定义的中涉及到了概率与最佳策略,而为什么要用这2个概念需要结合德州扑克的规则来进行。

我们知道,在现场德州扑克中,单独来看某一局牌,当一副牌洗好并确认参赛人数与庄家位置后,那么每个人的手牌与公共牌是什么就已经完全确定下来,参赛人做出“加注”“跟注”“弃牌”等不同选择,只能影响游戏进程而无法影响参赛人手牌与公共牌的顺序与牌值。所以说,在这一局中,无论参赛者做出什么决策,只要坚持到最后,那么输赢是早在开局之前就已经确定了,只是参赛人不知道这个结果罢了。设想一下,假如所有参赛人都把手牌公开,发牌员把也把余下的牌朝上在桌面摊开,那么谁赢谁输当然是一目了然的。

正因为参赛人无法知道发牌员手中的发出的公共牌到底是什么(尽管发出什么牌在开局时就已经确定下来),所以只能根据自己的手牌,假设在相同手牌玩许多次情况下,自己用什么策略能够实现长期利益最大化。自然,随机洗牌下的许多局发出的公共牌可能性可以用概率知识来计算,而假如能知道对手手牌后为了实现长期利益最大化相选择的策略既是完美策略。

那么为什么不在未知对手手牌情形下来定义正确的玩牌这个概念呢?这是因为未知对手手牌情形下,如何去判断对手手牌的大少与范围和每个参赛者的能力(读人,读牌)有关,这样就不能建立起来一个客观标准来衡量参赛者的水平的概念了(知道对手手牌时也需计算各种出牌的概率,似乎也和牌手能力有关。其实不然,在那种情况下,我们可以假想有一个优秀的牌手甚至上帝替他计算,假如他计算的与标准答案不一致,那也只是他在犯错误,与正确的玩牌这个概念无关)。斯克兰斯基的这个定义最大程度保留了长期利益最大化下的正确玩牌这个概念的客观性,又让这个概念具有很大的实用性,能够成为衡量一个牌手水平的客观标准。

现在可以这样说了。任何参赛者玩的任何牌局都有可能“犯错误”,只是错误的大少不同。优秀的牌手就是尽可能的让自己犯小的错误,并通过一些策略诱导欺骗对手,促使其犯大的错误。假如一个牌手能够做到这一点,那么长期看来,他必定会接近长期利益最大化从而获利的。

发表时间: 2012-02-17, 22:57:14 >> 察看个人资料

大漠孤狼


发表文章数: 183
内力值: 178/178
贡献度: 1576
人气: 253
武功等级:
拈花指 (第八重)

Re: 基于德州扑克游戏的人脑模型 [文章类型: 原创]

三,制约正确玩牌的因素

正确的玩牌概念虽有,可想做到却非易事,我想至少有这样2个因素(现在能想到的还有一个原因是涨落,不过到底如何影响完美策略或正确玩牌我还没有想明白,就先不说了)制约着我们:1是我们毕竟没有透视眼,只能靠读人与读牌来判断对手手牌范围与牌值;2是玩牌过程中,每一局牌的输赢会影响我们的情绪,从而反过来影响我们的玩牌策略。

对于1,这是一个很技术性的问题,只是简略说说。

所谓的读人,无论是线上还是现场,首先都是注意搜集某个人的下注数量(首先下注),跟多大注(别人先下注他决定跟),再加注数量(别人先下注自己再加或者自己下注别人再加自己再加),看到别人下注多少后弃牌,这些因素与他的手牌的关联(并不是每一局牌都能玩到摊牌,但摊牌的局要格外注意);其次是要注意对手翻牌圈前跟注加注弃牌的比率,翻牌圈后持续加注(假如翻牌前是第一个主动加注)比率,反主动加注比率(翻牌前是跟注而翻牌后主动加注)比率,CHECK-RERAISE比率(先过牌等下家加注反而再加注),跟注比率,弃牌比率;同样,转牌圈与河牌圈下注再加注跟注弃牌的比率;最后摊牌时,对手价值下注与诈唬下注与跟注以及弃牌的各自比率。当这样的数据搜集足够多了,即可对其玩牌模式有一个大致了解(正确率当然和观察者能力有关)。另外,现场德州扑克需要观察对手玩牌过程中表情和肌体语言与手牌之间的关联;以及其精神状态是否有异常(比如情绪化了,疲惫了,喝酒了,走神了等)。

所谓读牌,就是根据以往对牌手的了解,结合这一局对手的在翻牌前翻牌圈转牌圈河牌圈种种表现,从而逐渐缩小该局其手牌的范围,做出较准确的判断甚至锁定其牌值的过程。

读牌完成后,然后根据对手手中2张牌的各种组合的可能性(直接成功锁定对手手牌的情况很少的,尽管很关键),依次计算翻牌圈3张牌转牌圈与河牌圈个1张牌出牌情形,从而计算翻牌前翻牌圈转牌圈自己应如何下注跟注弃牌才能利益最大化,并在河牌圈(假如玩到河牌圈的话)根据自己手牌与对手手牌各种可能性以及5张公共牌来判断是否加注以及加多大注,当对手下注多少自己跟注或者多少自己弃牌等。

因此,德州扑克这种玩法注定了正确的玩牌是可望而不可及的,即便能够理智的玩牌,我们也只能接近而不可能完全达到。

相对于1来说,2这个因素对我们是否能够尽可能正确玩牌的影响更大。

基于概率以长期利益最大化为目的的正确玩牌是需要理智的,而理智需要冷静的头脑与平静的心境才能最大程度发挥出来。一旦情绪化,一个人理智控制自己行为决策的能力即受到制约甚至完全丧失,而德州扑克正是一个极易让人情绪化的游戏。

由于玩德州扑克是一局一局的玩下来,而每一局牌实质在开局时就已经决定了输赢(只是我们事先不知道这个结果或者由于弃牌而主动放弃知道这个结果),因而无论我们多少正确的玩牌也可能输,而无论如何乱玩也可能赢。我们的理智虽然能够把这些不同情形下的输赢正确归类,但这些输赢结果对我们情绪的影响也是直接而又实在的。

作为人来说,我们都是喜赢厌输的。只要赢了,哪怕是胡来玩牌的结果也是高兴地;一旦输了,再怎么正确玩牌或者暗骂对手交了狗屎运,也无法完全解除自己心中的不快与失落。

发表时间: 2012-02-20, 23:30:24 >> 察看个人资料

大漠孤狼


发表文章数: 183
内力值: 178/178
贡献度: 1576
人气: 253
武功等级:
拈花指 (第八重)

Re: 基于德州扑克游戏的人脑模型 [文章类型: 原创]

(接上节)
对此我有亲身体验:

比如,假如我起手牌拿到了AA(这是最好的手牌了,对任何手牌赢率高达80%以上,除非对手也是AA而有相同的平局率),又成功的诱使某个对手全压。然后我与对手就亮牌等发牌,假如随着翻牌圈(3张)转牌圈(1张)河牌圈(1张)5张公共牌发出,而又输了这局牌,我的心里是很不好受的。即便是现在经过了4个多月的反复锤炼,我也需要留座退出,平静一下心情后才能继续玩牌(最初的一个月内我则大都直接关闭游戏界面了)。并且在随后的某局假如我又拿到AA,我就会犹豫是否还要在翻牌前诱使对手全压(当然,我的理智会说服我再次全压)。而假如赢了这首牌,我虽然也高兴却没有那么强烈。

相反,假如长时间没有好牌无法入局,我有时会在庄家位或关煞位用46s(46同色)加注,假如对手跟注而我又在翻牌圈击中“2对”或“三条”或顺子兆与同花兆并在转牌圈或河牌圈成牌从而赢下这一局,那么我是非常高兴的。以后又有类似的手牌我则有较强烈再玩的冲动(当然,一般来说,我的理智会说服自己弃牌不入局)。同样,假如我输了这一局,我则没有那么痛苦。

这种些情形其实没有超出瑞斯考拉在上世纪60年代做的一系列实验所揭示的规律:相比于反馈信息出现的频率,影响动物学习速度更关键因素是反馈信息与动物预期差异程度。我之所以输掉AA很痛苦,赢了46s很高兴,只是因为我预期AA会赢46s会输罢了。

现在用2个大脑模型来解读,看能否说的通。

理智的来正确玩牌是B脑的功能,而直觉的玩牌是A脑的功能。当我们在玩牌过程中,假如能够用B脑控制我们玩牌的策略,那么随着一局一局的锤炼,A脑会形成相应玩牌模式。但是,假如失去B脑的控制,那么即便A脑已经具有了正确玩牌的模式,也不会在随后的牌局中稳定停留在这样正确玩牌的模式中。因为影响A脑的某个模式权重改变有2方面,1是反馈信息的频率;2是该信息与其预期的偏离程度。

发表时间: 2012-02-21, 02:54:26 >> 察看个人资料

大漠孤狼


发表文章数: 183
内力值: 178/178
贡献度: 1576
人气: 253
武功等级:
拈花指 (第八重)

Re: 基于德州扑克游戏的人脑模型 [文章类型: 原创]

四,紧松与手牌牌力

德州扑克发展至今,留下了很多模棱两可甚至自相矛盾的警句,比如“遇到松手就玩得紧点,遇到紧手就玩得松点”就是其中之一,说的是不同人翻牌前根据手牌牌力决定是否入局这种情形。显然,在“手牌牌力”没有定义的情况下,如何“遇松则紧,遇紧则松”以及“松紧到何种程度”也就失去量化的参考点了。

我查了所能找到已翻译成中文的德州扑克书籍,没有发现关于这个问题的进一步解读。而在德州扑克策略学校里,虽有“小筹码策略”与“中筹码策略”下何种位置该玩什么手牌的标准答案,却没有为何应该这样玩的说明(太简单了没有必要说?)。而这个问题与后面的章节又有关联,那就以我对德州扑克的理解补一下吧。

依我看来手牌牌力即自己手牌在最后摊牌时能成多大牌面以及其可能性有多大。

首先把最终摊牌时有可能的成牌牌面(按德州扑克规则)从大到小排列为:

1,同花顺:40个
2,四条:572个
3,葫芦:3744个
4,同花:5108个
5,顺子:10200个
6, 三条:37440个
7,两对:101088个
8,一对:823680个
9,高牌:可能是1302540
10,各种可能组合:不超过2598960
(由于是先选7张牌,再在7张牌中选5张构成最大盘面,9,10的计算可能有偏差,不过基本上不影响涉及问题的性质)

由于同花顺与四条数量很少,属于可遇而不可求,故先不考虑。那么最大的4种牌面是“葫芦”“同花”“顺子”“三条”。因而手牌牌力的大小即转换为能够成为这4种牌面的可能性有多大的问题。

按照这种分类,那么就可以把手牌按其最有可能的发展趋势分为4个基本大类:即对子,非同色连(相连,间1,间2,间3)牌,同色非连牌,杂牌(非以上3种的组合)。

首先看对子,尽管所有的对子从概率上讲都已是一样的,但规则已经规定,AA>kk...>22,因而牌力已经区分开了(其余3类类似).

问题在于,AA大约比kk大多少呢?这个问题还是需要结合规则来定。

由于AA与KK都是对牌,假如不考虑它们成顺子与同花的概率,则KKK>AA>KK。又因为翻牌圈在德州扑克中的决定性地位(同时出现3张),所以只考虑翻牌圈,KK发展为kkk的可能性为12%左右,同样AA也有类似的概率成AAA。那么(AAAKKK+AAKK+AAAKK):(AAKKK)约为9:1,也就是说,AA大约是KK的9倍大(当然,AA也只是22的9倍大)。

(待续)

发表时间: 2012-03-08, 23:52:51 >> 察看个人资料

大漠孤狼


发表文章数: 183
内力值: 178/178
贡献度: 1576
人气: 253
武功等级:
拈花指 (第八重)

Re: 基于德州扑克游戏的人脑模型 [文章类型: 原创]

假设一个人拿到22,又知道对手(只考虑2人对决)也是对子(33-AA)情况下,那么翻牌前全压显然不是正确的玩法(因为此时他的胜负比为1:4.5)。可假如对手只是加注X而非全压,那么当X占有效筹码W多大时,22跟注才有利润?

显然,22在翻牌圈发展为222概率是12%。当他获得222时,对手也是三条的可能性约是8%,而在92%对手没有三条情形里,转牌圈+河牌圈而获得3条的可能性约8%。因而,当一个人用22跟注,翻牌没中三条弃牌,翻牌中了三条全压而对手跟注的情形下,此人获胜的可能性约为85%。简单计算即可知,翻牌前X:W的平衡点约为1:11。也就是说,只有对手的加注小于有效筹码的1/11时,22跟注才会有利润;而当加注大于有效筹码的1/11时,22除弃牌外任何策略长期来说都会输钱。

考虑到并非每次中三条都能够成功诱使对手全压与入局的目的是赢钱,策略学校给出的保守比值是1/20,也就是说,只有有效筹码是加注的20倍时,小对子才有跟注的利润空间,这就是call20原则,非常非常重要。

反过来。AA在翻牌前是最大的一手牌,能诱使对手全压就全压;假如没能全压而进入翻牌圈又没有中三条,即便牌面干燥没有顺子同花可能,也要注意风险控制了。

这个思路可以成为比较对牌与大牌之间大小的衡量标准。

从翻牌前全压来看,任何对牌哪怕是22对任何大牌哪怕是AK的胜负比(不考虑顺子与同花)至少是55:45,可一旦进入翻牌圈,那么AK明显比22有发展前途。下面以AK与QQ对决来说明这一点。

AK进入翻牌圈至少成一对的可能性约为33%,考虑到QQ在AK未成牌与AK成对牌而QQ成QQQ等各种情况,可算出AK跟注QQ加注的平衡点X:W约为1:3.保守下可看做1:5.

同样,(45o-TJo)在翻牌圈成顺子兆与一色在翻牌圈成同花兆的可能性大约是10%,而在转牌圈+河牌圈成同花与顺子的可能性约为1/3。这些牌有个特点,不成顺子与同花基本上没有摊牌价值,而成了同花与顺子,则对手很难赶上(毕竟成葫芦的可能性很少)。计算稍微复杂,翻牌前平衡点X:W大约在1:35。因而一般都是把一色与连牌结合起来组成一色连张(45s-TJs),这样平衡点在1:18左右,一般遵循call30原则。

在德州扑克里,公认的最小手牌是27o,27o在翻牌圈成两对的可能性为1%,各种可能下27o:(88-AA)的平衡点约为1:130。在高额现金桌里,起始有效筹码最小能达到1000大盲注,即便不考虑诈唬,27o也有跟注利润空间。我看高额现金德州扑克第六季中,现今最优秀的扑士Phil Ivey用27o再加注,尽管主要因为读出对手诈唬而反诈唬,可也有其合理的数学基础存在。不过这种玩法会带来极大的资金波动,一般人的心脏是接受不了的,即便是大赌徒,也只能偶尔为之,没有人会作为常态策略而运用。

发表时间: 2012-03-12, 03:38:29 >> 察看个人资料

大漠孤狼


发表文章数: 183
内力值: 178/178
贡献度: 1576
人气: 253
武功等级:
拈花指 (第八重)

Re: 基于德州扑克游戏的人脑模型 [文章类型: 原创]

由以上分析可知,当我们知道X/W时,考虑到翻牌圈,那么就可以确定与之相对应的手牌大小排序,接下来的问题是,当W确定时,能否找到一个优化策略,从而确定X(第一次加注)以及玩家弃牌诈唬跟注加注所对应的牌力段。

首先说明一下什么是优化策略( optimal strategy,也有翻译成最优策略,容易与最佳策略混淆,其实翻译成中立策略更好):优化策略是一个与对手策略无关的策略,即无论对手用什么策略游戏,该策略的收益总是固定的。与此相对应的是最佳策略,最佳策略是指针对对手所用的某个策略,该玩家可以获得利益最大化的策略。比如像剪子包袱锤游戏,优化策略既是1/3随机出剪子包袱锤的混态策略,在该策略下无论对手玩什么策略玩家也可以保证不输(当然也不赢);假如对手始终出剪子,那么该玩家始终出锤头既是最佳策略。

对此,冯诺依曼建立了一个简化模型,Ferguson父子这几年进行了推广,证明了该模型及其推广中唯一存在这个优化策略。

冯诺依曼的模型为:假设只有甲乙两个人对局,他们的牌是(0,1)开区间的随机数,一开始甲乙每人下注1,然后甲先行动;甲可以过牌,也可以加注任意数值X:当甲过牌时即开始比较双方大小;当甲加注X时,乙要么弃牌,要么跟注。

对于甲来说,他如果X确定的话,有且仅有一个优化策略,这个策略中有两个数A和B。如果他的牌小于A,或者大于B,他就下注,在A和B之间,他就check。乙也只有一个可接受的优化策略:他的牌大于C,就跟;小于c就就弃牌。

其中A=X*K,B=(2+4X+X*X)*K,C=X*(3+B)*K,K=1/(1+X)(4+X)

Ferguson父子对该模型推广了3次:第1次为,允许甲过牌时,乙加注,然后甲跟注或弃牌;第2次,允许甲加注时乙再加注,然后甲跟注或过牌;第3次,允许甲过牌乙加注而甲再加注,乙跟注或过牌。

对于最后一次推广,由于模拟了甲乙任意一个人加注再加注过程,能够涵盖了大部分德州扑克翻牌前的游戏过程(此时相当于扑克3-bet,假如有4-bet,那么对手要么弃牌,要么allin了)已经能够反映德州扑克的基本规律了。在此模型下,甲的策略可用ABCDEF6个参数确定;而乙的策略在甲加注时可用GHJ确定,在甲过牌时可用KMN确定。

对于再加注额R,对应一个优化数值,即potsize raise。假如彩池为A,对手加注为X,那么R=3X+A。

对于这个模型,我感到不解的是,为什么不是乙下注1而甲有弃牌跟注1及加注X的选择,假如说冯诺依曼的最初模型是为了简化,那么Ferguson父子的模型已经足够复杂了,根本就不差那点改动。Ferguson父子的子本身就是一个优秀的德州扑克玩家(要不也不能与他那研究博弈论的父亲共同来研究德州扑克模型),不至于连这点都想不到。也许是2者并没有本质上的差异?由于这个模型是扑克玩家霍华德介绍的,我并没有看到原始文章,等有机会找到看看到底是怎么回事吧。

发表时间: 2012-03-15, 01:32:14 >> 察看个人资料

大漠孤狼


发表文章数: 183
内力值: 178/178
贡献度: 1576
人气: 253
武功等级:
拈花指 (第八重)

Re: 基于德州扑克游戏的人脑模型 [文章类型: 原创]

每个牌手拿到的起手牌,只能是C(2,52)中的一个,共有1326个。对于对子,无论是(草花A+黑桃A)还是(红桃A+方片A),在翻牌前只能看做是一样大,没有区分的必要。因而,翻牌前有13种对子,每种6个;78种同色(比如AKs),每种4个;78种杂色(比如AKo),每种12个。这样计算下来,共有169种手牌。

对于这169种手牌的每一种,第n次决策,可以赋予它相应的参量,即加注概率Pn1,过牌概率(或跟注概率)Pn2,弃牌概率Pn3(自然,Pn1+Pn2+Pn3=1而只有2个独立变量)。对于Ferguson父子那样每人只有一次再加注的模型,则n=4,需要1352个参数即可以完全描述。

查看Ferguson父子的推导过程,其实一开始就做了简化假设:即用6个参数把手牌分成了7个牌力段;而每个牌力段对应一个固定的策略。这种简化也能求出一个优化策略,可也必然丢失一些游戏本应有的策略。下面就用一个现有的模型来说明。

假设只有甲乙2位玩家,其中甲是UTG(枪口位),乙是BU(庄家位)。牌只有3棵为KQJ,其中K>Q>J.假设甲乙各先下注1,加注额也固定为1.加注次数以Ferguson父子第一次推广为准。

这样共有6种组合,即(J,K)(J,Q)(Q,K)(Q,J)(K,Q)(K,J)。

为了进一步简化,做以下假定:

1,没有玩家拿到K时会弃牌。
2,没有玩家拿到J时会在对手加注时跟注。
3,拿到K的玩家,当对手加注必跟注,当对手过牌(或跟注)时必加注。
4,拿到Q的玩家在UTG必过牌.

(说明,这4个假设不都是必须的,对该模型我曾做过扩充推导,即便加注额为x,只要满足上述假设1,2,3.优化策略里4自动满足,而x的优化值是1)。

假设甲拿到J诈唬加注概率为P1,过牌概率为1-P1;拿到Q当乙加注时跟注概率为P2,弃牌概率为1-P2;拿到K时过牌的概率为P3,加注概率为1-P3。

假设乙拿到J当甲过牌时加注概率为Q1,弃牌为1-Q1;拿到Q当甲加注时跟注概率为Q2,弃牌为1-Q2。

由此可得出甲的期望收益:

UTG EV=1/6*(P1(1-3Q2)+P2(3Q1-1)+P3(Q2-Q1)-Q1)
=1/6*(Q1(3P2−P3−1)+Q2(P3−3P1)+(P1−P2))

由于是零和博弈,乙的期望收益 BU EV=-UTG EV。

由期望收益可知,乙的优化策略只有一个为Q1=1/3,Q2=1/3。

而甲的优化策略有无限个为P1=P3/3,P2=(1+P3)/3.

由于在德州扑克实战中,1,2,3假设并不是一个过分的假设,这样会导致一个后果:当后位玩家河牌圈成就公共牌所能支持的最大牌面时,当前位玩家加注时他必定再加注,当前位玩家过牌时他必定加注,当前位玩家全压时他必定跟注。所以描述后位玩家的参数将比前位玩家至少小1个。也就是说,前位玩家的优化策略很可能是多个,并且这个结论很可能带有普遍意义。

由于这个这个模型很简单,可以用系数为零的方法求出优化策略。不过这个思路对Ferguson父子第二次与第三次扩充的模型无能为力。我曾想用吸引域的思路来求局域优化策略,由于能力所限没能得出确切结论。后位玩家是否必定存在优化策略,是否会存在多个局域优化策略,现在还无法判断。

现在回到这个简化模型中。对于前位玩家,假如我们把是否用J加注定义为松紧度,划分为3个模块:松,紧,松紧均衡;把是否用K加注定义为主动攻击性,也取3个模块:主动,被动,攻守平衡;把是否用Q跟注看做冒险度:冒险,谨慎,风险适中,那么可把玩家分为9类。

其中3类1,松,主动,冒险;2,松紧均衡,攻守平衡,风险适中;3,紧,被动,谨慎,都是优化策略而没有什么破绽。他们都是鲨鱼。

另外6类玩家都偏离了优化策略从而有漏洞,其中有一类玩家策略最差:即,松,被动,冒险。他们用太多的小牌入局,大牌不主动加注,又勇于用中等牌跟大注,一般被称为跟注站。对于这类玩家,小牌不诈唬,中等牌不加注但却跟注,大牌下大注即是最佳策略。

对于真实德州扑克玩家,尽管需要考虑的因素更多,但也可以这样粗略划分,让自己的策略更具有针对性。

发表时间: 2012-04-08, 00:42:27 >> 察看个人资料

大漠孤狼


发表文章数: 183
内力值: 178/178
贡献度: 1576
人气: 253
武功等级:
拈花指 (第八重)

Re: 基于德州扑克游戏的人脑模型 [文章类型: 原创]

五,深度思考与玩家等级

在德州扑克中,深度思考是指某个玩家根据对手的思维来决定自己策略的一种思维方式。格式是(我知道(他知道(我知道(他知道(...)))),这样的循环让人头疼。好在现实中的人是有限理性的,在德州扑克里是通过对对手的观察,预先设定对手的等级,从而只需比对手多思考一步来中断这个无限循环,从而找到相应的最佳策略(或比优化策略有更大收益的策略)。

在德州扑克中,把只考虑自己手牌与公共牌的玩家定义为零级玩家。这种类型的玩家,他们把对手看做无差异的概率人,并不观察对手是否具有独有的特性;只是根据自己的手牌以及公共牌的各种组合,做出加注跟注弃牌等策略选择。

需要说明的是,零级玩家并非是不能赢钱的玩家(尤其是低级别玩场里与小筹码策略下),也不是只用一种玩法打通关的玩家。一个优秀的零级玩家完全有可能赢钱,也完全可以更换不同的策略组合(但未必是优化策略),只是他的这些策略以及变换与对手的策略无关罢了。一般来说,假如严格按照正规的德州扑克策略学校教的策略玩的玩家,既是一个优秀的零级玩家。

零级玩家的策略可以编写成程序,我在凤凰网的虚拟币德州扑克玩场里遇到过这样的机器人。它们会随机的选择不同的策略组合玩牌,赢它们并不容易。当然,由于这些机器人玩牌模式毕竟有限,仔细观察后确实可以提高赢它们的概率。

由于零级玩家的这种机械性,在我这里是把他们归类为只靠A脑来玩的玩家。

在德州扑克里,一级玩家定义为:假如对手是零级玩家,那么具有能够观察对手的玩牌模式,并制定相应策略以提高自己收益的玩家。

一级玩家至少要有以下能力:

1,假如对手是零级玩家,那么他能识别出来。但这不意味着对手伪装成零级玩家,他必须识别出来对手不是零级玩家。
2,它能够识别出对手的玩牌模式是否有漏洞,并制定自己的玩牌策略。

当然,一级玩家也有水平差异,可以分为不同层次。用我的分类方法,一级玩家是cA+dB作用的结果。

二级玩家指的是假如对手具有一级玩家能力,那么它能够识别出来并区分对手的零级部分与一级部分比例,并有根据对手的思维方式来调整自己策略的能力。

二级玩家要求更高了,用我的标识方法说来是:

1,他的B脑要具有识别对手是否是一级玩家的能力。
2,他的B脑要具有识别对手A脑玩牌模式。
3,他的B脑要具有识别自己当前A脑玩牌模式。
4,他的B脑要识别对手B脑对自己A脑玩牌的认知是什么。
5,他的B脑要根据对手B脑制定的玩牌策略来制定自己的玩牌策略。

显然,一个二级玩家遇到零级玩家,他仍然用以上模式思考,会得出很荒谬的结论来。此时他只需用一级玩家思维方式制定策略即可。

对于更高级的玩家,依照类似的思路去定义。

由于自己现在只能算“中等零级+初等一级玩家”,对更高级的玩法没有体验,我现在能理解二级玩家的思路,这个思路与一级玩家想比有新的东西,增加了双方B脑之间的较量。三级玩家与二级玩家相比并没有新的东西,只是增加了B脑与B脑之间的考虑次数。由于德州扑克对对手信息的不完全性,即便这些推理过程没有失误,那么由于初始条件必定存在的误差,我很怀疑这样思考下来得出的结论是否还有足够的精度成为制定相应策略的依据,也怀疑是否真的有三级玩家以上的玩家存在。

发表时间: 2012-04-08, 03:24:28 >> 察看个人资料

大漠孤狼


发表文章数: 183
内力值: 178/178
贡献度: 1576
人气: 253
武功等级:
拈花指 (第八重)

Re: 基于德州扑克游戏的人脑模型 [文章类型: 原创]

六,下注额与弃牌率

在德州扑克中,跟注这个策略不同于加注,更加依赖读人读牌这个能力。

比如在河牌圈,此时牌局随着最后一颗牌发出大局已定,此时玩家是输是赢再无变化。不过,由于信息的不透明,除非玩家拿到公共牌所能支持的最大牌(大多数牌局是可以确定自己是否拿到这个最大牌的),玩家一般不可能确切知道自己的输赢。只能根据读人读牌技术,判断自己胜率是多少(当然精度与个人技术有关)。此时假如对手加注X,假设该玩家只能跟注或弃牌,那么他该如何选择?

假设此时玩家判断自己胜率为P,彩池已有筹码为A,那么玩家跟注的期望收益 EV=AP+(2P-1)X

显然,只有当EV>0 时,该玩家才有跟注必要,否则就弃牌。此时只有P,A,X三个参数决定了该玩家的决策,仿佛是很简单的事情。可惜影响德州扑克的弃牌与跟注更多是心理原因而非计算的正确与否(德州扑克所用到的数学大都简单,一般高中生即可领会运用,这方面不是大多数玩家面临的困境)。

根据别人的经验之谈以及个人的体验,我觉得影响玩家弃牌率的因素至少有以下几点:

1,因玩牌习惯对资金波动产生不适感而过多弃牌。

我玩德州扑克,最初1个月左右在凤凰网熟悉规则玩游戏币时比较随意。用真钱玩后,曾严格按照策略学校的策略玩了2个月左右。策略里在中筹码策略(40BB)什么位置该玩什么牌,什么牌加注,什么牌跟注,什么牌再加注是有明确规定的,养成了紧手风格。

可习惯紧手加注4BB再加注3倍对手加注后,再遇到那些松疯玩家,翻牌前动不动加注10BB甚至全压翻牌后超出彩池筹码加注时,明显感觉不适应。即便我的理智知道他们就是在胡玩,也知道自己用来加注的牌平均胜率远大于对手,也往往会弃掉。因为此时跟大注超出了我的心理舒适区,由此引起的资金波动也让我感到不适应。直到我转为标准筹码(100BB)后,在不断的心理建设下,有意识的训练自己不同风格的玩牌方式后,这种不适应感才慢慢减弱消失(但从一种风格转为另一种风格,哪怕是自己有意识的,最初的几手牌仍有不适应感)。

这种不适应感并非是怕输心理造成的,而是人习惯某种节奏后,突然被打乱产生的不适感,此时人们容易产生保守心理。

2,想赢怕输心理的影响

我曾细心体察,假如做到了以长期利益最大化为目的的玩牌时,此时虽然也希望赢,不愿意输,但并没有相应的想赢怕输引起的种种心理与生理上反应。此时我可以做到尽自己最大能力读人读牌计算输赢概率并以此作为跟注加注弃牌的唯一依据。

当心跳加速血压提升时,此时我想赢又怕输的欲望也强烈起来。此时我也能做到计算输赢概率这一步骤,可我的决策却未必以此为依据。假如此时我想赢的欲望最终占了上风,那么我就会更多的强调跟注或加注的理由;假如此时最终怕输的念头占了上风,我也会不由自主的找一些弃牌的理由来说服自己弃牌(有时也会犹豫不决因超过30秒时限被系统强制弃牌)。

3,情绪完全失控时的影响

据别的玩家介绍,当情绪完全失控时,要么赌红了眼,什么牌都敢跟或全压(这种状态不把自己所有资金全输光是不会停止的);要么被打怕了,高对怕2对,2对怕三条,三条怕顺子或同花,同花又怕有对子的盘面唯恐对手是葫芦。总之,只要不拿到确保最大的牌,都畏畏缩缩不敢跟注。

自感我还没有处于这样极端的情绪中过,不过也多次发生过用一个小对或类似的牌力的牌跟对手全压结果人家是葫芦(或超出自己牌力很多),也发生过拿着三条面对3张一样花色对手加大注犹豫半天最终弃牌,其实类似这样的牌应该跟(或以一个较高的概率值随机跟),即便输了也是警告对手不要过分诈唬,让以后局势朝有利于自己一方转变.

此时人的大脑只有一种模式,要么是不顾一切的相应,要么是极端的怕输,没有输赢并存或理智玩牌的模式存在。

4,超出自己资金承受能力玩牌时患得患失心理

2,3的情形的发生,一般开始时还是在资金管理范围内玩牌。当持续的输牌后(不管是遇到高手因技术差距而输还是自己牌运不佳对手又交了狗屎运)又急于扳回,陷入“输了追状态”最终孤注一掷,总之是由一个发展过程。

可有些人就是会一开始就超出自己的经济承受能力玩牌。比如某个玩家前几天输了一大笔钱,今天又拿着全部积蓄来翻本。或者某个人因别的原因发生了债务而又无力偿还,就拿着剩下的资金去赌场碰碰运气,祈求命运女神看着他已倒霉透顶的可怜样而怜悯眷顾。

这种人想赢又怕输的心理非常明显,行动上大起大落,有可能用小牌押大注,也可能手持大牌反而不敢下注,行为不易预测。

这条我没有体验,是根据别的玩家介绍推测的。

5,低级玩场不把钱当回事的松疯心理

我先接触的是线上扑克,最小的玩场是小盲1分大盲2分,买入最低1美元最多5美元。经常会看到一些玩家拿着5美元上场,每局都全压。结局大多是用不了几轮筹码就被人瓜分完而闪人,不过也会有因运气好反而赢了很多的现象。这种现象随着场次等级提高会减少,但在1-2大小盲200标准买入的现金桌仍不时出现。

其实在低级玩场大多数玩家虽然没有那些松疯玩家那么疯狂,可不把1美元看做1美元现象普遍存在。最初我在低级玩场玩时,有时练烦了,也常常会有不就1美元嘛,全压得了的心理。而不是时刻根据自己与对手有效筹码与大小盲比例,或者与彩池筹码比例结合输赢概率玩牌。

我玩牌的初始原因既是收集金钱数量与人的行为关系,尤其看了斯克兰斯基专著里把弃牌率与金钱的关系用图表描述成S型,更让我感到振奋,因为我以前即猜测这个关系可能是S型。可到现在为止,我收集了接近2万手牌的数据,却并没有验证这一点。在图表中,这些数据杂乱无章,不像任何简单的几何图形。为什么会这样,我还想不明白。

不过,我至少以下几点比较可靠:

1,把对赢的渴望与对输的担忧处理成类似人眼那种带侧枝抑制的网络模型是错误的。这2种欲望并非全有全无式排斥模式,我能感觉到它们会同时存在。

2,可把它们处理成叠加模式也是错误的,这个我虽然没有亲身体验,可观察别人能感觉到在极端情形下2种欲望确实只会相互排斥并只存在一种,符合全有全无模式。

3,当对赢的渴望占主动时,我们更倾向于冒险;当对输的担忧占主动时,我们更倾向于规避保守。

4,要把有意识的玩牌与凭感觉玩牌分开,斯克兰斯基的s型可能是凭感觉玩牌的特性。

发表时间: 2012-04-12, 03:45:57 >> 察看个人资料

driverme


发表文章数: 1
内力值: 60/60
贡献度: 1
人气: 0
武功等级:
野球拳 (第一重)

Re: 基于德州扑克游戏的人脑模型 [文章类型: 原创]

写得真好

发表时间: 2012-09-05, 01:46:49 >> 察看个人资料
  :: 新用户注册 | 用户登陆 | 回复 | 刷新 ::
您尚未登陆 | 用户登陆