繁星客栈 - 逻辑概率理论

逻辑概率论起源于物理学家Cox在1940年代的一个定理。我们先来看看命题逻辑体系。在一个普通的命题逻辑体系中，每一个命题或陈述都赋予一个真值，错误的命题赋值$0$,正确的赋值$1$.但是在现实生活中我们需要面对很多不能都断然否定或者完全肯定的命题。比如某个人对于另一个人的判断，除开性别年龄这些完全确定的问题，对绝大多数的问题都没有确切的答案，比如人的工作能力。除非我们武断的下结论说某人就是工作能力很低，毫无是处。既然现实生活中有这样的问题而又没有现成的理论，那就值得我们认真对待并建立一套理论来回答这些问题。

我们做出如下的假定并给出相应的直观解释。考虑一个人力主管Alice对应聘者Bob工作能力的评估。
Alice将根据Bob的情况和实际的工作需要进行评估。为方便起见，记
\begin{eqnarray*}
A&=&\mbox{Bob的工作能力}\\
B&=&\mbox{Bob具有大学学历}\\
C&=&\mbox{Bob的工作经历}\\
D&=&\mbox{某项工作对工作人员的要求}.
\end{eqnarray*}

注意到，从一个人的学历、工作经验、应聘的工作等等，都不可能从逻辑上推出一个人从事该项工作的能力。当然我们可以根据这些了解到的情况作出判断，但这个判断基于非充分推断。也就是说，我们可以从一个人的学历对其能力进行估计，但是学历不足以决定能力。但我们仍然形式上的将这个推理过程记作$B\to A$.$B$不是决定$A$的充分条件，所以这个推断过程被称为非充分推理。非充分推理不是由前提通过纯逻辑上的演算得出结论，而是通过前提对结论进行评估。评估的结果用一个$[0,1]$中
的数来表示。这是Plausibility理论或者说逻辑概率论的一个基本假设，当然也可以说是公理。全部的公理如下。

$(1)$ 对每一个命题赋予一个介于$[0,1]$之间的非负实数，称为这个命题的合理度Plausibility.
命题``$B\to A$"的合理程度记作$\mu(A|B)$,解释为已知条件$B$时，$A$的合理程度。注意到这个表达式与条件概率的表达式一致。命题``$B\to A$"并不具有和通常的形式逻辑体系下的蕴涵关系相同的意义。可以将$B\to A$仅仅看作一个表达式。Allice用一个$[0,1]$中的实数来表示在她心目中Bob工作能力的高低。这个实数就是一个Plausibility,
$$
\mu(\mbox{Bob的工作能力}|\mbox{Bob 拥有大学本科学历}).
$$
这个值解释为，当Allice知道Bob拥有大学学历时，Allice对Bob的工作能力做出的评估。我们用$\mu(A|B)$或者$(A|B)$来表示这个数。注意，并不要求每个判断者都做出相同的判断。另一个叫做Tom的人可能会对Bob的工作能力做出大相径庭的评估。因而上面的赋值仅仅表示Allice的Plausibility.Plausibility是针对单个的评估者而言的。不一定存在对所有人都通用的Plausibility,因而这个理论确实表达了个人的主观信念。

$(2)$ 我们用记号$AB$表示命题$A,B$同时成立。第二个假设是要求$\mu(AB|C)$由$\mu(B|C)$以及$\mu(A|BC)$所决定。亦即存在一个二元函数$F$使得
$$
\mu(AB|C)=F(\mu(B|C),\mu(A|BC)).
$$
这个式子的直观解释如下。若Alice知道Bob的工作经历，她可以凭借这些了解对Bob是否具有大学学历学历和工作能力同时进行评估。那么，这个公理的含义可以这样叙述。Alice先由Bob的工作经历来对Bob的学历进行评估，然后由Bob的工作经历和学历来评估Bob的工作能力。最后Alice以某种方式将这两个评估值合成一个，这一步由函数$F$来实现。

注意到从一个人的工作经历也可以反推其学历。比如一个人如果曾经是大学物理系教师，那么我们多半也可以推断此人至少具有大学学历。当然例外仍然是有的。我们的例子稍有不足。因为一个人是否具有大学学历是完全确定的，但仍然可以解释，比如我们有可能并不知道这个人是否拥有大学学历，而且有时我们并不能直接询问此人。Plausibility理论就是用来描述这种对于某人来说是未知的事件。

$(3)$ $\mu(\bar{A}|B)$由$\mu(A|B)$所决定。亦即存在一个函数$S$,使得
$$
\mu(\bar{A}|B)=S(\mu(A|B)).
$$
这个式子的直观解释如下。Alice从Bob的大学学历来评估Bob的能力。Alice可以从肯定的方式来进行评估，评估值为Bob的能力，即$\mu(A|B)$.Alice也可以通过否定的方式来进行评估，评估的值为Bob的能力的否定，即Bob不具有某种能力的评估值，即$\mu(\bar{A}|B)$。这两种评估方式之间是有联系的。Alice可以选取一个函数$S$来将一种评估值换算为另一种方式下的评估值。

$(4)$ 函数$F,S$应该满足一定的条件，如下，

$(i)$ $F,S$是连续函数。

$(ii)$ 对于给定的$x\not=0$,$F(x,y)$是关于$y$的严格单调递增函数。另一方面，对给定的$y\not=0$,$F(x,y)$是关于$x$的严格单调递增函数。亦即$F$对两个分量都分别是单调函数。

$(iii)$ $S$ 是严格单调下降函数。

容易看出，这些要求是很自然的。

当然最重要的就是$(\mu,F,S)$构成一个不矛盾的、相容的体系。由此，Cox断言，对于满足上述条件的Plausibility函数$\mu$,存在一个严格单调函数$w$以及一个大于$0$的常数$k$,使得$P=(w\circ\mu)^k$为一个概率。亦即$P$满足有限可加性且$P(True)=1,P(False)=0$.此处$True$表示逻辑上恒真的命题，比如$1=1$.$False$表示逻辑上恒假的命题，比如$1>1$.换言之，Cox定理实际上是说Palusibility就是Probability.

当然一个人在日常生活中做出的推理不一定是互不矛盾的。Jaynes设计了一个机器人来克服这个小问题。如果我们要建造一个按照上述方式推理的机器人，那么机器人遵守的规则其实就是概率。机器人很容易做到内部一致性，而不是像人那样经常做出相互矛盾的推断。

容易看出通常的概率论都可以这样解释。比如假设$(\Omega,\mathcal{A},P)$为一个通常的概率空间，则当事件$B$发生的条件下事件$A$发生的条件概率$P(A|B)$就可以如下解释。用``$x\in A$"表示一个命题。则$P(A|B)$就是$``x\in B"\to ``x\in A"$的Plausibility. 以这种方式来解释概率,其最主要的作用是很清楚的解释了Bayesian统计推断中先验分布的含义。也就是说，Tom选取的先验分布$w(\theta)d\theta$表示Tom认为$\theta\in A\subseteq\Theta$的Plausibility等于
$$
\int_Sw(\theta)d\theta.
$$

据此Jaynes以及一些跟随者认为概率本质上是一个Plausibility,是相应的命题逻辑体系的合理程度。这种观点被称为逻辑概率论。持有这种观点的人还有Carnap.其中Jaynes是最主要的倡导者。Jaynes还进一步将Plausibility和他的最大熵原则相联系起来。

回顾一下Cox定理的证明是有益的。

首先，由假设$(2)$,容易推出Plausibility函数$\mu$满足结合律，即
$$
F(F(\mu(C|D),\mu(B|CD)),\mu(A|BCD))=F(\mu(C|D),F(\mu(B|CD),\mu(A|BCD))).
$$
亦即
$$
F(F(x,y),z)=F(x,F(y,z)).
$$
容易证明满足这个函数方程的$F$一定形如下述。存在单调函数$w$使得
$$
F(x,y)=w^{-1}(w(x)w(y)).
$$
当$F$为连续可导函数时，可以简单证明这个结论。但即使只要求$F$连续，也能证明相应的结论，当然证明的难度增加了很多。

令$\nu=w\circ\mu$,$G(x,y)=w(F(w^{-1}(x),w^{-1}(y)))=xy$,$T(x)=w(S(w^{-1}(x)))$.
则$(\nu,G,S)$仍然构成一个Plausibility体系。接下来，由$\nu(\bar{A}|B)=T(\nu(A|B))$,可以推出存在$k>0$,使得$P=\nu^k$为一个概率测度。

这是Cox证明的纲要。这个证明充分体现了物理学家的证明方式。一个定理总是需要一些条件的，Cox定理也不例外。但是Cox并没有明确的列举出来他依赖的条件。Cox的证明在差不多40年的时间中都没有人提出疑问，大多数人都为如此简单自然的推理而感到惊讶，没有意识到其中有一个小小的漏洞。
可想而知，我们要从一个相当自然的证明中发现那些隐含的假定是很不容易的。在我们思维的角落里总是盘踞着一些想当然的隐含假设。这些假设通常都极其简单、自然以至于很难被注意到。在Cox的证明中用到的隐含假设如下。

事实上，Cox导出的结合律并不是对所有的$[0,1]$之间的数都成立，实际上只对$(\mu(C|D),\mu(B|CD),\mu(A|BCD))$成立。如果不假定结合律对所有$[0,1]$之间的数都成立，就可能不存在$w$使得$F(x,y)=w^{-1}(w(x)w(y))$.事实上可以举出反例。比如Joseph Y. Halpern的论文``A counter example to Theorems of Cox and Fine".

幸运的是Cox证明中的缺陷并不是致命的失误。如果我们要求$F$是通用的，亦即不仅仅对某个特定的命题体系成立的话，那么仍然可以证明Cox定理。分析这个证明，无非是想指出，我们很容易想当然的假定某些事实。而且我们不知道这种隐含的假设是否会导致致命的错误。即使看起来最严格的证明也有可能会有不引人注目的缺陷。检查这些不太完整的证明基本上都是一件吃力不讨好的事情，除非该定理的结论是错误的而且不可挽救。Cox定理仍然叫做Cox定理，不会因为Halpern指出了证明中的漏洞就改作Halpern定理。当然Halpern这个工作并不困难，至少他没有耗费太多的力气而且他也指出了一些有意义的问题，比如人工智能中的机器人使用的就是有限多个命题的模式。