逻辑概率论起源于物理学家Cox在1940年代的一个定理。我们先来看看命题逻辑体系。在一个普通的命题逻辑体系中,每一个命题或陈述都赋予一个真值,错误的命题赋值$0$,正确的赋值$1$.但是在现实生活中我们需要面对很多不能都断然否定或者完全肯定的命题。比如某个人对于另一个人的判断,除开性别年龄这些完全确定的问题,对绝大多数的问题都没有确切的答案,比如人的工作能力。除非我们武断的下结论说某人就是工作能力很低,毫无是处。既然现实生活中有这样的问题而又没有现成的理论,那就值得我们认真对待并建立一套理论来回答这些问题。
我们做出如下的假定并给出相应的直观解释。考虑一个人力主管Alice对应聘者Bob工作能力的评估。
Alice将根据Bob的情况和实际的工作需要进行评估。为方便起见,记
\begin{eqnarray*}
A&=&\mbox{Bob的工作能力}\\
B&=&\mbox{Bob具有大学学历}\\
C&=&\mbox{Bob的工作经历}\\
D&=&\mbox{某项工作对工作人员的要求}.
\end{eqnarray*}
注意到,从一个人的学历、工作经验、应聘的工作等等,都不可能从逻辑上推出一个人从事该项工作的能力。当然我们可以根据这些了解到的情况作出判断,但这个判断基于非充分推断。也就是说,我们可以从一个人的学历对其能力进行估计,但是学历不足以决定能力。但我们仍然形式上的将这个推理过程记作$B\to A$.$B$不是决定$A$的充分条件,所以这个推断过程被称为非充分推理。非充分推理不是由前提通过纯逻辑上的演算得出结论,而是通过前提对结论进行评估。评估的结果用一个$[0,1]$中
的数来表示。这是Plausibility理论或者说逻辑概率论的一个基本假设,当然也可以说是公理。全部的公理如下。
$(1)$ 对每一个命题赋予一个介于$[0,1]$之间的非负实数,称为这个命题的合理度Plausibility.
命题``$B\to A$"的合理程度记作$\mu(A|B)$,解释为已知条件$B$时,$A$的合理程度。注意到这个表达式与条件概率的表达式一致。命题``$B\to A$"并不具有和通常的形式逻辑体系下的蕴涵关系相同的意义。可以将$B\to A$仅仅看作一个表达式。Allice用一个$[0,1]$中的实数来表示在她心目中Bob工作能力的高低。这个实数就是一个Plausibility,
$$
\mu(\mbox{Bob的工作能力}|\mbox{Bob 拥有大学本科学历}).
$$
这个值解释为,当Allice知道Bob拥有大学学历时,Allice对Bob的工作能力做出的评估。我们用$\mu(A|B)$或者$(A|B)$来表示这个数。注意,并不要求每个判断者都做出相同的判断。另一个叫做Tom的人可能会对Bob的工作能力做出大相径庭的评估。因而上面的赋值仅仅表示Allice的Plausibility.Plausibility是针对单个的评估者而言的。不一定存在对所有人都通用的Plausibility,因而这个理论确实表达了个人的主观信念。
$(2)$ 我们用记号$AB$表示命题$A,B$同时成立。第二个假设是要求$\mu(AB|C)$由$\mu(B|C)$以及$\mu(A|BC)$所决定。亦即存在一个二元函数$F$使得
$$
\mu(AB|C)=F(\mu(B|C),\mu(A|BC)).
$$
这个式子的直观解释如下。若Alice知道Bob的工作经历,她可以凭借这些了解对Bob是否具有大学学历学历和工作能力同时进行评估。那么,这个公理的含义可以这样叙述。Alice先由Bob的工作经历来对Bob的学历进行评估,然后由Bob的工作经历和学历来评估Bob的工作能力。最后Alice以某种方式将这两个评估值合成一个,这一步由函数$F$来实现。
注意到从一个人的工作经历也可以反推其学历。比如一个人如果曾经是大学物理系教师,那么我们多半也可以推断此人至少具有大学学历。当然例外仍然是有的。我们的例子稍有不足。因为一个人是否具有大学学历是完全确定的,但仍然可以解释,比如我们有可能并不知道这个人是否拥有大学学历,而且有时我们并不能直接询问此人。Plausibility理论就是用来描述这种对于某人来说是未知的事件。
$(3)$ $\mu(\bar{A}|B)$由$\mu(A|B)$所决定。亦即存在一个函数$S$,使得
$$
\mu(\bar{A}|B)=S(\mu(A|B)).
$$
这个式子的直观解释如下。Alice从Bob的大学学历来评估Bob的能力。Alice可以从肯定的方式来进行评估,评估值为Bob的能力,即$\mu(A|B)$.Alice也可以通过否定的方式来进行评估,评估的值为Bob的能力的否定,即Bob不具有某种能力的评估值,即$\mu(\bar{A}|B)$。这两种评估方式之间是有联系的。Alice可以选取一个函数$S$来将一种评估值换算为另一种方式下的评估值。
$(4)$ 函数$F,S$应该满足一定的条件,如下,
$(i)$ $F,S$是连续函数。
$(ii)$ 对于给定的$x\not=0$,$F(x,y)$是关于$y$的严格单调递增函数。另一方面,对给定的$y\not=0$,$F(x,y)$是关于$x$的严格单调递增函数。亦即$F$对两个分量都分别是单调函数。
$(iii)$ $S$ 是严格单调下降函数。
容易看出,这些要求是很自然的。
当然最重要的就是$(\mu,F,S)$构成一个不矛盾的、相容的体系。由此,Cox断言,对于满足上述条件的Plausibility函数$\mu$,存在一个严格单调函数$w$以及一个大于$0$的常数$k$,使得$P=(w\circ\mu)^k$为一个概率。亦即$P$满足有限可加性且$P(True)=1,P(False)=0$.此处$True$表示逻辑上恒真的命题,比如$1=1$.$False$表示逻辑上恒假的命题,比如$1>1$.换言之,Cox定理实际上是说Palusibility就是Probability.
当然一个人在日常生活中做出的推理不一定是互不矛盾的。Jaynes设计了一个机器人来克服这个小问题。如果我们要建造一个按照上述方式推理的机器人,那么机器人遵守的规则其实就是概率。机器人很容易做到内部一致性,而不是像人那样经常做出相互矛盾的推断。
容易看出通常的概率论都可以这样解释。比如假设$(\Omega,\mathcal{A},P)$为一个通常的概率空间,则当事件$B$发生的条件下事件$A$发生的条件概率$P(A|B)$就可以如下解释。用``$x\in A$"表示一个命题。则$P(A|B)$就是$``x\in B"\to ``x\in A"$的Plausibility. 以这种方式来解释概率,其最主要的作用是很清楚的解释了Bayesian统计推断中先验分布的含义。也就是说,Tom选取的先验分布$w(\theta)d\theta$表示Tom认为$\theta\in A\subseteq\Theta$的Plausibility等于
$$
\int_Sw(\theta)d\theta.
$$
据此Jaynes以及一些跟随者认为概率本质上是一个Plausibility,是相应的命题逻辑体系的合理程度。这种观点被称为逻辑概率论。持有这种观点的人还有Carnap.其中Jaynes是最主要的倡导者。Jaynes还进一步将Plausibility和他的最大熵原则相联系起来。