明天太阳依然升起的概率

新用户注册 | 用户登陆 | 刷新

gauge


发表文章数: 596
内力值: 375/375
贡献度: 8310
人气: 1396

论坛嘉宾学术成员

标题: 明天太阳依然升起的概率
作者: gauge

明天太阳依然升起的概率是多少?这是由Laplace提出并解决的一个概率问题。理解这个问题对于理解Bayesian统计推断是很有帮助的。

太阳或者升起或者不升起,二者互不相容,太阳明天是否升起是一个确定的事件,谈论太阳是否升起的客观概率是没有意义的。这个问题可以重新表述为:你认为太阳明天依然升起的概率是多少?这就转化为一个人,而且是某一个特定的人对于一个客观事件的主观判断。对于确定性的事件而言,客观概率都是没有意义的,因而似乎就只有采用主观概率的方式来处理这些带有随机性的事件。

我们按照Bayesian推断的方式来讨论这个问题。采用如下记号。SunRise=``太阳升起"。NotRise=``太阳没有升起"。假设$P (SunRise)=p$,则$p\in[0,1]$,但是我们并不知道$p$的准确值。事实上,$p$的准确值正是我们要推断的。既然我们不知道$p$ 到底等于多少,那么我们就需要对$[0,1]$之间的每一个数是否就是真实的$p$值进行评估。Bayesian先验分布就是这样的一个评估。也就是说,假设先验分布相对于Lebesgue测度的密度函数为$w(p)$.这意味着我们的评估相当于说``$p\in[a,b]\subseteq[0,1]$ "的可能性为$\int_a^bw(p)dp$.

按照Bayesian推断的方法。当我们观察到事实,太阳在过去的$N$天中升起了$k$次。那么我们需要将对于太阳升起的概率修正为
$$
w(p|N,k)=\frac{w(p)p^k(1-p)^{N-k}}
{\int_0^1w(p)p^k(1-p)^{N-k}dp}.
$$
这仍然是关于$p$的一个评估,即在观察到事实$(N,k)$后,对于$p$的真实值的一个评估。我们需要给出一个具体的值,换言之,要作一个关于$p$的点估计。Bayesian的方法是计算平均值,即以
$$
\hat{p}=\int_0^1p w(p|N,k)dp,
$$
作为``太阳升起"的主观概率。为计算出来一个确定的值,需要知道先验分布$w(p)$.

接下来,我们需要选定一个先验分布从而可以计算出$\hat{p}$.Laplace认为一个公平的假设是合理的,即$p$是$[0,1]$中的任意一个值都有相同的可能性。亦即先验分布密度为$w(p)=1$.这样可以算出
$$
\hat{p}=\frac{k+1}{N+2}.
$$
这个值称之为Laplace法则。

假设在人类的历史上太阳一直升起。这是合理的。再假设人类的文明史始于亚当,或者大洪水之后,或者公元前6000年,距离现在差不多
$$
6000\times365\approx2\times10^6天.
$$
因而我们可以认为太阳明天不升起的概率为一百万分之五。当然这里有值得商讨之处,比如从哪一天开始Bayesian统计过程。可以接受的合理的选择至少包括如下几种

$(1)$ 从一个人生下来开始。

$(2)$ 从某一个值得信赖的记录了太阳升起的时间开始。

这样算出来的概率比前述的百万分之五要小。

这里我们选择均匀分布$w(p)=1$看似合理,其实不然。我们已经知道这个均匀性严重的依赖于背景Lebesgue测度。如何选择先验分布是 Bayesian统计推断的主要的理论要素。选择先验分布不是一件容易的事情。Bayesian学派内部的分歧也由此产生,并分为主观Bayesian和客观Bayesian.当人们提出一个先验分布的时候,总是要给出一通道理说明,他给出的分布在某些方面要优于另外的分布。不同的人完全有理由给出完全不同的先验分布。对于一个盲人而言,太阳升起与否对他的影响很小,他甚至可以固执的人为太阳从来都没有升起过,当然他要否定太阳这个物体的存在也是可以的,只是不正确罢了。因而这个盲人选择的先验分布就是概率密度集中于一个点p=0上的\delta型分布。当然这个分布实际上不具有任何随机性。那么按照 Bayesian统计推断,这个盲人将永远认为“太阳明天升起”的概率等于0,不论以往的日子是1天还是1000天,而且在其中的每一天太阳都升起了。只要这个带有巨大的偏见的盲人按照Bayesian的方式进行推理,他都会一直否认明天太阳有任何的可能性会升起。同样的论证也适用于一个事先认为“太阳明天升起”的概率等于1的人,他会永远认为明天太阳将在明天确定无疑的升起。既然Bayesian是关心的个人对于客观世界的看法,那么选取先验分布似乎就是这个人自己的事情,与其他人无关。这样看问题正是主观Bayesian的观点。然而主观的判断最终必定要面对客观世界,主观预测与客观世界的差异将使得选择了不恰当的先验分布的人受到应有的损失。

实际上,对于一个Bernoulli概型,理论上最好的分布是有几何意义的Jeffreys分布,亦即
$$
w(p)=\frac{2}{\pi\sqrt{p(1-p)}}.
$$
令$p=\sin^2\theta,\theta\in[0,\pi/2]$,则$w(p)$可化为关于$\theta\in[0,\pi/2]$
上的一个分布。容易算出
$$
u(\theta)d\theta=w(p)dp=\frac{dp}{\pi\sqrt{p(1-p)}}=\frac{2}{\pi}d\theta.
$$
刚好为$[0,\pi/2]$上的均匀分布。于是以$\theta$为参数可以得到相应的后验分布为
\begin{eqnarray*}
u(\theta|N,k)
&=&\frac{u(\theta)\sin^{2k}\theta\cos^{2(N-k)}\theta}
{\int_0^1u(\theta)\sin^{2k}\theta\cos^{2(N-k)}\theta d\theta}\\
&=&\frac{\sin^{2k}\theta\cos^{2(N-k)}\theta}
{\int_0^1\sin^{2k}\theta\cos^{2(N-k)}\theta d\theta}.
\end{eqnarray*}

注意对这个分布要计算其Bayesian点估计比较麻烦。这也正是选择Bayesian先验分布的一个困难之处,合理的分布不一定容易计算,特别是在没有计算机的年代更是如此。

二零零七年二月四日 发表于繁星客栈
http://www.changhai.org/forum/

您尚未登陆 | 用户登陆