欢 迎 访 问 卢 昌 海 个 人 主 页

除了自己的无知,
我什么都不懂。

-苏格拉底

 
信 息
 
 
 
All English Contents
作品列表 | 电子图书
站长简介 | 常见问题
版权说明 | 电子邮箱
 
统 计
 
 
 
自 2009-05-04 以来
本文点击数
28,554
自 2008-02-01 以来
本站点击数
33,980,798
昨日点击数 3,237
今日点击数 780
 
备 注
 
 
 

本文发表于《科学画报》 2009 年第 5 期 (上海科学技术出版社出版)

喜欢本人文字的读者
>>> 欢迎选购本站电子书 <<<

竹筏还是灯塔——数据洪流中的科学方法

- 卢昌海 -

本文是应《科学画报》杂志的约稿而写的评论, 所评的是美国的一份以探讨技术影响力为主题的杂志《连线》(Wired) 上的一篇有争议的文章。 本站版本包含了几处注释, 在若干人名及术语初次出现时附有英文, 并且略去了一小段开篇语。 此外, 本站版本与发表稿还存在若干细微的文字差异 (因后者经过了编辑的修改)。

一. 信息爆炸的时代

我最喜爱的作家之一是美国科幻及科普作家阿西莫夫 (Isaac Asimov), 他一生出版过约 500 本书——恐怕比我一生将会发表的文章数还多。 我念中学时曾读过他的很多书, 其中有一本叫作《数的趣谈》[注一], 而那其中有篇文章叫做 “忘掉它!” (Forget It!), 我到现在还没忘掉。

阿西莫夫在那篇文章的开头引用了一本生物教科书的前言片断, 大意是说我们的科学知识每隔一代就会增加几倍, 以生物学为例, 2000 年的知识将是 1900 年的 100 倍。 那段话让阿西莫夫深感不安, 甚至感到 “世界好像在我身边崩溃了”。 为什么呢? 因为在阿西莫夫看来, 像他这样快速写作的科普作家, 几乎是在职业性地追逐科学的发展, 可在一个信息爆炸的时代里, 他有可能追得上形势吗?

阿西莫夫在那篇文章中为自己的问题找到了答案。 不过, 我们先不去看他的答案。 阿西莫夫那篇文章发表于 1964 年, 在那之前的 1961 年, “信息爆炸” (information explosion) 这一用语首次出现在了 IBM 公司的一则广告中。 自那以后, 信息爆炸一直拨动着人们的心弦。 也许很多人都会产生与阿西莫夫同样的担忧: 在一个信息爆炸的时代里, 我有可能追得上形势吗?

如果我们把阿西莫夫时代的信息爆炸比作常规爆炸, 那么由互联网及信息数字化所带来的当代信息爆炸恐怕就是核爆炸了。 因为常规的信息爆炸只是书本知识的爆炸, 而能在书本上占据一席之地的人毕竟是不多的。 但互联网时代几乎让每个人都拥有了发布信息的能力, 由此带来的信息爆炸无疑要惊人得多。 据一家美国研究机构统计[注二], 截至 2007 年, 人类拥有的数字化信息——文字和音像都算在内——约有 225,000 亿亿比特 (2.25×1021 bits), 约合 15,000 亿亿个汉字, 而且这一数字几乎每隔 5 年就增加一个数量级。 在这些信息中, 约 70% 是个人创造的。 以时下最流行的博客来说, 其数量在过去几年里几乎每 6 个月就翻一番。 到 2008 年底, 仅中国网民开设博客者就超过了 1.6 亿人[注三]

二. 谷歌的新思路

信息爆炸——尤其是互联网上的信息爆炸——带来了一系列深刻的社会变化, 也吸引了越来越多的人对信息爆炸的前景进行着思考。 不过与阿西莫夫当年那种忧虑性的思考不同, 当代的思考者中有很多人全心地拥抱着这个信息爆炸的新时代, 且对其前景作出了与前人截然不同的设想。 2008 年 6 月, 美国的一位技术杂志的主编发表了一篇标新立异的文章, 题目为 “理论的终结: 数据洪流让科学方法过时” (The End of Theory: The Data Deluge Makes the Scientific Method Obsolete)。

这份杂志名为《连线》(Wired), 是一份以探讨技术影响力为主题的杂志, 创刊于 1993 年, 订阅人数约在 50 万到 100 万之间。 而撰写那篇文章的主编名叫安德森 (Chris Anderson), 是一位经验丰富的传媒人士, 曾在《自然》(Nature)、《科学》(Science) 及《经济学家》(The Economist) 等著名刊物任职。 安德森担任主编期间,《连线》杂志曾多次获奖, 而安德森本人也在 2005 年获得过一项年度最佳主编奖。

安德森这篇文章的观点标新立异不说, 就连标题也相当耸人听闻, 不仅预言科学理论将会终结, 而且宣称科学方法将会过时。 他的这一奇异想法从何而来呢? 我们来简单介绍一下他那篇文章的思路。 安德森的文章以著名统计学家博克斯 (George Box) 的一句引文作为开篇, 那句引文是: “所有模型都是错误的, 但有些是有用的” (all models are wrong but some are useful)。 安德森提出, 虽然人们长期以来一直在用模型——比如宇宙学模型——来解释现象, 但最近这些年里, 像谷歌 (Google) 那样扎根于信息时代最前沿的公司已经采用了新的思路。

安德森举了谷歌翻译及谷歌广告作为例子。 我们知道, 常规的机器翻译是通过一系列静态的规则——比如字典及语法规则——来把握文章的内容。 但谷歌翻译另辟蹊径, 借助数以亿计来自不同语言的语句之间的统计关联来做翻译。 这种翻译的最大特点是无需知道被翻译文字的含义, 而只关心两种语言之间的统计关联。 类似地, 使谷歌获得巨大利润的谷歌广告——那些当你搜索东西时出现在结果右侧的小广告——也是建立在统计关联之上的。 谷歌既不在乎你搜索的东西的含义, 也不关心它所显示的广告是什么, 它之所以列出那些广告, 完全是因为统计关联表明它们与你搜索的东西有关。

谷歌这种全面依赖统计分析的新思路几乎体现在它的所有产品之中。 据说谷歌的研究主管诺维格 (Peter Norvig) 曾在 2008 年 3 月的一次技术会议上, 将安德森文章开头所引的博克斯的话改成了 “所有模型都是错误的, 没有它们你也能日益成功”。 谷歌这种新思路给了安德森很大的启发。 他做出了一个大胆的预测: 谷歌的新思路不仅适用于商业, 而且会越来越多地渗透到科学上, 并如他文章标题所说的那样, 最终取代现有的科学方法。 在他看来, 科学才是这种新思路的 “大目标” (big target)。

我们知道, 科学研究的常规模式是从实验数据或观测数据中提出假设、 模型或理论, 然后用新的实验或观测来检验它们。 安德森认为这种模式在信息时代的数据洪流中将会过时, 今后人们只需像谷歌那样直接从大量数据的统计关联中得出结论就行了。 用他的话说: “关联就已足够, 我们可以停止寻找模型”。 按照安德森的设想, 我们只需将大量数据扔进巨型计算机, 让它运用统计算法去发现那些科学无法发现的关联。 那些关联将取代因果关系, 科学将摆脱模型和理论而继续前进。

如果安德森的设想成为现实, 那么不仅今天的科学方法将成为历史, 甚至连科学家——起码是理论科学家——这个职业也很可能会不复存在, 因为我们所需要的将只是能建造和维护计算机的技术人员, 以及懂得统计学原理的编程人员, 我们将再也不需要理论。 这样的前景对科学家来说无疑是陌生的, 但安德森认为这是信息时代带给我们的一种认识世界的全新方法, 它展示了巨大的机会, 科学家们不应墨守传统的科学方法, 而应该自问: 科学能从谷歌中学到什么?

安德森对科学理论及科学方法的全面唱衰所具有的争议性是显而易见的。 他的文章一经发表, 立刻遭到了很多人的批评, 有人甚至迁怒于《连线》杂志 (谁让安德森是主编呢?)。 比如卡内基梅隆大学 (Carnegie Mellow University) 的一位助理教授在看过安德森的文章后, 把自己前不久接受《连线》杂志的采访称为是一个错误, 而且是在试图打发 “等候室时间” (waiting-room time) 时所犯的错误, 言下之意, 哪怕是在等候室里无所事事的时候, 也不值得为《连线》杂志浪费时间。 有意思的是, 这位助理教授原本是物理学博士, 目前则在统计系工作, 如果安德森的观点能够成立, 他的前景其实倒是光明的。

当然, 对更多的人来说, 安德森的观点不过是一家之说, 赞成也好, 反对也罢, 都可以平心静气地进行分析。 我们感兴趣的问题是: 安德森的观点到底能不能成立? 或者最低限度说, 它有道理吗? 在本文接下来的篇幅里, 我们就来稍稍分析一下。 如我们在前面所介绍的, 安德森的立论在很大程度上借鉴了谷歌翻译及谷歌广告的思路, 从某种意义上讲, 他将这些谷歌技术当成了未来科学研究的范例。 既然如此, 就让我们先以谷歌翻译为例考察一下, 看它是否有可能承载安德森赋予它们的重任。

三. 统计方法与高级密码

常言道: 是骡子是马, 拉出来遛遛。 考察谷歌翻译的最佳办法当然是检验它的翻译效果。 我们随便举几个例子。 其中最简单的例子是翻译安德森这篇文章的标题 “理论的终结: 数据洪流让科学方法过时”, 谷歌翻译给出的英译中结果是 “理论的终结: 数据洪水滔天使废弃的科学方法”。 这个例子虽然简单, 却很清楚地体现了谷歌翻译的特点及缺陷。 如我们在上文中所说, 谷歌翻译的特点是以统计关联而非语法为基础, 上述译文的不通顺很清楚地显示了这一特点带来的缺陷。

谷歌翻译的这种缺陷在更长的句子中显得更为清楚, 比如牛顿 (Isaac Newton) 的那段名言:

我不知道我在别人眼里是怎样的, 但对我自己来说我只不过像是一个在海边玩耍的男孩, 因为时不时地找到一块比通常更光滑的卵石或更漂亮的贝壳而兴奋, 却全然没有发现展现在我面前的伟大的真理海洋。

用谷歌翻译给出的英译中结果是[注四]

我不知道我可能会出现的世界, 而是为了自己, 我似乎已经不仅就像一个男孩玩海上岸上, 和挪用自己现在然后找到平滑卵石或比普通漂亮外壳, 而大洋的真相躺在我面前的所有未被发现。

要看懂这种比绕口令还拗口的翻译是需要毅力的。 谷歌翻译能作为未来科学研究的范例吗? 答案应该是不言而喻的。

安德森所举的谷歌技术的另一个例子, 即谷歌广告, 也具有非常显著的缺陷, 事实上, 利用谷歌广告乃至整个谷歌系统的缺陷来提升自己网站的广告效果早已是互联网上公开的秘密。 谷歌技术当然不无优越之处, 比如它具有所谓的统计学习 (statistical learning) 功能 (细心的网民会注意到, 不同时候用谷歌做同样的事情得到的结果通常会有一定的差异), 但这种纯粹建立在统计关联之上的结果具有无可避免的模糊性, 这种模糊性虽不足以妨碍商业上的成功, 但它与科学理论之间的差距是巨大的, 并且是本质性的。

如果我们稍稍深入地思考一下, 就会发现谷歌的思路人们在其它场合也曾用过。 举个例子来说, 密码学中有一种简单的密码叫做置换密码 (substitution cipher), 它是通过对字母或其它文字单元进行置换来达到加密的目的。 破译这种密码的主要途径就是统计分析。 比如在英文中字母 e 是出现频率最高的, 假如我们截获了一份经过字母置换加密的文件, 我们就可以对文件中各符号的使用频率进行统计, 其中使用频率最高的符号就很可能代表字母 e。 对其它字母也可如法炮制, 这种方法类似于谷歌翻译。 但密码学上的经验告诉我们, 单纯使用统计方法是很难完全破译一份密码的, 通常你会碰对一些字母或文字单元, 就像谷歌翻译会碰对一些单词一样, 但完整的破译往往需要辅以更仔细的分析和微调。 更重要的是, 这种方法只能破译像置换密码那样初级的密码, 对于更复杂的密码则完全无能为力。

科学家们对自然规律的研究在一定程度上好比是在破译大自然的密码, 但这种密码显然不像置换密码那样简单, 因而绝不可能通过单纯的统计分析来破译。 积累足够多有关行星运动的数据, 我们也许能发现开普勒定律, 但无论积累多少数据, 我们也不可能依靠单纯的统计分析得到像爱因斯坦的广义相对论那样的理论。 事实上, 单纯的统计分析至多能够知其然, 却无法知其所以然, 它甚至不能告诉我们行星的运动是不是因为一个看不见的精灵在推动。 科学是一项需要高度创造力的工作, 科学上的很多成果, 仅凭实验数据、 发达的计算机和统计分析是永远也得不到的, 这就好比用破译置换密码的方法永远也破译不了更高级的密码

四. 数据洪流中的灯塔

谷歌新思路的另一个问题, 是不可避免地受到大量无效信息的干扰。 这一点想必每位网民都有自己的切身体会, 互联网既是信息库, 也是垃圾场, 数据洪流必然携带泥沙。 怎么办呢? 让我们回过头来看看本文开头提到过的阿西莫夫为自己对信息时代的担忧找到的答案。 那答案就是他那篇文章的标题: 忘掉它! 忘掉什么呢? 忘掉那些无效信息。 这位智商高达 160 的著名作家认为, 只要我们能足够有效地忘掉所有的无效信息, 信息爆炸就远没有人们想象的那样可怕。

如果数据洪流真的如安德森设想的那样成为未来科学研究的主战场, 那么对未来的研究者来说至关重要的一点就是阿西莫夫所说的忘掉无效信息, 或者说去除数据洪流中的泥沙。 要想做到这一点, 首先要能识别无效信息, 而这种识别离不开模型或理论, 甚至它本身就有可能是一种模型或理论。 如果未来的科学研究真的摒弃了模型或理论, 而只关心数据之间的关联, 那它在泥沙俱下的数据洪流中不仅会遇到谷歌翻译与谷歌广告已经遇到过的问题, 甚至还可能产生出一些荒谬的结果, 比如像很多伪科学人士所热衷的那样把金字塔的高度 (曾经为 147 米) 与日地距离 (1.49 亿公里) 联系起来, 把金字塔的底边周长 (36560 英寸) 与一年的天数 (365.2) 联系在一起。 这种纯粹的数值巧合在科学研究单纯依赖于数据分析的情形下将能够轻易地登堂入室, 混淆于科学成果之中。

我们曾经提到, 安德森在文章开头引用了博克斯的话: “所有模型都是错误的, 但有些是有用的”, 他引用这句话显然是要为自己的观点作注解。 可惜他张冠李戴了, 博克斯是一位统计学家, 他所说的模型并非泛指科学理论或科学模型, 而是特指统计模型。 因此博克斯的话与其说是能为安德森的观点作注解, 不如说恰恰是拆了他的台。

不过另一方面, 统计分析虽绝不可能如安德森预言的那样一统天下, 取代科学方法, 但它作为科学方法的一种, 在过去、 现在及将来都将发挥积极的作用, 这一点是任何人也否认不了的。 正如博克斯的后半句话所说的: 有些模型是有用的。 在数据总量空前膨胀的信息时代, 统计分析的作用有可能得到局部的加强; 在某些理论性不很强的领域中, 它甚至有可能成为主要方法, 从这些意义上讲, 安德森的观点虽失之偏颇, 却并非完全脱靶。 不过我们可以肯定的是, 面对滚滚而来的数字洪流, 科学方法绝不是即将被冲离视野的竹筏, 相反, 它是帮助我们在洪流中辨明方向, 看清未来的灯塔。

注释

  1. 该书的英文名为《Asimov on Numbers》, 确切译名应该是《阿西莫夫论数》, 它汇集了阿西莫夫撰写的 17 篇科学专栏文章。
  2. 这家公司是国际数据公司 (International Data Corporation, 简称 IDC), 该统计报告发布于 2008 年 3 月, 标题为 “The Diverse and Exploding Digital Universe”。
  3. 该数据来自中国互联网络信息中心 (CNNIC) 2009 年初发布的第 23 次互联网报告。
  4. 这段话的英文是: “I do not know what I may appear to the world, but to myself I seem to have been only like a boy playing on the sea-shore, and diverting myself in now and then finding a smoother pebble or a prettier shell than ordinary, whilst the great ocean of truth lay all undiscovered before me.”。 需要提醒读者的是, 不同时候使用谷歌翻译得到的结果会有一定的差异, 这里引述的是写作本文时使用谷歌翻译得到的结果。

站长往年同日 (5 月 4 日) 发表的作品

站长近期发表的作品

网友讨论选录

  • 网友: 季冬   (发表于 2009-05-04)

    学习了, 谷歌翻译由英文转中文看来比较差, 不知如果翻译其它接近英文语法的语言会不会好些?

  • 卢昌海   (发表于 2009-05-04)

    由于我只懂中文和英文, 因此无法测试其它语种, 不过语法越相近, 被谷歌翻译所忽视的语法所起的作用越少, 翻译的效果应当会越好。

  • 网友: chang905   (发表于 2009-05-04)

    统计是工具, 本身是不能成为科学理论的。 客栈最近正好有许多关于统计相关的讨论, 这篇文章十分及时。

  • 卢昌海   (发表于 2009-05-04)

    过去一个多月里我在新浪网上看到过不止一篇转自《连线》杂志的消息, 看来这杂志还是挺有影响力的。 本文所评的那篇文章若是我自己读到, 多半不会特意去评它 (会觉得不值一驳)。 不过利用评论的机会聊一聊与 Google 有关的技术还是有意义的 (或许约稿编辑的意图也是如此)。

  • 网友: 大漠孤狼   (发表于 2009-05-04)

    就像分形, 那么复杂的图形由如此简单的几条生成规则形成。 假如不知规则, 单靠分析统计恐怕无法由图形中信息得到因果关系。

  • 网友: 星空浩淼   (发表于 2009-05-04)

    “统计是工具, 本身是不能成为科学理论的”——如何统计才是正确有效的统计, 这却是一门科学。

  • 卢昌海   (发表于 2009-05-05)

    统计是误用率相当高的方法, 样本的选择, 如何进行统计, 误差有多大等等都很有讲究, 既可能无意间犯错, 也可以为着某种目的有意地搞出猫腻来 (尤其是在金融等领域中)。

    数据总量的膨胀与计算机技术的飞速发展确实容易给人一个错觉, 仿佛它们的将来会无所不能。 其实科学研究中到处都有 “无穷多” 的可能性, 与之相比, 无论多快速的蛮干都无济于事。 拿我文章中所举的行星运动的例子来说, 如果有人想从单纯的观测数据来反推规律, 那么光是后牛顿近似就有无穷多项可供拟合, 足以吞噬无论多么强大的计算能力, 而这种拟和与广义相对论还差了十万八千里。

    安德森没有考虑的一种可能性是人工智能, 如果有一天人工智能技术达到可以媲美人脑的程度 (包括审美、 灵感等——我不知道这是否可能), 那么通过人工智能进行科学研究倒是有可能的, 但这并不是安德森所说的理论或科学方法的终结, 因为它所采用的研究方法与今天我们用人脑所用的是一样的。

  • 网友: heterodox   (发表于 2013-01-02)

    我不是专业人士, 但我的理解是统计学建立在统计模型之上, 对于每一个系统都要选择适合它的模型才能从数据中找到正确的关联。 比如医学试验的统计分析, 就必须要根据其试验设计, 选定一种适用 ad hoc analysis 才能得到正确的统计显著性。 很难想像能有一个万能的统计模型可以处理万事万物!

  • 卢昌海   (发表于 2013-01-02)

    Good point! 我估计安德森自己也并未深入分析过他那提议背后的实施细节。

本文的讨论期限已过, 如果您仍想讨论本文,
请在每个月前七天的 “读者周” 期间前来讨论。

>> 查阅目前尚在讨论期限内的文章 <<