欢 迎 访 问 卢 昌 海 个 人 主 页

除了自己的无知,
我什么都不懂。

-苏格拉底

 
信 息
 
 
 
All English Contents
作品列表 | 电子图书
站长简介 | 常见问题
版权说明 | 电子邮箱
 
统 计
 
 
 
自 2010-12-05 以来
本文点击数
114,283
自 2008-02-01 以来
本站点击数
33,979,401
昨日点击数 2,970
今日点击数 2,620
 
备 注
 
 
 

本文发表于《数学文化》2011 年 2 月刊 (山东大学与香港浸会大学合办), 并收录于《因为星星在那里: 科学殿堂的砖与瓦》一书 (清华大学出版社 2016 年出版)。

喜欢本人文字的读者
>>> 欢迎选购本站电子书 <<<

谷歌背后的数学

- 卢昌海 -

一. 引言

在如今这个互联网时代, 有一家公司家喻户晓——它自 1998 年问世以来, 在极短的时间内就声誉鹊起, 不仅超越了所有竞争对手, 而且彻底改观了整个互联网的生态。 这家公司就是当今互联网上的第一搜索引擎: 谷歌 (Google)。

在这样一家显赫的公司背后, 自然有许许多多商战故事, 也有许许多多成功因素。 但与普通商战故事不同的是, 在谷歌的成功背后起着最关键作用的却是一个数学因素。

本文要谈的就是这个数学因素。

谷歌作为一个搜索引擎, 它的核心功能顾名思义, 就是网页搜索。 说到搜索, 我们都不陌生, 因为那是凡地球人都会的技能。 我们在字典里查一个生字, 在图书馆里找一本图书, 甚至在商店里寻一种商品, 等等, 都是搜索。 只要稍稍推究一下, 我们就会发现那些搜索之所以可能, 并且人人都会, 在很大程度上得益于以下三条:

  1. 搜索对象的数量较小——比如一本字典收录的字通常只有一两万个, 一家图书馆收录的不重复图书通常不超过几十万种, 一家商店的商品通常不超过几万种, 等等。
  2. 搜索对象具有良好的分类或排序——比如字典里的字按拼音排序, 图书馆里的图书按主题分类, 商店里的商品按品种或用途分类, 等等。
  3. 搜索结果的重复度较低——比如字典里的同音字通常不超过几十个, 图书馆里的同名图书和商店里的同种商品通常也不超过几十种, 等等。

但互联网的鲜明特点却是以上三条无一满足。 事实上, 即便在谷歌问世之前, 互联网上的网页总数就已超过了诸如图书馆藏书数量之类传统搜索对象的数目。 而且这还只是冰山一角, 因为与搜索图书时单纯的书名搜索不同, 互联网上的搜索往往是对网页内容的直接搜索, 这相当于将图书里的每一个字都变成了搜索对象, 由此导致的数量才是真正惊人的, 它不仅直接破坏了上述第一条, 而且连带破坏了二、 三两条。 在互联网发展的早期, 像雅虎 (Yahoo) 那样的门户网站曾试图为网页建立分类系统, 但随着网页数量的激增, 这种做法很快就 “挂一漏万” 了。 而搜索结果的重复度更是以快得不能再快的速度走向失控。 这其实是可以预料的, 因为几乎所有网页都离不开几千个常用词, 因此除非搜索生僻词, 否则出现几十万、 几百万、 甚至几千万条搜索结果都是不足为奇的。

互联网的这些 “不良特点” 给搜索引擎的设计带来了极大的挑战。 而在这些挑战之中, 相对来说, 对一、 二两条的破坏是比较容易解决的, 因为那主要是对搜索引擎的存储空间和计算能力提出了较高要求, 只要有足够多的钱来买 “装备”, 这些都还能算是容易解决的——套用电视连续剧《蜗居》中某贪官的台词来说, “能用钱解决的问题就不是大问题”。 但对第三条的破坏却要了命了, 因为无论搜索引擎的硬件如何强大, 速度如何快捷, 要是搜索结果有几百万条, 那么任何用户想从其中 “海选” 出自己真正想要的东西都是几乎不可能的。 这一点对早期搜索引擎来说可谓是致命伤, 而且它不是用钱就能解决的问题。

这致命伤该如何治疗呢? 药方其实很简单, 那就是对搜索结果进行排序, 把用户最有可能需要的网页排在最前面, 以确保用户能很方便地找到它们。 但问题是: 网页的水平千差万别, 用户的喜好更是万别千差, 互联网上有一句流行语叫做: “在互联网上, 没人知道你是一条狗” (On the Internet, nobody knows you're a dog)。 连用户是人是狗都 “没人知道”, 搜索引擎又怎能知道哪些搜索结果是用户最有可能需要的, 并对它们进行排序呢?

在谷歌主导互联网搜索之前, 多数搜索引擎采用的排序方法, 是以被搜索词语在网页中的出现次数来决定排序——出现次数越多的网页排在越前面。 这个判据不能说毫无道理, 因为用户搜索一个词语, 通常表明对该词语感兴趣。 既然如此, 那该词语在网页中的出现次数越多, 就越有可能表示该网页是用户所需要的。 可惜的是, 这个貌似合理的方法实际上却行不大通。 因为按照这种方法, 任何一个像祥林嫂一样翻来复去倒腾某些关键词的网页, 无论水平多烂, 一旦被搜索到, 都立刻会 “金榜题名”, 这简直就是广告及垃圾网页制造者的天堂。 事实上, 当时几乎没有一个搜索引擎不被 “祥林嫂” 们所困扰, 其中最具讽刺意味的是: 在谷歌诞生之前的 1997 年 11 月, 堪称早期互联网巨子的当时四大搜索引擎在搜索自己公司的名字时, 居然只有一个能使之出现在搜索结果的前十名内, 其余全被 “祥林嫂” 们挤跑了。

二. 基本思路

正是在这种情况下, 1996 年初, 谷歌公司的创始人, 当时还是美国斯坦福大学 (Stanford University) 研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究。 这两位小伙子之所以研究网页排序问题, 一来是导师的建议 (佩奇后来称该建议为 “我有生以来得到过的最好建议”), 二来则是因为他们对这一问题背后的数学产生了兴趣。

网页排序问题的背后有什么样的数学呢? 这得从佩奇和布林看待这一问题的思路说起。

在佩奇和布林看来, 网页的排序是不能靠每个网页自己来标榜的, 无论把关键词重复多少次, 垃圾网页依然是垃圾网页。 那么, 究竟什么才是网页排序的可靠依据呢? 出生于书香门第的佩奇和布林 (两人的父亲都是大学教授) 想到了学术界评判学术论文重要性的通用方法, 那就是看论文的引用次数。 在互联网上, 与论文的引用相类似的显然是网页的链接。 因此, 佩奇和布林萌生了一个网页排序的思路, 那就是通过研究网页间的相互链接来确定排序。 具体地说, 一个网页被其它网页链接得越多, 它的排序就应该越靠前。 不仅如此, 佩奇和布林还进一步提出, 一个网页越是被排序靠前的网页所链接, 它的排序就也应该越靠前。 这一条的意义也是不言而喻的, 就好比一篇论文被诺贝尔奖得主所引用, 显然要比被普通研究者所引用更说明其价值。 依照这个思路, 网页排序问题就跟整个互联网的链接结构产生了关系, 正是这一关系使它成为了一个不折不扣的数学问题。

思路虽然有了, 具体计算却并非易事, 因为按照这种思路, 想要知道一个网页 Wi 的排序, 不仅要知道有多少网页链接了它, 而且还得知道那些网页各自的排序——因为来自排序靠前网页的链接更有分量。 但作为互联网大家庭的一员, Wi 本身对其它网页的排序也是有贡献的, 而且基于来自排序靠前网页的链接更有分量的原则, 这种贡献与 Wi 本身的排序也有关。 这样一来, 我们就陷入了一个 “先有鸡还是先有蛋” 的循环: 要想知道 Wi 的排序, 就得知道与它链接的其它网页的排序, 而要想知道那些网页的排序, 却又首先得知道 Wi 的排序。

为了打破这个循环, 佩奇和布林采用了一个很巧妙的思路, 即分析一个虚拟用户在互联网上的漫游过程。 他们假定: 虚拟用户一旦访问了一个网页后, 下一步将有相同的几率访问被该网页所链接的任何一个其它网页。 换句话说, 如果网页 Wi 有 Ni 个对外链接, 则虚拟用户在访问了 Wi 之后, 下一步点击那些链接当中的任何一个的几率均为 1/Ni。 初看起来, 这一假设并不合理, 因为任何用户都有偏好, 怎么可能以相同的几率访问一个网页的所有链接呢? 但如果我们考虑到佩奇和布林的虚拟用户实际上是对互联网上全体用户的一种平均意义上的代表, 这条假设就不像初看起来那么不合理了。 那么网页的排序由什么来决定呢? 是由该用户在漫游了很长时间——理论上为无穷长时间——后访问各网页的几率分布来决定, 访问几率越大的网页排序就越靠前。

为了将这一分析数学化, 我们用 pi(n) 表示虚拟用户在进行第 n 次浏览时访问网页 Wi 的几率。 显然, 上述假设可以表述为 (请读者自行证明):

pi(n+1) = Σj pj(n)pj→i/Nj

这里 pj→i 是一个描述互联网链接结构的指标函数 (indicator function), 其定义是: 如果网页 Wj 有链接指向网页 Wi, 则 pj→i 取值为 1, 反之则为 0。 显然, 这条假设所体现的正是前面提到的佩奇和布林的排序原则, 因为右端求和式的存在表明与 Wi 有链接的所有网页 Wj 都对 Wi 的排名有贡献, 而求和式中的每一项都正比于 pj, 则表明来自那些网页的贡献与它们的自身排序有关, 自身排序越靠前 (即 pj 越大), 贡献就越大。

为符号简洁起见, 我们将虚拟用户第 n 次浏览时访问各网页的几率合并为一个列向量 pn, 它的第 i 个分量为 pi(n), 并引进一个只与互联网结构有关的矩阵 H, 它的第 i 行 j 列的矩阵元为 Hij = pj→i/Nj, 则上述公式可以改写为:

pn+1 = Hpn

这就是计算网页排序的公式。

熟悉随机过程理论的读者想必看出来了, 上述公式描述的是一种马尔可夫过程 (Markov process), 而且是其中最简单的一类, 即所谓的平稳马尔可夫过程 (stationary Markov process)[注一], 而 H 则是描述马尔可夫过程中的转移概率分布的所谓转移矩阵 (transition matrix)。 不过普通马尔可夫过程中的转移矩阵通常是随机矩阵 (stochastic matrix), 即每一列的矩阵元之和都为 1 的矩阵 (请读者想一想, 这一特点的 “物理意义” 是什么?)[注二]。 而我们的矩阵 H 却可能有一些列是零向量, 从而矩阵元之和为 0, 它们对应于那些没有对外链接的网页, 即所谓的 “悬挂网页” (dangling page)[注三]

上述公式的求解是简单得不能再简单的事情, 即:

pn = Hnp0

其中 p0 为虚拟读者初次浏览时访问各网页的几率分布 (在佩奇和布林的原始论文中, 这一几率分布被假定为是均匀分布)。

三. 问题及解决

如前所述, 佩奇和布林是用虚拟用户在经过很长——理论上为无穷长——时间的漫游后访问各网页的几率分布, 即 limn→∞pn, 来确定网页排序的。 这个定义要想管用, 显然要解决三个问题:

  1. 极限 limn→∞pn 是否存在?
  2. 如果极限存在, 它是否与 p0 的选取无关?
  3. 如果极限存在, 并且与 p0 的选取无关, 它作为网页排序的依据是否真的合理?

如果这三个问题的答案都是肯定的, 那么网页排序问题就算解决了。 反之, 哪怕只有一个问题的答案是否定的, 网页排序问题也就不能算是得到了满意解决。 那么实际答案如何呢? 很遗憾, 是后一种, 而且是其中最糟糕的情形, 即三个问题的答案全都是否定的。 这可以由一些简单的例子看出。 比方说, 在只包含两个相互链接网页的迷你型互联网上, 如果 p0 = (1, 0)T, 极限就不存在 (因为几率分布将在 (1, 0)T 和 (0, 1)T 之间无穷振荡)。 而存在几个互不连通 (即互不链接) 区域的互联网则会使极限——即便存在——与 p0 的选取有关 (因为把 p0 选在不同区域内显然会导致不同极限)。 至于极限存在, 并且与 p0 的选取无关时它作为网页排序的依据是否真的合理的问题, 虽然不是数学问题, 答案却也是否定的, 因为任何一个 “悬挂网页” (即没有对外链接的网页) 都能像黑洞一样, 把其它网页的几率 “吸收” 到自己身上 (因为虚拟用户一旦进入那样的网页, 就会由于没有对外链接而永远停留在那里), 这显然是不合理的。 这种不合理效应是如此显著, 以至于在一个连通性良好的互联网上, 哪怕只有一个 “悬挂网页”, 也足以使整个互联网的网页排序失效, 可谓是 “一粒老鼠屎坏了一锅粥”。

为了解决这些问题, 佩奇和布林对虚拟用户的行为进行了修正。

本文已收录于电子书《数学杂谈》
以上预览约为本文内容之 60%
欲读剩余部分
>>>>>> 请购买该书 <<<<<<

注释

  1. 马尔可夫过程, 也称为马尔可夫链 (Markov chain), 是一类离散随机过程, 它的最大特点是每一步的转移概率分布都只与前一步有关。 而平稳马尔可夫过程则是指转移概率分布与步数无关的马尔可夫过程 (体现在我们的例子中, 即 H 与 n 无关)。 另外要说明的是, 本文在表述上不同于佩奇和布林的原始论文, 后者并未使用诸如 “马尔可夫过程” 或 “马尔可夫链” 那样的术语, 也并未直接运用这一领域内的数学定理。
  2. 在更细致的分类中, 这种每一列的矩阵元之和都为 1 的随机矩阵称为左随机矩阵 (left stochastic matrix), 以区别于每一行的矩阵元之和都等于 1 的所谓右随机矩阵 (right stochastic matrix)。 这两者在应用上基本是等价的, 区别往往只在于约定。
  3. 这种几乎满足随机矩阵条件, 但有些列 (或行) 的矩阵元之和小于 1 的矩阵也有一个名称, 叫做亚随机矩阵 (substochastic matrix)。
  4. 确切地说, 这种所有矩阵元都为正的矩阵不仅是素矩阵, 而且还是所谓的正矩阵 (positive matrix)。 这两者的区别是: 正矩阵要求所有矩阵元都为正, 而素矩阵只要求自己的某个正整数次幂为正矩阵。
  5. 读者们想必看出来了, p 其实是矩阵 G 的本征值为 1 的本征向量, 而利用虚拟用户确定网页排序的思路其实是在用迭代法解决上述本征值问题。 在数学上可以证明, 上述本征向量是唯一的, 而且 G 的其它本征值 λ 全都满足 |λ|<1 (更准确地说, 是 |λ|≤α ——这也正是下文即将提到的 “α 越小, Gnp0 的收敛速度就越快” 的原因)。
  6. 当然, 这绝不意味着在网页排序上已不可能再做假。 相反, 这种做假在互联网上依然比比皆是, 比如许多广告或垃圾网页制造者用自动程序到各大论坛发贴, 建立对自己网页的链接, 以提高排序, 就是一种常见的做假手法。 为了遏制做假, 谷歌采取了很多技术手段, 并对有些做假网站采取了严厉的惩罚措施。 这种惩罚 (有时是误罚) 对于某些靠互联网吃饭的公司有毁灭性的打击力。
  7. 从投资角度讲, 斯坦福大学显然是过早卖掉了股票, 否则获利将更为丰厚。 不过, 这正是美国名校的一个可贵之处, 它们虽擅长从支持技术研发中获利, 却并不唯利是图。 它们有自己的原则, 那就是不能让商业利益干扰学术研究。 为此, 它们通常不愿长时间持有特定公司的股票, 以免在无形中干扰与该公司存在竞争关系的学术研究的开展。
  8. 那些研究与 “佩奇排序” 的类似仅仅在于大方向 (即都利用互联网的链接结构来决定网页排序), 而非具体算法类似。

参考文献

  1. D. Austin, How Google Finds Your Needle in the Web's Haystack.
  2. J. Battelle, The Birth of Google, Wired (August 2005).
  3. S. Brin and L. Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, Seventh International World-Wide Web Conference, April 14-18, 1998, Brisbane, Australia.
  4. O. Ibe, Markov Processes for Stochastic Modeling, (Elsevier Academic Press, 2009).
  5. A. N. Langville and C. D. Meyer, Google's PageRank and Beyond: The Science of Search Engine Rankings, (Princeton University Press, 2006).
  6. C. Rousseau and Y. Saint-Aubin, Mathematics and Technology, (Springer, 2008).

补注

  1. 有些读者对 “是数学成就了谷歌” 这一说法不以为然, 认为是佩奇和布林的商业才能, 或将数学与商业结合起来的才能成就了谷歌。 这是一个见仁见智的问题, 看法不同不足为奇。 我之所以认为是数学成就了谷歌, 是因为谷歌当年胜过其它搜索引擎的地方只有算法。 除算法外, 佩奇和布林当年并无其它胜过竞争对手的手段, 包括商业手段。 如果让他们去当其它几家搜索引擎公司的老总, 用那几家公司的算法, 他们是不可能脱颖而出的; 而反过来, 如果让其它几家搜索引擎公司的老总来管理谷歌, 用谷歌的算法, 我相信谷歌依然能超越对手。 因此, 虽然谷歌后来确实用过不少出色的商业手段 (任何一家那样巨型的公司都必然有商业手段上的成功之处), 而当年那个算法在今天的谷歌——如正文所述——则早已被更复杂的算法所取代, 但我认为谷歌制胜的根基和根源在于那个算法, 而非商业手段, 因此我说 “是数学成就了谷歌”。 [2011-01-01]
  2. 在将本文收录进《因为星星在那里: 科学殿堂的砖与瓦》 (清华大学出版社 2015 年 6 月出版) 一书时, 我决定剔除有关百度的这几句话, 因为实在是越来越觉得百度不配被提及。 不过本站版本由于在 “网友讨论选录” 中已作过说明, 将继续保留之。 [2016-05-03]

相关链接

站长近期发表的作品

网友讨论选录

  • 来自 113.64 的游客   (发表于 2010-12-05)

    佩奇他们公开了算法的论文, 如果那时其他强大的拥有更多资源的竞争公司 (比如微软) 按照这个算法也做个相同的搜索引擎, 那车库中的谷歌能成长到今天吗?

  • 卢昌海   (发表于 2010-12-05)

    佩奇同学 98 年的论文我看了一下, 没什么细节。 后来他们申请了专利, 就不怕别人抄了。 至于微软,盖兹同学一开始对互联网似乎不太重视, 甚至表示 (大意) 每张广告都有一个网址是荒谬的, 结果被 Netscape 夺了浏览器市场的先机, 后来费了好大力气, 才利用操作系统领域的垄断优势扳回局面。 微软介入搜索引擎市场也比较晚。

  • 来自 183.14 的游客   (发表于 2010-12-07)

    baidu 和 google 的算法应该差别很大吧。 先不提 baidu 显然把自己网站 (如百度百科) 加分太多, 即使后几项检索也奇怪。 比如, 同样搜索 “3Q大战”, google 出来的前几个是 sina、 搜狐、 网易的专题, 而 baidu (除去之前的百度百科、 百度知道等) 却是中国移动、 pconline、 深圳新闻网等信息。 至少两者的权重和因素差别很大。 从我的个人理解, 我认为 google 的排名更符合我的期望, 更不用说很多 baidu 检索都是广告和假药。

  • 卢昌海   (发表于 2010-12-07)

    应该差别很大。 同样是利用网页链接, 方法可以相差很大。 我虽然不知道百度的算法, 不过以当年的另一个知名算法 HITS 为例, 它就同时利用了一个网页的向外和向内链接来决定网页排序 (这个算法经修改后被一个叫作 Teoma 的搜索引擎所使用), 这与谷歌只利用向内链接的算法相差就很大。 另外, 经过这些年的发展, 谷歌在排序上增加了很多其它考虑因素, 这些也足以扩大它与其它搜索引擎的差异。

    就我这些年听到的新闻而言, 百度无论在技术上还是品行上的形象都不怎么样, 不过它好歹也是因算法而成就公司的例子, 而且它在中国乃是一霸 (再过若干年, 国内年轻一代有可能只知道百度而不知道谷歌了), 因此在文章末尾提它一句。

  • 网友: Omni   (发表于 2010-12-07)

    参考文献 5 是一本好书, 我去年将其与 Ken Auletta 的《Googled》一起阅读, 颇有收获。 在此先指出两点: (1) 根据 Wikipedia 关于 PageRank 词条中引用的 Google 四个专利, 其发明人都是 Page 一人, Brin 不是共同发明人; (2) 与百度有关的专利可以在 Google Patents 中输入专利号 5920859 看到 PDF 文档, 有兴趣的网友可以研究一下其算法和 PageRank 的不同。 Google 在互联网历史上的地位是里程碑式的, 和它相比百度根本就不值一提, 史学家们即使将百度忽略也对全局毫无影响, 正可谓 “百度身与名俱灭, 不废谷歌万古流”, 呵呵。

    再补充一些不太重要的细节:

    Page 的第一个专利 (6285999) 是 1998 年 1 月 9 日递交申请, 在 2001 年 9 月 4 日获得批准。 李彦宏的专利 (5920859) 是 1997 年 2 月 5 日递交申请, 在 1999 年 7 月 6 日获得批准。 百度的中文搜索引擎在多大程度上基于这项专利 (拥有者是当年雇用李彦宏的 IDD Enterprises 公司) 则不得而知。 两个专利提出的算法不同, 不存在优先权之争 (而且美国的专利法对相同发明的优先判定与许多国家不同, 依据的是有同事签名认证过的研究记录上的日期), 符合昌海兄所提的 “几乎同时” 与 “相互独立” 说法。

    关于 Brin 为何没被列为共同发明人的原因可以从专利 6285999 的 Detailed Descriptions 部分加以分析, Page 写道: “For support in reducing the present invention to practice, the inventor acknowledges Sergey Brin, Scott Hassan, Rajeev Motwani, Alan Steremberg, and Terry Winograd”。 专利法规通常将一项发明粗分为两个阶段: (1) 构思 (conception); (2) 付诸实现 (reducing to practice)。 世界各地的专利法普遍强调 (1) 而相对看轻 (2)。 有资格被列为发明人者一定要对阶段 (1) 有相当贡献, 只要在阶段 (1) 的贡献足够大, 不参加阶段 (2) 也能成为发明人。 而反过来, 若某合作者只参与了阶段 (2) 而对阶段 (1) 没有多少贡献, 那么要就不能被列为共同发明人。 这种标准和论文署名的依据完全不同。 Brin 对 Google 这个搜索引擎的贡献其实很大, 必须的 web crawling 程序是他写的, 硬件工程更是他的强项, 列为第二发明人并不为过。 但是美国人对专利法规的实施非常严谨, 由于那四个专利都是关于 PageRank 算法的, Brin 的贡献在其中属于阶段 (2), 很可能因为没有对阶段 (1) 做出显著贡献而未被列为共同发明人。 这一案例显然可以映照一下那些经常通过行政手段在论文或专利上厚颜无耻署名的学阀。

  • 卢昌海   (发表于 2010-12-07)

    谢谢 Omni 兄的补充信息。

  • 来自 125.39 的游客   (发表于 2010-12-24)

    “成立仅仅三个月,《PC Magzine》杂志就把谷歌列为了年度最佳搜索引擎。”——叫卖公司时已有 “年度最佳搜索引擎” 光环了, 却还卖不出 100 万。

  • 卢昌海   (发表于 2010-12-24)

    是啊, 真不知道那些硅谷老总们是怎么想的。 虽说《PC Magzine》不是搜索引擎方面的权威, 但凭它在 PC 用户中的影响力, 它的评论是不宜等闲视之的。 据说当时 Excite 的人已经把谷歌的开价压到了 75 万美元, 可是公司 CEO 仍不接受, 还把还价者批评了一通。

  • 网友: galois_fu   (发表于 2011-01-04)

    写的太好了!

  • 网友: fcl   (发表于 2011-01-12)

    写的非常好啊, 终于明白了 PageRank 算法的本质。 谢谢。

本文的讨论期限已过, 如果您仍想讨论本文,
请在每个月前七天的 “读者周” 期间前来讨论。

>> 查阅目前尚在讨论期限内的文章 <<