Welcome to Changhai Lu's Homepage

华生来了

:: 前一篇主题:习惯、传统、与变化 ::

新用户注册 | 用户登陆 | 回复 | 刷新

宇澄


发表文章数: 273
内力值: 211/211
贡献度: 2593
人气: 389
武功等级:
弹指神通 (第六重)

华生来了 [文章类型: 原创]

这星期,美加电视ABC频道晚上七点半播出的智力问答竞赛Jeopardy!请了Watson先生上来打擂。Watson先生是一位啃了好多图书馆文献并具有高速检索能力的
IBM电脑。从这两天他的表现来看,另外两名同台竞赛的人类高手,Jeopardy!曾经的长胜冠军,已经被他远远地抛离,望尘莫及。今天星期三将是最后一天,不知各位茶友有没有观看,有何看法。

这个节目是去年底就录制好了的,或许有不少茶友已早知比赛结果。在介绍Watson的实际功用时,IBM着重讲了他的强大检索能力在医疗诊断方面的应用前景。这也是我将他联想起福侦探的助手称他为华生的缘故。

对此节目有兴趣的茶友如果错过了第一天比赛介绍的话,我想补充说明一下。一,Watson并不与Internet连接。二,他其实听不懂节目主持人的提问。每次主持人口头发问一条问题的同时,把问题的原文用文字的方式输入给Watson。这样一来,我就觉得有个公平问题。因为,其他两位也算是绝顶聪明的人类赛手未必不会这些问题,只不过在反应和按键速度方面输了,没机会回答这些问题而已。所以我建议那两位人类赛手不如险中求胜,在提问那类他觉得有把握的问题时(Jeopardy!问题是归类的),不管三七二十一先按了键把话语权抢到手再说。虽然最后可能还是输,但应该不会象现在这样输得这么难看。另一方面,我觉得Jeopardy!上的问题很少是要用到Fuzzy logic 的,而这一点正是人类要比机器优胜之处。

另外,我觉得有几个有兴趣的问题想跟茶友们泛泛地交流一下。当然,应站长要求,不要太学术性了。

IBM能凭这个跟Google Bing 搜索争一日之短长吗?

人工智能/专家系统发展的瓶颈在哪里?是听力问题?是理解问题?是资料综合问题?中文比起英文来说解决这些问题是处于优势还是处于劣势?

现在中国已经制造出世界最快的电脑了,看来硬件方面中国已经是世界一流的了(当然,不要问芯片是哪儿的)。相反,在软件方面,似乎还没有什么拿得出手的东西,也是被人家远远地抛离,望尘莫及。

发表时间: 2011-02-16, 08:34:58 >> 察看个人资料

卢昌海


Re: 华生来了 [文章类型: 原创]

呵呵,宇澄兄终于开始自己建楼了。

听说过这件事,但没看节目。宇澄兄可否介绍一些节目中使用的题目?我觉得若是单纯的知识题或计算题,那计算机胜过人一点都不希奇,远不如以前DeepBlue胜过卡斯帕罗夫那一战来得有意义。

另外,若如宇澄兄所说,"每次主持人口头发问一条问题的同时,把问题的原文用文字的方式输入给Watson",那我倒对该机器的文字识别能力有点兴趣,如果那台机器能让我来玩几天,我会有兴趣测试它在文字识别方面的能力,看它是否能"看懂"微妙一点的文字,这个据我所知是很困难的。

宠辱不惊,看庭前花开花落
去留无意,望天空云卷云舒

发表时间: 2011-02-16, 08:47:02 >> 察看个人资料

龙珠雷达


发表文章数: 136
内力值: 165/165
贡献度: 403
人气: 30
武功等级:
罗汉拳 (第五重)

Re: 华生来了 [文章类型: 原创]

给电脑一堆人物照片,不同背景,不同角度,全身,半身都有,服饰各异。之后让电脑分辨照片上的人是男是女。找个6岁小孩和电脑比比谁分辨得更快更准。。。

发表时间: 2011-02-16, 10:53:57 >> 察看个人资料

宇澄


发表文章数: 273
内力值: 211/211
贡献度: 2593
人气: 389
武功等级:
弹指神通 (第六重)

Re: 华生来了 [文章类型: 原创]

::可否介绍一些节目中使用的题目?

“The US city of its biggest airport named after a WWII hero and its second biggest airport named after a WWII battle.”
仅凭回忆。未必字字准确。
这是Final Jeopardy的题目,也就是说三位竞赛者都有份回答,不必抢答。结果是,两人答对了,Watson答错了。而且我觉得似乎错得有点离谱。答案我暂时卖个关子不复述吧,让没看过节目的朋友想想。老实说,我也不会这题目。

其实J!是把两次比赛的录像放在三天时间播完。前天昨天的J!花了一半时间来介绍Watson,合共只播了第一次比赛的录像。所以如果大家错过了前两天的节目,今天看仍然可以看到完整的一次比赛。

::我觉得若是单纯的知识题或计算题,那计算机胜过人一点都不希奇,远不如以前DeepBlue胜过卡斯帕罗夫那一战来得有意义。

我认为两次都算是里程碑似的。而从技术上来说,是Watson胜过DeepBlue。
IMHO,DeepBlue说不上有什么智慧。因为1.它接受的问题是有限的,32颗棋子(当它是开算function的32个parameters吧)的不同摆布而已。2.它选择答案的可能性是封闭的,不可能让棋子跳到64个格子以外。所以,它能胜过卡斯帕罗夫不算本事,棋谱存得多加上算得快用穷举法压死人就是了。它能胜过李昌镐才算本事,因为这至少意味着,1.量子计算机光子通信之类有了重大突破,361个格子的穷举法也不会把自己压死;或2.NPComplete问题有了重大突破,Clay悬赏百万的难题七剩五;或3.电脑真的有那种除了计算之外的灵气了。哦,顺便一提,电脑刚刚是被龙珠雷达扫中了软肋,或死穴:-)

而Watson..要不等看完了今天的J!,或者再听听各位的高见,再作评论吧。

发表时间: 2011-02-16, 15:05:07 >> 察看个人资料

卢昌海


Re: 华生来了 [文章类型: 原创]

:: DeepBlue说不上有什么智慧。

这个跟什么是智慧颇有关系。在我看来判断一台计算机的智慧时算法的权重应远高于数据(当然,这是仅指计算机所具有的能力,人的智慧中还有计算机尚无法模拟的部分,就不算在内了)。

我前面的评论是排除了Watson的语句识别能力的评论。如果题目的语句类型完全不限的话,那么Watson的语句识别能力无疑是很了不起的,如果宇澄兄所说的Watson胜过DeepBlue指这个,那我完全同意。但除了那种能力外,它的其它过人之处恐怕主要是存储而非算法,这在我看来就没什么特别了。象宇澄兄提到的猜城市的题目,只要它理解了题意(即知道所要找的是什么信息),并且存有所需的信息(即有关美国城市、机场、二战英雄、二战战役的数据及合理的联系--比如机场信息中应包含规模、所属城市名等,用数据库语言来说是机场这一table包括规模、所属城市等column),那么随便哪个三流数据库管理员所写的Query就 足可找出符合题意的答案,从算法角度讲是极其简单的。而DeepBlue的算法虽然没有高明到能下围棋的程度,比这恐怕还是要高明得多。因此Watson所展示的虽然是答题能力,在我看来最令人惊叹的其实却应该是语句识别能力。

当然,以上全是胡猜,哪天有机会俺去瞻仰一下它的算法(如果公布的话),然后再细掰吧--说不定还可以写一篇“华生背后的...”之类的东西。:-)

宠辱不惊,看庭前花开花落
去留无意,望天空云卷云舒

发表时间: 2011-02-16, 15:49:47 >> 察看个人资料

XXFF


发表文章数: 89
内力值: 135/135
贡献度: 308
人气: 1
武功等级:
罗汉拳 (第二重)

Re: 华生来了 [文章类型: 原创]

中文方面,微软刚出了个电脑对联软件:
http://couplet.msra.cn/app/couplet.aspx
今天元宵节,大家有兴趣去对对.

我来自地球。

发表时间: 2011-02-16, 19:40:20 >> 察看个人资料

宇澄


发表文章数: 273
内力值: 211/211
贡献度: 2593
人气: 389
武功等级:
弹指神通 (第六重)

Re: 华生来了 [文章类型: 原创]

::在我看来判断一台计算机的智慧时算法的权重应远高于数据
同意。

::那么随便哪个三流数据库管理员所写的Query就 足可找出符合题意的答案,从算法角度讲是极其简单的。
关键就在这里。
根据我对Watson的了解,Watson啃了好多图书馆文献,他吃进的可是Raw Material (好一个Data Cruncher),以后就靠他自由发挥了。我不知道IBM有没有人教他应该在这些资料的基础上建立一个像样的Relational DB。但我基本可以肯定没人教他该设什么Table,加什么Column,等等。如果他能无师自通或在他现读的某本电脑书里面学会了再建一个DB再Normalize之类的,那么他在AI方面Heuristics的能力也是令人震惊的。
不过我还是认为,他是无法通过建立一个Relational DB来解决问题的。原因是从理论上来说他要处理的信息的种类和数量都是unlimited的。举例,如果你要建一个NBA的数据库供搜索,那么从设计DB的那一刻你就知道该放几个Table(无外乎球员,球队,比赛,等等),因为这些跟NBA相关的信息量是封闭的有属性的。而Watson要处理的情况就完全不是这么一回事。他对问题作反应搜索自己所储存信息时用的是“三流数据库管理员所写的Query”技巧(SQL?)还是用他自己一套靠近人思维的Query方式,或是他还有什么更高明的Query方法,我不知道。

所以Watson错过US City问题的准确答案Chicago而误答成Toronto,原因可能是,他读进二战的历史时,相关文章中只提过O'Hare是一个Brave man,但没有Hero的字样。Watson未懂得Brave man和Hero是近义词,所以误答。

尽管如此,Watson在吃进那么多用人的语言写的原始材料后,能够有能力作初步的消化理解作出梳理,也算是很了不起。如果Watson或他的后继者能取下AskJeeves曾经野心要达到的目标,造成搜索引擎大洗牌,也不是不可能的。

我用Google和AskJeeves试了一下。
which US city with airport named O'Hare?
它们都能给出正确回答。但是如果我问
which US city with airport named after a WWII Hero?
它们都没有直接给出正确回答。只有提供一个链接去Jeopardy!

发表时间: 2011-02-16, 21:14:25 >> 察看个人资料

卢昌海


Re: 华生来了 [文章类型: 原创]

:: Watson啃了好多图书馆文献,他吃进的可是Raw Material (好一个Data Cruncher),以后就靠他自由发挥了。

这么厉害?图书馆文献不进行任何“烹饪”,不加任何“佐料”,直接以(数字化后的)原文输入都行?如果这么厉害,我收回前面的评论。

谷歌那种回答能力多半只是关键词匹配加上排序算法,不是因为它懂得问题的含义后的作答,Watson的算法应该非常不同。

宠辱不惊,看庭前花开花落
去留无意,望天空云卷云舒

发表时间: 2011-02-17, 06:08:23 >> 察看个人资料

宇澄


发表文章数: 273
内力值: 211/211
贡献度: 2593
人气: 389
武功等级:
弹指神通 (第六重)

Re: 华生来了 [文章类型: 原创]

华生已经这么厉害,毕竟还是被动反应式的。哪天福尔摩斯出来了,钻到你的厨房掀开你的锅盖也搜个遍,恐怕更不得了。:-)

发表时间: 2011-02-17, 06:20:12 >> 察看个人资料

XXFF


发表文章数: 89
内力值: 135/135
贡献度: 308
人气: 1
武功等级:
罗汉拳 (第二重)

Re: 华生来了 [文章类型: 混合]

我查了下:Watson硬件是10个机柜的Power 750服务器,2,880个处理器核心,运算速度80 teraflops,内存15TB,数据库是DB2,运行SUSE Linux Enterprise Server操作系统,软件平台采用开源程序如Eclipse平台和Apache的Hadoop和Unstructured。
全球共有4个IBM实验室参与了研发,包括中国、美国、以色列和日本。中国实验室主要负责核心算法,包括结构化信息,尤其是帮助排除愚蠢答案,还负责改进学习算法。
===============================================================================
深蓝是在有限规则内快速计算,关键在于算法,无需大量知识;而Watson则是做语意分析,它具有模糊性,需要大量结构化和非结构化的知识。

我觉得人工智能的突破主要在于它的学习能力的建立,如果它能象婴儿一样自己慢慢学习与纠错则是前途无量。

中文检索似乎更复杂。比如搜索“华人”,“中华人民共和国”中虽然有“华人”,但绝对不能跳出来,这叫中文检索的“切分”技术,对应有知识库,比西文的可能更复杂。

我来自地球。

发表时间: 2011-02-17, 19:18:53 >> 察看个人资料

impig


发表文章数: 47
内力值: 118/118
贡献度: 138
人气: 16
武功等级:
野球拳 (第五重)

Re: 华生来了 [文章类型: 原创]

这里有一些信息:
http://asmarterplanet.com/blog/2011/02
给人和电脑的输入是一样的。

发表时间: 2011-02-17, 19:31:19 >> 察看个人资料

XXFF


发表文章数: 89
内力值: 135/135
贡献度: 308
人气: 1
武功等级:
罗汉拳 (第二重)

Re: 华生来了 [文章类型: 原创]

::根据我对Watson的了解,Watson啃了好多图书馆文献,他吃进的可是Raw Material (好一个Data Cruncher),以后就靠他自由发挥了。我不知道IBM有没有人教他应该在这些资料的基础上建立一个像样的Relational DB。但我基本可以肯定没人教他该设什么Table,加什么Column,等等。如果他能无师自通或在他现读的某本电脑书里面学会了再建一个DB再 Normalize之类的,那么他在AI方面Heuristics的能力也是令人震惊的。
=======================================================================
它可能能对Raw Material自动做元数据,如比较流行的DC元数据(Dublin Core元数据)等。

::不过我还是认为,他是无法通过建立一个Relational DB来解决问题的。原因是从理论上来说他要处理的信息的种类和数量都是unlimited的。举例,如果你要建一个NBA的数据库供搜索,那么从设计DB 的那一刻你就知道该放几个Table(无外乎球员,球队,比赛,等等),因为这些跟NBA相关的信息量是封闭的有属性的。
=======================================================================
后关系型数据库处理非结构化数据比较得心应手,但现在新一代的关系数据库对半结构化、非结构化数据都有不同程度的支持,IBM DB2目前有pureXML技术。

我来自地球。

发表时间: 2011-02-17, 19:49:21 >> 察看个人资料

宇澄


发表文章数: 273
内力值: 211/211
贡献度: 2593
人气: 389
武功等级:
弹指神通 (第六重)

Re: 华生来了 [文章类型: 原创]

多谢楼上对Watson作出的非常专业的解释。

发表时间: 2011-02-17, 20:04:34 >> 察看个人资料

XXFF


发表文章数: 89
内力值: 135/135
贡献度: 308
人气: 1
武功等级:
罗汉拳 (第二重)

Re: 华生来了 [文章类型: 原创]

::多谢楼上对Watson作出的非常专业的解释。
=========================================
很多年前是搞过几个月的AI,但后来再也没多接触,AI进展也不知了,但兴趣还是有。

http://www.guokr.com/watson/
有Watson答题过程全揭秘,有兴趣可以多交流。

我来自地球。

发表时间: 2011-02-18, 02:05:29 >> 察看个人资料

卢昌海


Re: 华生来了 [文章类型: 原创]

从这个“答题过程全揭秘”(http://www.guokr.com/watson/article/6643/)中看,那些数据搜索(无论是在数据库中的搜索还是对非结构数据的文本搜索)确实是很简单的搜索,我前面所说“随便哪个三流数据库管理员所写的Query就足可找出符合题意的答案”虽是调侃,也不算过分。真正令人赞赏的还是其语言识别能力,以及宇澄兄提到而该文没有提到的在准备阶段“吃”进海量数据,然后自己进行分类发挥的“自学成才”的过程(假定这一过程确实是“自学”而非IMB细心指导下的“填鸭”)。

我在YouTube上试图找比赛录像,结果没找着,只有跟比赛有关的新闻。不知哪位知道哪里可以看到这三次比赛的录像?

宠辱不惊,看庭前花开花落
去留无意,望天空云卷云舒

发表时间: 2011-02-18, 05:53:08 >> 察看个人资料

宇澄


发表文章数: 273
内力值: 211/211
贡献度: 2593
人气: 389
武功等级:
弹指神通 (第六重)

Re: 华生来了 [文章类型: 原创]

我在YouTube上找到但不全的是:
http://www.youtube.com/watch?v=4PSPvHcLnN0&feature=player_embedded
http://www.youtube.com/watch?v=CtHlxzOXgYs&feature=player_embedded

发表时间: 2011-02-18, 08:25:21 >> 察看个人资料

卢昌海


Re: 华生来了 [文章类型: 原创]

:: 硬件方面中国已经是世界一流的了(当然,不要问芯片是哪儿的)。
:: 相反,在软件方面,似乎还没有什么拿得出手的东西

Good point。但愿中国不是把高速电脑当成一个单纯的国家荣誉来争,只争排名,不问使用。

宠辱不惊,看庭前花开花落
去留无意,望天空云卷云舒

发表时间: 2011-02-18, 14:42:27 >> 察看个人资料

宇澄


发表文章数: 273
内力值: 211/211
贡献度: 2593
人气: 389
武功等级:
弹指神通 (第六重)

Re: 华生来了 [文章类型: 原创]

::但愿中国不是把高速电脑当成一个单纯的国家荣誉来争,只争排名,不问使用。

但愿,中国生产的不光是占据WALMART大部分货架的产品,高端智力密集形产品也出现多一点“华生”(MadeInChina)。
但愿,“华生”有朝能傲视IPad,回国省亲不需要为了省几个IPad关税钱得先切一箩大蒜来刺激泪腺以求表情逼真。(见昌海兄在“买了一个电子书阅读器”上的最新贴图)
但愿,贴图上那位帅哥不是出自富士康IPad生产线的第N跳,不然昌海兄这幽默也太黑色了点。

发表时间: 2011-02-18, 21:32:19 >> 察看个人资料
  :: 新用户注册 | 用户登陆 | 回复 | 刷新 ::
您尚未登陆 | 用户登陆