网站首页 | 站长视频 | 往昔追忆 | 浮光掠影 | 科学园地 | 技术广角 | 笑傲江湖 | 翻译作品 | 站长微博 | 评论选录 | |||||||||||||
Welcome to Changhai Lu's Homepage |
华生来了
:: 前一篇主题:习惯、传统、与变化 ::
宇澄 发表文章数: 273 |
华生来了 [文章类型: 原创]
这星期,美加电视ABC频道晚上七点半播出的智力问答竞赛Jeopardy!请了Watson先生上来打擂。Watson先生是一位啃了好多图书馆文献并具有高速检索能力的
IBM电脑。从这两天他的表现来看,另外两名同台竞赛的人类高手,Jeopardy!曾经的长胜冠军,已经被他远远地抛离,望尘莫及。今天星期三将是最后一天,不知各位茶友有没有观看,有何看法。 这个节目是去年底就录制好了的,或许有不少茶友已早知比赛结果。在介绍Watson的实际功用时,IBM着重讲了他的强大检索能力在医疗诊断方面的应用前景。这也是我将他联想起福侦探的助手称他为华生的缘故。 对此节目有兴趣的茶友如果错过了第一天比赛介绍的话,我想补充说明一下。一,Watson并不与Internet连接。二,他其实听不懂节目主持人的提问。每次主持人口头发问一条问题的同时,把问题的原文用文字的方式输入给Watson。这样一来,我就觉得有个公平问题。因为,其他两位也算是绝顶聪明的人类赛手未必不会这些问题,只不过在反应和按键速度方面输了,没机会回答这些问题而已。所以我建议那两位人类赛手不如险中求胜,在提问那类他觉得有把握的问题时(Jeopardy!问题是归类的),不管三七二十一先按了键把话语权抢到手再说。虽然最后可能还是输,但应该不会象现在这样输得这么难看。另一方面,我觉得Jeopardy!上的问题很少是要用到Fuzzy logic 的,而这一点正是人类要比机器优胜之处。 另外,我觉得有几个有兴趣的问题想跟茶友们泛泛地交流一下。当然,应站长要求,不要太学术性了。 IBM能凭这个跟Google Bing 搜索争一日之短长吗? 人工智能/专家系统发展的瓶颈在哪里?是听力问题?是理解问题?是资料综合问题?中文比起英文来说解决这些问题是处于优势还是处于劣势? 现在中国已经制造出世界最快的电脑了,看来硬件方面中国已经是世界一流的了(当然,不要问芯片是哪儿的)。相反,在软件方面,似乎还没有什么拿得出手的东西,也是被人家远远地抛离,望尘莫及。
|
||
卢昌海 |
Re: 华生来了 [文章类型: 原创]
呵呵,宇澄兄终于开始自己建楼了。
听说过这件事,但没看节目。宇澄兄可否介绍一些节目中使用的题目?我觉得若是单纯的知识题或计算题,那计算机胜过人一点都不希奇,远不如以前DeepBlue胜过卡斯帕罗夫那一战来得有意义。 另外,若如宇澄兄所说,"每次主持人口头发问一条问题的同时,把问题的原文用文字的方式输入给Watson",那我倒对该机器的文字识别能力有点兴趣,如果那台机器能让我来玩几天,我会有兴趣测试它在文字识别方面的能力,看它是否能"看懂"微妙一点的文字,这个据我所知是很困难的。 宠辱不惊,看庭前花开花落
|
||
龙珠雷达 发表文章数: 136 |
Re: 华生来了 [文章类型: 原创]
给电脑一堆人物照片,不同背景,不同角度,全身,半身都有,服饰各异。之后让电脑分辨照片上的人是男是女。找个6岁小孩和电脑比比谁分辨得更快更准。。。
|
||
宇澄 发表文章数: 273 |
Re: 华生来了 [文章类型: 原创]
::可否介绍一些节目中使用的题目?
“The US city of its biggest airport named after a WWII hero and its second biggest airport named after a WWII battle.” 仅凭回忆。未必字字准确。 这是Final Jeopardy的题目,也就是说三位竞赛者都有份回答,不必抢答。结果是,两人答对了,Watson答错了。而且我觉得似乎错得有点离谱。答案我暂时卖个关子不复述吧,让没看过节目的朋友想想。老实说,我也不会这题目。 其实J!是把两次比赛的录像放在三天时间播完。前天昨天的J!花了一半时间来介绍Watson,合共只播了第一次比赛的录像。所以如果大家错过了前两天的节目,今天看仍然可以看到完整的一次比赛。 ::我觉得若是单纯的知识题或计算题,那计算机胜过人一点都不希奇,远不如以前DeepBlue胜过卡斯帕罗夫那一战来得有意义。 我认为两次都算是里程碑似的。而从技术上来说,是Watson胜过DeepBlue。 IMHO,DeepBlue说不上有什么智慧。因为1.它接受的问题是有限的,32颗棋子(当它是开算function的32个parameters吧)的不同摆布而已。2.它选择答案的可能性是封闭的,不可能让棋子跳到64个格子以外。所以,它能胜过卡斯帕罗夫不算本事,棋谱存得多加上算得快用穷举法压死人就是了。它能胜过李昌镐才算本事,因为这至少意味着,1.量子计算机光子通信之类有了重大突破,361个格子的穷举法也不会把自己压死;或2.NPComplete问题有了重大突破,Clay悬赏百万的难题七剩五;或3.电脑真的有那种除了计算之外的灵气了。哦,顺便一提,电脑刚刚是被龙珠雷达扫中了软肋,或死穴:-) 而Watson..要不等看完了今天的J!,或者再听听各位的高见,再作评论吧。
|
||
卢昌海 |
Re: 华生来了 [文章类型: 原创]
:: DeepBlue说不上有什么智慧。
这个跟什么是智慧颇有关系。在我看来判断一台计算机的智慧时算法的权重应远高于数据(当然,这是仅指计算机所具有的能力,人的智慧中还有计算机尚无法模拟的部分,就不算在内了)。 我前面的评论是排除了Watson的语句识别能力的评论。如果题目的语句类型完全不限的话,那么Watson的语句识别能力无疑是很了不起的,如果宇澄兄所说的Watson胜过DeepBlue指这个,那我完全同意。但除了那种能力外,它的其它过人之处恐怕主要是存储而非算法,这在我看来就没什么特别了。象宇澄兄提到的猜城市的题目,只要它理解了题意(即知道所要找的是什么信息),并且存有所需的信息(即有关美国城市、机场、二战英雄、二战战役的数据及合理的联系--比如机场信息中应包含规模、所属城市名等,用数据库语言来说是机场这一table包括规模、所属城市等column),那么随便哪个三流数据库管理员所写的Query就 足可找出符合题意的答案,从算法角度讲是极其简单的。而DeepBlue的算法虽然没有高明到能下围棋的程度,比这恐怕还是要高明得多。因此Watson所展示的虽然是答题能力,在我看来最令人惊叹的其实却应该是语句识别能力。 当然,以上全是胡猜,哪天有机会俺去瞻仰一下它的算法(如果公布的话),然后再细掰吧--说不定还可以写一篇“华生背后的...”之类的东西。:-) 宠辱不惊,看庭前花开花落
|
||
XXFF 发表文章数: 89 |
Re: 华生来了 [文章类型: 原创]
中文方面,微软刚出了个电脑对联软件:
http://couplet.msra.cn/app/couplet.aspx 今天元宵节,大家有兴趣去对对. 我来自地球。
|
||
宇澄 发表文章数: 273 |
Re: 华生来了 [文章类型: 原创]
::在我看来判断一台计算机的智慧时算法的权重应远高于数据
同意。 ::那么随便哪个三流数据库管理员所写的Query就 足可找出符合题意的答案,从算法角度讲是极其简单的。 关键就在这里。 根据我对Watson的了解,Watson啃了好多图书馆文献,他吃进的可是Raw Material (好一个Data Cruncher),以后就靠他自由发挥了。我不知道IBM有没有人教他应该在这些资料的基础上建立一个像样的Relational DB。但我基本可以肯定没人教他该设什么Table,加什么Column,等等。如果他能无师自通或在他现读的某本电脑书里面学会了再建一个DB再Normalize之类的,那么他在AI方面Heuristics的能力也是令人震惊的。 不过我还是认为,他是无法通过建立一个Relational DB来解决问题的。原因是从理论上来说他要处理的信息的种类和数量都是unlimited的。举例,如果你要建一个NBA的数据库供搜索,那么从设计DB的那一刻你就知道该放几个Table(无外乎球员,球队,比赛,等等),因为这些跟NBA相关的信息量是封闭的有属性的。而Watson要处理的情况就完全不是这么一回事。他对问题作反应搜索自己所储存信息时用的是“三流数据库管理员所写的Query”技巧(SQL?)还是用他自己一套靠近人思维的Query方式,或是他还有什么更高明的Query方法,我不知道。 所以Watson错过US City问题的准确答案Chicago而误答成Toronto,原因可能是,他读进二战的历史时,相关文章中只提过O'Hare是一个Brave man,但没有Hero的字样。Watson未懂得Brave man和Hero是近义词,所以误答。 尽管如此,Watson在吃进那么多用人的语言写的原始材料后,能够有能力作初步的消化理解作出梳理,也算是很了不起。如果Watson或他的后继者能取下AskJeeves曾经野心要达到的目标,造成搜索引擎大洗牌,也不是不可能的。 我用Google和AskJeeves试了一下。 which US city with airport named O'Hare? 它们都能给出正确回答。但是如果我问 which US city with airport named after a WWII Hero? 它们都没有直接给出正确回答。只有提供一个链接去Jeopardy!
|
||
卢昌海 |
Re: 华生来了 [文章类型: 原创]
:: Watson啃了好多图书馆文献,他吃进的可是Raw Material (好一个Data Cruncher),以后就靠他自由发挥了。
这么厉害?图书馆文献不进行任何“烹饪”,不加任何“佐料”,直接以(数字化后的)原文输入都行?如果这么厉害,我收回前面的评论。 谷歌那种回答能力多半只是关键词匹配加上排序算法,不是因为它懂得问题的含义后的作答,Watson的算法应该非常不同。 宠辱不惊,看庭前花开花落
|
||
宇澄 发表文章数: 273 |
Re: 华生来了 [文章类型: 原创]
华生已经这么厉害,毕竟还是被动反应式的。哪天福尔摩斯出来了,钻到你的厨房掀开你的锅盖也搜个遍,恐怕更不得了。:-)
|
||
XXFF 发表文章数: 89 |
Re: 华生来了 [文章类型: 混合]
我查了下:Watson硬件是10个机柜的Power 750服务器,2,880个处理器核心,运算速度80 teraflops,内存15TB,数据库是DB2,运行SUSE Linux Enterprise Server操作系统,软件平台采用开源程序如Eclipse平台和Apache的Hadoop和Unstructured。
全球共有4个IBM实验室参与了研发,包括中国、美国、以色列和日本。中国实验室主要负责核心算法,包括结构化信息,尤其是帮助排除愚蠢答案,还负责改进学习算法。 =============================================================================== 深蓝是在有限规则内快速计算,关键在于算法,无需大量知识;而Watson则是做语意分析,它具有模糊性,需要大量结构化和非结构化的知识。 我觉得人工智能的突破主要在于它的学习能力的建立,如果它能象婴儿一样自己慢慢学习与纠错则是前途无量。 中文检索似乎更复杂。比如搜索“华人”,“中华人民共和国”中虽然有“华人”,但绝对不能跳出来,这叫中文检索的“切分”技术,对应有知识库,比西文的可能更复杂。 我来自地球。
|
||
impig 发表文章数: 47 |
Re: 华生来了 [文章类型: 原创]
这里有一些信息:
http://asmarterplanet.com/blog/2011/02 给人和电脑的输入是一样的。
|
||
XXFF 发表文章数: 89 |
Re: 华生来了 [文章类型: 原创]
::根据我对Watson的了解,Watson啃了好多图书馆文献,他吃进的可是Raw Material (好一个Data Cruncher),以后就靠他自由发挥了。我不知道IBM有没有人教他应该在这些资料的基础上建立一个像样的Relational DB。但我基本可以肯定没人教他该设什么Table,加什么Column,等等。如果他能无师自通或在他现读的某本电脑书里面学会了再建一个DB再 Normalize之类的,那么他在AI方面Heuristics的能力也是令人震惊的。
======================================================================= 它可能能对Raw Material自动做元数据,如比较流行的DC元数据(Dublin Core元数据)等。 ::不过我还是认为,他是无法通过建立一个Relational DB来解决问题的。原因是从理论上来说他要处理的信息的种类和数量都是unlimited的。举例,如果你要建一个NBA的数据库供搜索,那么从设计DB 的那一刻你就知道该放几个Table(无外乎球员,球队,比赛,等等),因为这些跟NBA相关的信息量是封闭的有属性的。 ======================================================================= 后关系型数据库处理非结构化数据比较得心应手,但现在新一代的关系数据库对半结构化、非结构化数据都有不同程度的支持,IBM DB2目前有pureXML技术。 我来自地球。
|
||
宇澄 发表文章数: 273 |
Re: 华生来了 [文章类型: 原创]
多谢楼上对Watson作出的非常专业的解释。
|
||
XXFF 发表文章数: 89 |
Re: 华生来了 [文章类型: 原创]
::多谢楼上对Watson作出的非常专业的解释。
========================================= 很多年前是搞过几个月的AI,但后来再也没多接触,AI进展也不知了,但兴趣还是有。 http://www.guokr.com/watson/ 有Watson答题过程全揭秘,有兴趣可以多交流。 我来自地球。
|
||
卢昌海 |
Re: 华生来了 [文章类型: 原创]
从这个“答题过程全揭秘”(http://www.guokr.com/watson/article/6643/)中看,那些数据搜索(无论是在数据库中的搜索还是对非结构数据的文本搜索)确实是很简单的搜索,我前面所说“随便哪个三流数据库管理员所写的Query就足可找出符合题意的答案”虽是调侃,也不算过分。真正令人赞赏的还是其语言识别能力,以及宇澄兄提到而该文没有提到的在准备阶段“吃”进海量数据,然后自己进行分类发挥的“自学成才”的过程(假定这一过程确实是“自学”而非IMB细心指导下的“填鸭”)。
我在YouTube上试图找比赛录像,结果没找着,只有跟比赛有关的新闻。不知哪位知道哪里可以看到这三次比赛的录像? 宠辱不惊,看庭前花开花落
|
||
宇澄 发表文章数: 273 |
Re: 华生来了 [文章类型: 原创]
我在YouTube上找到但不全的是:
http://www.youtube.com/watch?v=4PSPvHcLnN0&feature=player_embedded http://www.youtube.com/watch?v=CtHlxzOXgYs&feature=player_embedded
|
||
卢昌海 |
Re: 华生来了 [文章类型: 原创]
:: 硬件方面中国已经是世界一流的了(当然,不要问芯片是哪儿的)。
:: 相反,在软件方面,似乎还没有什么拿得出手的东西 Good point。但愿中国不是把高速电脑当成一个单纯的国家荣誉来争,只争排名,不问使用。 宠辱不惊,看庭前花开花落
|
||
宇澄 发表文章数: 273 |
Re: 华生来了 [文章类型: 原创]
::但愿中国不是把高速电脑当成一个单纯的国家荣誉来争,只争排名,不问使用。
但愿,中国生产的不光是占据WALMART大部分货架的产品,高端智力密集形产品也出现多一点“华生”(MadeInChina)。 但愿,“华生”有朝能傲视IPad,回国省亲不需要为了省几个IPad关税钱得先切一箩大蒜来刺激泪腺以求表情逼真。(见昌海兄在“买了一个电子书阅读器”上的最新贴图) 但愿,贴图上那位帅哥不是出自富士康IPad生产线的第N跳,不然昌海兄这幽默也太黑色了点。
|
:: 新用户注册 | 用户登陆 | 回复 | 刷新 :: |
您尚未登陆 | 用户登陆 |