常识图谱:让搜索通往答案本身
发布日期: 2013-07-10 访问次数: 61

GOOGLE似乎成为了常识的代名词。它虽不能回答你的问题,却可以帮你找到答案。随着常识图谱Knowledge Graph)的出现,GOOGLE的定位也在改变——它提供的不仅是通向答案的链接,还有答案本身。

GOOGLE从未停止自己对于搜索的探索。这间企业已经近乎达成世间万物的所有信息都汇聚于此常识图谱Knowledge Graph)要做的,就是梳理清楚这些信息间的关系。

这十几年来,随着以GOOGLE为代表的互联网搜索巨头的出现,搜索这个概念已经发生了翻天覆地的变化,被改变的不仅仅是困惑时寻找答案的方式,连迷路等状况也渐渐地淡出了人们的生活。思考的方式在变,与朋友联系的方式在变,获取信息的方式在变,甚至于搜索的方式也在改变——用语言向计算机提问,不再需要输入框。

 

搜索的未来会是怎样?身价亿万的GOOGLE创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin2004年曾预言,搜索会成为人们大脑的一种活动,当你在想到一件不怎么清楚的事,它便会自动出现在你的脑海里GOOGLE的目的是用全世界的信息扩张人类的脑容量。目前,你需要在搜索框内输入字眼,但未来事情肯定会更简单。你可以和设备对话,计算机会自动收集周围的信息……”;佩奇更是坚信,最终,计算机会被植入你的大脑,只要想到,答案就会出现

 

9年之后,布林规划的未来已经逐步实现,苹果和GOOGLE都推出了语音搜索服务,而谷歌 Now可以在你发问之前告诉你目的地的天气如何、喜欢的球队战况怎样,诸如此类的信息。而佩奇的大脑植入计划还仍旧遥远,不过GOOGLE正在研发的GOOGLE眼镜可以在使用者眼睛近前方外侧投射一个恒定的屏幕影像,操控也是通过语音进行。搜索,已经越来越接近于思考。(此处已修改)

 

搜索的概念日新月异,但其本质却始终如一——满足你对信息的需求。在这一切的背后,是写代码的程序员孜孜不倦的努力。提起程序员,就不得不提到阿米特·辛格尔(Amit Singhal)。44岁的辛格尔是谷歌搜索部门的带头人,十几年来他肩负着编写及维护GOOGLE搜索算法的大任,正是他负责的200多个独立的编码方程式,让大家在迷惑时能从谷歌得到答案。

 

GOOGLE搜索的掌门人

阿米特·辛格出生于印度北部的一个小村庄,在8岁后他的家里才添置了第一块显示屏,那是一台黑白电视机。当时的电视只有两个频道,一个是针对于本地农民播放的农业频道,另一个不断地播放美国电视剧,比如星际迷航(Star Trek)。”“我看了非常多遍星际迷航,每一集我都烂记于心,回忆这段岁月时辛格尔发出了爽朗的笑声,我认为是这部电视剧改变了我的世界观。在星球间穿行、能回答任何问题的电脑,这些概念深深地植入我的心底。唯一没想到的是,这些东西竟然会在我的有生之年出现。

 

辛格尔认为自己是个幸运的人,总是在正确的时间被引领向正确的事情。1991年他在美国本科毕业,转入学习计算机搜索,这一年起万维网(World Wide Web)开始连接世界。在拿到博士学位后,辛格尔加入AT&T的贝尔实验室(Bell laboratories)。2000年起,他加入GOOGLE。这一切,仿佛冥冥之中有一双手在指引他前进的方向。

 

接受采访时,辛格尔从口袋中掏出自己的安卓手机,对着手机问道:伦敦有多少人口?手机答:“2011年的数据显示,伦敦人口为817.4万。他接着问:贾斯汀·比伯(Justin Bieber)身高几何?手机答:贾斯汀·比伯身高5英尺7英寸。声音落下,辛格尔露出了孩子般的笑容:如果我二十年前睡着了今天才起床,看到这一切后,我肯定会激动地问:快告诉我,去哪里搭乘星际航班?’”

 

辛格尔进而表示,他们现在取得的成果都还在初级阶段,但搜索已经站在了奇幻未来的大门口。在经过了十几年的发展后,这些冷冰冰的计算机开始获得人性化的能力,开始学习如何理解真实社会中的人和事

 

在一些看似简单的场景背后,蕴含着极其丰富的信息,就比如说手机回答了贾斯汀·比伯的身高。手机得明白,贾斯汀·比伯是一个人,还得明白身高一词代表着怎样的含义。计算机已经能够跨越语义学上的障碍,但这远远不够。在简单的语句背后是一大堆无结构的文本信息,只有明白了究竟问得是什么问题,才能给出适合的答案。

 

现在,GOOGLE似乎成为了常识的代名词。它虽然不能回答你的问题,但它可以帮助你找到问题的答案。从某些方面看,随着常识图谱Knowledge Graph)的出现,GOOGLE的定位也在改变——它提供的不仅是通向答案的链接,还有答案本身。

 

常识图谱:梳理人与信息的联系

常识图谱是一个收集了5亿余个最常被搜索的人、地、事的数据库。对于每一个词条,GOOGLE都提供了大量而全面的信息——不是简单的词串或单薄的数据片段。假设你通过常识图谱查询唐宁街10号(10 Downing Street),GOOGLE给出的答案并不是这是一个地名,他会像一个普通人一样,把相关的信息对你娓娓道来,这些相关信息都是其他用户经常查询的。

5 年前,当科技类杂志《连线》(Wired)创始人约翰·巴特利(John Battelle)创作著作《搜》(The SearchHow 谷歌 and Its Rivals Rewrote the Rules of Business andTransformed Our Culture)时,他引用了艾萨克·阿西莫夫(Isaac Asimov)在科幻小说中描述的场景:所有被收集的信息都来到一个终点,世间万物的所有信息都汇聚于此。但是,这些信息之间的关系还没有被完全梳理清楚,这项工程要耗费无穷无尽的时间。

信息的广度和精度

在某种角度上,GOOGLE对常识图谱的尝试便是这一无穷无尽的工程的开端。对于这间企业,它已经近乎达成世间万物的所有信息都汇聚于此,它管理的信息不仅是互联网上一切网页上书写着的内容,更有每一条街、每一道路上的照片,有数不尽的实体书内容,有你我观看的每一个网络视频(最大的视频分享网站Youtube为GOOGLE所有)。近年来,GOOGLE又在做新的尝试,它想记录下世间各色各样的人音,为了收集世间一切的语言或方言,以打造出新一代的翻译/人声阅读功能。同时,GOOGLE还在人脸识别领域进行探索。最关键的是,凭借搜索记录等常被大肆批评讨论是否侵犯隐私的个人信息搜集,GOOGLE足够了解每个用户的私人生活。

一切被收集的信息不仅可用于精准契合用户需求提供信息支撑,更能帮助GOOGLE去思考如何给机器培养思维。这十几年来,辛格尔和他的团队一直在探索,如何通过文本和超链接为搜索用户提供更为准确的信息。同时,他们也慢慢掌握了方法,观察这个世界是如何与信息产生互动,并开始做一些其他的东西,比如让计算机明白人们输入的问题是什么意思

GOOGLE是如何向用户学习的呢?其实很简单,分析用户在搜索页面上停留的时间。如果时间长,说明用户找到了满意的答案,他们不需要点开其他链接,或是更改搜索词条。如果时间短,这就说明搜索页面没有做到尽善尽美,得算是一个小的失败。每个人都认为,大家向GOOGLE学习了很多。但事实上,受益于源源不断的上十亿次分析,GOOGLE从你我身上学到了更多东西。

理解用户的需求

早在2002年,辛格尔就基于路德维希·维特根斯坦(Ludwig Wittgenstein)的理论,引进了一套关于上下文如何影响单词词义的升级理论。当词义模糊的单词被搜索时,GOOGLE跨越单词本身去查询相关的词汇。比如热狗,GOOGLE会通过相关词芥末球赛明白它是一种快餐类食物,而不是一只很热的狗。辛格尔说明说,正是热狗与很热的狗之间的细微差别,定义了人工智能。

既然如此,是不是人们用GOOGLE用得越多,GOOGLE就越能提供精准的回答呢?对于这个假设,辛格尔发出一声叹息:事实不是如此。当搜索引擎给出的信息越精准,用户的提问就越粗糙,搜索引擎的进步就受到了阻碍。面对着大量的语法错误或是拼写错误,工程师要耗费大量的精力去调试系统,目的只有一个,做出《星际迷航》中那样的计算机,即便你不知如何表述自己的问题,答案仍会出现在你的脑海中。最终大家希翼搜索成为大脑思考进程中自然的一环,大家竭尽全力消除问题与答案之间的阻碍。这一切,恰是对于植入大脑的计算机概念的响应。

常识图谱是一个强有力的尝试,它的出现是随着GOOGLE收购 Metaweb 企业开始的。辛格尔回忆道,大家发现了这家叫做Metaweb 的企业,他们拥有让计算机与人类和谐交互的办法,他们正尝试着把真实世界的人与物投射到计算机内存之中。他们的技术看起来很靠谱,所以大家收购了Metaweb

在那时,Metaweb 存储了1200万个参照点(reference points)。在两年后,有了GOOGLE的推动,这个规模被扩张至5.7亿,并在这些参照点之间建立了180亿个连接。这是一个怎样的概念呢?百科全书维基百科内仅收录了约400万个词条。

艾米丽·莫克斯利(Emily Moxley)是GOOGLE常识图谱的负责人,她在接受记者采访时表示,他们花了极大的功夫,才让这个搜索引擎能够区分英式足球和美式足球(即橄榄球)。比如说在日本,大家的分析结果显示,用户对于影星的血型很感兴趣,于是大家在常识图谱内便添加了这部分内容。GOOGLE针对日本市场还花费了另一些功夫。他们发现日本用户在搜索相扑时难以得到满意的答案,我认为大家至少得能够回答一些较有深度的相关问题,艾米丽如是说。怎样才是较有深度呢?艾米丽的答案是,至少要能回答最常见的那几千万个问题。

常识的精度与广度并不是GOOGLE唯一的追求,辛格尔希翼搜索的结果能够与用户的需求相一致。当你搜索马丁·路德·金(Martin Luther King)那篇著名的演讲《我有一个梦想》时,辛格尔说:你可能想找演讲文本,可能想找相关图片,但大家猜,你真正想要到的是当时现场的视频,所以这段视频出现在常识图谱的最上方。这就是常识图谱,GOOGLE希翼它不仅能提供信息,还要能理解人的需求。

 

不少人质疑,GOOGLE每年的营收超过 9 成来自于广告收入,而广告收入的基础恰恰是他们所掌握的信息。不过,如果你向任何一位GOOGLE员工提起这个话题,他们都会自然地给出类似回应:你为什么不相信大家呢?GOOGLE也时时因为自己的角色陷入法律纠纷中,比如欧盟起诉GOOGLE在搜索结果中偏袒自己的产品服务,违反了反垄断的相关法规。

对于这些问题,辛格尔的回应是——大家是搞搜索的人,我就是想建立一个强大的搜索引擎,实现自己的价值,仅此而已。辛格尔进一步说:所有的信息都是经过授权的。对于GOOGLE拥有的信息的意义,他举了自己最喜欢的例子以作说明——每年,辛格尔都要回到自己出生的那个印度小村庄,看看信息化如何影响了这里的人们,而辛格尔的父亲几乎每年都会到访加利福尼亚,我的父亲是一位退休公务员,他以前每次来这都很担心,因为他带回家的礼品得经过海关的复杂检验。印度海关对于这一块的规定纠结且善变,要搞懂最新的规定十分非常让人头疼。

我仍记得在10年前,我教父亲使用GOOGLE搜索印度海关通关条例,黑纸白字的搜索结果,全是最新版的。父亲会将其打印出来塞进胸前口袋,鼓囊囊的一坨。当父亲回家时他会打电话向我描述,自己在通关时是怎样拿出那张纸,向海关工作人员说明,自己给孩孙带的礼物都符合了的规定。海关工作人员之后对他说,欢迎回家,辛格尔先生!’”

正如辛格尔父亲的经历,便捷的搜索简化了大家的生活,辛格尔还在继续努力让这种便捷继续前进。如今常识图谱会显示出它认为你最需要的信息,但未来它可能可以模拟大家的思维过程。辛格尔如今醉心于对行为心理学的研究,他成为了心理学家丹尼尔·卡尼曼(Daniel Kahneman)的拥趸。我喜欢他对于人类面对选择和决定时心态的细致研究。比如当有人拿出32条巧克力要你选择时,你为什么想逃;为什么当那人拿出只一只巧克力让你无从选择时,你会感到心满意足。

辛格尔与GOOGLE从未停止自己对于搜索的探索。这样发展下去,信息与搜索的未来会是何种模样?对于这个问题,辛格尔爽朗地答道:具体我还不确定……”让你毫不怀疑他、还有GOOGLE这家企业一贯所奉行的,很快就会知晓。

 

更正说明:文章发布之初,第三自然段中对于GOOGLE眼镜(谷歌 Glass)的功能表述有误,而且没有准确传达编辑对佩奇将计算机植入大脑这一预测的看法。经读者_Taget_指出后修改,特此说明。(2013-1-26

 

编译自:《卫报》,谷歌 and the future of search: Amit Singhal and the Knowledge Graph