整个网络 生活休闲 非主流虹语 设计创意 Google MACs 业界新闻 互联网

 

Powerset 正式公开“自然语言”搜索技术预览版

由. HUNG 将文章归档于 互联网

Powerset 正式公开“自然语言”搜索技术预览版

今天,收到一个读者 Jun Liang 的邮件,提到搜索引擎 Powerset 正式公开了技术预览版。 Powerset 是搜索引擎领域的后起之秀,它有一个宏伟的目标:依靠比 Google 更智能的搜索引擎,成为网络搜索市场最耀眼的明星。经过两年默默无闻的发展, Powerset 最终提供了"自然语言"技术,让用户可以更方便地和搜索引擎交流,这似乎让它离目标近了一步。

Powerset 开发团队表示,所谓"自然语言"搜索,即用户可键入更为直接的问题,这和 Google 、 Yahoo 、微软以及其他搜索引擎所使用的"关键词"有所不同。这种差别意味着网上冲浪者理论上可以通过更直接的提问形式获得更准确的答案,如"Steven Jobs 对 Apple 有何看法"等,不像以往那样输入毫无文法、杂乱无章的"Apple、Steven Jobs、said"等关键词。其创始人之一及首席执行官,人工智能专家 Barney Pell,把原来杂乱的关键词搜索比喻成同两岁小孩的对话,它可能并不能完全理解用户意图,只扔出一大堆不相关信息,需要花费大量时间从中寻找真正需要的。

这家坐落于旧金山的公司自信满满,其实验室将展示竞争对手对同一个问题的回答,甚至还要求用户在输入下一个问题前先表决哪个搜索引擎的效果更好。Pell 说:" Google 现在仍处于主导地位,它们的系统做出令人称道的工作,但我们认为它已进入发展平台期。""而我们拥有已开发的最好的自然语言搜索技术。"

powerset2.jpg

其实,网络搜索市场早已暗流涌动。 Google 、微软、 Yahoo 以及其他数十家专业搜索公司,已开始展开新一代搜索技术的开发竞赛,以帮助人们更高效地获取所需信息。

正如 Pell 所言,在传统关键词搜索市场, Google 的领先地位毋庸置疑,尽管 Yahoo 和微软都投入了大量资金研发搜索引擎,但 Google 在过去 3 年还是能连续扩大其市场分额,而且现在拥有一半以上的搜索市场。

依赖关键词搜索的较大公司都无法撼动 Google 的强大根基,因此各公司开始寻求其他解决之道,而 Google 本身也开始探索新技术,如 Google 和 Yahoo 等在开发网页搜索引擎时都会雇佣语言学家, Google 的搜索引擎能进行拼写检查,并返回所搜索单词的同义词和变体,但并不能始终准确地解答问题。

而早在 2000 年,百度就曾经大力协助当时的 ChinaRen 公司推出一个名为"孙悟空搜索"的提问式搜索引擎。加拿大英属哥伦比亚大学计算机专业的在读博士李鹏在接受《信息周刊》采访时回忆道:"我使用过孙悟空搜索,当时感觉虽然那时的技术可能还比较粗浅,但它对中文语义的理解已达到相当深的深度。"李鹏专注于语义网的研究,他表示,这些搜索引擎应用语言学解释问题,分析网页内容,必要时还通过与用户的互动来优化搜索结果。

但总的来说,这些研究自然语言对话的搜索引擎公司都收效不大。上个世纪 90 年代初,在很多用户为繁杂的不相关信息而头痛时,AskJeeves 诞生了。然而度过了惨淡的网络泡沫,该公司转而使用关键词搜索并且放弃了名为 Jeeves 的卡通吉祥物,来区别它曾经依赖自然语言算法的时代,这就是现在的Ask网站。

比较近的还有纽约的 Hakia,也曾致力于自然语言研究,迄今为止尽管 Hakia 公司的搜索引擎已能够利用语言提示在它自己甚至都不能领会的概念中发现大致意思,但在人们应用语言规则,并对分类进行定义,以缩小搜索范围方面仍差强人意,因而没有引起多大反响。Hakia 公司 CEO 曾憧憬说:"如果我们能教会它们如何讲话、如何理会用户的意思,未来搜索引擎将会成为知识渊博的工具。"但目前来看,这仍是个美好的愿望而已。

那么,Powerset 何以在激烈竞争中崭露头角?

很多人认为,它之所以吸引了更多注意,是因为它得到施乐公司研究部门 Xerox Palo Alto Research Center 的技术许可,并拥有 1250 万美元风险投资。该研究中心以一些突破性的发明,如电脑鼠标,个人电脑的绘图界面等而闻名。Xerox Palo Alto Research Center 的顶级自然语言专家现在是 Powerset 的首席技术官。

不过鉴于以往开发"自然语言"技术的难度,Forrester 研究所的行业分析师 Lee 对 Powerset 的前景也表示怀疑。她怀疑 Powerset 是否能包含寻找同类信息的人们经常用来表达其问题的所有方式,比如当你问,"是什么导致了安然公司的失败"和"是什么导致了安然公司的破产"这两个几乎同样的问题时,也会得到不同答案。这是因为电脑在识别同义字及语言中的其他微妙差别上有困难。她说:"在没有人的参与下了解这么多单词的含义是非常困难的事情"。而博坎也曾调侃道:"如果它能做到完全自动化,我们就能宣告自己发明了新人类。"显然他自己似乎也觉得这是个太遥远的目标。

有人说过,基于精确语义的搜索有一个前提,那就是信息来源必须基于资源描述框架(RDF)、Web 本体语言等信息格式,他说:"信息源的格式化需要得到提供者的认可和规范,这本身就需要相当长的时间,是一个渐进的发展过程。"

但愿这个渐进的过程不会太漫长,希望这个"两岁的孩子"能快快长大,和我们进行自由简单的对话。

附:视频演示:Powerset semantic search engine launches Wikipedia-based demo





Permalink: Powerset 正式公开“自然语言”搜索技术预览版
Tags: Powerset  自然语言搜索  搜索引擎  Web2.0  评论  观点 

Trackback: http://www.creative-weblogging.com/cgi-bin/mt-tb.pl/123123





CW工具栏安设
RSSrss   | 所有的部落格订阅选择
Google google   |   什么是RSS?
Yodao Yodao
Netvibes Netvibes
AnothrAnothr
时事通讯

使用我们的搜索寻找其他有趣的文章

View Zen-Hung Lee's profile on LinkedIn

Follow Me



 


  • 推荐书

  • "每天过滤一大堆信息选出来一些精品给大家很难,需要花费大量的时间和精力,且往往得不到相应的回报(可能他们看到那个惊人的PV,已经满足了)。"
    - from DaTou

    "息乐园,真的是恰如其分的名字,无论你是新来路过此地的菜鸟还是已经拱地三尺终日潜水的老鸟,在息乐园都能随意交流、任意拍砖;虹提供的内容也是丰富多彩,有最新的资讯(乐园最吸引人的东西),有各种风格的音乐,有感情,有……其实更加精彩的应该是各位路过的XDJM、经常流连乐园的常客给虹的数千留言。"
    - from Chris

    "不拘一格、随性、给人轻松的感觉。"
    - from blogsir

    "网谈是少有的、能跟上国际节奏的国产博客。其写作时间也是非常的早,站长Hung算的上是国内的第一批Blogger。"
    - from Conyee

    "他总是无私的分享这些实用信息给大家,并幽然自乐在其中。"
    - from Sunny

    "一个更新比较勤奋且有见地的WEB2.0评论Blog。"
    - from 365RSS.cn

    "CW中文区的主编HUNG本身,也是一位非常勤奋的Blogger,他对Blogging的坚持令人钦佩。同时,他也为CW中文区日常的管理和协调工作耗费了很多精力。可以说,CW中文区的成功和他的努力是分不开的。"
    - from WebLeOn



  • Other blogs in the same channel in the Creative Weblogging Network







 

Tagcloud: Adobe 生活休闲 硬件 笑道消息 随便说说 雅虎 零线机车 非主流虹语 设计创意 软件 Google Linux MACs 微软 摘录 数字装备 业界新闻 互联网