(这条文章已经被阅读了 74 次) 时间:2001-11-16 11:31:44 来源:陆元婕 (jannylu) 原创-IT
在搜索技术中的应用
众所周知,随着互联网的迅速发展和广泛普及而导致网上信息爆炸性增长。如何在庞大的互联网上获得有价值的信息已成为网民日益关注的问题。这种以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的的搜索技术的出现为网民快速找到所需信息带来了福音。
但是,2001年,Roper Starch的调查指出,36%的互联网用户一个星期花了超过2个小时时间在网上搜索;71%的用户在使用搜索引擎的时候遇到过麻烦;平均搜索12分钟以后发现搜索受挫;搜索受挫中46%都是因为链接错误;绝大部分(86%)的互联网用户感到应当出现更有效的、准确的信息搜索技术。另一项由Keen所做的调查显示,人们平均每天有四个问题需要从外界获取答案;其中31%的人使用搜索引擎寻找答案;平均每周花费8.75个小时找寻答案;53.3%时间花在从旁人那里获得答案,29%的时间花在亲戚朋友身上,24.3%的是时间花在销售商那里;网上查找答案的,半数以上都不成功;他们每周将花费14.5美元以上,以获取正确的信息。
从这些调查数据中不难看出,尽管搜索服务提供者在研发搜索技术方面已经花费了大量的时间和精力,但是目前的搜索引擎仍然存在不少的局限性,比如信息丢失、返回信息太多、信息无关,这使得网民对于现有的搜索技术仍然不满,期盼更完美的搜索技术的出现。
由于自然语言理解技术的三方面功能,即机器翻译、语义理解及人机会话技术能够赋予搜索技术更具人性化、方便易用的特点。因此,近年来在搜索界得到了广泛的应用。无论是国内外的搜索引擎,都可以寻觅到语义理解、机器翻译的踪迹。
目前在搜索引擎方面主要应用的自然语言理解技术是机器翻译与语义理解技术。应用了这些技术的搜索引擎我们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,因而具有信息服务的智能化、人性化特征。它允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。
与传统的目录查询、关键词查询模式相比,自然语言查询的优势体现在:一是使网络交流更加人性化;二是使信息查询变得更加方便、快速和准确。现在,已经有越来越多的搜索引擎宣布支持自然语言搜索特性。比如国外的搜索引擎Google,,AskJeeves;国内的搜索引擎网易、尤里卡、问一问、21世纪互联、孙悟空、悠游等。在这里我们将重点介绍应用语义理解技术的中文智能搜索引擎。
首先以尤里卡搜索引擎为例简要说明一下这种智能搜索的过程。
实现智能搜索的过程主要分三部分:语义理解、知识管理和知识检索。其中,知识库是实现智能搜索的基础和核心。知识库提供的是语义理解中最终将要提供给用户的结果,同互联网的状况相同,人类的知识结构和容量都在飞速膨胀,所以知识库也需要有良好的适应能力。在语义理解的整个过程中,智能分词技术是最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。
加入了知识库处理技术的智能分词能够避免了传统分词技术在拆分时产生的歧义组合。从而为语义理解的处理提供了良好的原始材料。知识检索可以利用语义分析的结果,对知识库进行概念级的检索,对用户提出问题给出准确度最高、相关度最强的检索结果。比如:”我想在北京找工作?”。首先进行语义理解,在知识库中”找工作”属于求知招聘的范畴,所以分析出用户想查询”在北京求职”。然后利用”在北京求职”这个概念查询知识库,得出答案。
下面我们再来看看各家宣称应用了自然语言理解的搜索技术有哪些特点。
问一问(www.weniwen.com)自然语言检索
问一问是由闻易网科技有限公司(Weniwen Technologies, Inc.)开发的智能搜索引擎。它允许用户以自然的、整句的方式、以汉语或英语发出查询请求。易于快速地、以比较经济的方式扩展到不同的语言。 并可以同时从两种语言中识别出词汇。使用自然语言处理(NLP)技术,与传统的、基于关键词匹配的搜索技术相比,NLP技术可使问一问”理解”请求中的上下文和含义。通过使用NLP技术,问一问可以更准确地检索出适当的信息。尤其适用于旅游/休闲、金融以及消费品工业的、正在寻求可增强消费者通过Internet来访问其信息或进行自动交易的途径的大企业或门户。
21ilink(www.21ilink.com)中文智能搜索引擎
世纪讯联公司开发的基于自然语言处理和人工神经网络的智能互动技术解决了传统信息分类中的一些语意交叉词汇抽象概念、边缘类别的信息查询问题实现了模糊查询。查询过程突出了个性化、人性化。采用了自然语言的语句单元,还可设定地方语言特色。界面更加友好,能够满足不同层次,不同查询目的客户的特殊需求。并能引导查询者快速准确地找到所需要的信息。此项智能搜索技术采用国内独创的中文问答方式,并兼容了其他传统的搜索引擎的查询方式。支持基于概念的信息搜索、行业化、专业化的智能搜索、客户定制的商务模型,还可完成管理、追踪、支付等一系列的供应链的分析、行业研究等咨询项目。实现了多方协作,业务拓展的无缝结合。
此项智能搜索系统是将现代智能计算技术、交换技术、网络技术、数据库技术融为一体,而建成的一个面向客户的,全方位高质量的服务体系。采用了独有的Smart Hit(智能语义)、和Kengine(知识引擎)。开放性、先进性和超前性均大大领先于同类系统。全套系统拥有完整的智能网络接入服务功能,支持各网络平台的语音文字、数据及图像,是一种智能多媒体平台。平台无中断,支持宽频网络,满足对数据库全内容覆盖要求。支持概念检索、动态页面检索。
孙悟空(search.chinaren.com)搜索引擎
孙悟空搜索引擎是ChinaRen开发并拥有自主版权的产品,能按照用户的需求,搜索大陆和港澳台的中文网页。孙悟空搜索不仅可用传统的关键词搜索方式,更是在所有中文搜索引擎里率先采用了提问式搜索,这是ChinaRen研究并实现的一种智能中文处理技术。通过该技术,您可以直接通过提出问题的方式搜索您想要找的内容,这样不仅更符合我们平时的习惯,而且准确率更高。孙悟空搜索引擎拥有强大的搜索能力,提高搜索的智能性和准确性;智能的评价体系,保证检索结果高度相关。
悠游(www.goyoyo.com.cn)中文智能搜索引擎
北京悠游科技开发有限公司(Beijing Goyoyo)成立于1998年10月,是一个以中文自然语言处理技术为基础建立的互联网信息咨询及技术服务网站(www.goyoyo.com)。悠游中文智能搜索引擎通过www.goyoyo.com 提供主要服务。为了更贴近用户的语言使用习惯,凭借先进的自然语言处理技术,悠游中文智能搜索引擎充分考虑到中文语句的表达结构以及丰富多样的词语表达形式,通过”口语化的提问,智能化的结果” ,让用户在查询时只需用口语化的表达方式输入欲查询的关键词、自然语句甚至输入中英文混合语句,选择要查询的网站或网页,单击”搜索”按纽,悠游中文智能搜索引擎就会根据您的查询请求自动分析语句,并且提炼主题,找到满意的答案,满足了广大用户的各种查询需求,使您能够悠闲自得的在网上畅游。
下面举例说明应用了语义理解技术的搜索引擎与传统搜索引擎相比的优势。
1、更高的搜索的易用性
由于智能搜索引擎具有智能分词功能,因此使得查询变得更为简单、易于操作。以网易为例说明:需要搜索”刘德华的最新个人专辑”,只需要将整个搜索内容全部输入到搜索框中就可以找到相关的内容;而在传统的搜索引擎中则必须遵守搜索的基本数学规则,输入”刘德华 最新 个人专辑”才能够找到搜索的内容。显然在搜索的易用性方面智能搜索引擎具有明显的优势。
2、搜索结果的范围定位准确
由于采用知识(概念)检索技术,明确和缩小的搜索范围,减少对无用信息的搜索。以尤里卡为例说明:要查找”北京的天气”只需要输入”北京天气”就可以找到相关程度甚高的北京的天气预报,同时还会给出相关的天气的内容。而在传统搜索引擎的查询结果中不但有北京天气的内容,还会给出所有与北京天气字样有关的各种内容,增大了用户查找搜索结果的难度。
3、搜索结果的智能性
由于智能搜索引擎有综合知识库为背景,使得信息检索与导航服务更具有智能性。知识库中的知识有助于解决表达差异的问题。所谓表达差异就是用户使用不同的词表达同一概念。而知识库中关于同义词的定义正好可以消除这种表达差异带来的检索困难。
从上面的示例及比较不难看出运用了先进的自然语言理解技术后,搜索引擎可以识别并回答用户的问题,使用户摆脱了传统搜索引擎基于关键字的束缚,指引用户更有效更快捷地寻找到所需的资料,同时为用户提供相关的有参考价值的其他内容。由于这些特点,使得智能搜索技术能够在互联网信息检索的各个方面得到广泛的应有。它可以为大型综合搜索引擎提供后台支持,使之具有人性化、交互性的特点。它能够方便的实现垂直搜索引擎的专业类别内搜索。当然它也可以为信息门户网站提供方便快捷的站内信息搜索服务。
专题:搜出多彩新世界
(责任编辑 Jacky [email protected])
文章评论:自然语言理解技术及其应用探讨(下) - 平平 - 2001-11-16 16:08:37
呵呵,似乎有些不准确啊。我觉得层次和思路不是非常非常的清楚啊
文章评论:自然语言理解技术及其应用探讨(下) - 平平 - 2001-11-16 16:08:37
呵呵,似乎有些不准确啊。我觉得层次和思路不是非常非常的清楚啊