(这条文章已经被阅读了 300 次) 时间:2001-11-16 11:32:22 来源:陆元婕 (jannylu) 原创-IT
在使用搜索引擎时,你是否曾经希望不再需要输入关键字而是用简单的话语就可以找到答案?这正是应用自然语言理解技术的搜索引擎研究的课题。
自然语言理解和搜索引擎
自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。它的目标是使广大用户能用自己熟悉的母语同计算机对话。自然语言理解系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用价值。
关于自然语言处理研究在电子计算机问世之初就开始了,并于50年代初开展了机器翻译试验。计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机实现了人机会话,或机器翻译,或自动文摘等语言信息处理功能,则认为计算机具备了自然语言理解的能力。
目前在搜索引擎方面主要应用的自然语言理解技术是机器翻译与语义理解技术。应用了这些技术的搜索引擎我们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,因而具有信息服务的智能化、人性化特征。它允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。
与传统的目录查询、关键词查询模式相比,自然语言查询的优势体现在:一是使网络交流更加人性化;二是使信息查询变得更加方便、快速和准确。现在,已经有越来越多的搜索引擎宣布支持自然语言搜索特性,比如:Google、AskJeeves、网易搜索引擎、尤里卡、问一问、21世纪互联、孙悟空等。本文将重点介绍应用语义理解技术的中文智能搜索引擎。
智能搜索过程
首先,以尤里卡搜索引擎为例简要说明一下这种智能搜索的过程。
实现智能搜索的过程主要分三部分:语义理解、知识管理和知识检索。其中,知识库是实现智能搜索的基础和核心。知识库提供的是语义理解中最终将要提供给用户的结果,同互联网的状况相同,人类的知识结构和容量都在飞速膨胀,所以知识库也需要有良好的适应能力。在语义理解的整个过程中,智能分词技术是最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。
加入了知识库处理技术的智能分词能够避免传统分词技术在拆分时产生的歧义组合,从而为语义理解的处理提供良好的原始材料。知识检索可以利用语义分析的结果,对知识库进行概念级的检索,对用户提出的问题给出准确度最高、相关度最强的检索结果。比如:“我想在北京找工作?”,首先进行语义理解,在知识库中“找工作”属于求职招聘的范畴,所以分析出用户想查询“在北京求职”。然后利用“在北京求职”这个概念查询知识库,得出答案。
优势例举
应用了语义理解技术的搜索引擎与传统搜索引擎相比有不小的优势。
1.更高的搜索的易用性
由于智能搜索引擎具有智能分词功能,因此使得查询变得更为简单、易于操作。以网易为例说明:需要搜索“刘德华的最新个人专辑”,只需要将整个搜索内容全部输入到搜索框中就可以找到相关的内容;而在传统的搜索引擎中则必须遵守搜索的基本数学规则,输入:“刘德华 最新个人专辑”才能够找到搜索的内容。显然在搜索的易用性方面智能搜索引擎具有明显的优势。
2.搜索结果的范围定位准确
由于采用知识(概念)检索技术,明确和缩小了搜索范围,减少了对无用信息的搜索。以尤里卡为例说明:要查找“北京的天气”只需要输入“北京天气”就可以找到相关程度甚高的北京的天气预报,同时还会给出相关的天气内容。而在传统搜索引擎的查询结果中不但有北京天气的内容,还会给出所有与北京天气字样有关的各种内容,增大了用户查找搜索结果的难度。
3.搜索结果的智能性
由于智能搜索引擎有综合知识库为背景,使得信息检索与导航服务更具有智能性。知识库中的知识有助于解决表达差异的问题。所谓表达差异就是用户使用不同的词表达同一概念。而知识库中关于同义词的定义正好可以消除这种表达差异带来的检索困难。
专题:搜出多彩新世界
(责任编辑 Jacky [email protected])