(这条文章已经被阅读了 171 次) 时间:2000-06-08 21:16:59 来源:阿龙 (紫杉龙王) 原创-IT
搜索引擎一词在国内外互联网领域被广泛使用,然而,它的含义却不尽相同。在美国,搜索引擎(SEARCHENGINE)通常指的是基于互联网的搜索引擎,这种引擎收集互联网上几千万到几亿个网页数量不等,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索。在中国,搜索引擎通常指的是基于网站目录的搜索服务或是特定网站的搜索服务。
在过去的几年中,国内对基于互联网搜索引擎的开发也作过一些尝试,例如北大的天网,清华的网络指南针等,但是由于人才、技术、资金的原因,商业化的互联网中文搜索引擎一直没有出现。
搜索引擎的工作原理
搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。互联网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见的互联网搜索引擎系统。
当然,一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统,也就是要把检索结果高效地组装成互联网页面。当系统的访问量(PAGEVIEW)变大时,页面生成系统往往会成为整个系统的瓶颈。
与传统的信息检索理论研究不同,搜索引擎的用户看重的是系统的稳定性、速度、易用性和返回的信息量及相关度。
著名搜索引擎简介
AltaVista:以反应速度快和数据库容量大著称,1999年被CMGI收购。
Infoseek:最早的搜索引擎之一,以相关性好著称。1999年被迪斯尼公司收购。Excite:为斯坦福大学学生所创,其引擎曾是美国在线的缺省搜索引擎,1998年被@HOME并购。
Lycos:来自美国东部,数据更新较慢。Inktomi:为美国前三大网络门户AOL,Yahoo和MSN提供搜索引擎服务,经营方式不同于早期的搜索引擎公司。
Google:新兴的搜索引擎公司,以分析超文本链接见长,经营方式尚不明确。
搜索引擎面临的挑战
Web商业化至今,搜索引擎始终是网络上被使用最多的服务项目。然而搜索引擎越来越不能满足挑剔的网民们的各种信息需求。这表现在以下几个方面:对自然语言提问没有理解能力;对中文的支持不够;收集的网页数量和其数据库的更新速度存在着不可调和的矛盾;无法与电子商务紧密结合;对多媒体内容的处理尚不成熟。
新一代搜索引擎
AskJeeves:巧妙地将用户提问转化为系统已知的问题,然后对已知的问题进行回答,降低了对自然语言理解技术的依赖性。
Baidu.com:第一个为中国人写的商业化的互联网搜索引擎,具有信息量大,相关性好,刷新率高,速度快等特点。
Goto.com:最先将拍卖的概念引入搜索引擎服务,当用户检索某些词时,广告商可以通过竞拍使自己的网站在搜索结果中的排名提前。
MySimon:这是一个完全面向电子商务的搜索服务,它对同一种商品按价格的高低进行排序,不久前被CNET收购。
Ditto:这是一个多媒体的搜索引擎,目前主要提供网上图像的搜索,已收集了超过200万个图像,并且大多经过人工的筛选,因而搜索结果质量较高。
搜索引擎的未来
搜索引擎的发展经过了几个阶段,起初大家一味地追求收集网页的多少。后来发现对同一用户提问,搜索引擎返回的信息太多,用户感到无所适从。1996年起,搜索引擎技术开始注重网页质量与相关性的结合,这主要是通过三种手段:一是对网上的超文本链接结构进行分析,如Infoseek和Google;二是对用户的点击行为进行分析,如Directhit(被AskJeeves收购);三是与网站目录相结合。最新的趋势则是搜索的个性化和本地化。
中文搜索引擎的几大误区
网站目录就是搜索引擎
搜索引擎的概念已经过时
互联网搜索引擎是一个全自动的软件服务,并且非常容易在搜索结果网页中插入具有很高针对性的广告,CPM最高可达70美圆。根据CNNIC的统计,在中国搜索是第二大互联网应用。
中文搜索引擎技术已经成熟
不要说中文,即使英文的搜索引擎也没有发展成熟。美国前三大网站都外包了它们的网页搜索部分。这是因为搜索引擎技术变化非常快,这些网站无法自行跟踪最前沿的技术,而集中精力于互联网上大众品牌的建立。
中文搜索引擎速度很慢
某些中文网站的网页搜索服务外包给了一些服务器在境外的应用服务提供商(ASP),由于用户搜索需要占用出国带宽,因而速度慢。
中英文混合检索词不被支持。然而搜索技术并非对此无能为力。
中文搜索引擎的相关性无法与英文比美
中文与英文最大的不同之处在于中文中没有词的概念,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配。然而中文搜索也有许多英文搜索望尘莫及之处,如中文网页极少有针对搜索引擎的Spamming行为,中文没有单复数、时态等的变化,大多数先进的算法也完全适用于中文。因此中文搜索的相关性完全可以与英文比美。
用户要找的信息在网上不存在
随着大量风险投资的进入,中文互联网的内容日益丰富,找不到信息可能是使用的搜索引擎不好。
搜索引擎数据更新慢,这是对于那些依靠海外服务器提供检索的网站来说的。
搜索引擎不能查找动态生成的网页目前世界上没有一家主要的搜索引擎支持动态网页,蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大事所趋,解决动态网页查找的问题已经是人心所向。像百度在这一方面成功解决了动态网页的收集和索引问题。
中文搜索引擎是本地化运动中的最大潜在市场,由于大量资金不断涌入中国互联网领域,中文搜索技术必将出现大幅度的进步。
摘自:网络世界