Page not found – Not DoNews

(这条文章已经被阅读了 129 次) 时间：2001-12-07 11:16:58 来源：陆元婕 (jannylu) 原创-IT

搜索引擎基础篇
（陆元婕　2001年12月06日 16:42）

【时间】公元二零零一年X月

美美（15岁）爱上网，通常她就是泡聊天室、看新闻、玩网络游戏之类的，时间一长，觉得有些无聊了。这天美美问：“妮妮表姐，你整天上网做什么呢？”妮妮说：“上网查资料呀。查资料？”“怎么查？上哪查？……”美美一连串的疑问。妮妮说：“查资料当然是要用搜索引擎啊。我平时写论文用的资料、做主页用的图片、电脑知识、甚至电子版的小说、最新的CD试听都是通过搜索引擎找到的。还有，我的主页这半年访问量剧增，也要归功于搜索引擎啊。”

搜索引擎？美美觉得挺奇怪的：“这搜索引擎有这么大威力？嗯，我也要学习用搜索引擎。”“可以啊，不过，最近我挺忙的，要不，先让小张（妮妮的男朋友）教你一些基本知识吧。”

“美美，学习使用搜索引擎先要了解一些基本知识，可是有点枯燥哦，要有心理准备哟。”小张在旁边嘿嘿的笑着。美美嘴里哼了哼：“谁怕呀，来吧。”小张清了清嗓子，开始了讲解：

“十几年前，WWW（World Wide Web，万维网）还没有出生的时候，互联网上只有冰冷的文字，没有图像和声音，而且网站数量也不多，感兴趣的网站就那么几个，可以在很短的时间内就掌握其中的全部信息，搜索引擎完全没有出现的必要。1993年，互联网上出现了最早的Web浏览器Mosaic，次年Netscape推出了Navigator。浏览器的发展促使Web得到迅速推广，站点数目以惊人的速度增加，我们再也不能用传统记忆方式来应付与日俱增的站点。于是，搜索引擎就诞生了。第一个搜索引擎的出生地在美国，它的名字叫Archie,是由McGill大学的一个小组开发的。”

“早期的搜索引擎是把互联网中资源服务器的地址收集起来，由其提供资源的类型不同而分成不同的目录，再一层层地进行分类。人们要找自己想要的信息可按它们的分类一层层进入，就能最后到达目的地，找到自己想要的信息。这种方式，只适用于互联网信息并不多的时候。”

“随着互联网的信息按几何式增长，搜索引擎开始快速发展。1994年春天，世界上出现了真正意义上的搜索引擎——Lycos。随着Yahoo!的出现，搜索引擎的发展也进入了黄金时代。搜索引擎家族不断发展壮大，逐渐分布到信息世界的各个角落，它们的种类、技术也在不断的发生变化。”

美美听了半天，嘴越张越大：“哇，没想到搜索引擎也有这样的历史呀。”

“那当然了，别打岔，下面要讲搜索引擎的分类及原理了，仔细听着。”

“尽管目前存在数量众多的搜索引擎，但按照它们信息搜集方法和服务提供方式的不同，可以大致划分为三大类型。”

“我们先来讲讲基于蜘蛛程序的的机器人搜索引擎，这种搜索引擎由一个称为蜘蛛（Spider）的机器人程序自动访问Web站点，提取站点上的网页，并根据网页中的链接进一步提取其它网页，或转移到其它站点上。由索引器为搜集到的信息建立索引，由检索器根据用户的查询输入检索索引库，并将查询结果返回给用户。”

美美又忍不住了：“太难了，我听不懂。”

“听起来感觉很复杂吧？简单讲，就是由程序自动抓去网上的信息，‘搜索引擎’这个词的原义就是指这种狭义的搜索引擎。”

“该类搜索引擎的优点是信息量大、更新及时、毋需人工干预，缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。这类搜索引擎的代表是：AltaVista、Excite、Inktomi、FAST、Lycos、Google；国内代表为：百度、OpenFind等。”

“哦，我这下我明白了，而且我还知道Google呢，好有名的。呵呵！你接着讲吧。”美美终于弄懂了。

“接着给你讲引擎目录式搜索引擎，它是以人工方式或半自动方式搜集信息，由编辑人员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中。信息大多面向网站，提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能，所以信息准确、导航质量高，缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的国外代表是：Yahoo、LookSmart、Open Directory等；国内代表有新浪网、搜狐等的网站目录。”

“美美，美美，哎，你在干嘛哟，睡着了？”
“哪里呀，我只是在想它和前面那种搜索引擎有什么不同嘛！”

“哦，我正要讲呢。目录的数据库是依靠专职编辑或志愿人员建立起来的，这些编辑人员在访问了某个Web站点后撰写一段对该站点的描述，并根据站点的内容和性质将其归为一个预先分好的类别，把站点的URL和描述放在这个类别中，当用户查询某个关键词时，搜索软件只在这些描述中进行搜索。”

“目录的用户界面基本上都是分级结构，首页提供了最基本的几个大类的入口，用户可以一级一级地向下访问，直至找到自己感兴趣的类别，另外，用户也可以利用目录提供的搜索功能直接查找一个关键词，不过，由于目录只在保存的对站点的描述中进行搜索，因此站点本身的动态变化不会反映到搜索结果中来，这也是目录与基于Robot的搜索引擎之间的一大区别。”

“最后要讲的是Meta元搜索引擎，它的特点是本身并没有存放网页信息的数据库，当用户查询一个关键词时，它把用户的查询请求转换成其它搜索引擎能够接受的命令格式，并访问数个搜索引擎来查询这个关键词，并把这些搜索引擎返回的结果经过处理后再返回给用户。对于返回的结果系统会进行重复排除、重新排序等处理。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全，缺点是用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等，国内的一网打尽、飓风搜索通等提供类似的功能。”

“我真不知道搜索引擎还有这么多名堂呀，真是长了见识。”美美感叹道。

“呵，这还只是开始呢，今天我们就到这儿了，你也该休息了，下次我们再继续吧。”