(这条文章已经被阅读了 138 次) 时间:2001-04-20 00:37:40 来源:石城浪子 (石城浪子) 原创-IT
搜索… 搜索…众里寻她千“百度”
作者:石城浪子
编者按:搜索是互联网上最重要的网络应用之一。具有关机构统计资料显示:我国55.91 %的网民都使用搜索引擎提供的互联网搜索服务。能帮助用户在浩如烟海的互联网信息中找到所需的信息非搜索引擎不能实现,因而因特网搜索更成为“门户网站”必不可少的基础性服务,一个优秀的搜索引擎对于吸引用户、增加网站的网络应用功能是至关重要的。
然而,因为中华文化的独特性、语言表达的特殊性以及现有搜索引擎技术上的缺陷,使得目前的中文搜索引擎存在准确性差、查全率低、更新不及时、响应时间长、不适合中文使用习惯等弊端。百度在线网络技术(北京)有限公司正是为了解决这些问题而适时地开发出了新一代中文搜索引擎——孙悟空搜索引擎。它具有智能、博大、准确、迅速、强悍、灵活六大特色,体现在面向网络用户、面向门户网站服务以及所采用的新技术等方面。
一、面向网络用户服务方面
1. 对于搜索引擎而言,给出准确的搜索结果是建立在对搜索请求完全理解的基础之上。百度搜索引擎使用了独特的智能化中文语言处理技术,巧妙地解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。百度搜索引擎的信息索引为了能更好的贴近中文用户的搜索习惯把以前单纯基于字或词的搜索方式作了改进:能同时基于字和词搜索。
2. 在搜索某类信息时,搜索引擎确实也给出了结果,但真正需要的没有几条,甚至没有!!导致这种情况发生的原因就是搜索引擎在搜索结果排序的准确性方面有所欠缺。百度搜索引擎采用了基于网页内容分析和基于链接分析相结合的新技术,最大限度地保证搜索出的结果与用户的查询串相一致。百度搜索引擎还能够显示网页的一些属性:如网页主题、地址、内容摘要等,并在内容摘要中用不同颜色突出了用户的查询串,这更有利于用户判断是否要进一步仔细浏览查询结果。
3. 百度搜索引擎对一个用户搜索请求的相应时间小于1秒!!如此快速对于追求快节奏、高效率的时代的人们来说的的确确是个好消息。
4. 用户对新信息的查询需求也是很大的,在百度搜索引擎推出来之前,最快的信息更新可能是30天左右。百度搜索引擎的数据库是一周更新一次。
二、面向门户网站服务方面
百度公司1999年底创办之初就已选择了ASP这种商业模式,只是给网站客户提供强有力的技术支持和高质量产品,而不会做任何网站与他们竞争。
1. 评述一个搜索引擎能否让人满意的条件有诸多项,但是有一项是不可或缺、是关键的要素,那就是:信息库的大小。百度搜索的中文信息库,总量达到1000万页以上,并且还在以每天超过20万页的速度不断增长。百度搜索在中国和美国均设有服务器,搜索范围涵盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。这一切为用户得到最准确、最广泛、最具时效性的信息提供了基础。
2. 门户网站都有高质量的互联网搜索服务的需求,但是不同的客户又有自己不同的特色需求。为了能更好地和客户合作,使客户达到最佳的使用效果,百度从技术上紧密配合实现客户的定制要求。目前百度有三种模式与客户交换搜索结果:
服务应用协议模式(Protocol Model) 该模式采用客户/服务员模式。客户的程序与百度的搜索服务器进行通信,通信协议采用百度定义的BSP(Baidu Search Protocol)。这种方式完全由客户控制结果页面的显示方式,百度只返回检索得到的URL及其属性。这种模式最灵活、客户控制度最高,缺点是实现较为复杂,客户需要一定的编程能力。
服务应用模板模式(Template Model) 用户事先定义好结果页面的显示内容和显示方式,结果页面完全由百度的搜索引擎构造。用户除了处理与用户的Web接口之外,不做任何工作。这种模式的优点是简单、易于实现,缺点是客户可控制度低,模板的变化频率快,灵活性也很差。
服务应用协议模板模式(Protocol Template Model) 这种模式是上述两种模式的结合。客户用显示模板定义结果页面部分内容(往往是检索结果)的显示方式,其余的部分由客户自行决定,整个结果页面的构造由客户完成。检索情况(如有无结果,有无”相关检索”等特性,结果有多少,服务是否正常)的返回遵循百度和客户事先定义好的协议。这种模式既易于实现,又为用户提供了很好的灵活性。
3. 百度把提供ASP服务的机器托管在中国电信。系统工程师在接到系统异常报警后,能在最短的时间内恢复系统的正常工作,百度在服务器的托管地申请了专用电话,专门用于拨号上网。在正常的上班时间,百度通过公司的局域网上网,以此来保证服务的及时性和不间断性。
三、新技术等方面
1. 百度搜索使用了高性能的“网络蜘蛛”程序(Spider) 专门针对中文网页的特点,自动在整个互联网上收集资源,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,并且可以删除一些已经不能够再用的网页。
2. 系统的每一个部分都采用N+1的冗余设计,N台服务器进行工作,1台时刻处于备用状态。这样以来,整个系统在99.9%的时间内都可提供高性能和高稳定性的服务。百度搜索引擎目前已经可以满足频率为200次/秒的搜索请求。
3. 当系统模块发生异常时,除了冗余模块立即投入使用外,还需要通过人工干预,以便尽快修复异常系统。为此,百度公司开发了系统异常报警系统。系统异常报警系统运行在与被监视对象不同的机器上,以进行远程监测。系统可以在半分钟之内检测到系统异常。
4. 具有独特的解析软件,用户即使输入一个问句,搜索引擎也能够清晰地分析出问话里的关键词,从而查找到相应的能够回答问题的网站。例如用户输入“谁的个人主页最酷”、“未来十年什么行业最热门”,搜索引擎的智能分析系统首先自动对问题中的关键词进行检索,然后再搜索到用户需要的内容。
5. 各大网站应用的传统搜索引擎大多采用国外的技术,因而不可避免地,这些搜索引擎在用于检索中文网页时存在许多“盲区”,甚至根本达不到使用者的搜索要求。比如传统搜索引擎不能支持多种编码,查不了“朱镕基”这个词,不能支持中英文字符混合查询,查不了MP3、甲A这样的词语,而且本质上,传统搜索引擎无法识别中文整词查询。而这些在百度搜索引擎里则可以轻易实现。
6. 百度搜索引擎这样一个内容丰富庞大、包含了数以千万计的网页索引库的数据库,是如何实现快速响应用户搜索请求的呢?秘密就在运用了最先进的多线程技术,采用高效的搜索算法和稳定的UNIX平台,并使用安装在中国境内的服务器提供搜索服务。
结束语:百度搜索引擎是第一个为中国人写的商业化的因特网搜索引擎,在此之前,中国从来没有过自己的商业化全文网页搜索技术,各大ICP或是依赖于境外的搜索技术,或是用网站目录的搜索来替代,百度搜索的出现,使得中文搜索技术第一次站在了与英文搜索平起平坐的地位。尽管百度搜索引擎还有尚需改进的地方,比如:须进一步缩短数据更新周期、进一步提高查找准确率、剔除死链结、即时信息搜索系统及站内信息搜索系统还有待开发等等,但是勿须质疑的是:百度搜索引擎的推出将全面引发中国搜索引擎产业的技术革命,并且更将有力度的推动中国所有门户网站的搜索应用,最终为近千万的中国网络用户带来真正的搜索乐趣!
版权所有,非经同意
严禁转载,合作联系
石城浪子,QQ:322850