关于Google简体中文搜索失灵的权威解释 - 搜索界动态 - 搜索引擎9238

(这条文章已经被阅读了 885 次) 时间:2002-01-28 00:24:56 来源:搜索引擎9238 (搜索引擎9238) 原创-IT

每日搜索评论12–Google简体中文搜索失灵的权威解释

---1月25日,google开始28天一次的索引库例行更新。此后,网友很快发现google的简体中文搜索不灵了,某些常见词汇如“中国历史”、“生日快乐歌”、“华盛顿邮报”等,都搜不到结果或只能搜索到很少的相关性很差的结果。同时,也有网友发现,少数简单关键词如“李白”、“历史”的搜索仍然正常,而英文搜索也正常。网易、雅虎、www2等库更新比google晚,开始还能正常搜索,但一天之后,也变得和google一样失灵了。

---此后,网上开始出现各种猜测,猜测google封了中国用户ip的有之,猜测google为了不与合作门户竞争而关闭主站的有之,猜测google将要对用户收费的有之,猜测google因政治原因被封杀的有之,猜测有人捣鬼的有之,猜测google因为例行更新而这样的有之。

---以上猜测,统统都是错的。

---作为中国最痴迷最狂热的搜索爱好者,作为以普及中文搜索为己任的人,作为屈指可数的可解释此现象的人,作为目前最了解此事,能做出最清楚解释的人,眼见网友开始被误导,搜索引擎9238决定,给出简单但正确的解释。

---google的问题,出在中文分词上。目前,google对用户输入的简体中文关键词,不做分词就进行检索,所以导致各种奇怪现象。

---要理解这个问题所在,要从中文搜索引擎的特色说起。

---中文搜索引擎,跟英文搜索引擎最大的区别是分词。因为中文的字与字之间是没有间隔的,人阅读的时候能自动辨别组合一个句子中的各个单字,看到的是有意义的词组。而计算机不是人,中文的单个字缺乏意义,所以要先由程序把中文词句切分成合理的字词单元。

---举例来说,这句话“第一门反后坐火炮”,人阅读时能自动分出其中的有意义单元,把它看做“第一门 反后坐 火炮”,对于计算机,这就是一个自动分词的步骤。中文搜索引擎,就是把所有网页上的文字,用分词程序预先切分好了,对于搜索引擎来说,它并不认识网页上的一句话“第一门反后坐火炮”,它只知道,哪个网页中有“第一门”、“反后坐”、“火炮”这3个字词单元,你搜索其中任何一个字词单元(如“反后坐”)时,搜索引擎就把这个网页取出来,并把所有含有“反后坐”这个字词单元的网页取出来,再按照某种算法排序,最终把搜索结果生成页面返回给用户。

---如果你把这句话 [第一门反后坐火炮] 输入搜索框检索,那么中文搜索引擎也需要先把你这句话切成“第一门”、“反后坐”、“火炮”3个字词单元,然后去索引库里寻找含有这三个字词单元,而且这3个字词单元连在一起的网页,再按相关算法排序。

---而如果你输入 [第一门 反后坐 火炮] 三个字词单元,用组合关键词检索,那么中文搜索引擎就去找出含有这三个字词单元的网页排序,但不再要求这三个字词单元必须相连。

---而如果搜索引擎不对中文关键词作切词,只当做一个完整的字词单元去搜索,那么当你输入 [第一门反后坐火炮] 时,是搜不到任何结果的,因为搜索引擎认为没有任何网页中含有“第一门反后坐火炮”这个字词单元,搜索引擎只知道有的网页中含有连在一起的三个字词单元“第一门”、“反后坐”、“火炮”,或者只知道有连在一起的五个字词单元“第”、“一门”、“反”、“后坐”、“火炮”。
(分词的效果是一个渐渐进步的过程,目前并不完美,各家搜索引擎也不同,有的搜索引擎也可能把这句话分成“第”、“一门”、“反”、“后坐”、“火炮”五个字词单元)

---现在你明白google的怪现象了。因为google把所有输入的中文关键词只作为一个字词单元来搜索,但是在预先对网页做索引的时候已经对网页上含有的跟你输入关键词相同的文字作分词的,所以google认为,没有任何网页含有你输入的字词单元。除非,有些特殊网页上的文字本身就是当做一个字词单元切分的,跟你输入的搜索关键词能对上,那就能搜出来。或者,你输入的本来就是最简单的字词单元如[李白]、[历史]、[搜索],那么搜索结果仍然是正常的。

---举例来说,关键词 [华盛顿邮报] ,google在做索引库时一般把它切分成3个字词单元“华盛顿”“邮”“报”,但也会把少数网页中的“华盛顿邮报”当做一个字词单元来切分。这样,当你搜索 [华盛顿邮报] 时,如果google没有切分,那么只能搜索出少数含有“华盛顿邮报”这个字词单元的网页。如果自动切分成“华盛顿”“邮”“报”再搜索,那么会搜索出所有连续含有“华盛顿”“邮”“报”这3个字词单元的网页,因为这原来是这么索引的,所以这会得到最正确的结果。

---但是现在google不分词,如果你自己先分好词再搜索,如搜索 [华盛顿 邮 报],那么搜索结果基本还是有的,只是会杂一点,多一点,多了一些“华盛顿”“邮”“报”这3个字词单元没连在一起的网页。

---你自己先分词再搜索,因为不再限制各字词单元相连,所以搜索出来的结果相关性视你用的关键词而定,可能很差,也可能很好(如果含有特殊字词单元就会较好)。这种情况下,我琢磨出一个针对性的搜索技巧,就是使用英文双引号,把几个字词单元强行定义为词组来进行搜索。比如搜索 [舒迅],只得到两个无用结果,但搜索 [舒 迅],就得到几万条无关结果,这时你可以加英文双引号搜索如 [“舒 迅”]。搜索效果还是勉强可看的。
另外,再教你一个偷懒的方法,就是英文双引号可以只输前一半,效果也是一样的,如关键词[“舒 迅”]和[“舒 迅]的搜索效果是相同的。当然,如果你本来就想用组合关键词搜索如 [生日快乐 歌],那么现在自己要先分词成[“生日 快乐” 歌],这时就不能省后半个双引号了,否则就成了要求“歌”这个字紧跟在“生日快乐”之后,搜索效果理论上就不如不强求它紧跟了。

---好,google简体中文搜索突然失灵的直接原因和原理,大家都已清楚了,是没有对你输入的关键词分词。但是引发分词失灵的间接原因,就只有google公司自己知道了,可能是这次索引库更新中的误操作引起的,可能是某方面的疏忽引起的,也可能是某种新的代码或设置引起的,或者其它我们无法想像的原因导致。

---从技术上来说,这只是一个小case,我想google现在可能还不知道此事,如果它知道这个问题,一般来说很快就能恢复过来。有人已给过它email提醒此事了,但它收到email多,处理不及时,不知道什么时候能注意到此事,这是国外大公司的缺陷,国内用户沟通渠道不畅。

---从搜索引擎的经营上来说,这是一个严重过失,其严重性几乎仅次于服务器当机了。因为它也导致合作伙伴雅虎和网易的网页搜索无法正常运行,很难想像雅虎这种把稳定性和品牌看得那么重的公司会原谅这种过失。

---对于google简体中文搜索的失灵,我既解释了原因和原理,我也介绍了勉强的解决方案——自己先分词再搜。当然,你自己分词是很累的,你要不断猜测搜索引擎的分词方法,只要有一点分得不对,你就搜不到满意的内容,即使完全分对了,也不能保证得到满意的搜索结果。比如上边提到的“华盛顿邮报”,如果你认为“邮报”很常见,自己用[华盛顿 邮报]来搜索,那还是没结果的,如果想把所有关键词都拆分成单字来搜索比如[搜 索 引 擎],那么搜索效果也和[搜索 引擎]、[搜索引擎]截然不同。值得一提的是,百度的中文搜索引擎在过去一段时间默默进步,近来还上了网页快照,一般的中文搜索,效果是不错的,如果你现在不愿意自己先分词再用google搜,那么可以尝试另一个解决方案——用百度搜索(www.baidu.com)。

凡搜索引擎9238作品,皆为普及搜索而作,欢迎任意复制、转发、引用、剽窃、盗版。
其它文章,请参看个人专辑 http://myarticle.sina.com.cn/forum/myarticle/usershow.cgi?user=搜索引擎9238

搜索引擎9238
———————————————–
“我们若能更妥善地搜寻资料,实在已经改变世界。”

   __,O
  / /\_
 __/\
    /   陆丰人在北京 - http://www.lufeng.org

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 白东 - 2002-01-28 01:38:02

【(白东)回复(乱山狼)的大作】 没有任何权威性。不敢沟通这个解释。 按你的解释,英文加中文呢? 再者也不是你说的问题,你给的解决方法也没有任何作用。 google中,中文字分开意思是and的意思。 你说的“,如搜索 [华盛顿 邮 报],那么搜索结果基本还是有的,只是会杂一点,多一点,多了一些“华盛顿”“邮”“报”这3个字词单元没连在一起的网页。 ” 当然要“杂一点,多一点,多了一些......”了,这是因为他用了and后搜索的,但这个和完整的词“华盛顿邮报”搜索的意义不一样!

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 搜索引擎9238 - 2002-01-28 01:48:09

哈哈,但是文章挑不出毛病。:) :【 在lin(林兴陆)的大作中提到:】 :【(lin)回复(乱山狼)的大作】 : :哈哈,有点枪手的味道~~ : ......

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 搜索引擎9238 - 2002-01-28 02:05:43

:【 在白东(白东)的大作中提到:】 :【(白东)回复(乱山狼)的大作】 没有任何权威性。 == 答:那要看你怎么理解权威了,如果以官方回答算权威,那我不能代表别人公司;如果以大媒体或大人物算权威,那我不是;如果以对某事物的了解算权威,那么,我不权威谁权威? 不敢沟通这个解释。 == 答:当然,对同一事物有不同观点或不同解释很正常,希望能听到您的解释。 按你的解释,英文加中文呢? == 答:我这篇文章是为了解除人们的误解,而作的简单解释。如果要面面俱到、把所有细节解释清楚,则太累了。 再者也不是你说的问题,你给的解决方法也没有任何作用。 == 答:是不是您可以有自己的看法。有没有作用,要看各读者对搜索的理解了。实在属于搜索菜鸟的,可以实际尝试,实践是检验整理的唯一标准。 你说的“,如搜索 [华盛顿 邮 报],那么搜索结果基本还是有的,只是会杂一点,多一点,多了一些“华盛顿”“邮”“报”这3个字词单元没连在一起的网页。 ” 当然要“杂一点,多一点,多了一些......”了,这是因为他用了and后搜索的,但这个和完整的词“华盛顿邮报”搜索的意义不一样! == 答:我文章中没有说一样,而是说这是勉强的解决方案,聊胜于无。 我也已说明了,这种做法的有效性,具体取决于你用的搜索关键词。 另外,请用["华盛顿 邮 报][华盛顿 邮 报][华盛顿邮报]三个关键词,分别在google搜过之后,再来跟我说话。 我只对搜索感兴趣,别的话题没有兴趣,但没有人可以跟我平等的讨论搜索技巧,我很寂寞,非常寂寞。

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 昆明海王星 - 2002-01-28 03:54:27

【(昆明海王星)回复(乱山狼)的大作】 大型分布式数据库还需要分词跟踪技术吗?都是第几代的产品了,还要以前的步进吗? 莫名其妙! 为什么原来可以呢?Google就是靠不需要分词技术才赢得中国网民喜爱的。 - - - - - - - - - - - - - - - - - - - - - - 昆明海王星 E-MAIL:[email protected] [email protected] OICQ:2684553 南无阿弥陀佛

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - executor - 2002-01-28 12:11:16

【(executor)回复(搜索引擎9238)的大作】 看来对搜索引擎很精通呀。 请教一个问题:对于论坛这种动态链接的网页,目前的搜索引擎是如何处理的,哪些搜索引擎对搜索论坛类网页比较好?

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 搜索引擎9238 - 2002-01-28 12:56:49

:【 在executor(executor)的大作中提到:】 :【(executor)回复(搜索引擎9238)的大作】 : :看来对搜索引擎很精通呀。 : 请教一个问题:对于论坛这种动态链接的网页,目前的搜索引擎是如何处理的,哪些搜索引擎对搜索论坛类网页比较好? === 答:对于动态链接,目前的搜索引擎如何处理的都有。 取决于1、不同动态网页内容的具体质量。2、不同搜索引擎的选择标准和能力。 没有搜索引擎对搜索论坛类网页比较好。象donews it论坛这种形式的动态链接,搜索引擎是不想搜出来的,如果搜出来,那不是比较好而是比较坏。

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 黄岚 - 2002-01-28 15:48:30

【(黄岚)回复(搜索引擎9238)的大作】 上述问题事实上涉及到搜索引擎对汉语处理的关键问题即:汉语中文自动切分问题,也就是如何对中文建立检索索引的方式。目前的搜索引擎处理中文的方式主要有两种,一种采用分词系统,利用自带的词典对中文进行切分,建立词索引;另一种采用单汉字索引方式。Google出现此类问题,就是采用单汉字索引方式而引起的。 事实上,采用纯分词切分也不好,因为字典中的词是有限的,而且维护比较困难,无法穷举,因此采用分词方式的搜索引擎往往具有漏检的情况。最好的方式采用字词结合的方式,国内的iBASE、TRS等厂商都采用的是此技术。 对论坛的搜索,事实上涉及到动态内容的检索,目前还没有一个很好的解决办法。同时很多存储动态内容的数据库是否公开也是一个问题,如果没有公开,搜索引擎是无法检索到的。

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - abc - 2002-01-28 16:20:11

Google根本就是字索引的,并没由用到分词技术。请搜索引擎9238再议! :【 在黄岚(黄岚)的大作中提到:】 :【(黄岚)回复(搜索引擎9238)的大作】 : : 上述问题事实上涉及到搜索引擎对汉语处理的关键问题即:汉语中文自动切分问题,也就是如何对中文建立检索索引的方式。目前的搜索引擎处理中文的方式主要有两种,一种采用分词系统,利用自带的词典对中文进行切分,建立词索引;另一种采用单汉字索引方式。Google出现此类问题,就是采用单汉字索引方式而引起的。 : ......

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 下雨不愁 - 2002-01-28 16:41:41

吹牛不缴税 :【 在搜索引擎9238(搜索引擎9238)的大作中提到:】 ::【 在白东(白东)的大作中提到:】 ::【(白东)回复(乱山狼)的大作】 : : ......

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 搜索引擎9238 - 2002-01-28 17:15:11

【(搜索引擎9238)回复(abc)的大作】 回abc和昆明海王星: 我对技术一窍不通,一行程序也不会写,一点数据库原理都没学过,对于你们说的哪一代技术什么分不分词一点都不懂,所以你们跟我说这个是对牛弹琴。请你们去质疑Google Fellow and vice president Urs Hölzle吧,你们可以告诉他,google没有用分词,告诉他关于数据库关于几代技术的事。 “Google selected Basis Technology’s Chinese, Japanese, and Korean Morphological Analyzers to provide the Asian linguistic technology ” said Urs Hölzle, Google Fellow and vice president. http://www.basistech.com/Basis/PressRels/google-061901.html

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 搜索引擎9238 - 2002-01-28 17:17:15

:【 在下雨不愁(余明辉)的大作中提到:】 : 吹牛不缴税 : ::【 在搜索引擎9238(搜索引擎9238)的大作中提到:】 : ...... 井蛙不可语之以天,夏虫不可语之以冰

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 搜索引擎9238 - 2002-01-28 17:19:48

您别搞笑了,人会吃饭走路都成特长了,请弄清楚现在的3个主要中文搜索引擎公司google、baidu、openfind的中文处理方式再说话。 :【 在黄岚(黄岚)的大作中提到:】 :【(黄岚)回复(搜索引擎9238)的大作】 : : 上述问题事实上涉及到搜索引擎对汉语处理的关键问题即:汉语中文自动切分问题,也就是如何对中文建立检索索引的方式。目前的搜索引擎处理中文的方式主要有两种,一种采用分词系统,利用自带的词典对中文进行切分,建立词索引;另一种采用单汉字索引方式。Google出现此类问题,就是采用单汉字索引方式而引起的。 : ......

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 下雨不愁 - 2002-01-28 17:23:07

一般来说天天自我感觉良好但是别人不认同,,而且时不时表示出类似屈原的感慨的人,不是大牛人,例如屈原(A),就是傻B(B) 您是A还是B? :【 在搜索引擎9238(搜索引擎9238)的大作中提到:】 : : ::【 在下雨不愁(余明辉)的大作中提到:】 : ......

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - executor - 2002-01-28 20:52:36

【(executor)回复(搜索引擎9238)的大作】 在许多情况下,类似论坛的帖子的搜索结果并没有很大的意义。 但是,作为网络上最活跃的部分,论坛BBS的信息更新速度,对当前热点的追踪程度等等都无以伦比。 我想知道的是,有针对论坛类的搜索引擎吗?好一点的也行。

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 搜索引擎9238 - 2002-01-28 21:42:35

【(搜索引擎9238)回复(executor)的大作】 没有拿得出手的。 如果你要搜国内的bbs,就去找百度或openfind定做一个。 如果要搜国外的bbs,则按你的信息需求,还不如去搜google groups和daypop的weblogs

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - 罗荣 - 2002-01-29 02:01:58

【(罗荣)回复(乱山狼)的大作】 只能是你的猜测吧? 你回答不了一个根本的问题,那就是为什么以前能用,用的很好,为什么现在不能用了? 你能解释技术,但是不能解释商业,如果服务商发现有问题,只要换回以前的分词形式就可以了,总不会软件没有备份吧?

RE:文章评论:关于Google简体中文搜索失灵的权威解释 - lin - 2002-01-29 02:08:44

【(lin)回复(罗荣)的大作】 聪明的 Google 晚上已经换回去了,输入林兴陆还是可以找出来,嘻嘻,不用输入"林 兴 陆"啦。 - - - - - - - - - - - - - - - - - - - - - -
   __,O
  / /\_
 __/\
    /   陆丰人在北京 - http://www.lufeng.org