电子词典丑闻大曝光(原发于金山卓越网友论坛) - 软件论道 - 姜洪德

(这条文章已经被阅读了 58 次) 时间:2000-10-23 01:14:28 来源:姜洪德 (江涛) 转载

电子词典丑闻大曝光
电子词典谱系考(之一)
1997.9
目前咱们国内的流行软件,除了防病毒软件,也许就算得上电子词典了,盗版碟上大把有的是。
您还别说,对普通电脑玩家而言,电子词典还真管用。理想情况下,鼠标一指,其义自现,真是方
便。可是用得多了,见得多了,也发现不少问题。俺们算是老玩电脑的了,英语也还凑合。往往碰
到不认识的词,电子词典也不认识。于是又去寻找更新的、希望也是更好的电子词典。如此一而再,
再而三,机器上电子词典装了一大把。先是朗道,后来是即时通,最近还有金山词霸,诸如此类。
也算是个电子词典追星族吧。这下有意思了。词典A查不到的,词典B往往也查不到。词典A意思不对
的,词典B也不令人满意,而且常常解释一模一样。直到有一天,竟然发现两本词典错得一模一样。
这就怪了。莫非有的是文抄公?细究下来,果然如此。此文便是这一通探索的结果。由于电子词典
数量众多,俺们玩电脑也不太熟,比不上那些个青年哥哥们,花了一个月,才稍有所得。这只是一
个阶段性结果,不太成熟。拿来献丑,不敢说抛砖引玉,只是说些公道话而已。
一、引论
1、原材料
软件名 开发公司 作者 出版日期
========================================================================
朗道词典 3.0 上海朗道电脑科技发展有限公司 周捍东 1994
朗道词典 3.1 上海朗道电脑科技发展有限公司 周捍东 1995.5
UCDOS 5.0词典 北京希望高技术集团 1995.5
即时通 4.1 郑州军工民品科研所 王磊 1996.1
英汉通 4.2 郑州洪涛软件制作所 王磊… 1996.7
Roboword 1.2 Technocraft Co. Tokyo Japan A.L.A., T.Saito 1996
金山词霸 1.0 北京金山软件公司 Rasir Dex 1997
阶梯网际译王1.0 北京阶梯信息工程有限公司 颜守谦… 1997
2、工具
Microsoft Spy,
Borland WinSight,
Borland Grep,
以及自编的cracking工具与词典检查与比较工具
3、判断抄袭的几种途径
俺们认为,至少可以有以下途径来推测词典之间的抄袭关系:
1) 出版在后的抄袭出版在前的。这当然只是一种可能性,不一定是必然性。但现实世界
上,可能性常常变为必然性。由此推测,朗道词典被抄袭的可能性最大。俺们好象记
得在1993年,朗道词典就在北京展出,当时似乎叫 Ideaway。
2) 通过报纸、杂志等公开媒体,朋友、仇人等私人关系来了解抄袭关系。这种途径不大
可靠,但沙里淘金,往往能发现真知。千万不能人云亦云。如果报纸上说的都是真的,
牛屎也能当成蘑菇卖了。
3) 通过词典特征来推测抄袭关系。如果特征找得好,此种途径可以一锤定音地说明抄袭
关系。但特征查找相当困难,需要自制辅助工具。
4) 通过统计来说明抄袭关系。此种手段最严格,且不带任何偏见。当然也需要自制工具。
俺们主要应用上述最后两种途径,力求有理有据。
4、最终目的
从纯技术角度,明确电子词典家族的谱系。
5、郑重声明
本项研究纯属个人为满足好奇心而作。我们跟上述公司与个人之间并无任何个人恩怨。本
文只想澄清事实。如有不正之处,敬请批评指正。欢迎讨论,尤其是不同观点的切蹉。
二、电子词典“窃贼”大曝光
1、冤大头 “朗道”
 “朗道”大约出世于1993年(哪位大哥知道准确的日子?),是上述列举的电子词典中出版最早的。
在当今信息时代,几年时间已经不短了。朗道的某些特征已成为所有电子词典的DNA。
  请看朗道词典 3.1 版中有关希腊字母的词条:   
alpha:n. 希腊字母的第一个字母,最初,开端
        beta:n. 贝它,希腊字母的第二个字母
        delta:n. 三角州,希腊字母的第四个字
        epsilon:n. 希腊语字母之第五字
        eta:n. 希腊语字母的第七字
        iota:n. 希腊语字母第 9位,极微小
        kappa:n. 希腊文字母第 10字
        lambda:n. 希腊字母的第 11个字
        mu:n. 希腊字母第 12 字
        nu:n. 希腊字母第 13 字
        omicron:n. 希腊字母第 15 字
        rho:n. 希腊字母的第 17字
        tau:n. 希腊字母第19字
        phi:n. 希腊文的第 21 个字母
        khi:n. 希腊文字母的第22 个字
        chi:n. 希腊字母的第 22字
        psi:n. 希腊文字母的第23 字
        omega:n. 希腊字母的最后一个字,终了,最后
  仔细分析一下,不难看出上面这段文字中有如下的问题:
   1)在eta之前均用汉语数字,而iota之后均用阿拉伯数字。
   2)在上面词条中,有些用了“希腊文字母”,有些用了“希腊语字母”,还有些用了“希腊字母”。
   3)在上面词条中,只有iota用了“位”。
   4)在上面词条中,除iota外,只有alpha、beta与phi用了“个字母”,其余均为“个字”或“字”。
   5)解释中的阿拉伯数字有的左面有空格,有的右面有空格,而有的两面都有空格。
   6)在上面的词条中,明显缺少了许多的希腊字母。
  上述问题中的任何一条都可以说是不应该出现在其它的电子词典中的。然而,不仅出现了,而且,是
全部出现了(除了“阶梯”稍不一样,“即时通”压缩了空格,“英汉通”“即时通”对 rho
的解释有异,
详见下文),如此完美的、精确的复制恐怕连大自然也要自叹不如了。
  希腊是世界文明的发源地之一。朗道,竟然是上述流行词典的老祖宗!
可惜,好久没听到朗道的消息
了。廉颇老矣,尚能饭否?
2、东洋大盗 Roboword
Roboword 号称“网际金典”。一看就知是外来货。“网际”者,Internet(因特网)之外来称呼
也。“金典”,窃以为是“金玉其外,败絮其中”的“典故”的缩写。何以见得?下面详细证明。顺
便说一句,日本人觊觎中国之心从来不灭,小子们要“千万记住抗日战争”。不过,日本人写软件的
水平,实在不敢恭维。
除了上文所言,以下再举出 Roboword 抄袭的几点证据:
1) Roboword 词典体例不统一,明显是由多本词典合并而来。
a) 词组有的标注词性,有的不标:
a bolt from the blue: n. 晴天霹雳,意外的事
a few: 少许,少数
b) 标记 a. 与 adj.,ad. 与 adv. 同时使用:
zwitterionic: adj. 两性离子的
zygal: a. H字形的
absent-mindedly: adv. 茫然地
absently: ad. 心不在焉地,茫然地
c) 分隔义项 (,) 与 ( 并用
abhorrent: a. 令人憎恨的,可恶的
abhorrer: n.憎恶者;厌恶者
2) 那么,Roboword 是抄了哪一本词典呢?
特征词条:
adrenocorticotrophi: c hormone; n.亲肾上腺皮质荷尔蒙
在俺们检查的词典中,只出现在 Roboword 与 UCDOS 中!
实际上该词条是错误的,为“adrenocorticotrophic hormone n. 促肾上腺皮质激素”之误。
两个词典竟然连错误也相同,其中缘由可想而知。故 Roboword 抄袭 UCDOS 是毫无疑问的!
3) 俺们再以统计工具来进一步说明 Roboword 对 UCDOS 的抄袭
以下是自制的词典检查工具 check2 的 screen dump:
F:Ecdic>check2 ucdos.txt roboec.txt
entries: common=40191, ucdos.txt=40307(99.71%), roboec.txt=89485(44.91%)
of these common entries:
senses: common=90438, ucdos.txt=90567(99.86%), roboec.txt=91081(99.29%)
Part-of-speech tags are ignored and duplicated senses are counted as 1
UCDOS 的 99.71% 的词汇出现在 Roboword 中,且在 Roboword 与 UCDOS两者公有的 40191 个
词条中,相同的义项占了 UCDOS 的 99.86%.
证据确凿!
注:由于上述词典中的bugs, 俺们得出的上述词典的 TEXT 表示可能比原词典稍少一
些,但不致影响大体。
4) Roboword 还抄了其它什么词典呢?
在 UCDOS 的标记中,形容词与副词的标记为 a. 与 ad.,且以(,)分隔译词。可见 Roboword
抄袭的另一本(或多本)词典中,使用 adj., adv. 标记,且以( 分隔译词。目前俺们尚未确
定是哪一本或哪几本。
在个人电脑1997年第8期ZD中国实验室对几本电脑词典作了测试。其中有一句话说:“网际金典”的
收词量名列前茅。如此抄法,就象屙了屎连屁股也不擦,尚得如此美誉,真是世风日下,屁股越大越美
啊! Technocraft的日本人真蠢,ZD中国实验室的测试者真愚,哀哉! 未必以为中国的消费者真这么好愚
弄吗?!
3、抄袭霸王“金山词霸”
 “霸”者,不讲道理的占有也。“金山词霸”抄袭俺们早有耳闻。运行一下 check2:
F:Ecdic>check2 kingsoft.txt ec.txt
entries: common=55370, kingsoft.txt=66002(83.89%), ec.txt=58432(94.76%)
of these common entries:
senses: common=117393, kingsoft.txt=118063(99.43%), ec.txt=117724(99.72%)
Part-of-speech tags are ignored and duplicated senses are counted as 1
看来“金山词霸”抄朗道,与 Roboword 抄 UCDOS 的程度不相上下。
再看“金山词霸”的专业词典,除了机械专业没有外,其余跟朗道的专业词典一模一样。俺们翻遍了
readme 与 help,却未发现任何版权申明。如此抄袭,真乃“霸”也。
计算机世界1997年第29期说,“金山词霸”一出手,就比做了很多年,版本号数字不知是其多少倍的
普通词典高出一截。抄得如此霸道还有人如此鼓吹,真让俺们艳羡啊。于是就再吹一根毛求一点疵吧。检
查 centi- 词条:
F:Ecdic>grep centi- *.txt
File EC.TXT:
centi- : n. 表[100] 或[1/100]的缀字形
File KINGSOFT.TXT:
centi- : n. 表或的缀字形
File NETRANS.TXT:
centi-: n. 表或的缀字形
简单地把数字去掉,算作整理,比“无聊的阶梯”(见下文)并不高明呐。
据说“金山词霸”的作者Rasir Dex先生年轻有为,刚读一年大学就炒了校长的鱿鱼。也许抄字典是
其他人干的,他只是编程而已。可不要让俺老的们痛心呐。
又据说“金山词霸”II 即将登场,俺们想用句上海话,“不要太潇洒了”。不好意思,俺们跟求伯
君先生还沾亲带故,特地提个醒儿。WPS 可是不错的。:-(虽然俺们没用过。不要误解,俺们也不用
Word,
俺们用 Notepad)。
4、“拿”兄“拿”弟 “即时通”与“英汉通”
“即时通”与 “英汉通”的界面非常相似,因为其主要作者相同,都是王磊。好象郑州最早出现的是
郑州军工民品科研所,后来一分为三,增加了经纬软件工作室与洪涛软件制作所,均以制作加密工具软件
见长,换句话说,解密别人的词典不是问题。实事也是如此。下面列举一些这两“通”抄袭的证据。
先看“即时通”,查阅它可以找到如下词条:
cheer sb. To the echo: 对某人大声喝彩
cheer sb to the echo: 热烈欢迎某人
The fat is in the fire: 生米煮成熟饭;所有的家当都已押上了
The fat is in the fire.: 事情搞糟了。;生米已成熟饭。
把 somebody 既缩写为 sb 又缩写为 sb.,有的词条以点(.)结尾有的又不: 明显是合并而来! 后一个例子
很有意思,用来说明抄袭的既成事实,真是再贴切不过了!
 下面来解释上文已提到的 rho 的问题。“即时通”与 “英汉通”中对 rho 的解释为:
rho:n. 希腊字母的第 18字。
而其他词典(要说明的是,俺们当初只用了朗道 3.1
版)中“18”均为“17”。要是抄袭的话怎么会错在这
里呢? 真是百思不得其解。忽然“柳暗花明又一典”,发现在朗道3.0版中也是18! 原来如此!
这兄弟俩“拿”
来的是朗道 3.0
版,其盗术比“金山词霸”学得早。出道得早了,也算老道了。离开郑州这个令人烦躁的城市,
去崂山吧。
5、无聊的“阶梯”
“阶梯”的词典抄袭了朗道词典。试举特征词条如下:
zhouhd n. 周捍东
周捍东是朗道词典的作者,该词条出现在朗道词典,是作者的权利。“阶梯”竟然想也不想就抄下
了。可见抄袭无疑。再看另一特征词条:
bore vi.,vt. 使…厌烦,钻,挖,钻孔,使烦扰,钻孔,承担,忍受,承受,佩戴,带有,经得起,耐,
生,产生,结,运载,怀有,压迫,负荷,使跌价,忍受,结果实,开动,转向
n. 枪膛,讨厌的人,讨厌的东西,讨厌的事情,孔,令人讨厌的人,激浪,内径,孔径
adj. 厌烦,无聊,令人厌烦,乏味,无趣,烦人,无聊,烦人,无聊,无趣
“无聊”一词竟重复了三次,可见至少由三本词典合并而来。抄得如此懒惰,无聊,无聊,真是无聊!
三、结论
常言如今编书一大抄。在“电子词典界”,果不虚言。大抄特抄,抄得离谱,抄得笑话百出,让俺们
笑痛了若干回肚皮。此次比较,样本还太小,工具也还太高级,自制的工具也还太粗糙。拟在第二阶段弥补。
下一阶段拟解剖的词典有:RichWin, HansVision, ByDict, 译林,等等。欢迎各位高手指教并提供素材。
俺们在这里还想提一下发生在 Microsoft 与 Andrew Schulman 之间的事情。Andrew Schulman 是
为数不多的真正杰出的 Dos/Windows 高手之一,其 Unauthorized Windows 95 使用了 Windows 95 中
许多未公开的函数。不幸的是这本书出版在 Windows 95 正式版发布之前。在 Windows 95 正式版中,
Microsoft 改变了 Kernel32.dll, 将许多未公开的函数的输出名去掉了。不仅如此,在 Kernel32.dll
中,还加上了 anti-hacking 代码, 使 GetProcAddress 对 Kernel32 的函数序号不起作用。Microsoft
此举意图何在,明眼人一眼便知,此处暂且不论。但这点小玩意儿也是难不住 Andrew Schulman 这样的
高手的。俺们提一下这件事,是想说明,尽管本文出版后,上述抄袭者可能(俺们认为是一定)把沾屎的
屁股擦得干净一点,在新版本中把狐狸尾巴隐藏得深一点,但改变不了盗版的事实,也改变不了
Cyberthief
的形象!