(这条文章已经被阅读了 161 次) 时间:2001-02-08 15:07:41 来源:雷东多 (allchinese) 原创-IT
我国具有五千年悠久的文明史,拥有灿烂丰富的历史文化宝库。如何使文化历史巨著走下神坛,让一般人能领略其博大精深;如何弘扬中华文化,让全世界的华人,汉学家方便了解研究中国的文学作品以及历史、军事和哲学;如何使文史研究工作者能够快速找到所需资料,提高他们的研究效率……在今天,时代已经提出了这一新的课题。
信息资源数字化是进入信息社会的重要标志,近年我国的文化资源电子化正在从零星制作发展成规模开发;从初期的图形扫描发展为字符数码化;从做目录、文摘发展为做全文;从制作单机版CD发展为制作或网络版、Internet版数据库,并出现了一批卓有成效的成果。如刚刚荣获首届国家电子出版物奖、由北京书同文电脑技术有限公司开发的《文渊阁四库全书》电子版;由北京大学中文系开发的“网上全唐诗电子检索系统”;致力于融合中国传统文化与现代社会的“国学网”等。随着认识深化、技术发展,必将有更多的有识之士加入此行列,共同建铸信息时代中华文化的“书同文”之路。
文献数字化:理论与实践
博大精深的中国文化,有许多在以汉字为载体的古籍中保存着,而汉字信息的处理是计算机系统的基本功能。计算机也正是借此进入了中国的社会生活,传统的中华文化已经接受了计算机这一当代的高技术并与之融合,为中华民族的发展、中华文化的振兴迎来了新的契机。
汉字信息处理包括诸如汉字集、编码、字形描述与生成、存储、输入、输出、编辑、排版、字频统计及汉字属性库等课题。
文字在电脑和网络上能否正确地表达和显现,是古籍电子化的关键。而汉字的数目非常庞大,收入《中华字海》一书中的汉字有八万多。每一个文科研究者(尤其是古代文化方面的学者)在电脑输入时都会遇到有汉字无法打出的情况,之所以会出现这种现象,是由计算机软件的底层结构决定的。
尽管任何一部科学史著作都会提到中国发明了古老的计算工具,如算筹、算盘等,但第一台电子计算机却于1946年诞生于美国。因此,计算机界的“话语霸权”由来已久。在英语国家,人们习惯使用的字符系统只包含26个大小写字母、10个阿拉伯数字以及一些标点、符号,字符总数不过100多个。为提高运算速度,科学家选择了二进制作为计算机运算的基础,它只有两个符号“0”和“1”。这种信息编码的简单性正是计算机成功的基础:实现了高速运算与高度稳定的完美结合。在计算机的各个部件之间、在计算机与外围设备(键盘、显示器、打印机、磁盘、光盘等)之间、在形成网络的计算机与计算机之间交换信息的单位一般是由8个字位(bit)组成的字节(Byte)。当人与计算机打交道时,字节(Byte)和这100多个字符之间可以很方便地实现转换。计算机与英语文化的这种适应性为计算机在英语国家的迅速普及、广泛应用提供了最大的方便。
当计算机引入中国之后,汉字文化与这种先进的信息处理工具不适应的矛盾便凸现出来了。让我们做一个简单的计算,一个字节(Byte)也就是8个字位(bit)所能代表的字符数是2的8次方,共256个。而汉字的数量(国标码就有六千多汉字)远远超过了一个字节可以表示的范围。计算机内部至少要用2个字节长度的编码才能代表千千万万的汉字。仅这一个问题,便给计算机的内部运作和计算机之间的通讯带来很多麻烦。
好在20世纪的最后十年,人类完成了一项连接计算机世界与真实世界的基础工作:把迄今为止尚存的语言(Living Languages)按照其文字(Script)统一编码,制定出全球通用的编码符集标准即“Unicode”。2000年伊始,这个标准的文本便正式印刷面世。在这样广阔的代码空间、在世界范围内统一代码,其意义远远超过了几千年前的“书同文”,有人将它称作计算机时代的书同文、字同码。
Unicode拥有充足的汉字编码,它的码位所容纳的汉字囊括《康熙字典》、《汉语大字典》,拥有如此多的标准汉字,进行古籍电子化就再无外字困扰。同时,它能够处理多国文字,它包含的少数民族文字,以及其它多国文字,对于包含多种少数民族文字的古籍数字化非常重要。而且,由于这种统一编码的架构,使得正-异、中-日、繁-简、正-讹以及古今字同平台相见,实现这种关联的全文检索系统,极大的方便了使用不同语种用户的检索。
使用Unicode技术可以构造跨语境的应用,使数字化的古籍可在中文简体、中文繁体、日文、韩文、英文等视窗平台上运行,为全球关心汉学的学者共享,并且可以构造Internet应用,使古籍数字化的访问更加简便。
Unicode解决了“文字显现”的问题,它也因此成为今后我们关注古籍数字化时常常会碰到的一个字眼。但除“文字显现”问题之外,字型的表示以及存储、汉字的输入以及输出等多方面,都有一系列在英语处理时不会发生的难题。计算机技术几乎用了30多年的时间,才完成了字符编码从5bit–7bit–8bit直到16bit的转换,目前以Unicode为起点开始了向16bit–32bit的过渡。对Unicode的重点介绍,相信可以令我们看到汉字文化的数字过程中所经历的艰难。
管窥数字化工程
当我们安装许多国外软件或是驱动程序,在语言选择的时刻,往往会出现如下的选项,“English”、“Simplified Chinese”、“Traditional Chinese”,中英文之分倒是一目了然,但选择哪一种中文,很多人在第一次遇到这种情况时都不知所措。如果你选中的是“Traditional Chinese”,看见的大多是一堆乱码。因为它对应的是台湾的BIG5系统。
“Traditional Chinese”对应BIG5码,那么,台湾的文献数字化是否能代表“传统中文”呢?也许“代表”一词并不确切,不过台湾的文献数字工程无论在数据量、技术含量、运作方式等方面均领先一步却是一不争的事实。已经“触网”的人文学者中,大多数都曾访问过以“瀚典”为代表的台湾网上典籍。“瀚典”由台湾的最高学术机构中央研究院(http://www.sinica.edu.tw)主办,收录了以十三经、二十五史为代表的中华典籍精华。除此之外,入库资料还有上古汉语语料库摘要、台湾方志与文献、清代经世文编及续编、中华民国史事日志等专业研究资料。虽然部分资料需付费使用,而且在检索后仅给出一段,但对于苦于海量数据的研究者来说,不啻是一种非常方便的手段。
在书目资料库、全文资料库、影音资料库的工作已经基本展开之后,1999年7月,台湾第九次“电子、通讯、信息策略会议”更是通过了“典藏数字化计划”。此计划要实现将重要的文物典藏全部数字化的目标,建立起一个和谐的数字典藏,以促进人文与社会,以及产业与经济的发展。台湾中央研究院负责筹备及协调事宜,总计投资近6亿台币,于2000年1月已正式展开。看一看参与此计划机构的七个单位:故宫博物院、台湾图书馆、历史博物馆、自然科学博物馆、台湾省文献委员会、台湾大学、中央研究院,就能够知道台湾对此计划的重视程度。
此外,香港中文大学的中国文化研究所(http://www.chant.org)亦是专业研究者上网的一个好去处。此网站下属的“古文献数据库中心”目标在于将中国古代全部传世及出土文献加以校订、整理,并收入计算机数据库,然后通过各种媒体(包括书刊、计算机软件及互联网)出版。此项计划进行已逾十载,获得了大学研究资助局拨款超过一千一百万元。不过实际上,网站发布资料并不多,目前实现逐字索引检索的仅谢灵运集、谢朓集、齐竟陵王萧子良集、沈约集等几部。
国内完成的《文渊阁四库全书》电子版相比而言毫不逊色。共有1500余册、240万页、7亿多汉字的《四库全书》是中华第一大巨著,是中华古文化的万里长城。而电子版(及网络版)的诞生,则使这部皇家图书走入民间、走入每一个网上读者的家中。每个文字的数码化与丰富而又实用的全文检索、择要笔记、纪元换算以及简体、繁体、异体汉字相互关联的查询功能,使《四部全书》电子版成为名副其实的中华文化信息宝库和有效的研究工具。
《文渊阁四库全书》电子版工程的问世在许多方面积累了可供借鉴的经验:投资者、高科技企业、出版单位三者相结合,走社会化合作之路,走资源与收益分享之路,为加快我国信息资源开发、促进中文信息产业建设作了开创性的成功尝试。
在中华文化的建设方面,血浓于水,每一位炎黄子孙都有着共同的心愿。
深入浅出:数字“国学”
在浏览器中键入“www.guoexue.com”,一个朴雅的页面就会呈现在眼前。这就是“国学网”的首页。与前述大型的项目工程相比,“国学网”也许不足为道,但它绝对是沟通专业学者与一般读者间的桥梁。它的创办者尹小林先生如此给这个网下定义:文史工作者的信息驿站,一个以中国传统文化为主要内容的综合网站。
“国学网”以传播我国优秀的传统文化为宗旨,以促进传统文化走向现代化为目标,集普及、交流、提高等多种功能于一体,既是专家进行学术研究的园地,也是值得文史爱好者经常光顾的乐园。这从它的栏目设置上就能看的出来:古籍原典、学人采风、研究机构、学术著作、期刊论文、国学动态、海外汉学、专业网站、国学入门。
“国学网”最吸引人的,是它的“古籍原典”栏目。按照传统的经、史、子、集分类,以GBK大字符集为平台,此栏目下十三经、二十四史、资治通鉴、续资治通鉴、全唐诗、全宋词、全元散曲、明清小说等数百部上亿字的古籍资料都被送上了互联网,充分体现了信息社会共享、开放的时代特征。全部资料均采用简体新式标点,数据量相当可观。
其它各栏目也是非常有价值的信息,其中“学人采风”、“研究机构”两栏分别介绍了国学研究人员的基本情况、学术成果以及国内外重要的专业学术机构和研究团体,是不可多得的资源。专业刊物种类繁多,想知道哪一个的具体情况,“期刊论文”可以满足这一愿望,它收录了数十种学术研究期刊目录和若干现当代学者的学术论文;“国学动态”与“海外汉学”则收集和发布国内外最新学术活动和阶段性的研究成果;“专业网站”为网上“冲浪”者列出了全球重要的国学网站;“国学入门”中的国学基本知识介绍所设名著导读、名篇赏析、专家治学心得、成语典故、对联史话等,是文史爱好者的绝佳去处。另外还有一些实用性强的附录,如中国历史大事年表,名人年谱,它们既是专业研究者又是一般读者的工具。
与又是挂灯箱又是拍广告的很多“.com”相比,“国学网”很不起眼,它的“员工”很少,只有两三个,更没有风险投资。但它在这种状况下却做到了每天补充和更新数据,并免费为研究者制作网页,发布最新研究成果的学术观点。因此,目前它在文史研究界的影响越来越大。北京大学教授,中国文化书院院长汤一介先生这样评价道:“国学网站”对研究中国文化的学者有非常大的帮助。它不仅大大缩短了我们查找文献的时间,而且还能帮助我们对所研究的课题提出若干深化的角度和可以作为强有力的佐证的统计数字。这些数字是在别的地方很难找到的。
由于资金等的限制,“国学网”象是冬天里的腊梅,偏安一角,幽香独放。比起大的门户网站一天动辄上百万的pageview来说,“国学网”开通半年以来的总浏览量不过四万多人次,但遍览整个中文网站的概况:有一定知识深度和文化品位的寥寥无几,大家似乎更热衷于各种热点消息的炒作以及一些缺乏文化内涵的报道。相信任何一个有眼光的人都会发现“国学网”独特价值之所在。
术业专攻:网上“全唐诗”
由北京大学中文系历时一年开发的全唐诗网上电子检索系统(http://chinese.pku.edu.cn/tang)被一些使用者称为目前世界上最优秀的古典文献专业检索系统,说它专业,不仅仅是从此项目名称上体现出的极强的专业性,即使是在技术的运用上,北大中文系这次也照样占了世界一流。
据项目组主持人,语音实验室李铎先生介绍说,提出开发《全唐诗电子检索系统》,是基于如下几个方面的考虑:
1、中国古代文学的主流是诗歌,中国古典诗歌发展至唐代达到鼎盛,因此选择《全唐诗》作为中国古典诗歌大系电子检索系统的开发起点,起点高,影响面广,对中国古代文学、语言、历史、文化学科领域的研究都是一项具有较高学术价值的工作;同时唐诗历来是深受人民喜爱的文学珍品,是全社会提高文学、文明修养的文化宝藏,因而这项开发工作也必将对精神文明的建设起到积极的促进作用。
2、开发最精良的数据库:由于互联网上的中国古代文献网站亦有不少,但错误太多,产生了极不良的负面影响。为了起到规范全球中文网站的作用,项目组对所要建设的文献提出了高于国家标准的要求。全部文献错误率控制在三万分之一以下(共五校),《全唐诗》文本控制在五万分之一以下(共六校)。
3、使用世界上最先进的工具:所有文献均使用Unicode内码,在建设之初即已为下一个操作系统Windows2000做好了准备,在Windows2000平台上,不需要任何转码工具,港澳台操作系统可以直接读取信息,全球任何语言的操作系统均可在网上直接检索《全唐诗》及相关资料,并且兼容Windows 9x,WindowsNT,Unix,Linux等平台。检索系统工具使用了新西兰国家图书馆开发的基于MG内核基础上的CGI程序,它提供了目前世界上最高速的文献检索引擎。
为了更方便学者的应用,项目组尽可能建设较多的重要文献数据,项目组共录入校对了一千七百万余字,百余册纸版书。该项目主体部分由《全唐诗》及《全唐诗补编》组成,辅助项由《乐府诗集》、《玉台新咏》、《文选》等组成,完成了宋前所有诗歌的数据建设。参考类则由重要唐代史料《新唐书》、《旧唐书》、《唐才子传》、《历代诗话》、《唐诗纪事》等资料组成,共1700万字。入库资料中的任何一部都是研究诗歌流变不可或缺的参考。
检索系统由两个版面组成,一是浏览界面,它提供以原书为序浏览,浏览内容只限于《全唐诗》。读者可以方便地一首一首地阅读《全唐诗》。另一界面是检索界面,此界面是本系统的核心,可以检索全部资料。主体部分除全文检索功能外,另有“诗题检索”、“作者检索”、“体裁检索”、“音韵检索”等五大功能,为使用者留下多种渠道进入。检索结果显示诗歌全文(以首为单位)、作者小传、诗文校注、诗歌体裁、原书页码、册卷等。
从使用中来看,检索结果的排序方法是非常科学的。它依据两种算法,一是以原书为序,如果读者以“完全匹配”模式检索任意字词,凡含有此字词的诗文均以原书为序排列。如果读者以“部分匹配”模式检索字词,则由检索系统以人工智能的方法做优先条件排序。例如,检索“酒”,先出现的即是含有“酒”字最多的诗,此项功能为学者的研究提供了极大的便利。
项目开发不仅仅是录入数据,而且要融入学科研究,要有电子版文献开发的科研成果,项目组在总顾问,古典文学专家袁行霈先生的指导下,给全部五万首诗做了“体裁检索”标引,大大扩展了《全唐诗电子检索系统》的检索功能;在蒋绍愚先生的指导下,建设了“音韵数据库”,为唐诗研究,文科教学,古代优秀文化的传播提供了有效的工具。
香港中文大学的同行、挪威汉学家、美国的同行、国内一些专家对这项使用不到50万元的经费开发的如此强大功能、如此浩大数据的检索系统评价很高。高校古籍整理委员会安平秋先生带领部分成员使用后,便鼓励申报古籍整理委员会的项目,他评价说:这是经费少、见效快、功能强大的古籍整理项目。
对未来的展望
“国学网”与网上“全唐诗”可以称得上目前国内网上中华文化广度与深度的代表,随着时间推移,正在启动中的的数字工程有许多将显露头角。其中最引入注目的有“故宫文化资产数字化应用研究”、“国家数字图书馆”等。“数字故宫”在故宫博物院与与日本凸版印刷株式会社的共同推动下渐成事实。双方已经签订了意向书,将项目采用三维成像和虚拟现实技术来实现。据介绍,首先进行的是逐步把博物院中的建筑和文物通过影像采集、数字处理、压缩技术等制成三维形象,同时,在故宫中建立虚拟现实剧院,集合高清晰、超宽屏幕和环绕立体声数字音响,使人们能够随意从各种角度观看和欣赏建筑、文物。观众不用戴特殊的眼睛或传感手套,只要通过手中控制器就能走遍故宫的角角落落。
可以看出,数字化不仅以“0101”的方式保存文字,甚至给我们打造出一个虚拟的空间。也许,今后如何在高速变化的数码环璄中培养人的性情、气质、风度将成为发展中的难题……但不可否认,技术正在向我们展示另一种可能。相信源远流长的中华文化通过与科技的结合必将焕发出新的魅力。
原载中华读书报2000年10月25日 九版 署名“杨竞”