book2net非接触式古籍扫描仪:古籍数字化的意义和现状
古籍都是不可再生的宝贵的财富。正由于其弥足珍贵,普通的读者是不可能接触到这些稀世珍品,据国家图书馆善本部张志清副主任介绍,一部古籍每翻阅一次都会使它“折寿”60年。另一方面,古籍由于年代久远,纸张极易风化粉碎、残破、变形、霉变,形成不可挽回的损失。由于人为破坏和自然灾害,许多典籍早已荡然无存。明代叶盛说:“夫天地间物,以余观之,难聚而易散者,莫书若也。”
如何保护珍贵的历史文化典籍,如何使之走下神坛,让这些“昔日王榭堂前燕,飞入寻常百姓家”,让一般人能领略其博大精深;如何弘扬中华文化,让全世界的华人、汉学家方便了解研究中国的文学作品以及历史、军事和哲学;如何使文史研究工作者能够快速找到所需资料,提高他们的研究效率……是图书馆界和IT界的共同的心声和梦想,也是每一个关注民族文化的国人的梦想。
高科技手段被认为是目前保护古籍的*佳选择。中国从1985年起,开始用缩微照相方式复制古籍,到目前已抢救了两万多种古代文书。缩微胶卷或平片有经济、耐用等优点,一直是保存档案资料的一种有效手段。但缩微胶片的使用需要*设备,伴随而来的是难以管理和不易使用的缺点。随着计算机技术的发展,古籍“数字化”也已经成为一种新的保护和利用的办法。
国际图联文献保护中心主任M·T·G瓦拉莫夫女士认为:“在较长的一段时期里,缩微技术和光盘、数字化技术之间不是谁会取代谁的问题,至少缩微技术还在发展,世界上不少图书馆仍在进行大规模的文献缩微计划,以美国报纸拍摄计划(USNewspaperProgram)为例,这项以国会图书馆为主体的计划,要求将美国及其托管领地出版的所有报纸实现缩微化”。
从技术的角度,缩微胶卷也为古籍的数字化提供方便、简捷的资料的来源。
古籍的数字化和上网,是中华优秀文明由纸张等媒质流传方式转为数字信息等现代方式传播的重要步骤,是对传统的中华文化传播和继承方式的革命。古籍的数字化和上网,是互联网上中文信息完整性的重要保障,对确立中华文化在互联网上的整体优势地位和树立文化大国形象具有不可替代的地位。传统古籍的数字化和上网还具有现实的价值,可以有效地解决古籍保存与使用之间的矛盾。古籍通常是1911年以前抄写、出版的图书,包括民国时期出版的古人所著的线装图书,往往具有重要的史料价值和很高的文化价值。许多古籍保存单位严格限制古籍的使用,以达到古籍保护的目的,但同时也使古籍的研究利用受到影响。古籍的数字化和网上发布,使研究者可以在网络终端上浏览古籍,还能避免直接接触对古籍造成的损坏,能有效地解决古籍保存和使用的矛盾,为中外学者方便地研究古籍提供便利,对古籍研究工作必将产生巨大的推动作用。
目前国内古籍数字化的现状
2002年4月16-20日,来自中、日、韩、英、美及澳大利亚等国图书机构和研究单位的近百位*、学者齐聚一堂,参加了在北京嘉苑饭店举行的为期五天的“《永乐大典》编纂600周年国际研讨会”。会上,中外学者回顾了600年间尤其是20世纪以来收藏、保护、研究《永乐大典》的状况,会议期间《永乐大典》的数字化问题成为与会**为关注、讨论*热烈的话题。这次会议充分展示了国际上中文古籍的数字化的现有的技术水平和发展的前景。
目前我国古籍数字化的工作取得了一定的成绩,已经完成或正在进行的有关古籍数字化的项目主要分为全文本方式和图像方式两大类:
全文本方式数字化
电子版《四库全书》,由上海人民出版社、香港迪志公司、北京书同文公司合作开发,选用国际标准ISO/IEC10646(GB13000/Unicode)作为数字化的字符集,采用XML语言作为文献内容的标识语言,使用OCR技术实现图文数码转换,使用数据库加知识工具库多种信息关联的全文检索引擎。书同文公司是大陆*大的致力于古籍数字化的公司,现拥有《四库全书》、《四部丛刊》、《康熙字典》的电子版。目前在制作《永乐大典》和《历代石刻史料汇编》的全文检索版。
北京大学中文系《全唐诗》网上电子检索系统,由211工程资助、北京大学中文系李铎博士主持开发,历时一年完成。该项目主体部分由《全唐诗》及《全唐诗补编》组成,辅助项由《乐府诗集》、《玉台新咏》、《文选》等组成。参考类则由重要唐代史料《新唐书》、《旧唐书》、《唐才子传》、《历代诗话》、《唐诗纪事》等资料组成,共1700万字。全部文献错误率控制在三万分之一以下(共五校),《全唐诗》文本控制在五万分之一以下(共六校)。所有文献均使用Unicode内码,在Windows2000平台上,不需要任何转码工具,全球任何语言的操作系统均可在网上直接检索《全唐诗》及相关资料,并且兼容Windows9x,WindowsNT,Unix,Linux等平台。检索系统由两个版面组成,一是浏览界面,它提供以原书为序浏览,浏览内容只限于《全唐诗》。另一界面是检索界面,此界面是本系统的核心,可以检索全部资料。主体部分除全文检索功能外,另有诗题检索、作者检索、体裁检索、音韵检索等功能,检索结果显示诗歌全文(以首为单位)、作者小传、诗文校注、诗歌体裁、原书页码、册、卷等。
“中国基本古籍库”光盘工程,由北京大学刘俊文先生主持,是北京大学的重点项目,1998年经全国高校古委会的批准立项,正式启动。著名学者季羡林、国家图书馆馆长任继愈担任编纂委员会主任,两院院士罗霈霖、工程院院士李国杰担任技术委员会主任,由北大方正技术研究院提供技术支持。全套光盘库共500张,根据中国古籍自身的特点,参照国际通行的图书分类法分为哲科、史地、艺文、综合4个子库,20个大类,近百个细目。范围涉及先秦至民国的重要典籍1万余种,每种典籍有1个通行版本的全文信息,另附1-2个珍贵版本的图像数据,预计全文20亿字,版本图像2千万页。基本可以满足文史和其他方面研究者的研究需求。适用于中、英、日、韩多语种操作平台,并提供多重检索功能。用户只需懂得一些基本的电脑操作方法,就可在极短的时间内,查找所需的资料,每次检索均可在5秒内完成。
台湾中央研究院《汉籍电子文献》,始于1984年7月,前身是为开发二十五史全文数据库而成立的“史籍自动化计划”,现已完成的数据库,共约一亿两千万字,其中较大型的是二十五史、医药文献、明实录、历代史料笔记丛刊和十三经,这些数据库已包括中国唐代以前的大部份重要文献(道教资料除外);正在建设中的数据库多达一亿八千万字,准备逐步将宋代以下的重要文献数字化。所有文献通过人工与机器共进行3次校对。在制作技术上得到中央研究院计算中心的支持。使用者可以在一秒之内,查到二十五史数据库中四千万字的任何字词。
“国际敦煌学项目”(The International Dun huang Project,简称IDP),旨在通过国际合作促进敦煌写卷的研究与保护。由英国图书馆开发,开始于1993年。项目计划逐步将全世界各国各收藏单位的敦煌文献数字化。目前可在线查看英国图书馆收藏的3万余件中亚写本和印本文件,以及15000余件残卷的高质量彩色图片。2001年3月,中国国家图书馆与英国国家图书馆签署五年合作项目,加入此项目。中国国家图书馆国际敦煌学项目的数字化内容主要包括:1、馆藏敦煌文献数字化。使用扫描图像展示写卷的全部内容——正面、背面,甚至没有文字的地方,图像的清晰度与看原卷没有区别。同时使用国际敦煌学项目提供的 设计的4D数据库详细描述写卷的物理性质。2、研究论著目录数据。包含四个专题书目数据库:敦煌吐鲁番学日文论著目录数据库;敦煌吐鲁番学西文论著目录数据库;敦煌文献研究论著目录数据库和敦煌吐鲁番学学者档案数据库。3、中国国内散藏敦煌文献联合目录。