古籍扫描仪对古籍数字化又是一次革命, 长久以来,很多人出于对中国传统文化的热爱和保护,致于使用古籍扫描仪对古籍数字化的研究开发工作。虽然做了不少的工作,但是成就却良莠不齐。其原因有三,一是虽然现有的计算机技术使大量的古籍实现了网络化、数字化,但是对于一些生僻字、古字却束手无策。中华文化博大精深、源远流长,许多汉字今人看来是古字、生僻字甚或死字,但它们对于历史和文明的考证却是不可或缺。就像我们在探究汉字起源时所经常用到的《说文解字》、《康熙字典》等字书类古籍就是因为含有了大量的生僻字,至今仍无法很好的实现通用的数字化版本,这不能不说是一大遗憾。许多的研究人员,竟然在无奈中熟练了亦步亦趋的造字技术。其次,或许是有些出版人的愿望吧,“普及传统文化从青少年抓起”,由此带来古籍出版物中大量的使用简体字,而简体字一字多义的特点,非常不利于古籍在传承中保持原汁原味,同时亦降低了其固有的版本价值,更遑论研究价值了。还有一个是错误率的问题,或许是录入的底本原因,又或是编校中的程序问题,总之,一些所谓的电子化古籍产品中的错误漏洞颇多,极大影响古籍的使用和研究价值。
根据清代陈昌治刻本的影本整理的《说文解字》现代版及数据库日前已由社科文献出版社正式出版发行。这套图书和数据库光盘出版后已在高校研究领域、数据库公司、排版厂以及广大文史爱好者引起强烈反响,可以预测,它将在古籍的数字化整理方面带来一场深刻的变革。
众所周知,计算机采用的二字节编码技术只能处理大约2万左右的汉字,那些无法处理的生僻字只有通过造字来解决,从而给学术之间的交流和传播带来了很大的不便。如今,这个瓶颈已经被突破。《说文解字》现代版及数据库在技术方面最大的特点就是采用最先进的Unicode扩展技术,使计算机可处理的文字种类数达到7万之多,并且可以自由的进行复制、粘贴、发布再利用,从而结束了古籍研究手工抄写、图片替代、生硬造字的时代,也为研究者、古文字爱好者查阅、认知、流通生僻字、罕用字提供了便捷的途径,使得在信息化时代,对于中华文化的保存和发展具有极为重要的意义。与此相应的另一个值得称道的则是它便捷、先进的自然语言检索技术,在平常研究过程中翻书查找资料的艰辛,大多数古籍研究者都有所体会,而且网络上多是二字节的汉字。这个检索引擎所采用的四字节自然语言检索技术,具有切词、分词功能。例如:计算机可以识别“低头思故乡”或“故乡思低头”,也就是说只要在短语或句子中出现有实际意义的词组,就可以出现所有包括这些词组的短语或句子,当然也包括了那些生僻字或者古字等。
《说文解字》现代版及数据库能实现简、繁体自动转换,这样在保证古籍研究者需要的同时也满足了中青年读者的需要。许多研究人员向来对简体的所谓“古籍”颇为担虑,除了价值的大打折扣甚至荡然无存之外,通常将原简体稿件恢复为繁体时,使得复核工作繁琐不堪,降低效率。进一步说来,古籍的整理和研究还有版本学的范畴,不同的版本蕴涵了不同的文字信息,这是简体版所不能比拟的。同时《说文解字》数据库的内容完全按照字典图书的出版要求将差错率控制在1/10000以内,同时配合纸本图书同步出版,满足不同读者的使用需求。《说文解字》数据库网络版本的发布更是解决了中国古籍在全球通用浏览器上进行阅读和编辑的难题,对中国古典文化的传播起到了极大的推动作用。
技术只有具有真正的使用价值,才能够被赋予长久的生命力。《说文解字》数据库系统的技术无疑是先进和实用的。据悉,《说文解字》数据库及网络版所采用的四字节处理技术和检索引擎已经申请专利,出版方同时透露,同类的字书类图书及数据库产品──《康熙字典》的出版准备已经接近尾声。社科文献出版社将于2005年6月2日举行“《说文解字》图书及数据库演示发布暨古籍数字化研讨会”,届时,将发布演示《说文解字》图书及光盘数据库和基于互联网的网络型多字节汉字检索系统,同时中国社会科学院、科技部、新闻出版总署、国务院古籍办、国家图书馆、清华紫光等单位的专家、学者还将就古籍数字化整理进行专题研讨。相信以《说文解字》数据库为契点,中国古籍研究工作将会进入全新的、真正的数字化阶段。
德国Book2net古籍扫描仪产品介绍:
德国book2net RGB古籍扫描仪是专为档案馆博物馆和图书馆高质量要求的古籍数字化项目所设计。
质量:
用户可在无反光的工作台上操作
独立的图像后台加工过程
*介质尺寸::最大650 mm x 450 mm非接触式线性扫描器,可扩展到A1书本扫描
*分辨率:800 dpi 分辨率,800、 400、300 dpi单独可选的分辨率
*传感器:具有3*7500万像素的线性CCD
*速 度:高精度模式600dpi/A2/7.50 秒;高速扫描模式600dpi/A2/3.75 秒;
*光 源: LED功率LED为2 x 13.2 Watt ,零热零紫外零红外,左右双向无影补光灯
*PC机接口: USB 2.0标准
*书托 :电动化书刊托架可适用于带高达20 cm书脊的书刊
*A1扩展:A1书托可提供甚至比A1更大的书本完成扫描
*校准工具: 照明辅助中心线为书籍恰当定位
*脚踏开关:脚踏开关实现扫描过程用脚启动
*软件:BookExpert(方圆专业版)书籍扫描大师
*输出格式:TIFF RAW、LZW、Huffman、G4 CCITT(巨大的、有条纹、平铺的)、PDF G4 CCITT、JEDMICS C4、Image Machines、TG4、CALS RasteType1、Windows Bitmap TIFF和PDF多页
*电源: book2net 书本扫描仪: 运行: 55 VA, /待机: 20 VA ;book2net XL:: 90 VA, 操作托架: 124 VA
*外形尺寸:book2net 书本扫描仪: 1060 x 665 x 1170 mm book2net XL书本扫描仪:1060 x 600 x 1360
*运行条件: 10° - 38° C, 10% - 85%湿度(无冷凝)