古籍数字化利用非接触式书籍扫描仪由录入改扫描势在必行
 

古籍数字化利用非接触式书籍扫描仪由录入改扫描势在必行


赖瑞和《唐代基层文官》(中华书局·2008)《自序》中有这样一段话:“市面上和网上的《全唐诗》电子文库很多,但多为简体字版,且校对欠佳,又无卷数页数,都不合学术用途。*合乎学界需要,校对精细,且以繁体字制作的,据我所知就只有陈教授这一套了。”此处陈教授,是指台湾东吴大学中文研究所陈郁夫先生。众所周知,《全唐诗》是*基本的文学古籍之一,对于我们这些以唐诗及唐代文学研究为 的人来说,其重要性更是居于任何他书之上。这些年来,我们都习惯于使用《国学宝典》版的《全唐诗》,平心而论,这个版本的《全唐诗》也确实给了我们许多帮助,为我们的研究工作提供了前所未有的方便条件。赖瑞和先生不知是否使用过或见识过《国学宝典》版《全唐诗》,但按照他的标准,一是要用繁体字,二是要校对精细,三是要有卷数页数,《国学宝典》版《全唐诗》除了有卷数这一点外,其余方面都不符合或不太符合他的要求,即用的是简体字,校对不甚精细,未标明原书页数。那么,我们可以想见,赖瑞和先生即使接触过并了解《国学宝典》版《全唐诗》,肯定也不会认为它是“合学术用途”“合乎学界需要”的版本。赖先生提出的几个条件,在很大程度上可视为数字化古籍的一般标准。因此,我们在肯定和感激《国学宝典》版《全唐诗》的同时,也真诚地希望它能与时俱进,真正做到如赖瑞和先生所说的“合学术用途”“合乎学界需要”。而要做到这一点,*根本的改进,就是要将录入改为扫描,即不再对古籍重新进行二次性的人工录入,而是改为选定善本(学术意义上的善本,而非收藏意义上的善本)进行扫描。之所以需要进行这样的改进,我所考虑到的理由有以下几条:

  1.避免错误,即避免录入别字。
  由于录入人员并非 研究者,其录入过程一般来说并不伴随对文义的理解和阅读,而只是依据字形“照录”,而且不能不追求一定的工作速度,所以,出现错误就成为不可避免的事情。尤其是形近字、同音字,常常因辨识错误或一念之差而录入别字。如杜甫的名篇《观公孙大娘弟子舞剑器行》,就有三处录入错误:“一舞剑器动四方”句,“器”误为同音字“气”;“晚有弟子传芬芳”句,“晚”误为形近字“况”;“风尘澒动昏王室”句,“澒”误为形近字“倾”。同样以公孙大娘为题材的诗作,还有司空图《剑器》:“楼下公孙昔擅场,空教女子爱军装。潼关一败胡儿喜,簇马骊山看御汤。”第三句中“胡”被错录为“吴”,应是读音相近致误。
  又如《宋史·苏轼传》有这样一段话:“微宗立,移廉州,改舒州团练副使,徒永州。”其中“微”字应为“徽”字,“徒”字应为“徙”字,两处都是形近致误。
  类似于上面举出的录入错误,对于 研究者来说,基本属于常识性问题,因而不难识别,并可自行纠正,但我们实不敢保证自己的眼睛和水平能够发现所有错误。所以,保证文字正确,仍是数字化古籍必须解决的首要问题。如果利用非接触式古籍扫描仪将善本古籍扫描,则可从根本上解决这一关键问题,从而保证数字化古籍的质量。
  2.解决稀见字录入的困难。
  古籍中往往出现时下各种字库中很难找到的稀见字,这就成为录入时无法逾越的障碍。尤其是韩愈、卢仝等常常有意使用冷僻字的作家,录入他们的某些作品确实是件很困难的事。为了对付这个难题,目前采用了一些变通的办法,如把一个字左右分开成两个字、在括号中录入两个字表示一个字、用字母代替等,如韩愈《陆浑山火和皇甫湜用其韵》中,有“月番”“酉爵”“石覃”“目爰”,还有[谷含],这都是一个字的形态。还有一个字,字形是“上亡下皿”(应读huang),《全唐诗》中录成了“fI”,实在不知是什么意思。卢仝《月蚀诗》中,则有〈齿取〉〈齿禺〉这样的字,还有g6、gpoA这样的“字母字”。遇到这种情况,阅读实际上无法进行下去。这一问题的解决,也必须倚赖善本古籍的直接扫描。
  3.增强文献的使用价值,为读者提供可资引用的版本。
  目下的数字化古籍,并不是一种真正的版本,不具有原始性质,所以无法作为正式的文献资料来使用,尤其是无法加以引用。从根本上说,它只有一定的查阅价值,而不具有如同纸本出版物一样的使用价值。再加上它在录入时的错误率又远远高于纸本出版物,其可信度要大打折扣,这就更影响了它的使用价值。换句话说,我虽然有了《国学宝典》版《全唐诗》,但并不等于我拥有了真正的《全唐诗》,我在一种研究成果的“参考文献”中,只能列入中华书局版或上海古籍出版社版的《全唐诗》,而不能列入《国学宝典》版《全唐诗》。其他书亦然。如果将善本古籍原封不动扫描过来,每一种书籍都有版权页,都有与原书一样的页码,我们就可将这种数字化古籍当成纸本一样来使用了。
  4.改善阅读的视觉感受。
  目下的数字化古籍,密密麻麻一片,不分页,不能进行版式设计,没有天地空白,没有字形变化,视觉感受与纸本古籍有很大差别。因此,人们在一般情况下还是愿意使用纸本书,而不是首先打开电脑使用电子书。如果使用扫描法,出现在读者面前的是一页页与纸本一样的书,相信这种情况会有所改善。
  5.大面积并且从根本上解决资料“全”的问题。
  以《国学宝典》为例,目下收入的文献已经很不少,容量已经相当可观,但仍遗漏了许多应该收入的内容。比如,“宋初四大书”,其它三种都收了,惟独文学价值*高的《文苑英华》未收。诗话类著作收了一些,但很重要的《沧浪诗话》未收。尤其是别集类文献,目前《国学宝典》收的很少,我在上届会议的论文中就提出过这个问题。对于研究者来说,事实上别集往往比总集更重要、更有用,总集通常用以检索,别集则是阅读和研究的依据。我们要读某位唐代诗人的作品,只要他有编就的别集,尤其是经过科学整理的别集,那么,首选应是其别集,而不是《全唐诗》。大量收入别集,靠目前的录入法是很难实现的。可行的办法,是挑选别集善本、尤其是经今人精校精注的别集,通过扫描加以“复制”,又快又好地解决这个问题。当然,将今人著作制成数字化文本,可能存在著作权问题,对此应依据相关法律条文妥善处理,必要的成本应当计入。
  总起来说,根据我个人的经验,觉得数字化古籍的优越性是便捷、易携带,特别是可检索。但数字化古籍并不能代替传统纸本古籍。纸本的好处是阅读时便于前后翻动,可以在空白处批注,这是数字化书做不到的。而且,读纸本书时总是伴随着对问题的思考,思维活动比较活跃,读数字化书似乎主要是眼睛的活动,而思维活动有所减弱。今后数字化古籍的发展,应该*大限度地克服其局限性,同时*大限度地发挥其优势,尤其是可检索的优势。随着技术的进步和经验的积累,数字化古籍一定会日臻*,日益提高学术质量,同时日益拥有更多的读者和更大的市场。
book2net古籍书刊扫描仪专为古籍量身打造的一款扫描仪设备。
珍藏的历史书刊、古籍扫描是图书馆、档案馆和博物馆面临的一项重要工作,为了可以让更多的人共享珍贵的历史文案,利用book2net非接触式古籍扫描仪快速高效地将书刊和古籍变为可随时查阅共享的电子影像资料,是档案工作者迫切需要解决的首要问题。
非接触式超高速书刊扫描仪的诞生使得这一问题立即迎刃而解。镜头至上的设计,无需拆档,生成电子影像的同时还能保证珍贵原件不受损,*如初,适用于图书馆、档案馆、博物馆、法院、政府等行业进行快速有效地捕捉文件图像。
 书刊扫描仪沿袭了德系产品特有的先进技术和过硬品质。配备的图像增强处理软件是本公司技术人员经过长年的研究探索而开发的高端解决方案。0.3秒的杰出扫描速度,1.9秒扫描周期,为您提供无与伦比的工作效率。流程化扫描管理,与独立的PC连接,可将自动剪切、自动纠偏、自动分页等多种功能集成到批处理命令,一次扫描即可自动完成图像处理,大大提高了您的工作效率。可生成PDF多页文件,一步到位,省时省力,是各个系统机构扫描文档的首选解决方案。
更多古籍扫描仪www.book2net.com.cn
联系我们
热线咨询:400-616-0007
总机:010-84980609
传真:010-84980689-800
邮箱:srvice@book2net.cn
友情链接
ImprintTerms of UsePrivacy