古籍是中华民族在数千年历史发展过程中创造的重要文明成果,是中华文明绵延数千年,一脉相承的历史见证,也是不可再生的文化资源。当前,我国古籍保护工作还面临许多问题,如:古籍老化、破损严重等。
裱糊是最专业、最繁杂的工作,前后工序有十余道工序,需要使用特制的浆糊,专业的纸张等。古籍修复是扫描环节中的一道工艺。
古籍修复工艺必不可少颇为精细,数十道工序环环相扣,一招一式极为考究。公司专门聘请古籍修复专家授学,古籍修复人员熟悉掌握纸张、装帧、版本等相关知识。同时,在继承传统、博彩众长基础之上,采用现代科学技术,使这门古老的技艺保持与时俱进的生命力。
北京兴源科创采用计算机技术,对古籍文献进行全文数字化加工处理,制作成古籍文献书目数据库和古籍全文数据库,不仅有效保护古籍,而且能更好地传播利用古籍,提高古籍文献的使用率。
古籍全文数据库
对古籍资源的全文进行古籍数字化处理,为读者提供全文阅读、全文检索或智能分析服务。根据全文数字化的技术处理情况,可以将其分为图像版、文字版、图文版。对图像的扫描处理我们一般采用JPEG、TIFF格式,经过OCR识别、人工校对后生成可以全文检索的双层PDF文件,既便于用户阅读、检索,又便于数据共享和传输。
1、手工录入:
将古籍的全文以键盘输入计算机,使之数字化。经过标引及系统处理,凡录入的文字都可以检索、统计,贮存空间小,检索速度快。同时,为了保证文字的准确率,我们开发了古籍自动校勘系统,对录入后的文本进行自动校对,并采用人工辅助校对的方式,经过3~5个校次,文字错误率控制在万分之一以内,达到出版水平。
2、图像扫描:
保存古籍文献的电子影像,用扫描仪等将古籍文献的文字(包括图表)以图像形式进行存储。存储为国际通用的PDF格式,版式保留完整,文字不会产生错误,且能保证文献的原始状态,同时图像文件经过技术处理后,能以较小的贮存空间存储。
3、双层PDF图文格式:
用扫描方式制成TIFF图像,然后利用OCR技术将图像形式全部识别为可检索的汉字,并将文字和图像进行对应,制作成图像在上、文字在下的双层PDF格式文件。既便于用户快速准确地查找到所需内容,又能使用户古籍的原始面貌。双层PDF特别适合于古籍数字化,异写、通假、避讳等造成的众多汉字无法完全识别,用户通过图像即可对照。
古籍书目数据库
以书目内容为数字化对象,对古籍的元数据描述,内容包括书名、责任者、版本、卷数、刻印年代、藏地、版式等情况,形成机读目录格式,向用户提供结果查询。