古籍数字化:百年老树发新芽 -方圆慧图
百年老社中华书局最近推出大型数据库产品“中华经典古籍库”,收录自有版权的近300种古籍整理成果。此前,社科文献出版社、国家图书馆出版社也均推出过古籍数据化产品。对于这些古籍产品来说,虽然出版社不同,产品形态各异,但在保存珍贵文献,留存历史财富的价值上,都在新形态下发挥重要作用。
《中国新闻出版报》记者通过观察三家出版社的古籍数字化产品发现,目前传统出版社做古籍数字化产品以数据库形式为主,数据库内容多依托自家优质、优势内容。如“中华经典古籍库”就收录了中华书局版点校本古籍,包括“二十四史”及《清史稿》《资治通鉴》、“新编诸子集成”“清人十三经注疏”“史料笔记丛刊”“学术笔记丛刊”等经典系列在内的权威整理本,共计2亿余字。特别是“二十四史”及《清史稿》,是中华书局历时20年完成的古籍整理工程,点校本“二十四史”和《清史稿》出版问世之后,享有“国史标准本”的美誉。
社科文献出版社也在古籍数据库的建设上注重与自身优势资源结合,特别是依托中国社会科学院丰富的古籍资源,进行数字化产品开发。社科文献出版社推出的《说文 解字(现代版)》数据库可以将过去必须造字的汉字,同常见汉字一样,在一个全球通用的平台上进行复制、编辑、发布和传送,并对每一个词或字进行高速组合查询。《康熙字典(修订版)》基于7万汉字国际统一编码的全文数字化、编码化和数据库化,做到每个修订的字都有国际统一编码,也就救活了多个“死字”,数千个有音无义或有义无音的字,都通过新勘首次得到解释或注音。
“注重特色资源的开发,将古籍与当前学术研究成果相结合,建设具有较高学术水准的数字化古籍数据库,这也是我们的发展方向和工作重点。”社科文献出版社数字资源运营中心主任胡涛向记者表示,而对工具书进行研发也是社科文献出版社古籍数字化的基本思路之一。
“随着数字产品和数字阅读习惯的普及,图书馆对于电子文献资源的需求越来越大,因为受到物理空间限制,图书馆越来越青睐电子文献资源。目前,很多图书馆购买电子文献的经费逐年增加,甚至已经超过购买纸质图书的经费。”国家图书馆出版社数字出版部负责人王涛在接受记者采访时对古籍数字化的前景表示看好。据了解,自2002年5月开始,国家图书馆及国家图书馆出版社就承办了中华再造善本工程,2014年,“中华再造善本数据库”将“中华再造善本工程”中影印出版的珍贵古籍善本通过德国非接触古籍扫描仪进行图像数字化,目前一期数据库已经收录古籍善本757种。
棘手问题层出不穷
在王涛看来,目前制约古籍数字化的因素还有很多,其中比较棘手的就是版权问题。“以我们出版社的数据库产品为例,图书馆古籍存量大,但是图书馆在将纸质古籍提供出来给出版社进行数字化加工的时候往往有顾虑。数字版权签不到,数据库产品就无法制作。另一方面,出版社在向图书馆支付底本费后,影印图书产品依然被网民数字化后在网上传播,由于古籍的特殊性,出版社无法利用现有法律对数据库产品进行保护,数据一旦流失,对于数据库的销售和整个古籍数字化工作将带来负面影响。”
王涛介绍说,在赢利模式探索方面,数据库产品凝聚出版社资源和编辑心血,可谓出版社优质内容集大成之作,成本高带来的问题就是销售价格高,那么一部分购买者就会因为价格因素有所顾虑,如何平衡产品和赢利,也就是数据库产品的营销策略还需进一步探索。此外,目前古籍数据库选题存在同质化问题。我国古籍总量有限,一些数据库产品的主题容易重复。他希望能够出台一些保障机制,指导古籍数据库选题,避免因有限资源的重复建设,给出版社带来不必要的开支和负担。在古籍数字化可持续发展上,由于古籍资源有限,随着被数字化开发的古籍资源减少,未来出版社在古籍数字化方面需要考虑新的发展方向和模式。
胡涛也认为,对于社科文献出版社来说,目前得到的古籍出版资源较少,难以夯实和扩大古籍出版领域,形成古籍出版规模,虽然社科文献出版社的数字出版工作做得不错,但目前存在已有数字出版工作经验难以嫁接到古籍数字出版工作中的问题。
此外,记者在采访中发现,一直被认为是弱项的技术对于出版社来说已经不再是“不可能完成的任务”。他们或者通过自身力量研发解决方案,或者借助外包技术公司,这也表明传统出版的数字化转型从思路和做法上日渐成熟,不是盲目地“满把抓”,而是能够通过与技术公司的合作实现资源的优化利用。
据中华书局古籍资源部主任洪涛介绍,中华书局在古籍数字化过程中也曾遇到计算机用字大量缺失,且字符集外汉字的处理无标准可以参照的问题。而为了能够高质量地数字化古籍,中华书局投入了大量精力参与计算机用字规范项目的建设,如“中华字库”“国家数字图书馆汉字规范处理项目”“新闻出版用大字符集”项目等。通过这些项目的建设,规范了计算机古籍用字,积累了大量的汉字属性数据,为古籍数字化工作打下了基础。
中华书局通过自身努力解决了古籍数字化过程中面临的技术难题,也有出版社集中力量做好擅长的事情,与技术公司实现联动。王涛对此表示,古籍数据库出版需要专业编辑掌控选题策划、资源汇集、内容审校等核心环节,所以技术方面可以“外包”给有专业技术经验的技术公司来做,毕竟出版社没有必要自己耗费人力物力建立技术队伍。
未来侧重知识开发
目前,由社科文献出版社参股的扬州古籍线装科技文化有限公司已经注册成立,并与国家图书馆签订了大型古籍孤本、善本书复制合同。谈到未来的发展目标,胡涛表示,未来社科文献出版社将在继续拓展古籍出版领域的同时,进行古籍线装基地建设,形成特色电子书和专题数据库等数字化产品。同时将致力于古籍数字化技术的尝试与应用,通过与产业链中各方加强合作,不断探索古籍数字出版运营模式。在推动古籍出版的数字出版转型方面,也将不断探索标准、改造工作流程、加强人才队伍培养。
“古籍数字化技术涉及全文检索技术、古汉语词典切分技术、生僻字在阅读器上的呈现、检索时异体字的处理问题等。”胡涛认为,而在标准方面,包括古籍数字化版本选择、书目分类、汉字字符集、存储格式、影响处理、检索系统、元数据著录等目前都没有统一标准,他希望能通过古籍数字出版的尝试,为古籍的技术与标准提供实践经验支持,强化研究支持功能,实现知识发现。
“从2003年至今,中华书局的古籍数字化经历了从文本数字化处理、数字化用字规范、知识服务探索到资源产品的运营四个阶段。”洪涛表示。未来,中华书局将不断扩展产品线,通过开发更多的专题库、小型库以满足不同用户的需求。目前,中华书局的第二个大型数据库产品“中华基本史籍知识库”已经启动,该产品将在古籍库的基础上,收录学术著作及工具书,借鉴“史籍分析系统”项目的建设经验,建立人物、时间、地点等史籍知识元间的关联,可视化地展示其语义关系,为学者提供更为专业的知识服务。
“今后古籍数字化的发展方向是知识库,而目前古籍缺少高质量的知识系统元数据,例如每种古籍有多少种版本,这些版本哪些被人整理过,那些未整理的版本收藏在哪里,如何能够将不同的古籍数据库资源进行整合这些问题,必须要有高质量的基础元数据才能实现。”王涛告诉记者,目前,国家图书馆出版社也在利用自有资源,进行各种基础元数据的建设,为将来古籍知识库的发展奠定基础。例如正在建设的“历代人物传记资料资源平台”,与普通的古籍数据库相比,该平台不仅仅提供传记资源,更重要的是,通过该平台的建设,能够对中国历代人物进行全面的整理,在此基础上,建立一个高质量的人物基础数据库,为每位历代人物建立高质量的规范数据。与以往的数据库不同,“历代人物传记资料资源平台”中的基础数据采用了最新的书目框架格式BIBFRAME,它是按照关联数据的标准来建设的,不仅能为国家图书馆出版社服务,同时也可以将这些数据提供给其他系统,为今后古籍数字化提供更加知识化的服务。
随着信息时代的到来,计算机和互联网技术的普遍应用,古籍整理和出版的技术手段发生了很大变化。数字化的古籍整理产品,加上无所不在的互联网技术,具有传播迅捷、获取方便、覆盖广泛的特点。这对于从事古籍整理工作的人来说,对于专注于文化遗产继承、传播、发扬的学者来说,具有重要意义。相对于传统的印刷,古籍数据库是古籍整理的一种新形式,具有方便传播、便于检索的特点。
数字图书馆建设发展非常快,每年都要购进大量的数据库。作为图书馆,希望国内的出版行业,无论是在平台上还是格式上,能够有一个相对统一的标准。现在我们所面临的数字整合的问题很多,各种格式至少有七八种,还加上不同的平台,读者检索起来很麻烦,即使做了一定的整合,可能还需要在不同的数据库中查找不同的内容,这对于文献的传播和使用来讲是不利的。目前数字图书馆系统升级变化非常快,数据库产品如果更新慢,服务不能够适应新的环境,产品使用就可能会打折扣。
国内的古籍数字化工程这些年发展得非常迅猛。但是这背后有一些隐忧,最早都是做IT的公司在做。他们最主要的目的是赢利,所以短期内要扩大规模,进行跑马圈地式的运作,出现很多乱象。这些年情况有所好转,一些公司都开始重视版本的问题,但是远远不够,他们没有形成规范,这方面的专业人士也有所欠缺。所以大家都比着求大、求全,而在求精的方面重视不够。实际上数字化时代,我们对数字善本的需求应该更为迫切,面临的问题更为严重。
更过非接触式古籍扫描仪:http://www.book2net.com.cn