德国book2net书刊扫描仪:基于内容的古籍检索技术研究
关键词:书刊扫描仪、古籍扫描仪、全自动书刊扫描仪、非接触式书刊扫描仪,图书扫描仪,期刊扫描仪、书籍扫描仪
一、古籍检索技术现状
我国的古籍数字化经历了数据库版、光盘版、网络版三个建设阶段。数据库版古籍包括书目数据库和全文数据库两种形式。光盘版古籍一般有图像版、全文版和图文版三种类型。网络版古籍主要是将数字化的古籍资源在网络上有偿或无偿发布,供互联网用户使用,这是目前古籍数字化的主要目标。
目前,数字化古籍检索的核心技术仍然是传统的全文检索方法。全文数据库检索系统主要采用逐字标引形式,基于读者输入的检索字或词,在数据库中查找完全匹配的结果以返回给用户。但这种检索技术只是单纯基于关键词的检索,不论是单词检索,还是组合检索,都只能检索到与输入的词语严格匹配的资料,一是不可避免地带来检索效率低的问题,二是忽视了古籍文献中具有不同形式的内容间潜在的语义关联。
由于古籍文献对历史研究、文化探讨领域是非常珍贵的资源,有的甚至属孤本,大都具有非常重要的保存和利用价值,因此对这些古籍实施信息化的管理和网络共享,有利于对古籍知识的有效积累和应用,从长远来说,也是古籍研究发展的重要推动力。但目前,数字化古籍的检索领域仍然存在一些技术问题:
1.古籍数字化工作缺乏统一标准,制作时使用不同的格式和分辨率等,获得的古籍数字化文件格式多样,阅读器不同且不兼容,造成多数据来源下数字化古籍信息集成、数据交换困难;
2.未充分考虑古籍数字化的领域特点,对异形同义、异形近义、同形异义等问题未做深入探讨,其根本是未解决古籍检索技术中的关键性技术——古汉语词典切分技术,影响了古籍自动标引、名称主题检索及专有名词检索等的实现;
3.古籍数字化的工作仍局限将古典文献扫描形成电子出版物,并非建立在正确理解原文基础上的文字转化,这样的数字化方式只适用于保存,既不利于学者检索,也不利于传统文化的传播,但扫描只是数字化工作的预处理部分,并不能代替面向古籍保护领域的前期考证、标引以及字体转换、排版等;
4.仅提供基于关键词检索的查询、展示方式,缺乏智能化的、个性化的、多元化的关联检索方式。
目前,大量古籍资料的数字化过程是将其进行扫描,同时以图片及文本形式存储。考虑到图像数据库的索引方式区别于传统的文本数据库,可以将二者分开进行存储、管理,但保持两个数据库中存储内容在语义、语用等方面的关联,以此为基础进行多维信息上的深度挖掘,获得多个古籍资料在属性或特征上的潜在相关性,从而为用户提供更全面的、更准确的检索结果。
要保证古籍检索的性能,追本溯源应着重研究古籍资料的全息无损清晰扫描。由于所有的古籍资料都是历史上遗留下来宝贵的档案,所以数字化工作不能对原始文档实行拆订扫描整理,只能采用全息无损清晰扫描。纸质文档资料无损扫描最关键的问题是遇到一些页数较多的资料时,会出现书页的装订线一侧无法清晰扫描或出现孤度的问题。为保证扫描图像的平整,确保页数较厚的资料装订线一侧能够扫描清楚、平整,必须使用全息书刊扫描技术及设备,实现零边距扫描。
之后,还需进行扫描成果去噪。扫描的图片歪斜,不清晰以及污点、折痕、噪点等,对以后OCR识别的影响都会很大,所以在扫描识别后要使用专业的图象处理软件对图片进行纠偏和清晰度调整,包括图文纠编、去黑边、去噪声、任意旋转、影像增强等,以确保较高的识别率。
三是古籍图像的压缩存储。通常一页文档按300dpi分辨率扫描后的图像大小是900多K约1M,相对来说体积比较大。采用高倍的图像压缩比,以及二值化处理可对图文对象进行有效消肿,减小图文对象的存储空间,大大提高在线阅览和下载的速度。
史上最强——
book2net又一力作问世
德国book2net
书刊扫描仪 – 卓越数字化高效生产力
作为德国book2net书刊扫描仪家族中的旗舰产品,最新上市的德国book2net是一款功能强大的书刊扫描仪。A2+幅面,400dpi光学分辨率,左右互降式书稿台,透明压稿台可自动打开并可启动扫描,是书刊扫描仪中的战斗机。
德国book2net书刊扫描仪尤其适合扫描各种幅面的书刊、古籍、善本、杂志、档案等装订成册的源文件,扫描效果优异,7*24小时高速运转,生产效率无与伦比。
德国book2net书刊扫描仪产品特点介绍:
新改版的book2net(柏耐)终极版扫描仪是专为生产领域研发的。此款型号的特殊处在于具有自动升降扫描台。压力传感器在整个扫描处理过程中可以保护敏感易坏的文档不受损坏。另一个特殊处在于自动控制玻璃盖可以平均的在文档上分配压力。
400 dpi 光学分辨率
扫描时间:0,3 秒 扫描速度,1,9秒扫描周期
最佳色彩再现的光控系统
12cm扫描深度
原件的扫描平台可达到601 mm x 457 mm
自动玻璃盖开关设置
有无玻璃盖都可轻松操作
自动调解扫描平台高度设置
专为数字化中心的使用而设计的专业的生产软件
平板传感器技术的数字化理念
相对传统线性传感技术平板传感技术更注重色彩的质量,景深,噪音的平衡,以及无可比拟的扫描速度。
高级的景深技术可以使扫描延伸至书籍折页以及文档倾斜的边缘,与此同时扫描仪仍可提供完美的OCR识别。