专业档案数字化 文通首推TH-OCR资料数字化系统
超强识别便捷管理
据悉,TH-OCR资料数字化系统是文通依托20年OCR核心技术和优势,结合不同政府机构需求而研发的专业档案数字化管理工具,整体由管理端、数据库和加工端构成,集扫描和图像处理、版面分析、OCR识别、高效校对、自动生成PDF、RTF、TXT等多种格式的文档、题录数据录入等多种功能于一身。通过先进系统的流程化管理和高效便捷的批量处理,彻底解决传统资料录入方式效率低下、错误率无法保证、校对方式陈旧等问题,更加方便快捷的帮助政府机构完成档案数字化管理。
值得一提的是,TH-OCR资料数字化系统内置了文通最新研发的高性能文字识别引擎,采用UNICODE国际编码标准,不仅仅在我国传统的汉字识别上达到了99.8%的识别率,而且实现了中英文混排图片文字的识别,同时对日文、韩文等亚洲常见语言文字也可进行快速识别和录入。
据介绍,由于整个系统基于开放式的XML数据结构,可以对数据进行扩充和再定义,这样也支持第三方开发厂商方便地进行文档数据的转换、迁移和再利用,即可对不同政府机构进行定制化的解决方案,加快不同机构各种文档的识别速度,提高档案数字化的效率。某中央涉密机构在全面配备TH-OCR后,海量保密档案的数字化处理得到了极大的改善。
精准校对高效纠错
对于政府机构来说,档案资料的准确、严谨非常重要,尤其是政府机构很多档案更是要求丝毫不差。文通TH-OCR资料数字化系统具备横向校对、集字校对、双路校对三种模式,使政府档案校对摆脱了工作量大、准确率低、重复性操作等传统人工校对模式。
横向校对指的是档案资料经过TH-OCR的前期处理,在识别结果区域中,进行与原始图像逐字逐句比较,找到错误的地方并修改。并通过浮动跟踪条将识别的原始图像块跟踪显示,使其一一对应,这样直观、方便、快捷,大大提高校对的速度。而与此不同的是,集字校对则是把识别结果相同的文字对应的图像显示在一起,这样就可以比较容易地发现错字,不易漏掉错误,利用编辑器可重新组织文字顺序,不会使校对人员陷入到识别文字的故事情节中,比起将传统方法校对能得到最高的查错和纠错效果。
双路校对指的是两名校对人员对同一篇文档进行校对,第三个校对人员进行比对校正,这种校对方式适用于小批量的,正确率要求较高的文档。
用户通过三种校对方式的综合利用,大大减少了工作人员的工作量,使工作人员不易疲劳,将出错率降到最低,节约了办公成本。
细微之处尽显专业
识别完成后,输出也是政府机构比较关心的问题,政府机构文档规定使用仿宋17号字,这些小细节文通TH-OCR资料数字化系统也特别“注意”到,并提供了该字体。据了解,识别结果经校对、修改编辑后,用户可根据需要将文档导出为RTF、PDF、TXT格式或者题录数据,其中双层PDF格式,采用图在上进行浏览,字在下进行查询、检索,这样既可以100%保留原始版面效果(包括公章、签名),又可以通过下层的文字信息支持选择、复制、全文检索等功能,极大地方便了档案数字化的查询、管理和服务。
业内专家认为,文通TH-OCR资料数字化系统准确、高效实现纸质档案扫描和去黑边、杂点等图像处理,经过版面分析、OCR识别、高效校对到最后自动生成PDF、RTF、TXT或者题录数据等多种格式文档的整套流程化处理,不仅使档案数字化处理更加安全,同时使工作流程更加规范、标准,降低人工劳动强度,方便快捷的保证了政府机构档案数字化管理工作的顺利进行。
据了解,依托文通20年发展形成的独有OCR核心技术,目前文通TH-OCR资料数字化系统已经在中央有关部门、中华书局、商务印书馆、中国出版集团等领域得到了广泛应用。业内人士认为,随着资料数字化需求的不断增长,专业OCR企业的进入是必然趋势,整个数字化加工水平的全面提高将成为加快我国信息化建设的重要助推器。
【免责声明】本文仅代表作者个人观点,与IT09数码网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件内容有任何疑问或质疑,请联系本网将迅速给您回应并做处理。