利用影像扫描仪对纸质文件电子化的探索|扫描仪能把纸质版扫出纸质版吗

利用影像扫描仪对纸质文件电子化的探索

 

在办公自动化技术迅猛发展和企业信息化建设速度不断加快的今天,矿井的办公效率不断提高,生产经营活动中形成的文件数量日益增多,文件的电子化已成为趋势,特别是矿内局域网建成后,各部门在内部网站上要交流大量的文件信息,实现网上办公。这样一来,矿井积累和获取的各类纸质文件必须实现电子化,如何将现存的宝贵信息资源——纸质文件电子化,是当前广大技术人员、行政工作人员和文件利用者迫切需要解决的重要课题。

把文件进行扫描处理是实现纸质文件数字化的重要途径,是一种将历史和现代平衡结合的妥善、便捷、高效的做法。文件扫描就是运用影像扫描仪将纸质档案文件转化为电子图像文件存储进计算机,以实现在计算机上检索、查询、浏览和利用档案,是一种非常好的保持文件原貌的电子复制文件的办法。

一、文件扫描的工作原理

文件扫描的工作原理类似照相机拍照,但不同的是,影像扫描仪不用自然光线,而用灯管和镜头将文件图像曝光在扫描仪的玻璃板上,文件带有的字迹或图形反射灯光后形成波长不同的光波,扫描仪将这些光波转化为电子信号,经扫描软件处理后可作为图像文件进行存储,也可转换为可编辑文字文件以Word或其它格式储存,需要时再利用图像软件或文字软件就可以在计算机显示器上进行浏览,看到的内容与纸质文件的原貌和内容相同,十分方便。

二、文件扫描的优点

文件扫描有以下几种优点:

1、保持文件原貌,彩色扫描图像可以非常真实地再现文件的原貌;

2、所见即所得,在计算机上看到电子图像文件用打印机打印出来就是原件的复制品;

3、提高工作效率,在计算机上查找、浏览电子文件比查找、翻阅纸质档案快几倍、甚至几十倍;

4、电子图像文件可与档案管理软件配合使用,更高效高质地提供档案文件的利用;

5、大量减少调阅档案的次数,有利于纸质档案的保护;

6、保存条件宽松,电子图像文件保存在计算机硬盘或光盘里对保存环境的要求很宽松;

7、数据共享性好,电子图像文件可以经授权从网上浏览、下载;

8、数据存储密度高,一张光盘可以存储几万页图像和3亿多个文字,相当于近千部长篇小说;

9、电子文件的质量不会损耗,电子文件在计算机上反复利用,文件质量不会像录像带、缩微胶片等载体那样产生图像信号损耗,理论上电子文件可以无限次数地使用;

10、复制或备份容易。

三、文件扫描需要的设备

文件扫描需要的设备是一台计算机配备一台影像扫描仪和一个光盘刻录机,计算机的硬件配置在PentiumⅢ、10G硬盘、128M内存以上即可,操作系统在Windows98以上即可。

影像扫描仪按接口类型分可分为两种:SCSI接口和USB接口,目前常用的影像扫描仪一般都采用USB接口,使用时直接接上计算机的USB接口即可。

影像扫描仪按扫描方式分有:手持式扫描仪、平板式扫描仪、卷筒式扫描仪和特制扫描仪,本矿配备的两台影像扫描仪均是平板式扫描仪。平板式扫描仪特点是图像质量好、性能稳定、对原件纸质无限制、专业化程度高,但每次换页都要开关一次盖板,不利于提高扫描效率,每分钟可扫描和存储A4幅面文件3-4页,对于我矿目前的工作量来说,还是足够的。

四、实际操作中应注意的几个技术要点

以目前我矿最新配备的S can Maker 9800XL型影像扫描仪为例,只要在使用Scanwizard pro扫描仪控制程序进行扫描时,注意掌握以下几个技术要点就可以得到质量非常好的文件图像。

1、分辨率  分辨率是每英寸选取的点的数量,分辨率越高,图像质量越好, 使用Scanwizard pro设置分辨率时,一般文件分辨率为300dpi即可,一般图片和表格的分辨率为600dpi即可。

2、亮度  使用Scanwizard pro的“白点与黑点工具”设置亮度值,其暗调点(被当作黑色输出)与高光点(被当作白色输出)之间的设定比率一般在5与95之间,如果纸张的颜色深,高光点应适当提高,最高不要超过95点,如果纸张颜色浅,字迹颜色浅、模糊,高光点应适当降低,最低不要低于60点。

3、对比度和饱和度  在扫描图像文件时,可以利用Scanwizard pro的层次、偏色、专色、色调、饱和度曲线、色调曲线等工具调整扫得图像的对比度和饱和度,校正图像的色调效果,增大以上曲线值可以使看起来模糊、边缘不清、字迹颜色浅的纸张的电子图像字迹清晰,对比强烈,增强可读性。

4、图像类型  图像类型有标准、风景、肖像、珠宝、夕阳、金属物、高调、低调、曝光不足和曝光过度等多种效果,一般情况下,颜色越多、对比度越强烈、色调变化越大的电子图像效果越逼真,但存储量也就越大。

5、色彩模式  色彩模式分为黑白色、RGB色彩、灰度、CMYK色彩、Lab、Web/Internet色彩、256色等,一般文字文件选用黑白色彩,一般图片选用RGB色彩或直接选用256色即可。

6、图像模式  图像模式有黑白图画、彩色图画、可编辑文字、黑白照片、彩色照片、机械图、卡通等多种类型,用户可根据自己扫描文件的特点和清晰度要求采用适当的模式。

7、图像框  用来选定扫描范围及存盘范围的虚线框,适当地调整图像框可以使图像恰到好处地包含所需扫描的全部内容。

以上这六个指标都应在预扫时调整,调好后定稿、存盘。

五、扫描所得文件的处理和存储

1、扫描所得文件的处理

(1)文字文件存储格式优选

扫描获得的文字文件格式一般有5种:Microsoft Word格式、HTML-Document文档(Web页)、Microsoft Word文档模板、RFT格式和纯文本文档,以一篇3000字左右的文字文件为例,以上几种格式的存储性能比较如下:

表1

格式名称

文件存储量

支持软件

加密

Microsoft Word格式

29KB

Microsoft-office Word

HTML-Document文档(Web页)

19KB

Microsoft-Internet Explorer

Microsoft Word文档模板

0.027 KB

Microsoft-office Word

RFT格式

57KB

Microsoft-office Word

纯文本文档

6KB

Microsoft-office Word

HTML-Document文档(Web页)、Microsoft Word文档模板和纯文本文档不能适用于文字文件的调阅和按文件规范进行处理,因而一般情况下不采用。Microsoft Word格式和RFT格式是最为常见的文字文件存储格式,从以上比较可以看出,在文件长度相同情况下,Microsoft Word格式占用存储量最小,是首选的存储格式。

(2)图像文件存储格式优选

扫描后形成的电子图像文件格式有几十种,最常见的有:JPEG,PDF,矢量图形,格式WPG、SDW,位图与点阵格式GIF、IMC、BMP,光栅工程图文件格式GTX、RIde、TIFF,CAD矢量工程图格式DWG、DXF、PRT等。其中前两种是通用性最好的两种,现以同一幅图片在几种常用格式状态下的的存储性能比较如下:         

表2

格式名称

图像大小

图像质量

支持软件

加密

BMP

5000KB

一般

PAINTBRUSH

TIFF

1500KB

ACD SEE

JPEG

130KB

一般

ACD SEE

PDF

9KB-50KB

很好

ACROBAT READER

PDF格式具有很多优点,是图像文件未来的发展方向,它具有兼容性强、跨平台操作、支持比较、鉴定不同级别的安全控制等特长,特别是它能把一份文档打包存储,既方便调阅又节省存储空间,非常适合档案以卷为单位的保管和利用方式。下面是一组A4幅面的说明书PDF文档的数据:

表3

文件名称

图像大小

图像类型

文件页数

平均存储量

UserGuide

987KB

黑白

62

15.9KB

READER