如何转换PDF文件
来源:百度文库 编辑:神马文学网 时间:2024/06/06 10:36:43
随着PDF电子杂志的流行,各类PDF转换软件业应运而生。但是问题也随之而来。
首先我们来认识一下当前流行的PDF电子杂志。
PDF电子杂志可分为两类:
1.用制作软件编写的PDF文件
2.通过扫描转化而来的PDF文件
当前的PDF转换软件绝大多数只是用于第一类PDF文件,可以提取文字和图片。
但是遇到第二类PDF文件就无能为力了(实际上PDF杂志通常都属于第二类PDF文件,由扫描文件转换来的)。
难道我们就这样束手无策了吗?
NO!
网络之大,总有座山头是偶们的。经过小编不懈的努力,终于将它搞定。
总体思路:1.orc文字识别软件可以扫描文件,可以将PDF文件转换为扫描文件格式,然后用该软件提取。
具体方法如下:
A.使用PDF Split-Merge (PDF分割合并工具,下载链接)分割PDF文件。
B.利用图片查看工具打开单个的PDF文件,调整大小,将其另存为BMP,Tif或JPeg格式(这些格式是由orc文字识别软件的需要来决定的)。
{注意:调整PDF文件时很重要,这关系到文字提取的准确率。尽量把PDF文件调到清晰时,再存储为BMP,Tif或JPeg格式,不建议使用BMP格式,那样的话,效果不太好。}
C.使用“尚书六号orc文字识别软件”(下载链接)对转换后的文件进行识别。
尚书六号软件使用方法:
先运行软,选择“文件”----“打开图像页面”,选择需要的文件。
用左侧工具栏上的“放大”/“缩小”工具,对文件进行调整,
用左侧工具栏上的“定义识别区域”工具,选择需要的部分。
单击 上方工具栏上的“识别”按钮
查看转换是否正确,确认无误后,保存即可。