如何转换PDF文件

来源:百度文库 编辑:神马文学网 时间:2024/06/06 10:36:43
如何转换PDF文件(2009-09-03 00:00:00) 标签:转换pdf文件  分类:使用技巧

随着PDF电子杂志的流行,各类PDF转换软件业应运而生。但是问题也随之而来。

首先我们来认识一下当前流行的PDF电子杂志。

PDF电子杂志可分为两类:

1.用制作软件编写的PDF文件

2.通过扫描转化而来的PDF文件

当前的PDF转换软件绝大多数只是用于第一类PDF文件,可以提取文字和图片。

但是遇到第二类PDF文件就无能为力了(实际上PDF杂志通常都属于第二类PDF文件,由扫描文件转换来的)。

难道我们就这样束手无策了吗?
NO!
网络之大,总有座山头是偶们的。经过小编不懈的努力,终于将它搞定。
总体思路:1.orc文字识别软件可以扫描文件,可以将PDF文件转换为扫描文件格式,然后用该软件提取。
         2.通常PDF杂志是一个整体文件,转换时就必须全选,那样的话,工作量就太大了。肆意必须进          行简化。
         3.利用剪切工具对PDF文件进行剪切,然后再选择用用部分,转换成所需的扫描文件。
 

具体方法如下:
A.使用PDF Split-Merge (PDF分割合并工具,下载链接)分割PDF文件。
B.利用图片查看工具打开单个的PDF文件,调整大小,将其另存为BMP,Tif或JPeg格式(这些格式是由orc文字识别软件的需要来决定的)。
{注意:调整PDF文件时很重要,这关系到文字提取的准确率。尽量把PDF文件调到清晰时,再存储为BMP,Tif或JPeg格式,不建议使用BMP格式,那样的话,效果不太好。}
C.使用“尚书六号orc文字识别软件”(下载链接)对转换后的文件进行识别。

尚书六号软件使用方法:
先运行软,选择“文件”----“打开图像页面”,选择需要的文件。
用左侧工具栏上的“放大”/“缩小”工具,对文件进行调整,
用左侧工具栏上的“定义识别区域”工具,选择需要的部分。
单击 上方工具栏上的“识别”按钮
查看转换是否正确,确认无误后,保存即可。