打印稿变成电子稿

来源:百度文库 编辑:神马文学网 时间:2024/05/23 12:37:03
把打印稿变成电子稿 \(^o^)/~ 从图片中提取文字 

 

从图片中复制文本

  • SnagIt工具进行文字提取
  • OCR识别软件

FreeOCR

http://article.yeeyan.org/view/jht/56431?from_com

TopOCR

TopOCR,与典型的 OCR 软件有所不同,是专为数码相机(至少300万像素)和带有摄像头的手机设计。就像 SimpleOCR,它有两个窗口界面 – 原始 图像 窗口和 文本 窗口。

  • TopOCR 对于简单文本运行良好,不过对于多列文本通常会失效。
  • 这款软件对于混合页面(文本加图片)识别良好,并且只处理文本部分。
  • 处理11种语言。

    微软 OneNote 2007

    微软 OneNote 的光学字符识别功能,从图片中复制文本.对于手写字符或者甚至模糊的字符识别不太理想。不过对于快速的任务,支持 OneNote 的剪辑和粘贴.

  • 中文识别:汉王文本王5800更好一些。

    中英文混合识别方面:TH-OCR XP(8.0)识别率更高一些

    纯英文识别方面:Cuneiform pro v6识别速度最快,ABBYY FineReader70pro版面还原识别率比较好;Scansoft PaperPort v9.0处理图像能力强。

     提高OCR识别率

    1. 处理原稿扫描图像,使之清晰可“辨”。在其它因素都满足的前提下,对一般的印刷稿、打印稿(包括清晰的针打稿)等质量较好的文稿进行识别,其识别率一般可达到98%以上。而对报纸、复印件等不太清晰的文稿进行识别,无论哪种OCR都难以达到较高的识别率。除去图上的污迹。并注意将偏斜的版面“改斜归正”,自动纠偏和手动纠偏。

    2、分辨率应选择适宜。一般选择300dpi较合适,分辨率选小了会使识别率降低,选得太大了并不能有效提高识别率,还会大幅度加长文件长度,浪费处理时间。有的扫描软件设备上有一项“OCR扫描”,干脆将分辨率锁定为300dpi,这是很有道理的。

    3、调整好亮度值和对比度值。如果图像中文字线条凹凸不平,甚至有断线,说明亮度值太大了,应减小亮度值;当文字线条很黑很粗,甚至挤成了黑疙瘩,分不清笔划时,则说明亮度值太小了,应增加亮度值;对比度的调节要视原稿确定,根据预扫时图像清晰度确定。

    4、利用OCR的自学习功能。有时OCR对某些字总是难以识别,比如OCR开始对“的”和“二”等字总是搞错,这时可以利用OCR软件的自学习功能,“引导”它正确识别一次(有些不同的字体各需一次),它以后就对这些字“熟识”了。OCR校对

     

      Microsoft Office Document Imaging  

     

    1. 扫描

    首先你得先把这些打印稿或文件通过扫描仪扫到电脑上去,用数码相机拍也行,拍成图片放到WORD。

    点开始-程序-控制面板-添加/删除程序,找到Office-修改 找到Microsoft Office Document Imaging 这个组件,Microsoft Office Document Imaging Writer 点在本机上运行,安装就可以了。

     首先将扫描仪安装好,接下来从开始菜单启动“Microsoft Office/ Microsoft Office 工具/Microsoft Office Document Scanning”即可开始扫描。 提示:Office 2003默认安装中并没有这个组件,如果你第一次使用这个功能可能会要求你插入Office2003的光盘进行安装。

     由于是文字扫描通常我们选择“黑白模式”,点击扫描,开始调用扫描仪自带的驱动进行扫描。这里也要设置为“黑白模式”,建议分辨率为300dpi。

    2.识别

    扫描完毕后回将图片自动调入Office 2003种另外一个组件“Microsoft Office Document Imaging”中。 点击工具栏中的“使用OCR识别文字”按键,就开始对刚才扫描的文件进行识别了。按下“将文本发送到Word”按键即可将识别出来的文字转换到 Word中去了。如果你要获取部分文字,只需要用鼠标框选所需文字,然后点击鼠标右键选择“将文本发送到Word”就将选中区域的文字发送到Word中 了。  


    tips:通过改变选项里的OCR语言,可以更准确的提取文字。例如图片里为全英文,把OCR语言改为“英语”可以确保其准确率,而如果是“默认”则最终出现的可能是乱码~