一、尚书七号的介绍
尚书7号OCR软件是MICROTEK中晶科技公司,向汉王科技购买授权,赠送给用户使用的软件。尚书七号是一款专门为识别文字而研发的软件,尚书七号是应用OCR技术,为满足书籍、报刊杂志、报盘票据、公文档案等录入需求,实现系统管理方式而设计的软件系统。尚书七号OCR软件适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。
二、尚书七号怎么用
用扫描仪扫描的文字图像,不能对个别文字进行编辑修改,在教学中,需要利用文字识别软件,将文字图像进行识别,将图像格式转化成文本格式,常见的文字识别软件有很多,主要功能基本相同,在此以ScanMaker 4850ii随机附送的尚书七号为例,介绍用文字识别软件对扫描仪扫描的文字图像进行识别的正确使用方法。
用尚书七号对文字图像识别转化的过程,利用其主菜单:“文件”、“编辑”、“识别”、“输出”可以很方便地完成。具体步骤为:
步骤1:获取文字图像文件。
选择“文件”菜单下的“扫描”或“打开图像”(将已经扫描好的图像文件打开)命令,打开图像文件。如果连接了多台扫描仪,可以选择“文件”菜单下的“选择扫描仪”命令,调用扫描仪。
步骤2:对扫描的图像页进行调整
选择“编辑”菜单下“图像页面的处理”子菜单下的“图像页的倾斜校正”(提供自动和手动实现方法)及“旋转”等命令,将扫描的图像页进行调整。
步骤3:版面分析与文字识别转化
版面分析,选择识别范围,在进行文字识别前要选择识别范围,识别过程的核心是“版面分析”。尚书七号的自动版面分析功能很强,对报纸杂志等复杂的版面,也能保持很高的分析正确率。
设置好后,直接点击“开始识别”的按钮就可以进行文字识别了。
步骤4:校对修改
自动识别完毕,识别结果的“文本窗口”会弹出,这个窗口能够提供识别结果的校对,为了校对方便,尚书七号增加了光标跟随显示原图像行的校对方法(如图3出现的黄色提示行的出现)。
提供的校对方法,一眼就能够看到图像原文和识别出文本的差别,如果发现识别有误,可以进行修改。
步骤5:输出
如果检查修改后确认无误,选择识别结果的“输出”菜单,输出的文件格式有:RTF、HTML、XLS、TXT,可以根据自己的需要选择对应的格式。如果用户想得到类似原文的识别结果,请选择RTF格式。把RTF格式输出的文件用WORD打开后,会发现几乎保留了原文的所有痕迹,包括原来页面中的彩色图像,都已经保留在WORD中了。
三、尚书七号详细操作
尚书7号OCR软件是由MICROTEK中晶科技公司授权汉王科技提供,作为扫描仪随附的驱动光盘中的软件,用户在安装扫描仪驱动时即可获取。安装完成后,从桌面左下角的“开始”菜单找到尚书7号图标并启动。软件界面打开后,选择“文件”菜单,点击“选择扫描仪”,选择驱动“MICROTEK SCANWIZARD 5”,并确认选择。
接着,在SCANWIZARD 5的“高级控制面板”中,调整“图像类型”至“RGB色彩”或“灰阶”,确保分辨率设定为300PPI。预览后,调整扫描范围,点击“扫描”按钮,文件将被传送到尚书7号默认的IMAGE目录(默认在C盘SHOCR2002目录下)。
使用“编辑”菜单的“自动倾斜校正”功能,确保扫描图像中的文字水平排列。扫描完毕后,尚书7号会自动分析版面,文字块被选中并带有识别框,注意检查识别框属性(横栏、竖栏、表格或图像)和颜色标记。
确认无误后,选择“识别”菜单的“开始识别”进行文字识别。识别后,用户将进入文字校对状态,完成校对后,可通过“输出”菜单的“到指定格式文件”选项导出文本,如TXT、RTF、HTML或XLS,默认保存在OUTPUT目录(C盘SHOCR2002目录下),并可选择“输出到外部编辑器”以自动打开对应软件进行编辑。
以上就是尚书7号OCR的基本操作流程,简单易行,完成OCR任务只需要几个步骤。