Search This Blog





エクスパンシス

Monday, February 14, 2011

OCR編1: 富士通スキャンスナップS1500とプラス PK-513L #4 / FUJITSU Scansnap S1500 and PLUS PK-513L #4

OCR編 その1

スキャンしたPDFファイルにアドビのアクロバットでOCRをかけて、テキストを認識させます。これによって、PDFファイルにOCR機能で認識されたテキストが透明なテキストレイヤーとしてPDFに追加されて、検索が容易になります。Scansnap ManagerによるOCR作業も可能ですが、スキャン毎にOCRをするので、時間がもったいないことからAdobe Acrobatにて行います。Acrobatだと例えば夜中にOCRを複数のファイルにまとめてかけるといったような事も可能です。

下はアドビのHPからの参照ですが、アクロバットはOCR作業を行う際に同時に圧縮をかけてファイルサイズを小さくする事が出来ます。これによって劇的にファイルサイズが小さくなるようですが、自分の場合はファイルサイズよりも画質優先なのでこの機能は外します。この他、OCRをかけた後のファイルを区別して別名で保存などの機能もあります。





まず、Acrobat Xのツール>テキスト認識>複数のファイル内からOCR処理をかけたいファイルを選択します。


出力オプションを設定。OCR処理後のファイルを別名で保存したり、適当にリネームすることも可能です。


ここで、PDFの出力形式を『検索可能な画像』とした場合は、ダウンサンプルのレートを選択します。この選択によって、ファイルのサイズが劇的に変わりますが、画像も多少荒くなったり、たまに暴走して文字や画が歪んだりする事もあります。私の場合は必要でない限り非圧縮にしてます。


後は必要によってAcrobatで目次を付けます。Acrobatで閲覧する場合は非常に便利なこの目次の機能ですが、非常に面倒ですしファイルをAcrobatで閲覧しない人には全く不要です。


   



関連記事
導入編: 富士通スキャンスナップS1500とプラス PK-513L #1
裁断編1: 富士通スキャンスナップS1500とプラス PK-513L #2
スキャン編: 富士通スキャンスナップS1500とプラス PK-513L #3
OCR編1: 富士通スキャンスナップS1500とプラス PK-513L #4
裁断編2: 富士通スキャンスナップS1500とプラス PK-513L #5
OCR編2: 富士通スキャンスナップS1500とプラス PK-513L #6
閲覧編: 富士通スキャンスナップS1500とプラス PK-513L #7
消耗品編: 富士通スキャンスナップS1500とプラス PK-513L #8

ScanSnap S1500とEvernoteで名刺管理 #1
ScanSnap S1500とEvernoteで名刺管理 #2

No comments:

Post a Comment