Search This Blog





エクスパンシス

Friday, February 18, 2011

Apple Magic Mouse #2

購入して1年と3ヶ月。Appleのマジックマウス (Magic Mouse) が壊れました。クリックやスクロールは出来ますが、マウスポインタが全く反応せず。
これまで、アップルのマウスはシングルボタンのマウスから、マイティーマウス、マイティーマウスのワイヤレス、と購入してきましたが、1年とちょい (ちょうど保証期間終了後) で大体壊れます。で、Magic Mouseもご同様のようで。

いつか壊れるのは仕方ないけど、こうも続いちゃ嫌になる。アップル謹製マウスはもう買うことは無いかな。

Monday, February 14, 2011

OCR編1: 富士通スキャンスナップS1500とプラス PK-513L #4 / FUJITSU Scansnap S1500 and PLUS PK-513L #4

OCR編 その1

スキャンしたPDFファイルにアドビのアクロバットでOCRをかけて、テキストを認識させます。これによって、PDFファイルにOCR機能で認識されたテキストが透明なテキストレイヤーとしてPDFに追加されて、検索が容易になります。Scansnap ManagerによるOCR作業も可能ですが、スキャン毎にOCRをするので、時間がもったいないことからAdobe Acrobatにて行います。Acrobatだと例えば夜中にOCRを複数のファイルにまとめてかけるといったような事も可能です。

下はアドビのHPからの参照ですが、アクロバットはOCR作業を行う際に同時に圧縮をかけてファイルサイズを小さくする事が出来ます。これによって劇的にファイルサイズが小さくなるようですが、自分の場合はファイルサイズよりも画質優先なのでこの機能は外します。この他、OCRをかけた後のファイルを区別して別名で保存などの機能もあります。





まず、Acrobat Xのツール>テキスト認識>複数のファイル内からOCR処理をかけたいファイルを選択します。


出力オプションを設定。OCR処理後のファイルを別名で保存したり、適当にリネームすることも可能です。


ここで、PDFの出力形式を『検索可能な画像』とした場合は、ダウンサンプルのレートを選択します。この選択によって、ファイルのサイズが劇的に変わりますが、画像も多少荒くなったり、たまに暴走して文字や画が歪んだりする事もあります。私の場合は必要でない限り非圧縮にしてます。


後は必要によってAcrobatで目次を付けます。Acrobatで閲覧する場合は非常に便利なこの目次の機能ですが、非常に面倒ですしファイルをAcrobatで閲覧しない人には全く不要です。


   



関連記事
導入編: 富士通スキャンスナップS1500とプラス PK-513L #1
裁断編1: 富士通スキャンスナップS1500とプラス PK-513L #2
スキャン編: 富士通スキャンスナップS1500とプラス PK-513L #3
OCR編1: 富士通スキャンスナップS1500とプラス PK-513L #4
裁断編2: 富士通スキャンスナップS1500とプラス PK-513L #5
OCR編2: 富士通スキャンスナップS1500とプラス PK-513L #6
閲覧編: 富士通スキャンスナップS1500とプラス PK-513L #7
消耗品編: 富士通スキャンスナップS1500とプラス PK-513L #8

ScanSnap S1500とEvernoteで名刺管理 #1
ScanSnap S1500とEvernoteで名刺管理 #2

スキャン編: 富士通スキャンスナップS1500とプラス PK-513L #3 / FUJITSU Scansnap S1500 and PLUS PK-513L #3

スキャン編 その1 / ScanSnap Managerの設定

裁断した本をスキャンする前に、ScanSnap S1500の設定を確認します。自宅の環境はネットワーク上に6TBのRAIDが2個有るので、容量よりも画質優先でスキャンすることにします。JPG保存してEPUB形式で閲覧する方法もありますが、PDFフォーマットの汎用性や可用性、iPhoneなどのモバイル環境でも閲覧することを考慮して、ファイルは全て例外なくPDFにて保存します。ということで、最初にScanSnap S1500に付属のScanSnap Managerをインストールして起動します。

結論から言うと、スキャンの設定は以下にしました。この設定の長所はファイルの文字が非常に高精細なことですが、逆にファイルサイズが大きくなるのが欠点ではあります。漫画多いためこうしてますが、小説中心の人はもう少し読み込みレベルを落としてもいいかもしれません。

  • 読み取りモード: スーパーファイン
    画質優先とはいえ、スキャンした画像を比較検証した結果、エクセレントにする必要性を特に感じなかったため。 
  • カラーモードの選択: 自動
    今のところ自動で問題無いですが、極端に赤茶けた古本などを読む場合は白黒に設定した方がいいかもしれません。 

  • 読み取り面の選択: 両面読み取り
    両面にしない理由が見つかりません。 

  • 読み取りモードオプション: 白紙ページを自動的に削除ON
    非常に優勝な機能で、後の編集などが楽になります。その他の、文字くっきりや傾き・向きの自動補正は稀に暴走するのでOFFにしています。 
  • Scansnap ManagerによるOCR: OFF
    毎回スキャン後にこれをやられると作業が非効率になるため、時間が無駄ということもありOFF。後ほど、Adobe Acrobatでバッチ処理すればOKですし、きちんと検証していませんが、適当なファイルで比較した結果では、Adobe AcrobatのOCR認識精度がより高精度のように思うので。 
  • マルチフィード検出: 重なりで検出 (超音波)
    この超音波による加算理検出がかなり優秀な機能。この機能が重なり検出をミスったという事は知る限り今までありません。

  • ファイルの圧縮率: 最も弱この圧縮率の設定がファイルの美麗さとサイズに大きく影響します。今回は画質優先なので弱にしましたが、単純なテキストの読み込みなどは強でスキャンしてます。

    スキャン編 その2 / 設定別の比較検証

    エクセレント vs スーパーファイン
    設定を変えて読み込んだファイル毎に比較検証してみました。下の画像はカラー原稿を読み込んだ画像で、左が『スーパーファイン』で右が『エクセレント』。さほどの大差はありませんが文字部分などは黒が映える『スーパーファイン』の方が見易いです。



    見やすさは『スーパーファイン』が上回りますが、ファイルサイズは逆にここまで変わってきます。さすがに雑誌1冊でGB級のファイルになってくると、ハンドリングも面倒になってきます。


    圧縮率の比較検証 / カラー原稿

    ゴルゴ13のカバーを読み込んだもの。左から『エクセレント圧縮率1』『スーパーファイン圧縮率1』『スーパーファイン圧縮率3』です。


    拡大してみると、『エクセレント』がやはり最も綺麗なように見えますが、アラも拾っておりむしろ『スーパーファイン圧縮率1』よりも赤い部分が粗く見えます。


    ファイルサイズはというとこの違い。画質の違いに特筆すべき差異はありませんが、ファイルサイズの違いが非常に大きい事が分かります。


    圧縮率の比較検証 / カラーおよび白黒原稿

    こちらは、カラーと白黒文字の混じった画像の場合。左から『エクセレント圧縮率1』『スーパーファイン圧縮率1』ですが、『スーパーファイン』の方が、黒が際立つため、より綺麗で見やすく見えます。



    圧縮率の比較検証 / 白黒原稿

    こちらは、白黒の画像。同様に左から『エクセレント圧縮率1』『スーパーファイン圧縮率1』『スーパーファイン圧縮率3』です。黒が際だつという意味では、『エクセレント』が必ずしも優位という訳では無さそう。


    上記を鑑みて検討した結果、書籍および漫画をスキャンする場合は『スーパーファイン / 圧縮率1』にします。なお、保存性の高い写真集や美麗な画像中心の本の場合はファイルの大きさが尋常じゃなくなりますが、『エクセレント / 圧縮率1』。伝票や書類などのテキスト類をスキャンする際は、圧縮率を上げてファイルサイズを小さくします。なお、ファイルを小さくする作業自体は後のOCR編でも紹介していますが、Adobe Acrobatでも十分行えます。なので、デジカメ撮影などと同様で後の幾らでも加工出来るため、元データ自体はできる限り高精度でスキャンしたほうが良いかもしれません。


    スキャン編 その3 / スキャニング

    後は、ScanSnap S1500でスキャンするだけ。ハード側のボタンを押すかPC側でスキャン開始指示をするだけです。原稿を一気に入れすぎると紙詰りの原因になったりパッドユニットの消耗を早める原因になるので、適度な量をまとめてスキャンします。

       



    関連記事
    導入編: 富士通スキャンスナップS1500とプラス PK-513L #1
    裁断編1: 富士通スキャンスナップS1500とプラス PK-513L #2
    スキャン編: 富士通スキャンスナップS1500とプラス PK-513L #3
    OCR編1: 富士通スキャンスナップS1500とプラス PK-513L #4
    裁断編2: 富士通スキャンスナップS1500とプラス PK-513L #5
    OCR編2: 富士通スキャンスナップS1500とプラス PK-513L #6
    閲覧編: 富士通スキャンスナップS1500とプラス PK-513L #7
    消耗品編: 富士通スキャンスナップS1500とプラス PK-513L #8

    ScanSnap S1500とEvernoteで名刺管理 #1
    ScanSnap S1500とEvernoteで名刺管理 #2

    裁断編1: 富士通スキャンスナップS1500とプラス PK-513L #2 / FUJITSU Scansnap S1500 and PLUS PK-513L #2

    裁断篇 その1

    まずはPK-513Lで裁断。15mm以下の薄めの本だと一発で裁断可能ですが、今回裁断するゴルゴ13やシドニー・シェルダンの小説では厚さで無理なため、手で2つに分けます。単純に力業で2つに折ってやって、カッターで2つに分解。これを裁断します。


    こんな感じで手で2つに折ります。本によっては運悪く折ったページのところに糊がはみ出ているなんていう事があるかもしれません。


    折った部分にカッターの刃を当てて切断。数回刃を当てると楽に切れます。自分側にカッターの刃を引きながら作業を行うと思うので十分注意が必要。なお、カッターは大きいものより薄刃の方が切りやすいです。それと何冊もやっているとすぐに刃がこぼれてくるので、頻繁に刃の先を折ってやると気持ちよく作業ができます。


    あとは、PK-513Lで裁断。PK-513Lの赤いLEDガイドは結構便利。願わくば、抑えが白かシルバー色だと刃が当たる箇所が明るくなり、もっと良く見えると思うのだが。


    切断完了。こんな感じで背表紙の糊の部分が切断されます。本によっては、糊が本の内部にはみ出ている箇所も結構あって、こうした場合は後のスキャニング作業の中断原因になるので、裁断した本を必ず手で捌いてみて、糊により切れていない部分は手で剥がしておくと後々のスキャニング作業がはかどります。

    人によりますが、ファイルのサムネイルにもなり、本の選別がしやすくなるので、私の場合はカバーも切断して一緒にスキャンします。

    裁断作業に必要なものは、基本的に薄刃のカッターナイフとカッター盤と定規があれば作業できます。PK-513Lの本を置く盤面の部分には本の切断位置を一定にするためのガイドが付いていますが、これが結構貧弱でグラグラするので、渡しの場合はガイドを動きにくくする為に、強力な磁石を置いています。こうするとガイドが動かななくなるので同じサイズの漫画を数十冊切断する際は便利です。


       



    関連記事
    導入編: 富士通スキャンスナップS1500とプラス PK-513L #1
    裁断編1: 富士通スキャンスナップS1500とプラス PK-513L #2
    スキャン編: 富士通スキャンスナップS1500とプラス PK-513L #3
    OCR編1: 富士通スキャンスナップS1500とプラス PK-513L #4
    裁断編2: 富士通スキャンスナップS1500とプラス PK-513L #5
    OCR編2: 富士通スキャンスナップS1500とプラス PK-513L #6
    閲覧編: 富士通スキャンスナップS1500とプラス PK-513L #7
    消耗品編: 富士通スキャンスナップS1500とプラス PK-513L #8

    ScanSnap S1500とEvernoteで名刺管理 #1
    ScanSnap S1500とEvernoteで名刺管理 #2