QLOOKアクセス解析

スマートフォン、iPadなどモバイル全般を仕事にプライベートにどのように役立つのかを模索し楽しむブログ。さらに、ビジネス本、ノンフィクション本、ライフハック、ランニングの話題も

スポンサーサイト



上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。




自炊したPDFデータをOCR機能でテキスト化したいという欲望:「PDF-XChange Viewer」編



現在の僕の電子書籍リーダースタイル

small__2279329664.jpg


電子書籍リーダー「kobo glo」を買って、ブックオフや自宅の本を自炊して読んでいる。
いままで、一度もストアで電子書籍を買っていなく、すべて自炊したデータのみ。

この自炊したデータというのが、ただ本を読むには問題がないが、「この文書いいな。」「この文章あとから役に立つな。」ってマーキングやコメントやメモを記録するのに向かない。


現在、僕の自炊データの作成方法は、
①本を裁断して、ドキュメントスキャナーでスキャン。
②スキャンされたPDFデータをChainLPで、余白少なくしたり、文字を太くして読みやすいように加工。
③ChainLPで、PDFデータをJPEG画像をZIP圧縮したCBZに変換。
④CBZを「kobo glo」に転送して、本を読んでいる。


ChainLPで加工したといっても、スキャンしたモノはただの画像の寄せ集めなので、「kobo glo」で文書を選択したハイライトをつけたり、選択した文章にコメントをつけたりできない。
本を読んで、気になる文書を読み返すのに向いていない。

なので、ここから一歩進めて、スキャンしたPDFデータをOCR機能を使って、テキスト文章に変換してみようってこと。



無料で使える「PDF-XChange Viewer」を使ってみる。

PDFデータを扱えて、OCR機能がついている無料で使用できる「PDF-XChange Viewer」を使ってみた。
「PDF-XChange Viewer」の主な特徴として、PDFの閲覧、コメントや図形、テキスト入力など簡単な編集機能を備わっている。フリーバージョンでも十分すぎる機能。

まず、ここから無料版のPDF-XChange Viewerをダウンロード
インストールも日本語対応で、アプリ本体も日本語対応なので、安心。
インストールは、FREE SOFT Zoneのサイトを参考にした。


次にOCR機能を使う時に、必要な日本語パッケージをダウンロードして、インストール。



「PDF-XChange Viewer」のOCR機能の使い方

①「ファイル」→「開く」でOCR解析したい自炊したPDFデータを開く
②「ドキュメント」→「ページ」をOCR解析。
③ページ範囲を「すべて」。認識オプションを「Japaneses」。出力を「もとのコンテンツを・・・」で解析開始。

OCR解析されて作成されたテキストは元のPDFに新たにテキストレイヤとして存在する。
別途テキストデータとしてファイルが作成されるわけではないので。


OCRされたテキストを見てみる

テキスト選択ツールをクリックして、文書を選択してコピー。
テキストエディターを立ち上げて、コピーしたテキストをペースト。

残念な結果となる。自炊したPDFデータをOCR解析してテキスト化したみたが、読めるもんじゃない。解析率60%って言った感じだ。

「PDF-XChange Viewer」は、自炊したPDFデータをOCR解析してテキスト化するのに向かない。


モバイル天下百品 電子書籍リーダーを買ってからの自炊のすすめ



モバイル天下百品 電子書籍リーダー「kobo glo」で読む本を自炊してみる













↓よろしければクリックをお願いします。


初めて当ブログに訪れた方や何度か当ブログにお越しいただいているみなさま。
もしブログの内容を気に入って頂けましたらRSSリーダーの登録よろしくお願いします。

               Add to Google  Subscribe with livedoor Reader

  この記事をはてなブックマークに追加

このブログを登録 by BlogPeople
関連記事
スポンサーサイト




上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。