自炊したPDFデータをOCR機能でテキスト化したいという欲望:「PDF-XChange Viewer」編
現在の僕の電子書籍リーダースタイル

電子書籍リーダー「kobo glo」を買って、ブックオフや自宅の本を自炊して読んでいる。
いままで、一度もストアで電子書籍を買っていなく、すべて自炊したデータのみ。
この自炊したデータというのが、ただ本を読むには問題がないが、「この文書いいな。」「この文章あとから役に立つな。」ってマーキングやコメントやメモを記録するのに向かない。
現在、僕の自炊データの作成方法は、
①本を裁断して、ドキュメントスキャナーでスキャン。
②スキャンされたPDFデータをChainLPで、余白少なくしたり、文字を太くして読みやすいように加工。
③ChainLPで、PDFデータをJPEG画像をZIP圧縮したCBZに変換。
④CBZを「kobo glo」に転送して、本を読んでいる。
ChainLPで加工したといっても、スキャンしたモノはただの画像の寄せ集めなので、「kobo glo」で文書を選択したハイライトをつけたり、選択した文章にコメントをつけたりできない。
本を読んで、気になる文書を読み返すのに向いていない。
なので、ここから一歩進めて、スキャンしたPDFデータをOCR機能を使って、テキスト文章に変換してみようってこと。
無料で使える「PDF-XChange Viewer」を使ってみる。
PDFデータを扱えて、OCR機能がついている無料で使用できる「PDF-XChange Viewer」を使ってみた。
「PDF-XChange Viewer」の主な特徴として、PDFの閲覧、コメントや図形、テキスト入力など簡単な編集機能を備わっている。フリーバージョンでも十分すぎる機能。
まず、ここから無料版のPDF-XChange Viewerをダウンロード
インストールも日本語対応で、アプリ本体も日本語対応なので、安心。
インストールは、FREE SOFT Zoneのサイトを参考にした。
次にOCR機能を使う時に、必要な日本語パッケージをダウンロードして、インストール。
「PDF-XChange Viewer」のOCR機能の使い方
①「ファイル」→「開く」でOCR解析したい自炊したPDFデータを開く
②「ドキュメント」→「ページ」をOCR解析。
③ページ範囲を「すべて」。認識オプションを「Japaneses」。出力を「もとのコンテンツを・・・」で解析開始。
OCR解析されて作成されたテキストは元のPDFに新たにテキストレイヤとして存在する。
別途テキストデータとしてファイルが作成されるわけではないので。
OCRされたテキストを見てみる
テキスト選択ツールをクリックして、文書を選択してコピー。
テキストエディターを立ち上げて、コピーしたテキストをペースト。
残念な結果となる。自炊したPDFデータをOCR解析してテキスト化したみたが、読めるもんじゃない。解析率60%って言った感じだ。
「PDF-XChange Viewer」は、自炊したPDFデータをOCR解析してテキスト化するのに向かない。
モバイル天下百品 電子書籍リーダーを買ってからの自炊のすすめ
モバイル天下百品 電子書籍リーダー「kobo glo」で読む本を自炊してみる
↓よろしければクリックをお願いします。

この記事をはてなブックマークに追加
このブログを登録 by BlogPeople

電子書籍リーダー「kobo glo」を買って、ブックオフや自宅の本を自炊して読んでいる。
いままで、一度もストアで電子書籍を買っていなく、すべて自炊したデータのみ。
この自炊したデータというのが、ただ本を読むには問題がないが、「この文書いいな。」「この文章あとから役に立つな。」ってマーキングやコメントやメモを記録するのに向かない。
現在、僕の自炊データの作成方法は、
①本を裁断して、ドキュメントスキャナーでスキャン。
②スキャンされたPDFデータをChainLPで、余白少なくしたり、文字を太くして読みやすいように加工。
③ChainLPで、PDFデータをJPEG画像をZIP圧縮したCBZに変換。
④CBZを「kobo glo」に転送して、本を読んでいる。
ChainLPで加工したといっても、スキャンしたモノはただの画像の寄せ集めなので、「kobo glo」で文書を選択したハイライトをつけたり、選択した文章にコメントをつけたりできない。
本を読んで、気になる文書を読み返すのに向いていない。
なので、ここから一歩進めて、スキャンしたPDFデータをOCR機能を使って、テキスト文章に変換してみようってこと。
無料で使える「PDF-XChange Viewer」を使ってみる。
PDFデータを扱えて、OCR機能がついている無料で使用できる「PDF-XChange Viewer」を使ってみた。
「PDF-XChange Viewer」の主な特徴として、PDFの閲覧、コメントや図形、テキスト入力など簡単な編集機能を備わっている。フリーバージョンでも十分すぎる機能。
まず、ここから無料版のPDF-XChange Viewerをダウンロード
インストールも日本語対応で、アプリ本体も日本語対応なので、安心。
インストールは、FREE SOFT Zoneのサイトを参考にした。
次にOCR機能を使う時に、必要な日本語パッケージをダウンロードして、インストール。
「PDF-XChange Viewer」のOCR機能の使い方
①「ファイル」→「開く」でOCR解析したい自炊したPDFデータを開く
②「ドキュメント」→「ページ」をOCR解析。
③ページ範囲を「すべて」。認識オプションを「Japaneses」。出力を「もとのコンテンツを・・・」で解析開始。
OCR解析されて作成されたテキストは元のPDFに新たにテキストレイヤとして存在する。
別途テキストデータとしてファイルが作成されるわけではないので。
OCRされたテキストを見てみる
テキスト選択ツールをクリックして、文書を選択してコピー。
テキストエディターを立ち上げて、コピーしたテキストをペースト。
残念な結果となる。自炊したPDFデータをOCR解析してテキスト化したみたが、読めるもんじゃない。解析率60%って言った感じだ。
「PDF-XChange Viewer」は、自炊したPDFデータをOCR解析してテキスト化するのに向かない。
↓よろしければクリックをお願いします。


このブログを登録 by BlogPeople
- 関連記事
スポンサーサイト