Question 1

スキャンPDFや画像のみのPDFでも動きますか?

Accepted Answer

はい — それが狙いです。各ページを画像にレンダリングしてOCRにかけるので、デジタル生まれでもスキャンでも同じように動きます。すでに選択可能なテキストを持つデジタル生まれのPDFなら、直接のテキスト抽出ツールの方が速く正確です。ページ画像にテキストが焼き付けられている場合はOCRが適切です。

Question 2

どのDPIを選ぶべき?

Accepted Answer

一般的なスキャンやスクリーンショットでのOCR精度には200 DPIが良いデフォルト。150 DPIは高速ですが小さい文字を失います。300 DPIは密なページ、小さいフォント、低品質スキャンで有効ですが、レンダリング時間とメモリ使用が倍になります。ソーススキャン自体が低解像度なら300超はほぼ効果なし。

Question 3

なぜ初回が遅いのですか?

Accepted Answer

初回はこのサイトから約8 MBのOCRエンジンと英語言語データをダウンロードし、ブラウザにキャッシュします。以降は1秒未満で起動。その後の速度は各ページのレンダリングと認識に依存 — 通常DPIとページの複雑さに応じて1ページあたり3〜10秒。

Question 4

手書きや英語以外のテキストは?

Accepted Answer

手書き認識は弱いです — Tesseractは印刷テキストで訓練されており、筆記体や乱雑な手書きには弱い。英語以外はセレクタから該当言語を選ぶと、その言語の初回OCR実行でモデル(3〜14 MB)がダウンロードされ、以降キャッシュされます。多言語ページは支配的な言語を選ぶと最適です。

Question 5

パスワード保護のPDFを扱えますか?

Accepted Answer

いいえ。暗号化されたPDFはエラーで読み込めません。PDFビューアでファイルを開き、パスワードを入力して「File > Save As」で保護なしのコピーを作り、ここにドロップしてください。

Question 6

PDFや抽出テキストを保存していますか?

Accepted Answer

いいえ。ドロップしたPDFも、レンダリングしたページ画像も、抽出したテキストも保存しません。タブを閉じるか更新した瞬間に全て破棄されます — ログもOCR内容の記録もありません。ブラウザのDevToolsで確認してください。

PDFをテキストへ — ブラウザでOCR

例

よくあるエラーと落とし穴