PDFをテキストへ — ブラウザでOCR
スキャンや画像ベースのPDFから、ページ単位でテキストを抽出。各ページを画像にレンダリングし、ブラウザ内でOCRにかけます。
- 1つ以上のPDFをドロップするか、参照をクリック。
- DPIを選ぶ。200が無難なデフォルト; 密な内容や小さい文字は300に上げる。
- 必要に応じて1-3, 5, 8-10のような範囲でページを制限; 同じ範囲が各PDFに適用されます。空欄なら全ファイルの全ページをOCRします。
- すべて抽出をクリック。初回はこのサイトから約8 MBのOCRエンジンと言語データをダウンロード(次回以降ブラウザにキャッシュされ、バッチ内のすべてのPDFで再利用)。
- 最初のPDFのテキストが下のプレビューに表示されます(最初の3ページ)。各ファイルの全文は行からダウンロード、各ファイルの出力をクリップボードにコピー、または結合.txtを一括取得できます。
何ができるのか?
選択した各ページを指定したDPIでcanvasにレンダリングし、Tesseract — Googleが維持管理するオープンソースOCRエンジン — をWebAssemblyにコンパイルしたもので処理します。各ページの認識テキストはページ間の--- Page N ---区切り付きで1つの出力に連結され、任意の箇所をソースページに戻して辿れます。
例
入力 — スキャンされた2ページのメモ、200 DPI、全ページ。出力のtextarea:
--- Page 1 ---
MEMO
To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes
Starting this Friday, the east lot
will be closed for resurfacing…
--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected]. よくあるエラーと落とし穴
OCRの不満の大半はソース文書に起因し、エンジンではありません。悪いスキャンはDPIを上げても救えません。
- 低品質スキャンで文字化け。 およそ150 DPI未満のソース画像は、ここで何を設定してもつぶれたテキストになります。300 DPIでスキャンし直すか、あるならオリジナルのデジタルファイルを使ってください。
- 出力でカラムが混ざる。 OCRは自然なスキャン順に読むため、段組レイアウトで混乱することがあります。まずページレンダーをImage Cropperで段組別に分割し、段ごとに別々にOCRしてください。
- ページが90°回転または上下逆。 Tesseractは自動回転しません。先にPDF OrganizerでPDFの向きを直してから再実行してください。
- 大きなPDFでタブが固まる。 300 DPIで100ページ超はメモリを使い切ることがあります。まず小さめの範囲(例: 1-25)をレンダーして品質を確認し、残りをバッチ処理。端末のメモリが少ない場合は200 DPIに下げましょう。
- 無効な範囲。 Invalid range: "1 through 5" — ハイフンとカンマのみサポート。1-5形式を使ってください。
- 暗号化されたPDF。 パスワード保護されたPDFは読み込みに失敗します。PDFビューアの「File > Save As」でロックを外し、保護されていないコピーで再実行してください。
よくある質問
スキャンPDFや画像のみのPDFでも動きますか?
はい — それが狙いです。各ページを画像にレンダリングしてOCRにかけるので、デジタル生まれでもスキャンでも同じように動きます。すでに選択可能なテキストを持つデジタル生まれのPDFなら、直接のテキスト抽出ツールの方が速く正確です。ページ画像にテキストが焼き付けられている場合はOCRが適切です。
どのDPIを選ぶべき?
一般的なスキャンやスクリーンショットでのOCR精度には200 DPIが良いデフォルト。150 DPIは高速ですが小さい文字を失います。300 DPIは密なページ、小さいフォント、低品質スキャンで有効ですが、レンダリング時間とメモリ使用が倍になります。ソーススキャン自体が低解像度なら300超はほぼ効果なし。
なぜ初回が遅いのですか?
初回はこのサイトから約8 MBのOCRエンジンと英語言語データをダウンロードし、ブラウザにキャッシュします。以降は1秒未満で起動。その後の速度は各ページのレンダリングと認識に依存 — 通常DPIとページの複雑さに応じて1ページあたり3〜10秒。
手書きや英語以外のテキストは?
手書き認識は弱いです — Tesseractは印刷テキストで訓練されており、筆記体や乱雑な手書きには弱い。英語以外はセレクタから該当言語を選ぶと、その言語の初回OCR実行でモデル(3〜14 MB)がダウンロードされ、以降キャッシュされます。多言語ページは支配的な言語を選ぶと最適です。
パスワード保護のPDFを扱えますか?
いいえ。暗号化されたPDFはエラーで読み込めません。PDFビューアでファイルを開き、パスワードを入力して「File > Save As」で保護なしのコピーを作り、ここにドロップしてください。
PDFや抽出テキストを保存していますか?
いいえ。ドロップしたPDFも、レンダリングしたページ画像も、抽出したテキストも保存しません。タブを閉じるか更新した瞬間に全て破棄されます — ログもOCR内容の記録もありません。ブラウザのDevToolsで確認してください。