表示言語: 日本語 英語に切り替え

PDFをテキストへ — ブラウザでOCR

スキャンや画像ベースのPDFから、ページ単位でテキストを抽出。各ページを画像にレンダリングし、ブラウザ内でOCRにかけます。

ここにPDFファイルをドロップ または
  1. 1つ以上のPDFをドロップするか、参照をクリック。
  2. DPIを選ぶ。200が無難なデフォルト; 密な内容や小さい文字は300に上げる。
  3. 必要に応じて1-3, 5, 8-10のような範囲でページを制限; 同じ範囲が各PDFに適用されます。空欄なら全ファイルの全ページをOCRします。
  4. すべて抽出をクリック。初回はこのサイトから約8 MBのOCRエンジンと言語データをダウンロード(次回以降ブラウザにキャッシュされ、バッチ内のすべてのPDFで再利用)。
  5. 最初のPDFのテキストが下のプレビューに表示されます(最初の3ページ)。各ファイルの全文は行からダウンロード、各ファイルの出力をクリップボードにコピー、または結合.txtを一括取得できます。
何ができるのか?

選択した各ページを指定したDPIでcanvasにレンダリングし、Tesseract — Googleが維持管理するオープンソースOCRエンジン — をWebAssemblyにコンパイルしたもので処理します。各ページの認識テキストはページ間の--- Page N ---区切り付きで1つの出力に連結され、任意の箇所をソースページに戻して辿れます。

入力 — スキャンされた2ページのメモ、200 DPI、全ページ。出力のtextarea:

--- Page 1 ---
MEMO

To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes

Starting this Friday, the east lot
will be closed for resurfacing…

--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected].

よくあるエラーと落とし穴

OCRの不満の大半はソース文書に起因し、エンジンではありません。悪いスキャンはDPIを上げても救えません。

  • 低品質スキャンで文字化け。 およそ150 DPI未満のソース画像は、ここで何を設定してもつぶれたテキストになります。300 DPIでスキャンし直すか、あるならオリジナルのデジタルファイルを使ってください。
  • 出力でカラムが混ざる。 OCRは自然なスキャン順に読むため、段組レイアウトで混乱することがあります。まずページレンダーをImage Cropperで段組別に分割し、段ごとに別々にOCRしてください。
  • ページが90°回転または上下逆。 Tesseractは自動回転しません。先にPDF OrganizerでPDFの向きを直してから再実行してください。
  • 大きなPDFでタブが固まる。 300 DPIで100ページ超はメモリを使い切ることがあります。まず小さめの範囲(例: 1-25)をレンダーして品質を確認し、残りをバッチ処理。端末のメモリが少ない場合は200 DPIに下げましょう。
  • 無効な範囲。 Invalid range: "1 through 5" — ハイフンとカンマのみサポート。1-5形式を使ってください。
  • 暗号化されたPDF。 パスワード保護されたPDFは読み込みに失敗します。PDFビューアの「File > Save As」でロックを外し、保護されていないコピーで再実行してください。
よくある質問

スキャンPDFや画像のみのPDFでも動きますか?

はい — それが狙いです。各ページを画像にレンダリングしてOCRにかけるので、デジタル生まれでもスキャンでも同じように動きます。すでに選択可能なテキストを持つデジタル生まれのPDFなら、直接のテキスト抽出ツールの方が速く正確です。ページ画像にテキストが焼き付けられている場合はOCRが適切です。

どのDPIを選ぶべき?

一般的なスキャンやスクリーンショットでのOCR精度には200 DPIが良いデフォルト。150 DPIは高速ですが小さい文字を失います。300 DPIは密なページ、小さいフォント、低品質スキャンで有効ですが、レンダリング時間とメモリ使用が倍になります。ソーススキャン自体が低解像度なら300超はほぼ効果なし。

なぜ初回が遅いのですか?

初回はこのサイトから約8 MBのOCRエンジンと英語言語データをダウンロードし、ブラウザにキャッシュします。以降は1秒未満で起動。その後の速度は各ページのレンダリングと認識に依存 — 通常DPIとページの複雑さに応じて1ページあたり3〜10秒。

手書きや英語以外のテキストは?

手書き認識は弱いです — Tesseractは印刷テキストで訓練されており、筆記体や乱雑な手書きには弱い。英語以外はセレクタから該当言語を選ぶと、その言語の初回OCR実行でモデル(3〜14 MB)がダウンロードされ、以降キャッシュされます。多言語ページは支配的な言語を選ぶと最適です。

パスワード保護のPDFを扱えますか?

いいえ。暗号化されたPDFはエラーで読み込めません。PDFビューアでファイルを開き、パスワードを入力して「File > Save As」で保護なしのコピーを作り、ここにドロップしてください。

PDFや抽出テキストを保存していますか?

いいえ。ドロップしたPDFも、レンダリングしたページ画像も、抽出したテキストも保存しません。タブを閉じるか更新した瞬間に全て破棄されます — ログもOCR内容の記録もありません。ブラウザのDevToolsで確認してください。