画像からテキストへ — ブラウザでOCR
写真、スクリーンショット、スキャンされた文書からテキストを抽出します。Tesseract OCRは完全にブラウザ内で実行されます — 何もアップロードされません。
- 1つまたは複数の画像をドロップまたは参照 — JPG、PNG、WebP、またはBMP。
- テキストが英語でない場合は言語を選択 — その言語での初回実行ではモデル (3–14 MB) がダウンロードされ、次回のためにブラウザにキャッシュされます。
- すべて抽出をクリック。初回実行では、このサイトからおよそ8 MBのOCRエンジンと言語データがダウンロードされます (ブラウザによってキャッシュされ、バッチ内のすべての画像で再利用されます)。
- 最初の画像の認識されたテキストが下のプレビューに表示されます。各画像のテキストを行から個別にダウンロードするか、すべてをクリップボードにコピーするか、ヘッダーで区切られた各ファイルの出力を持つ1つの結合された.txtを取得します。
何ができるのか?
OCR (Optical Character Recognition) はテキストのように見えるピクセルを実際のテキストに変換します。このツールはTesseract — Googleによって維持されているオープンソースのOCRエンジン — をWebAssemblyにコンパイルして実行します。印刷されたテキストで最適に機能し、手書き認識は弱いです。
最良の結果のためのヒント
- テキストと背景間の高コントラスト。
- 歪んでいないスキャン — 横向きや傾いている場合は、まずImage Cropperで画像を回転させてください。
- スキャンされた文書には300 DPI以上。
- 印刷されたテキストは手書きよりもはるかにうまく機能します。
- 複数ページのPDFの場合、まずPDF to JPG / PNGで画像に変換し、各ページをOCRするか、専用のPDF to Textツールを使用してください。
例
入力 — 配送ラベルのスクリーンショット、英語、JPG。出力テキストエリア:
SHIP TO:
Jane Doe
123 Main Street
Springfield, IL 62701
USA
TRACKING: 1Z 999 AA1 0123 4567 89
WEIGHT: 2.4 lbs
SHIPPED: 2026-04-12 よくあるエラーと落とし穴
ほとんどのOCRの失望は、エンジンではなくソース画像から来ます。悪い写真はより洗練された設定では回復できません。
- 低解像度の画像で文字化けした出力。 電話のスクリーンショットや小さなサムネイルは壊れたテキストを生成します。写真をより近くで撮り直すか、あなたが持っているならオリジナルのフル解像度ファイルを使用してください。
- 画像が90°または逆さまに回転している。 Tesseractは自動的に回転しません。まずImage Cropperで向きを修正してから、再試行してください。
- 出力で列が混ざっている。 OCRは自然なスキャン順で読み取り、複数列レイアウトを混乱させる可能性があります。まず列ごとに画像をトリミングし、各列を別々にOCRしてください。
- 手書きが間違って出る。 Tesseractは印刷されたテキストで訓練されており、筆記体や乱雑な手書きに苦戦します。読みやすいブロック文字の手書きでは、結果は使用可能ですが決して素晴らしくはありません — 手作業でクリーンアップすることを期待してください。
- 非英語テキストがナンセンス。 韓国語、アラビア語、中国語をOCRするときに言語セレクターを英語のままにすると、ランダムに見える出力が生成されます。抽出する前にドロップダウンから一致する言語を選択してください。
- 巨大な画像でタブがフリーズする。 20メガピクセルを超える写真は、認識中にメモリを使い果たす可能性があります。Image Cropperで気になる領域にトリミングするか、まずImage Compressで圧縮してください。
よくある質問
どの画像フォーマットがサポートされていますか?
JPG、PNG、WebP、およびBMPです。ブラウザが標準Image APIでデコードできる任意のフォーマットは動作するはずです。iPhoneのHEIC写真の場合は、まずHEIC to JPGツールでJPGに変換してください。
なぜ初回実行が遅いのですか?
Tesseractは初回使用時に約4 MBのコンパイル済みエンジンコードと4 MBの言語モデルデータを必要とします。両方ともブラウザによってキャッシュされるため、後続の実行は1秒未満で開始されます。認識自体は通常のスクリーンショットで通常2–10秒かかり、画像サイズにほぼ比例します。
どれくらい正確ですか?
300 DPI以上のクリーンな印刷テキストでは、精度は通常95%+です。ウェブサイトの電話スクリーンショットでは、精度は通常良好ですが、小さなUIクロームを見逃す可能性があります。低解像度の写真、ノイズのあるスキャン、または手書きでは、精度が大幅に低下します。高速なTesseract言語データを使用しています — 速度と精度のバランスが良いです。
非英語のテキストを処理できますか?
はい — セレクタから一致する言語を選択してください。その言語での最初のOCR実行はモデル (3–14 MB) をダウンロードし、その後キャッシュします。サポートされている言語には、韓国語、中国語 (簡体字および繁体字)、日本語、アラビア語、ヒンディー語、スペイン語、フランス語、ドイツ語、ポルトガル語、イタリア語、ロシア語などがあります。混合言語の画像は、主要な言語を選択したときに最適に機能します。
手書きはどうですか?
手書き認識は弱いです。Tesseractは印刷されたテキストで訓練されており、筆記体や乱雑な書き物に苦戦します。読みやすいブロック文字の手書きは使用可能ですが不完全な結果を生成します。筆記体は通常まったく機能しません。
画像や抽出されたテキストを保存しますか?
いいえ。ドロップした画像やOCRが生成するテキストを保存しません。タブを閉じるか更新するとすべて破棄されます — ログなし、あなたがOCRしたものの記録は私たちの側にありません。ブラウザの開発者ツールで確認できます。