Bild zu Text — OCR in deinem Browser
Extrahiere Text aus Fotos, Screenshots und gescannten Dokumenten. Tesseract OCR läuft vollständig in deinem Browser — nichts wird hochgeladen.
- Ziehe oder durchsuche nach einem oder vielen Bildern — JPG, PNG, WebP oder BMP.
- Wähle eine Sprache, wenn dein Text nicht Englisch ist — der erste Durchlauf in dieser Sprache lädt das Modell (3–14 MB) herunter und cacht es für das nächste Mal in deinem Browser.
- Klicke auf Alle extrahieren. Der erste Durchlauf lädt etwa 8 MB OCR-Engine und Sprachdaten von dieser Seite herunter (gecacht vom Browser und über jedes Bild im Batch wiederverwendet).
- Der erkannte Text des ersten Bildes erscheint in der Vorschau unten. Lade den Text jedes Bildes einzeln aus seiner Reihe herunter, kopiere alles in die Zwischenablage oder hole eine kombinierte .txt mit der Ausgabe jeder Datei, getrennt durch Header.
Was macht es?
OCR (Optical Character Recognition) verwandelt Pixel, die wie Text aussehen, in tatsächlichen Text. Dieses Tool führt Tesseract aus — die von Google gepflegte Open-Source-OCR-Engine — kompiliert zu WebAssembly. Funktioniert am besten mit gedrucktem Text; Handschrifterkennung ist schwächer.
Tipps für beste Ergebnisse
- Hoher Kontrast zwischen Text und Hintergrund.
- Unverzerrte Scans — drehe das Bild zuerst mit dem Image Cropper, wenn es seitwärts oder geneigt ist.
- 300 DPI oder höher für gescannte Dokumente.
- Gedruckter Text funktioniert viel besser als Handschrift.
- Für ein mehrseitiges PDF konvertiere zuerst in Bilder mit PDF to JPG / PNG und OCR jede Seite, oder verwende das spezielle PDF to Text Tool.
Beispiel
Eingabe — ein Screenshot eines Versandetiketts, Englisch, JPG. Ausgabe-Textbereich:
SHIP TO:
Jane Doe
123 Main Street
Springfield, IL 62701
USA
TRACKING: 1Z 999 AA1 0123 4567 89
WEIGHT: 2.4 lbs
SHIPPED: 2026-04-12 Häufige Fehler und Fallstricke
Die meisten OCR-Enttäuschungen kommen vom Quellbild, nicht von der Engine. Ein schlechtes Foto kann mit einer ausgefalleneren Einstellung nicht wiederhergestellt werden.
- Verstümmelte Ausgabe bei einem Bild mit niedriger Auflösung. Telefon-Screenshots und winzige Thumbnails erzeugen zerstörten Text. Mache das Foto näher neu oder verwende die ursprüngliche Datei in voller Auflösung, falls du sie hast.
- Bild ist um 90° oder auf den Kopf gedreht. Tesseract dreht nicht automatisch. Behebe die Ausrichtung zuerst mit dem Image Cropper und versuche es dann erneut.
- Spalten sind in der Ausgabe verschachtelt. OCR liest in natürlicher Scan-Reihenfolge und kann mehrspaltige Layouts durcheinanderbringen. Schneide das Bild zuerst nach Spalten zu und OCR dann jede Spalte separat.
- Handschrift kommt falsch raus. Tesseract ist auf gedrucktem Text trainiert und kämpft mit Kursiv- oder unordentlicher Handschrift. Für lesbare Blockbuchstaben-Handschrift sind die Ergebnisse brauchbar, aber nie großartig — rechne mit manueller Bereinigung.
- Nicht-englischer Text ist Kauderwelsch. Den Sprachselektor auf Englisch zu lassen, während du Koreanisch, Arabisch oder Chinesisch OCR-st, erzeugt zufällig aussehenden Output. Wähle die passende Sprache aus dem Dropdown, bevor du extrahierst.
- Tab friert bei einem riesigen Bild ein. Fotos über 20 Megapixel können während der Erkennung den Speicher erschöpfen. Schneide mit dem Image Cropper auf den Bereich, der dich interessiert, oder komprimiere zuerst mit Image Compress.
Häufig gestellte Fragen
Welche Bildformate werden unterstützt?
JPG, PNG, WebP und BMP. Jedes Format, das dein Browser mit der Standard-Image-API dekodieren kann, sollte funktionieren. Für HEIC-Fotos von iPhones konvertiere zuerst mit dem HEIC to JPG Tool zu JPG.
Warum ist der erste Durchlauf langsam?
Tesseract benötigt bei der ersten Verwendung etwa 4 MB kompilierten Engine-Code und 4 MB Sprachmodelldaten. Beide werden von deinem Browser gecacht, sodass nachfolgende Durchläufe in unter einer Sekunde starten. Die Erkennung selbst dauert bei einem typischen Screenshot typischerweise 2–10 Sekunden und skaliert etwa mit der Bildgröße.
Wie genau ist es?
Bei sauberem gedrucktem Text bei 300 DPI oder höher ist die Genauigkeit typischerweise 95%+. Bei Telefon-Screenshots von Websites ist die Genauigkeit normalerweise gut, kann aber kleine UI-Chrome-Elemente übersehen. Bei Fotos mit niedriger Auflösung, Scans mit Rauschen oder Handschrift sinkt die Genauigkeit deutlich. Wir verwenden die schnellen Tesseract-Sprachdaten — eine gute Balance aus Geschwindigkeit und Genauigkeit.
Kann es nicht-englischen Text verarbeiten?
Ja — wähle die passende Sprache aus dem Selektor. Der erste OCR-Durchlauf in dieser Sprache lädt das Modell (3–14 MB) herunter und cacht es danach. Unterstützte Sprachen umfassen Koreanisch, Chinesisch (Vereinfacht und Traditionell), Japanisch, Arabisch, Hindi, Spanisch, Französisch, Deutsch, Portugiesisch, Italienisch, Russisch und mehr. Bilder mit gemischten Sprachen funktionieren am besten, wenn du die dominante Sprache auswählst.
Was ist mit Handschrift?
Handschrifterkennung ist schwach. Tesseract ist auf gedrucktem Text trainiert und kämpft mit Kursiv- oder unordentlicher Schrift. Lesbare Blockbuchstaben-Handschrift erzeugt brauchbare, aber unvollkommene Ergebnisse; Kursiv funktioniert normalerweise überhaupt nicht.
Speichert ihr meine Bilder oder den extrahierten Text?
Nein. Wir speichern die Bilder, die du ablegst, oder den von OCR erzeugten Text nicht. Alles wird verworfen, wenn du den Tab schließt oder aktualisierst — keine Logs, keine Aufzeichnung auf unserer Seite darüber, was du OCR-st hast. Du kannst es in den Entwicklertools deines Browsers überprüfen.