PDF zu Text — OCR im Browser
Extrahiere Text aus gescannten oder bildbasierten PDFs, Seite für Seite. Jede Seite wird zu einem Bild gerendert und im Browser per OCR verarbeitet.
- Ein oder mehrere PDFs ablegen oder auf durchsuchen klicken.
- Wähle DPI. 200 ist ein guter Standard; auf 300 erhöhen bei dichten oder kleinschriftigen Seiten.
- Optional Seiten mit einem Bereich wie 1-3, 5, 8-10 einschränken; derselbe Bereich gilt für jede PDF. Leer lassen, um jede Seite jeder Datei zu OCR-en.
- Klicke auf Alle extrahieren. Der erste Lauf lädt etwa 8 MB OCR-Engine und Sprachdaten von dieser Seite (vom Browser gecacht für das nächste Mal, über alle PDFs im Batch wiederverwendet).
- Der Text der ersten PDF erscheint in der Vorschau unten (erste 3 Seiten). Lade den vollständigen Text jeder Datei aus ihrer Zeile, kopiere die Ausgabe jeder Datei in die Zwischenablage, oder schnapp dir eine zusammengeführte .txt.
Was macht es?
Jede gewählte Seite wird mit deinem DPI auf ein Canvas gerendert, dann durch Tesseract — die von Google gepflegte Open-Source-OCR-Engine — zu WebAssembly kompiliert verarbeitet. Der erkannte Text jeder Seite wird mit einem --- Page N --- Trenner zwischen den Seiten zu einer Ausgabe verbunden, sodass jede Stelle wieder ihrer Quellseite zugeordnet werden kann.
Beispiel
Eingabe — ein gescanntes 2-seitiges Memo, 200 DPI, alle Seiten. Ausgabe-Textarea:
--- Page 1 ---
MEMO
To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes
Starting this Friday, the east lot
will be closed for resurfacing…
--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected]. Häufige Fehler und Fallstricke
Die meisten OCR-Enttäuschungen kommen vom Quelldokument, nicht von der Engine. Einen schlechten Scan rettet kein höheres DPI.
- Verstümmelte Ausgabe bei schlechtem Scan. Quellbilder unter etwa 150 DPI liefern verstümmelten Text, egal was du hier einstellst. Scanne neu mit 300 DPI oder nutze die originale digitale Datei, falls vorhanden.
- Spalten werden in der Ausgabe verschachtelt. OCR liest in natürlicher Scan-Reihenfolge und kann sich bei mehrspaltigem Layout verwirren. Teile die PDF zuerst spaltenweise mit dem Image Cropper auf Seitenrendern, dann OCR jede Spalte einzeln.
- Seiten sind 90° oder kopfüber gedreht. Tesseract dreht nicht automatisch. Korrigiere die PDF-Ausrichtung zuerst mit dem PDF Organizer und versuche es erneut.
- Tab friert bei großer PDF ein. Über 100 Seiten bei 300 DPI können den Speicher erschöpfen. Rendere zuerst einen Seitenbereich (z. B. 1-25) zur Qualitätsprüfung, dann den Rest in Etappen. Gehe auf 200 DPI zurück, wenn dein Gerät speicherarm ist.
- Ungültiger Bereich. Invalid range: "1 through 5" — nur Bindestrich und Komma werden unterstützt. Nutze das Format 1-5.
- Verschlüsselte PDF. Passwortgeschützte PDFs laden nicht. Entsperre mit deinem PDF-Viewer via Datei > Speichern unter und versuche es erneut mit der ungeschützten Kopie.
Häufig gestellte Fragen
Funktioniert das bei gescannten und reinen Bild-PDFs?
Ja — genau darum geht es. Jede Seite wird zum Bild gerendert und per OCR verarbeitet, es funktioniert also gleich, egal ob die PDF digital geboren oder gescannt wurde. Bei digital geborenen PDFs mit bereits auswählbarem Text ist ein direkter Textextraktor schneller und genauer; OCR passt, wenn Text in Seitenbildern eingebacken ist.
Welches DPI soll ich wählen?
200 DPI ist ein guter Standard für OCR-Genauigkeit auf typischen Scans und Screenshots. 150 DPI ist schneller, verliert aber kleinen Text. 300 DPI hilft bei dichten Seiten, kleinen Schriften oder schlechten Scans, verdoppelt aber Renderzeit und Speicherverbrauch. Über 300 hilft selten, wenn der Scan selbst niedrig aufgelöst ist.
Warum ist der erste Lauf langsam?
Der erste Lauf lädt etwa 8 MB OCR-Engine und englische Sprachdaten von dieser Seite, dann werden sie in deinem Browser gecacht. Spätere Läufe starten in unter einer Sekunde. Danach hängt die Geschwindigkeit am Rendern und Erkennen jeder Seite — typisch 3–10 Sekunden pro Seite je nach DPI und Komplexität.
Was ist mit Handschrift und nicht-englischem Text?
Handschrifterkennung ist schwach — Tesseract ist auf gedrucktem Text trainiert und hat Mühe mit Schreibschrift oder unsauberen Buchstaben. Für Nicht-Englisch wähle die passende Sprache im Selektor; der erste OCR-Lauf in dieser Sprache lädt das Modell (3–14 MB) und cacht es danach. Mehrsprachige Seiten klappen am besten, wenn du die dominante Sprache wählst.
Kann es passwortgeschützte PDFs verarbeiten?
Nein. Verschlüsselte PDFs schlagen beim Laden fehl. Öffne die Datei in deinem PDF-Viewer, gib das Passwort ein und speichere via Datei > Speichern unter eine ungeschützte Kopie. Lege dann diese Kopie hier ab.
Speichert ihr meine PDFs oder den extrahierten Text?
Nein. Wir speichern weder die abgelegte PDF, die gerenderten Seitenbilder noch den extrahierten Text. Alles wird verworfen, sobald du den Tab schließt oder neu lädst — keine Logs, keine Aufzeichnung darüber, was du geOCRt hast. Prüfe es gerne in den DevTools deines Browsers.