Question 1

Funktioniert das bei gescannten und reinen Bild-PDFs?

Accepted Answer

Ja — genau darum geht es. Jede Seite wird zum Bild gerendert und per OCR verarbeitet, es funktioniert also gleich, egal ob die PDF digital geboren oder gescannt wurde. Bei digital geborenen PDFs mit bereits auswählbarem Text ist ein direkter Textextraktor schneller und genauer; OCR passt, wenn Text in Seitenbildern eingebacken ist.

Question 2

Welches DPI soll ich wählen?

Accepted Answer

200 DPI ist ein guter Standard für OCR-Genauigkeit auf typischen Scans und Screenshots. 150 DPI ist schneller, verliert aber kleinen Text. 300 DPI hilft bei dichten Seiten, kleinen Schriften oder schlechten Scans, verdoppelt aber Renderzeit und Speicherverbrauch. Über 300 hilft selten, wenn der Scan selbst niedrig aufgelöst ist.

Question 3

Warum ist der erste Lauf langsam?

Accepted Answer

Der erste Lauf lädt etwa 8 MB OCR-Engine und englische Sprachdaten von dieser Seite, dann werden sie in deinem Browser gecacht. Spätere Läufe starten in unter einer Sekunde. Danach hängt die Geschwindigkeit am Rendern und Erkennen jeder Seite — typisch 3–10 Sekunden pro Seite je nach DPI und Komplexität.

Question 4

Was ist mit Handschrift und nicht-englischem Text?

Accepted Answer

Handschrifterkennung ist schwach — Tesseract ist auf gedrucktem Text trainiert und hat Mühe mit Schreibschrift oder unsauberen Buchstaben. Für Nicht-Englisch wähle die passende Sprache im Selektor; der erste OCR-Lauf in dieser Sprache lädt das Modell (3–14 MB) und cacht es danach. Mehrsprachige Seiten klappen am besten, wenn du die dominante Sprache wählst.

Question 5

Kann es passwortgeschützte PDFs verarbeiten?

Accepted Answer

Nein. Verschlüsselte PDFs schlagen beim Laden fehl. Öffne die Datei in deinem PDF-Viewer, gib das Passwort ein und speichere via Datei > Speichern unter eine ungeschützte Kopie. Lege dann diese Kopie hier ab.

Question 6

Speichert ihr meine PDFs oder den extrahierten Text?

Accepted Answer

Nein. Wir speichern weder die abgelegte PDF, die gerenderten Seitenbilder noch den extrahierten Text. Alles wird verworfen, sobald du den Tab schließt oder neu lädst — keine Logs, keine Aufzeichnung darüber, was du geOCRt hast. Prüfe es gerne in den DevTools deines Browsers.

PDF zu Text — OCR im Browser

Beispiel

Häufige Fehler und Fallstricke