Question 1

Est-ce que ça marche sur des PDF scannés et des PDF uniquement en image ?

Accepted Answer

Oui — c’est justement le but. Chaque page est rendue en image et passée à l’OCR, ça fonctionne donc de la même façon que le PDF soit natif numérique ou scanné. Pour les PDF numériques contenant déjà du texte sélectionnable, un outil d’extraction directe sera plus rapide et précis ; l’OCR est le bon choix quand le texte est intégré aux images des pages.

Question 2

Quel DPI choisir ?

Accepted Answer

200 DPI est une bonne valeur par défaut pour la précision OCR sur les scans et captures typiques. 150 DPI est plus rapide mais perd le petit texte. 300 DPI aide sur les pages denses, les petites polices ou les scans de mauvaise qualité, mais double le temps de rendu et l’usage mémoire. Monter au-dessus de 300 n’aide que rarement si le scan source est lui-même en plus basse résolution.

Question 3

Pourquoi la première exécution est-elle lente ?

Accepted Answer

La première exécution télécharge environ 8 Mo de moteur OCR et de données d’anglais depuis ce site, puis les met en cache. Les suivantes démarrent en moins d’une seconde. Ensuite, la vitesse dépend du rendu et de la reconnaissance de chaque page — typiquement 3 à 10 secondes par page selon le DPI et la complexité.

Question 4

Et pour l’écriture manuscrite et le texte non-anglais ?

Accepted Answer

La reconnaissance d’écriture manuscrite est faible — Tesseract est entraîné sur du texte imprimé et peine avec la cursive ou l’écriture brouillonne. Pour le texte non-anglais, choisissez la langue correspondante dans le sélecteur ; la première OCR dans cette langue télécharge le modèle (3–14 Mo), qui est ensuite mis en cache. Les pages multilingues fonctionnent mieux quand vous choisissez la langue dominante.

Question 5

Peut-il traiter des PDF protégés par mot de passe ?

Accepted Answer

Non. Les PDF chiffrés échouent au chargement avec une erreur. Ouvrez le fichier dans votre lecteur PDF, saisissez le mot de passe et ré-enregistrez-le via Fichier > Enregistrer sous pour produire une copie non protégée. Déposez ensuite cette copie ici.

Question 6

Conservez-vous mes PDF ou le texte extrait ?

Accepted Answer

Non. Nous ne conservons ni le PDF que vous déposez, ni les images de page rendues, ni le texte extrait. Tout est supprimé lorsque vous fermez ou rechargez l’onglet — pas de journaux, aucune trace de ce que vous avez OCRé de notre côté. Vous pouvez le vérifier dans les outils de développement du navigateur.

PDF vers texte — OCR dans votre navigateur

Exemple

Erreurs courantes et pièges