PDF vers texte — OCR dans votre navigateur
Extrayez le texte de PDF scannés ou basés sur des images, page par page. Chaque page est rendue en image puis passée à l’OCR dans votre navigateur.
- Déposez un ou plusieurs PDF, ou cliquez sur parcourir.
- Choisissez un DPI. 200 est une valeur par défaut correcte ; montez à 300 pour des pages denses ou de petites polices.
- Vous pouvez limiter les pages avec une plage comme 1-3, 5, 8-10 ; la même plage s’applique à chaque PDF. Laissez vide pour OCRer toutes les pages de chaque fichier.
- Cliquez sur Tout extraire. La première exécution télécharge environ 8 Mo de moteur OCR et de données linguistiques depuis ce site (mis en cache par votre navigateur et réutilisés pour chaque PDF du lot).
- L’aperçu ci-dessous montre le texte du premier PDF (3 premières pages). Téléchargez le texte complet de chaque fichier depuis sa ligne, copiez la sortie de tous les fichiers dans le presse-papiers, ou récupérez un .txt combiné.
Que fait-il ?
Chaque page sélectionnée est rendue sur un canvas au DPI choisi, puis passée à Tesseract — le moteur OCR open source maintenu par Google — compilé en WebAssembly. Le texte reconnu de chaque page est concaténé en une seule sortie, avec un séparateur --- Page N --- entre les pages, afin que vous puissiez retrouver n’importe quel passage dans sa page source.
Exemple
Entrée — un mémo scanné de 2 pages, 200 DPI, toutes les pages. Zone de texte de sortie :
--- Page 1 ---
MEMO
To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes
Starting this Friday, the east lot
will be closed for resurfacing…
--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected]. Erreurs courantes et pièges
La plupart des déceptions OCR viennent du document source, pas du moteur. Un mauvais scan ne peut pas être rattrapé en augmentant le DPI.
- Sortie brouillonne sur un scan de mauvaise qualité. Les images sources en dessous d’environ 150 DPI produisent un texte déformé quoi que vous régliez ici. Re-scannez à 300 DPI, ou utilisez le fichier numérique original si vous l’avez.
- Les colonnes sont mélangées dans la sortie. L’OCR lit dans l’ordre naturel du scan et peut confondre les mises en page à plusieurs colonnes. Découpez d’abord le PDF par colonne avec le recadrage d’image sur les rendus de page, puis OCRez chaque colonne séparément.
- Pages tournées à 90° ou à l’envers. Tesseract ne tourne pas automatiquement. Corrigez d’abord l’orientation du PDF avec l’outil d’organisation PDF, puis réessayez.
- L’onglet se fige sur un gros PDF. Plus de 100 pages à 300 DPI peuvent épuiser la mémoire. Rendez d’abord une plage (par exemple 1-25) pour vérifier la qualité, puis traitez le reste par lots. Passez à 200 DPI si votre appareil a peu de mémoire.
- Plage invalide. Invalid range: "1 through 5" — seuls les tirets et les virgules sont pris en charge. Utilisez le format 1-5.
- PDF chiffré. Les PDF protégés par mot de passe échouent au chargement. Déverrouillez avec votre lecteur PDF via Fichier > Enregistrer sous, puis réessayez avec la copie non protégée.
Questions fréquentes
Est-ce que ça marche sur des PDF scannés et des PDF uniquement en image ?
Oui — c’est justement le but. Chaque page est rendue en image et passée à l’OCR, ça fonctionne donc de la même façon que le PDF soit natif numérique ou scanné. Pour les PDF numériques contenant déjà du texte sélectionnable, un outil d’extraction directe sera plus rapide et précis ; l’OCR est le bon choix quand le texte est intégré aux images des pages.
Quel DPI choisir ?
200 DPI est une bonne valeur par défaut pour la précision OCR sur les scans et captures typiques. 150 DPI est plus rapide mais perd le petit texte. 300 DPI aide sur les pages denses, les petites polices ou les scans de mauvaise qualité, mais double le temps de rendu et l’usage mémoire. Monter au-dessus de 300 n’aide que rarement si le scan source est lui-même en plus basse résolution.
Pourquoi la première exécution est-elle lente ?
La première exécution télécharge environ 8 Mo de moteur OCR et de données d’anglais depuis ce site, puis les met en cache. Les suivantes démarrent en moins d’une seconde. Ensuite, la vitesse dépend du rendu et de la reconnaissance de chaque page — typiquement 3 à 10 secondes par page selon le DPI et la complexité.
Et pour l’écriture manuscrite et le texte non-anglais ?
La reconnaissance d’écriture manuscrite est faible — Tesseract est entraîné sur du texte imprimé et peine avec la cursive ou l’écriture brouillonne. Pour le texte non-anglais, choisissez la langue correspondante dans le sélecteur ; la première OCR dans cette langue télécharge le modèle (3–14 Mo), qui est ensuite mis en cache. Les pages multilingues fonctionnent mieux quand vous choisissez la langue dominante.
Peut-il traiter des PDF protégés par mot de passe ?
Non. Les PDF chiffrés échouent au chargement avec une erreur. Ouvrez le fichier dans votre lecteur PDF, saisissez le mot de passe et ré-enregistrez-le via Fichier > Enregistrer sous pour produire une copie non protégée. Déposez ensuite cette copie ici.
Conservez-vous mes PDF ou le texte extrait ?
Non. Nous ne conservons ni le PDF que vous déposez, ni les images de page rendues, ni le texte extrait. Tout est supprimé lorsque vous fermez ou rechargez l’onglet — pas de journaux, aucune trace de ce que vous avez OCRé de notre côté. Vous pouvez le vérifier dans les outils de développement du navigateur.