Image vers texte — OCR dans votre navigateur
Extrayez le texte de photos, captures d’écran et documents scannés. Tesseract OCR tourne entièrement dans votre navigateur — rien n’est envoyé en ligne.
- Déposez ou choisissez une ou plusieurs images — JPG, PNG, WebP ou BMP.
- Choisissez une langue si votre texte n’est pas en anglais — la première exécution dans cette langue télécharge le modèle (3–14 Mo), que votre navigateur met ensuite en cache.
- Cliquez sur Tout extraire. La première exécution télécharge environ 8 Mo de moteur OCR et de données linguistiques depuis ce site (mis en cache par votre navigateur et réutilisés pour chaque image du lot).
- L’aperçu ci-dessous montre le texte reconnu de la première image. Téléchargez le texte de chaque image depuis sa ligne, copiez la sortie de tous les fichiers dans le presse-papiers, ou récupérez un .txt combiné.
Que fait-il ?
L’OCR (reconnaissance optique de caractères) transforme des pixels ressemblant à du texte en texte réel. Cet outil exécute Tesseract — le moteur OCR open source maintenu par Google — compilé en WebAssembly. Fonctionne mieux sur du texte imprimé ; la reconnaissance manuscrite est plus faible.
Conseils pour de meilleurs résultats
- Contraste élevé entre le texte et le fond.
- Images non inclinées — si elle est sur le côté ou penchée, faites-la tourner d’abord avec le recadrage d’image.
- 300 DPI ou plus pour les documents scannés.
- Le texte imprimé fonctionne bien mieux que le manuscrit.
- Pour un PDF multi-pages, convertissez d’abord en images avec PDF vers JPG / PNG et OCRez chaque page, ou utilisez l’outil PDF vers texte dédié.
Exemple
Entrée — une capture d’étiquette d’envoi en anglais, JPG. Zone de texte de sortie :
SHIP TO:
Jane Doe
123 Main Street
Springfield, IL 62701
USA
TRACKING: 1Z 999 AA1 0123 4567 89
WEIGHT: 2.4 lbs
SHIPPED: 2026-04-12 Erreurs courantes et pièges
La plupart des déceptions OCR viennent de l’image source, pas du moteur. Une mauvaise photo ne peut pas être rattrapée par un réglage plus poussé.
- Sortie brouillonne sur une image basse résolution. Les captures d’écran de téléphone et les vignettes produisent un texte déformé. Reprenez la photo de plus près, ou utilisez le fichier original pleine résolution si vous l’avez.
- Image tournée à 90° ou à l’envers. Tesseract ne tourne pas automatiquement. Corrigez l’orientation avec le recadrage d’image, puis réessayez.
- Les colonnes sont entrelacées dans la sortie. L’OCR lit dans l’ordre naturel du scan et peut confondre les mises en page à plusieurs colonnes. Découpez l’image par colonnes, puis OCRez chaque colonne séparément.
- L’écriture manuscrite est mal reconnue. Tesseract est entraîné sur du texte imprimé et peine avec la cursive ou l’écriture brouillonne. Pour une écriture en capitales lisibles, les résultats sont utilisables mais jamais parfaits — prévoyez une relecture manuelle.
- Le texte non-anglais sort en charabia. Laisser le sélecteur sur l’anglais en OCRant du coréen, de l’arabe ou du chinois produit des résultats apparemment aléatoires. Choisissez la langue correspondante dans le menu avant d’extraire.
- L’onglet se fige sur une image énorme. Les photos de plus de 20 mégapixels peuvent épuiser la mémoire à la reconnaissance. Recadrez la zone qui vous intéresse, ou réduisez l’image d’abord avec Compression d’image.
Questions fréquentes
Quels formats d’image sont pris en charge ?
JPG, PNG, WebP et BMP. Tout format que votre navigateur peut décoder avec l’API Image standard devrait fonctionner. Pour les photos HEIC d’iPhone, convertissez d’abord en JPG avec l’outil HEIC vers JPG.
Pourquoi la première exécution est-elle lente ?
Tesseract a besoin d’environ 4 Mo de code moteur compilé et 4 Mo de données de modèle de langue au premier usage. Les deux sont mis en cache par votre navigateur, donc les exécutions suivantes démarrent en moins d’une seconde. La reconnaissance elle-même prend en général 2 à 10 secondes sur une capture typique et varie avec la taille d’image.
Quelle précision ?
Sur du texte imprimé propre à 300 DPI ou plus, la précision est généralement de 95 % ou plus. Sur des captures d’écran mobiles de sites web, la précision est en général bonne mais peut rater les petits éléments d’interface. Sur des photos basse résolution, des scans bruyants ou de l’écriture manuscrite, la précision chute sensiblement. Nous utilisons les données rapides de Tesseract — un bon compromis vitesse / précision.
Gère-t-il les textes non-anglais ?
Oui — choisissez la langue correspondante dans le sélecteur. La première OCR dans cette langue télécharge le modèle (3–14 Mo), qui est ensuite mis en cache. Les langues prises en charge incluent le coréen, le chinois (simplifié et traditionnel), le japonais, l’arabe, l’hindi, l’espagnol, le français, l’allemand, le portugais, l’italien, le russe et d’autres. Les images multilingues fonctionnent mieux quand vous choisissez la langue dominante.
Et l’écriture manuscrite ?
La reconnaissance manuscrite est faible. Tesseract est entraîné sur du texte imprimé et peine avec la cursive ou l’écriture brouillonne. Les lettres en script lisible donnent des résultats utilisables mais imparfaits ; la cursive ne fonctionne généralement pas.
Conservez-vous mes images ou le texte extrait ?
Non. Nous ne conservons ni les images que vous déposez, ni le texte produit par l’OCR. Tout est supprimé quand vous fermez ou rechargez l’onglet — pas de journaux, aucune trace de ce que vous avez OCRé de notre côté. Vous pouvez le vérifier dans les outils de développement du navigateur.