Imagem para texto — OCR no seu navegador
Extraia texto de fotos, capturas de tela e documentos digitalizados. O Tesseract OCR roda inteiramente no seu navegador — nada é enviado.
- Solte ou escolha uma ou várias imagens — JPG, PNG, WebP ou BMP.
- Escolha um idioma se o texto não estiver em inglês — a primeira execução nesse idioma baixa o modelo (3–14 MB) e o navegador o guarda em cache.
- Clique em Extrair tudo. A primeira execução baixa cerca de 8 MB do motor OCR e dos dados de idioma deste site (ficam em cache no navegador e são reutilizados em cada imagem do lote).
- A prévia abaixo mostra o texto reconhecido da primeira imagem. Baixe o texto de cada imagem pela sua linha, copie a saída de todos os arquivos para a área de transferência, ou baixe um .txt combinado.
O que ele faz?
OCR (reconhecimento óptico de caracteres) transforma pixels que se parecem com texto em texto real. Esta ferramenta usa o Tesseract — o motor OCR de código aberto mantido pelo Google — compilado para WebAssembly. Funciona melhor em texto impresso; o reconhecimento de manuscrito é mais fraco.
Dicas para melhores resultados
- Alto contraste entre texto e fundo.
- Imagens sem inclinação — se estiver de lado ou torta, gire primeiro com o Recortador de imagem.
- 300 DPI ou mais para documentos digitalizados.
- Texto impresso funciona muito melhor do que manuscrito.
- Para PDF multipágina, converta primeiro em imagens com PDF para JPG / PNG e faça OCR em cada página, ou use a ferramenta PDF para texto dedicada.
Exemplo
Entrada — uma captura em inglês de uma etiqueta de envio, JPG. Área de texto de saída:
SHIP TO:
Jane Doe
123 Main Street
Springfield, IL 62701
USA
TRACKING: 1Z 999 AA1 0123 4567 89
WEIGHT: 2.4 lbs
SHIPPED: 2026-04-12 Erros comuns e armadilhas
A maior parte das decepções com OCR vem da imagem de origem, não do motor. Uma foto ruim não se recupera com um ajuste mais sofisticado.
- Saída embaralhada em imagem de baixa resolução. Capturas de tela do celular e miniaturas pequenas produzem texto embaralhado. Tire a foto mais de perto ou use o arquivo original em resolução total, se tiver.
- Imagem girada 90° ou de cabeça para baixo. O Tesseract não gira automaticamente. Corrija a orientação com o Recortador de imagem e tente novamente.
- Colunas entrelaçadas na saída. O OCR lê na ordem natural de digitalização e pode confundir layouts em várias colunas. Recorte a imagem por coluna e faça OCR em cada coluna separadamente.
- Manuscrito sai errado. O Tesseract é treinado em texto impresso e tem dificuldade com cursiva ou escrita desordenada. Letra de forma legível dá resultados utilizáveis mas nunca ótimos — conte com uma revisão manual.
- Texto não-inglês sai como letras aleatórias. Deixar o seletor de idioma em inglês ao fazer OCR de coreano, árabe ou chinês produz saída que parece aleatória. Escolha o idioma correspondente no menu antes de extrair.
- A aba trava em uma imagem enorme. Fotos acima de 20 megapixels podem esgotar a memória durante o reconhecimento. Recorte a região que interessa com o Recortador, ou reduza com Compressão de imagem antes.
Perguntas frequentes
Quais formatos de imagem são suportados?
JPG, PNG, WebP e BMP. Qualquer formato que seu navegador consiga decodificar com a API de Imagem padrão deve funcionar. Para fotos HEIC do iPhone, converta primeiro para JPG com a ferramenta HEIC para JPG.
Por que a primeira execução é lenta?
O Tesseract precisa de cerca de 4 MB de código de motor compilado e 4 MB de dados de modelo de idioma no primeiro uso. Ambos ficam em cache no navegador, portanto execuções seguintes começam em menos de um segundo. O reconhecimento em si costuma levar 2–10 segundos em uma captura típica e escala aproximadamente com o tamanho da imagem.
Quão preciso é?
Em texto impresso limpo a 300 DPI ou mais, a precisão costuma ser de 95% ou mais. Em capturas de tela de celular de sites, a precisão geralmente é boa mas pode perder elementos pequenos de interface. Em fotos de baixa resolução, digitalizações ruidosas ou manuscritos, a precisão cai bastante. Usamos os dados rápidos do Tesseract — um bom equilíbrio entre velocidade e precisão.
Funciona com texto não-inglês?
Sim — escolha o idioma correspondente no seletor. A primeira OCR nesse idioma baixa o modelo (3–14 MB) e o guarda em cache. Os idiomas suportados incluem coreano, chinês (simplificado e tradicional), japonês, árabe, hindi, espanhol, francês, alemão, português, italiano, russo e outros. Imagens multilíngues funcionam melhor quando você escolhe o idioma dominante.
E quanto ao manuscrito?
O reconhecimento de manuscrito é fraco. O Tesseract é treinado em texto impresso e tem dificuldade com cursiva ou escrita desordenada. Letra de forma legível dá resultados utilizáveis mas imperfeitos; cursiva normalmente não funciona.
Vocês salvam minhas imagens ou o texto extraído?
Não. Não salvamos as imagens que você solta nem o texto produzido pelo OCR. Tudo é descartado quando você fecha ou recarrega a aba — sem logs, sem registro do nosso lado do que você passou pelo OCR. Você pode verificar nas ferramentas de desenvolvedor do seu navegador.