Visualizando em Português Ver em inglês

Imagem para texto — OCR no seu navegador

Extraia texto de fotos, capturas de tela e documentos digitalizados. O Tesseract OCR roda inteiramente no seu navegador — nada é enviado.

Solte as imagens aqui ou
  1. Solte ou escolha uma ou várias imagens — JPG, PNG, WebP ou BMP.
  2. Escolha um idioma se o texto não estiver em inglês — a primeira execução nesse idioma baixa o modelo (3–14 MB) e o navegador o guarda em cache.
  3. Clique em Extrair tudo. A primeira execução baixa cerca de 8 MB do motor OCR e dos dados de idioma deste site (ficam em cache no navegador e são reutilizados em cada imagem do lote).
  4. A prévia abaixo mostra o texto reconhecido da primeira imagem. Baixe o texto de cada imagem pela sua linha, copie a saída de todos os arquivos para a área de transferência, ou baixe um .txt combinado.
O que ele faz?

OCR (reconhecimento óptico de caracteres) transforma pixels que se parecem com texto em texto real. Esta ferramenta usa o Tesseract — o motor OCR de código aberto mantido pelo Google — compilado para WebAssembly. Funciona melhor em texto impresso; o reconhecimento de manuscrito é mais fraco.

Dicas para melhores resultados

  • Alto contraste entre texto e fundo.
  • Imagens sem inclinação — se estiver de lado ou torta, gire primeiro com o Recortador de imagem.
  • 300 DPI ou mais para documentos digitalizados.
  • Texto impresso funciona muito melhor do que manuscrito.
  • Para PDF multipágina, converta primeiro em imagens com PDF para JPG / PNG e faça OCR em cada página, ou use a ferramenta PDF para texto dedicada.

Exemplo

Entrada — uma captura em inglês de uma etiqueta de envio, JPG. Área de texto de saída:

SHIP TO:
Jane Doe
123 Main Street
Springfield, IL 62701
USA

TRACKING: 1Z 999 AA1 0123 4567 89
WEIGHT: 2.4 lbs
SHIPPED: 2026-04-12

Erros comuns e armadilhas

A maior parte das decepções com OCR vem da imagem de origem, não do motor. Uma foto ruim não se recupera com um ajuste mais sofisticado.

  • Saída embaralhada em imagem de baixa resolução. Capturas de tela do celular e miniaturas pequenas produzem texto embaralhado. Tire a foto mais de perto ou use o arquivo original em resolução total, se tiver.
  • Imagem girada 90° ou de cabeça para baixo. O Tesseract não gira automaticamente. Corrija a orientação com o Recortador de imagem e tente novamente.
  • Colunas entrelaçadas na saída. O OCR lê na ordem natural de digitalização e pode confundir layouts em várias colunas. Recorte a imagem por coluna e faça OCR em cada coluna separadamente.
  • Manuscrito sai errado. O Tesseract é treinado em texto impresso e tem dificuldade com cursiva ou escrita desordenada. Letra de forma legível dá resultados utilizáveis mas nunca ótimos — conte com uma revisão manual.
  • Texto não-inglês sai como letras aleatórias. Deixar o seletor de idioma em inglês ao fazer OCR de coreano, árabe ou chinês produz saída que parece aleatória. Escolha o idioma correspondente no menu antes de extrair.
  • A aba trava em uma imagem enorme. Fotos acima de 20 megapixels podem esgotar a memória durante o reconhecimento. Recorte a região que interessa com o Recortador, ou reduza com Compressão de imagem antes.
Perguntas frequentes

Quais formatos de imagem são suportados?

JPG, PNG, WebP e BMP. Qualquer formato que seu navegador consiga decodificar com a API de Imagem padrão deve funcionar. Para fotos HEIC do iPhone, converta primeiro para JPG com a ferramenta HEIC para JPG.

Por que a primeira execução é lenta?

O Tesseract precisa de cerca de 4 MB de código de motor compilado e 4 MB de dados de modelo de idioma no primeiro uso. Ambos ficam em cache no navegador, portanto execuções seguintes começam em menos de um segundo. O reconhecimento em si costuma levar 2–10 segundos em uma captura típica e escala aproximadamente com o tamanho da imagem.

Quão preciso é?

Em texto impresso limpo a 300 DPI ou mais, a precisão costuma ser de 95% ou mais. Em capturas de tela de celular de sites, a precisão geralmente é boa mas pode perder elementos pequenos de interface. Em fotos de baixa resolução, digitalizações ruidosas ou manuscritos, a precisão cai bastante. Usamos os dados rápidos do Tesseract — um bom equilíbrio entre velocidade e precisão.

Funciona com texto não-inglês?

Sim — escolha o idioma correspondente no seletor. A primeira OCR nesse idioma baixa o modelo (3–14 MB) e o guarda em cache. Os idiomas suportados incluem coreano, chinês (simplificado e tradicional), japonês, árabe, hindi, espanhol, francês, alemão, português, italiano, russo e outros. Imagens multilíngues funcionam melhor quando você escolhe o idioma dominante.

E quanto ao manuscrito?

O reconhecimento de manuscrito é fraco. O Tesseract é treinado em texto impresso e tem dificuldade com cursiva ou escrita desordenada. Letra de forma legível dá resultados utilizáveis mas imperfeitos; cursiva normalmente não funciona.

Vocês salvam minhas imagens ou o texto extraído?

Não. Não salvamos as imagens que você solta nem o texto produzido pelo OCR. Tudo é descartado quando você fecha ou recarrega a aba — sem logs, sem registro do nosso lado do que você passou pelo OCR. Você pode verificar nas ferramentas de desenvolvedor do seu navegador.