PDF para texto — OCR no seu navegador
Extraia texto de PDFs digitalizados ou baseados em imagem, página por página. Cada página é renderizada como imagem e passada pelo OCR no seu navegador.
- Solte um ou vários PDFs, ou clique em escolher arquivo.
- Escolha um DPI. 200 é um bom padrão; aumente para 300 em páginas densas ou com fonte pequena.
- Opcionalmente, limite as páginas com uma faixa como 1-3, 5, 8-10; a mesma faixa se aplica a cada PDF. Deixe em branco para fazer OCR em todas as páginas de cada arquivo.
- Clique em Extrair tudo. A primeira execução baixa cerca de 8 MB do motor OCR e dos dados de idioma deste site (ficam em cache no navegador e são reutilizados em cada PDF do lote).
- A prévia abaixo mostra o texto do primeiro PDF (3 primeiras páginas). Baixe o texto completo de cada arquivo pela sua linha, copie a saída de todos os arquivos para a área de transferência, ou baixe um .txt combinado.
O que ele faz?
Cada página selecionada é renderizada num canvas no DPI escolhido e então passada pelo Tesseract — o motor OCR de código aberto mantido pelo Google — compilado para WebAssembly. O texto reconhecido de cada página é concatenado em uma saída única, com o separador --- Page N --- entre páginas, para que você possa localizar qualquer trecho na página de origem.
Exemplo
Entrada — um memorando digitalizado de 2 páginas, 200 DPI, todas as páginas. Área de texto de saída:
--- Page 1 ---
MEMO
To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes
Starting this Friday, the east lot
will be closed for resurfacing…
--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected]. Erros comuns e armadilhas
A maior parte das decepções com OCR vem do documento de origem, não do motor. Uma digitalização ruim não se recupera com DPI maior.
- Saída embaralhada em digitalização de baixa qualidade. Imagens de origem abaixo de cerca de 150 DPI produzem texto embaralhado, não importa o que você configure aqui. Re-digitalize a 300 DPI, ou use o arquivo digital original, se tiver.
- Colunas entrelaçadas na saída. O OCR lê na ordem natural da digitalização e pode confundir layouts em várias colunas. Divida o PDF por coluna primeiro com o Recortador de imagem nas páginas renderizadas e então faça OCR de cada coluna separadamente.
- Páginas giradas em 90° ou de cabeça para baixo. O Tesseract não gira automaticamente. Ajuste a orientação do PDF primeiro com o Organizador de PDF e tente novamente.
- A aba trava em um PDF grande. Mais de 100 páginas a 300 DPI podem esgotar a memória. Renderize primeiro uma faixa (por exemplo, 1-25) para confirmar a qualidade e depois processe o resto em lotes. Caia para 200 DPI se o dispositivo estiver com pouca memória.
- Faixa inválida. Invalid range: "1 through 5" — somente hifens e vírgulas são aceitos. Use o formato 1-5.
- PDF criptografado. PDFs protegidos por senha falham ao carregar. Desbloqueie no seu leitor via Arquivo > Salvar como e tente novamente com a cópia sem proteção.
Perguntas frequentes
Funciona em PDFs digitalizados e somente em imagem?
Sim — esse é justamente o objetivo. Cada página é renderizada como imagem e passa pelo OCR, portanto funciona igual quer o PDF seja nativo digital ou digitalizado. Para PDFs nativos digitais que já contêm texto selecionável, uma ferramenta de extração direta é mais rápida e precisa; o OCR é a escolha certa quando o texto está incorporado nas imagens das páginas.
Qual DPI escolher?
200 DPI é um bom padrão para precisão de OCR em digitalizações e capturas de tela típicas. 150 DPI é mais rápido, mas perde texto pequeno. 300 DPI ajuda em páginas densas, fontes pequenas ou digitalizações de baixa qualidade, mas dobra o tempo de renderização e o uso de memória. Subir acima de 300 raramente ajuda se a digitalização original já tiver resolução mais baixa.
Por que a primeira execução é lenta?
A primeira execução baixa cerca de 8 MB do motor OCR e dos dados de idioma inglês deste site, e os armazena em cache no navegador. As execuções seguintes começam em menos de um segundo. A partir daí, a velocidade é dominada pela renderização e pelo reconhecimento de cada página — tipicamente de 3 a 10 segundos por página, dependendo do DPI e da complexidade.
E quanto à escrita manual e textos não-ingleses?
O reconhecimento de manuscrito é fraco — o Tesseract é treinado em texto impresso e tem dificuldade com cursiva ou escrita desordenada. Para textos não-ingleses, escolha o idioma correspondente no seletor; a primeira OCR nesse idioma baixa o modelo (3–14 MB) e o armazena em cache. Páginas multilíngues funcionam melhor escolhendo-se o idioma dominante.
Ele lida com PDFs protegidos por senha?
Não. PDFs criptografados falham ao carregar com um erro. Abra o arquivo no seu leitor PDF, digite a senha e salve novamente via Arquivo > Salvar como para produzir uma cópia sem proteção. Então solte essa cópia aqui.
Vocês salvam meus PDFs ou o texto extraído?
Não. Não salvamos o PDF que você solta, nem as imagens de página renderizadas, nem o texto extraído. Tudo é descartado quando você fecha ou recarrega a aba — sem logs, sem registro do nosso lado do que você passou pelo OCR. Você pode verificar nas ferramentas de desenvolvedor do seu navegador.