Question 1

Funciona em PDFs digitalizados e somente em imagem?

Accepted Answer

Sim — esse é justamente o objetivo. Cada página é renderizada como imagem e passa pelo OCR, portanto funciona igual quer o PDF seja nativo digital ou digitalizado. Para PDFs nativos digitais que já contêm texto selecionável, uma ferramenta de extração direta é mais rápida e precisa; o OCR é a escolha certa quando o texto está incorporado nas imagens das páginas.

Question 2

Qual DPI escolher?

Accepted Answer

200 DPI é um bom padrão para precisão de OCR em digitalizações e capturas de tela típicas. 150 DPI é mais rápido, mas perde texto pequeno. 300 DPI ajuda em páginas densas, fontes pequenas ou digitalizações de baixa qualidade, mas dobra o tempo de renderização e o uso de memória. Subir acima de 300 raramente ajuda se a digitalização original já tiver resolução mais baixa.

Question 3

Por que a primeira execução é lenta?

Accepted Answer

A primeira execução baixa cerca de 8 MB do motor OCR e dos dados de idioma inglês deste site, e os armazena em cache no navegador. As execuções seguintes começam em menos de um segundo. A partir daí, a velocidade é dominada pela renderização e pelo reconhecimento de cada página — tipicamente de 3 a 10 segundos por página, dependendo do DPI e da complexidade.

Question 4

E quanto à escrita manual e textos não-ingleses?

Accepted Answer

O reconhecimento de manuscrito é fraco — o Tesseract é treinado em texto impresso e tem dificuldade com cursiva ou escrita desordenada. Para textos não-ingleses, escolha o idioma correspondente no seletor; a primeira OCR nesse idioma baixa o modelo (3–14 MB) e o armazena em cache. Páginas multilíngues funcionam melhor escolhendo-se o idioma dominante.

Question 5

Ele lida com PDFs protegidos por senha?

Accepted Answer

Não. PDFs criptografados falham ao carregar com um erro. Abra o arquivo no seu leitor PDF, digite a senha e salve novamente via Arquivo > Salvar como para produzir uma cópia sem proteção. Então solte essa cópia aqui.

Question 6

Vocês salvam meus PDFs ou o texto extraído?

Accepted Answer

Não. Não salvamos o PDF que você solta, nem as imagens de página renderizadas, nem o texto extraído. Tudo é descartado quando você fecha ou recarrega a aba — sem logs, sem registro do nosso lado do que você passou pelo OCR. Você pode verificar nas ferramentas de desenvolvedor do seu navegador.

PDF para texto — OCR no seu navegador

Exemplo

Erros comuns e armadilhas