Question 1

¿Funciona con PDF escaneados y PDF solo de imagen?

Accepted Answer

Sí — de hecho es el caso de uso principal. Cada página se renderiza como imagen y pasa por OCR, así que funciona igual ya sea un PDF nativo digital o escaneado. Para PDF digitales que ya contienen texto seleccionable, una herramienta de extracción directa es más rápida y precisa; el OCR es la opción correcta cuando el texto está incrustado en las imágenes de las páginas.

Question 2

¿Qué DPI debo elegir?

Accepted Answer

200 DPI es un buen valor por defecto para la precisión del OCR en escaneos y capturas típicos. 150 DPI es más rápido pero se pierde el texto pequeño. 300 DPI ayuda con páginas densas, fuentes pequeñas o escaneos de baja calidad, pero duplica el tiempo de renderizado y el uso de memoria. Subir de 300 rara vez ayuda si el escaneo original ya es de menor resolución.

Question 3

¿Por qué la primera ejecución es lenta?

Accepted Answer

La primera ejecución descarga unos 8 MB del motor OCR y los datos del idioma inglés desde este sitio, y los guarda en la caché del navegador. Las siguientes ejecuciones arrancan en menos de un segundo. A partir de ahí, la velocidad depende del renderizado y reconocimiento de cada página: suele ser de 3–10 segundos por página según el DPI y la complejidad.

Question 4

¿Y la escritura a mano o los idiomas distintos del inglés?

Accepted Answer

El reconocimiento de manuscritos es débil: Tesseract está entrenado con texto impreso y le cuesta con cursiva o letra desordenada. Para textos en otros idiomas, elige el idioma correspondiente en el selector; la primera OCR en ese idioma descarga el modelo (3–14 MB) y lo cachea después. Las páginas multilingües funcionan mejor eligiendo el idioma dominante.

Question 5

¿Puede procesar PDF con contraseña?

Accepted Answer

No. Los PDF cifrados fallan al cargar con un error. Abre el archivo en tu visor PDF, introduce la contraseña y guárdalo de nuevo con Archivo > Guardar como para producir una copia sin protección. Luego suelta esa copia aquí.

Question 6

¿Guardáis mis PDF o el texto extraído?

Accepted Answer

No. No guardamos ni el PDF que sueltas, ni las imágenes de página renderizadas, ni el texto extraído. Todo se descarta cuando cierras o recargas la pestaña: sin registros, sin constancia por nuestra parte de lo que has pasado por OCR. Puedes comprobarlo con las herramientas de desarrollador del navegador.

PDF a texto — OCR en tu navegador

Ejemplo

Errores comunes y advertencias