PDF a texto — OCR en tu navegador
Extrae el texto de PDF escaneados o basados en imágenes, página a página. Cada página se renderiza como imagen y se procesa con OCR en tu navegador.
- Arrastra uno o varios PDF, o pulsa elige un archivo.
- Elige un DPI. 200 es un buen valor por defecto; sube a 300 para páginas densas o con letra pequeña.
- Opcionalmente, limita las páginas con un rango como 1-3, 5, 8-10; el mismo rango se aplica a cada PDF. Déjalo en blanco para hacer OCR a todas las páginas de cada archivo.
- Pulsa Extraer todo. La primera ejecución descarga unos 8 MB del motor OCR y los datos de idioma de este sitio (el navegador los guarda para la próxima vez y se reutilizan en cada PDF del lote).
- La vista previa de abajo muestra el texto del primer PDF (3 primeras páginas). Descarga el texto completo de cada archivo desde su fila, copia la salida de todos los archivos al portapapeles o bájate un único .txt combinado.
¿Qué hace?
Cada página seleccionada se renderiza en un canvas con el DPI que elijas y luego pasa por Tesseract —el motor OCR de código abierto mantenido por Google— compilado a WebAssembly. El texto reconocido de cada página se concatena en una única salida con un separador --- Page N --- entre páginas para que puedas localizar cualquier pasaje en su página de origen.
Ejemplo
Entrada — un memorando escaneado de 2 páginas, 200 DPI, todas las páginas. Área de texto de salida:
--- Page 1 ---
MEMO
To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes
Starting this Friday, the east lot
will be closed for resurfacing…
--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected]. Errores comunes y advertencias
La mayoría de decepciones con OCR vienen del documento de origen, no del motor. Un escaneo malo no se recupera subiendo el DPI.
- Salida ilegible en un escaneo de baja calidad. Con imágenes de origen por debajo de unos 150 DPI, el texto saldrá estropeado pongas lo que pongas aquí. Re-escanea a 300 DPI, o usa el archivo digital original si lo tienes.
- Las columnas aparecen entrelazadas en la salida. OCR lee en el orden natural del escaneo y puede confundir diseños a varias columnas. Primero separa las columnas del PDF con el Recortador de imagen sobre los renders de página, y luego haz OCR a cada columna por separado.
- Las páginas están giradas 90° o boca abajo. Tesseract no auto-gira. Ajusta primero la orientación del PDF con el Organizador de PDF y vuelve a intentarlo.
- La pestaña se queda colgada con un PDF grande. Más de 100 páginas a 300 DPI pueden agotar la memoria. Renderiza primero un rango (por ejemplo 1-25) para comprobar calidad y luego procesa el resto por lotes. Baja a 200 DPI si el dispositivo va justo de memoria.
- Rango inválido. Invalid range: "1 through 5" — solo se admiten guiones y comas. Usa el formato 1-5.
- PDF cifrado. Los PDF protegidos con contraseña no cargan. Desbloquea con tu visor PDF mediante Archivo > Guardar como, y vuelve a intentarlo con la copia sin protección.
Preguntas frecuentes
¿Funciona con PDF escaneados y PDF solo de imagen?
Sí — de hecho es el caso de uso principal. Cada página se renderiza como imagen y pasa por OCR, así que funciona igual ya sea un PDF nativo digital o escaneado. Para PDF digitales que ya contienen texto seleccionable, una herramienta de extracción directa es más rápida y precisa; el OCR es la opción correcta cuando el texto está incrustado en las imágenes de las páginas.
¿Qué DPI debo elegir?
200 DPI es un buen valor por defecto para la precisión del OCR en escaneos y capturas típicos. 150 DPI es más rápido pero se pierde el texto pequeño. 300 DPI ayuda con páginas densas, fuentes pequeñas o escaneos de baja calidad, pero duplica el tiempo de renderizado y el uso de memoria. Subir de 300 rara vez ayuda si el escaneo original ya es de menor resolución.
¿Por qué la primera ejecución es lenta?
La primera ejecución descarga unos 8 MB del motor OCR y los datos del idioma inglés desde este sitio, y los guarda en la caché del navegador. Las siguientes ejecuciones arrancan en menos de un segundo. A partir de ahí, la velocidad depende del renderizado y reconocimiento de cada página: suele ser de 3–10 segundos por página según el DPI y la complejidad.
¿Y la escritura a mano o los idiomas distintos del inglés?
El reconocimiento de manuscritos es débil: Tesseract está entrenado con texto impreso y le cuesta con cursiva o letra desordenada. Para textos en otros idiomas, elige el idioma correspondiente en el selector; la primera OCR en ese idioma descarga el modelo (3–14 MB) y lo cachea después. Las páginas multilingües funcionan mejor eligiendo el idioma dominante.
¿Puede procesar PDF con contraseña?
No. Los PDF cifrados fallan al cargar con un error. Abre el archivo en tu visor PDF, introduce la contraseña y guárdalo de nuevo con Archivo > Guardar como para producir una copia sin protección. Luego suelta esa copia aquí.
¿Guardáis mis PDF o el texto extraído?
No. No guardamos ni el PDF que sueltas, ni las imágenes de página renderizadas, ni el texto extraído. Todo se descarta cuando cierras o recargas la pestaña: sin registros, sin constancia por nuestra parte de lo que has pasado por OCR. Puedes comprobarlo con las herramientas de desarrollador del navegador.