Язык: Русский Перейти на английский

PDF в текст — OCR в браузере

Извлекайте текст из отсканированных или созданных из изображений PDF, страница за страницей. Каждая страница рендерится в изображение и пропускается через OCR в вашем браузере.

Перетащите PDF-файлы сюда или
  1. Перетащите один или несколько PDF или нажмите «выберите».
  2. Выберите DPI. 200 — хороший дефолт; поднимите до 300 для плотных страниц и мелкого шрифта.
  3. При необходимости ограничьте страницы диапазоном вроде 1-3, 5, 8-10; тот же диапазон применится к каждой PDF. Оставьте пустым, чтобы OCR-ить каждую страницу каждого файла.
  4. Нажмите «Извлечь все». Первый запуск скачивает с этого сайта около 8 MB движка OCR и языковых данных (кешируется браузером для следующего раза и переиспользуется для всех PDF в партии).
  5. Текст первой PDF появится в предпросмотре ниже (первые 3 страницы). Скачайте полный текст каждого файла из его строки, скопируйте вывод каждого файла в буфер обмена или возьмите один объединённый .txt.
Что это делает?

Каждая выбранная страница рендерится в canvas с вашим DPI, затем пропускается через Tesseract — открытый движок OCR, поддерживаемый Google, — скомпилированный в WebAssembly. Распознанный текст каждой страницы объединяется в один вывод с разделителем --- Page N --- между страницами, чтобы можно было найти любой отрывок на исходной странице.

Пример

Вход — отсканированная 2-страничная памятка, 200 DPI, все страницы. Текстовое поле вывода:

--- Page 1 ---
MEMO

To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes

Starting this Friday, the east lot
will be closed for resurfacing…

--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected].

Частые ошибки и подводные камни

Большинство разочарований OCR — от исходного документа, а не от движка. Плохой скан нельзя спасти более высоким DPI.

  • Искажённый вывод на некачественном скане. Исходные изображения ниже примерно 150 DPI дают искажённый текст, что бы вы тут ни ставили. Пересканируйте на 300 DPI или используйте оригинальный цифровой файл, если он есть.
  • Столбцы перемешаны в выводе. OCR читает в естественном порядке скана и может запутаться в многоколоночных макетах. Сначала разделите PDF по столбцам инструментом Image Cropper на рендерах страниц, затем OCR-ите каждый столбец отдельно.
  • Страницы повёрнуты на 90° или перевёрнуты. Tesseract не вращает автоматически. Сначала исправьте ориентацию PDF с помощью PDF Organizer, затем повторите.
  • Вкладка зависает на большой PDF. Более 100 страниц на 300 DPI могут исчерпать память. Сначала рендерите диапазон страниц (например, 1-25), чтобы проверить качество, затем пакетами остальное. Перейдите на 200 DPI, если устройство ограничено по памяти.
  • Неверный диапазон. Invalid range: "1 through 5" — поддерживаются только дефисы и запятые. Используйте формат 1-5.
  • Зашифрованный PDF. PDF с паролем не загружаются. Разблокируйте в вашем просмотрщике PDF через File > Save As, затем повторите с незащищённой копией.
Часто задаваемые вопросы

Работает ли это на отсканированных PDF и PDF только из изображений?

Да — именно в этом смысл. Каждая страница рендерится в изображение и пропускается через OCR, так что работает одинаково и с цифровой PDF, и с отсканированной. Для изначально цифровых PDF с выделяемым текстом прямое извлечение быстрее и точнее; OCR — правильный выбор, когда текст «запечён» в изображениях страниц.

Какой DPI выбрать?

200 DPI — хороший дефолт для точности OCR на типичных сканах и скриншотах. 150 DPI быстрее, но теряет мелкий текст. 300 DPI помогает с плотными страницами, мелкими шрифтами и некачественными сканами, но удваивает время рендера и потребление памяти. Выше 300 редко что-то даёт, если сам скан имеет более низкое разрешение.

Почему первый запуск медленный?

Первый запуск скачивает с этого сайта около 8 MB движка OCR и английских языковых данных, затем кеширует их в браузере. Последующие запуски стартуют меньше чем за секунду. После этого скорость определяется рендерингом и распознаванием каждой страницы — обычно 3–10 секунд на страницу в зависимости от DPI и сложности.

Как насчёт рукописного и неанглийского текста?

Распознавание рукописного текста слабое — Tesseract обучен на печатном тексте и плохо справляется с прописью или неаккуратным почерком. Для неанглийского текста выберите соответствующий язык в селекторе; первый запуск OCR на этом языке скачает модель (3–14 MB) и закеширует её. Страницы со смешанными языками лучше всего работают, когда выбран доминирующий язык.

Может ли он работать с PDF с паролем?

Нет. Зашифрованные PDF не загружаются с ошибкой. Откройте файл в просмотрщике PDF, введите пароль и пересохраните через File > Save As, чтобы получить незащищённую копию. Затем бросьте её сюда.

Вы сохраняете мои PDF или извлечённый текст?

Нет. Мы не сохраняем PDF, который вы бросаете, отрендеренные изображения страниц или извлечённый текст. Всё удаляется в момент закрытия или обновления вкладки — никаких логов, никаких записей о том, что вы OCR-или. Можете проверить в DevTools браузера.