Question 1

Работает ли это на отсканированных PDF и PDF только из изображений?

Accepted Answer

Да — именно в этом смысл. Каждая страница рендерится в изображение и пропускается через OCR, так что работает одинаково и с цифровой PDF, и с отсканированной. Для изначально цифровых PDF с выделяемым текстом прямое извлечение быстрее и точнее; OCR — правильный выбор, когда текст «запечён» в изображениях страниц.

Question 2

Какой DPI выбрать?

Accepted Answer

200 DPI — хороший дефолт для точности OCR на типичных сканах и скриншотах. 150 DPI быстрее, но теряет мелкий текст. 300 DPI помогает с плотными страницами, мелкими шрифтами и некачественными сканами, но удваивает время рендера и потребление памяти. Выше 300 редко что-то даёт, если сам скан имеет более низкое разрешение.

Question 3

Почему первый запуск медленный?

Accepted Answer

Первый запуск скачивает с этого сайта около 8 MB движка OCR и английских языковых данных, затем кеширует их в браузере. Последующие запуски стартуют меньше чем за секунду. После этого скорость определяется рендерингом и распознаванием каждой страницы — обычно 3–10 секунд на страницу в зависимости от DPI и сложности.

Question 4

Как насчёт рукописного и неанглийского текста?

Accepted Answer

Распознавание рукописного текста слабое — Tesseract обучен на печатном тексте и плохо справляется с прописью или неаккуратным почерком. Для неанглийского текста выберите соответствующий язык в селекторе; первый запуск OCR на этом языке скачает модель (3–14 MB) и закеширует её. Страницы со смешанными языками лучше всего работают, когда выбран доминирующий язык.

Question 5

Может ли он работать с PDF с паролем?

Accepted Answer

Нет. Зашифрованные PDF не загружаются с ошибкой. Откройте файл в просмотрщике PDF, введите пароль и пересохраните через File > Save As, чтобы получить незащищённую копию. Затем бросьте её сюда.

Question 6

Вы сохраняете мои PDF или извлечённый текст?

Accepted Answer

Нет. Мы не сохраняем PDF, который вы бросаете, отрендеренные изображения страниц или извлечённый текст. Всё удаляется в момент закрытия или обновления вкладки — никаких логов, никаких записей о том, что вы OCR-или. Можете проверить в DevTools браузера.

PDF в текст — OCR в браузере

Пример

Частые ошибки и подводные камни