Question 1

Какие форматы изображений поддерживаются?

Accepted Answer

JPG, PNG, WebP и BMP. Любой формат, который ваш браузер может декодировать с помощью стандартного Image API, должен работать. Для фотографий HEIC с iPhone сначала конвертируйте в JPG с помощью инструмента HEIC to JPG.

Question 2

Почему первый запуск медленный?

Accepted Answer

Tesseract требует около 4 MB скомпилированного кода движка и 4 MB данных языковой модели при первом использовании. Оба кэшируются вашим браузером, поэтому последующие запуски стартуют менее чем за секунду. Само распознавание обычно занимает 2–10 секунд для типичного скриншота и примерно масштабируется с размером изображения.

Question 3

Насколько это точно?

Accepted Answer

На чистом печатном тексте при 300 DPI или выше точность обычно 95%+. На скриншотах веб-сайтов с телефона точность обычно хорошая, но может пропускать мелкие элементы UI. На фотографиях низкого разрешения, сканах с шумом или рукописном тексте точность значительно падает. Мы используем быстрые языковые данные Tesseract — хороший баланс скорости и точности.

Question 4

Может ли это обрабатывать неанглийский текст?

Accepted Answer

Да — выберите соответствующий язык из селектора. Первый запуск OCR на этом языке загружает модель (3–14 MB) и кэширует её после. Поддерживаемые языки включают корейский, китайский (упрощённый и традиционный), японский, арабский, хинди, испанский, французский, немецкий, португальский, итальянский, русский и другие. Изображения со смешанными языками лучше всего работают, когда вы выбираете доминирующий язык.

Question 5

А что насчёт рукописного текста?

Accepted Answer

Распознавание рукописного текста слабое. Tesseract обучен на печатном тексте и плохо справляется с курсивом или неаккуратным письмом. Разборчивый печатный рукописный текст даёт пригодные, но несовершенные результаты; курсив обычно не работает совсем.

Question 6

Сохраняете ли вы мои изображения или извлечённый текст?

Accepted Answer

Нет. Мы не сохраняем изображения, которые вы перетаскиваете, или текст, который производит OCR. Всё отбрасывается, когда вы закрываете или обновляете вкладку — никаких логов, никаких записей с нашей стороны о том, что вы OCR-ли. Вы можете проверить с помощью инструментов разработчика своего браузера.

Изображение в текст — OCR в вашем браузере

Советы для лучших результатов

Пример

Частые ошибки и подводные камни