Question 1

Почему мои изображения PNG, а не JPG?

Accepted Answer

PNG сохраняет прозрачность и избегает артефактов перекодирования. Пиксели те же, что и в оригинале; файл больше, потому что PNG — без потерь. Чтобы сэкономить место, прогоните результат через /image-compress в режиме WebP.

Question 2

Как узнать, с какой страницы каждое изображение?

Accepted Answer

Имена файлов следуют шаблону `pageN-imgM.png` — N — номер исходной страницы, M — порядковый номер на этой странице. Сортируйте по имени файла, чтобы увидеть порядок их появления в PDF.

Question 3

Будут ли зашифрованные изображения выходить искажёнными?

Accepted Answer

Данные изображений внутри незашифрованного PDF не зашифрованы отдельно — они декодируются нормально. Если сам PDF зашифрован, инструмент не сможет его прочитать вообще (см. примечание о зашифрованных PDF выше).

Question 4

Почему счётчик выше, чем видимые изображения?

Accepted Answer

Некоторые PDF используют несколько XObjects изображений на одно видимое изображение (например, альфа-канал soft-mask, хранящийся как отдельное полутоновое изображение). v1 извлекает каждое — soft-mask делает основное изображение правильным при композитинге, но сам по себе выглядит как чёрно-белый силуэт.

Question 5

Загружается ли мой PDF?

Accepted Answer

Нет. Всё работает в вашем браузере — ваш PDF парсится pdfjs-dist, а битмапы изображений рендерятся через canvas, всё на стороне клиента. Никаких сетевых запросов не делается.

Question 6

PDF какого размера я могу извлекать?

Accepted Answer

До примерно 100 МБ PDF, прежде чем браузер начнёт работать медленно. Жёсткое ограничение — память вашей вкладки; если извлечение упадёт по OOM, разделите PDF через /pdf-split и обрабатывайте каждую часть отдельно.

Извлечь изображения из PDF

Распространённые проблемы