Question 1

왜 결과가 JPG가 아니라 PNG 인가요?

Accepted Answer

PNG 는 투명도를 보존하고 재인코딩 아티팩트를 피해요. 픽셀은 원본과 같지만 무손실이라 파일이 더 큽니다. 용량이 중요하다면 결과를 /image-compress 의 WebP 모드로 한번 더 처리하세요.

Question 2

각 이미지가 어느 페이지에서 왔는지 어떻게 알 수 있나요?

Accepted Answer

파일명은 `pageN-imgM.png` 형식이에요 — N 은 출처 페이지 번호, M 은 그 페이지 내의 일련번호입니다. 파일명으로 정렬하면 PDF 내 등장 순서대로 보여요.

Question 3

암호화된 이미지는 깨져서 나오나요?

Accepted Answer

암호화되지 않은 PDF 안의 이미지 데이터는 별도로 암호화돼 있지 않아서 정상적으로 디코딩돼요. PDF 자체가 암호화돼 있다면 이 도구는 아예 읽지 못해요(위 암호화 PDF 항목 참고).

Question 4

왜 카운트가 보이는 이미지 수보다 많나요?

Accepted Answer

일부 PDF는 보이는 이미지 한 장당 여러 XObject를 사용해요(예: 알파 마스크가 별도 그레이스케일 이미지로 저장된 경우). v1 은 각각 추출해요 — 합성 시 메인 이미지를 보기 좋게 만드는 소프트 마스크는, 단독으로 보면 흑백 실루엣처럼 보입니다.

Question 5

PDF가 어디론가 업로드되나요?

Accepted Answer

아니요. 모든 처리는 브라우저 안에서 진행돼요. PDF는 pdfjs-dist 가 파싱하고 이미지 비트맵은 캔버스에서 렌더링되며, 모두 클라이언트 사이드에서 일어납니다. 네트워크 요청은 발생하지 않아요.

Question 6

얼마나 큰 PDF까지 처리되나요?

Accepted Answer

약 100 MB 까지는 무리 없이 동작해요. 한계는 탭 메모리예요 — 추출 중 OOM 이 나면 /pdf-split 으로 PDF를 나눠서 각 섹션을 따로 처리하세요.

PDF 이미지 추출