Question 1

스캔된 PDF나 이미지로만 된 PDF에서도 동작하나요?

Accepted Answer

네, 그게 이 도구의 목적입니다. 각 페이지를 이미지로 렌더링한 뒤 OCR로 처리하므로, 디지털로 만들어진 PDF든 스캔본이든 동일하게 동작해요. 이미 선택 가능한 텍스트가 들어 있는 디지털 PDF라면 텍스트 직접 추출 도구가 더 빠르고 정확합니다. OCR은 텍스트가 페이지 이미지 안에 "박혀" 있을 때 쓰세요.

Question 2

DPI는 어떤 값을 골라야 하나요?

Accepted Answer

일반적인 스캔이나 스크린샷에서는 200 DPI가 적절한 기본값입니다. 150 DPI는 빠르지만 작은 글자를 놓치고, 300 DPI는 빽빽한 페이지나 작은 폰트, 품질이 떨어지는 스캔에 도움이 되지만 렌더링 시간과 메모리 사용량이 두 배가 돼요. 원본 스캔 자체가 저해상도라면 300을 넘겨도 큰 효과가 없어요.

Question 3

처음 실행할 때 왜 느린가요?

Accepted Answer

처음에는 OCR 엔진과 언어 데이터(약 8 MB)를 이 사이트에서 내려받아 브라우저에 캐시합니다. 이후에는 1초 이내에 시작돼요. 그다음부터는 페이지별 렌더링과 인식 속도가 지배적이며, DPI와 페이지 복잡도에 따라 일반적으로 페이지당 3~10초 정도 걸립니다.

Question 4

손글씨나 영어 이외의 언어도 가능한가요?

Accepted Answer

손글씨 인식은 약합니다 — Tesseract는 인쇄 텍스트로 학습되어 필기체나 지저분한 글씨에는 취약해요. 다른 언어는 선택기에서 해당 언어를 고르세요. 그 언어로 처음 OCR 할 때 언어 모델(3~14 MB)을 내려받고, 이후에는 캐시됩니다. 여러 언어가 섞인 페이지는 주된 언어를 고르는 편이 가장 잘 동작해요.

Question 5

비밀번호가 걸린 PDF도 처리할 수 있나요?

Accepted Answer

아니요. 암호화된 PDF는 로드에 실패합니다. PDF 뷰어에서 파일을 연 뒤 비밀번호를 입력하고, "파일 > 다른 이름으로 저장"으로 보호되지 않은 사본을 만들어 그 사본을 여기에 올리세요.

Question 6

PDF나 추출된 텍스트를 저장하시나요?

Accepted Answer

아니요. 올리신 PDF도, 렌더링된 페이지 이미지도, 추출된 텍스트도 저장하지 않습니다. 탭을 닫거나 새로고침하는 순간 모두 사라져요 — 로그도, 무엇을 OCR 하셨는지에 대한 기록도 남지 않습니다. 브라우저 개발자 도구에서 직접 확인하실 수 있어요.

PDF를 텍스트로 — 브라우저에서 OCR

예시

자주 겪는 문제와 해결법