PDF를 텍스트로 — 브라우저에서 OCR
스캔본이나 이미지 기반 PDF에서 페이지별로 텍스트를 추출합니다. 각 페이지를 이미지로 렌더링한 뒤 브라우저 안에서 OCR로 돌려요.
- PDF 파일을 하나 또는 여러 개 끌어다 놓거나 "파일 선택"을 누르세요.
- DPI를 고르세요. 200이 무난한 기본값이며, 글자가 작거나 빽빽한 페이지는 300으로 올리는 것이 좋아요.
- 필요하다면 1-3, 5, 8-10 같은 범위로 페이지를 제한할 수 있어요. 같은 범위가 모든 PDF에 적용됩니다. 비워 두면 각 파일의 모든 페이지를 OCR 처리해요.
- "모두 추출"을 누르세요. 처음 실행할 때는 OCR 엔진과 언어 데이터(약 8 MB)를 이 사이트에서 내려받습니다. 이후에는 브라우저에 캐시되어 배치 안의 모든 PDF에서 재사용돼요.
- 첫 번째 PDF의 텍스트가 아래 미리보기에 보입니다(앞 3페이지). 각 행의 다운로드 버튼으로 파일별 전체 텍스트를 받거나, 전체를 클립보드에 복사하거나, 하나로 합친 .txt 파일로 받을 수 있어요.
어떤 도구인가요?
선택된 각 페이지는 지정한 DPI로 캔버스에 렌더링된 뒤, Google이 관리하는 오픈소스 OCR 엔진인 Tesseract(WebAssembly로 컴파일됨)로 전달됩니다. 각 페이지에서 인식된 텍스트는 페이지 사이에 "--- Page N ---" 구분선과 함께 하나의 출력으로 이어 붙여져, 어느 구절이 어느 페이지에서 나왔는지 쉽게 찾을 수 있어요.
예시
입력 — 2페이지짜리 스캔 메모, 200 DPI, 전체 페이지. 출력 텍스트 영역:
--- Page 1 ---
MEMO
To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes
Starting this Friday, the east lot
will be closed for resurfacing…
--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected]. 자주 겪는 문제와 해결법
OCR 결과가 아쉬울 때는 엔진보다 원본 문서가 원인인 경우가 많아요. 낮은 품질의 스캔은 DPI를 올려도 되살릴 수 없습니다.
- 저화질 스캔에서 글자가 깨져요. 원본 이미지가 대략 150 DPI 미만이면 여기서 어떤 값을 설정해도 결과가 어긋납니다. 300 DPI로 다시 스캔하거나, 가능하면 원본 디지털 파일을 사용하세요.
- 다단 레이아웃이 뒤섞여요. OCR은 자연스러운 스캔 순서로 읽기 때문에 여러 단으로 된 레이아웃을 혼동할 수 있어요. 페이지 렌더 이미지를 "이미지 자르기"로 단별로 나눈 뒤 각 단을 따로 OCR 하세요.
- 페이지가 90도 또는 거꾸로 회전돼 있어요. Tesseract는 자동 회전을 하지 않습니다. 먼저 "PDF 정리" 도구로 방향을 바로잡은 다음 다시 시도하세요.
- 대용량 PDF에서 탭이 멈춰요. 300 DPI에서 100페이지가 넘어가면 메모리가 부족할 수 있어요. 먼저 1-25 같은 일부 범위로 품질을 확인한 뒤 나머지를 처리하세요. 메모리가 넉넉하지 않은 기기라면 200 DPI로 낮추세요.
- 잘못된 범위. Invalid range: "1 through 5" — 하이픈과 쉼표만 지원합니다. 1-5 형식을 사용하세요.
- 암호화된 PDF. 비밀번호가 걸린 PDF는 불러오지 못합니다. PDF 뷰어에서 열어 비밀번호를 입력한 뒤 "파일 > 다른 이름으로 저장"으로 보호를 해제한 사본을 만들어 다시 시도하세요.
자주 묻는 질문
스캔된 PDF나 이미지로만 된 PDF에서도 동작하나요?
네, 그게 이 도구의 목적입니다. 각 페이지를 이미지로 렌더링한 뒤 OCR로 처리하므로, 디지털로 만들어진 PDF든 스캔본이든 동일하게 동작해요. 이미 선택 가능한 텍스트가 들어 있는 디지털 PDF라면 텍스트 직접 추출 도구가 더 빠르고 정확합니다. OCR은 텍스트가 페이지 이미지 안에 "박혀" 있을 때 쓰세요.
DPI는 어떤 값을 골라야 하나요?
일반적인 스캔이나 스크린샷에서는 200 DPI가 적절한 기본값입니다. 150 DPI는 빠르지만 작은 글자를 놓치고, 300 DPI는 빽빽한 페이지나 작은 폰트, 품질이 떨어지는 스캔에 도움이 되지만 렌더링 시간과 메모리 사용량이 두 배가 돼요. 원본 스캔 자체가 저해상도라면 300을 넘겨도 큰 효과가 없어요.
처음 실행할 때 왜 느린가요?
처음에는 OCR 엔진과 언어 데이터(약 8 MB)를 이 사이트에서 내려받아 브라우저에 캐시합니다. 이후에는 1초 이내에 시작돼요. 그다음부터는 페이지별 렌더링과 인식 속도가 지배적이며, DPI와 페이지 복잡도에 따라 일반적으로 페이지당 3~10초 정도 걸립니다.
손글씨나 영어 이외의 언어도 가능한가요?
손글씨 인식은 약합니다 — Tesseract는 인쇄 텍스트로 학습되어 필기체나 지저분한 글씨에는 취약해요. 다른 언어는 선택기에서 해당 언어를 고르세요. 그 언어로 처음 OCR 할 때 언어 모델(3~14 MB)을 내려받고, 이후에는 캐시됩니다. 여러 언어가 섞인 페이지는 주된 언어를 고르는 편이 가장 잘 동작해요.
비밀번호가 걸린 PDF도 처리할 수 있나요?
아니요. 암호화된 PDF는 로드에 실패합니다. PDF 뷰어에서 파일을 연 뒤 비밀번호를 입력하고, "파일 > 다른 이름으로 저장"으로 보호되지 않은 사본을 만들어 그 사본을 여기에 올리세요.
PDF나 추출된 텍스트를 저장하시나요?
아니요. 올리신 PDF도, 렌더링된 페이지 이미지도, 추출된 텍스트도 저장하지 않습니다. 탭을 닫거나 새로고침하는 순간 모두 사라져요 — 로그도, 무엇을 OCR 하셨는지에 대한 기록도 남지 않습니다. 브라우저 개발자 도구에서 직접 확인하실 수 있어요.