이미지를 텍스트로 — 브라우저에서 OCR

사진, 스크린샷, 스캔 문서에서 텍스트를 추출합니다. Tesseract OCR이 브라우저 안에서 전부 실행되고, 이미지는 어디로도 전송되지 않아요.

이미지를 여기에 끌어다 놓으세요 또는

이미지를 끌어다 놓거나 "파일 선택"을 누르세요 — JPG, PNG, WebP, BMP 모두 지원합니다.
영어가 아닌 텍스트라면 해당 언어를 선택하세요. 그 언어로 처음 실행할 때 모델(3~14 MB)을 내려받고 이후에는 브라우저에 캐시됩니다.
"모두 추출"을 누르세요. 처음 실행할 때는 OCR 엔진과 언어 데이터(약 8 MB)를 이 사이트에서 내려받습니다. 이후에는 브라우저에 캐시되어 배치 안의 모든 이미지에서 재사용돼요.
첫 번째 이미지의 인식 결과가 아래 미리보기에 보입니다. 각 행의 다운로드 버튼으로 파일별 텍스트를 받거나, 전체를 클립보드에 복사하거나, 하나로 합친 .txt 파일로 받을 수 있어요.

어떤 도구인가요?

OCR(광학 문자 인식)은 "글자처럼 생긴 픽셀"을 실제 텍스트로 바꿔 줍니다. 이 도구는 Google이 관리하는 오픈소스 OCR 엔진 Tesseract(WebAssembly로 컴파일됨)를 사용해요. 인쇄된 글자에 가장 잘 동작하고, 손글씨 인식은 상대적으로 약합니다.

더 좋은 결과를 얻는 팁

글자와 배경의 대비가 분명할 것.
기울어지지 않은 이미지 — 옆으로 누웠거나 기울어져 있으면 먼저 "이미지 자르기"로 회전하세요.
스캔 문서는 300 DPI 이상이 좋아요.
인쇄 글자가 손글씨보다 훨씬 잘 됩니다.
여러 페이지 PDF라면 먼저 "PDF를 JPG / PNG로" 도구로 이미지를 만들거나, 아예 전용 도구인 "PDF를 텍스트로"를 사용하세요.

예시

입력 — 택배 송장을 찍은 영어 JPG 스크린샷. 출력 텍스트 영역:

SHIP TO:
Jane Doe
123 Main Street
Springfield, IL 62701
USA

TRACKING: 1Z 999 AA1 0123 4567 89
WEIGHT: 2.4 lbs
SHIPPED: 2026-04-12

자주 겪는 문제와 해결법

OCR 결과가 아쉬울 때는 엔진보다 원본 이미지가 원인인 경우가 많아요. 품질이 떨어지는 사진은 설정을 바꿔도 되살릴 수 없습니다.

저해상도 이미지에서 글자가 깨져요. 폰 스크린샷이나 작은 썸네일에서는 글자가 뭉개집니다. 더 가까이서 다시 찍거나, 가능하면 원본 고해상도 파일을 사용하세요.
이미지가 90도 또는 거꾸로 돌아가 있어요. Tesseract는 자동 회전을 하지 않습니다. 먼저 "이미지 자르기"로 방향을 바로잡고 다시 시도하세요.
다단 레이아웃이 뒤섞여요. OCR은 자연스러운 스캔 순서로 읽기 때문에 여러 단으로 된 레이아웃을 혼동할 수 있어요. 먼저 이미지를 단별로 잘라낸 뒤 각 단을 따로 OCR 하세요.
손글씨가 제대로 인식되지 않아요. Tesseract는 인쇄 텍스트로 학습되어 필기체나 지저분한 손글씨에는 취약합니다. 정자체 손글씨라면 어느 정도 읽히지만, 후보정이 필요해요. 필기체는 거의 동작하지 않습니다.
영어가 아닌 글자가 엉망으로 나와요. 언어 선택을 영어로 둔 채 한국어, 아랍어, 중국어 이미지를 OCR 하면 결과가 무작위 문자열처럼 나옵니다. 추출 전에 드롭다운에서 해당 언어를 선택하세요.
초대형 이미지에서 탭이 멈춰요. 2000만 픽셀을 넘는 사진은 인식 중에 메모리가 부족할 수 있어요. 필요한 영역만 "이미지 자르기"로 잘라내거나, 먼저 "이미지 압축"으로 용량을 줄여 보세요.

자주 묻는 질문

어떤 이미지 형식을 지원하나요?

JPG, PNG, WebP, BMP를 지원합니다. 브라우저의 표준 Image API로 디코드할 수 있는 형식이라면 동작해요. 아이폰의 HEIC 사진이라면 먼저 "HEIC를 JPG로" 도구로 변환하세요.

처음 실행할 때 왜 느린가요?

처음에는 약 4 MB의 컴파일된 엔진 코드와 4 MB의 언어 모델 데이터를 내려받습니다. 둘 다 브라우저에 캐시되어 다음부터는 1초 안에 시작돼요. 인식 자체는 일반적인 스크린샷에서 2~10초 정도 걸리고, 이미지 크기에 비례합니다.

정확도는 어느 정도인가요?

300 DPI 이상으로 잘 찍힌 인쇄 텍스트에서는 보통 95% 이상입니다. 웹사이트 폰 스크린샷은 대부분 잘 되지만, 작은 UI 글자를 놓칠 수 있어요. 저해상도 사진, 노이즈가 많은 스캔, 손글씨에서는 정확도가 크게 떨어집니다. 속도와 정확도의 균형이 좋은 fast Tesseract 언어 데이터를 사용하고 있어요.

한국어 같은 비영어 텍스트도 가능한가요?

네. 선택기에서 해당 언어를 고르세요. 그 언어로 처음 OCR 할 때 모델(3~14 MB)을 내려받고 이후에는 캐시됩니다. 지원 언어에는 한국어, 중국어(간체/번체), 일본어, 아랍어, 힌디어, 스페인어, 프랑스어, 독일어, 포르투갈어, 이탈리아어, 러시아어 등이 있어요. 여러 언어가 섞인 이미지는 주된 언어를 고르는 편이 가장 잘 동작합니다.

손글씨는 어떤가요?

손글씨 인식은 약합니다. Tesseract는 인쇄 텍스트로 학습되어 필기체나 지저분한 글씨에는 취약해요. 정자체 손글씨는 어느 정도 쓸 만하지만 완벽하진 않고, 필기체는 거의 동작하지 않습니다.

이미지나 추출된 텍스트를 저장하시나요?

아니요. 올리신 이미지도, OCR이 추출한 텍스트도 저장하지 않습니다. 탭을 닫거나 새로고침하는 순간 모두 사라져요 — 로그도, 무엇을 OCR 하셨는지에 대한 기록도 남지 않습니다. 브라우저 개발자 도구에서 직접 확인하실 수 있어요.