현재 언어: 한국어 영어로 보기

이미지를 텍스트로 — 브라우저에서 OCR

사진, 스크린샷, 스캔 문서에서 텍스트를 추출합니다. Tesseract OCR이 브라우저 안에서 전부 실행되고, 이미지는 어디로도 전송되지 않아요.

이미지를 여기에 끌어다 놓으세요 또는
  1. 이미지를 끌어다 놓거나 "파일 선택"을 누르세요 — JPG, PNG, WebP, BMP 모두 지원합니다.
  2. 영어가 아닌 텍스트라면 해당 언어를 선택하세요. 그 언어로 처음 실행할 때 모델(3~14 MB)을 내려받고 이후에는 브라우저에 캐시됩니다.
  3. "모두 추출"을 누르세요. 처음 실행할 때는 OCR 엔진과 언어 데이터(약 8 MB)를 이 사이트에서 내려받습니다. 이후에는 브라우저에 캐시되어 배치 안의 모든 이미지에서 재사용돼요.
  4. 첫 번째 이미지의 인식 결과가 아래 미리보기에 보입니다. 각 행의 다운로드 버튼으로 파일별 텍스트를 받거나, 전체를 클립보드에 복사하거나, 하나로 합친 .txt 파일로 받을 수 있어요.
어떤 도구인가요?

OCR(광학 문자 인식)은 "글자처럼 생긴 픽셀"을 실제 텍스트로 바꿔 줍니다. 이 도구는 Google이 관리하는 오픈소스 OCR 엔진 Tesseract(WebAssembly로 컴파일됨)를 사용해요. 인쇄된 글자에 가장 잘 동작하고, 손글씨 인식은 상대적으로 약합니다.

더 좋은 결과를 얻는 팁

  • 글자와 배경의 대비가 분명할 것.
  • 기울어지지 않은 이미지 — 옆으로 누웠거나 기울어져 있으면 먼저 "이미지 자르기"로 회전하세요.
  • 스캔 문서는 300 DPI 이상이 좋아요.
  • 인쇄 글자가 손글씨보다 훨씬 잘 됩니다.
  • 여러 페이지 PDF라면 먼저 "PDF를 JPG / PNG로" 도구로 이미지를 만들거나, 아예 전용 도구인 "PDF를 텍스트로"를 사용하세요.

예시

입력 — 택배 송장을 찍은 영어 JPG 스크린샷. 출력 텍스트 영역:

SHIP TO:
Jane Doe
123 Main Street
Springfield, IL 62701
USA

TRACKING: 1Z 999 AA1 0123 4567 89
WEIGHT: 2.4 lbs
SHIPPED: 2026-04-12

자주 겪는 문제와 해결법

OCR 결과가 아쉬울 때는 엔진보다 원본 이미지가 원인인 경우가 많아요. 품질이 떨어지는 사진은 설정을 바꿔도 되살릴 수 없습니다.

  • 저해상도 이미지에서 글자가 깨져요. 폰 스크린샷이나 작은 썸네일에서는 글자가 뭉개집니다. 더 가까이서 다시 찍거나, 가능하면 원본 고해상도 파일을 사용하세요.
  • 이미지가 90도 또는 거꾸로 돌아가 있어요. Tesseract는 자동 회전을 하지 않습니다. 먼저 "이미지 자르기"로 방향을 바로잡고 다시 시도하세요.
  • 다단 레이아웃이 뒤섞여요. OCR은 자연스러운 스캔 순서로 읽기 때문에 여러 단으로 된 레이아웃을 혼동할 수 있어요. 먼저 이미지를 단별로 잘라낸 뒤 각 단을 따로 OCR 하세요.
  • 손글씨가 제대로 인식되지 않아요. Tesseract는 인쇄 텍스트로 학습되어 필기체나 지저분한 손글씨에는 취약합니다. 정자체 손글씨라면 어느 정도 읽히지만, 후보정이 필요해요. 필기체는 거의 동작하지 않습니다.
  • 영어가 아닌 글자가 엉망으로 나와요. 언어 선택을 영어로 둔 채 한국어, 아랍어, 중국어 이미지를 OCR 하면 결과가 무작위 문자열처럼 나옵니다. 추출 전에 드롭다운에서 해당 언어를 선택하세요.
  • 초대형 이미지에서 탭이 멈춰요. 2000만 픽셀을 넘는 사진은 인식 중에 메모리가 부족할 수 있어요. 필요한 영역만 "이미지 자르기"로 잘라내거나, 먼저 "이미지 압축"으로 용량을 줄여 보세요.
자주 묻는 질문

어떤 이미지 형식을 지원하나요?

JPG, PNG, WebP, BMP를 지원합니다. 브라우저의 표준 Image API로 디코드할 수 있는 형식이라면 동작해요. 아이폰의 HEIC 사진이라면 먼저 "HEIC를 JPG로" 도구로 변환하세요.

처음 실행할 때 왜 느린가요?

처음에는 약 4 MB의 컴파일된 엔진 코드와 4 MB의 언어 모델 데이터를 내려받습니다. 둘 다 브라우저에 캐시되어 다음부터는 1초 안에 시작돼요. 인식 자체는 일반적인 스크린샷에서 2~10초 정도 걸리고, 이미지 크기에 비례합니다.

정확도는 어느 정도인가요?

300 DPI 이상으로 잘 찍힌 인쇄 텍스트에서는 보통 95% 이상입니다. 웹사이트 폰 스크린샷은 대부분 잘 되지만, 작은 UI 글자를 놓칠 수 있어요. 저해상도 사진, 노이즈가 많은 스캔, 손글씨에서는 정확도가 크게 떨어집니다. 속도와 정확도의 균형이 좋은 fast Tesseract 언어 데이터를 사용하고 있어요.

한국어 같은 비영어 텍스트도 가능한가요?

네. 선택기에서 해당 언어를 고르세요. 그 언어로 처음 OCR 할 때 모델(3~14 MB)을 내려받고 이후에는 캐시됩니다. 지원 언어에는 한국어, 중국어(간체/번체), 일본어, 아랍어, 힌디어, 스페인어, 프랑스어, 독일어, 포르투갈어, 이탈리아어, 러시아어 등이 있어요. 여러 언어가 섞인 이미지는 주된 언어를 고르는 편이 가장 잘 동작합니다.

손글씨는 어떤가요?

손글씨 인식은 약합니다. Tesseract는 인쇄 텍스트로 학습되어 필기체나 지저분한 글씨에는 취약해요. 정자체 손글씨는 어느 정도 쓸 만하지만 완벽하진 않고, 필기체는 거의 동작하지 않습니다.

이미지나 추출된 텍스트를 저장하시나요?

아니요. 올리신 이미지도, OCR이 추출한 텍스트도 저장하지 않습니다. 탭을 닫거나 새로고침하는 순간 모두 사라져요 — 로그도, 무엇을 OCR 하셨는지에 대한 기록도 남지 않습니다. 브라우저 개발자 도구에서 직접 확인하실 수 있어요.