Hình ảnh sang Văn bản — OCR trong trình duyệt của bạn
Trích xuất văn bản từ ảnh, ảnh chụp màn hình và tài liệu được quét. Tesseract OCR chạy hoàn toàn trong trình duyệt của bạn — không có gì được tải lên.
- Thả hoặc duyệt một hoặc nhiều hình ảnh — JPG, PNG, WebP, hoặc BMP.
- Chọn một ngôn ngữ nếu văn bản của bạn không phải tiếng Anh — lần chạy đầu tiên bằng ngôn ngữ đó tải xuống mô hình (3–14 MB) và lưu vào bộ nhớ đệm trong trình duyệt của bạn cho lần sau.
- Nhấn Trích xuất tất cả. Lần chạy đầu tiên tải xuống khoảng 8 MB công cụ OCR và dữ liệu ngôn ngữ từ trang web này (được lưu vào bộ nhớ đệm bởi trình duyệt và tái sử dụng qua mọi hình ảnh trong lô).
- Văn bản được nhận dạng của hình ảnh đầu tiên xuất hiện trong bản xem trước bên dưới. Tải xuống văn bản của mỗi hình ảnh riêng lẻ từ hàng của nó, sao chép mọi thứ vào clipboard, hoặc lấy một .txt kết hợp với đầu ra của mỗi tệp được phân cách bởi tiêu đề.
Công cụ này làm gì?
OCR (Optical Character Recognition) biến các pixel trông giống như văn bản thành văn bản thực tế. Công cụ này chạy Tesseract — công cụ OCR mã nguồn mở do Google duy trì — được biên dịch sang WebAssembly. Hoạt động tốt nhất trên văn bản được in; nhận dạng chữ viết tay yếu hơn.
Mẹo để có kết quả tốt nhất
- Độ tương phản cao giữa văn bản và nền.
- Quét không bị méo — xoay hình ảnh trước bằng Image Cropper nếu nó nằm ngang hoặc nghiêng.
- 300 DPI hoặc cao hơn cho tài liệu được quét.
- Văn bản được in hoạt động tốt hơn nhiều so với chữ viết tay.
- Đối với PDF nhiều trang, trước tiên chuyển đổi sang hình ảnh bằng PDF to JPG / PNG và OCR từng trang, hoặc sử dụng công cụ PDF to Text chuyên dụng.
Ví dụ
Đầu vào — ảnh chụp màn hình của nhãn vận chuyển, tiếng Anh, JPG. Vùng văn bản đầu ra:
SHIP TO:
Jane Doe
123 Main Street
Springfield, IL 62701
USA
TRACKING: 1Z 999 AA1 0123 4567 89
WEIGHT: 2.4 lbs
SHIPPED: 2026-04-12 Lỗi và cạm bẫy thường gặp
Hầu hết những thất vọng về OCR đến từ hình ảnh nguồn, không phải từ công cụ. Một bức ảnh xấu không thể được khôi phục bằng cài đặt cao cấp hơn.
- Đầu ra bị bóp méo trên hình ảnh độ phân giải thấp. Ảnh chụp màn hình điện thoại và hình thu nhỏ tạo ra văn bản bị phá hủy. Chụp lại ảnh gần hơn, hoặc sử dụng tệp độ phân giải đầy đủ gốc nếu bạn có.
- Hình ảnh bị xoay 90° hoặc lộn ngược. Tesseract không tự động xoay. Sửa hướng trước bằng Image Cropper, sau đó thử lại.
- Các cột bị xen kẽ trong đầu ra. OCR đọc theo thứ tự quét tự nhiên và có thể nhầm lẫn các bố cục đa cột. Cắt hình ảnh theo cột trước, sau đó OCR từng cột riêng biệt.
- Chữ viết tay ra sai. Tesseract được đào tạo trên văn bản được in và gặp khó khăn với chữ viết nghiêng hoặc lộn xộn. Đối với chữ viết tay khối dễ đọc, kết quả có thể sử dụng nhưng không bao giờ tuyệt vời — hãy dự kiến dọn dẹp bằng tay.
- Văn bản không phải tiếng Anh là vô nghĩa. Để bộ chọn ngôn ngữ trên tiếng Anh trong khi OCR tiếng Hàn, Ả Rập, hoặc Trung Quốc tạo ra đầu ra trông ngẫu nhiên. Chọn ngôn ngữ phù hợp từ menu thả xuống trước khi trích xuất.
- Tab bị đóng băng trên hình ảnh khổng lồ. Ảnh trên 20 megapixel có thể cạn kiệt bộ nhớ trong quá trình nhận dạng. Cắt thành vùng bạn quan tâm bằng Image Cropper, hoặc nén bằng Image Compress trước.
Câu hỏi thường gặp
Những định dạng hình ảnh nào được hỗ trợ?
JPG, PNG, WebP, và BMP. Bất kỳ định dạng nào mà trình duyệt của bạn có thể giải mã bằng Image API tiêu chuẩn đều nên hoạt động. Đối với ảnh HEIC từ iPhone, hãy chuyển đổi sang JPG trước bằng công cụ HEIC to JPG.
Tại sao lần chạy đầu tiên chậm?
Tesseract cần khoảng 4 MB mã công cụ được biên dịch và 4 MB dữ liệu mô hình ngôn ngữ trong lần sử dụng đầu tiên. Cả hai đều được lưu vào bộ nhớ đệm bởi trình duyệt của bạn, vì vậy các lần chạy tiếp theo bắt đầu trong chưa đầy một giây. Việc nhận dạng thường mất 2–10 giây cho một ảnh chụp màn hình điển hình và tỷ lệ gần đúng với kích thước hình ảnh.
Nó chính xác đến mức nào?
Trên văn bản được in sạch ở 300 DPI hoặc cao hơn, độ chính xác thường là 95%+. Trên ảnh chụp màn hình điện thoại của các trang web, độ chính xác thường tốt nhưng có thể bỏ sót các yếu tố UI nhỏ. Trên ảnh độ phân giải thấp, quét có nhiễu, hoặc chữ viết tay, độ chính xác giảm đáng kể. Chúng tôi sử dụng dữ liệu ngôn ngữ Tesseract nhanh — cân bằng tốt giữa tốc độ và độ chính xác.
Nó có thể xử lý văn bản không phải tiếng Anh không?
Có — chọn ngôn ngữ phù hợp từ bộ chọn. Lần chạy OCR đầu tiên bằng ngôn ngữ đó tải xuống mô hình (3–14 MB) và lưu vào bộ nhớ đệm sau đó. Các ngôn ngữ được hỗ trợ bao gồm Hàn, Trung (Giản thể và Phồn thể), Nhật, Ả Rập, Hindi, Tây Ban Nha, Pháp, Đức, Bồ Đào Nha, Ý, Nga, và hơn thế nữa. Hình ảnh đa ngôn ngữ hoạt động tốt nhất khi bạn chọn ngôn ngữ chủ đạo.
Còn chữ viết tay thì sao?
Nhận dạng chữ viết tay yếu. Tesseract được đào tạo trên văn bản được in và gặp khó khăn với chữ viết nghiêng hoặc lộn xộn. Chữ viết tay khối dễ đọc tạo ra kết quả có thể sử dụng nhưng không hoàn hảo; chữ viết nghiêng thường không hoạt động chút nào.
Bạn có lưu hình ảnh của tôi hoặc văn bản được trích xuất không?
Không. Chúng tôi không lưu các hình ảnh bạn thả hoặc văn bản OCR tạo ra. Mọi thứ bị loại bỏ khi bạn đóng hoặc làm mới tab — không có log, không có bản ghi ở phía chúng tôi về những gì bạn đã OCR. Bạn có thể xác minh bằng công cụ nhà phát triển của trình duyệt.