Đang xem bằng Tiếng Việt Chuyển sang tiếng Anh

PDF sang văn bản — OCR trong trình duyệt

Trích xuất văn bản từ PDF đã quét hoặc dựa trên ảnh, từng trang một. Mỗi trang được render thành ảnh và đưa qua OCR trong trình duyệt của bạn.

Thả tệp PDF vào đây hoặc
  1. Thả một hoặc nhiều PDF, hoặc bấm duyệt.
  2. Chọn DPI. 200 là mặc định ổn; nâng lên 300 cho trang dày đặc hay phông nhỏ.
  3. Tùy chọn giới hạn trang bằng khoảng như 1-3, 5, 8-10; cùng một khoảng áp dụng cho mỗi PDF. Để trống để OCR mọi trang của mọi tệp.
  4. Bấm Trích xuất tất cả. Lần chạy đầu tải khoảng 8 MB engine OCR và dữ liệu ngôn ngữ từ site này (được trình duyệt cache cho lần sau, dùng lại cho mọi PDF trong lô).
  5. Văn bản của PDF đầu tiên hiện trong phần xem trước bên dưới (3 trang đầu). Tải toàn bộ văn bản của mỗi tệp từ hàng của nó, sao chép output của mỗi tệp vào clipboard, hoặc lấy một .txt gộp chung.
Công cụ này làm gì?

Mỗi trang đã chọn được render vào canvas với DPI bạn chọn, rồi đưa qua Tesseract — engine OCR mã nguồn mở do Google duy trì — được biên dịch sang WebAssembly. Văn bản nhận dạng của mỗi trang được nối thành một output duy nhất với dấu --- Page N --- giữa các trang để bạn có thể truy nguyên mọi đoạn về trang nguồn.

Ví dụ

Đầu vào — một memo 2 trang đã quét, 200 DPI, tất cả trang. Textarea đầu ra:

--- Page 1 ---
MEMO

To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes

Starting this Friday, the east lot
will be closed for resurfacing…

--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected].

Lỗi và cạm bẫy thường gặp

Phần lớn thất vọng với OCR đến từ tài liệu nguồn, không phải engine. Bản quét tệ không thể cứu bằng DPI cao hơn.

  • Output bị méo trên bản quét chất lượng thấp. Ảnh nguồn dưới khoảng 150 DPI cho văn bản méo bất kể bạn đặt gì ở đây. Hãy quét lại ở 300 DPI, hoặc dùng tệp số gốc nếu có.
  • Các cột bị trộn trong output. OCR đọc theo thứ tự quét tự nhiên và có thể rối với bố cục nhiều cột. Trước hết tách PDF theo cột bằng Image Cropper trên các bản render, rồi OCR từng cột riêng.
  • Trang bị xoay 90° hoặc ngược. Tesseract không tự xoay. Hãy sửa hướng PDF bằng PDF Organizer trước, rồi thử lại.
  • Tab bị đơ trên PDF lớn. Hơn 100 trang ở 300 DPI có thể cạn bộ nhớ. Hãy render một khoảng trang trước (ví dụ 1-25) để kiểm tra chất lượng, rồi xử lý phần còn lại theo lô. Hạ xuống 200 DPI nếu thiết bị ít bộ nhớ.
  • Khoảng không hợp lệ. Invalid range: "1 through 5" — chỉ hỗ trợ dấu gạch nối và dấu phẩy. Hãy dùng định dạng 1-5.
  • PDF đã mã hóa. PDF có mật khẩu không nạp được. Mở khóa bằng trình xem PDF qua File > Save As, rồi thử lại với bản không bảo vệ.
Câu hỏi thường gặp

Nó có hoạt động với PDF đã quét và PDF chỉ-ảnh?

Có — đó chính là mục đích. Mỗi trang được render thành ảnh và đưa qua OCR, nên hoạt động giống nhau dù PDF sinh ra dạng số hay đã quét. Với PDF sinh số đã có văn bản chọn được, công cụ trích trực tiếp nhanh hơn và chính xác hơn; OCR là lựa chọn đúng khi văn bản được nướng vào ảnh trang.

Nên chọn DPI nào?

200 DPI là mặc định tốt cho độ chính xác OCR trên các bản quét và ảnh màn hình thường. 150 DPI nhanh hơn nhưng mất chữ nhỏ. 300 DPI giúp với trang dày đặc, phông nhỏ hay bản quét kém nhưng tăng gấp đôi thời gian render và bộ nhớ. Vượt 300 hiếm khi giúp nếu bản quét gốc đã thấp độ phân giải.

Vì sao lần chạy đầu chậm?

Lần chạy đầu tải khoảng 8 MB engine OCR và dữ liệu ngôn ngữ tiếng Anh từ site này, rồi cache trong trình duyệt. Các lần sau khởi động dưới một giây. Sau đó, tốc độ chủ yếu do render và nhận dạng mỗi trang — thường 3–10 giây/trang tùy DPI và độ phức tạp.

Chữ viết tay và văn bản không phải tiếng Anh thì sao?

Nhận dạng chữ viết tay yếu — Tesseract được huấn luyện trên chữ in và vật lộn với chữ thảo hoặc cẩu thả. Với văn bản không phải tiếng Anh, chọn đúng ngôn ngữ ở bộ chọn; lần OCR đầu tiên ở ngôn ngữ đó tải mô hình (3–14 MB) và cache sau đó. Trang đa ngôn ngữ tốt nhất khi chọn ngôn ngữ chiếm ưu thế.

Có xử lý được PDF có mật khẩu?

Không. PDF mã hóa nạp lỗi. Hãy mở tệp trong trình xem PDF, nhập mật khẩu và lưu lại qua File > Save As để tạo bản không bảo vệ. Rồi thả bản đó vào đây.

Các bạn có lưu PDF của tôi hay văn bản đã trích?

Không. Chúng tôi không lưu PDF bạn thả, ảnh trang đã render, hay văn bản đã trích. Mọi thứ bị hủy khi bạn đóng hoặc làm mới tab — không log, không bản ghi phía chúng tôi về những gì bạn đã OCR. Bạn có thể xác minh bằng DevTools của trình duyệt.