Question 1

Nó có hoạt động với PDF đã quét và PDF chỉ-ảnh?

Accepted Answer

Có — đó chính là mục đích. Mỗi trang được render thành ảnh và đưa qua OCR, nên hoạt động giống nhau dù PDF sinh ra dạng số hay đã quét. Với PDF sinh số đã có văn bản chọn được, công cụ trích trực tiếp nhanh hơn và chính xác hơn; OCR là lựa chọn đúng khi văn bản được nướng vào ảnh trang.

Question 2

Nên chọn DPI nào?

Accepted Answer

200 DPI là mặc định tốt cho độ chính xác OCR trên các bản quét và ảnh màn hình thường. 150 DPI nhanh hơn nhưng mất chữ nhỏ. 300 DPI giúp với trang dày đặc, phông nhỏ hay bản quét kém nhưng tăng gấp đôi thời gian render và bộ nhớ. Vượt 300 hiếm khi giúp nếu bản quét gốc đã thấp độ phân giải.

Question 3

Vì sao lần chạy đầu chậm?

Accepted Answer

Lần chạy đầu tải khoảng 8 MB engine OCR và dữ liệu ngôn ngữ tiếng Anh từ site này, rồi cache trong trình duyệt. Các lần sau khởi động dưới một giây. Sau đó, tốc độ chủ yếu do render và nhận dạng mỗi trang — thường 3–10 giây/trang tùy DPI và độ phức tạp.

Question 4

Chữ viết tay và văn bản không phải tiếng Anh thì sao?

Accepted Answer

Nhận dạng chữ viết tay yếu — Tesseract được huấn luyện trên chữ in và vật lộn với chữ thảo hoặc cẩu thả. Với văn bản không phải tiếng Anh, chọn đúng ngôn ngữ ở bộ chọn; lần OCR đầu tiên ở ngôn ngữ đó tải mô hình (3–14 MB) và cache sau đó. Trang đa ngôn ngữ tốt nhất khi chọn ngôn ngữ chiếm ưu thế.

Question 5

Có xử lý được PDF có mật khẩu?

Accepted Answer

Không. PDF mã hóa nạp lỗi. Hãy mở tệp trong trình xem PDF, nhập mật khẩu và lưu lại qua File > Save As để tạo bản không bảo vệ. Rồi thả bản đó vào đây.

Question 6

Các bạn có lưu PDF của tôi hay văn bản đã trích?

Accepted Answer

Không. Chúng tôi không lưu PDF bạn thả, ảnh trang đã render, hay văn bản đã trích. Mọi thứ bị hủy khi bạn đóng hoặc làm mới tab — không log, không bản ghi phía chúng tôi về những gì bạn đã OCR. Bạn có thể xác minh bằng DevTools của trình duyệt.

PDF sang văn bản — OCR trong trình duyệt

Ví dụ

Lỗi và cạm bẫy thường gặp