Question 1

Tại sao hình ảnh của tôi là PNG, không phải JPG?

Accepted Answer

PNG bảo toàn độ trong suốt và tránh các tạo tác mã hóa lại. Các pixel giống với bản gốc; tệp lớn hơn vì PNG là không mất dữ liệu. Để tiết kiệm dung lượng, hãy chạy kết quả qua /image-compress ở chế độ WebP.

Question 2

Làm thế nào để biết mỗi hình ảnh đến từ trang nào?

Accepted Answer

Tên tệp tuân theo mẫu `pageN-imgM.png` — N là số trang nguồn, M là số thứ tự trong trang đó. Sắp xếp theo tên tệp để xem thứ tự chúng xuất hiện trong PDF.

Question 3

Hình ảnh được mã hóa có ra bị xáo trộn không?

Accepted Answer

Dữ liệu hình ảnh bên trong một PDF không được mã hóa không được mã hóa riêng — nó giải mã bình thường. Nếu chính PDF được mã hóa, công cụ không thể đọc nó (xem ghi chú PDF được mã hóa ở trên).

Question 4

Tại sao số đếm cao hơn các hình ảnh có thể nhìn thấy?

Accepted Answer

Một số PDFs sử dụng nhiều XObjects hình ảnh cho mỗi hình ảnh có thể nhìn thấy (ví dụ: kênh alpha soft-mask được lưu dưới dạng hình ảnh thang xám riêng biệt). v1 trích xuất từng cái — soft-mask là cái làm cho hình ảnh chính trông đúng khi tổng hợp, nhưng tự nó xuất hiện như một hình bóng đen trắng.

Question 5

PDF của tôi có được tải lên không?

Accepted Answer

Không. Mọi thứ chạy trong trình duyệt của bạn — PDF được phân tích cú pháp bởi pdfjs-dist và bitmap hình ảnh được render qua canvas, tất cả ở phía client. Không có yêu cầu mạng nào được kích hoạt.

Question 6

PDF lớn đến mức nào tôi có thể trích xuất?

Accepted Answer

Lên đến khoảng 100 MB PDF trước khi trình duyệt bắt đầu cảm thấy chậm chạp. Giới hạn cứng là bộ nhớ tab của bạn — nếu trích xuất OOM, hãy chia PDF qua /pdf-split và chạy từng phần riêng biệt.

Trích xuất hình ảnh từ PDF

Vấn đề thường gặp