Question 1

Apakah ini berfungsi pada PDF pindai dan PDF hanya-gambar?

Accepted Answer

Ya — itulah intinya. Tiap halaman dirender ke gambar dan dijalankan melalui OCR, jadi berfungsi sama baik PDF-nya lahir digital maupun hasil pindai. Untuk PDF lahir digital yang sudah berisi teks dapat dipilih, alat ekstraksi teks langsung lebih cepat dan akurat; OCR adalah pilihan tepat saat teks menyatu dengan gambar halaman.

Question 2

DPI mana yang sebaiknya dipilih?

Accepted Answer

200 DPI default yang baik untuk akurasi OCR pada pindaian dan screenshot biasa. 150 DPI lebih cepat tapi kehilangan teks kecil. 300 DPI membantu untuk halaman padat, font kecil, atau pindaian berkualitas rendah tetapi menggandakan waktu render dan penggunaan memori. Di atas 300 jarang membantu jika pindaian sumber sendiri beresolusi lebih rendah.

Question 3

Mengapa jalan pertama lambat?

Accepted Answer

Jalan pertama mengunduh sekitar 8 MB mesin OCR dan data bahasa Inggris dari situs ini, lalu meng-cache-nya di browser Anda. Jalan berikutnya mulai dalam kurang dari satu detik. Setelah itu kecepatan didominasi oleh render dan pengenalan tiap halaman — biasanya 3–10 detik per halaman tergantung DPI dan kompleksitas halaman.

Question 4

Bagaimana dengan tulisan tangan dan teks non-Inggris?

Accepted Answer

Pengenalan tulisan tangan lemah — Tesseract dilatih pada teks cetak dan kesulitan dengan tulisan latin sambung atau berantakan. Untuk teks non-Inggris, pilih bahasa yang sesuai dari pemilih; jalan OCR pertama dalam bahasa itu mengunduh model (3–14 MB) dan meng-cache-nya setelahnya. Halaman multi-bahasa paling baik ketika Anda memilih bahasa dominan.

Question 5

Bisakah menangani PDF terproteksi kata sandi?

Accepted Answer

Tidak. PDF terenkripsi gagal dimuat dengan error. Buka file di viewer PDF Anda, ketik kata sandi, dan simpan ulang via File > Save As untuk menghasilkan salinan tanpa proteksi. Lalu jatuhkan salinan itu di sini.

Question 6

Apakah kalian menyimpan PDF saya atau teks hasil ekstrak?

Accepted Answer

Tidak. Kami tidak menyimpan PDF yang Anda jatuhkan, gambar halaman hasil render, atau teks hasil ekstrak. Semuanya dibuang saat Anda menutup atau menyegarkan tab — tidak ada log, tidak ada catatan di sisi kami tentang apa yang Anda OCR. Anda bisa verifikasi dengan DevTools browser.

PDF ke Teks — OCR di Browser Anda

Contoh

Kesalahan umum dan jebakan