PDF ke Teks — OCR di Browser Anda
Ekstrak teks dari PDF hasil pindai atau berbasis gambar, halaman demi halaman. Tiap halaman dirender ke gambar dan dijalankan melalui OCR di browser Anda.
- Jatuhkan satu atau banyak PDF, atau klik telusuri.
- Pilih DPI. 200 default yang baik; naikkan ke 300 untuk halaman padat atau huruf kecil.
- Secara opsional batasi halaman dengan rentang seperti 1-3, 5, 8-10; rentang yang sama berlaku untuk tiap PDF. Kosongkan untuk OCR setiap halaman tiap file.
- Klik Ekstrak semua. Jalan pertama mengunduh sekitar 8 MB mesin OCR dan data bahasa dari situs ini (di-cache oleh browser untuk lain kali, dan dipakai ulang untuk tiap PDF dalam batch).
- Teks PDF pertama muncul di pratinjau di bawah (3 halaman pertama). Unduh teks lengkap tiap file dari barisnya, salin output tiap file ke clipboard, atau ambil satu .txt gabungan.
Apa fungsinya?
Tiap halaman yang dipilih dirender ke canvas dengan DPI pilihan Anda, lalu dijalankan melalui Tesseract — mesin OCR open-source yang dipelihara Google — dikompilasi ke WebAssembly. Teks hasil pengenalan tiap halaman disambung menjadi satu output dengan pemisah --- Page N --- antara halaman agar Anda bisa menemukan potongan manapun kembali ke halaman sumbernya.
Contoh
Input — memo pindai 2 halaman, 200 DPI, semua halaman. Textarea output:
--- Page 1 ---
MEMO
To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes
Starting this Friday, the east lot
will be closed for resurfacing…
--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected]. Kesalahan umum dan jebakan
Kebanyakan kekecewaan OCR datang dari dokumen sumber, bukan mesinnya. Pindaian buruk tidak bisa diselamatkan dengan DPI tinggi.
- Output kacau pada pindaian berkualitas rendah. Gambar sumber di bawah sekitar 150 DPI menghasilkan teks kacau apa pun yang Anda atur di sini. Pindai ulang di 300 DPI, atau pakai file digital asli jika ada.
- Kolom bercampur di output. OCR membaca mengikuti urutan pindai alami dan bisa bingung pada tata letak banyak kolom. Bagi dulu PDF per kolom dengan Image Cropper pada render halaman, lalu OCR tiap kolom terpisah.
- Halaman diputar 90° atau terbalik. Tesseract tidak auto-rotasi. Perbaiki orientasi PDF dulu dengan PDF Organizer, lalu coba lagi.
- Tab membeku pada PDF besar. Lebih dari 100 halaman di 300 DPI bisa menghabiskan memori. Render rentang halaman dulu (mis. 1-25) untuk cek kualitas, lalu batch sisanya. Turun ke 200 DPI jika memori perangkat terbatas.
- Rentang tidak valid. Invalid range: "1 through 5" — hanya tanda hubung dan koma yang didukung. Gunakan format 1-5.
- PDF terenkripsi. PDF terproteksi kata sandi gagal dimuat. Buka kunci di viewer PDF Anda via File > Save As, lalu coba ulang dengan salinan tanpa proteksi.
Pertanyaan yang sering diajukan
Apakah ini berfungsi pada PDF pindai dan PDF hanya-gambar?
Ya — itulah intinya. Tiap halaman dirender ke gambar dan dijalankan melalui OCR, jadi berfungsi sama baik PDF-nya lahir digital maupun hasil pindai. Untuk PDF lahir digital yang sudah berisi teks dapat dipilih, alat ekstraksi teks langsung lebih cepat dan akurat; OCR adalah pilihan tepat saat teks menyatu dengan gambar halaman.
DPI mana yang sebaiknya dipilih?
200 DPI default yang baik untuk akurasi OCR pada pindaian dan screenshot biasa. 150 DPI lebih cepat tapi kehilangan teks kecil. 300 DPI membantu untuk halaman padat, font kecil, atau pindaian berkualitas rendah tetapi menggandakan waktu render dan penggunaan memori. Di atas 300 jarang membantu jika pindaian sumber sendiri beresolusi lebih rendah.
Mengapa jalan pertama lambat?
Jalan pertama mengunduh sekitar 8 MB mesin OCR dan data bahasa Inggris dari situs ini, lalu meng-cache-nya di browser Anda. Jalan berikutnya mulai dalam kurang dari satu detik. Setelah itu kecepatan didominasi oleh render dan pengenalan tiap halaman — biasanya 3–10 detik per halaman tergantung DPI dan kompleksitas halaman.
Bagaimana dengan tulisan tangan dan teks non-Inggris?
Pengenalan tulisan tangan lemah — Tesseract dilatih pada teks cetak dan kesulitan dengan tulisan latin sambung atau berantakan. Untuk teks non-Inggris, pilih bahasa yang sesuai dari pemilih; jalan OCR pertama dalam bahasa itu mengunduh model (3–14 MB) dan meng-cache-nya setelahnya. Halaman multi-bahasa paling baik ketika Anda memilih bahasa dominan.
Bisakah menangani PDF terproteksi kata sandi?
Tidak. PDF terenkripsi gagal dimuat dengan error. Buka file di viewer PDF Anda, ketik kata sandi, dan simpan ulang via File > Save As untuk menghasilkan salinan tanpa proteksi. Lalu jatuhkan salinan itu di sini.
Apakah kalian menyimpan PDF saya atau teks hasil ekstrak?
Tidak. Kami tidak menyimpan PDF yang Anda jatuhkan, gambar halaman hasil render, atau teks hasil ekstrak. Semuanya dibuang saat Anda menutup atau menyegarkan tab — tidak ada log, tidak ada catatan di sisi kami tentang apa yang Anda OCR. Anda bisa verifikasi dengan DevTools browser.