PDF إلى نص — OCR داخل متصفحك
استخرج النص من ملفات PDF الممسوحة ضوئياً أو المعتمدة على الصور، صفحةً صفحة. تُعرض كل صفحة كصورة ثم تُمرَّر عبر OCR داخل متصفحك.
- أفلت ملف PDF واحداً أو عدة ملفات، أو اضغط تصفح.
- اختر DPI. 200 خيار افتراضي جيد؛ ارفعه إلى 300 للصفحات الكثيفة أو الخطوط الصغيرة.
- يمكنك اختيارياً تقييد الصفحات بنطاق مثل 1-3, 5, 8-10؛ يُطبَّق النطاق نفسه على كل PDF. اتركه فارغاً لإجراء OCR على كل صفحة في كل ملف.
- اضغط "استخراج الكل". في أول تشغيل يتم تنزيل نحو 8 ميجابايت من محرك OCR وبيانات اللغة من هذا الموقع (يُخزّنها متصفحك لاستخدامها لاحقاً، وتُعاد في كل PDF ضمن الدفعة).
- يظهر نص أول PDF في المعاينة أدناه (أول 3 صفحات). نزّل النص الكامل لكل ملف من صفه، أو انسخ ناتج جميع الملفات إلى الحافظة، أو احصل على ملف .txt مُدمج واحد.
ماذا تفعل؟
تُعرض كل صفحة مختارة على canvas بحسب DPI الذي اخترته، ثم تمر عبر Tesseract — محرك OCR مفتوح المصدر الذي تشرف عليه Google — المُجمَّع بصيغة WebAssembly. يُدمج النص المتعرف عليه من كل صفحة في مخرج واحد مع فاصل "--- Page N ---" بين الصفحات، حتى يمكنك ربط أي فقرة بصفحتها الأصلية.
مثال
الإدخال — مذكرة ممسوحة من صفحتين، 200 DPI، كل الصفحات. منطقة نص الإخراج:
--- Page 1 ---
MEMO
To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes
Starting this Friday, the east lot
will be closed for resurfacing…
--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected]. الأخطاء الشائعة والملاحظات
معظم خيبات OCR مصدرها المستند نفسه لا المحرك. المسح الضوئي السيئ لا يُستعاد بزيادة DPI.
- مخرج مشوّش لمسح ضوئي منخفض الجودة. عندما تكون صور المصدر تحت حوالي 150 DPI، ستحصل على نص مشوّش مهما ضبطت هنا. أعد المسح بـ 300 DPI، أو استخدم الملف الرقمي الأصلي إن توفر.
- الأعمدة متداخلة في المخرج. يقرأ OCR بالترتيب الطبيعي للمسح وقد يخلط بين تخطيطات متعددة الأعمدة. قسّم PDF حسب الأعمدة أولاً باستخدام أداة قص الصور على عروض الصفحات، ثم أجرِ OCR لكل عمود على حدة.
- الصفحات مُدارة 90° أو مقلوبة. لا يقوم Tesseract بالتدوير التلقائي. صحّح اتجاه PDF أولاً باستخدام أداة تنظيم PDF، ثم أعد المحاولة.
- تجمد التبويب على PDF كبير. أكثر من 100 صفحة بـ 300 DPI قد تستنزف الذاكرة. اعرض نطاقاً أولاً (مثلاً 1-25) للتأكد من الجودة، ثم عالج الباقي دفعات. انزل إلى 200 DPI إذا كان جهازك محدود الذاكرة.
- نطاق غير صالح. Invalid range: "1 through 5" — تدعم فقط الواصلات والفواصل. استخدم الصيغة 1-5.
- PDF مشفّر. ملفات PDF المحمية بكلمة مرور تفشل في التحميل. ألغِ الحماية عبر قارئ PDF من "ملف > حفظ باسم"، ثم أعد المحاولة بالنسخة غير المحمية.
الأسئلة الشائعة
هل يعمل على PDF الممسوحة ضوئياً وتلك القائمة على الصور فقط؟
نعم — هذا هو الهدف. تُعرض كل صفحة كصورة ثم تمر عبر OCR، لذا يعمل بنفس الطريقة سواء كان PDF رقمياً أصلياً أو ممسوحاً ضوئياً. إذا كان PDF رقمياً ويحوي نصاً قابلاً للتحديد أصلاً، فأدوات استخراج النص المباشرة أسرع وأدق؛ أما OCR فهو الخيار الصحيح حين يكون النص مضمّناً داخل صور الصفحات.
أي DPI أختار؟
200 DPI قيمة افتراضية جيدة لدقة OCR على المسوحات ولقطات الشاشة المعتادة. 150 DPI أسرع لكنه يفقد النص الصغير. 300 DPI يساعد في الصفحات الكثيفة والخطوط الصغيرة والمسوحات منخفضة الجودة، لكنه يضاعف زمن العرض واستخدام الذاكرة. تجاوز 300 نادراً ما يساعد إذا كان المصدر نفسه بدقة أقل.
لماذا أول تشغيل بطيء؟
أول تشغيل يُنزّل حوالي 8 ميجابايت من محرك OCR وبيانات اللغة الإنجليزية من هذا الموقع، ثم يُخزّنها في ذاكرة المتصفح. التشغيلات التالية تبدأ في أقل من ثانية. بعدها تعتمد السرعة على عرض كل صفحة والتعرف عليها — عادةً 3–10 ثوانٍ للصفحة حسب DPI والتعقيد.
ماذا عن الكتابة اليدوية والنصوص غير الإنجليزية؟
التعرف على الكتابة اليدوية ضعيف — Tesseract مُدرَّب على النص المطبوع ويعاني مع الخط المتصل أو الفوضوي. للنصوص غير الإنجليزية، اختر اللغة المناسبة من القائمة؛ أول تشغيل OCR بتلك اللغة يُنزّل النموذج (3–14 ميجابايت) ثم يُخزّنه لاحقاً. الصفحات متعددة اللغات تعمل بشكل أفضل حين تختار اللغة السائدة.
هل يمكنه التعامل مع PDF المحمي بكلمة مرور؟
لا. ملفات PDF المشفّرة تفشل في التحميل مع رسالة خطأ. افتح الملف في قارئ PDF، أدخل كلمة المرور، ثم أعد حفظه عبر "ملف > حفظ باسم" لإنتاج نسخة غير محمية. ثم أفلت تلك النسخة هنا.
هل تحفظون ملفات PDF الخاصة بي أو النص المستخرج؟
لا. لا نحفظ PDF الذي تُفلته ولا صور الصفحات المعروضة ولا النص المستخرج. يُحذف كل شيء عند إغلاق التبويب أو إعادة تحميله — لا سجلات، ولا أي أثر لدينا لما قمت بعمل OCR له. يمكنك التحقق عبر أدوات مطوّري المتصفح.