Question 1

هل يعمل على PDF الممسوحة ضوئياً وتلك القائمة على الصور فقط؟

Accepted Answer

نعم — هذا هو الهدف. تُعرض كل صفحة كصورة ثم تمر عبر OCR، لذا يعمل بنفس الطريقة سواء كان PDF رقمياً أصلياً أو ممسوحاً ضوئياً. إذا كان PDF رقمياً ويحوي نصاً قابلاً للتحديد أصلاً، فأدوات استخراج النص المباشرة أسرع وأدق؛ أما OCR فهو الخيار الصحيح حين يكون النص مضمّناً داخل صور الصفحات.

Question 2

أي DPI أختار؟

Accepted Answer

200 DPI قيمة افتراضية جيدة لدقة OCR على المسوحات ولقطات الشاشة المعتادة. 150 DPI أسرع لكنه يفقد النص الصغير. 300 DPI يساعد في الصفحات الكثيفة والخطوط الصغيرة والمسوحات منخفضة الجودة، لكنه يضاعف زمن العرض واستخدام الذاكرة. تجاوز 300 نادراً ما يساعد إذا كان المصدر نفسه بدقة أقل.

Question 3

لماذا أول تشغيل بطيء؟

Accepted Answer

أول تشغيل يُنزّل حوالي 8 ميجابايت من محرك OCR وبيانات اللغة الإنجليزية من هذا الموقع، ثم يُخزّنها في ذاكرة المتصفح. التشغيلات التالية تبدأ في أقل من ثانية. بعدها تعتمد السرعة على عرض كل صفحة والتعرف عليها — عادةً 3–10 ثوانٍ للصفحة حسب DPI والتعقيد.

Question 4

ماذا عن الكتابة اليدوية والنصوص غير الإنجليزية؟

Accepted Answer

التعرف على الكتابة اليدوية ضعيف — Tesseract مُدرَّب على النص المطبوع ويعاني مع الخط المتصل أو الفوضوي. للنصوص غير الإنجليزية، اختر اللغة المناسبة من القائمة؛ أول تشغيل OCR بتلك اللغة يُنزّل النموذج (3–14 ميجابايت) ثم يُخزّنه لاحقاً. الصفحات متعددة اللغات تعمل بشكل أفضل حين تختار اللغة السائدة.

Question 5

هل يمكنه التعامل مع PDF المحمي بكلمة مرور؟

Accepted Answer

لا. ملفات PDF المشفّرة تفشل في التحميل مع رسالة خطأ. افتح الملف في قارئ PDF، أدخل كلمة المرور، ثم أعد حفظه عبر "ملف > حفظ باسم" لإنتاج نسخة غير محمية. ثم أفلت تلك النسخة هنا.

Question 6

هل تحفظون ملفات PDF الخاصة بي أو النص المستخرج؟

Accepted Answer

لا. لا نحفظ PDF الذي تُفلته ولا صور الصفحات المعروضة ولا النص المستخرج. يُحذف كل شيء عند إغلاق التبويب أو إعادة تحميله — لا سجلات، ولا أي أثر لدينا لما قمت بعمل OCR له. يمكنك التحقق عبر أدوات مطوّري المتصفح.

PDF إلى نص — OCR داخل متصفحك

مثال

الأخطاء الشائعة والملاحظات