Question 1

क्या यह स्कैन की गई और केवल-इमेज वाली PDF पर काम करता है?

Accepted Answer

हाँ — यही तो इसका मक़सद है। हर पन्ना इमेज में रेंडर होकर OCR से गुज़रता है, इसलिए चाहे PDF डिजिटल-जन्मी हो या स्कैन की गई, दोनों पर एक जैसा काम करता है। जिन डिजिटल-जन्मी PDF में पहले से चुनने योग्य टेक्स्ट हो, वहाँ सीधा टेक्स्ट-एक्सट्रैक्शन टूल तेज़ और ज़्यादा सटीक है; OCR तब सही है जब टेक्स्ट पेज इमेज में पकाया हुआ हो।

Question 2

कौन-सा DPI चुनें?

Accepted Answer

आम स्कैन और स्क्रीनशॉट पर OCR सटीकता के लिए 200 DPI अच्छा डिफ़ॉल्ट है। 150 DPI तेज़ है पर छोटा टेक्स्ट खो देता है। 300 DPI घने पन्नों, छोटे फ़ॉन्ट या कम-गुणवत्ता वाले स्कैन पर मदद करता है पर रेंडरिंग समय और मेमोरी दोगुनी कर देता है। यदि स्रोत स्कैन ख़ुद ही कम रिज़ॉल्यूशन है तो 300 से ऊपर जाना शायद ही मदद करे।

Question 3

पहली बार चलाना धीमा क्यों है?

Accepted Answer

पहली बार इस साइट से लगभग 8 MB का OCR इंजन और अंग्रेज़ी भाषा डेटा डाउनलोड होता है, जिसे ब्राउज़र कैश कर लेता है। आगे की बार एक सेकंड से कम में शुरू हो जाता है। उसके बाद गति मुख्यतः हर पन्ने को रेंडर और पहचानने पर निर्भर है — आमतौर पर DPI और पन्ने की जटिलता के अनुसार प्रति पन्ना 3–10 सेकंड।

Question 4

हस्तलिखित और गैर-अंग्रेज़ी टेक्स्ट का क्या?

Accepted Answer

हस्तलिखित पहचान कमज़ोर है — Tesseract मुद्रित टेक्स्ट पर प्रशिक्षित है और घसीट या मैली लिखावट पर संघर्ष करता है। गैर-अंग्रेज़ी टेक्स्ट के लिए चयनकर्ता से मिलती-जुलती भाषा चुनें; उस भाषा में पहली बार OCR चलाने पर मॉडल (3–14 MB) डाउनलोड होकर बाद में कैश हो जाता है। मिश्रित-भाषा पन्नों पर प्रमुख भाषा चुनने से सबसे अच्छा काम होता है।

Question 5

क्या यह पासवर्ड-सुरक्षित PDF संभाल सकता है?

Accepted Answer

नहीं। एन्क्रिप्टेड PDF लोड होने में त्रुटि देती हैं। फ़ाइल को अपने PDF व्यूअर में खोलें, पासवर्ड डालें, और फ़ाइल > इस रूप में सहेजें के ज़रिए अनप्रोटेक्टेड कॉपी बनाएँ। फिर उसी कॉपी को यहाँ छोड़ें।

Question 6

क्या आप मेरी PDF या निकाला गया टेक्स्ट सहेजते हैं?

Accepted Answer

नहीं। हम आपकी छोड़ी गई PDF, रेंडर की गई पेज इमेज या निकाला गया टेक्स्ट नहीं सहेजते। टैब बंद या रिफ्रेश करते ही सब कुछ हट जाता है — कोई लॉग नहीं, हमारी तरफ़ कोई रिकॉर्ड नहीं कि आपने क्या OCR किया। अपने ब्राउज़र के डेवलपर टूल्स से जाँच कर सकते हैं।

PDF से टेक्स्ट — आपके ब्राउज़र में OCR

उदाहरण

सामान्य त्रुटियाँ और सावधानियाँ