PDF से टेक्स्ट — आपके ब्राउज़र में OCR
स्कैन किए गए या इमेज-आधारित PDF से पेज-दर-पेज टेक्स्ट निकालें। हर पेज को इमेज के रूप में रेंडर करके ब्राउज़र में ही OCR से पहचाना जाता है।
- एक या कई PDF छोड़ें, या ब्राउज़ पर क्लिक करें।
- DPI चुनें। 200 अच्छा डिफ़ॉल्ट है; घने या छोटे फ़ॉन्ट वाले पन्नों के लिए 300 तक बढ़ाएँ।
- वैकल्पिक रूप से 1-3, 5, 8-10 जैसी रेंज से पन्ने सीमित करें; वही रेंज हर PDF पर लागू होती है। खाली छोड़ दें तो हर फ़ाइल के हर पन्ने पर OCR चलेगा।
- "सब निकालें" पर क्लिक करें। पहली बार इस साइट से OCR इंजन और भाषा डेटा (लगभग 8 MB) डाउनलोड होगा (जिसे आपका ब्राउज़र अगली बार के लिए कैश कर लेगा, और बैच के हर PDF में फिर से इस्तेमाल करेगा)।
- नीचे पूर्वावलोकन में पहले PDF का टेक्स्ट दिखेगा (पहले 3 पन्ने)। हर फ़ाइल का पूरा टेक्स्ट उसकी पंक्ति से डाउनलोड करें, हर फ़ाइल का आउटपुट क्लिपबोर्ड पर कॉपी करें, या एक संयुक्त .txt ले लें।
यह क्या करता है?
चुना हुआ हर पन्ना आपके चुने हुए DPI पर कैनवस पर रेंडर होता है, फिर Google द्वारा रखरखाव किए जाने वाले ओपन-सोर्स OCR इंजन Tesseract (WebAssembly में संकलित) के ज़रिए पहचाना जाता है। हर पन्ने का पहचाना गया टेक्स्ट पन्नों के बीच "--- Page N ---" विभाजक के साथ एक ही आउटपुट में जुड़ जाता है, ताकि आप किसी भी अंश को उसके स्रोत पन्ने तक आसानी से पहुँचा सकें।
उदाहरण
इनपुट — 2 पन्नों का स्कैन किया गया मेमो, 200 DPI, सभी पन्ने। आउटपुट टेक्स्टएरिया:
--- Page 1 ---
MEMO
To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes
Starting this Friday, the east lot
will be closed for resurfacing…
--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected]. सामान्य त्रुटियाँ और सावधानियाँ
अधिकांश OCR निराशाएँ स्रोत दस्तावेज़ से आती हैं, इंजन से नहीं। ख़राब स्कैन को ज़्यादा DPI से ठीक नहीं किया जा सकता।
- कम गुणवत्ता के स्कैन पर अस्पष्ट आउटपुट। लगभग 150 DPI से नीचे की स्रोत इमेज में आप यहाँ जो भी सेट करें, टेक्स्ट गड़बड़ ही होगा। 300 DPI पर फिर से स्कैन करें, या यदि उपलब्ध हो तो मूल डिजिटल फ़ाइल का उपयोग करें।
- आउटपुट में कॉलम आपस में मिल जाते हैं। OCR स्वाभाविक स्कैन क्रम में पढ़ता है और मल्टी-कॉलम लेआउट को उलझा सकता है। पेज रेंडर पर पहले इमेज क्रॉपर से कॉलम के हिसाब से PDF बाँटें, फिर हर कॉलम पर अलग-अलग OCR चलाएँ।
- पन्ने 90° या उल्टे घूमे हुए हैं। Tesseract अपने आप नहीं घुमाता। पहले PDF ऑर्गनाइज़र से PDF की दिशा ठीक करें, फिर दोबारा कोशिश करें।
- बड़ी PDF पर टैब जम जाता है। 300 DPI पर 100+ पन्ने मेमोरी खत्म कर सकते हैं। पहले एक रेंज (जैसे 1-25) रेंडर करके गुणवत्ता जाँचें, फिर बाक़ी को बैच में करें। मेमोरी सीमित हो तो 200 DPI पर आ जाएँ।
- अमान्य रेंज। Invalid range: "1 through 5" — केवल हाइफ़न और अल्पविराम समर्थित हैं। 1-5 प्रारूप का उपयोग करें।
- एन्क्रिप्टेड PDF। पासवर्ड से सुरक्षित PDF लोड नहीं हो पातीं। अपने PDF व्यूअर में फ़ाइल > इस रूप में सहेजें से अनलॉक करें, फिर अनप्रोटेक्टेड कॉपी से पुनः प्रयास करें।
अक्सर पूछे जाने वाले प्रश्न
क्या यह स्कैन की गई और केवल-इमेज वाली PDF पर काम करता है?
हाँ — यही तो इसका मक़सद है। हर पन्ना इमेज में रेंडर होकर OCR से गुज़रता है, इसलिए चाहे PDF डिजिटल-जन्मी हो या स्कैन की गई, दोनों पर एक जैसा काम करता है। जिन डिजिटल-जन्मी PDF में पहले से चुनने योग्य टेक्स्ट हो, वहाँ सीधा टेक्स्ट-एक्सट्रैक्शन टूल तेज़ और ज़्यादा सटीक है; OCR तब सही है जब टेक्स्ट पेज इमेज में पकाया हुआ हो।
कौन-सा DPI चुनें?
आम स्कैन और स्क्रीनशॉट पर OCR सटीकता के लिए 200 DPI अच्छा डिफ़ॉल्ट है। 150 DPI तेज़ है पर छोटा टेक्स्ट खो देता है। 300 DPI घने पन्नों, छोटे फ़ॉन्ट या कम-गुणवत्ता वाले स्कैन पर मदद करता है पर रेंडरिंग समय और मेमोरी दोगुनी कर देता है। यदि स्रोत स्कैन ख़ुद ही कम रिज़ॉल्यूशन है तो 300 से ऊपर जाना शायद ही मदद करे।
पहली बार चलाना धीमा क्यों है?
पहली बार इस साइट से लगभग 8 MB का OCR इंजन और अंग्रेज़ी भाषा डेटा डाउनलोड होता है, जिसे ब्राउज़र कैश कर लेता है। आगे की बार एक सेकंड से कम में शुरू हो जाता है। उसके बाद गति मुख्यतः हर पन्ने को रेंडर और पहचानने पर निर्भर है — आमतौर पर DPI और पन्ने की जटिलता के अनुसार प्रति पन्ना 3–10 सेकंड।
हस्तलिखित और गैर-अंग्रेज़ी टेक्स्ट का क्या?
हस्तलिखित पहचान कमज़ोर है — Tesseract मुद्रित टेक्स्ट पर प्रशिक्षित है और घसीट या मैली लिखावट पर संघर्ष करता है। गैर-अंग्रेज़ी टेक्स्ट के लिए चयनकर्ता से मिलती-जुलती भाषा चुनें; उस भाषा में पहली बार OCR चलाने पर मॉडल (3–14 MB) डाउनलोड होकर बाद में कैश हो जाता है। मिश्रित-भाषा पन्नों पर प्रमुख भाषा चुनने से सबसे अच्छा काम होता है।
क्या यह पासवर्ड-सुरक्षित PDF संभाल सकता है?
नहीं। एन्क्रिप्टेड PDF लोड होने में त्रुटि देती हैं। फ़ाइल को अपने PDF व्यूअर में खोलें, पासवर्ड डालें, और फ़ाइल > इस रूप में सहेजें के ज़रिए अनप्रोटेक्टेड कॉपी बनाएँ। फिर उसी कॉपी को यहाँ छोड़ें।
क्या आप मेरी PDF या निकाला गया टेक्स्ट सहेजते हैं?
नहीं। हम आपकी छोड़ी गई PDF, रेंडर की गई पेज इमेज या निकाला गया टेक्स्ट नहीं सहेजते। टैब बंद या रिफ्रेश करते ही सब कुछ हट जाता है — कोई लॉग नहीं, हमारी तरफ़ कोई रिकॉर्ड नहीं कि आपने क्या OCR किया। अपने ब्राउज़र के डेवलपर टूल्स से जाँच कर सकते हैं।