PDF से इमेज निकालें
PDF से सभी एम्बेडेड इमेज निकालें — अलग से या .zip में डाउनलोड करें। ब्राउज़र में चलता है।
- PDF ड्रॉप करें या "ब्राउज़ करें" क्लिक करें।
- "इमेज निकालें" क्लिक करें — एक थंबनेल ग्रिड दिखाई देता है।
- किसी भी थंबनेल पर क्लिक करके वह इमेज डाउनलोड करें, या बंडल के लिए "सभी .zip में डाउनलोड" करें।
- इमेज PNG के रूप में सहेजे जाते हैं; मूल एनकोडिंग पहले एक कैनवास में डिकोड की जाती है।
यह क्या करता है?
PDF के हर पेज से गुजरता है, हर paintImageXObject ऑपरेशन का पता लगाता है, और अंतर्निहित इमेज बिटमैप निकालता है। प्रत्येक निकाली गई इमेज canvas के माध्यम से PNG में सामान्यीकृत की जाती है — JPEG स्रोत अपना मूल कम्प्रेशन खो देते हैं, लेकिन आउटपुट पिक्सेल वही हैं जो PDF ने रेंडर किए। असमर्थित कोडेक्स (JBIG2, फ़ैक्स के लिए CCITT, JPEG 2000 के लिए JPX) में संग्रहीत इमेजेज़ की गणना तो की जाती है पर डिकोड नहीं — उन्हें pdfjs-dist से परे समर्पित कोडेक लाइब्रेरीज़ चाहिए।
सामान्य समस्याएँ
PDF इमेज निकालना मूल रूप से कोडेक-आधारित है। अधिकांश PDF काम करते हैं — ये वे पैटर्न हैं जहाँ निकाला गया परिणाम अप्रत्याशित हो सकता है।
- असमर्थित इमेज कोडेक्स। JBIG2 (कुछ स्कैन किए गए दस्तावेज़), CCITT (फ़ैक्स-स्टाइल स्कैन), और JPEG 2000 (JPX) डिकोड नहीं किए जाते। स्थिति लाइन रिपोर्ट करती है कि कितने छोड़े गए। उन्हें निकालने के लिए, इसके बजाय /pdf-to-images के माध्यम से रेंडर करें — यह इमेज सहित पूरे पेज को रास्टराइज़ करता है।
- मूल JPEG गुणवत्ता खो गई। पारदर्शिता बनाए रखने और दोहरे-कम्प्रेशन आर्टिफैक्ट्स से बचने के लिए इमेज PNG के रूप में निर्यात की जाती हैं। यदि आपका स्रोत PDF में एम्बेडेड JPEG था, तो PNG आउटपुट बड़ा है पर pdf-lib जो डिकोड करता है उससे पिक्सेल-समान है।
- इनलाइन इमेजेज़ छूट गईं। कुछ PDF XObjects के बजाय इनलाइन इमेज डेटा (BI/ID/EI ऑपरेटर) का उपयोग करते हैं — आमतौर पर बहुत छोटी इमेजेज़। v1 इन्हें नहीं निकालता। अधिकांश फ़ोटो और स्क्रीनशॉट XObjects हैं और सही तरीके से निकाले जाते हैं।
- एक ही इमेज, कई बार। PDF अक्सर एक इमेज XObject को कई पेजों से रेफ़र करते हैं। v1 paintImageXObject कॉल प्रति एक बार इमेज निकालता है, इसलिए डुप्लिकेट लोगो प्रति उपयोग एक बार दिखाई देगा। यदि आवश्यक हो तो फ़ाइलनाम या हैश से डी-डुप्लिकेट करें।
- एनक्रिप्टेड PDF। पासवर्ड-सुरक्षित PDF बिना पासवर्ड के नहीं खोली जा सकती। यदि आपके पास मालिक का पासवर्ड है, तो पहले उन्हें /pdf-unlock से चलाएँ।
- बहुत बड़ी PDF। प्रत्येक निकाली गई इमेज तब तक ब्राउज़र मेमरी में रहती है जब तक आप साफ़ या नेविगेट नहीं करते। सैकड़ों उच्च-रिज़ॉल्यूशन इमेजेज़ वाली PDF 100s MB RAM का उपयोग कर सकती हैं। तुरंत .zip डाउनलोड का उपयोग करें और काम पूरा होने पर साफ़ क्लिक करें।
अक्सर पूछे जाने वाले प्रश्न
मेरी इमेजेज़ PNG क्यों हैं, JPG नहीं?
PNG पारदर्शिता संरक्षित करता है और पुनः-एनकोडिंग आर्टिफैक्ट्स से बचता है। पिक्सेल मूल जैसे ही हैं; फ़ाइल बड़ी है क्योंकि PNG दोषरहित है। स्थान बचाने के लिए, परिणाम को WebP मोड में /image-compress के माध्यम से चलाएँ।
मैं कैसे बताऊँ कि प्रत्येक इमेज किस पेज से आई?
फ़ाइलनाम पैटर्न `pageN-imgM.png` का अनुसरण करते हैं — N स्रोत पेज नंबर है, M उस पेज के भीतर एक अनुक्रम संख्या है। यह देखने के लिए कि वे PDF में किस क्रम में दिखती हैं, फ़ाइलनाम के अनुसार सॉर्ट करें।
क्या एनक्रिप्टेड इमेजेज़ अव्यवस्थित निकलेंगी?
एक अनएन्क्रिप्टेड PDF के अंदर इमेज डेटा अलग से एनक्रिप्टेड नहीं है — यह सामान्य रूप से डिकोड होता है। यदि PDF स्वयं एनक्रिप्टेड है, तो टूल इसे पढ़ ही नहीं सकता (ऊपर एनक्रिप्टेड-PDF नोट देखें)।
गिनती दृश्यमान इमेजेज़ से अधिक क्यों है?
कुछ PDF प्रति दृश्यमान इमेज कई इमेज XObjects का उपयोग करते हैं (उदाहरण के लिए, सॉफ़्ट-मास्क अल्फा चैनल अलग ग्रेस्केल इमेज के रूप में संग्रहीत)। v1 प्रत्येक को निकालता है — सॉफ़्ट-मास्क वह है जो कंपोज़िट होने पर मुख्य इमेज को सही दिखाता है, पर अकेले यह काले-और-सफ़ेद सिल्हूट के रूप में दिखता है।
क्या मेरा PDF अपलोड होता है?
नहीं। सब कुछ आपके ब्राउज़र में चलता है — आपका PDF pdfjs-dist द्वारा पार्स होता है और इमेज बिटमैप canvas के माध्यम से रेंडर होते हैं, सब क्लाइंट-साइड। कोई नेटवर्क रिक्वेस्ट नहीं चलती।
मैं कितनी बड़ी PDF से निकाल सकता हूँ?
ब्राउज़र सुस्त लगने से पहले लगभग 100 MB PDF तक। हार्ड लिमिट आपकी टैब मेमरी है — यदि निकालने पर OOM होता है, /pdf-split के माध्यम से PDF विभाजित करें और प्रत्येक खंड को अलग से चलाएँ।