PDF سے متن — آپ کے براؤزر میں OCR
اسکین یا امیج پر مبنی PDFs سے صفحہ بہ صفحہ متن نکالیں۔ ہر صفحہ ایک امیج پر رینڈر ہوتا ہے اور آپ کے براؤزر میں OCR کے ذریعے چلایا جاتا ہے۔
- ایک یا زیادہ PDFs ڈراپ کریں، یا براؤز پر کلک کریں۔
- ایک DPI چنیں۔ 200 اچھا ڈیفالٹ ہے؛ گھنے یا چھوٹے فونٹ والے صفحات کے لیے 300 تک بڑھائیں۔
- اختیاری طور پر صفحات کو 1-3, 5, 8-10 جیسی رینج سے محدود کریں؛ یہی رینج ہر PDF پر لاگو ہوگی۔ ہر فائل کے ہر صفحے کی OCR کے لیے خالی چھوڑیں۔
- "سب نکالیں" پر کلک کریں۔ پہلی بار چلنے پر اس سائٹ سے تقریباً 8 MB OCR انجن اور زبان ڈیٹا ڈاؤن لوڈ ہوتا ہے (اگلی بار کے لیے آپ کا براؤزر کیش کرتا ہے، اور بیچ کی ہر PDF پر دوبارہ استعمال ہوتا ہے)۔
- پہلی PDF کا متن نیچے پیش نظارے میں دکھائی دے گا (پہلے 3 صفحات)۔ ہر فائل کا مکمل متن اس کی قطار سے ڈاؤن لوڈ کریں، ہر فائل کا آؤٹ پٹ کلپ بورڈ پر کاپی کریں، یا ایک مشترکہ .txt لے لیں۔
یہ کیا کرتا ہے؟
ہر منتخب صفحہ آپ کے چنے گئے DPI پر canvas پر رینڈر ہوتا ہے، پھر Tesseract — Google کی دیکھ بھال میں اوپن سورس OCR انجن — WebAssembly میں کمپائلڈ، سے گزارا جاتا ہے۔ ہر صفحے کا پہچانا گیا متن ایک ہی آؤٹ پٹ میں جمع ہوتا ہے، صفحات کے درمیان --- Page N --- علیحدگی کے ساتھ، تاکہ آپ کوئی بھی اقتباس اس کے سورس صفحے پر واپس ڈھونڈ سکیں۔
مثال
ان پٹ — ایک اسکین شدہ 2 صفحات کا میمو، 200 DPI، تمام صفحات۔ آؤٹ پٹ ٹیکسٹ ایریا:
--- Page 1 ---
MEMO
To: All Staff
From: Operations
Date: April 12, 2026
Subject: Friday parking changes
Starting this Friday, the east lot
will be closed for resurfacing…
--- Page 2 ---
…overflow parking is available in
Lot C for the duration of the work.
Questions should be directed to
[email protected]. عام غلطیاں اور نقصانات
زیادہ تر OCR مایوسیاں سورس دستاویز سے آتی ہیں، انجن سے نہیں۔ خراب اسکین کو زیادہ DPI سے نہیں بچایا جا سکتا۔
- کم معیار کے اسکین پر بگڑا ہوا آؤٹ پٹ۔ تقریباً 150 DPI سے کم کی سورس تصاویر، آپ یہاں کچھ بھی سیٹ کریں، خراب متن دیتی ہیں۔ 300 DPI پر دوبارہ اسکین کریں، یا اگر اصل ڈیجیٹل فائل موجود ہو تو اسے استعمال کریں۔
- آؤٹ پٹ میں کالم ملے ہوئے ہیں۔ OCR قدرتی اسکین ترتیب میں پڑھتا ہے اور متعدد کالم والے لے آؤٹ میں الجھ سکتا ہے۔ پہلے Image Cropper کے ذریعے صفحہ رینڈرز پر PDF کو کالم کے لحاظ سے تقسیم کریں، پھر ہر کالم کو الگ OCR کریں۔
- صفحات 90° گھمائے ہوئے یا الٹے ہیں۔ Tesseract خود بخود نہیں گھماتا۔ پہلے PDF Organizer سے PDF کی سمت ٹھیک کریں، پھر دوبارہ کوشش کریں۔
- بڑی PDF پر ٹیب جم جاتا ہے۔ 300 DPI پر 100 سے زیادہ صفحات میموری خالی کر سکتے ہیں۔ معیار کی تصدیق کے لیے پہلے ایک صفحہ رینج رینڈر کریں (مثلاً 1-25)، پھر باقی کو بیچ کریں۔ اگر آپ کا ڈیوائس محدود میموری کا ہے تو 200 DPI تک گرائیں۔
- غلط رینج۔ Invalid range: "1 through 5" — صرف ہائفن اور کاما سپورٹ ہیں۔ 1-5 فارمیٹ استعمال کریں۔
- انکرپٹڈ PDF۔ پاس ورڈ سے محفوظ PDFs لوڈ نہیں ہوتیں۔ اپنے PDF ویوئر میں File > Save As کے ذریعے ان لاک کریں، پھر غیر محفوظ کاپی کے ساتھ دوبارہ کوشش کریں۔
اکثر پوچھے جانے والے سوالات
کیا یہ اسکین شدہ PDFs اور صرف امیج PDFs پر کام کرتا ہے؟
جی ہاں — یہی اصل مقصد ہے۔ ہر صفحہ ایک تصویر پر رینڈر ہوتا ہے اور OCR سے گزارا جاتا ہے، سو یہ یکساں کام کرتا ہے چاہے PDF ڈیجیٹل پیدا ہوئی ہو یا اسکین کی گئی۔ ڈیجیٹل پیدا شدہ PDFs کے لیے جن میں پہلے سے قابل انتخاب متن ہو، براہ راست متن نکالنے والا ٹول تیز اور زیادہ درست ہے؛ OCR تب صحیح انتخاب ہے جب متن صفحہ تصاویر میں پکا ہو۔
مجھے کون سا DPI چننا چاہیے؟
عام اسکینز اور اسکرین شاٹس پر OCR درستگی کے لیے 200 DPI اچھا ڈیفالٹ ہے۔ 150 DPI تیز ہے مگر چھوٹا متن کھو دیتا ہے۔ 300 DPI گھنے صفحات، چھوٹے فونٹس یا کم معیار کے اسکینز میں مدد کرتا ہے لیکن رینڈرنگ وقت اور میموری استعمال دگنا کرتا ہے۔ 300 سے اوپر جانا شاذ و نادر ہی مدد دیتا ہے اگر خود سورس اسکین کم ریزولوشن کا ہو۔
پہلی بار چلانا سست کیوں ہے؟
پہلی بار چلانے پر اس سائٹ سے تقریباً 8 MB OCR انجن اور انگریزی زبان ڈیٹا ڈاؤن لوڈ ہوتا ہے، پھر آپ کے براؤزر میں کیش ہوتا ہے۔ اس کے بعد کے رنز ایک سیکنڈ سے کم میں شروع ہوتے ہیں۔ پھر رفتار ہر صفحے کو رینڈر کرنے اور پہچاننے پر منحصر ہوتی ہے — عام طور پر DPI اور صفحہ کی پیچیدگی کے مطابق فی صفحہ 3–10 سیکنڈ۔
ہاتھ سے لکھے اور غیر انگریزی متن کا کیا ہوگا؟
ہاتھ سے لکھے کی پہچان کمزور ہے — Tesseract چھپے ہوئے متن پر تربیت یافتہ ہے اور cursive یا بے ترتیب لکھائی میں مشکل پیش آتی ہے۔ غیر انگریزی متن کے لیے سلیکٹر سے ملتی جلتی زبان چنیں؛ اس زبان میں پہلی OCR رن ماڈل ڈاؤن لوڈ کرتی ہے (3–14 MB) اور بعد میں کیش کر لیتی ہے۔ مخلوط زبان کے صفحات بہترین کام کرتے ہیں جب آپ غالب زبان چنتے ہیں۔
کیا یہ پاس ورڈ سے محفوظ PDFs ہینڈل کر سکتا ہے؟
نہیں۔ انکرپٹڈ PDFs ایک خرابی کے ساتھ لوڈ نہیں ہوتیں۔ اپنے PDF ویوئر میں فائل کھولیں، پاس ورڈ درج کریں، اور File > Save As کے ذریعے غیر محفوظ کاپی بنانے کے لیے دوبارہ محفوظ کریں۔ پھر وہ کاپی یہاں ڈراپ کریں۔
کیا آپ میری PDFs یا نکالا گیا متن محفوظ کرتے ہیں؟
نہیں۔ آپ کی ڈراپ کی گئی PDF، رینڈرڈ صفحہ تصاویر، یا نکالا گیا متن ہم محفوظ نہیں کرتے۔ جب آپ ٹیب بند یا ریفریش کرتے ہیں تو سب ختم ہو جاتا ہے — کوئی لاگ نہیں، آپ نے کیا OCR کیا اس کا کوئی ریکارڈ نہیں۔ آپ براؤزر کے DevTools سے تصدیق کر سکتے ہیں۔