OCR For PDFs - Plato AiStream V2.1

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

تعارف

1970 کی دہائی میں کمپیوٹرز کے بڑے پیمانے پر استعمال کے بعد 1993 میں پی ڈی ایف کی ایجاد کے بعد سے، ٹیکسٹ فائلوں کو ڈیجیٹل فارمیٹس میں ذخیرہ کرنے کا روایتی کاغذات پر بتدریج لیکن مستقل غلبہ ہے۔ یہ ناقابل شکست کنارہ انٹرنیٹ کی سہولت کو تیز کرتے ہوئے بنایا گیا اور مزید بڑھایا گیا جس کی مدد سے ڈیجیٹل ٹیکسٹ فائلز کو سیکنڈوں میں پوری دنیا میں آسانی سے بھیج دیا جا سکتا ہے۔ آج، نہ صرف مشین سے انکوڈ شدہ متن کو پی ڈی ایف کے ذریعے محفوظ اور شیئر کیا جاتا ہے، یہاں تک کہ ہاتھ سے لکھے ہوئے دستاویزات کے کاغذات کو مزید پروسیسنگ اور تقسیم کے لیے اس طرح کے فارمیٹس میں اسکین کیا جاتا ہے۔

تاہم، اس ابھرتے ہوئے رجحان نے تحقیق کے ایک نئے اور فی الحال جاری ڈومین - PDF آپٹیکل کریکٹر ریکگنیشن (OCR) پر روشنی ڈالی ہے۔ OCR اسکین شدہ یا ہاتھ سے لکھے ہوئے متن کو مشین سے انکوڈ شدہ متن میں تبدیل کرنے کا عمل ہے، اس طرح کہ اسے مزید پروسیسنگ اور تجزیہ کے لیے پروگراموں کے ذریعے استعمال کیا جا سکتا ہے۔ جب کہ OCR کا اطلاق وسیع ہے (سڑک کے نشانات کی تصاویر سے لے کر رسمی متنی دستاویزات تک)، یہ مضمون خاص طور پر PDF OCR کے ڈومین میں، خاص طور پر اسکین شدہ اور ہاتھ سے لکھے ہوئے کاغذ کی PDFs، اور مختلف زبانوں میں ٹیکنالوجی اور پروگراموں پر بحث کرتا ہے کام پی ڈی ایف او سی آر کے لیے کئی اندرونِ بازار سافٹ ویئر کا ایک تفصیلی جائزہ اور موازنہ مزید حوالہ کے لیے پیش کیا گیا ہے۔

PDFs سے معلومات نکالنے کے لیے OCR حل تلاش کر رہے ہیں؟ نانونٹس دیں۔™ اعلی درستگی، زیادہ لچک، پوسٹ پروسیسنگ، اور انضمام کے ایک وسیع سیٹ کے لیے ایک اسپن!

OCR حل میں پیشرفت

OCRs کے کوڈز، تفصیلات اور فوائد پر بحث کرنے سے پہلے، ہم سب سے پہلے اس تصور کی وضاحت کرتے ہیں کہ OCR کس طرح کام کرتا ہے اس میں شامل ٹیکنالوجی میں پیشرفت کو متعارف کروا کر۔

روایتی OCR

اس طرح کے کاموں کے لیے مطلوبہ درستگی کو پورا کرنے کے لیے گہری سیکھنے سے پہلے، مزید حساب کے لیے اسکین شدہ دستاویزات کی الیکٹرانک تبدیلی عام طور پر چار آسان مراحل کے ساتھ کی جاتی ہے:

معلوم حروف کا ڈیٹا بیس جمع کریں۔
اسکین شدہ دستاویزات سے انفرادی خطوط کو اکٹھا کرنے اور الگ کرنے کے لیے فوٹو سینسرز کا استعمال کریں۔
فوٹو سینسرز سے حاصل کردہ صفات کے سیٹ کا ڈیٹا بیس سے جسمانی اوصاف کے ساتھ موازنہ کریں۔
صفات کے ہر سیٹ کو اس کے مطابق سب سے زیادہ مماثلت کے ساتھ معروف کردار میں تبدیل کریں۔

اگرچہ روایتی نقطہ نظر زیادہ تر وقت موثر نظر آتا ہے، لیکن یہ اپنی موروثی اصول پر مبنی پابندیوں کا شکار ہے۔ OCR کا ایک اہم انٹرمیڈیٹ مرحلہ متن کے سیٹ/گروپ سے کامیابی کے ساتھ واحد حروف یا نشانیاں نکالنا ہے۔ اس نکالنے کے لیے کچھ ٹیمپلیٹس یا قواعد (یعنی پہلے سے سیٹ فونٹ سائز/اسٹائل) کی ضرورت ہوتی ہے تاکہ یہ انتہائی درست ہو۔ درستگی کو بڑھانے کے لیے زیادہ سے زیادہ قوانین نافذ کرنے سے OCR اوور فٹنگ کا مخمصہ پیدا ہو جائے گا، یا صرف تحریروں کے مخصوص انداز پر درست ہو جائے گا۔ جب OCR مکمل طور پر اصول پر مبنی ہو تو اسکیننگ کے عمل کے دوران روشنی کی کوئی بھی عدم مطابقت بھی خرابیوں کا باعث بنے گی۔

مزید برآں، ہینڈ رائٹنگز سے نمٹنے کے دوران اصول پر مبنی انتساب کا موازنہ بھی کم پڑ جاتا ہے۔ کمپیوٹر سے تیار کردہ فونٹس زیادہ تر ان صفات کے ساتھ طے کیے جاتے ہیں جو اکثر واضح اور موازنہ کرنے میں آسان ہوتے ہیں - ہاتھ سے لکھے ہوئے فونٹس اس کے بالکل برعکس ہیں، لامحدود تغیرات کے ساتھ اور اس لیے درجہ بندی کرنا زیادہ مشکل ہے۔ چونکہ ہر بار ہاتھ سے تیار کردہ کردار قدرے مختلف ہوتا ہے، اس لیے ان سب کو ڈیٹا بیس کے حصے کے طور پر شامل کرنا ممکن نہیں ہے۔ اس کے لیے اکثر OCRs کی ضرورت ہوتی ہے کہ وہ بولی وصف کی مماثلت کے علاوہ مزید نفیس الگورتھم انجام دیں۔

آخر میں، روایتی انداز میں متعدد زبانوں کی رکاوٹ بھی موجود ہے۔ متعدد زبانیں ایک جیسی یا ایک جیسی علامتیں اپناتی ہیں۔ اگر ہم تمام علامتوں کو ڈیٹابیس میں ذخیرہ کرتے ہیں، تو ہم دو علامتوں کے درمیان فرق کو محض وصف کی مماثلت کے ذریعے نہیں بتا سکیں گے، جو بالآخر روایتی نقطہ نظر کو اکثر فی ماڈل صرف ایک زبان تک محدود کر دیتا ہے۔

حالیہ گہرے سیکھنے کے دور کی روشنی میں، شکر ہے کہ تیزی سے بڑھتی ہوئی ہارڈویئر کمپیوٹنگ کی صلاحیتوں کی وجہ سے، نئے OCRs نے متن کو نکالنے کے عمل کے دوران اور ان کی تشریح کے مرحلے دونوں میں سیکھنے کے ماڈلز کو شامل کیا ہے۔

گہری سیکھنے پر مبنی OCR انجن

مشین لرننگ کے دائرے کی ایک بڑی شاخ ڈیپ لرننگ نے متعدد نامور سائنسدانوں کی مدد سے اسے سب سے آگے بڑھاتے ہوئے بہت مقبولیت حاصل کی ہے۔ روایتی انجینئرنگ میں، ہمارا مقصد ایک ایسے سسٹم/فنکشن کو ڈیزائن کرنا ہے جو دیے گئے ان پٹ سے آؤٹ پٹ پیدا کرتا ہے۔ دوسری طرف گہری تعلیم، انٹرمیڈیٹ رشتہ تلاش کرنے کے لیے ان پٹ اور آؤٹ پٹس پر انحصار کرتی ہے جسے نام نہاد کے ذریعے نئے ان دیکھے ڈیٹا تک بڑھایا جا سکتا ہے۔ عصبی نیٹ ورک.

نیورل نیٹ ورک، یا ملٹی لیئر پرسیپٹرون، انسانی دماغ کے سیکھنے کے طریقے کی نقل کرتا ہے۔ نیٹ ورک کے اندر ہر نوڈ، یعنی نیوران، حیاتیاتی نیوران کی طرح ہوتے ہیں کہ وہ "فعال" ہونے کے لیے معلومات حاصل کرتے ہیں۔ نیوران کے سیٹ پرتیں بناتے ہیں، اور ایک سے زیادہ پرتیں ایک نیٹ ورک بننے کے لیے جمع ہو جاتی ہیں، جو پیشین گوئی پیدا کرنے کے لیے معلومات کا استعمال کرتی ہیں۔ پیشین گوئی تمام شکلوں کی ہو سکتی ہے، درجہ بندی کے مسائل کے لیے کلاس کی پیشین گوئی سے لے کر آبجیکٹ کا پتہ لگانے کے کاموں میں آئٹمز کے باؤنڈنگ بکس تک - ان سبھی نے پچھلے لٹریچر کے مقابلے میں جدید ترین حاصل کیا ہے۔ OCR کے کام میں، دو قسم کے آؤٹ پٹ، نیٹ ورک کی دو اقسام کے ساتھ، بہت زیادہ لاگو ہوتے ہیں۔

Convolutional Neural Networks (CNNs) - CNNs آج کل خاص طور پر کمپیوٹر ویژن کے دائرے میں استعمال ہونے والے نیٹ ورکس کے سب سے زیادہ غالب سیٹوں میں سے ایک ہیں۔ اس میں متعدد کنولوشنل دانا شامل ہیں جو خصوصیات کو نکالنے کے لیے تصویر کے ذریعے سلائیڈ کرتے ہیں۔ آخر میں روایتی نیٹ ورک کی تہوں کے ساتھ، CNN پیشین گوئیاں انجام دینے کے لیے دی گئی تصویر سے خصوصیات کو بازیافت کرنے میں بہت کامیاب ہیں۔ اس عمل کو مزید OCR عمل میں مزید درجہ بندی کے لیے باؤنڈنگ بکس تلاش کرنے اور حروف کی صفات کا پتہ لگانے کے کام میں منتقل کیا جا سکتا ہے۔
طویل مختصر مدتی یادیں (LSTMs) - LSTMs نیٹ ورکس کا ایک خاندان ہے جو بنیادی طور پر تسلسل کے ان پٹ پر لاگو ہوتا ہے۔ بصیرت آسان ہے - کسی بھی ترتیب وار اعداد و شمار (یعنی، موسم، اسٹاک) کے لیے، نئے نتائج کا بہت زیادہ انحصار پچھلے نتائج پر ہوسکتا ہے، اور اس طرح نئی پیشین گوئیوں کو انجام دینے میں ان پٹ خصوصیات کے حصے کے طور پر پچھلے نتائج کو مسلسل فیڈ کرنا فائدہ مند ہوگا۔ . او سی آر کے معاملے میں، پہلے سے پائے جانے والے حروف اگلی پیشین گوئی میں مدد کرنے کے لیے بہت مددگار ثابت ہو سکتے ہیں، کیونکہ حروف کے ایک سیٹ کو عام طور پر ایک ساتھ رکھنے پر سمجھ میں آنا چاہیے (مثال کے طور پر، انگریزی حرف "g" کا "do" کے بعد آنے کا زیادہ امکان ہوتا ہے۔ ایک عدد "9" سے، ان کی مماثل صفات کے باوجود)۔

OCR کے اہم کاموں کے علاوہ جن میں گہری سیکھنے کو شامل کیا جاتا ہے، اصول پر مبنی طریقوں کو ختم کرنے کے لیے بہت سے پری پروسیسنگ مراحل بھی فروغ پزیر نیورل نیٹ ورک ٹیکنالوجیز سے مستفید ہوئے ہیں:

انکار کرنا - جب کسی دستاویز کو غلط طریقے سے اسکین کیا جاتا ہے، تو اصول پر مبنی طریقے آسانی سے کم ہو سکتے ہیں۔ OCR ٹیکنالوجیز کی طرف سے اپنایا گیا ایک حالیہ نقطہ نظر ان پٹ کو "منکر" کرنے کے لیے جنریٹو ایڈورسریئل نیٹ ورک (GAN) کا اطلاق کرنا ہے۔ GAN دو نیٹ ورکس پر مشتمل ہے، ایک جنریٹر اور ایک امتیاز کرنے والا۔ جنریٹر اصل اور جنریٹڈ ان پٹس میں فرق کرنے کے لیے امتیاز کرنے والے کے لیے مسلسل نئے ان پٹ تیار کرتا ہے، جس سے جنریٹر مثالی مواد بنانے میں مسلسل بہتری لاتا ہے۔ اس صورت میں، GAN کو منحرف اور شور والی دستاویزات کے جوڑے سے تربیت دی جاتی ہے، اور جنریٹر کا مقصد زمینی سچائی کے زیادہ سے زیادہ قریب ایک ڈی-نائزڈ دستاویز تیار کرنا ہے۔ درخواست کے مرحلے کے دوران، GAN، اگر اچھی طرح سے تربیت یافتہ ہو، تو پھر کسی بھی خراب سکین شدہ دستاویزات کو ٹھیک کرنے کے لیے ہر ان پٹ پر استعمال کیا جا سکتا ہے۔
دستاویز کی شناخت - OCR کام، خاص طور پر PDFs پر OCR کام، اکثر فارمز اور دستاویزات سے ڈیٹا کو صحیح طریقے سے نکالنے کے مقصد کے لیے استعمال ہوتے ہیں۔ لہذا، OCR مشین اس وقت جس دستاویز پر کارروائی کر رہی ہے اس کی قسم کو جاننا ڈیٹا نکالنے کی درستگی میں نمایاں اضافہ کر سکتا ہے۔ حالیہ آرٹس نے پہلے سے موجود دستاویزی فارمیٹس کے ساتھ دستاویزات کا موازنہ کرنے کے لیے سیامی نیٹ ورک، یا موازنہ نیٹ ورک کو شامل کیا ہے، جس سے OCR انجن کو پہلے سے دستاویز کی درجہ بندی کرنے کی اجازت ملتی ہے۔ یہ اضافی قدم تجرباتی طور پر متن کی بازیافت میں درستگی کو بہتر بنانے کے لیے دکھایا گیا ہے۔

خلاصہ یہ کہ OCR کی ترقی کو ہارڈ ویئر کی صلاحیتوں کی تیز رفتار ترقی اور گہری سیکھنے سے اچھی طرح فائدہ پہنچا ہے۔ PDF OCRs نے اب متعدد ایپلی کیشنز کے لیے ایک حیران کن معیار کی درستگی حاصل کر لی ہے۔

پی ڈی ایف او سی آر سافٹ ویئر کی ایپلی کیشنز

OCR کا بنیادی مقصد غیر ساختہ فارمیٹس سے ڈیٹا کو بازیافت کرنا ہے، چاہے وہ عددی اعداد و شمار ہوں یا حقیقی اعداد۔ اگر بازیافت کامیاب اور انتہائی درست ہے تو، پروگرام OCR کو مزدوری کے کاموں کے لیے استعمال کر سکتے ہیں جیسے متن کو پہچاننا اور اس کی تشریح کرنا، خاص طور پر عددی اور سیاق و سباق کے تجزیہ کے لیے۔

عددی ڈیٹا کا تجزیہ

جب پی ڈی ایف میں عددی ڈیٹا ہوتا ہے، تو OCR شماریاتی تجزیہ کرنے کے لیے انہیں نکالنے میں مدد کرتا ہے۔ خاص طور پر، ٹیبل یا کلیدی قدر کے جوڑوں (KVPs) نکالنے کی مدد سے OCR کا اطلاق کسی ایک متن کے مختلف خطوں سے بامعنی نمبر تلاش کرنے کے لیے کیا جا سکتا ہے۔ اس کے بعد ہم مختلف ایپلی کیشنز کے ماڈلز کے لیے شماریاتی یا حتیٰ کہ مشین لرننگ کے طریقوں (یعنی KNN، K-Means، Linear/Logistic Regression) کو اپنا سکتے ہیں۔

ٹیکسٹ ڈیٹا کی تشریح

دوسری طرف، ٹیکسٹ ڈیٹا پروسیسنگ کے لیے حساب کے مزید مراحل درکار ہو سکتے ہیں، پروگراموں کے لیے حتمی مقصد الفاظ کے پیچھے "معنی" کو سمجھنا ہے۔ متن کے اعداد و شمار کو اس کے معنوی معنی میں تشریح کرنے کے اس عمل کو نیچرل لینگویج پروسیسنگ (NLP) کہا جاتا ہے۔

PDF OCR کے فوائد

PDF OCR درخواست کی سطح پر متعدد مقاصد کو پورا کرتا ہے۔ مندرجہ ذیل حصے کچھ مثالوں کے استعمال کے کیسز کی وضاحت کرتے ہیں جو کہ ذاتی استعمال کے طور پر چھوٹے سے لے کر کارپوریشن کے بڑے تک۔

ذاتی استعمال کے کیسز

پی ڈی ایف او سی آر پریشان کن کاموں جیسے کہ آئی ڈی سکیننگ اور ذاتی فنانسنگ سے نمٹنے میں بہت زیادہ سہولت لاتے ہیں۔

ذاتی IDs کو اکثر مختلف ایپلی کیشنز کو بھیجنے کے لیے پی ڈی ایف فارمیٹ میں تبدیل کرنے کی ضرورت ہوتی ہے۔ ان شناختی دستاویزات میں تاریخ پیدائش اور شناختی نمبر جیسی معلومات ہوتی ہیں جنہیں اکثر مختلف مقاصد کے لیے بار بار ٹائپ کرنے کی ضرورت ہوتی ہے، اور اس لیے ایک انتہائی درست پی ڈی ایف او سی آر جو پورے ID میں مماثل فیلڈز اور متعلقہ اقدار کو تلاش کرتا ہے۔ معمولی دستی کاموں کو انجام دینے میں مدد کریں۔ صرف محنت کی ضرورت ہوگی کسی بھی عدم مطابقت کے لئے صرف دو بار چیک کریں۔

پرسنل فنانسنگ ایک اور عمل ہے جس کے لیے بہت ساری دستی مشقت کی ضرورت ہوتی ہے۔ اگرچہ ایکسل اور اسپریڈ شیٹس میں پیش رفت نے پہلے ہی ذاتی بجٹ، OCR اور پی ڈی ایف انوائسز پر ڈیٹا نکالنے جیسے کاموں میں آسانی پیدا کر دی ہے اس عمل کو مزید تیز کر سکتا ہے۔ یہ ڈیٹا خود بخود اسپریڈ شیٹس میں تجزیہ کے لیے ڈالا جا سکتا ہے جیسا کہ پچھلے حصوں میں کیا گیا ہے۔ کوئی بھی بہتر مالیاتی منصوبوں کے بارے میں سوچنے کے لیے اصل کلیدی وقت کو آسانی سے استعمال کر سکتا ہے۔

کاروباری استعمال کے معاملات

دونوں بڑی کارپوریشنوں اور چھوٹی تنظیموں کو اسی طرح کے فارمیٹس کے بعد ہزاروں کاغذی کارروائیوں سے نمٹنا پڑتا ہے، جو کہ انتہائی محنت طلب اور پھر بھی غیر پیداواری ہیں (یعنی، تمام محنت کو کسی ایسی چیز کے لیے استعمال کیا جاتا ہے جس کے لیے کم ذہن سازی کی ضرورت ہوتی ہے)۔ خودکار دستاویز کی درجہ بندی اور سروے کے مجموعے/تجزیہ وہ جگہ ہیں جہاں OCR کام آتا ہے۔

OCRs کمپیوٹرز کو اسکین شدہ متن کو مشین سے انکوڈ شدہ متن میں تبدیل کرنے کے قابل بناتا ہے۔ تبدیل شدہ متن کے مندرجات کو پھر دستاویزات کی درجہ بندی کے لیے استعمال کیا جا سکتا ہے، چاہے وہ مختلف کرداروں کے لیے درخواستیں ہوں یا فارم کی منظوری کے منتظر ہوں۔ اگر اچھی طرح سے تربیت دی جائے تو، OCRs کم سے کم غلطیوں کا باعث بن سکتے ہیں جو ناگزیر انسانی تھکاوٹ کی وجہ سے بار بار ہو سکتی ہیں۔ کاروباری نقطہ نظر سے، مزدوری کے اخراجات بھی کافی حد تک کم ہو سکتے ہیں۔

سروے یا آراء کے لحاظ سے، جو اکثر تنظیموں کو اپنی موجودہ مصنوعات یا منصوبوں کو بہتر بنانے کے لیے درکار ہوتے ہیں، OCR بھی ایک اہم کردار ادا کرتا ہے۔ اعداد و شمار کے تجزیہ کے لیے ڈیٹا کو تیزی سے نکالا اور وسیع پیمانے پر جانچا جا سکتا ہے۔ اگر اچھی طرح سے ڈیزائن کیا گیا ہو تو، ہاتھ سے لکھا ہوا متن بھی خود بخود نکالا اور تجزیہ کیا جا سکتا ہے۔

ایک سادہ ٹیوٹوریل

پی ڈی ایف او سی آر دراصل آسانی سے ذاتی طور پر پروگرام کیے جا سکتے ہیں۔ PDFs پر OCR انجام دینے کے لیے درج ذیل ایک سادہ پائپ لائن ہے۔

پی ڈی ایف کو امیجز میں تبدیل کرنا

متعدد زبانوں میں متعدد لائبریریاں اور APIs ہیں جو پہلے سے تربیت یافتہ OCRs کو سپورٹ کرتی ہیں۔ تاہم، ان میں سے زیادہ تر تصاویر کے ساتھ کارروائی کرتے ہیں نہ کہ براہ راست پی ڈی ایف کے ساتھ۔ لہذا، درج ذیل مراحل کو آسان بنانے کے لیے، ہم کرداروں کی شناخت کرنے سے پہلے پی ڈی ایف کو تصویری شکل میں پہلے سے پروسیس کر سکتے ہیں۔

ایسا کرنے کے لیے سب سے زیادہ استعمال ہونے والی لائبریری میں سے ایک ہے۔ پی ڈی ایف 2 امیج Python کے لئے لائبریری، جو آسانی سے درج ذیل کمانڈ کے ذریعے انسٹال کی جا سکتی ہے۔

pip install pdf2image

اس کے بعد، کوئی بھی لائبریری کو درآمد کر سکتا ہے اور PIL فارمیٹ میں تصویر حاصل کرنے کے لیے کوڈ کی دو لائنوں میں سے کوئی بھی استعمال کر سکتا ہے:

from pdf2image import convert_from_path, convert_from_bytes
from pdf2image.exceptions import ( PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
) images = convert_from_path('/home/belval/example.pdf')
images = convert_from_bytes(open('/home/belval/example.pdf','rb').read())

کوڈ کے بارے میں مزید معلومات کے لیے، آپ سرکاری دستاویزات کا حوالہ دے سکتے ہیں۔ https://pypi.org/project/pdf2image/

تصویر OCR

بڑی ٹیک کمپنیوں کے بہت سے APIs انتہائی درست OCR کے ساتھ ہیں۔ اس مفروضے کی وجہ سے کہ پی ڈی ایفز عام طور پر گھنے ٹیکسٹ ڈیٹا سے بھرے ہوتے ہیں، اس طرح کے OCR کو انجام دینے کا سب سے موزوں طریقہ گوگل ویژن API کا استعمال کرنا ہوگا، خاص طور پر دستاویز_متن_تشریح فنکشن کے طور پر یہ خاص طور پر اس طرح کے مقاصد کے لئے ڈیزائن کیا گیا ہے. خاص طور پر، دستاویز_متن_تشریح کوڈ کو OCR انجن کو بھیجتا ہے جسے گوگل نے گھنے متن کے لیے ڈیزائن کیا ہے، بشمول مختلف زبانوں میں لکھاوٹ۔

پورا گوگل ویژن API سیٹ اپ کرنے کے لیے آسان ہے، کوئی اس کی آفیشل گائیڈنس کا حوالہ دے سکتا ہے۔ https://cloud.google.com/vision/docs/quickstart-client-libraries تفصیلی سیٹ اپ کے طریقہ کار کے لیے۔

اس کے بعد ہم OCR بازیافت کے لیے درج ذیل کوڈز استعمال کر سکتے ہیں:

def detect_document(path): """Detects document features in an image.""" from google.cloud import vision import io client = vision.ImageAnnotatorClient() with io.open(path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) response = client.document_text_detection(image=image) for page in response.full_text_annotation.pages: for block in page.blocks: print('nBlock confidence: {}n'.format(block.confidence)) for paragraph in block.paragraphs: print('Paragraph confidence: {}'.format( paragraph.confidence)) for word in paragraph.words: word_text = ''.join([ symbol.text for symbol in word.symbols ]) print('Word text: {} (confidence: {})'.format( word_text, word.confidence)) for symbol in word.symbols: print('tSymbol: {} (confidence: {})'.format( symbol.text, symbol.confidence)) if response.error.message: raise Exception( '{}nFor more info on error messages, check: ' 'https://cloud.google.com/apis/design/errors'.format( response.error.message))

متبادل طور پر، گوگل ویژن API متعدد زبانوں کو بھی سپورٹ کرتا ہے، جیسے جاوا اور گو۔ گوگل API کے استعمال سے متعلق مزید کوڈز یہاں سے حاصل کیے جا سکتے ہیں: https://cloud.google.com/vision

ایمیزون اور مائیکروسافٹ سے دیگر OCR سروسز/APIs بھی ہیں، اور آپ ہمیشہ استعمال کر سکتے ہیں۔ PyTesseract مخصوص مقاصد کے لیے آپ کے ماڈل کی تربیت کے لیے لائبریری۔

موازنہ

مارکیٹ میں اس وقت متعدد PDF OCR دستیاب ہیں۔ اگرچہ کچھ مفت، تیز، اور فوری طور پر آن لائن استعمال کیے جا سکتے ہیں، دیگر پیشہ ورانہ استعمال کے لیے زیادہ درست اور بہتر ڈیزائن کردہ مصنوعات فراہم کرتے ہیں۔ یہاں ہم چند اختیارات کے ساتھ ساتھ ان کے فائدے اور نقصانات بھی بیان کرتے ہیں۔

آن لائن PDF OCRs

فوری تبادلوں پر ذاتی استعمال کے لیے PDF OCRs کا استعمال کرتے وقت، مفت اور تیز درستگی سے زیادہ مطلوبہ ہو سکتا ہے۔ متعدد آن لائن PDF OCR سروسز ہیں جو ان ضروریات کو پورا کرتی ہیں۔ کوئی بھی آسانی سے پی ڈی ایف دستاویزات کو اپ لوڈ کرسکتا ہے اور تیز اور آسان طریقے سے تحریری متن میں تبدیل ہوسکتا ہے۔

تاہم، اس کے ساتھ بنیادی مسئلہ OCR کا کوالٹی کنٹرول ہے۔ یہ آن لائن مفت OCR سافٹ ویئر، جبکہ یہ زیادہ تر وقت اچھی طرح کام کرتے ہیں، دوسرے آف لائن سافٹ ویئر کے مقابلے میں ہر بار بہترین کوالٹی آؤٹ پٹ فراہم کرنے کے پابند نہیں ہوتے ہیں جس کے لیے مستقل دیکھ بھال کی ضرورت ہوتی ہے۔

آف لائن سافٹ ویئر

فی الحال، بہت سی کمپنیاں ہیں جو انتہائی درست پی ڈی ایف او سی آر خدمات فراہم کرتی ہیں۔ یہاں ہم پی ڈی ایف او سی آر کے کئی آپشنز کو دیکھتے ہیں جو مختلف پہلوؤں میں مہارت رکھتے ہیں، نیز کچھ حالیہ تحقیقی پروٹو ٹائپس جو امید افزا نتائج فراہم کرتے نظر آتے ہیں:

متعدد OCR خدمات ہیں جن کا ہدف جنگلی میں تصاویر جیسے کاموں کی طرف ہے۔ ہم نے ان خدمات کو چھوڑ دیا کیونکہ ہم فی الحال صرف پی ڈی ایف دستاویز پڑھنے پر توجہ مرکوز کر رہے ہیں۔

ABBYY - ABBYY FineReader PDF ایک OCR ہے جسے ABBYY نے تیار کیا ہے۔ سافٹ ویئر میں ایک دوستانہ UI ہے جو پی ڈی ایف پڑھنے اور متن کی تبدیلی کے لیے استعمال ہوتا ہے۔ تاہم، اس کی غیر انجینئرنگ نوعیت کے ساتھ (اہداف کے صارفین دوسرے شعبوں میں نان ٹیک ماہرین ہیں جنہیں PDF OCR کی ضرورت ہے)، اسے مزید پروسیسنگ کے لیے دوسرے پروگراموں میں شامل کرنا زیادہ مشکل ہوگا۔
کوفیکس – ABBYY کی طرح، کوفیکس ایک دوستانہ پی ڈی ایف ریڈر ہے جس کے لیے خریداری کی ضرورت ہوتی ہے۔ بڑی کارپوریشنوں کے لیے رعایت کے ساتھ، انفرادی استعمال کے لیے قیمت مقرر کی گئی ہے۔ کسی تکنیکی دشواری کی صورت میں 24/7 مدد بھی دستیاب ہے۔
گہرا ریڈر - ڈیپ ریڈر ایک تحقیقی کام ہے جو ACCV کانفرنس 2019 میں شائع ہوا ہے۔ اس میں دستاویز کی مماثلت، متن کی بازیافت، اور تصاویر کو مسترد کرنے جیسے کاموں کو انجام دینے کے لیے متعدد جدید ترین نیٹ ورک آرکیٹیکچرز شامل کیے گئے ہیں۔ یہاں اضافی خصوصیات ہیں جیسے ٹیبلز اور کلیدی ویلیو پیئر نکالنا جو ڈیٹا کو منظم طریقے سے بازیافت اور محفوظ کرنے کی اجازت دیتے ہیں۔
Nanonets™ - Nanonets™ PDF OCR گہری سیکھنے کا استعمال کرتا ہے اور اس وجہ سے یہ مکمل طور پر ٹیمپلیٹ اور رول سے آزاد ہے۔ Nanonets نہ صرف مخصوص قسم کے PDFs پر کام کر سکتے ہیں، بلکہ اسے ٹیکسٹ کی بازیافت کے لیے کسی بھی دستاویز کی قسم پر بھی لاگو کیا جا سکتا ہے۔

نتیجہ

آخر میں، اس آرٹیکل میں ہم نے بنیادی باتوں پر بات کی کہ OCR کیسے کام کرتا ہے، ساتھ ہی OCR کی ترقی کی ٹائم لائن کے بعد سادہ سبق اور استعمال کے کیسز۔ ہم نے PDF OCRs کے ساتھ ساتھ مزید استعمال کے لیے ان کے فوائد اور نقصانات کے لیے قابل عمل اختیارات کا ایک سیٹ بھی پیش کیا۔

ماخذ: https://nanonets.com/blog/pdf-ocr/

ٹائم اسٹیمپ: 30 فرمائے، 2021