افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

OCR اور Google Books API کا استعمال کرتے ہوئے بک میٹا ڈیٹا اور کور کی بازیافت

= پچھلا پیغام

اگلا، دوسرا پیغام =>

ٹیگز: API, گوگل, چاقو, کم کوڈ

KNIME کے ساتھ تصاویر سے معلومات کے اہم ٹکڑوں کو نکالنا ABC کی طرح آسان ہو جاتا ہے۔

تبصروں

By رابرٹو کیڈیلی، ڈیٹا سائنسدان، KNIME اور Lada Rudnitckaia، ڈیٹا سائنسدان، KNIME

تصویر 1: کتاب کے ایڈیشن کے نوٹس کی مثالیں جہاں OCR کی بدولت معلومات حاصل کی جا سکتی ہیں۔

زیادہ تر وقت، خام ڈیٹا جس کی ہمیں اپنے ڈیٹا سائنس پروجیکٹ کے لیے ضرورت ہوتی ہے وہ صاف ستھرا، اچھی ساخت اور بصیرت سے بھرپور جدول میں منظم نہیں ہوتا ہے۔ بلکہ، یہ کبھی کبھی سکین شدہ دستاویز میں متن کے طور پر محفوظ کیا جاتا ہے۔ اس کے بعد دستاویز میں موجود الفاظ کو ایک ایک کرکے نکالا جانا چاہیے تاکہ ٹیکسٹ فارمیٹ شدہ ڈیٹا سیل بنایا جا سکے۔ یہ وہ کام ہے جو آپٹیکل کریکٹر ریکگنیشن (OCR) کے ذریعے انجام دیا جاتا ہے۔

جیسا کہ آپ اس مضمون کے الفاظ پڑھتے ہیں، چاہے وہ متن ہو یا نمبر، آپ کی آنکھیں حروف (جیسے حروف، نمبر، رموز اوقاف وغیرہ) بنانے والے روشنی اور تاریک نمونوں کو پہچان کر ان پر کارروائی کرنے کے قابل ہوتی ہیں۔ اس کے بعد آپ کا دماغ الفاظ کے معنی کو سمجھنے کے لیے حروف اور نمونوں کے مختلف امتزاج کو ڈی کوڈ کر رہا ہے۔ اس لحاظ سے، آپ کی آنکھیں اور دماغ سب سے زیادہ نفیس اور بہتر OCR انجن ہیں جس کا آپ ممکنہ طور پر تصور کر سکتے ہیں، اور وہ آپ کو دیکھے بغیر بھی کام کرتے ہیں۔

کمپیوٹر میں بھی ایسی ہی صلاحیتیں ہیں، لیکن انہیں ایک اہم حد سے نمٹنا ہوگا: آنکھوں کی عدم موجودگی۔ اگر ہم چاہتے ہیں کہ کمپیوٹرز کسی فزیکل ٹیکسٹ دستاویز کو دیکھیں اور پڑھیں، تو ہمیں آپٹیکل اسکینر یا ڈیجیٹل کیمرے سے تیار کردہ گرافک فائل داخل کرنے کی ضرورت ہے۔ جہاں تک کمپیوٹرز کا تعلق ہے، ان دونوں میں سے کسی ایک آپشن کے ساتھ حاصل کی گئی دستاویز اور ایفل ٹاور کی تصویر میں کوئی فرق نہیں ہے: دونوں کو رنگین چوکوں کے بے معنی مجموعے کے طور پر سمجھا جاتا ہے - جسے پکسلز بھی کہا جاتا ہے - جو کسی بھی کمپیوٹر گرافک امیج کو تشکیل دیتے ہیں۔ اس طرح، مؤخر الذکر صرف متن کی ایک تصویر ہے جسے ہم خود متن کے بجائے پڑھنے کا ارادہ رکھتے ہیں۔

یہ وہ جگہ ہے جہاں OCR کام آ سکتا ہے۔ یہ طاقتور ٹیکنالوجی پرنٹ شدہ، ٹائپ شدہ، یا ہاتھ سے لکھا ہوا ڈیٹا نکالنے کے قابل ہے، چاہے وہ انوائسز، بزنس کارڈز، قانونی متن، یا پرنٹ آؤٹ ہوں، اور اسے قابل تلاش اور قابل تدوین ڈیجیٹل فارمیٹ میں تبدیل کر سکتے ہیں۔ اگرچہ کئی سالوں سے OCR کو ایک مہنگی سروس کے طور پر شمار کیا جاتا رہا ہے، جسے صرف بہت کم بڑی کمپنیاں ہی برداشت کر سکتی تھیں، 2000 کی دہائی کے وسط سے، اس کی لاگت آہستہ آہستہ کم ہو گئی ہے جبکہ اس کی درستگی اور صلاحیتیں آج کئی سو زبانوں اور کریکٹر انکوڈنگ کو سپورٹ کرنے کے لیے تیار ہوئی ہیں۔ UTF-8 سے GB2312 تک۔

تصاویر سے متن تلاش کرنے اور نکالنے کے قابل ہونے کا فائدہ انمول ہوسکتا ہے۔ مثال کے طور پر، قانونی یا اکاؤنٹنگ انڈسٹری میں، یہ ایک اہم لاگت اور وقت بچانے کی نمائندگی کر سکتا ہے، کیونکہ یہ چند سیکنڈوں میں آرٹیکلز یا مالیاتی بیانات میں متن یا اعداد کے کچھ حصوں کی بازیافت کے قابل بناتا ہے۔ اس عمل کا موازنہ ہزاروں دستاویزات کو پڑھنے کے لیے لوگوں کے ایک گروپ کی خدمات حاصل کرنے کی لاگت سے کرنا صرف ایک اہم معلومات کا ایک حصہ تلاش کرنے کے لیے اس بات کا اندازہ دیتا ہے کہ OCR کس طرح کاروبار کو فائدہ پہنچا سکتا ہے۔

ابھی حال ہی میں، OCR ٹیکنالوجی خاموش انقلاب سے گزر رہی ہے کیونکہ اس سروس کے فراہم کنندگان اسے AI کے ساتھ جوڑ رہے ہیں۔ اس کے نتیجے میں، نہ صرف ڈیٹا کو پکڑا جا رہا ہے، اسے قابل تلاش اور قابل تدوین بنایا جا رہا ہے، بلکہ AI نظام دراصل مخصوص کاموں کو انجام دینے کے لیے مواد کو سمجھ رہا ہے۔ مثال کے طور پر، کسی متن کو OCR کرنے کے بعد، AI کم سے کم انسانی مداخلت کے ساتھ نیورل مشین ٹرانسلیشن کا استعمال کرتے ہوئے اس کا ترجمہ فراہم کر سکتا ہے۔ ایک اور بہترین مثال آڈیٹنگ سیکشن سے ملتی ہے، جہاں پی ڈی ایف دستاویز کے مواد کو او سی آر کرنے کے بعد، آؤٹ لیئر ڈیٹیکشن تکنیک کا استعمال کرتے ہوئے جعلی رسیدوں کو پہچانا جا سکتا ہے۔ اور اسی طرح. یہ ہم آہنگی عمل کو ہموار کرنے اور کاروبار اور کلائنٹس کے لیے پیداواری صلاحیت بڑھانے کے لیے دونوں جہانوں کے بہترین کو یکجا کرتی ہے۔

اس مضمون میں بیان کردہ استعمال کے معاملے میں، OCR کا استعمال کسی کتاب کی شناخت کرنے اور پھر Google Books کے ذخیرے سے کتاب کے میٹا ڈیٹا کو بازیافت کرنے کے لیے کیا جاتا ہے۔

مزید خاص طور پر، ہم اس پر ایک نظر ڈالیں گے:

OCR کو کس طرح کرایا جا سکتا ہے۔ KNIME تجزیاتی پلیٹ فارم.
کتاب کے میٹا ڈیٹا اور کور کو بازیافت کرنے کے استعمال کے معاملے کے لیے ہم KNIME کے OCR پروسیسر اور Google Books API کو کیسے مربوط کر سکتے ہیں۔

KNIME تجزیاتی پلیٹ فارم میں OCR

KNIME میں متن پر مشتمل تصویر کو OCR کرنا بہت آسان کام ہے۔ بس اسے انسٹال کرنا ہے۔ KNIME امیج پروسیسنگ - Tess4J انٹیگریشن آپ کے مقامی میں توسیع KNIME تجزیاتی پلیٹ فارم، اور ڈریگ اینڈ ڈراپ کرنے کے لیے ٹیس 4 جے اپنے ورک فلو ایڈیٹر پر نوڈ کریں۔

Tess4J نوڈ ضم کرتا ہے۔ ٹیسریکٹ او سی آر لائبریری، دستیاب سب سے زیادہ استعمال شدہ اور درست اوپن سورس OCR پروسیسرز میں سے ایک۔ Tesseract کو اصل میں ہیولٹ پیکارڈ لیبارٹریز نے 1990 کی دہائی کے اوائل میں ایک ملکیتی سافٹ ویئر کے طور پر تیار کیا تھا اور بعد میں اسے 2005 میں اوپن سورس بنایا گیا تھا۔ تب سے گوگل نے اس پروجیکٹ کو اپنایا اور اس کی ترقی کو سپانسر کیا۔

Tess4J نوڈ Tesseract 3 پر چلتا ہے، جو دو پاس کے طریقہ کار میں کردار کے نمونوں کو پہچان کر کام کرتا ہے۔

پہلے پاس میں، انجن ہر انفرادی کردار کو پہچاننے کی کوشش کرتا ہے۔ اس کے بعد یہ ان حروف کو منتقل کرتا ہے جنہیں پہلے پاس میں اعلیٰ اعتماد کے ساتھ تربیتی ڈیٹا کے طور پر ایک انکولی درجہ بندی کرنے والے کو پہچانا گیا تھا۔ اس طرح، انکولی درجہ بندی کرنے والے کو یہ سیکھنے کا موقع ملتا ہے کہ کس طرح بعد کے متن کو زیادہ درست طریقے سے پہچانا جائے۔
تاہم، یہ ہو سکتا ہے کہ انکولی درجہ بندی کرنے والا مفید معلومات بہت دیر سے سیکھتا ہے تاکہ کوئی معنی خیز حصہ ڈال سکے۔ اس مسئلے کو حل کرنے اور انکولی درجہ بندی کے ذریعے حاصل کردہ علم کا فائدہ اٹھانے کے لیے، انجن ایک دوسرا پاس چلاتا ہے جہاں وہ حروف جو کافی حد تک پہچانے نہیں گئے تھے دوبارہ پہچانے جاتے ہیں [1]۔

Tesseract 3 کسی بھی یونیکوڈ حروف کو ہینڈل کرتا ہے (UTF-8 کے ساتھ کوڈ شدہ) اور متن کو مختلف زبانوں اور تحریری ترتیب میں پروسیس کر سکتا ہے: بائیں سے دائیں (مثال کے طور پر، انگریزی، اطالوی، روسی، وغیرہ)، دائیں سے بائیں (جیسے، عربی، عبرانی، اردو وغیرہ) اور اوپر سے نیچے (مثلاً، جاپانی، کورین، چینی، وغیرہ) [2]۔

ڈس کلیمر میک صارفین فی الحال Tess4J نوڈ استعمال کرنے سے قاصر ہیں۔ KNIME ڈویلپرز ہموار کام کو بحال کرنے کے لیے کام کر رہے ہیں۔

کیس استعمال کریں: کتاب کا میٹا ڈیٹا اور کور بازیافت کرنا

اب جب کہ ہم نے اس بات کی بنیادی سمجھ حاصل کر لی ہے کہ KNIME Analytics پلیٹ فارم میں OCR کیسے کام کرتا ہے، آئیے استعمال کے ایک دلچسپ معاملے پر ایک نظر ڈالتے ہیں۔ فرض کریں کہ ہم نے کئی کتابوں کے ایڈیشن نوٹسز کی عکاسی کرنے والی تصاویر جمع کی ہیں اور اس معلومات کے ساتھ ہم کتاب کے میٹا ڈیٹا اور سرورق کو بازیافت کرنا چاہتے ہیں۔ بازیافت شدہ ڈیٹا کو پھر استعمال کیا جا سکتا ہے، مثال کے طور پر، اپنی مرضی کے مطابق ڈیجیٹل لائبریری بنانے اور کتاب کی سفارش کرنے والے نظام کو تربیت دینے کے لیے۔

شکل 2 میں ورک فلو تمام مراحل کا احاطہ کرتا ہے: امیج ریڈنگ، OCRing، ٹیکسٹ پروسیسنگ اور ISBN حوالہ نکالنے سے لے کر، میٹا ڈیٹا بک کرنے اور کور کی بازیافت اور ویژولائزیشن تک۔ آئیے تفصیل سے مختلف مراحل پر ایک نظر ڈالیں۔

شکل 2: یہ کام کا بہاؤ بک ایڈیشن نوٹسز پر ایک آسان OCR کام انجام دیتا ہے اور Google Books API کا استعمال کرتے ہوئے کتاب کا میٹا ڈیٹا اور کور بازیافت کرتا ہے۔

1 - تصویری ڈیٹا پڑھیں

پہلا قدم کتاب ایڈیشن نوٹس کی تصاویر کو KNIME میں درآمد کرنا ہے۔ ایڈیشن نوٹس ایک کتاب کا صفحہ ہے جس میں موجودہ ایڈیشن کے بارے میں معلومات شامل ہیں، جیسے کاپی رائٹ نوٹس، قانونی نوٹس، اشاعت کی معلومات، پرنٹنگ کی تاریخ، اور ایک ISBN کوڈ (شکل 1)۔

میٹانوڈ "ریڈ امیج ڈیٹا" ایک آسان اور پروگرامی طریقے سے اس کا خیال رکھتا ہے (شکل 3)۔ ہم اس جگہ کی نشاندہی کرتے ہیں جہاں تصویری فائلیں محفوظ کی جاتی ہیں۔ فائلوں/فولڈرز کی فہرست بنائیں نوڈ اور استعمال کریں۔ امیج ریڈر (ٹیبل) خوبصورتی سے تصاویر درآمد کرنے کے لیے نوڈ۔ امیج ریڈر (ٹیبل) نوڈ میں، ہمیں صرف "فائل ان پٹ کالم" کی وضاحت کرنے کی ضرورت ہے، یعنی کالم کا کہنا ہے کہ ان فائلوں کے راستوں کے ساتھ جہاں ہماری تصاویر محفوظ ہیں۔ دیگر تمام کنفیگریشنز کو بطور ڈیفالٹ چھوڑا جا سکتا ہے۔

امیج ریڈر (ٹیبل) کا حصہ ہے۔ KNINE امیج پروسیسنگ ایکسٹینشن اور، اس ایکسٹینشن کے دیگر نوڈس کی طرح، یہ نوڈ پر صرف دائیں کلک کرکے، "دیکھیں: امیج ویور" کو منتخب کرکے، اور ٹیبل ویو میں کسی بھی تصویر پر ڈبل کلک کرکے تصویر اور اس کے میٹا ڈیٹا پر مشتمل ایک انٹرایکٹو منظر پیش کرتا ہے۔

شکل 3: میٹانوڈ کے اندر "ریڈ امیج ڈیٹا"۔ امیج ریڈر (ٹیبل) نوڈ امیجز کو ورک فلو میں امپورٹ کرتا ہے اور ہمیں اس کی نظر میں ان کو انٹرایکٹو طریقے سے دریافت کرنے کی اجازت دیتا ہے۔

2 - OCR

کتاب کے ایڈیشن کے نوٹس کی تصویری فائلوں میں پڑھنے کے بعد، ہم انہیں OCR کر سکتے ہیں۔

Tess4J نوڈ کی ترتیب بہت آسان ہے اور صرف چند کلکس کی ضرورت ہے (شکل 4)۔ میں ترتیبات ٹیب، نوڈ کنفیگریشن ڈائیلاگ کے "پری پروسیسنگ" سیکشن میں باکس "ڈیسکیو ان پٹ امیجز" کو منتخب کرکے کسی بھی گردش یا ترچھی تصویر کو درست کرنے کا امکان فراہم کرتا ہے۔ عام طور پر ایسا کرنے کا مشورہ دیا جاتا ہے، کیونکہ گرافک فائلیں ٹھیک طرح سے منسلک نہیں ہو سکتی ہیں۔ مزید یہ کہ، Tess4J نوڈ خود بخود ہڈ کے پیچھے ایک بائنرائزڈ امیج تیار کرتا ہے۔

اگلا، ہم "ٹیس ڈیٹا پاتھ" کو منتخب کرتے ہیں۔ پہلے سے طے شدہ طور پر، یہ "اندرونی استعمال کریں" پر سیٹ ہوتا ہے، جو پھر ہمیں متن کی زبان کو منتخب کرنے کی اجازت دیتا ہے جس پر ہم کارروائی کرنا چاہتے ہیں۔ اس ترتیب میں، انگریزی پہلے سے طے شدہ زبان ہے، لیکن Tess4J نوڈ دیگر قدرتی زبانوں جیسے ڈینش، اطالوی، ہسپانوی، روسی، یونانی، سلوواک، جرمن، اور فرانسیسی کو سپورٹ کرتا ہے۔ یہ بات قابل ذکر ہے کہ "Use External" کو منتخب کر کے، ہم Tess4J نوڈ کی صلاحیتوں کو بڑھا کر ایسی زبانیں شامل کر سکتے ہیں جو اندرونی طور پر تعاون یافتہ نہیں ہیں۔ درحقیقت، ہم اپنے، بیرونی تربیت یافتہ ڈیٹا لینگوئج ماڈلز کو اس ڈائرکٹری کی وضاحت کر کے منتخب کر سکتے ہیں جہاں وہ محفوظ ہیں۔ ہم "اندرونی استعمال کریں" کا انتخاب کرتے ہیں کیونکہ ہم اپنی انگریزی دستاویزات کے لیے Tess4J کے اندرونی ماڈلز پر انحصار کرنے کو ترجیح دیتے ہیں۔

"ریگنیشن کنفیگریشن" سیکشن میں، ہمیں دو سب سے اہم ڈراپ ڈاؤن لسٹ کنفیگریشن ملتے ہیں، یعنی "صفحہ سیگمنٹیشن موڈ" اور "OCR انجن موڈ"۔ پہلا اس بات کی وضاحت کرتا ہے کہ ہمارے صفحہ کو کس طرح تقسیم کیا گیا ہے۔

شکل 4 میں، ہم "Full Auto Pageseg" کو منتخب کرتے ہیں، جو مکمل طور پر خودکار صفحہ کی تقسیم کو یقینی بناتا ہے۔ ہاتھ میں موجود مخصوص استعمال کے معاملے پر منحصر ہے، دستیاب 13 میں سے ایک اور موڈ کا انتخاب کرنا (جیسے، "سنگل کالم" یا "سپرس ٹیکسٹ") زیادہ موزوں آپشن ہو سکتا ہے۔

دوسری ترتیب ہم سے OCR انجن کا انتخاب کرنے کو کہتی ہے۔ یہاں، ہم "صرف ٹیسریکٹ" کو منتخب کرتے ہیں، جو تیز ترین عملدرآمد کو یقینی بناتا ہے۔ دوسرے اختیارات میں شامل ہیں "کیوب صرف" — ٹیسریکٹ کے لیے ایک متبادل شناختی موڈ — جو سست ہے لیکن اکثر بہتر نتائج دیتا ہے۔ یا "ٹیسریکٹ اینڈ کیوب"، جو دونوں جہانوں کے بہترین کو یکجا کرتا ہے۔ ایک یا دوسرے انجن کو چننے کا انحصار تصویر کے معیار اور متن کی پیچیدگی پر ہے جس پر ہم کارروائی کرنا چاہتے ہیں۔

بنیادی ترتیبات کے علاوہ، Tess4J نوڈ ایک پیش کرتا ہے۔ اعلی درجے کی ترتیب ٹیب جہاں ہم ایک سیٹ کی وضاحت کر سکتے ہیں۔ کنٹرول پیرامیٹرز. یہ ٹیب نوڈ کو انتہائی لچکدار بناتا ہے اور ماہر صارفین کو اپنی مخصوص ضروریات کے مطابق Tesseract OCR انجن کو اپنی مرضی کے مطابق بنانے اور ٹھیک کرنے میں مدد کرتا ہے۔ پریشان نہ ہوں، اگرچہ، زیادہ تر معاملات کے لیے بنیادی کنفیگریشنز آپ کو بہت آگے لے جائیں گی!

شکل 4: Tess4J نوڈ کا کنفیگریشن ڈائیلاگ۔

Tess4J نوڈ کی کنفیگریشنز کو ہاتھ میں استعمال کے کیس میں موافقت کرنے کے علاوہ، اگر ضرورت ہو تو ان پٹ امیجز کو اچھی طرح سے پہلے سے پروسیس کرنا ایک اچھا عمل ہے۔ خاص طور پر، Tesseract بہترین کام کرتا ہے جب تصاویر کو کافی حد تک اس طرح بڑھایا جاتا ہے کہ حروف کی x-ہائیٹ کی پکسل گنتی کم از کم 20 پکسلز ہو۔ تصاویر درست طریقے سے منسلک ہیں اور کافی اعلی ریزولوشن کی حامل ہیں۔ اور کسی بھی تاریک سرحدوں کو ہٹا دیا جاتا ہے، یا انہیں حروف کے طور پر غلط سمجھا جا سکتا ہے [3]۔ دی KNINE امیج پروسیسنگ توسیع میں تصویر کی صفائی، ہیرا پھیری اور تبدیلی کے لیے کئی نوڈس شامل ہیں، اور بہت سے مثال کے طور پر کام کے بہاؤ پر پایا جا سکتا ہے KNIME حب.

Tess4J نوڈ کا آؤٹ پٹ ایک ٹیبل ہے جس میں سٹرنگ ڈیٹا ٹائپ کے طور پر نکالے گئے متن پر مشتمل ہے، اور اس طرح اسے تلاش اور ترمیم کیا جا سکتا ہے۔

3 — ISBN نکالنے کے لیے ٹیکسٹ پروسیسنگ

ایک بار جب تصاویر او سی آر کی جاتی ہیں، تو ان میں موجود متن تک رسائی حاصل کی جا سکتی ہے اور مفید معلومات کو بازیافت کیا جا سکتا ہے۔

خاص طور پر، ایڈیشن نوٹس عام طور پر کتاب کو تفویض کردہ ISBN کوڈ کی اطلاع دیتے ہیں۔ ISBN کوڈ ایک انوکھا، 13 ہندسوں کا لمبا ہے (یہ 10 سے پہلے 2007 ہندسوں کا ہوتا تھا)، تجارتی کتاب کا شناخت کنندہ اور اسی طرح اسے اشاعت کے ہر علیحدہ ایڈیشن اور تغیر کو تفویض کیا جاتا ہے۔ ISBN کوڈ نکالنے سے جب ہم میٹینفارمیشن کو بازیافت کرنا چاہتے ہیں تو ہمیں ہر کتاب کا غیر واضح طور پر حوالہ دینے کی اجازت دیتا ہے۔ اس کو حاصل کرنے کے لیے، ہم اس میں شامل نوڈس پر بھروسہ کر سکتے ہیں۔ KNIME - ٹیکسٹ پروسیسنگ توسیع، جن میں سے کچھ "ISBN نکالنے" میٹانوڈ میں استعمال ہوتے ہیں (شکل 5)۔

"ٹیکسٹ کلیننگ" میٹانوڈ میں، ہم OCRed ٹیکسٹ کو String سے Document ڈیٹا کی قسم میں تبدیل کرکے شروع کرتے ہیں۔ اس کے بعد، ہم متن کو چھوٹے حروف میں تبدیل کرتے ہیں، رموز اوقاف، خالی جگہوں، ہائفنز کو ہٹاتے ہیں، اور ISBN کوڈز میں غلط شناخت شدہ حروف کو درست کرنے کے لیے حرف "o" کو "0" (zeros) سے بدل دیتے ہیں۔

ہم 13 حروف کو الگ کر کے ISBN کوڈ نکالتے ہیں جو سٹرنگ "isbn" کی پیروی کرتے ہیں، اور استعمال کریں رول انجن نوڈ یہ چیک کرنے کے لیے کہ آیا نکالے گئے حروف میں گم شدہ اقدار نہیں ہیں اور اس کی لمبائی 13 حروف کی متوقع ہے۔ اس کے بعد ہم اس نوڈ کی قابلیت کا فائدہ اٹھاتے ہوئے ایک کالم کو شامل کرتے ہیں جو کامیاب نکالنے کو 1 اور ناکام نکالنے کو 0 کے طور پر لیبل کرتا ہے۔

شکل 5: "ISBN نکالنے" میٹانوڈ کے اندر۔

4 - میٹینفارمیشن بازیافت اور تصور

آخری مرحلے میں، ہم Google Books API سے کتاب کی میٹینفارمیشن اور کور حاصل کرنے کے لیے ISBN کوڈز استعمال کرتے ہیں۔ "بک میٹا ڈیٹا اور کور حاصل کریں" میٹانوڈ اس کا خیال رکھتا ہے (شکل 6)۔ تاہم، میٹا ڈیٹا کی بازیافت صرف اسی صورت میں ممکن ہے جب ISBN کوڈز کو کامیابی سے نکالا گیا ہو۔ کامیاب/ناکام ISBN نکالنے کی ہموار ہینڈلنگ کو یقینی بنانے کے لیے، ہم کئی ورک فلو کنٹرول نوڈس شامل کرتے ہیں۔ آپ کو میں ایک بصیرت انگیز جائزہ مل سکتا ہے۔ چیٹ شیٹ: KNIME تجزیاتی پلیٹ فارم کے ساتھ کنٹرول اور آرکیسٹریشن.

اگر ISBN کوڈ کامیابی سے نکالا جاتا ہے، تو ہم استعمال کرتے ہیں۔ درخواست حاصل کریں۔ GET درخواست بھیجنے کے لیے نوڈ Google Books API, Google کی طرف سے تقویت یافتہ ایک مفت RESTful ویب سروس جو کتاب کا عنوان، ذیلی عنوان، مصنفین، اشاعت کی تاریخ، تفصیل، صفحہ کی گنتی، زبان، اوسط درجہ بندی، درجہ بندی کی گنتی اور سرورق جیسی متعدد میٹینفارمیشن کی بازیافت کی اجازت دیتی ہے۔ مزید برآں، اس آرام دہ ویب سروس کو ڈویلپر اکاؤنٹ بنانے کی ضرورت نہیں ہے۔ GET درخواست نوڈ کی ترتیب بہت سیدھی ہے۔ اس کے لیے ایک بامعنی "یو آر ایل کالم" کے سادہ انتخاب کی ضرورت ہوتی ہے جسے ہم اس میں بناتے ہیں۔ سٹرنگ ہیرا پھیری شامل ہو کر نوڈ Google Books API URL ہر ایڈیشن نوٹس کے ISBN کوڈ کے ساتھ۔ دیگر تمام کنفیگریشنز کو بطور ڈیفالٹ چھوڑا جا سکتا ہے۔

اس کے بعد ہم GET Request نوڈ کے JSON آؤٹ پٹ کو استعمال کرتے ہوئے پارس کرتے ہیں۔ JSON پاتھ حتمی نتائج جمع کرنے سے پہلے نوڈ اور کتاب کے سرورق کے ساتھ نکالی گئی میٹینفارمیشن میں شامل ہوں۔

آخر میں، ہم بازیافت شدہ کتاب کی میٹینفارمیشن اور کور کے صاف تصور کے لیے "تصویر کتاب میٹا ڈیٹا اور کور" کا جزو بناتے ہیں۔

جزو میں، ہم لپیٹ انٹرایکٹو رینج سلائیڈر فلٹر ویجیٹ گوگل بکس پر قارئین کے ذریعہ تفویض کردہ اوسط درجہ بندی کی گنتی (0-خوفناک؛ 5-لاجواب) کی بنیاد پر متحرک کتاب کی فلٹرنگ کو فعال کرنے کے لیے نوڈ، اور ٹائل ویو۔ نتائج ظاہر کرنے کے لیے نوڈ۔

اس کے بعد جزو اوسط درجہ بندی کی بنیاد پر کتابوں کو منتخب کرنے کے لیے سلائیڈر سمیت ایک منظر حاصل کرتا ہے اور منتخب کتابوں کے سرورق اور تفصیل کی میزبانی کرنے والا ٹیبل۔ اس مضمون کے لیے، ہم نے 3 اور 5 کے درمیان ریٹنگ والی کتابیں نکالنے کا انتخاب کیا ہے، اور نتائج شکل 6 میں دکھائے گئے ہیں۔

تصویر 6: 3 سے زیادہ ریٹنگ والی کتابوں کے لیے میٹینفارمیشن اور کتابی سرورق کی بازیافت۔

خلاصہ

اس آرٹیکل میں، ہم نے واضح کیا ہے کہ کس طرح KNIME Analytics پلیٹ فارم میں OCR کو آسانی سے کیا جا سکتا ہے۔ اس مقصد کے لیے، ہم نے Tess4J نوڈ پیش کیا ہے اور Tesseract OCR لائبریری کے کام کے بارے میں تفصیلات فراہم کی ہیں جس پر یہ نوڈ قائم ہے۔

مزید برآں، ہم نے استعمال کا ایک سادہ کیس دکھایا ہے جہاں OCR ایک طاقتور اور مفید وسیلہ ہو سکتا ہے۔ ہم نے Google Books کی RESTful ویب سروس کو GET Request بھیجنے کے لیے کتاب کے ایڈیشن نوٹسز سے معلومات حاصل کی ہیں - خاص طور پر ISBN کوڈز۔ اس سے ہمیں کتاب کا میٹا ڈیٹا اور کور دوبارہ حاصل کرنے کی اجازت ملی ہے۔

KNIME کے ساتھ، معلومات کے اہم ٹکڑوں کو نکالنے کے لیے تصاویر کو OCR کرنا اتنا ہی آسان ہو جاتا ہے جتنا ABC۔ اسے خود آزمائیں! آپ کا OCR استعمال کیس کیا ہے؟

اس مضمون میں پیش کردہ ورک فلو کو مفت میں ڈاؤن لوڈ کیا جا سکتا ہے۔ KNIME حب.

حوالہ جات

[1] سمتھ، آر (2007)۔ "ٹیسریکٹ OCR انجن کا ایک جائزہ"۔ دستاویزات کے تجزیہ اور شناخت پر نویں بین الاقوامی کانفرنس (ICDAR 2007)، صفحہ 629-633۔ پر قابل رسائی:
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/33418.pdf
[ترمیم شدہ: 15.07.2021]۔

[2] GitHub پر Tesseract OCR پروجیکٹ — https://github.com/tesseract-ocr/tesseract

[3] GitHub پر ٹیسریکٹ OCR دستاویزات — https://tesseract-ocr.github.io/tessdoc/

رابرٹو کیڈیلی KNIME میں ڈیٹا سائنسدان، NLP کے شوقین، اور تاریخ کے عاشق ہیں۔ ایڈوانسڈ ڈیٹا سائنس کے لیے لو کوڈ کا ایڈیٹر۔

Lada Rudnitckaia KNIME میں ڈیٹا سائنسدان ہے۔

جیسا کہ پہلی بار شائع ہوا۔ ایڈوانسڈ ڈیٹا سائنس کے لیے کم کوڈ.

حقیقی. اجازت کے ساتھ دوبارہ پوسٹ کیا۔

متعلقہ: