প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

OCR এবং Google Books API ব্যবহার করে বুক মেটাডেটা এবং কভার পুনরুদ্ধার

= পূর্ববর্তী পোস্ট

পরবর্তী পোস্ট =>

ট্যাগ্স: এপিআই, গুগল, নাইম, লো-কোড

KNIME এর মাধ্যমে ছবি থেকে গুরুত্বপূর্ণ তথ্য বের করা ABC এর মতই সহজ হয়ে যায়।

মন্তব্য

By রবার্তো ক্যাডিলি, ডেটা সায়েন্টিস্ট, KNIME & লাডা রুডনিটকাইয়া, ডেটা সায়েন্টিস্ট, KNIME

চিত্র 1: বই সংস্করণ নোটিশের উদাহরণ যেখানে ওসিআর-এর মাধ্যমে তথ্য বের করা যেতে পারে।

বেশিরভাগ সময়, আমাদের ডেটা সায়েন্স প্রজেক্টের জন্য আমাদের যে কাঁচা ডেটা দরকার তা একটি ঝরঝরে, সুগঠিত এবং অন্তর্দৃষ্টিপূর্ণ টেবিলে সংগঠিত হয় না। বরং, এটি কখনও কখনও একটি স্ক্যান করা নথিতে পাঠ্য হিসাবে সংরক্ষণ করা হয়। নথিতে থাকা শব্দগুলিকে তারপর একটি করে টেক্সট ফরম্যাটেড ডেটা সেল গঠন করতে হবে। এটি অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) দ্বারা সম্পাদিত কাজ।

আপনি এই নিবন্ধের শব্দগুলি পড়ার সাথে সাথে, এটি পাঠ্য বা সংখ্যাই হোক না কেন, আপনার চোখ অক্ষরগুলি (যেমন, অক্ষর, সংখ্যা, বিরাম চিহ্ন ইত্যাদি) তৈরি করে এমন হালকা এবং অন্ধকার নিদর্শনগুলি সনাক্ত করে সেগুলি প্রক্রিয়া করতে সক্ষম হয়। আপনার মস্তিষ্ক তখন শব্দের অর্থ বোঝার জন্য অক্ষর এবং নিদর্শনগুলির বিভিন্ন সংমিশ্রণকে ডিকোড করছে। সেই অর্থে, আপনার চোখ এবং মস্তিষ্ক হল সবচেয়ে পরিশীলিত এবং পরিমার্জিত ওসিআর ইঞ্জিন যা আপনি সম্ভবত কল্পনা করতে পারেন, এবং সেগুলি আপনাকে লক্ষ্য না করেও কাজ করে।

কম্পিউটারের একই ধরনের ক্ষমতা আছে, কিন্তু তাদের একটি গুরুত্বপূর্ণ সীমাবদ্ধতা মোকাবেলা করতে হবে: চোখের অনুপস্থিতি। আমরা যদি কম্পিউটারগুলিকে একটি ফিজিক্যাল টেক্সট ডকুমেন্ট দেখতে এবং পড়তে চাই, তাহলে আমাদের একটি অপটিক্যাল স্ক্যানার বা একটি ডিজিটাল ক্যামেরা দিয়ে তৈরি একটি গ্রাফিক ফাইল ইনপুট করতে হবে। যতদূর কম্পিউটার সম্পর্কিত, এই বিকল্পগুলির মধ্যে একটির সাথে অর্জিত একটি নথি এবং আইফেল টাওয়ারের একটি ফটোগ্রাফের মধ্যে কোন পার্থক্য নেই: উভয়ই রঙিন স্কোয়ারের অর্থহীন সংগ্রহ হিসাবে বিবেচিত হয় - যা পিক্সেল নামেও পরিচিত - যা যেকোন কম্পিউটার গ্রাফিক চিত্র গঠন করে। যেমন, পরেরটি কেবলমাত্র পাঠ্যের একটি ছবি যা আমরা পাঠ্যের চেয়ে বরং পড়তে চাই।

এখানেই OCR কাজে আসতে পারে। এই শক্তিশালী প্রযুক্তি মুদ্রিত, টাইপ করা বা হাতে লেখা ডেটা বের করতে সক্ষম, তা চালান, ব্যবসায়িক কার্ড, আইনি পাঠ্য বা প্রিন্টআউট হতে পারে এবং এটিকে অনুসন্ধানযোগ্য এবং সম্পাদনাযোগ্য ডিজিটাল বিন্যাসে রূপান্তর করতে পারে। যদিও বহু বছর ধরে OCR-কে একটি ব্যয়বহুল পরিষেবা হিসাবে গণ্য করা হয়েছে, যা শুধুমাত্র খুব কম বড় কোম্পানির সামর্থ্য ছিল, 2000-এর দশকের মাঝামাঝি থেকে, এর খরচ ধীরে ধীরে হ্রাস পেয়েছে যখন এর যথার্থতা এবং ক্ষমতা আজ কয়েকশ ভাষা এবং অক্ষর এনকোডিংকে সমর্থন করার জন্য বিকশিত হয়েছে। , UTF-8 থেকে GB2312 পর্যন্ত।

চিত্রগুলি থেকে পাঠ্য অনুসন্ধান এবং নিষ্কাশন করতে সক্ষম হওয়ার সুবিধা অমূল্য হতে পারে। উদাহরণস্বরূপ, আইনি বা অ্যাকাউন্টিং শিল্পে, এটি একটি উল্লেখযোগ্য খরচ এবং সময় সাশ্রয়ের প্রতিনিধিত্ব করতে পারে, কারণ এটি কয়েক সেকেন্ডের মধ্যে নিবন্ধ বা আর্থিক বিবৃতিতে পাঠ্য বা সংখ্যার অংশ পুনরুদ্ধার করতে সক্ষম করে। শুধুমাত্র একটি একক, গুরুত্বপূর্ণ তথ্য খুঁজে পাওয়ার জন্য হাজার হাজার নথি পড়ার জন্য একদল লোককে নিয়োগের খরচের সাথে এই প্রক্রিয়াটির তুলনা করলে OCR কীভাবে ব্যবসায়িক উপকার করতে পারে তার একটি ধারণা দেয়।

অতি সম্প্রতি, OCR প্রযুক্তি একটি শান্ত বিপ্লবের মধ্য দিয়ে যাচ্ছে কারণ এই পরিষেবা প্রদানকারীরা এটিকে AI এর সাথে একত্রিত করছে। এর ফলস্বরূপ, শুধুমাত্র ডেটা ক্যাপচার করা হচ্ছে না, অনুসন্ধানযোগ্য এবং সম্পাদনাযোগ্য করা হচ্ছে, কিন্তু এআই সিস্টেম প্রকৃতপক্ষে নির্দিষ্ট কাজগুলি সম্পাদন করার জন্য বিষয়বস্তু বুঝতে পারছে। উদাহরণস্বরূপ, একটি পাঠ্য OCR করার পরে, AI ন্যূনতম মানব হস্তক্ষেপের সাথে নিউরাল মেশিন অনুবাদ ব্যবহার করে তার অনুবাদ প্রদান করতে পারে। আরেকটি ক্লাসিক উদাহরণ অডিটিং বিভাগ থেকে আসে, যেখানে প্রতারণামূলক চালানগুলি পিডিএফ নথির বিষয়বস্তু OCR করার পরে, আউটলিয়ার সনাক্তকরণ কৌশল ব্যবহার করে স্বীকৃত হতে পারে। ইত্যাদি। এই সিনার্জি প্রক্রিয়াগুলিকে স্ট্রিমলাইন করতে এবং ব্যবসা এবং ক্লায়েন্টদের জন্য উত্পাদনশীলতা বাড়াতে উভয় বিশ্বের সেরাকে একত্রিত করে।

এই নিবন্ধে বর্ণিত ব্যবহারের ক্ষেত্রে, OCR একটি বই সনাক্ত করতে এবং তারপর Google Books সংগ্রহস্থল থেকে বইটির মেটাডেটা পুনরুদ্ধার করতে ব্যবহৃত হয়।

আরও নির্দিষ্টভাবে, আমরা দেখতে যাচ্ছি:

কিভাবে OCR পরিচালনা করা যেতে পারে কেএনটাইম অ্যানালিটিক্স প্ল্যাটফর্ম.
বইয়ের মেটাডেটা এবং কভার পুনরুদ্ধার করার ক্ষেত্রে আমরা কীভাবে KNIME-এর OCR প্রসেসর এবং Google Books API-কে সংহত করতে পারি।

KNIME বিশ্লেষণ প্ল্যাটফর্মে OCR

KNIME-এ টেক্সট ধারণকারী একটি ইমেজ OCR করা একটি খুব সহজ কাজ। এটা লাগে সব ইনস্টল করা হয় KNIME ইমেজ প্রসেসিং — Tess4J ইন্টিগ্রেশন আপনার স্থানীয় মধ্যে এক্সটেনশন কেএনটাইম অ্যানালিটিক্স প্ল্যাটফর্ম, এবং টেনে আনতে এবং ড্রপ করতে Tess4J আপনার ওয়ার্কফ্লো এডিটরে নোড করুন।

Tess4J নোড সংহত করে Tesseract OCR লাইব্রেরি, সবচেয়ে ব্যাপকভাবে ব্যবহৃত এবং সঠিক ওপেন সোর্স OCR প্রসেসর উপলব্ধ। Tesseract মূলত 1990-এর দশকের গোড়ার দিকে Hewlett-Packard Laboratories দ্বারা একটি মালিকানাধীন সফ্টওয়্যার হিসাবে বিকশিত হয়েছিল এবং পরে 2005 সালে ওপেন সোর্স তৈরি করা হয়েছিল৷ তখন থেকে Google এই প্রকল্পটি গ্রহণ করেছে এবং এর বিকাশকে স্পনসর করেছে৷

Tess4J নোডটি Tesseract 3-এ চলে, যা একটি দুই-পাস পদ্ধতিতে অক্ষরের নিদর্শন সনাক্ত করে কাজ করে।

প্রথম পাসে, ইঞ্জিন প্রতিটি স্বতন্ত্র অক্ষর চিনতে চেষ্টা করে। এটি তখন অক্ষরগুলিকে প্রশিক্ষণের ডেটা হিসাবে একটি অভিযোজিত শ্রেণিবিন্যাসকারীর কাছে প্রথম পাসে উচ্চ আত্মবিশ্বাসের সাথে স্বীকৃত হয়। এইভাবে, অভিযোজিত শ্রেণিবিন্যাসকারীর পরবর্তী পাঠ্যকে আরও নির্ভুলভাবে চিনতে শেখার সুযোগ রয়েছে।
যাইহোক, এটি ঘটতে পারে যে অভিযোজিত শ্রেণিবিন্যাসকারী একটি অর্থপূর্ণ অবদান রাখতে খুব দেরিতে দরকারী তথ্য শিখে। এই সমস্যাটি সমাধান করতে এবং অভিযোজিত শ্রেণিবিন্যাসকারীর দ্বারা অর্জিত জ্ঞানের সুবিধা নিতে, ইঞ্জিনটি একটি দ্বিতীয় পাস পরিচালনা করে যেখানে অক্ষরগুলি যেগুলি যথেষ্ট ভালভাবে স্বীকৃত হয়নি সেগুলি আবার স্বীকৃত হয় [1]।

Tesseract 3 যেকোন ইউনিকোড অক্ষর (UTF-8-এর সাথে কোড করা) পরিচালনা করে এবং বিভিন্ন ভাষায় পাঠ্য প্রক্রিয়া করতে পারে এবং লেআউট লিখতে পারে: বাম-থেকে-ডানে (যেমন, ইংরেজি, ইতালীয়, রাশিয়ান, ইত্যাদি), ডান-থেকে-বামে (যেমন, আরবি, হিব্রু, উর্দু ইত্যাদি) এবং টপ-টু-বটম (যেমন, জাপানি, কোরিয়ান, চাইনিজ ইত্যাদি) [২]।

দাবি পরিত্যাগী। ম্যাক ব্যবহারকারীরা বর্তমানে Tess4J নোড ব্যবহার করতে অক্ষম। KNIME বিকাশকারীরা মসৃণ কার্যকারিতা পুনরুদ্ধার করার জন্য কাজ করছে।

কেস ব্যবহার করুন: বই মেটাডেটা এবং কভার পুনরুদ্ধার করা

এখন যেহেতু আমরা KNIME অ্যানালিটিক্স প্ল্যাটফর্মে OCR কীভাবে কাজ করে তার একটি প্রাথমিক বোধগম্যতা অর্জন করেছি, আসুন একটি আকর্ষণীয় ব্যবহারের ক্ষেত্রে দেখে নেওয়া যাক। ধরুন আমরা বেশ কয়েকটি বইয়ের সংস্করণ বিজ্ঞপ্তিগুলিকে চিত্রিত করে ছবি সংগ্রহ করেছি এবং এই তথ্য দিয়ে আমরা বইয়ের মেটাডেটা এবং কভারগুলি পুনরুদ্ধার করতে চাই৷ পুনরুদ্ধার করা ডেটা ব্যবহার করা যেতে পারে, উদাহরণস্বরূপ, একটি কাস্টমাইজড ডিজিটাল লাইব্রেরি তৈরি করতে এবং একটি বই সুপারিশকারী সিস্টেমকে প্রশিক্ষণ দিতে।

চিত্র 2-এর কর্মপ্রবাহ সমস্ত ধাপকে কভার করে: ছবি পড়া, ওসিআরিং, টেক্সট প্রসেসিং এবং আইএসবিএন রেফারেন্স এক্সট্রাকশন থেকে শুরু করে মেটাডেটা বুক করা এবং কভার পুনরুদ্ধার এবং ভিজ্যুয়ালাইজেশন। আসুন বিস্তারিতভাবে বিভিন্ন পদক্ষেপের দিকে নজর দেওয়া যাক।

চিত্র 2: এই কর্মপ্রবাহ বই সংস্করণ বিজ্ঞপ্তিতে একটি সহজ ওসিআর কাজ সম্পাদন করে এবং Google Books API ব্যবহার করে বইয়ের মেটাডেটা এবং কভার পুনরুদ্ধার করে।

1 — ইমেজ ডেটা পড়ুন

প্রথম ধাপ হল বই সংস্করণের নোটিশের ছবি KNIME-এ আমদানি করা। সংস্করণ নোটিশ হল একটি বইয়ের পৃষ্ঠা যেখানে বর্তমান সংস্করণ সম্পর্কে তথ্য রয়েছে, যেমন একটি কপিরাইট বিজ্ঞপ্তি, আইনি বিজ্ঞপ্তি, প্রকাশনার তথ্য, মুদ্রণের ইতিহাস এবং একটি ISBN কোড (চিত্র 1)।

মেটানোড "ইমেজ ডেটা পড়ুন" একটি সহজ এবং প্রোগ্রামেটিক উপায়ে এটির যত্ন নেয় (চিত্র 3)। আমরা সেই অবস্থানটি সনাক্ত করি যেখানে চিত্র ফাইলগুলি এর সাথে সংরক্ষণ করা হয় তালিকা ফাইল/ফোল্ডার নোড এবং ব্যবহার করুন ইমেজ রিডার (টেবিল) নোড সুন্দরভাবে ইমেজ আমদানি করতে. ইমেজ রিডার (টেবিল) নোডে, আমাদের শুধুমাত্র "ফাইল ইনপুট কলাম" নির্দিষ্ট করতে হবে, অর্থাৎ আমাদের ছবিগুলি যেখানে সংরক্ষণ করা হয়েছে সেই ফাইলগুলির পাথ সহ কলামটি বলতে হবে। অন্যান্য সমস্ত কনফিগারেশন ডিফল্ট হিসাবে ছেড়ে দেওয়া যেতে পারে।

ইমেজ রিডার (টেবিল) এর অংশ KNINE ইমেজ প্রসেসিং এক্সটেনশন এবং, এই এক্সটেনশনের অন্যান্য নোডের মতো, এটি নোডে ডান-ক্লিক করে, "ভিউ: ইমেজ ভিউয়ার" নির্বাচন করে এবং টেবিল ভিউতে যেকোনো ছবিতে ডাবল-ক্লিক করে ইমেজ এবং এর মেটাডেটা সম্বলিত একটি ইন্টারেক্টিভ ভিউ অফার করে।

চিত্র 3: মেটানোডের ভিতরে "চিত্রের ডেটা পড়ুন"। ইমেজ রিডার (টেবিল) নোড ওয়ার্কফ্লোতে ইমেজ ইম্পোর্ট করে এবং আমাদেরকে এর ভিউতে ইন্টারেক্টিভভাবে অন্বেষণ করতে দেয়।

2 — OCR

বই সংস্করণ নোটিশের ইমেজ ফাইল পড়ার পর, আমরা তাদের OCR করতে পারি।

Tess4J নোডের কনফিগারেশন খুবই সহজ এবং শুধুমাত্র কয়েকটি ক্লিকের প্রয়োজন (চিত্র 4)। মধ্যে সেটিংস ট্যাবে, নোডটি কনফিগারেশন ডায়ালগের "প্রি-প্রসেসিং" বিভাগে "ডেস্কু ইনপুট ইমেজ" বাক্সটি নির্বাচন করে যেকোনো ঘূর্ণন বা তির্যক চিত্র সংশোধন করার সম্ভাবনা প্রদান করে। সাধারণত এটি করার পরামর্শ দেওয়া হয়, কারণ গ্রাফিক ফাইলগুলি সঠিকভাবে সারিবদ্ধ নাও হতে পারে। তাছাড়া, Tess4J নোড স্বয়ংক্রিয়ভাবে হুডের পিছনে একটি বাইনারি ছবি তৈরি করে।

এর পরে, আমরা "টেসডেটা পথ" নির্বাচন করি। ডিফল্টরূপে, এটি "অভ্যন্তরীণ ব্যবহার করুন" এ সেট করা আছে, যা তারপরে আমরা যে পাঠ্যটি প্রক্রিয়া করতে চাই তার ভাষা নির্বাচন করার অনুমতি দেয়। এই কনফিগারেশনে, ইংরেজি হল ডিফল্ট ভাষা, কিন্তু Tess4J নোড অন্যান্য প্রাকৃতিক ভাষা যেমন ডেনিশ, ইতালীয়, স্প্যানিশ, রাশিয়ান, গ্রীক, স্লোভাক, জার্মান এবং ফরাসি সমর্থন করে। এটি উল্লেখ করার মতো যে "বাহ্যিক ব্যবহার করুন" নির্বাচন করে, আমরা অভ্যন্তরীণভাবে সমর্থিত নয় এমন ভাষাগুলিকে অন্তর্ভুক্ত করতে Tess4J নোডের ক্ষমতাগুলি প্রসারিত করতে পারি। প্রকৃতপক্ষে, আমরা আমাদের নিজস্ব, বহিরাগত প্রশিক্ষিত ডেটা ভাষার মডেলগুলি যেখানে সেগুলি সংরক্ষণ করা হয় তা নির্দিষ্ট করে নির্বাচন করতে পারি। আমরা আমাদের ইংরেজি নথির জন্য Tess4J-এর অভ্যন্তরীণ মডেলগুলির উপর নির্ভর করতে পছন্দ করি বলে আমরা "অভ্যন্তরীণ ব্যবহার করুন" বেছে নিই।

"রিকগনিশন কনফিগারেশন" বিভাগে, আমরা দুটি সবচেয়ে গুরুত্বপূর্ণ ড্রপ-ডাউন তালিকা কনফিগারেশন খুঁজে পাই, যথা "পৃষ্ঠা বিভাজন মোড" এবং "OCR ইঞ্জিন মোড"। প্রথমটি আমাদের পৃষ্ঠাটি কীভাবে বিভক্ত করা হয় তা নির্ধারণ করে।

চিত্র 4-এ, আমরা "সম্পূর্ণ অটো পেজসেগ" নির্বাচন করি, যা সম্পূর্ণ স্বয়ংক্রিয় পৃষ্ঠা বিভাজন নিশ্চিত করে। হাতে থাকা নির্দিষ্ট ব্যবহারের ক্ষেত্রে নির্ভর করে, উপলব্ধ 13টির মধ্যে অন্য একটি মোড নির্বাচন করা (যেমন, "একক কলাম" বা "স্পার্স টেক্সট") আরও উপযুক্ত বিকল্প হতে পারে।

দ্বিতীয় সেটিং আমাদেরকে OCR ইঞ্জিন বেছে নিতে বলে। এখানে, আমরা "Only Tesseract" নির্বাচন করি, যা দ্রুততম সম্পাদন নিশ্চিত করে। অন্যান্য বিকল্পগুলির মধ্যে রয়েছে "কেবল কিউব" — Tesseract-এর জন্য একটি বিকল্প স্বীকৃতি মোড — যা ধীর কিন্তু প্রায়ই ভাল ফলাফল দেয়; অথবা "টেসার্যাক্ট এবং কিউব", যা উভয় জগতের সেরাকে একত্রিত করে। এক বা অন্য ইঞ্জিন বাছাই করা চিত্রের গুণমান এবং পাঠ্যের জটিলতার উপর নির্ভর করে যা আমরা প্রক্রিয়া করতে চাই।

মৌলিক সেটিংস ছাড়াও, Tess4J নোড একটি অফার করে উন্নত কনফিগারেশন ট্যাব যেখানে আমরা একটি সেট সংজ্ঞায়িত করতে পারি নিয়ন্ত্রণ পরামিতি. এই ট্যাবটি নোডটিকে অত্যন্ত নমনীয় করে তোলে এবং বিশেষজ্ঞ ব্যবহারকারীদের তাদের নির্দিষ্ট প্রয়োজন অনুযায়ী Tesseract OCR ইঞ্জিনকে কাস্টমাইজ এবং সূক্ষ্ম-টিউন করতে সাহায্য করে। চিন্তা করবেন না, যদিও, বেশিরভাগ ক্ষেত্রে মৌলিক কনফিগারেশনগুলি আপনাকে অনেক দূর নিয়ে যাবে!

চিত্র 4: Tess4J নোডের কনফিগারেশন ডায়ালগ।

Tess4J নোডের কনফিগারেশনগুলিকে হাতের কাছে ব্যবহারের ক্ষেত্রে টুইক করার পাশাপাশি, প্রয়োজন হলে, ইনপুট ইমেজগুলিকে পুঙ্খানুপুঙ্খভাবে প্রিপ্রসেস করা একটি ভাল অভ্যাস। বিশেষ করে, Tesseract সবচেয়ে ভালো কাজ করে যখন ছবিগুলোকে পর্যাপ্ত আকারে স্কেল করা হয় যাতে অক্ষরের x-উচ্চতার পিক্সেল গণনা কমপক্ষে 20 পিক্সেল হয়; ইমেজ সঠিকভাবে সারিবদ্ধ এবং একটি যথেষ্ট উচ্চ রেজোলিউশন আছে; এবং কোন অন্ধকার সীমানা মুছে ফেলা হয়, অথবা তাদের অক্ষর হিসাবে ভুল ব্যাখ্যা করা হতে পারে [3]। দ্য KNINE ইমেজ প্রসেসিং এক্সটেনশনে ইমেজ ক্লিনিং, ম্যানিপুলেশন এবং ট্রান্সফর্মেশনের জন্য বেশ কিছু নোড এবং অনেকগুলি অন্তর্ভুক্ত রয়েছে উদাহরণ কর্মপ্রবাহ পাওয়া যাবে KNIME হাব.

Tess4J নোডের আউটপুট হল স্ট্রিং ডেটা টাইপ হিসাবে নিষ্কাশিত পাঠ্য ধারণকারী একটি টেবিল, এবং যেমন এটি অনুসন্ধান এবং সম্পাদনা করা যেতে পারে।

3 — ISBN নিষ্কাশনের জন্য পাঠ্য প্রক্রিয়াকরণ

একবার ছবিগুলি ওসিআরড হয়ে গেলে, এতে যে পাঠ্য রয়েছে তা অবশেষে অ্যাক্সেস করা যেতে পারে এবং দরকারী তথ্য পুনরুদ্ধার করা যেতে পারে।

বিশেষ করে, সংস্করণ বিজ্ঞপ্তিগুলি সাধারণত বইটির জন্য নির্ধারিত ISBN কোডের প্রতিবেদন করে। আইএসবিএন কোড একটি অনন্য, 13-সংখ্যার দীর্ঘ (এটি 10 সালের আগে 2007-অঙ্কের দীর্ঘ ছিল), বাণিজ্যিক বই শনাক্তকারী এবং যেমন এটি প্রকাশনার প্রতিটি পৃথক সংস্করণ এবং পরিবর্তনের জন্য নির্ধারিত হয়। আইএসবিএন কোড বের করার ফলে আমরা যখন মেটেইনফর্মেশন পুনরুদ্ধার করতে চাই তখন দ্ব্যর্থহীনভাবে প্রতিটি বইয়ের উল্লেখ করতে পারি। এটি অর্জন করতে, আমরা অন্তর্ভুক্ত নোডগুলির উপর নির্ভর করতে পারি KNIME — পাঠ্য প্রক্রিয়াকরণ এক্সটেনশন, যার মধ্যে কিছু "ISBN নিষ্কাশন" মেটানোডে ব্যবহৃত হয় (চিত্র 5)।

"টেক্সট ক্লিনিং" মেটানোডে, আমরা ওসিআরড টেক্সটকে স্ট্রিং থেকে ডকুমেন্ট ডেটা টাইপে রূপান্তর করে শুরু করি। এর পরে, আমরা পাঠ্যটিকে ছোট হাতের অক্ষরে রূপান্তর করি, বিরাম চিহ্ন, ফাঁকা স্থান, হাইফেনগুলি সরিয়ে ফেলি এবং ISBN কোডগুলিতে ভুল চেনা অক্ষরগুলির জন্য সংশোধন করতে "o" অক্ষরটিকে "0" (শূন্য) দ্বারা প্রতিস্থাপন করি।

আমরা 13টি অক্ষর বিচ্ছিন্ন করে আইএসবিএন কোড বের করি যা “isbn” স্ট্রিং অনুসরণ করে এবং ব্যবহার করে রুল ইঞ্জিন এক্সট্র্যাক্ট করা অক্ষরগুলিতে অনুপস্থিত মান নেই এবং 13টি অক্ষরের প্রত্যাশিত দৈর্ঘ্য রয়েছে কিনা তা পরীক্ষা করার জন্য নোড। তারপরে আমরা একটি কলাম যুক্ত করার জন্য এই নোডের সক্ষমতা ব্যবহার করি যা 1 হিসাবে সফল নিষ্কাশন এবং 0 হিসাবে অসফল নিষ্কাশন লেবেল করে।

চিত্র 5: "ISBN নিষ্কাশন" মেটানোডের ভিতরে।

4 — মেটাইনফরমেশন পুনরুদ্ধার এবং ভিজ্যুয়ালাইজেশন

চূড়ান্ত ধাপে, আমরা Google Books API থেকে বই মেটাইনফর্মেশন এবং কভার পুনরুদ্ধার করতে ISBN কোড ব্যবহার করি। "বুক মেটাডেটা এবং কভার পান" মেটানোড এটির যত্ন নেয় (চিত্র 6)। যাইহোক, মেটাডেটা পুনরুদ্ধার সম্ভব শুধুমাত্র যদি ISBN কোডগুলি সফলভাবে বের করা হয়। সফল/অসফল ISBN নিষ্কাশনের একটি মসৃণ পরিচালনা নিশ্চিত করতে, আমরা বেশ কয়েকটি ওয়ার্কফ্লো কন্ট্রোল নোড অন্তর্ভুক্ত করি। আপনি একটি অন্তর্দৃষ্টিপূর্ণ ওভারভিউ পেতে পারেন চিট শীট: KNIME বিশ্লেষণ প্ল্যাটফর্মের সাথে নিয়ন্ত্রণ এবং অর্কেস্ট্রেশন.

যদি ISBN কোডটি সফলভাবে বের করা হয়, আমরা ব্যবহার করি অনুরোধ পান একটি GET অনুরোধ পাঠাতে নোড Google Books API, Google দ্বারা চালিত একটি বিনামূল্যের RESTful ওয়েব পরিষেবা যা বইয়ের শিরোনাম, সাবটাইটেল, লেখক, প্রকাশনার তারিখ, বিবরণ, পৃষ্ঠার সংখ্যা, ভাষা, গড় রেটিং, রেটিং গণনা এবং কভারের মতো বেশ কিছু মেটানফর্মেশন পুনরুদ্ধারের অনুমতি দেয়। তদ্ব্যতীত, এই RESTful ওয়েব পরিষেবাটির জন্য একটি বিকাশকারী অ্যাকাউন্ট তৈরির প্রয়োজন নেই। GET অনুরোধ নোডের কনফিগারেশন খুবই সহজবোধ্য। এটিতে একটি অর্থপূর্ণ "ইউআরএল কলাম" এর সহজ নির্বাচন প্রয়োজন যা আমরা তৈরি করি স্ট্রিং ম্যানিপুলেশন নোড যোগদান করে Google Books API URL প্রতিটি সংস্করণ বিজ্ঞপ্তির ISBN কোড সহ। অন্যান্য সমস্ত কনফিগারেশন ডিফল্ট হিসাবে ছেড়ে দেওয়া যেতে পারে।

আমরা তারপর GET অনুরোধ নোড ব্যবহার করে JSON আউটপুট পার্স করি JSON পাথ চূড়ান্ত ফলাফল সংগ্রহ করার আগে বইয়ের কভারের সাথে নোড এবং এক্সট্র্যাক্টেড মেটেইনফর্মেশনে যোগ দিন।

অবশেষে, পুনরুদ্ধার করা বই মেটানফরমেশন এবং কভারগুলির একটি সুন্দর দৃশ্যায়নের জন্য আমরা "বুক মেটাডেটা এবং কভার ভিজ্যুয়ালাইজ করুন" উপাদান তৈরি করি।

উপাদান, আমরা মোড়ানো ইন্টারেক্টিভ রেঞ্জ স্লাইডার ফিল্টার উইজেট Google Books-এ পাঠকদের দ্বারা নির্ধারিত গড় রেটিং গণনার (0-ভয়ঙ্কর; 5-অসাধারণ) উপর ভিত্তি করে গতিশীল বই ফিল্টারিং সক্ষম করতে নোড, এবং টাইল ভিউ ফলাফল প্রদর্শনের জন্য নোড।

কম্পোনেন্ট তারপর গড় রেটিং এর উপর ভিত্তি করে বই নির্বাচন করতে স্লাইডার সহ একটি ভিউ অর্জন করে এবং নির্বাচিত বইগুলির কভার এবং বিবরণ হোস্ট করে একটি টেবিল। এই নিবন্ধটির জন্য, আমরা 3 এবং 5 এর মধ্যে রেটিং সহ বই বের করার জন্য নির্বাচন করেছি এবং ফলাফলগুলি চিত্র 6-এ প্রদর্শিত হয়েছে।

চিত্র 6: 3-এর বেশি রেটিং সহ বইগুলির জন্য মেটেইনফর্মেশন এবং বইয়ের কভার পুনরুদ্ধার করা হয়েছে।

সারাংশ

এই নিবন্ধে, আমরা চিত্রিত করেছি কিভাবে KNIME অ্যানালিটিক্স প্ল্যাটফর্মে OCR সহজেই পরিচালনা করা যায়। এই লক্ষ্যে, আমরা Tess4J নোড উপস্থাপন করেছি এবং Tesseract OCR লাইব্রেরির কার্যকারিতা সম্পর্কে বিশদ প্রদান করেছি যার উপর ভিত্তি করে এই নোডটি রয়েছে।

উপরন্তু, আমরা একটি সাধারণ ব্যবহারের ক্ষেত্রে দেখিয়েছি যেখানে OCR একটি শক্তিশালী এবং দরকারী সম্পদ হতে পারে। Google Books-এর RESTful ওয়েব পরিষেবাতে একটি GET অনুরোধ পাঠানোর জন্য আমরা বইয়ের সংস্করণ বিজ্ঞপ্তিগুলি থেকে তথ্য সংগ্রহ করেছি - বিশেষ করে, ISBN কোডগুলি৷ এটি আমাদের বইয়ের মেটাডেটা এবং কভার পুনরুদ্ধার করার অনুমতি দিয়েছে।

KNIME এর সাথে, তথ্যের সমালোচনামূলক অংশগুলি বের করার জন্য চিত্রগুলিকে OCR করা ABC-এর মতোই সহজ হয়ে ওঠে। নিজেকে চেষ্টা করে দেখুন! আপনার OCR ব্যবহারের ক্ষেত্রে কি?

এই নিবন্ধে উপস্থাপিত কর্মপ্রবাহ বিনামূল্যে থেকে ডাউনলোড করা যেতে পারে KNIME হাব.

তথ্যসূত্র

[১] স্মিথ, আর. (২০০৭)। "টেসার্যাক্ট ওসিআর ইঞ্জিনের একটি ওভারভিউ"। নথি বিশ্লেষণ এবং স্বীকৃতি সংক্রান্ত নবম আন্তর্জাতিক সম্মেলন (ICDAR 2007), পৃ. 629-633। এখানে অ্যাক্সেসযোগ্য:
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/33418.pdf
[সংগৃহীত: 15.07.2021]।

[২] গিটহাবে টেসার্যাক্ট ওসিআর প্রকল্প — https://github.com/tesseract-ocr/tesseract

[৩] গিটহাবে টেসার্যাক্ট ওসিআর ডকুমেন্টেশন — https://tesseract-ocr.github.io/tessdoc/

রবার্তো ক্যাডিলি KNIME-এর একজন ডেটা সায়েন্টিস্ট, NLP উত্সাহী, এবং ইতিহাস প্রেমী৷ অ্যাডভান্সড ডেটা সায়েন্সের জন্য লো কোডের সম্পাদক।

লাডা রুডনিটকাইয়া KNIME-এর একজন ডেটা সায়েন্টিস্ট।

প্রথম প্রকাশিত হিসাবে অ্যাডভান্সড ডেটা সায়েন্সের জন্য কম কোড.

মূল। অনুমতি নিয়ে পোস্ট করা।

সম্পর্কিত: