प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

OCR और Google पुस्तकें API का उपयोग करके पुस्तक मेटाडेटा और कवर पुनर्प्राप्ति

= पिछला पोस्ट

अगला पोस्ट =>

टैग: API, गूगल, मालूम होता है, लो-कोड

KNIME के साथ छवियों से महत्वपूर्ण जानकारी निकालना ABC जितना आसान हो जाता है।

टिप्पणियाँ

By रॉबर्टो कैडिलिक, डेटा वैज्ञानिक, KNIME और लाडा रुड्निटकैया, डेटा वैज्ञानिक, KNIME

चित्र 1: पुस्तक संस्करण नोटिस के उदाहरण जहां ओसीआर की बदौलत जानकारी निकाली जा सकती है।

अधिकांश समय, हमें अपने डेटा विज्ञान प्रोजेक्ट के लिए जिस कच्चे डेटा की आवश्यकता होती है, वह एक साफ-सुथरी, अच्छी तरह से संरचित और व्यावहारिक तालिका में व्यवस्थित नहीं होता है। बल्कि, इसे कभी-कभी स्कैन किए गए दस्तावेज़ में टेक्स्ट के रूप में संग्रहीत किया जाता है। टेक्स्ट स्वरूपित डेटा सेल बनाने के लिए दस्तावेज़ में शब्दों को एक-एक करके निकाला जाना चाहिए। यह कार्य ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) द्वारा किया जाता है।

जैसे ही आप इस लेख के शब्दों को पढ़ते हैं, चाहे वह पाठ हो या संख्या, आपकी आंखें वर्ण बनाने वाले प्रकाश और अंधेरे पैटर्न (उदाहरण के लिए, अक्षर, संख्या, विराम चिह्न, आदि) को पहचानकर उन्हें संसाधित करने में सक्षम होती हैं। फिर आपका मस्तिष्क शब्दों के अर्थ को समझने के लिए वर्णों और पैटर्न के विभिन्न संयोजनों को डिकोड कर रहा है। उस अर्थ में, आपकी आंखें और मस्तिष्क सबसे परिष्कृत और परिष्कृत ओसीआर इंजन हैं जिसकी आप संभवतः कल्पना कर सकते हैं, और वे आपके ध्यान में आए बिना भी काम करते हैं।

कंप्यूटर में समान क्षमताएं होती हैं, लेकिन उन्हें एक महत्वपूर्ण सीमा से निपटना पड़ता है: आंखों की अनुपस्थिति। यदि हम चाहते हैं कि कंप्यूटर किसी भौतिक टेक्स्ट दस्तावेज़ को देखें और पढ़ें, तो हमें ऑप्टिकल स्कैनर या डिजिटल कैमरे से उत्पन्न ग्राफिक फ़ाइल को इनपुट करना होगा। जहां तक कंप्यूटर का सवाल है, इनमें से किसी भी विकल्प के साथ प्राप्त दस्तावेज़ और एफिल टॉवर की तस्वीर के बीच कोई अंतर नहीं है: दोनों को रंगीन वर्गों के अर्थहीन संग्रह के रूप में माना जाता है - जिन्हें पिक्सेल के रूप में भी जाना जाता है - जो किसी भी कंप्यूटर ग्राफिक छवि का निर्माण करते हैं। इस प्रकार, उत्तरार्द्ध केवल उस पाठ की एक तस्वीर है जिसे हम पढ़ना चाहते हैं, न कि स्वयं पाठ।

यहीं पर ओसीआर काम आ सकता है। यह शक्तिशाली तकनीक मुद्रित, टाइप किए गए या हाथ से लिखे गए डेटा को निकालने में सक्षम है, चाहे वह चालान, व्यवसाय कार्ड, कानूनी पाठ या प्रिंटआउट हो, और इसे खोजने योग्य और संपादन योग्य डिजिटल प्रारूप में परिवर्तित कर सके। हालाँकि कई वर्षों से OCR को एक महंगी सेवा माना जाता रहा है, जिसे केवल बहुत कम बड़ी कंपनियाँ ही वहन कर सकती हैं, 2000 के दशक के मध्य से इसकी लागत धीरे-धीरे कम हो गई है, जबकि इसकी सटीकता और क्षमताएं आज कई सौ भाषाओं और कैरेक्टर एन्कोडिंग का समर्थन करने के लिए विकसित हुई हैं। , UTF-8 से GB2312 तक।

छवियों से पाठ खोजने और निकालने में सक्षम होने का लाभ अमूल्य हो सकता है। उदाहरण के लिए, कानूनी या लेखांकन उद्योग में, यह एक महत्वपूर्ण लागत और समय बचाने का प्रतिनिधित्व कर सकता है, क्योंकि यह कुछ ही सेकंड में लेखों या वित्तीय विवरणों में पाठ के कुछ हिस्सों या संख्याओं को पुनर्प्राप्त करने में सक्षम बनाता है। इस प्रक्रिया की तुलना हजारों दस्तावेज़ों को पढ़ने के लिए लोगों के एक समूह को नियुक्त करने की लागत से करने पर, केवल एक महत्वपूर्ण जानकारी प्राप्त करने से पता चलता है कि ओसीआर व्यवसायों को कैसे लाभ पहुंचा सकता है।

हाल ही में, OCR तकनीक एक शांत क्रांति के दौर से गुजर रही है क्योंकि इस सेवा के प्रदाता इसे AI के साथ जोड़ रहे हैं। इसके परिणामस्वरूप, न केवल डेटा कैप्चर किया जा रहा है, उसे खोजने योग्य और संपादन योग्य बनाया जा रहा है, बल्कि एआई सिस्टम वास्तव में विशिष्ट कार्यों को पूरा करने के लिए सामग्री को समझ रहा है। उदाहरण के लिए, किसी पाठ को OCR करने के बाद, AI न्यूनतम मानवीय हस्तक्षेप के साथ तंत्रिका मशीन अनुवाद का उपयोग करके उसका अनुवाद प्रदान कर सकता है। एक और उत्कृष्ट उदाहरण ऑडिटिंग अनुभाग से आता है, जहां बाहरी पहचान तकनीकों का उपयोग करके पीडीएफ दस्तावेज़ की सामग्री को ओसीआर करने के बाद धोखाधड़ी वाले चालानों को पहचाना जा सकता है। और इसी तरह। यह तालमेल प्रक्रियाओं को सुव्यवस्थित करने और व्यवसायों और ग्राहकों के लिए उत्पादकता बढ़ाने के लिए दोनों दुनिया के सर्वश्रेष्ठ को जोड़ता है।

इस आलेख में वर्णित उपयोग के मामले में, OCR का उपयोग किसी पुस्तक की पहचान करने और फिर Google पुस्तकें भंडार से पुस्तक के मेटाडेटा को पुनर्प्राप्त करने के लिए किया जाता है।

अधिक विशेष रूप से, हम इस पर एक नज़र डालने जा रहे हैं:

ओसीआर कैसे संचालित किया जा सकता है? KNIME विश्लेषिकी मंच.
पुस्तक मेटाडेटा और कवर को पुनः प्राप्त करने के उपयोग के मामले में हम KNIME के OCR प्रोसेसर और Google पुस्तकें API को कैसे एकीकृत कर सकते हैं।

KNIME एनालिटिक्स प्लेटफ़ॉर्म में OCR

KNIME में टेक्स्ट वाली छवि को OCR करना बहुत आसान काम है। बस इसे स्थापित करना है KNIME इमेज प्रोसेसिंग - Tess4J एकीकरण आपके स्थानीय में विस्तार KNIME विश्लेषिकी मंच, और खींचने और छोड़ने के लिए Tess4J आपके वर्कफ़्लो संपादक पर नोड।

Tess4J नोड एकीकृत करता है टेसेरैक्ट ओसीआर लाइब्रेरी, उपलब्ध सबसे व्यापक रूप से उपयोग किए जाने वाले और सटीक ओपन-सोर्स ओसीआर प्रोसेसर में से एक। टेसेरैक्ट को मूल रूप से 1990 के दशक की शुरुआत में हेवलेट-पैकर्ड लेबोरेटरीज द्वारा एक मालिकाना सॉफ्टवेयर के रूप में विकसित किया गया था और बाद में 2005 में इसे ओपन सोर्स बना दिया गया था। Google ने तब से इस परियोजना को अपनाया है और इसके विकास को प्रायोजित किया है।

Tess4J नोड Tesseract 3 पर चलता है, जो दो-पास प्रक्रिया में चरित्र पैटर्न को पहचानकर काम करता है।

पहले पास में, इंजन प्रत्येक व्यक्तिगत चरित्र को पहचानने का प्रयास करता है। इसके बाद यह उन पात्रों को पास करता है जिन्हें पहले पास में उच्च आत्मविश्वास के साथ प्रशिक्षण डेटा के रूप में एक अनुकूली क्लासिफायरियर में पहचाना गया था। इस तरह, अनुकूली क्लासिफायरियर को यह सीखने का मौका मिलता है कि बाद के पाठ को अधिक सटीक रूप से कैसे पहचाना जाए।
हालाँकि, ऐसा हो सकता है कि अनुकूली क्लासिफायर सार्थक योगदान देने के लिए उपयोगी जानकारी बहुत देर से सीखता है। इस समस्या को हल करने और अनुकूली क्लासिफायर द्वारा प्राप्त ज्ञान का लाभ उठाने के लिए, इंजन एक दूसरा पास संचालित करता है जहां जिन पात्रों को अच्छी तरह से पहचाना नहीं गया था उन्हें फिर से पहचाना जाता है [1]।

Tesseract 3 किसी भी यूनिकोड वर्ण (UTF-8 के साथ कोडित) को संभालता है और विभिन्न भाषाओं और लेखन लेआउट में पाठ को संसाधित कर सकता है: बाएं से दाएं (उदाहरण के लिए, अंग्रेजी, इतालवी, रूसी, आदि), दाएं से बाएं (उदाहरण के लिए, अरबी, हिब्रू, उर्दू आदि) और ऊपर से नीचे (जैसे, जापानी, कोरियाई, चीनी, आदि) [2]।

अस्वीकरण। मैक उपयोगकर्ता वर्तमान में Tess4J नोड का उपयोग करने में असमर्थ हैं। KNIME डेवलपर्स सुचारू कामकाज बहाल करने के लिए काम कर रहे हैं।

उपयोग का मामला: पुस्तक मेटाडेटा और कवर पुनर्प्राप्त करना

अब जब हमने यह बुनियादी समझ प्राप्त कर ली है कि KNIME एनालिटिक्स प्लेटफ़ॉर्म में OCR कैसे काम करता है, तो आइए एक दिलचस्प उपयोग के मामले पर नज़र डालें। मान लीजिए कि हमने कई पुस्तकों के संस्करण नोटिस को दर्शाने वाली छवियां एकत्र की हैं और इस जानकारी के साथ हम पुस्तक मेटाडेटा और कवर पुनर्प्राप्त करना चाहते हैं। पुनर्प्राप्त डेटा का उपयोग तब किया जा सकता है, उदाहरण के लिए, एक अनुकूलित डिजिटल लाइब्रेरी बनाने और पुस्तक अनुशंसा प्रणाली को प्रशिक्षित करने के लिए।

चित्र 2 में वर्कफ़्लो सभी चरणों को शामिल करता है: इमेज रीडिंग, ओसीआरिंग, टेक्स्ट प्रोसेसिंग और आईएसबीएन संदर्भ निष्कर्षण से लेकर बुक मेटाडेटा और कवर पुनर्प्राप्ति और विज़ुअलाइज़ेशन तक। आइए विभिन्न चरणों पर विस्तार से नजर डालें।

चित्र 2: यह वर्कफ़्लो पुस्तक संस्करण नोटिस पर एक सरल ओसीआर कार्य करता है और Google पुस्तकें एपीआई का उपयोग करके पुस्तक मेटाडेटा और कवर पुनर्प्राप्त करता है।

1 - छवि डेटा पढ़ें

पहला कदम पुस्तक संस्करण नोटिस छवियों को KNIME में आयात करना है। संस्करण नोटिस किसी पुस्तक का वह पृष्ठ है जिसमें वर्तमान संस्करण के बारे में जानकारी होती है, जैसे कॉपीराइट नोटिस, कानूनी नोटिस, प्रकाशन जानकारी, मुद्रण इतिहास और आईएसबीएन कोड (चित्र 1)।

मेटानोड "छवि डेटा पढ़ें" आसान और प्रोग्रामेटिक तरीके से इसका ख्याल रखता है (चित्रा 3)। हम उस स्थान की पहचान करते हैं जहां छवि फ़ाइलें संग्रहीत हैं सूची फ़ाइलें/फ़ोल्डर नोड और उपयोग करें छवि रीडर (तालिका) छवियों को सुंदर ढंग से आयात करने के लिए नोड। इमेज रीडर (तालिका) नोड में, हमें केवल "फ़ाइल इनपुट कॉलम" निर्दिष्ट करने की आवश्यकता है, यानी उन फ़ाइलों के पथ वाला कॉलम जहां हमारी छवियां संग्रहीत हैं। अन्य सभी कॉन्फ़िगरेशन को डिफ़ॉल्ट के रूप में छोड़ा जा सकता है।

इमेज रीडर (तालिका) का हिस्सा है KNINE छवि प्रसंस्करण एक्सटेंशन और, इस एक्सटेंशन के अन्य नोड्स की तरह, यह नोड पर राइट-क्लिक करके, "व्यू: इमेज व्यूअर" का चयन करके और तालिका दृश्य में किसी भी छवि पर डबल-क्लिक करके छवि और उसके मेटाडेटा वाला एक इंटरैक्टिव दृश्य प्रदान करता है।

चित्र 3: मेटानोड के अंदर "छवि डेटा पढ़ें"। इमेज रीडर (टेबल) नोड छवियों को वर्कफ़्लो में आयात करता है और हमें इसके दृश्य में उन्हें इंटरैक्टिव रूप से एक्सप्लोर करने की अनुमति देता है।

2 - ओसीआर

पुस्तक संस्करण नोटिस की छवि फ़ाइलों में पढ़ने के बाद, हम उन्हें ओसीआर कर सकते हैं।

Tess4J नोड का कॉन्फ़िगरेशन बहुत सरल है और इसके लिए केवल कुछ क्लिक की आवश्यकता होती है (चित्र 4)। में सेटिंग टैब, नोड कॉन्फ़िगरेशन संवाद के "प्रीप्रोसेसिंग" अनुभाग में "डेस्क्यू इनपुट इमेज" बॉक्स का चयन करके किसी भी घुमाव या तिरछी छवि को ठीक करने की संभावना प्रदान करता है। आमतौर पर ऐसा करने की सलाह दी जाती है, क्योंकि ग्राफ़िक फ़ाइलें ठीक से संरेखित नहीं हो सकती हैं। इसके अलावा, Tess4J नोड स्वचालित रूप से हुड के पीछे एक द्विआधारी छवि बनाता है।

इसके बाद, हम "टेसडेटा पथ" का चयन करते हैं। डिफ़ॉल्ट रूप से, यह "आंतरिक उपयोग करें" पर सेट है, जो हमें उस पाठ की भाषा चुनने की अनुमति देता है जिसे हम संसाधित करना चाहते हैं। इस कॉन्फ़िगरेशन में, अंग्रेजी डिफ़ॉल्ट भाषा है, लेकिन Tess4J नोड डेनिश, इतालवी, स्पेनिश, रूसी, ग्रीक, स्लोवाक, जर्मन और फ्रेंच जैसी अन्य प्राकृतिक भाषाओं का समर्थन करता है। यह उल्लेखनीय है कि "बाहरी उपयोग करें" का चयन करके, हम उन भाषाओं को शामिल करने के लिए Tess4J नोड की क्षमताओं का विस्तार कर सकते हैं जो आंतरिक रूप से समर्थित नहीं हैं। दरअसल, हम उस निर्देशिका को निर्दिष्ट करके अपने स्वयं के, बाहरी प्रशिक्षित डेटा भाषा मॉडल चुन सकते हैं जहां वे संग्रहीत हैं। हम "आंतरिक उपयोग करें" चुनते हैं क्योंकि हम अपने अंग्रेजी दस्तावेज़ों के लिए Tess4J के आंतरिक मॉडल पर भरोसा करना पसंद करते हैं।

"पहचान कॉन्फ़िगरेशन" अनुभाग में, हमें दो सबसे महत्वपूर्ण ड्रॉप-डाउन सूची कॉन्फ़िगरेशन मिलते हैं, अर्थात् "पेज सेगमेंटेशन मोड" और "ओसीआर इंजन मोड"। पहला परिभाषित करता है कि हमारा पृष्ठ कैसे खंडित है।

चित्र 4 में, हम "पूर्ण ऑटो पेजसेग" का चयन करते हैं, जो पूरी तरह से स्वचालित पेज विभाजन सुनिश्चित करता है। मौजूदा विशिष्ट उपयोग के मामले के आधार पर, उपलब्ध 13 में से किसी अन्य मोड का चयन करना (उदाहरण के लिए, "एकल कॉलम" या "स्पार्स टेक्स्ट") एक अधिक उपयुक्त विकल्प हो सकता है।

दूसरी सेटिंग हमें OCR इंजन चुनने के लिए कहती है। यहां, हम "टेस्सेरैक्ट ओनली" चुनते हैं, जो सबसे तेज़ निष्पादन सुनिश्चित करता है। अन्य विकल्पों में "क्यूब ओनली" शामिल है - टेसेरैक्ट के लिए एक वैकल्पिक पहचान मोड - जो धीमा है लेकिन अक्सर बेहतर परिणाम देता है; या "टेसेरैक्ट एंड क्यूब", जो दोनों दुनियाओं के सर्वश्रेष्ठ को जोड़ता है। एक या दूसरे इंजन को चुनना छवि की गुणवत्ता और उस पाठ की जटिलता पर निर्भर करता है जिसे हम संसाधित करना चाहते हैं।

बुनियादी सेटिंग्स के अलावा, Tess4J नोड एक प्रदान करता है उन्नत कॉन्फिग टैब जहां हम एक सेट को परिभाषित कर सकते हैं नियंत्रण के मानकों. यह टैब नोड को बेहद लचीला बनाता है और विशेषज्ञ उपयोगकर्ताओं को टेस्सेरैक्ट ओसीआर इंजन को उनकी विशिष्ट आवश्यकताओं के अनुसार अनुकूलित और फाइन-ट्यून करने में मदद करता है। हालाँकि, चिंता न करें, अधिकांश मामलों में बुनियादी कॉन्फ़िगरेशन आपको बहुत आगे तक ले जाएगा!

चित्र 4: Tess4J नोड का कॉन्फ़िगरेशन संवाद।

Tess4J नोड के कॉन्फ़िगरेशन को मौजूदा उपयोग के मामले में बदलने के अलावा, यदि आवश्यक हो, तो इनपुट छवियों को पूरी तरह से प्रीप्रोसेस करना एक अच्छा अभ्यास है। विशेष रूप से, टेसेरैक्ट तब सबसे अच्छा काम करता है जब छवियों को पर्याप्त रूप से बढ़ाया जाता है ताकि वर्णों की x-ऊंचाई की पिक्सेल गिनती कम से कम 20 पिक्सेल हो; छवियां सही ढंग से संरेखित हैं और उनका रिज़ॉल्यूशन पर्याप्त उच्च है; और किसी भी गहरे बॉर्डर को हटा दिया जाता है, या उन्हें वर्णों के रूप में गलत समझा जा सकता है [3]। KNINE छवि प्रसंस्करण एक्सटेंशन में छवि सफाई, हेरफेर और परिवर्तन आदि के लिए कई नोड्स शामिल हैं उदाहरण वर्कफ़्लो पर पाया जा सकता है चाकू हब.

Tess4J नोड का आउटपुट एक तालिका है जिसमें स्ट्रिंग डेटा प्रकार के रूप में निकाला गया टेक्स्ट होता है, और इस तरह इसे खोजा और संपादित किया जा सकता है।

3 - आईएसबीएन निष्कर्षण के लिए पाठ प्रसंस्करण

एक बार जब छवियां ओसीआर हो जाती हैं, तो उनमें मौजूद पाठ को अंततः एक्सेस किया जा सकता है और उपयोगी जानकारी प्राप्त की जा सकती है।

विशेष रूप से, संस्करण नोटिस आमतौर पर पुस्तक को निर्दिष्ट आईएसबीएन कोड की रिपोर्ट करते हैं। आईएसबीएन कोड एक अद्वितीय, 13-अंकीय लंबा (यह 10 से पहले 2007-अंकीय हुआ करता था), वाणिज्यिक पुस्तक पहचानकर्ता है और इस तरह यह प्रकाशन के प्रत्येक अलग संस्करण और भिन्नता को सौंपा गया है। जब हम महत्वपूर्ण जानकारी प्राप्त करना चाहते हैं तो आईएसबीएन कोड निकालने से हमें प्रत्येक पुस्तक को स्पष्ट रूप से संदर्भित करने की अनुमति मिलती है। इसे प्राप्त करने के लिए, हम इसमें शामिल नोड्स पर भरोसा कर सकते हैं KNIME - टेक्स्ट प्रोसेसिंग एक्सटेंशन, जिनमें से कुछ का उपयोग "आईएसबीएन निष्कर्षण" मेटानोड (चित्रा 5) में किया जाता है।

"टेक्स्ट क्लीनिंग" मेटानोड में, हम OCRed टेक्स्ट को स्ट्रिंग से दस्तावेज़ डेटा प्रकार में परिवर्तित करके शुरू करते हैं। इसके बाद, हम पाठ को लोअरकेस में परिवर्तित करते हैं, विराम चिह्न, रिक्त स्थान, हाइफ़न हटाते हैं, और आईएसबीएन कोड में गलत पहचाने गए वर्णों को सही करने के लिए अक्षर "ओ" को "0" (शून्य) से प्रतिस्थापित करते हैं।

हम स्ट्रिंग "आईएसबीएन" के बाद आने वाले 13 अक्षरों को अलग करके आईएसबीएन कोड निकालते हैं, और इसका उपयोग करते हैं नियम इंजन नोड यह जाँचने के लिए कि क्या निकाले गए वर्णों में लुप्त मान नहीं हैं और उनकी अपेक्षित लंबाई 13 वर्ण हैं। फिर हम एक कॉलम जोड़ने के लिए इस नोड की क्षमता का उपयोग करते हैं जो सफल निष्कर्षण को 1 और असफल निष्कर्षण को 0 के रूप में लेबल करता है।

चित्र 5: "आईएसबीएन निष्कर्षण" मेटानोड के अंदर।

4 - जानकारी पुनर्प्राप्ति और विज़ुअलाइज़ेशन

अंतिम चरण में, हम Google पुस्तकें एपीआई से पुस्तक सामग्री जानकारी और कवर प्राप्त करने के लिए आईएसबीएन कोड का उपयोग करते हैं। "पुस्तक मेटाडेटा और कवर प्राप्त करें" मेटानोड इसका ध्यान रखता है (चित्र 6)। हालाँकि, मेटाडेटा पुनर्प्राप्ति केवल तभी संभव है जब आईएसबीएन कोड सफलतापूर्वक निकाले गए हों। सफल/असफल आईएसबीएन निष्कर्षण के सुचारू संचालन को सुनिश्चित करने के लिए, हम कई वर्कफ़्लो नियंत्रण नोड्स शामिल करते हैं। आप इसमें एक अंतर्दृष्टिपूर्ण अवलोकन पा सकते हैं चीट शीट: KNIME एनालिटिक्स प्लेटफ़ॉर्म के साथ नियंत्रण और ऑर्केस्ट्रेशन.

यदि आईएसबीएन कोड सफलतापूर्वक निकाला जाता है, तो हम इसका उपयोग करते हैं अनुरोध प्राप्त करें GET अनुरोध भेजने के लिए नोड गूगल बुक्स एपीआई, Google द्वारा संचालित एक निःशुल्क RESTful वेब सेवा जो पुस्तक शीर्षक, उपशीर्षक, लेखक, प्रकाशन की तारीख, विवरण, पृष्ठ संख्या, भाषा, औसत रेटिंग, रेटिंग गणना और कवर जैसी कई महत्वपूर्ण जानकारी पुनर्प्राप्त करने की अनुमति देती है। इसके अलावा, इस RESTful वेब सेवा को डेवलपर खाता बनाने की आवश्यकता नहीं है। GET अनुरोध नोड का कॉन्फ़िगरेशन बहुत सीधा है। इसके लिए एक सार्थक "यूआरएल कॉलम" के सरल चयन की आवश्यकता होती है जिसे हम बनाते हैं स्ट्रिंग हेरफेर नोड में शामिल होकर Google पुस्तकें API URL प्रत्येक संस्करण नोटिस के आईएसबीएन कोड के साथ। अन्य सभी कॉन्फ़िगरेशन को डिफ़ॉल्ट के रूप में छोड़ा जा सकता है।

फिर हम GET अनुरोध नोड के JSON आउटपुट को पार्स करते हैं JSON पथ अंतिम परिणाम एकत्र करने से पहले नोड और निकाली गई मेटा जानकारी को पुस्तक कवर के साथ जोड़ें।

अंत में, हम पुनर्प्राप्त पुस्तक मेटाडेटा और कवर के स्पष्ट दृश्य के लिए "विज़ुअलाइज़ बुक मेटाडेटा और कवर" घटक बनाते हैं।

घटक में, हम लपेटते हैं इंटरएक्टिव रेंज स्लाइडर फ़िल्टर विजेट Google पुस्तकें पर पाठकों द्वारा निर्दिष्ट औसत रेटिंग गिनती (0-भयानक; 5-शानदार) के आधार पर गतिशील पुस्तक फ़िल्टरिंग को सक्षम करने के लिए नोड, और टाइल दृश्य परिणाम प्रदर्शित करने के लिए नोड.

घटक तब औसत रेटिंग के आधार पर पुस्तकों का चयन करने के लिए स्लाइडर सहित एक दृश्य प्राप्त करता है और चयनित पुस्तकों के कवर और विवरण को होस्ट करने वाली एक तालिका प्राप्त करता है। इस लेख के लिए, हमने 3 और 5 के बीच रेटिंग वाली पुस्तकें निकालने का चयन किया है, और परिणाम चित्र 6 में प्रदर्शित किए गए हैं।

चित्र 6: 3 से अधिक रेटिंग वाली पुस्तकों के लिए प्राप्त जानकारी और पुस्तक कवर।

सारांश

इस लेख में, हमने बताया है कि KNIME एनालिटिक्स प्लेटफ़ॉर्म में OCR को आसानी से कैसे संचालित किया जा सकता है। इस प्रयोजन के लिए, हमने Tess4J नोड प्रस्तुत किया है और Tesseract OCR लाइब्रेरी की कार्यप्रणाली पर विवरण प्रदान किया है जिस पर यह नोड आधारित है।

इसके अलावा, हमने एक सरल उपयोग का मामला दिखाया है जहां ओसीआर एक शक्तिशाली और उपयोगी संसाधन हो सकता है। हमने Google पुस्तकें की रेस्टफुल वेब सेवा पर GET अनुरोध भेजने के लिए पुस्तक संस्करण नोटिस - विशेष रूप से, आईएसबीएन कोड - से जानकारी निकाली है। इससे हमें पुस्तक मेटाडेटा और कवर पुनः प्राप्त करने की अनुमति मिली है।

KNIME के साथ, महत्वपूर्ण जानकारी निकालने के लिए छवियों को OCR करना ABC जितना आसान हो जाता है। इसे स्वयं आज़माएँ! आपका OCR उपयोग मामला क्या है?

इस आलेख में प्रस्तुत वर्कफ़्लो को यहां से निःशुल्क डाउनलोड किया जा सकता है चाकू हब.

संदर्भ

[1] स्मिथ, आर. (2007)। "टेस्सेरैक्ट ओसीआर इंजन का एक अवलोकन"। दस्तावेज़ विश्लेषण और मान्यता पर नौवां अंतर्राष्ट्रीय सम्मेलन (ICDAR 2007), पीपी. 629-633. यहां पहुंचयोग्य:
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/33418.pdf
[पुनर्प्राप्त: 15.07.2021]।

[2] GitHub पर Tesseract OCR प्रोजेक्ट - https://github.com/tesseract-ocr/tesseract

[3] GitHub पर Tesseract OCR दस्तावेज़ीकरण — https://tesseract-ocr.github.io/tessdoc/

रॉबर्टो कैडिलिक KNIME में एक डेटा वैज्ञानिक, एनएलपी उत्साही और इतिहास प्रेमी हैं। उन्नत डेटा विज्ञान के लिए लो कोड के संपादक।

लाडा रुड्निटकैया KNIME में डेटा साइंटिस्ट हैं।

जैसा कि पहली बार . में प्रकाशित हुआ उन्नत डेटा विज्ञान के लिए निम्न कोड.

मूल। अनुमति के साथ पुनर्प्रकाशित।

संबंधित: