Introduction To Google Vision OCR

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

Google विजन ओसीआर का परिचय

ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर), मशीन-एन्कोडेड टेक्स्ट में हस्तलिखित / मुद्रित ग्रंथों को परिवर्तित करने की विधि, हमेशा विभिन्न क्षेत्रों में अपने कई अनुप्रयोगों के कारण कंप्यूटर दृष्टि में अनुसंधान का एक प्रमुख क्षेत्र रहा है - बैंक बयानों की तुलना करने के लिए ओसीआर का उपयोग करते हैं; सर्वेक्षण के फीडबैक संग्रह के लिए सरकारें ओसीआर का उपयोग करती हैं।

लिखावट और मुद्रित पाठ शैलियों में विविधता के कारण, OCR के हालिया दृष्टिकोणों में उच्च सटीकता हासिल करने के लिए गहरी सीख शामिल है। जैसा कि गहन प्रशिक्षण के लिए मॉडल प्रशिक्षण के लिए बड़ी मात्रा में डेटा की आवश्यकता होती है, Google जैसी कंपनियां अपने OCR सेवाओं के साथ आशाजनक परिणाम देने में बढ़त लेती हैं।

यह लेख Google विज़न OCR के विवरण में गोता लगाता है, जिसमें अजगर में एक सरल ट्यूटोरियल, अनुप्रयोगों की श्रेणी, मूल्य निर्धारण और अन्य विकल्प शामिल हैं।

Google क्लाउड विजन ओसीआर क्या है?
एक सरल ट्यूटोरियल
OCR क्यों?
उदाहरण उपयोग के मामले
मूल्य निर्धारण
Google क्लाउड विजन ओसीआर की मुख्य विशेषताएं
अल्टरनेटिव्स
सामान्य मुद्दे

Google क्लाउड विज़न क्या है?

Google क्लाउड विज़न OCR छवियों से पाठ निकालने के लिए Google क्लाउड विज़न API का एक हिस्सा है। विशेष रूप से, चरित्र पहचान में मदद करने के लिए दो एनोटेशन हैं:

पाठ_नोटबंदी: यह किसी भी छवि से मशीन-एन्कोडेड ग्रंथों को निकालता है और आउटपुट करता है (उदाहरण के लिए, सड़क दृश्य या विज्ञान की तस्वीरें)। चूंकि इसे शुरू में अलग-अलग प्रकाश स्थितियों के तहत प्रयोग करने योग्य बनाया गया था, इसलिए मॉडल कुछ अर्थों में विभिन्न शैलियों के शब्दों को पढ़ने में अधिक मजबूत है, लेकिन केवल अधिक विरल स्तर पर। JSON फ़ाइल में संपूर्ण स्ट्रिंग्स के साथ-साथ व्यक्तिगत शब्द और उनके संबंधित बाउंडिंग बॉक्स शामिल हैं।
दस्तावेज़_पाठ_एनोटेशन: यह विशेष रूप से घने-प्रस्तुत पाठ दस्तावेजों (जैसे, स्कैन की गई पुस्तकें) के लिए डिज़ाइन किया गया है। इस प्रकार, जबकि यह छोटे और अधिक केंद्रित ग्रंथों को पढ़ने का समर्थन करता है, यह इन-द-वाइल्ड छवियों के अनुकूल कम है। पैराग्राफ, ब्लॉक, और ब्रेक जैसी जानकारी आउटपुट JSON फ़ाइल में शामिल हैं।

एक ओसीआर समाधान की तलाश है जो Google क्लाउड विज़न की कमियों को दूर करे या जोनल ओसीआर? नैनोनेट दें™ उच्च सटीकता, अधिक लचीलापन और व्यापक दस्तावेज़ प्रकारों के लिए एक स्पिन!

एक सरल ट्यूटोरियल

निम्न अनुभाग Google विज़न एपीआई के साथ आरंभ करने में एक सरल ट्यूटोरियल का परिचय देता है, विशेष रूप से Google क्लाउड विज़न ओसीआर सेवा के लिए इसका उपयोग कैसे करें।

सरल अवलोकन

इसके पीछे का विचार बहुत सहज और सरल है।

1) आप अनिवार्य रूप से Google क्लाउड विजन एपीआई में एक छवि (दूरस्थ या अपने स्थानीय भंडारण से) भेजते हैं।

2) छवि को Google क्लाउड पर दूरस्थ रूप से संसाधित किया जाता है और आपके द्वारा कहे गए फ़ंक्शन के संबंध में संबंधित JSON प्रारूप बनाता है।

3) JSON फाइल को फंक्शन के बाद आउटपुट के रूप में लौटाया जाता है।

Google क्लाउड विजन एपीआई की स्थापना

Google विज़न एपीआई द्वारा प्रदान की गई किसी भी सेवा का उपयोग करने के लिए, Google क्लाउड कंसोल को कॉन्फ़िगर करना होगा और प्रमाणीकरण के लिए कई चरणों को पूरा करना होगा। निम्नलिखित संपूर्ण विज़न एपीआई सेवा को सेट करने के चरण-दर-चरण अवलोकन है।

Google क्लाउड कंसोल में एक प्रोजेक्ट बनाएं - किसी विज़न सेवा का उपयोग शुरू करने के लिए एक प्रोजेक्ट बनाना होगा। परियोजना सहयोगी, एपीआई और मूल्य निर्धारण जानकारी जैसे संसाधनों का आयोजन करती है।
बिलिंग सक्षम करें - दृष्टि एपीआई को सक्षम करने के लिए, आपको पहले अपने प्रोजेक्ट के लिए बिलिंग सक्षम करना होगा। मूल्य निर्धारण का विवरण बाद के खंडों में संबोधित किया जाएगा।
विजन एपीआई सक्षम करें
सेवा खाता बनाएँ - एक सेवा खाता बनाएँ और निर्मित परियोजना से लिंक करें, फिर एक सेवा खाता कुंजी बनाएँ। कुंजी आउटपुट होगी और आपके कंप्यूटर पर JSON फ़ाइल के रूप में डाउनलोड की जाएगी।
पर्यावरण चर GOOGLE_APPLICATION_CREDENTIALS सेट करें; इस परिवेश चर को सेट करने के लिए, इसे Mac/Linux या Windows पर चलाएँ।
मैक / लिनक्स के लिए कोड ब्लॉक
विंडोज के लिए कोड ब्लॉक

उपरोक्त चरणों की अधिक विस्तृत प्रक्रिया Google क्लाउड द्वारा यहां दिए गए आधिकारिक दस्तावेज से पाई जा सकती है:

https://cloud.google.com/vision/docs/quickstart-client-libraries

पायथन में सरल Google विज़न ओसीआर फंक्शन

Google क्लाउड विज़न एपीआई कई लोकप्रिय भाषाओं के साथ काम करता है, जो जावा, नोड्स, पायथन, से लेकर Google की अपनी भाषा गो तक है। सादगी के लिए, हम पायथन में एक साधारण कॉलिंग विधि का परिचय देते हैं।

def detect_text(path):    """Detects text in the file."""    from google.cloud import vision    import io    client = vision.ImageAnnotatorClient()    with io.open(path, 'rb') as image_file:        content = image_file.read()    image = vision.Image(content=content)    response = client.text_detection(image=image)    texts = response.text_annotations    print('Texts:')    for text in texts:        print('n"{}"'.format(text.description))        vertices = (['({},{})'.format(vertex.x, vertex.y)                    for vertex in text.bounding_poly.vertices])        print('bounds: {}'.format(','.join(vertices)))

Google क्लाउड विजन ओसीआर - पायथन कॉलिंग विधि

दूसरे शब्दों में, विधि फलस्वरूप फ़ंक्शन को कॉल करती है टेक्स्ट_एनोटेशन, फिर आगे प्रतिक्रियाओं को निकालें और जानकारी को प्रिंट करें। दस्तावेज़_पाठ_एनोटेशन घने ग्रंथों को पुनः प्राप्त करने के लिए उसी तरह का उपयोग करके भी बुलाया जा सकता है। एक के माध्यम से छवि को दूर से भी छवियों का पता लगा सकते हैं:

image.source.image_uri = uri

जहां यूरी छवि का यूरी है।

कोड के अधिक विवरण यहां प्राप्त किए जा सकते हैं:

https://cloud.google.com/vision

Google क्लाउड विज़न की कमियों को दूर करने वाले OCR समाधान की तलाश है? नैनोनेट्स दें™ उच्च सटीकता, अधिक लचीलापन और व्यापक दस्तावेज़ प्रकारों के लिए एक स्पिन!

उत्पादन के स्तर की पेशकश की

पाठ के आगे के डेटा विश्लेषण में सहायता के लिए, दो Google OCR फ़ंक्शन उपयोगकर्ताओं को उपयोग करने के लिए विभिन्न स्तर के आउटपुट प्रदान करते हैं: के लिए टेक्स्ट_एनोटेशन, दोनों पूरे तार (यदि Google द्वारा एक वाक्य या वाक्यांश के रूप में माना जाता है) और भीतर व्यक्तिगत शब्द; के लिये दस्तावेज़_पाठ_एनोटेशन, क्योंकि मॉडल घने पाठ के लिए अनुकूलित है, पृष्ठ, ब्लॉक, पैराग्राफ, शब्द, और ब्रेक सभी आउटपुट के एक भाग के रूप में पेश किए जाते हैं।

हालांकि यह कितनी अच्छी तरह काम करता है?

मॉडल कितने मजबूत हैं?

जैसा कि पहले उल्लेख किया गया है, Google OCR के लिए दो अलग-अलग स्थितियों में दो फ़ंक्शन प्रदान करता है। निम्नलिखित विभिन्न प्रकार के डेटा को पुनः प्राप्त करने में दो कार्यों की क्षमता का वर्णन करता है।

मुद्रित डेटा

व्याख्या करने के लिए सबसे आसान प्रकार का डेटा मुद्रित पाठ डेटा, यानी, कंप्यूटर लिखित पाठ मुद्रित और स्कैन किया गया है। ओसीआर की आवश्यकता तब होती है जब हमारे पास मूल मशीन-एन्कोडेड पाठों के बजाय केवल इन डेटा की मुद्रित प्रति होती है। जैसा कि इन ग्रंथों में से अधिकांश तंग हैं और पृष्ठों में पैक किए गए हैं, दस्तावेज़_पाठ_एनोटेशन एक बेहतर विकल्प होगा।

हाथ से लिखा हुआ डेटा

सामग्री में हाथ से लिखे गए पाठ हो सकते हैं और हाथ से लिखे गए डेटा की शैलियाँ काफी भिन्न हो सकती हैं। फिर भी, Google विज़न ओसीआर तब तक सही सटीकता प्रदान करता है जब तक कि हस्तलिखित नोट बहुत गन्दा न हों। हाथ से लिखे गए डेटा के माध्यम को कैसे प्रस्तुत किया जाता है, इस पर निर्भर करते हुए, हम केस-टू-केस आधार पर दो कार्यों में से एक का उपयोग करते हैं।

घुमाया / इन-द-वाइल्ड डेटा

जब छवियों या स्कैन की गई तस्वीरों को अपरंपरागत या बिना डिजाइन वाले कोणों में प्रस्तुत किया जाता है, तो हम उन्हें जंगली डेटा के रूप में मानते हैं। ग्रंथों को संभवतः पहले स्थान पर पता लगाया जाना अधिक कठिन हो सकता है, और इसलिए हम आमतौर पर उपयोग करते हैं टेक्स्ट_एनोटेशन फ़ंक्शन जो पहले स्थान पर जंगली डेटा को संसाधित करने के लिए डिज़ाइन किया गया था। विभिन्न कोणों पर कैप्चर किए गए ऊर्ध्वाधर ग्रंथों और सड़क के संकेतों से गुजरने के कुछ प्रयोगों के आधार पर, हम बताते हैं कि Google विज़न ओसीआर वास्तव में विभिन्न वातावरणों के डेटा पर शालीनता से कार्य करता है।

OCR क्यों?

आज हमारे पास मौजूद कई डेटा अनस्ट्रक्चर्ड फॉर्मेट में हैं। उदाहरण के लिए, एक छवि, एक स्कैन किए गए दस्तावेज़, या एक तस्वीर, जबकि मनुष्य जल्दी से ग्रंथों को पहचान सकते हैं और अर्थों की व्याख्या कर सकते हैं, सभी पाठ डेटा केवल रंगों के साथ पिक्सेल हैं, मशीनों को कोई वास्तविक अर्थ प्रदान नहीं करते हैं।

जब कंपनियां या बड़े निगम भारी मात्रा में कागजी कार्रवाई कर रहे हैं, तो बड़े डेटा की मात्रा किसी भी वर्गीकरण या डेटा प्रसंस्करण के लिए पूरी तरह से मानव प्रयास के साथ असंभव हो जाएगी - यह तब है जब मशीन-एन्कोडेड पाठ काम में आता है।

ओसीआर रूपांतरण के बाद, डेटा की प्रकृति के आधार पर कई अलग-अलग तरीकों से जानकारी का विश्लेषण किया जा सकता है:

संख्यात्मक डेटा के लिए, सांख्यिकीय तरीकों को सीधे किसी भी सहसंबंधों के विश्लेषण के लिए लागू किया जा सकता है। हम पारंपरिक मशीन सीखने के तरीकों (जैसे, KNN, K- मीन्स, रेखीय प्रतिगमन) को भी अपना सकते हैं या प्रतिगमन और / या वर्गीकरण के लिए भविष्य कहनेवाला मॉडल बनाने के लिए गहन शिक्षण दृष्टिकोण।
पाठ डेटा के लिए, प्रसंस्करण के अधिक चरणों की आवश्यकता हो सकती है। सार्थक आंकड़ों में पाठ डेटा के विश्लेषण और व्याख्या की प्रक्रिया को अक्सर प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कहा जाता है। विशेष रूप से, हम दी गई सामग्री के आधार पर संख्याएँ या शब्दार्थ / वातावरण भी निकाल सकते हैं।

ये सभी विश्लेषण कंपनियों, विशेष रूप से हर दिन नए डेटा की विशाल मात्रा के साथ, मजबूत मॉडल बनाने और यहां तक कि बहुत सारी प्रक्रियाओं को स्वचालित करने और पारंपरिक श्रम-गहन और त्रुटि-भरे दृष्टिकोणों को बदलने की अनुमति दे सकते हैं। निम्नलिखित अनुभाग OCR का उपयोग कैसे किया जा सकता है, इसके कुछ विस्तृत उदाहरणों में बताया गया है।

उदाहरण उपयोग के मामले

लाइसेंस प्लेट पढ़ना

शायद आजकल OCR के सबसे सामान्य उपयोगों में से एक लाइसेंस प्लेट रीडिंग में आवेदन है। विकसित देशों में, पार्किंग स्थल के साथ अक्सर पार्किंग प्लेट रीडिंग मॉडल होते हैं, ताकि प्रवेश समय, निकास समय और यहां तक कि कार के सटीक पार्क किए गए स्थान का निर्धारण किया जा सके। कुछ पार्किंग स्थल सरकारी शुल्क से जुड़े होते हैं, ताकि परिवारों से सीधे पार्किंग शुल्क वसूला जा सके - ये सभी निरर्थक मानवीय प्रयासों को कम करते हैं।

लाइसेंस प्लेट OCR मॉडल यातायात उल्लंघन में हिरासत के लिए भी अपनाया जा सकता है, उल्लंघन करने वाले कार के डेटा में पुलिस को मैन्युअल रूप से कुंजी देने के लिए समय कम कर देता है।

रसीद और चालान स्कैन

वित्तीय अनुमान और कंपनियों की संपत्ति और देनदारियों को संतुलित करना किसी भी फर्म के लिए महत्वपूर्ण गतिविधियां हैं। चूंकि बड़ी कंपनियां पूरे वर्ष में कई क्षेत्रों से बड़ी मात्रा में खरीदारी करती हैं, उन्हें वित्तीय विवरण बनाते समय सभी चालान और प्राप्तियों को सावधानीपूर्वक इकट्ठा करने और संसाधित करने की आवश्यकता होती है।

OCR की मदद से हम स्वचालित पाइपलाइन बना सकते हैं जो कई चालान प्रारूपों को पहचानें और उन्हें संख्याओं में परिवर्तित करें। श्रम प्रयासों की केवल जाँच के लिए आवश्यकता होती है, और संरचित डेटा और संख्याएँ कंपनी को अंतर्वाह और बहिर्वाह को जल्दी से संतुलित करने, वित्तीय अनुमान बनाने, साथ ही कंपनी के वित्त के किसी भी दुर्भावनापूर्ण हेरफेर के लिए देखने की अनुमति दे सकती हैं।

इलेक्ट्रिकल मेडिकल रिकॉर्ड

मरीजों का डेटा अक्सर एक क्षेत्र, देश या यहां तक कि देशों में व्यक्तियों की जीवन शैली पर निर्भर करता है। क्लीनिकों और अस्पतालों की विभिन्न शैलियों के कारण (बड़े अस्पतालों ने डेटाबेस का आयोजन किया हो सकता है, जबकि छोटे क्लीनिकों में डॉक्टर सिर्फ हाथ से रिकॉर्ड लिख सकते हैं), रोगियों की उम्र (पुराने रोगियों को नवीकरण और निगमन से पहले एक विशेष डेटाबेस में डाला जा सकता है) कंप्यूटर), और व्यक्तियों के स्थान (लोग एक अलग शहर या विदेश में भी स्थानांतरित कर सकते हैं), एक सार्वभौमिक चिकित्सा रखना वास्तव में बहुत मुश्किल हो सकता है।

एक अच्छी तरह से प्रशिक्षित ओसीआर एक अस्पताल से दूसरे अस्पताल में ईएमआर को स्थानांतरित करने या हाथ से लिखे गए डेटा को मशीन पाठ में बदलने के दौरान काम में आता है - यह दोनों रोगियों के चिकित्सा इतिहास को तेजी से और संक्षिप्त तरीके से समझने की प्रक्रिया को तेज कर सकता है।

प्रपत्र और सर्वेक्षण

संगठनों (चाहे सरकारी या गैर-सरकारी) को अक्सर अपने वर्तमान प्रचार योजनाओं और उत्पादों पर सुधार करने के लिए ग्राहकों या नागरिकों से प्रतिक्रिया की आवश्यकता हो सकती है। चूंकि फॉर्म आमतौर पर हाथ से लिखे जाते हैं, इसलिए किसी भी प्रत्यक्ष सांख्यिकीय विश्लेषण को करना मुश्किल होगा। इसलिए, गणना की सुविधा के लिए असंरचित आंकड़ों और हस्तलिखित सर्वेक्षणों को संख्यात्मक आंकड़ों में बदलने की प्रक्रिया को ओसीआर द्वारा सहायता और त्वरित किया जा सकता है।

क्लाउड विजन प्राइसिंग

गूगल के अनुसार वेबसाइट , दोनों टेक्स्ट_एनोटेशन और दस्तावेज़_पाठ_एनोटेशन निम्नलिखित के समान मूल्य स्तर पर पेश किए जाते हैं:

हर महीने के लिए, पहली 1000 इकाइयों को मुफ्त दिया जाता है, 1000-5000000 डॉलर प्रति 1.5 यूनिट्स पर चार्ज किया जाता है। 1000 अंक से टकराने के बाद, कीमत घटकर $ 5000000 प्रति 0.6 यूनिट हो जाती है (Google विज़न एपीआई के माध्यम से भेजी जाने वाली प्रत्येक छवि को प्रति यूनिट माना जाता है)।

उपरोक्त मूल्य निर्धारण से पता चलता है कि ओसीआर सेवा दोनों छोटी कंपनियों के लिए अपेक्षाकृत कम उपयोग के साथ-साथ बड़े निगमों के लिए अपेक्षाकृत सस्ती है जहां सेवा प्रति माह 5000000 से अधिक बार आवश्यक है।

Google क्लाउड विजन ओसीआर की मुख्य विशेषताएं

Google OCR के विभिन्न लाभ हैं, यहाँ हम कुछ सबसे महत्वपूर्ण लाभों का वर्णन करते हैं:

पुष्ट - उपयोगकर्ताओं के निर्णय पर निर्भर दो प्रकार के पाठ दस्तावेज़ों की सेवा करने वाले दो कार्य, Google विज़न ओसीआर को एकल-मॉडल ओसीआर इंजनों की तुलना में अधिक मजबूत बनाते हैं।
भाषा समर्थन - शायद सबसे बड़े भाषा डेटाबेस के साथ, Google ने सलाह दी है कि इसका OCR 60 से अधिक भाषाओं पर लागू है, कुछ दर्जनों पर प्रयोग कर रहा है, और बाकी के कई अन्य भाषा कोड या सामान्य भाषा पहचानकर्ता के लिए मैप करता है।
उपयोग में आसानी - मॉडल स्वयं इन-बिल्ट Google विज़न लाइब्रेरी का हिस्सा है। एपीआई कुंजी (जो लगभग सभी ओसीआर इंजनों द्वारा आवश्यक है) को कॉन्फ़िगर करने की थोड़ी अधिक घबराहट वाली प्रक्रिया के बाद, फ़ंक्शन-कॉलिंग विधि का उपयोग कई भाषाओं में बहुत सरल तरीके से किया जा सकता है।
स्केलेबिलिटी - Google की मूल्य निर्धारण रणनीति उपयोगकर्ताओं को एपीआई के उपयोग को बढ़ावा देने के लिए प्रोत्साहित करती है, क्योंकि अधिक उपयोग एक सस्ती औसत कीमत की ओर जाता है।
गति - Google क्लाउड का स्टोरेज प्लेटफ़ॉर्म शानदार रूप से एपीआई उपयोग के साथ है। छवियों को ड्राइव में अपलोड करके, एपीआई की प्रतिक्रिया का समय बहुत तेज और स्केलेबल हो सकता है।

अल्टरनेटिव्स

प्रत्येक सेवा के फायदे और नुकसान के साथ, Google विज़न एपीआई के अलावा अन्य कुछ OCR सेवाएँ निम्नलिखित हैं।

ABBYY

ABBYY FineReader PDF ABBYY द्वारा विकसित एक OCR है, जो विशेष रूप से PDF पढ़ने पर केंद्रित है।

पेशेवरों: ABBYY व्यक्तिगत उपयोगकर्ताओं के लिए बहुत अधिक लागत के अनुकूल है क्योंकि मूल्य निर्धारण को छोटे क्षेत्रों (1000, 2000 पृष्ठों, आदि) में विभाजित किया गया है। इसे गैर-इंजीनियरिंग ग्राहकों की ओर भी निर्देशित किया जाता है क्योंकि यह एक व्यावसायिक ऐप है।
विपक्ष: सॉफ्टवेयर केवल पीडीएफ प्रारूप पर केंद्रित है, और बड़े पैमाने पर ओसीआर करते समय कीमत बहुत महंगी हो जाती है।
कब इस्तेमाल करें: अलग-अलग उपयोगकर्ताओं के लिए जो केवल पीडीएफ को जल्दी से संभालना चाहते हैं, एबीबीवाई Google विज़न एपीआई की तुलना में अधिक व्यवहार्य विकल्प हो सकता है जो अधिक लचीलापन देता है लेकिन अतिरिक्त कोड की आवश्यकता होती है।

माइक्रोसॉफ्ट

Microsoft Azure OCR के लिए Read API भी प्रदान करता है।

पेशेवरों: Microsoft उपयोग किए जाने वाले डेटा की एक बड़ी संख्या के लिए एक सस्ती कीमत प्रदान करता है। Azure क्लाउड स्टोरेज Google क्लाउड के समान सेवाएं प्रदान करता है।
विपक्ष: कोई मुफ्त टियर नहीं है, जबकि अन्य विकल्प कम उपयोग के लिए मुफ्त एपीआई कॉल प्रदान करते हैं।
कब इस्तेमाल करें: बहुत बड़े पैमाने पर ओसीआर उत्पादन पाइपलाइनों को Microsoft के मूल्य निर्धारण से लाभ मिल सकता है।

कोफैक्स

ABBYY की तरह, कोफ़ैक्स भी PDF की OCR रीडिंग प्रदान करता है

पेशेवरों: मूल्य व्यक्तिगत उपयोग के लिए तय किया गया है, और उद्यमों के लिए छूट की पेशकश की जाती है। 24/7 ग्राहक सहायता भी प्रदान की जाती है।
विपक्ष: गुणवत्ता के बारे में दावा किया जाता है कि यह एबीबीवाई की तरह नहीं है।
कब इस्तेमाल करें: कम उपयोग आवश्यकताओं वाले छोटे उद्यम।

AWS बनावट

Google विजन API की तुलना में AWS टेक्सट्रैक बहुत समान भूमिका निभाता है। उनकी सेवाएं और मूल्य निर्धारण बहुत समान हैं, और इसलिए उन्हें अपनाने के लिए पूरी तरह से ग्राहकों की वरीयताओं पर आधारित है।

नैनोनेट्स

पहले से चर्चा की गई सेवाओं के विपरीत, नैनोनेट्स के ओसीआर को विशिष्ट श्रेणियों में वर्गीकृत किया जाता है, जिसमें प्रत्येक डेटा प्रकार (जैसे, रसीदें, चालान, ड्राइविंग लाइसेंस) पर प्रशिक्षित मजबूत मॉडल होते हैं।

पेशेवरों: श्रेणी-विशिष्ट ओसीआर, इसलिए सटीकता के संदर्भ में बेहतर परिणाम प्रदान करते हैं जब फर्मों को लक्ष्य-विशिष्ट अनुप्रयोगों के लिए ओसीआर की आवश्यकता होती है।
विपक्ष: अत्यधिक विशिष्ट और अनुरूपित मॉडलों के कारण नैनोनेट्स ओसीआर इन-द-वाइल्ड सेटिंग्स पर कम लागू हो सकता है
कब इस्तेमाल करें: यदि फर्मों को एक विशेष प्रकार के डेटा जैसे कि इनवॉइस के लिए ओसीआर की आवश्यकता होती है, तो नैनोनेट एक लागत-अनुकूल और अत्यधिक सटीक विकल्प हो सकता है।

आप ऐसा कर सकते हैं यहां नैनोनेट्स ऑनलाइन ओसीआर आज़माएं।

क्लाउड विजन के साथ सामान्य मुद्दे

इस अंतिम खंड में, हम दस्तावेज़ स्कैनिंग और ओसीआर के बारे में स्टैकओवरफ़्लो से कुछ प्रश्नों को संबोधित करना चाहते हैं

तंत्रिका नेटवर्क का उपयोग करते हुए दस्तावेजों को पहचानना

लिंक: https://stackoverflow.com/questions/63844251/how-to-detect-and-recognize-information-on-documents-using-neural-networks/63844363#63844363

यह Google OCR का सटीक उपयोग है! दस्तावेजों में स्कैन करने और पाठ पुनर्प्राप्ति करने के लिए ऊपर दिए गए चरणों का पालन करें।

ओसीआर के बाद सबसे महत्वपूर्ण विवरण हथियाना

लिंक: https://stackoverflow.com/questions/64621684/how-to-parse-name-phone-number-email-from-name-card-after-using-google-cloud-vi

किसी भी दस्तावेज़ के अंदर सबसे सार्थक सामग्री को पार्स करने के विचार को प्राकृतिक भाषा प्रसंस्करण कहा जाता है। चूंकि प्रत्येक दस्तावेज़ में विभिन्न स्वरूपों में ऐसी जानकारी होती है, इसलिए ऐसा करने के लिए कुछ एमएल दृष्टिकोण अपनाने की सिफारिश की जाएगी। बेशक, अगर सभी कार्ड एक ही प्रारूप में हैं, तो कुछ प्रमुख पात्रों के साथ ग्रंथों को पुनः प्राप्त करने के लिए नियम-आधारित तरीके (जैसे, यदि इसमें @ यह एक ईमेल है) भी काम करना चाहिए।

क्या यह ऑफ़लाइन चल सकता है?

लिंक: https://stackoverflow.com/questions/63315520/google-cloud-vision-api-can-it-run-offline

दुर्भाग्यवश नहीं। API Google क्लाउड OCR को दूरस्थ रूप से कॉल करता है, और API ऑफ़लाइन काम नहीं कर सकता क्योंकि पैसा खर्च होता है।

क्या यह पता लगा सकता है कि कोई पाठ बोल्ड या इटैलिक्स में है?

लिंक: https://stackoverflow.com/questions/62947592/does-google-cloud-vision-api-detect-formatting-in-ocred-text-like-bold-italics/63098644#63098644

नहीं, Google OCR टेक्स्ट सामग्री को बोल्ड या इटैलिक में होने पर भी सबसे अधिक संभावना का पता लगाएगा, लेकिन OCR मॉडल को फ़ॉन्ट प्रकारों को समझने के लिए डिज़ाइन नहीं किया गया है।

अपडेट: पाठकों के प्रश्नों के आधार पर अधिक जानकारी जोड़ी गई।

समय टिकट: 20 जून 2022

समय टिकट: जनवरी 26, 2023