रीयल-टाइम हैंडराइटिंग टेक्स्ट रिकग्निशन के लिए कस्टम Amazon SageMaker PyTorch मॉडल बनाएं

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

कई उद्योगों में, वित्तीय सेवाओं, बैंकिंग, स्वास्थ्य सेवा, कानूनी और रियल एस्टेट सहित, दस्तावेज़ प्रबंधन को स्वचालित करना व्यवसाय और ग्राहक सेवा का एक अनिवार्य हिस्सा है। इसके अलावा, सख्त अनुपालन नियम व्यवसायों के लिए संवेदनशील दस्तावेजों, विशेष रूप से ग्राहक डेटा को ठीक से संभालना आवश्यक बनाते हैं। दस्तावेज़ विभिन्न स्वरूपों में आ सकते हैं, जिनमें डिजिटल रूप या स्कैन किए गए दस्तावेज़ (या तो पीडीएफ या चित्र) शामिल हैं, और इसमें टाइप किए गए, हस्तलिखित, या एम्बेडेड फ़ॉर्म और टेबल शामिल हो सकते हैं। इन दस्तावेज़ों से मैन्युअल रूप से डेटा और अंतर्दृष्टि निकालना त्रुटि-प्रवण, महंगा, समय लेने वाला और दस्तावेज़ों की उच्च मात्रा के लिए मापनीय नहीं हो सकता है।

टाइप किए गए वर्णों को पहचानने के लिए ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) तकनीक लगभग वर्षों से है। कई कंपनियां मैन्युअल रूप से स्कैन किए गए दस्तावेज़ों जैसे PDF, छवियों, तालिकाओं और प्रपत्रों से या सरल OCR सॉफ़्टवेयर के माध्यम से डेटा निकालती हैं, जिसके लिए मैन्युअल कॉन्फ़िगरेशन की आवश्यकता होती है, जिसे अक्सर फ़ॉर्म बदलने पर पुन: कॉन्फ़िगरेशन की आवश्यकता होती है।

डिजिटल दस्तावेज़ अक्सर दस्तावेज़ का एक स्कैन या छवि होता है, और इसलिए आप दस्तावेज़ से स्वचालित रूप से पाठ और जानकारी (जैसे तालिकाएँ, चित्र, कैप्शन और की-जोड़ी मान) निकालने के लिए मशीन लर्निंग (ML) मॉडल का उपयोग कर सकते हैं। उदाहरण के लिए, अमेज़न टेक्सट्रेक, एक एपीआई-आधारित एआई-सक्षम सेवा, अंतर्निहित प्रशिक्षित मॉडल के साथ ऐसी क्षमताएं प्रदान करती है, जिनका उपयोग आप किसी एमएल कौशल की आवश्यकता के बिना अनुप्रयोगों में कर सकते हैं। उसी समय, कस्टम एमएल मॉडल छवियों से पाठ निष्कर्षण को स्वचालित करने के लिए कंप्यूटर विज़न (सीवी) तकनीकों का उपयोग करते हैं; यह विशेष रूप से सहायक होता है जब हस्तलिखित पाठ को निकालने की आवश्यकता होती है, जो एक चुनौतीपूर्ण समस्या है। इसे हस्तलिपि पहचान (HWR), या हस्तलिखित पाठ पहचान (HTR) के रूप में भी जाना जाता है। एचटीआर हस्तलिखित सामग्री के साथ दस्तावेज़ बनाने या आधुनिक डेटाबेस में पुराने दस्तावेज़ों और रूपों की सामग्री को संग्रहीत करने के लिए नेतृत्व कर सकता है।

मानक पाठ पहचान के विपरीत, जिसे टाइप की गई सामग्री या सिंथेटिक डेटासेट वाले दस्तावेज़ों पर प्रशिक्षित किया जा सकता है, जो उत्पन्न करने में आसान और प्राप्त करने के लिए सस्ती हैं, HWR कई चुनौतियों के साथ आता है। इन चुनौतियों में लेखन शैलियों में परिवर्तनशीलता, पुराने स्कैन किए गए दस्तावेज़ों की निम्न गुणवत्ता और अच्छी गुणवत्ता वाले लेबल वाले प्रशिक्षण डेटासेट एकत्र करना शामिल है, जो महंगा या कठिन हो सकता है।

इस पोस्ट में, हम कस्टम एमएल मॉडल विकसित करने के लिए प्रक्रियाओं, स्क्रिप्ट और सर्वोत्तम प्रथाओं को साझा करते हैं अमेज़न SageMaker जो पेपर में उल्लिखित अवधारणा के आधार पर डीप लर्निंग (डीएल) तकनीकों को लागू करता है GNHK: वाइल्ड में अंग्रेजी लिखावट के लिए एक डेटासेट हस्तलिखित गद्यांशों की छवियों में पाठ को तार में बदलने के लिए। यदि आपके पास अपना डेटा है, तो आप इस समाधान का उपयोग अपने डेटा को लेबल करने और इसके साथ एक नए मॉडल को प्रशिक्षित करने के लिए कर सकते हैं। समाधान प्रशिक्षित मॉडलों को एंडपॉइंट के रूप में भी तैनात करता है जिसका उपयोग आप वास्तविक दस्तावेजों पर अनुमान लगाने और लिखावट स्क्रिप्ट को टेक्स्ट में बदलने के लिए कर सकते हैं। हम बताते हैं कि आप कैसे उपयोग करके अपने समापन बिंदु के लिए एक सुरक्षित सार्वजनिक प्रवेश द्वार बना सकते हैं अमेज़ॅन एपीआई गेटवे.

.. पूर्वापेक्षाएँ

समाधान को अपने स्वयं के खाते में आज़माने के लिए, सुनिश्चित करें कि आपके पास निम्नलिखित स्थान हैं:

हम जम्पस्टार्ट समाधान का उपयोग करने की अनुशंसा करते हैं, जो समाधान को सफलतापूर्वक चलाने के लिए ठीक से सेट अप और कॉन्फ़िगर किए गए संसाधनों को बनाता है।

आप मॉडलों को प्रशिक्षित करने के लिए अपने स्वयं के डेटा का उपयोग भी कर सकते हैं, इस स्थिति में आपको हस्तलिखित पाठ की छवियों को संग्रहीत करने की आवश्यकता होती है अमेज़न सरल भंडारण सेवा (अमेज़न S3)।

समाधान अवलोकन

अगले अनुभागों में, हम आपको निम्नलिखित आर्किटेक्चर में बताए गए संसाधन बनाने के प्रत्येक चरण के बारे में बताते हैं। हालाँकि, आपके खाते में SageMaker जम्पस्टार्ट के साथ समाधान लॉन्च करने से आपके लिए ये संसाधन अपने आप बन जाते हैं।

इस समाधान को लॉन्च करने से आपके खाते में कई संसाधन बन जाते हैं, जिसमें सात नमूना नोटबुक, कई साथ वाली कस्टम स्क्रिप्ट शामिल हैं जिनका उपयोग हम प्रशिक्षण मॉडल और अनुमान में करते हैं, और दो पूर्व-निर्मित डेमो समापन बिंदु जिनका उपयोग आप वास्तविक समय के अनुमान के लिए कर सकते हैं यदि आप नहीं चाहते हैं एंड-टू-एंड प्रशिक्षण और होस्टिंग करने के लिए। नोटबुक इस प्रकार हैं:

डेमो नोटबुक - आपको दिखाता है कि रीयल-टाइम हस्तलिखित पाठ पहचान के लिए डेमो एंडपॉइंट का उपयोग कैसे करें
परिचय - वास्तुकला और समाधान के विभिन्न चरणों की व्याख्या करता है
अपने स्वयं के डेटा को लेबल करना - आपको दिखाता है कि कैसे उपयोग करना है अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ अपने स्वयं के डेटासेट को लेबल करने के लिए
डेटा विज़ुअलाइज़ेशन - डेटा लेबलिंग के परिणामों की कल्पना करता है
मॉडल प्रशिक्षण - GNHK डेटा के साथ कस्टम PyTorch मॉडल को प्रशिक्षित करता है
अपने स्वयं के डेटा के साथ मॉडल प्रशिक्षण - आपको प्रशिक्षण मॉडल के लिए अपने स्वयं के लेबल किए गए डेटा का उपयोग करने की अनुमति देता है
endpoints - कस्टम प्रशिक्षित मॉडल के साथ सेजमेकर एंडपॉइंट बनाता है

GNHK डेटा अवलोकन

यह समाधान का उपयोग करता है गुडनोट्स हस्तलेखन संग्रह (जीएनएचके) द्वारा जारी डाटासेट Goodnotes के अंतर्गत सीसी-बाय-4.0 लाइसेंस. यह डेटासेट शीर्षक वाले पेपर में प्रस्तुत किया गया है GNHK: वाइल्ड में अंग्रेजी लिखावट के लिए एक डेटासेट पर दस्तावेज़ विश्लेषण और मान्यता का अंतर्राष्ट्रीय सम्मेलन (आईसीडीएआर) 2021 में, निम्नलिखित उद्धरण के साथ:

@inproceedings{Lee2021, author={Lee, Alex W. C. and Chung, Jonathan and Lee, Marco}, booktitle={International Conference of Document Analysis and Recognition (ICDAR)}, title={GNHK: A Dataset for English Handwriting in the Wild}, year={2021},
}

जीएनएचके डेटासेट में अंग्रेजी हस्तलिखित पाठ की छवियां शामिल हैं ताकि एमएल चिकित्सकों और शोधकर्ताओं को नई हस्तलिखित पाठ पहचान तकनीकों की जांच करने की अनुमति मिल सके। आप के लिए डेटा डाउनलोड कर सकते हैं SageMaker प्रशिक्षण और परीक्षण प्रकट प्रारूप में, जिसमें प्रत्येक बाउंडिंग बॉक्स के लिए चित्र, बाउंडिंग बॉक्स निर्देशांक और टेक्स्ट स्ट्रिंग शामिल हैं। निम्नलिखित आंकड़ा एक छवि दिखाता है जो प्रशिक्षण डेटासेट का हिस्सा है।

अपने स्वयं के लेबल किए गए डेटासेट का उपयोग करें

यदि आप प्रशिक्षण के लिए GNHK डेटासेट का उपयोग नहीं करना चाहते हैं, तो आप मॉडल को अपने डेटा से प्रशिक्षित कर सकते हैं। यदि आपका डेटा बाउंडिंग बॉक्स निर्देशांक के साथ लेबल किया गया है, तो आप निम्न प्रारूप के साथ एक कस्टम मेनिफेस्ट प्रशिक्षण फ़ाइल बना सकते हैं और मॉडल को प्रशिक्षित करने के लिए आसानी से इसका उपयोग कर सकते हैं। इस मेनिफेस्ट फ़ाइल स्वरूप में, प्रत्येक पंक्ति एक JSON है जिसमें निम्न सामग्री शामिल है:

{'source-ref': 'FILE_NAME.jpg', 'annotations': {'texts': [{'text': 'FIRST_BOUNDING_BOX_CONTENT_TEXT', 'polygon': [{'x': 178, 'y': 253}, {'x': 172, 'y': 350}, {'x': 627, 'y': 313}, {'x': 615, 'y': 421}]}, {'text': 'SECOND_BOUNDING_BOX_CONTENT_TEXT', 'polygon': [{'x': 713, 'y': 307}, {'x': 990, 'y': 322}, {'x': 710, 'y': 404}, {'x': 950, 'y': 413}]},
...

ग्राउंड ट्रूथ का उपयोग करके अपने कच्चे डेटा को लेबल करें

अगर आपके पास लेबल किया गया प्रशिक्षण डेटासेट नहीं है, तो आप अपने डेटा को लेबल करने के लिए अपने निजी कर्मचारियों या बाहरी संसाधनों जैसे कि ग्राउंड ट्रूथ का उपयोग कर सकते हैं अमेज़ॅन मैकेनिकल तुर्क. ग्राउंड ट्रूथ पूरी तरह से प्रबंधित डेटा लेबलिंग सेवा है जो एमएल के लिए अत्यधिक सटीक प्रशिक्षण डेटासेट बनाना आसान बनाती है। ग्राउंड ट्रूथ बिल्ट-इन वर्कफ्लो प्रदान करता है जो टेक्स्ट, इमेज और वीडियो सहित विभिन्न प्रकार के उपयोग के मामलों का समर्थन करता है। इसके अलावा, ग्राउंड ट्रूथ स्वचालित डेटा लेबलिंग प्रदान करता है, जो आपके डेटा को लेबल करने के लिए एमएल मॉडल का उपयोग करता है। निम्नलिखित आंकड़ा दर्शाता है कि जमीनी सच्चाई कैसे काम करती है।

आपके खाते में लॉन्च किया गया जम्पस्टार्ट समाधान एक नमूना नोटबुक बनाता है (label_own_data.ipynb) जो आपको अपने निजी कार्यबल का उपयोग करके अपने डेटा को लेबल करने के लिए ग्राउंड ट्रूथ लेबलिंग जॉब बनाने की अनुमति देता है। छवियों के साथ-साथ प्रशिक्षण और ट्यूटोरियल संसाधनों के लिए लेबलिंग कार्य कैसे सेट अप करें, इसके विवरण के लिए, देखें सेजमेकर ग्राउंड ट्रूथ डेटा लेबलिंग संसाधन.

जब डेटा लेबलिंग पूर्ण हो जाए, तो आप साथ में उपयोग कर सकते हैं data_visualization.ipynb डेटा लेबलिंग के परिणामों की कल्पना करने के लिए नोटबुक।

शब्द विभाजन और लिखावट पाठ पहचान मॉडल को प्रशिक्षित करें

अब जब लेबल किया गया डेटा तैयार हो गया है, तो आप उसका उपयोग उस मॉडल को प्रशिक्षित करने के लिए कर सकते हैं जो हस्तलिखित अंशों को पहचान सकता है और पाठ स्ट्रिंग समकक्षों को वापस कर सकता है। इस खंड में, हम आपको इस प्रक्रिया के बारे में बताते हैं और मॉडलों के निर्माण और प्रशिक्षण के प्रत्येक चरण की व्याख्या करते हैं। हम उपयोग करते हैं पायटॉर्च ऑब्जेक्ट डिटेक्शन और टेक्स्ट रिकग्निशन के लिए अत्याधुनिक ढांचे का लाभ उठाने के लिए। आप अन्य गहन शिक्षण ढाँचों का उपयोग करके भी समान दृष्टिकोण विकसित कर सकते हैं, जैसे कि TensorFlow or एमएक्सनेट. SageMaker पूर्व-निर्मित डॉकर छवियां प्रदान करता है जिसमें प्रशिक्षण और अनुमान के लिए आवश्यक गहन शिक्षण ढाँचा पुस्तकालय और अन्य निर्भरताएँ शामिल हैं। पूर्व-निर्मित डॉकर छवियों की पूरी सूची के लिए, देखें उपलब्ध डीप लर्निंग कंटेनर इमेज.

ट्रेन और परीक्षण डेटासेट

इससे पहले कि हम मॉडल प्रशिक्षण शुरू करें, हमारे पास प्रशिक्षित मॉडल के प्रदर्शन को मान्य करने के लिए एक प्रशिक्षण डेटासेट और एक परीक्षण (या सत्यापन) डेटासेट होना चाहिए। GNHK डेटासेट पहले से ही दो अलग-अलग डेटासेट प्रदान करता है सैजमेकर मेनिफेस्ट प्रारूप में प्रशिक्षण और परीक्षण, और यह समाधान इन डेटासेट का उपयोग करता है। यदि आप अपने स्वयं के लेबल किए गए डेटासेट का उपयोग करना चाहते हैं, तो सबसे आसान तरीका लेबल की गई डेटा मैनिफ़ेस्ट फ़ाइल को ट्रेन और टेस्ट सेट में विभाजित करना है (उदाहरण के लिए, 80% प्रशिक्षण और 20% परीक्षण)।

SageMaker Amazon S3 से प्रशिक्षण और परीक्षण डेटासेट पढ़ता है। डेटा को विभाजित करने के बाद, आपको मेनिफेस्ट फ़ाइलों और संबंधित छवियों को Amazon S3 में संग्रहीत करने की आवश्यकता है, और फिर प्रशिक्षण स्क्रिप्ट में URI लिंक का उपयोग करें, जैसा कि निम्नलिखित अनुभागों में बताया गया है।

शब्द विभाजन मॉडल को प्रशिक्षित करें

हस्तलिखित पाठ की छवियों पर अनुमान लगाने के लिए जिसमें कई पंक्तियाँ और कई शब्दों की प्रत्येक पंक्ति होती है, हमें दो मॉडल बनाने की आवश्यकता होती है। पहला मॉडल बाउंडिंग बॉक्स भविष्यवाणी (या स्थानीयकरण) का उपयोग करके छवि को एकल शब्दों में विभाजित करता है; दूसरा मॉडल प्रत्येक खंड पर अलग से एक पाठ पहचान चलाता है। प्रत्येक मॉडल को रीयल-टाइम अनुमान के लिए एक SageMaker अनुमान समापन बिंदु पर होस्ट किया जाता है। दोनों मॉडल उपयोग करते हैं संस्करण 1.6.0 के लिए PyTorch फ्रेमवर्क कंटेनर. PyTorch के साथ प्रशिक्षण और तैनाती मॉडल के बारे में अधिक जानकारी के लिए, प्रशिक्षण और अनुमान स्क्रिप्ट के लिए आवश्यकताओं सहित, देखें सेजमेकर पायथन एसडीके के साथ PyTorch का उपयोग करें. प्रशिक्षण उद्देश्यों के लिए, हम इसका उपयोग करते हैं SageMaker PyTorch अनुमानक वर्ग। अधिक जानकारी के लिए, देखें एक अनुमानक बनाएँ. प्रशिक्षण के लिए, आपको चाहिए कस्टम प्रशिक्षण स्क्रिप्ट प्रवेश बिंदु के रूप में। इस जम्पस्टार्ट समाधान को आपके खाते में लॉन्च करते समय, SageMaker स्वचालित रूप से आपकी फ़ाइलों के साथ सभी संबंधित कस्टम प्रशिक्षण और अनुमान कोड जोड़ता है। स्थानीयकरण मॉडल के लिए, हम कस्टम का उपयोग करते हैं 1_train_localisation.py के तहत कोड src_localisation फ़ोल्डर। अनुमानक प्रशिक्षण उद्देश्यों के लिए एक जीपीयू-आधारित उदाहरण का उपयोग करता है।

निम्नलिखित कोड स्निपेट में, हम मॉडल प्रदर्शन मेट्रिक्स को परिभाषित करते हैं और कोड रिपॉजिटरी में प्रशिक्षण स्क्रिप्ट निर्देशिका के लिए प्रवेश बिंदु के साथ एक PyTorch अनुमानक वर्ग बनाते हैं। अंत में, हम कॉल करके प्रशिक्षण शुरू करते हैं .fit परीक्षण डेटासेट पर प्रशिक्षण डेटासेट और सत्यापन के साथ अनुमानक पर विधि।

# Define model performance metrics
metric_definitions=[ { "Name": "iter", "Regex": ".*iter:s([0-9\.]+)s*" }, { "Name": "total_loss", "Regex": ".*total_loss:s([0-9\.]+)s*" }
] # Define PyTorch estimator class, and then call .fit method to launch training from sagemaker.pytorch import PyTorch session = sagemaker.session.Session()
role = sagemaker_config["SageMakerIamRole"] localization_estimator = PyTorch(entry_point='1_train_localisation.py', source_dir='src_localisation', dependencies=['utils', 'configs'], role=role, train_instance_type=["SageMakerTrainingInstanceType"], train_instance_count=1, output_path=output_path_s3_url, framework_version='1.6.0', py_version='py3', metric_definitions=metric_definitions, base_job_name='htr-word-segmentation', sagemaker_session=session ) localization_estimator.fit({"train": train_dataset_s3_uri, "test": test_dataset_s3_uri}, wait=False)

लिखावट पाठ पहचान मॉडल को प्रशिक्षित करें

शब्द खंड पिछले मॉडल द्वारा निर्धारित किए जाने के बाद, अनुमान पाइपलाइन का अगला भाग प्रत्येक खंड पर लिखावट पहचान अनुमान चलाना है। प्रक्रिया समान है, लेकिन इस बार हम एक अलग कस्टम प्रशिक्षण स्क्रिप्ट का उपयोग करते हैं 2_train_recogniser.py स्क्रिप्ट के तहत src_recognition अनुमानक के लिए प्रवेश बिंदु के रूप में, और एक नए मॉडल को प्रशिक्षित करें। पिछले मॉडल की तरह, यह मॉडल भी ट्रेन डेटासेट पर मॉडल को प्रशिक्षित करता है और टेस्ट डेटासेट पर इसके प्रदर्शन का मूल्यांकन करता है। यदि आप अपने खाते में जम्पस्टार्ट समाधान लॉन्च करते हैं, तो SageMaker स्वचालित रूप से इन स्रोत कोडों को आपके स्टूडियो डोमेन में आपकी फ़ाइलों में जोड़ देता है।

# Define model performance metrics
metric_definitions = [ {'Name': 'Iteration', 'Regex': 'Iteration ([-+]?[0-9]*[.]?[0-9]+([eE][-+]?[0-9]+)?)'}, {'Name': 'train_loss', 'Regex': 'Train loss ([-+]?[0-9]*[.]?[0-9]+([eE][-+]?[0-9]+)?)'}, {'Name': 'test_loss', 'Regex': 'Test loss ([-+]?[0-9]*[.]?[0-9]+([eE][-+]?[0-9]+)?)'}
] # Define PyTorch estimator class, and then call .fit method to launch training recognition_estimator = PyTorch(entry_point='2_train_recogniser.py', source_dir='src_recognition', dependencies=['utils', 'configs'], role=role, instance_type=["SageMakerTrainingInstanceType"], instance_count=1, output_path=output_path_s3_url, framework_version='1.6.0', py_version='py3', metric_definitions=metric_definitions, base_job_name='htr-text-recognition', sagemaker_session=session ) recognition_estimator.fit({"train": train_dataset_s3_uri, "test": test_dataset_s3_uri}, wait=False)

अगले हम अनुमानकों को प्रशिक्षण कार्यों से जोड़ें, और मॉडलों की तैनाती के साथ आगे बढ़ने से पहले प्रशिक्षण पूरा होने तक प्रतीक्षा करें। संलग्न करने का उद्देश्य यह है कि यदि प्रशिक्षण कार्य की स्थिति पूरी हो गई है, तो इसे SageMaker समापन बिंदु बनाने और भविष्यवक्ता को वापस करने के लिए तैनात किया जा सकता है, लेकिन यदि प्रशिक्षण कार्य प्रगति पर है, तो ब्लॉक संलग्न करें और प्रशिक्षण कार्य से लॉग संदेश प्रदर्शित करें , जब तक प्रशिक्षण कार्य पूरा नहीं हो जाता। प्रत्येक प्रशिक्षण कार्य को पूरा होने में लगभग 1 घंटा लग सकता है।

localisation_estimator = PyTorch.attach(training_job_name=localisation_estimator.latest_training_job.name, sagemaker_session=session)
recognition_estimator = PyTorch.attach(training_job_name=recognition_estimator.latest_training_job.name, sagemaker_session=session)

जब दोनों मॉडल प्रशिक्षण पूर्ण हो जाते हैं, तो आप अगले चरण पर जा सकते हैं, जो हमारे द्वारा अभी-अभी प्रशिक्षित किए गए दो मॉडलों का उपयोग करके छवियों पर वास्तविक समय के अनुमान के लिए एक समापन बिंदु बना रहा है।

रीयल-टाइम अनुमान के लिए सेजमेकर एंडपॉइंट बनाएं

इस समाधान के निर्माण में अगला कदम प्रशिक्षित मॉडलों के साथ समापन बिंदु बनाना है जिसका उपयोग हम हस्तलिखित पाठ पर वास्तविक समय के अनुमान के लिए कर सकते हैं। हम आपको मॉडल कलाकृतियों को डाउनलोड करने, मॉडल कंटेनर बनाने, कंटेनरों को परिनियोजित करने और अंत में डेमो छवि या आपकी अपनी छवि पर रीयल-टाइम अनुमान लगाने के लिए तैनात मॉडल का उपयोग करने के चरणों के बारे में बताते हैं।

पहले हमें Amazon S3 से प्रशिक्षित मॉडल कलाकृतियों को पार्स करने की आवश्यकता है। प्रत्येक प्रशिक्षण कार्य के बाद, सैजमेकर प्रशिक्षित मॉडल को टार बॉल के रूप में संग्रहीत करता है (.tar.gz) Amazon S3 पर जिसे आप SageMaker के अंदर या बाहर उपयोग करने के लिए डाउनलोड कर सकते हैं। इस उद्देश्य के लिए, निम्न कोड स्निपेट तीन उपयोगिता कार्यों का उपयोग करता है (get_latest_training_job, get_model_data, तथा parse_model_data) वहाँ से sm_utils जब आप अपने खाते में जम्पस्टार्ट समाधान लॉन्च करते हैं तो फ़ोल्डर स्टूडियो में आपकी फाइलों में स्वचालित रूप से जुड़ जाता है। स्क्रिप्ट दिखाती है कि PyTorch शब्द विभाजन (या स्थानीयकरण) मॉडल डेटा को कैसे डाउनलोड करें, इसे एक टार बॉल में संपीड़ित करें, और बाद में मॉडल बनाने के लिए इसे Amazon S3 पर कॉपी करें। आप पाठ पहचान मॉडल के लिए इस प्रक्रिया को दोहरा सकते हैं।

from utils.sm_utils import get_latest_training_job, get_model_data, parse_model_data # Download word segmentation model, rename it for packaging
os.mkdir("model_word_seg") word_seg_training_job = get_latest_training_job('htr-word-segmentation')
word_seg_s3 = get_model_data(word_seg_training_job)
parse_model_data(word_seg_s3, "model_word_seg") os.rename("model_word_seg/mask_rcnn/model_final.pth", "model_word_seg/mask_rcnn/model.pth") # Repackage the model and copy to S3 for building the model later
!tar -czvf model.tar.gz --directory=model_word_seg/mask_rcnn/ model.pth
!aws s3 cp model.tar.gz s3://<YOUR-S3-BUCKET>/custom_data/artifacts/word-seg/model.tar.gz

अब जबकि हमारे पास प्रशिक्षित मॉडल फाइलें हैं, SageMaker में एक मॉडल कंटेनर बनाना आसान है। क्योंकि हमने मॉडल को PyTorch अनुमानक वर्ग के साथ प्रशिक्षित किया है, हम PyTorch मॉडल वर्ग का उपयोग एक मॉडल कंटेनर बनाने के लिए कर सकते हैं जो एक कस्टम अनुमान स्क्रिप्ट का उपयोग करता है। देखना PyTorch मॉडल तैनात करें अधिक जानकारी के लिए। मॉडल बनाने के बाद, हम वास्तविक समय के अनुमान के लिए एक समापन बिंदु के रूप में मॉडल को तैनात करके एक भविष्यवक्ता बना सकते हैं। आप अपने समापन बिंदु के लिए उदाहरणों की संख्या बदल सकते हैं या से एक अलग त्वरित कंप्यूटिंग (जीपीयू) उदाहरण का चयन कर सकते हैं रीयल-टाइम अनुमान के लिए उपलब्ध उदाहरणों की सूची. PyTorch मॉडल वर्ग का उपयोग करता है inference.py जब आप अपने स्टूडियो डोमेन में जम्पस्टार्ट समाधान लॉन्च करते हैं तो प्रत्येक मॉडल के लिए स्क्रिप्ट जो आपकी फाइलों में जोड़ी जाती है। निम्नलिखित कोड में, हम शब्द विभाजन मॉडल बनाते हैं। पाठ पहचान मॉडल बनाने के लिए आप उसी दृष्टिकोण का अनुसरण कर सकते हैं।

from sagemaker.pytorch import PyTorchModel # Create word segmentation model
seg_model = PyTorchModel(model_data='s3://<YOUR-S3-BUCKET>/custom_data/artifacts/word-seg/model.tar.gz', role=role, source_dir="src_localisation", entry_point="inference.py", framework_version="1.6.0", name=model_name, py_version="py3" )

अब हम कॉल करके एंडपॉइंट बना सकते हैं .deploy मोड पर विधि और एक भविष्यवक्ता बनाना। फिर हम धारावाहिक और deserializer को समापन बिंदु से जोड़ते हैं। पाठ पहचान के लिए आप दूसरे मोड के लिए उसी दृष्टिकोण का पालन कर सकते हैं।

# Deploy word segmentation model to an endpoint
localisation_predictor = seg_model.deploy(instance_type=sagemaker_config["SageMakerInferenceInstanceType"], endpoint_name='word_segmentation_endpoint', initial_instance_count=1, deserializer= sagemaker.deserializers.JSONDeserializer(), serializer=sagemaker.serializers.JSONSerializer(), wait=False)

समापन बिंदु निर्माण को पूरा होने में लगभग 6–7 मिनट लगने चाहिए। निम्न कोड एंडपॉइंट निर्माण के लिए वेटर बनाता है और जब वे पूर्ण हो जाते हैं तो दिखाता है।

client = boto3.client('sagemaker')
waiter = client.get_waiter('endpoint_in_service')
waiter.wait(EndpointName='word_segmentation_endpoint')

जब मॉडल परिनियोजन पूरा हो जाता है, तो आप प्रत्येक शब्द के लिए बाउंडिंग बॉक्स और उनके निर्देशांक प्राप्त करने के लिए पहले समापन बिंदु पर हस्तलिखित पैसेज की एक छवि भेज सकते हैं। फिर प्रत्येक बाउंडिंग बॉक्स को क्रॉप करने के लिए उन निर्देशांक का उपयोग करें और उन्हें अलग-अलग दूसरे एंडपॉइंट पर भेजें और प्रत्येक बाउंडिंग बॉक्स के लिए मान्यता प्राप्त टेक्स्ट स्ट्रिंग प्राप्त करें। फिर आप दो एंडपॉइंट्स के आउटपुट ले सकते हैं और बाउंडिंग बॉक्स और रॉ इमेज पर टेक्स्ट को ओवरले कर सकते हैं, या अपनी डाउनस्ट्रीम प्रक्रियाओं में आउटपुट का उपयोग कर सकते हैं।

निम्नलिखित आरेख समग्र प्रक्रिया वर्कफ़्लो को दिखाता है।

एक्सटेंशन

अब जब आपके पास काम करने वाले एंडपॉइंट हैं जो रीयल-टाइम अनुमान लगा रहे हैं, तो आप उन्हें अपने एप्लिकेशन या वेबसाइट के लिए उपयोग कर सकते हैं। हालाँकि, आपके SageMaker समापन बिंदु अभी भी सार्वजनिक नहीं हैं; आपको अपने SageMaker समापन बिंदुओं पर बाहरी ट्रैफ़िक की अनुमति देने के लिए API गेटवे बनाने की आवश्यकता है। एपीआई गेटवे पूरी तरह से प्रबंधित सेवा है जो डेवलपर्स के लिए किसी भी पैमाने पर एपीआई बनाना, प्रकाशित करना, बनाए रखना, निगरानी करना और सुरक्षित करना आसान बनाती है। आप SageMaker एंडपॉइंट्स के लिए बाहरी-सामना करने वाले, प्रवेश के एकल बिंदु को प्रस्तुत करने के लिए API गेटवे का उपयोग कर सकते हैं, और इसके द्वारा प्रदान की गई सुरक्षा, थ्रॉटलिंग, प्रमाणीकरण, फ़ायरवॉल प्रदान कर सकते हैं। एडब्ल्यूएस WAF, और भी बहुत कुछ। एपीआई गेटवे मैपिंग टेम्प्लेट के साथ, आप REST API अनुरोध के साथ अपने SageMaker समापन बिंदु को आमंत्रित कर सकते हैं और वापस API प्रतिक्रिया प्राप्त कर सकते हैं। मैपिंग टेम्प्लेट आपको किसी भी मध्यवर्ती की आवश्यकता के बिना अपने एपीआई गेटवे को सीधे सेजमेकर एंडपॉइंट्स के साथ एकीकृत करने में सक्षम बनाता है AWS लाम्बा कार्य, आपके ऑनलाइन एप्लिकेशन को तेज़ और सस्ता बनाता है। एक एपीआई गेटवे बनाने के लिए और अपने सैजमेकर एंडपॉइंट्स के साथ रीयल-टाइम अनुमान लगाने के लिए इसका उपयोग करें (जैसा कि निम्नलिखित आर्किटेक्चर में है), देखें अमेज़ॅन एपीआई गेटवे मैपिंग टेम्प्लेट और अमेज़ॅन सैजमेकर के साथ मशीन सीखने-संचालित रीस्ट एपीआई बनाना.

निष्कर्ष

इस पोस्ट में, हमने SageMaker कस्टम मॉडल का उपयोग करके हस्तलिखित पाठ को पहचानने के लिए संपूर्ण समाधान की व्याख्या की। समाधान में ग्राउंड ट्रूथ का उपयोग करके प्रशिक्षण डेटा को लेबल करना, PyTorch अनुमानक कक्षाओं और कस्टम स्क्रिप्ट के साथ प्रशिक्षण डेटा, और रीयल-टाइम अनुमान के लिए SageMaker समापन बिंदु बनाना शामिल है। हमने यह भी बताया कि आप एक सार्वजनिक एपीआई गेटवे कैसे बना सकते हैं जिसका उपयोग आपके मोबाइल एप्लिकेशन या वेबसाइट के साथ सुरक्षित रूप से किया जा सकता है।

अधिक सेजमेकर उदाहरणों के लिए, पर जाएँ गिटहब भंडार. इसके अलावा, आप और खोज सकते हैं PyTorch अपनी-अपनी स्क्रिप्ट उदाहरण लाता है.

MXNet, TensorFlow और PyTorch के लिए और अधिक SageMaker Python उदाहरणों के लिए देखें अमेज़ॅन सेजमेकर प्री-बिल्ट फ्रेमवर्क कंटेनर और पायथन एसडीके.

जमीनी सच्चाई के और उदाहरणों के लिए, देखें ग्राउंड ट्रूथ लेबलिंग जॉब्स का परिचय. SageMaker के बारे में अतिरिक्त जानकारी इसमें पाई जा सकती है तकनीकी दस्तावेज।

लेखक के बारे में

जोनाथन चुंग हेलो हेल्थ टेक में एप्लाइड साइंटिस्ट हैं। वह समय श्रृंखला और बॉयोमीट्रिक्स डेटा के लिए शास्त्रीय सिग्नल प्रोसेसिंग और गहन शिक्षण तकनीकों को लागू करने पर काम करता है। पहले वह AWS में एप्लाइड साइंटिस्ट थे। उन्हें दुनिया भर के ऐतिहासिक शहरों में खाना पकाने और घूमने में मजा आता है।

डॉ निक मिनई, अमेज़ॅन में डेटा साइंस और बिजनेस इंटेलिजेंस के प्रबंधक हैं, जो अमेज़ॅन के समय और उपस्थिति टीम के लिए अभिनव मशीन लर्निंग उत्पाद विकास का नेतृत्व करते हैं। इससे पहले, उन्होंने AWS में एक वरिष्ठ AI/ML समाधान वास्तुकार के रूप में कार्य किया, जिससे ग्राहकों को बड़े पैमाने पर अच्छी तरह से तैयार किए गए मशीन लर्निंग समाधानों की यात्रा में मदद मिली। अपने खाली समय में, निक पारिवारिक समय, अमूर्त पेंटिंग और प्रकृति की खोज का आनंद लेते हैं।

डॉ. ली झांग अमेज़ॅन सेजमेकर जम्पस्टार्ट और अमेज़ॅन सेजमेकर बिल्ट-इन एल्गोरिदम के लिए एक प्रमुख उत्पाद प्रबंधक-तकनीकी है, एक ऐसी सेवा जो डेटा वैज्ञानिकों और मशीन सीखने वाले चिकित्सकों को अपने मॉडल को प्रशिक्षण और तैनात करने में मदद करती है, और अमेज़ॅन सेजमेकर के साथ सुदृढीकरण सीखने का उपयोग करती है। आईबीएम रिसर्च में एक प्रमुख शोध स्टाफ सदस्य और मास्टर आविष्कारक के रूप में उनके पिछले काम ने आईईईई इंफोकॉम में टाइम पेपर पुरस्कार की परीक्षा जीती है।

शेनघुआ यू Amazon SageMaker में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह ग्राहकों के लिए मशीन लर्निंग टूल और उत्पाद बनाने पर ध्यान केंद्रित करती हैं। काम के बाहर, वह बाहर, योग और लंबी पैदल यात्रा का आनंद लेती है।

स्रोत: https://aws.amazon.com/blogs/machine-learning/build-custom-amazon-sagemaker-pytorch-models-for-real-time-handwriting-text-recognition/

समय टिकट: दिसम्बर 16/2021

अमेज़ॅन के लिए सक्रिय शिक्षण वर्कफ़्लो कस्टम वर्गीकरण मॉडल - भाग 1

अमेज़ॅन सेजमेकर पर अमेज़ॅन टेक्स्टट्रैक्ट और ट्रांसफॉर्मर-आधारित मॉडल के साथ विविध दस्तावेज़ों में संरचना लाएं

अमेज़ॅन सैजमेकर डीबगर का उपयोग करके वास्तविक समय में ओपन-सोर्स एमएल पाइपलाइन मॉडल का विश्लेषण करना

अमेज़ॅन फ्रॉड डिटेक्टर का उपयोग करके वास्तविक समय धोखाधड़ी रोकथाम प्रणाली बनाएं और कल्पना करें

अमेज़ॅन के साथ स्ट्रीमिंग ट्रांसक्रिप्शन अनुभव में सुधार करें आंशिक परिणाम स्थिरीकरण लिखें

वाशिंगटन पोस्ट ने अमेज़न पोली द्वारा प्रस्तुत ऑडियो लेख लॉन्च किए

पेश है अमेजन के पूर्वानुमान में अनुपयोगी संसाधनों को आसानी से साफ करने के लिए पदानुक्रमित विलोपन

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा