5 Reasons Why You Need Synthetic Data

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

5 कारण आपको सिंथेटिक डेटा की आवश्यकता क्यों है
से उत्पन्न सिंथेटिक डेटा कुब्रिक

मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए, आपको डेटा की आवश्यकता होती है। डेटा विज्ञान कार्य आम तौर पर कागल प्रतियोगिता नहीं होते हैं जहां आपके पास एक अच्छा बड़ा क्यूरेटेड डेटासेट होता है जो पहले से लेबल किया हुआ आता है। कभी-कभी आपको अपना डेटा स्वयं एकत्र करना, व्यवस्थित करना और साफ़ करना पड़ता है। वास्तविक दुनिया में डेटा एकत्र करने और लेबल करने की यह प्रक्रिया समय लेने वाली, बोझिल, महंगी, गलत और कभी-कभी खतरनाक हो सकती है। इसके अलावा, इस प्रक्रिया के अंत में, आप उस डेटा के साथ समाप्त हो सकते हैं जिसका आपने वास्तविक दुनिया में सामना किया था, जरूरी नहीं कि वह वह डेटा हो जो आप गुणवत्ता, विविधता (उदाहरण के लिए, वर्ग असंतुलन) और मात्रा के संदर्भ में चाहते हैं। वास्तविक डेटा के साथ काम करते समय आपके सामने आने वाली सामान्य समस्याएं नीचे दी गई हैं:

वास्तविक डेटा संग्रह और लेबलिंग स्केलेबल नहीं हैं
वास्तविक डेटा को मैन्युअल रूप से लेबल करना कभी-कभी असंभव हो सकता है
वास्तविक डेटा में गोपनीयता और सुरक्षा के मुद्दे हैं
वास्तविक डेटा प्रोग्राम करने योग्य नहीं है
वास्तविक डेटा पर विशेष रूप से प्रशिक्षित एक मॉडल पर्याप्त प्रदर्शन करने वाला नहीं है (उदाहरण के लिए, धीमी विकास गति)

सौभाग्य से, इस तरह की समस्याओं को सिंथेटिक डेटा से हल किया जा सकता है। आप सोच रहे होंगे, सिंथेटिक डेटा क्या है? सिंथेटिक डेटा को कृत्रिम रूप से उत्पन्न डेटा के रूप में परिभाषित किया जा सकता है जो आम तौर पर एल्गोरिदम का उपयोग करके बनाया जाता है जो वास्तविक दुनिया की प्रक्रियाओं का अनुकरण करता है, अन्य सड़क उपयोगकर्ताओं के व्यवहार से लेकर प्रकाश के व्यवहार तक जब यह सतहों के साथ बातचीत करता है। यह पोस्ट वास्तविक दुनिया के डेटा की सीमाओं के बारे में बताती है, और कैसे सिंथेटिक डेटा इन समस्याओं को दूर करने और मॉडल के प्रदर्शन को बेहतर बनाने में मदद कर सकता है।

छोटे डेटासेट के लिए, आमतौर पर डेटा एकत्र करना और मैन्युअल रूप से लेबल करना संभव है; हालाँकि, कई जटिल मशीन लर्निंग कार्यों के लिए प्रशिक्षण के लिए बड़े पैमाने पर डेटासेट की आवश्यकता होती है। उदाहरण के लिए, स्वायत्त वाहन अनुप्रयोगों के लिए प्रशिक्षित मॉडलों को कारों या ड्रोन से जुड़े सेंसर से बड़ी मात्रा में डेटा एकत्र करने की आवश्यकता होती है। यह डेटा संग्रह प्रक्रिया धीमी है और इसमें महीनों या साल भी लग सकते हैं। एक बार कच्चा डेटा एकत्र हो जाने के बाद, इसे मानव द्वारा मैन्युअल रूप से एनोटेट किया जाना चाहिए, जो महंगा और समय लेने वाला भी है। इसके अलावा, इस बात की कोई गारंटी नहीं है कि वापस आने वाला लेबल डेटा प्रशिक्षण डेटा के रूप में फायदेमंद होगा, क्योंकि इसमें ऐसे उदाहरण शामिल नहीं हो सकते हैं जो मॉडल के ज्ञान में मौजूदा अंतराल को सूचित करते हैं।

[एम्बेडेड सामग्री] [एम्बेडेड सामग्री]

इस डेटा को लेबल करने में अक्सर मानव द्वारा सेंसर डेटा के शीर्ष पर हाथ से लेबल बनाना शामिल होता है। यह बहुत महंगा है क्योंकि उच्च भुगतान वाली एमएल टीमें अक्सर अपने समय का एक बड़ा हिस्सा यह सुनिश्चित करने में खर्च करती हैं कि लेबल सही हैं और गलतियाँ लेबलर्स को वापस भेजती हैं। सिंथेटिक डेटा की एक बड़ी ताकत यह है कि आप जितना चाहें उतना सटीक लेबल वाला डेटा उत्पन्न कर सकते हैं। आपको बस गुणवत्तापूर्ण सिंथेटिक डेटा उत्पन्न करने का एक तरीका चाहिए।

सिंथेटिक डेटा उत्पन्न करने के लिए ओपन सोर्स सॉफ़्टवेयर: कुब्रिक (सेगमेंटेशन मास्क, डेप्थ मैप और ऑप्टिकल फ्लो के साथ मल्टी-ऑब्जेक्ट वीडियो) और SDV (सारणीबद्ध, संबंधपरक और समय श्रृंखला डेटा)।

कुछ (कई में से) कंपनियाँ जो उत्पाद बेचती हैं या ऐसे प्लेटफ़ॉर्म बनाती हैं जो सिंथेटिक डेटा उत्पन्न कर सकती हैं, उनमें शामिल हैं ग्रेटेल.एआई (सिंथेटिक डेटा सेट जो वास्तविक डेटा की गोपनीयता सुनिश्चित करते हैं), NVIDIA (सर्वव्यापी), और समानांतर डोमेन (स्वायत्त वाहन)। अधिक जानकारी के लिए, सिंथेटिक डेटा कंपनियों की 2022 सूची देखें.

5 कारण आपको सिंथेटिक डेटा की आवश्यकता क्यों है
से छवि समानांतर डोमेन

कुछ ऐसे डेटा हैं जिनकी मनुष्य पूरी तरह से व्याख्या और लेबल नहीं कर सकते हैं। नीचे कुछ उपयोग के मामले दिए गए हैं जहां सिंथेटिक डेटा ही एकमात्र विकल्प है:

गहराई का सटीक अनुमान और ऑप्टिकल प्रवाह एकल छवियों से
स्व-ड्राइविंग एप्लिकेशन जो रडार डेटा का उपयोग करते हैं जो मानव आंखों को दिखाई नहीं देता है
डीप फेक तैयार करना जिसका उपयोग चेहरा पहचान प्रणालियों का परीक्षण करने के लिए किया जा सकता है

5 कारण आपको सिंथेटिक डेटा की आवश्यकता क्यों है
छवि द्वारा माइकल गैलारिक

सिंथेटिक डेटा उन डोमेन में अनुप्रयोगों के लिए अत्यधिक उपयोगी है जहां आप आसानी से वास्तविक डेटा प्राप्त नहीं कर सकते हैं। इसमें कुछ प्रकार के कार दुर्घटना डेटा और अधिकांश प्रकार के स्वास्थ्य डेटा शामिल हैं जिनमें गोपनीयता प्रतिबंध हैं (उदाहरण के लिए, इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड). हाल के वर्षों में, स्वास्थ्य देखभाल शोधकर्ता ईसीजी और पीपीजी संकेतों का उपयोग करके अलिंद फिब्रिलेशन (अनियमित हृदय ताल) की भविष्यवाणी करने में रुचि रखते हैं। अतालता डिटेक्टर विकसित करना न केवल चुनौतीपूर्ण है क्योंकि इन संकेतों का एनोटेशन कठिन और महंगा है, बल्कि गोपनीयता प्रतिबंधों के कारण भी चुनौतीपूर्ण है। यही एक कारण है कि ऐसा है इन संकेतों के अनुकरण में अनुसंधान.

इस बात पर ज़ोर देना ज़रूरी है कि वास्तविक डेटा एकत्र करने में न केवल समय और ऊर्जा लगती है, बल्कि यह वास्तव में खतरनाक हो सकता है। सेल्फ-ड्राइविंग कारों जैसे रोबोटिक अनुप्रयोगों के साथ मुख्य समस्याओं में से एक यह है कि वे मशीन लर्निंग के भौतिक अनुप्रयोग हैं। आप वास्तविक दुनिया में एक असुरक्षित मॉडल को तैनात नहीं कर सकते हैं और प्रासंगिक डेटा की कमी के कारण क्रैश हो सकता है। सिंथेटिक डेटा के साथ डेटासेट को बढ़ाने से मॉडलों को इन समस्याओं से बचने में मदद मिल सकती है।

एप्लिकेशन सुरक्षा में सुधार के लिए सिंथेटिक डेटा का उपयोग करने वाली कुछ कंपनियां निम्नलिखित हैं: टोयोटा, Waymo, तथा क्रूज.

5 कारण आपको सिंथेटिक डेटा की आवश्यकता क्यों है
से छवि समानांतर डोमेन

उपनगरीय कैलिफोर्निया शैली के माहौल में एक स्कूल बस के पीछे से साइकिल पर सवार एक बच्चे की सिंथेटिक छवि उभरती हुई सड़क पार कर रही है।

स्वायत्त वाहन अनुप्रयोग अक्सर अपेक्षाकृत "असामान्य" (सामान्य ड्राइविंग स्थितियों के सापेक्ष) घटनाओं से निपटते हैं जैसे रात में पैदल यात्री या सड़क के बीच में साइकिल चलाने वाले। किसी परिदृश्य को सीखने के लिए मॉडलों को अक्सर सैकड़ों हजारों या लाखों उदाहरणों की आवश्यकता होती है। एक बड़ी समस्या यह है कि एकत्र किया गया वास्तविक दुनिया का डेटा वह नहीं हो सकता है जो आप गुणवत्ता, विविधता (उदाहरण के लिए, वर्ग असंतुलन, मौसम की स्थिति, स्थान) और मात्रा के संदर्भ में खोज रहे हैं। एक और समस्या यह है कि सेल्फ-ड्राइविंग कारों और रोबोटों के लिए, आपको हमेशा यह नहीं पता होता है कि निश्चित डेटासेट और निश्चित बेंचमार्क वाले पारंपरिक मशीन लर्निंग कार्यों के विपरीत आपको किस डेटा की आवश्यकता है। जबकि कुछ डेटा संवर्द्धन तकनीकें जो छवियों को व्यवस्थित या बेतरतीब ढंग से बदलती हैं, सहायक होती हैं, ये तकनीकें कर सकती हैं अपनी समस्याओं का परिचय दें.

यहीं पर सिंथेटिक डेटा आता है। सिंथेटिक डेटा जेनरेशन एपीआई आपको डेटासेट को इंजीनियर करने की अनुमति देता है। ये एपीआई आपका बहुत सारा पैसा बचा सकते हैं क्योंकि वास्तविक दुनिया में रोबोट बनाना और डेटा एकत्र करना बहुत महंगा है। सिंथेटिक डेटासेट जेनरेशन का उपयोग करके डेटा उत्पन्न करने और इंजीनियरिंग सिद्धांतों का पता लगाने का प्रयास करना बहुत बेहतर और तेज़ है।

निम्नलिखित उदाहरण हैं जो इस बात पर प्रकाश डालते हैं कि कैसे प्रोग्रामयोग्य सिंथेटिक डेटा मॉडलों को सीखने में मदद करता है: धोखाधड़ी वाले लेनदेन की रोकथाम (अमेरिकन एक्सप्रेस), बेहतर साइकिल चालक का पता लगाना (समानांतर डोमेन), तथा सर्जरी विश्लेषण और समीक्षा (Hutom.io).

5 कारण आपको सिंथेटिक डेटा की आवश्यकता क्यों है
मॉडल विकास चक्र के चरण | छवि से जूल्स एस दामजी

उद्योग में, वहाँ हैं बहुत सारे कारक जो विकास और उत्पादन दोनों में मशीन लर्निंग प्रोजेक्ट की व्यवहार्यता/प्रदर्शन को प्रभावित करते हैं (उदाहरण के लिए, डेटा अधिग्रहण, एनोटेशन, मॉडल प्रशिक्षण, स्केलिंग, तैनाती, निगरानी, मॉडल पुनर्प्रशिक्षण और विकास वेग)। हाल ही में, 18 मशीन लर्निंग इंजीनियरों ने एक साक्षात्कार अध्ययन में भाग लिया जिसका लक्ष्य संगठनों और अनुप्रयोगों (जैसे, स्वायत्त वाहन, कंप्यूटर हार्डवेयर, खुदरा, विज्ञापन, अनुशंसा प्रणाली इत्यादि) में सामान्य एमएलओपीएस प्रथाओं और चुनौतियों को समझना था। अध्ययन के निष्कर्षों में से एक विकास वेग का महत्व था जिसे मोटे तौर पर विचारों को तेजी से प्रोटोटाइप और पुनरावृत्त करने की क्षमता के रूप में परिभाषित किया जा सकता है।

विकास की गति को प्रभावित करने वाला एक कारक प्रारंभिक मॉडल प्रशिक्षण और मूल्यांकन करने के लिए डेटा की आवश्यकता है साथ ही बार-बार मॉडल पुनर्प्रशिक्षण डेटा बहाव, अवधारणा बहाव, या यहां तक कि ट्रेन प्रशिक्षण-सेवा तिरछापन के कारण समय के साथ मॉडल प्रदर्शन में गिरावट आती है।

5 कारण आपको सिंथेटिक डेटा की आवश्यकता क्यों है
से छवि जाहिर तौर पर ए.आई.

अध्ययन में यह भी बताया गया कि इस आवश्यकता के कारण कुछ संगठनों को लाइव डेटा को बार-बार लेबल करने के लिए एक टीम गठित करनी पड़ी। यह महंगा है, समय लेने वाला है, और किसी संगठन की मॉडलों को बार-बार प्रशिक्षित करने की क्षमता को सीमित करता है।

5 कारण आपको सिंथेटिक डेटा की आवश्यकता क्यों है
से छवि ग्रेटेल.एआई

ध्यान दें, यह आरेख यह कवर नहीं करता है कि सिंथेटिक डेटा का उपयोग किस तरह की चीज़ों के लिए भी किया जा सकता है अनुशंसाकर्ताओं में एमएलओपीएस परीक्षण.

सिंथेटिक डेटा को मशीन लर्निंग जीवन चक्र (ऊपर चित्रित) में वास्तविक दुनिया के डेटा के साथ उपयोग करने की क्षमता है ताकि संगठनों को अपने मॉडल को लंबे समय तक प्रदर्शनशील बनाए रखने में मदद मिल सके।

मशीन लर्निंग वर्कफ़्लोज़ में सिंथेटिक डेटा जेनरेशन आम होता जा रहा है। वास्तव में, गार्टनर अनुमान है कि 2030 तक, मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए वास्तविक दुनिया के डेटा की तुलना में सिंथेटिक डेटा का कहीं अधिक उपयोग किया जाएगा। यदि इस पोस्ट पर आपके कोई प्रश्न या विचार हैं, तो बेझिझक नीचे टिप्पणी या माध्यम से संपर्क करें ट्विटर.

माइकल गैलारिक एक डेटा साइंस प्रोफेशनल हैं, और एनीस्केल में डेवलपर रिलेशंस में काम करते हैं।