से उत्पन्न सिंथेटिक डेटा कुब्रिक
मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए, आपको डेटा की आवश्यकता होती है। डेटा विज्ञान कार्य आम तौर पर कागल प्रतियोगिता नहीं होते हैं जहां आपके पास एक अच्छा बड़ा क्यूरेटेड डेटासेट होता है जो पहले से लेबल किया हुआ आता है। कभी-कभी आपको अपना डेटा स्वयं एकत्र करना, व्यवस्थित करना और साफ़ करना पड़ता है। वास्तविक दुनिया में डेटा एकत्र करने और लेबल करने की यह प्रक्रिया समय लेने वाली, बोझिल, महंगी, गलत और कभी-कभी खतरनाक हो सकती है। इसके अलावा, इस प्रक्रिया के अंत में, आप उस डेटा के साथ समाप्त हो सकते हैं जिसका आपने वास्तविक दुनिया में सामना किया था, जरूरी नहीं कि वह वह डेटा हो जो आप गुणवत्ता, विविधता (उदाहरण के लिए, वर्ग असंतुलन) और मात्रा के संदर्भ में चाहते हैं। वास्तविक डेटा के साथ काम करते समय आपके सामने आने वाली सामान्य समस्याएं नीचे दी गई हैं:
- वास्तविक डेटा संग्रह और लेबलिंग स्केलेबल नहीं हैं
- वास्तविक डेटा को मैन्युअल रूप से लेबल करना कभी-कभी असंभव हो सकता है
- वास्तविक डेटा में गोपनीयता और सुरक्षा के मुद्दे हैं
- वास्तविक डेटा प्रोग्राम करने योग्य नहीं है
- वास्तविक डेटा पर विशेष रूप से प्रशिक्षित एक मॉडल पर्याप्त प्रदर्शन करने वाला नहीं है (उदाहरण के लिए, धीमी विकास गति)
सौभाग्य से, इस तरह की समस्याओं को सिंथेटिक डेटा से हल किया जा सकता है। आप सोच रहे होंगे, सिंथेटिक डेटा क्या है? सिंथेटिक डेटा को कृत्रिम रूप से उत्पन्न डेटा के रूप में परिभाषित किया जा सकता है जो आम तौर पर एल्गोरिदम का उपयोग करके बनाया जाता है जो वास्तविक दुनिया की प्रक्रियाओं का अनुकरण करता है, अन्य सड़क उपयोगकर्ताओं के व्यवहार से लेकर प्रकाश के व्यवहार तक जब यह सतहों के साथ बातचीत करता है। यह पोस्ट वास्तविक दुनिया के डेटा की सीमाओं के बारे में बताती है, और कैसे सिंथेटिक डेटा इन समस्याओं को दूर करने और मॉडल के प्रदर्शन को बेहतर बनाने में मदद कर सकता है।
छोटे डेटासेट के लिए, आमतौर पर डेटा एकत्र करना और मैन्युअल रूप से लेबल करना संभव है; हालाँकि, कई जटिल मशीन लर्निंग कार्यों के लिए प्रशिक्षण के लिए बड़े पैमाने पर डेटासेट की आवश्यकता होती है। उदाहरण के लिए, स्वायत्त वाहन अनुप्रयोगों के लिए प्रशिक्षित मॉडलों को कारों या ड्रोन से जुड़े सेंसर से बड़ी मात्रा में डेटा एकत्र करने की आवश्यकता होती है। यह डेटा संग्रह प्रक्रिया धीमी है और इसमें महीनों या साल भी लग सकते हैं। एक बार कच्चा डेटा एकत्र हो जाने के बाद, इसे मानव द्वारा मैन्युअल रूप से एनोटेट किया जाना चाहिए, जो महंगा और समय लेने वाला भी है। इसके अलावा, इस बात की कोई गारंटी नहीं है कि वापस आने वाला लेबल डेटा प्रशिक्षण डेटा के रूप में फायदेमंद होगा, क्योंकि इसमें ऐसे उदाहरण शामिल नहीं हो सकते हैं जो मॉडल के ज्ञान में मौजूदा अंतराल को सूचित करते हैं।
[एम्बेडेड सामग्री] [एम्बेडेड सामग्री]
इस डेटा को लेबल करने में अक्सर मानव द्वारा सेंसर डेटा के शीर्ष पर हाथ से लेबल बनाना शामिल होता है। यह बहुत महंगा है क्योंकि उच्च भुगतान वाली एमएल टीमें अक्सर अपने समय का एक बड़ा हिस्सा यह सुनिश्चित करने में खर्च करती हैं कि लेबल सही हैं और गलतियाँ लेबलर्स को वापस भेजती हैं। सिंथेटिक डेटा की एक बड़ी ताकत यह है कि आप जितना चाहें उतना सटीक लेबल वाला डेटा उत्पन्न कर सकते हैं। आपको बस गुणवत्तापूर्ण सिंथेटिक डेटा उत्पन्न करने का एक तरीका चाहिए।
सिंथेटिक डेटा उत्पन्न करने के लिए ओपन सोर्स सॉफ़्टवेयर: कुब्रिक (सेगमेंटेशन मास्क, डेप्थ मैप और ऑप्टिकल फ्लो के साथ मल्टी-ऑब्जेक्ट वीडियो) और SDV (सारणीबद्ध, संबंधपरक और समय श्रृंखला डेटा)।
कुछ (कई में से) कंपनियाँ जो उत्पाद बेचती हैं या ऐसे प्लेटफ़ॉर्म बनाती हैं जो सिंथेटिक डेटा उत्पन्न कर सकती हैं, उनमें शामिल हैं ग्रेटेल.एआई (सिंथेटिक डेटा सेट जो वास्तविक डेटा की गोपनीयता सुनिश्चित करते हैं), NVIDIA (सर्वव्यापी), और समानांतर डोमेन (स्वायत्त वाहन)। अधिक जानकारी के लिए, सिंथेटिक डेटा कंपनियों की 2022 सूची देखें.
से छवि समानांतर डोमेन
कुछ ऐसे डेटा हैं जिनकी मनुष्य पूरी तरह से व्याख्या और लेबल नहीं कर सकते हैं। नीचे कुछ उपयोग के मामले दिए गए हैं जहां सिंथेटिक डेटा ही एकमात्र विकल्प है:
- गहराई का सटीक अनुमान और ऑप्टिकल प्रवाह एकल छवियों से
- स्व-ड्राइविंग एप्लिकेशन जो रडार डेटा का उपयोग करते हैं जो मानव आंखों को दिखाई नहीं देता है
- डीप फेक तैयार करना जिसका उपयोग चेहरा पहचान प्रणालियों का परीक्षण करने के लिए किया जा सकता है
छवि द्वारा माइकल गैलारिक
सिंथेटिक डेटा उन डोमेन में अनुप्रयोगों के लिए अत्यधिक उपयोगी है जहां आप आसानी से वास्तविक डेटा प्राप्त नहीं कर सकते हैं। इसमें कुछ प्रकार के कार दुर्घटना डेटा और अधिकांश प्रकार के स्वास्थ्य डेटा शामिल हैं जिनमें गोपनीयता प्रतिबंध हैं (उदाहरण के लिए, इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड). हाल के वर्षों में, स्वास्थ्य देखभाल शोधकर्ता ईसीजी और पीपीजी संकेतों का उपयोग करके अलिंद फिब्रिलेशन (अनियमित हृदय ताल) की भविष्यवाणी करने में रुचि रखते हैं। अतालता डिटेक्टर विकसित करना न केवल चुनौतीपूर्ण है क्योंकि इन संकेतों का एनोटेशन कठिन और महंगा है, बल्कि गोपनीयता प्रतिबंधों के कारण भी चुनौतीपूर्ण है। यही एक कारण है कि ऐसा है इन संकेतों के अनुकरण में अनुसंधान.
इस बात पर ज़ोर देना ज़रूरी है कि वास्तविक डेटा एकत्र करने में न केवल समय और ऊर्जा लगती है, बल्कि यह वास्तव में खतरनाक हो सकता है। सेल्फ-ड्राइविंग कारों जैसे रोबोटिक अनुप्रयोगों के साथ मुख्य समस्याओं में से एक यह है कि वे मशीन लर्निंग के भौतिक अनुप्रयोग हैं। आप वास्तविक दुनिया में एक असुरक्षित मॉडल को तैनात नहीं कर सकते हैं और प्रासंगिक डेटा की कमी के कारण क्रैश हो सकता है। सिंथेटिक डेटा के साथ डेटासेट को बढ़ाने से मॉडलों को इन समस्याओं से बचने में मदद मिल सकती है।
एप्लिकेशन सुरक्षा में सुधार के लिए सिंथेटिक डेटा का उपयोग करने वाली कुछ कंपनियां निम्नलिखित हैं: टोयोटा, Waymo, तथा क्रूज.
से छवि समानांतर डोमेन
उपनगरीय कैलिफोर्निया शैली के माहौल में एक स्कूल बस के पीछे से साइकिल पर सवार एक बच्चे की सिंथेटिक छवि उभरती हुई सड़क पार कर रही है।
स्वायत्त वाहन अनुप्रयोग अक्सर अपेक्षाकृत "असामान्य" (सामान्य ड्राइविंग स्थितियों के सापेक्ष) घटनाओं से निपटते हैं जैसे रात में पैदल यात्री या सड़क के बीच में साइकिल चलाने वाले। किसी परिदृश्य को सीखने के लिए मॉडलों को अक्सर सैकड़ों हजारों या लाखों उदाहरणों की आवश्यकता होती है। एक बड़ी समस्या यह है कि एकत्र किया गया वास्तविक दुनिया का डेटा वह नहीं हो सकता है जो आप गुणवत्ता, विविधता (उदाहरण के लिए, वर्ग असंतुलन, मौसम की स्थिति, स्थान) और मात्रा के संदर्भ में खोज रहे हैं। एक और समस्या यह है कि सेल्फ-ड्राइविंग कारों और रोबोटों के लिए, आपको हमेशा यह नहीं पता होता है कि निश्चित डेटासेट और निश्चित बेंचमार्क वाले पारंपरिक मशीन लर्निंग कार्यों के विपरीत आपको किस डेटा की आवश्यकता है। जबकि कुछ डेटा संवर्द्धन तकनीकें जो छवियों को व्यवस्थित या बेतरतीब ढंग से बदलती हैं, सहायक होती हैं, ये तकनीकें कर सकती हैं अपनी समस्याओं का परिचय दें.
यहीं पर सिंथेटिक डेटा आता है। सिंथेटिक डेटा जेनरेशन एपीआई आपको डेटासेट को इंजीनियर करने की अनुमति देता है। ये एपीआई आपका बहुत सारा पैसा बचा सकते हैं क्योंकि वास्तविक दुनिया में रोबोट बनाना और डेटा एकत्र करना बहुत महंगा है। सिंथेटिक डेटासेट जेनरेशन का उपयोग करके डेटा उत्पन्न करने और इंजीनियरिंग सिद्धांतों का पता लगाने का प्रयास करना बहुत बेहतर और तेज़ है।
निम्नलिखित उदाहरण हैं जो इस बात पर प्रकाश डालते हैं कि कैसे प्रोग्रामयोग्य सिंथेटिक डेटा मॉडलों को सीखने में मदद करता है: धोखाधड़ी वाले लेनदेन की रोकथाम (अमेरिकन एक्सप्रेस), बेहतर साइकिल चालक का पता लगाना (समानांतर डोमेन), तथा सर्जरी विश्लेषण और समीक्षा (Hutom.io).
मॉडल विकास चक्र के चरण | छवि से जूल्स एस दामजी
उद्योग में, वहाँ हैं बहुत सारे कारक जो विकास और उत्पादन दोनों में मशीन लर्निंग प्रोजेक्ट की व्यवहार्यता/प्रदर्शन को प्रभावित करते हैं (उदाहरण के लिए, डेटा अधिग्रहण, एनोटेशन, मॉडल प्रशिक्षण, स्केलिंग, तैनाती, निगरानी, मॉडल पुनर्प्रशिक्षण और विकास वेग)। हाल ही में, 18 मशीन लर्निंग इंजीनियरों ने एक साक्षात्कार अध्ययन में भाग लिया जिसका लक्ष्य संगठनों और अनुप्रयोगों (जैसे, स्वायत्त वाहन, कंप्यूटर हार्डवेयर, खुदरा, विज्ञापन, अनुशंसा प्रणाली इत्यादि) में सामान्य एमएलओपीएस प्रथाओं और चुनौतियों को समझना था। अध्ययन के निष्कर्षों में से एक विकास वेग का महत्व था जिसे मोटे तौर पर विचारों को तेजी से प्रोटोटाइप और पुनरावृत्त करने की क्षमता के रूप में परिभाषित किया जा सकता है।
विकास की गति को प्रभावित करने वाला एक कारक प्रारंभिक मॉडल प्रशिक्षण और मूल्यांकन करने के लिए डेटा की आवश्यकता है साथ ही बार-बार मॉडल पुनर्प्रशिक्षण डेटा बहाव, अवधारणा बहाव, या यहां तक कि ट्रेन प्रशिक्षण-सेवा तिरछापन के कारण समय के साथ मॉडल प्रदर्शन में गिरावट आती है।
से छवि जाहिर तौर पर ए.आई.
अध्ययन में यह भी बताया गया कि इस आवश्यकता के कारण कुछ संगठनों को लाइव डेटा को बार-बार लेबल करने के लिए एक टीम गठित करनी पड़ी। यह महंगा है, समय लेने वाला है, और किसी संगठन की मॉडलों को बार-बार प्रशिक्षित करने की क्षमता को सीमित करता है।
से छवि ग्रेटेल.एआई
ध्यान दें, यह आरेख यह कवर नहीं करता है कि सिंथेटिक डेटा का उपयोग किस तरह की चीज़ों के लिए भी किया जा सकता है अनुशंसाकर्ताओं में एमएलओपीएस परीक्षण.
सिंथेटिक डेटा को मशीन लर्निंग जीवन चक्र (ऊपर चित्रित) में वास्तविक दुनिया के डेटा के साथ उपयोग करने की क्षमता है ताकि संगठनों को अपने मॉडल को लंबे समय तक प्रदर्शनशील बनाए रखने में मदद मिल सके।
मशीन लर्निंग वर्कफ़्लोज़ में सिंथेटिक डेटा जेनरेशन आम होता जा रहा है। वास्तव में, गार्टनर अनुमान है कि 2030 तक, मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए वास्तविक दुनिया के डेटा की तुलना में सिंथेटिक डेटा का कहीं अधिक उपयोग किया जाएगा। यदि इस पोस्ट पर आपके कोई प्रश्न या विचार हैं, तो बेझिझक नीचे टिप्पणी या माध्यम से संपर्क करें ट्विटर.
माइकल गैलारिक एक डेटा साइंस प्रोफेशनल हैं, और एनीस्केल में डेवलपर रिलेशंस में काम करते हैं।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://www.kdnuggets.com/2023/02/5-reasons-need-synthetic-data.html?utm_source=rss&utm_medium=rss&utm_campaign=5-reasons-why-you-need-synthetic-data
- 2022
- a
- क्षमता
- About
- ऊपर
- दुर्घटना
- अर्जन
- के पार
- वास्तव में
- विज्ञापन
- को प्रभावित
- प्रभावित करने वाले
- एल्गोरिदम
- सब
- हमेशा
- अमेरिकन
- अमेरिकन एक्सप्रेस
- राशियाँ
- विश्लेषण
- और
- अन्य
- एपीआई
- आवेदन
- अनुप्रयोगों
- स्वायत्त
- स्वायत्त वाहन
- स्वायत्त वाहनों
- वापस
- क्योंकि
- बनने
- पीछे
- जा रहा है
- नीचे
- मानक
- लाभदायक
- बेहतर
- रिक्त
- निर्माण
- बस
- कार
- कारों
- मामलों
- चुनौतियों
- चुनौतीपूर्ण
- बच्चा
- कक्षा
- इकट्ठा
- एकत्रित
- संग्रह
- टिप्पणियाँ
- सामान्य
- कंपनियों
- प्रतियोगिता
- जटिल
- कंप्यूटर
- संकल्पना
- स्थितियां
- सामग्री
- मूल
- आवरण
- Crash
- बनाया
- क्यूरेट
- वर्तमान
- चक्र
- खतरनाक
- तिथि
- डेटा विज्ञान
- डेटा सेट
- डेटासेट
- सौदा
- गहरा
- गहरे फेक
- परिभाषित
- तैनात
- तैनाती
- गहराई
- खोज
- डेवलपर
- विकासशील
- विकास
- विविधता
- नहीं करता है
- डोमेन
- डोमेन
- dont
- नीचे
- ड्राइंग
- ड्राइविंग
- राजा
- आसानी
- एम्बेडेड
- कस्र्न पत्थर
- ज़ोर देना
- सामना
- ऊर्जा
- इंजीनियर
- अभियांत्रिकी
- इंजीनियर्स
- पर्याप्त
- सुनिश्चित
- वातावरण
- आदि
- मूल्यांकन
- और भी
- घटनाओं
- उदाहरण
- उदाहरण
- अनन्य रूप से
- महंगा
- व्यक्त
- चेहरा
- चेहरा पहचान
- कारकों
- और तेज
- आकृति
- तय
- प्रवाह
- निम्नलिखित
- कपटपूर्ण
- मुक्त
- बारंबार
- अक्सर
- से
- पूरी तरह से
- और भी
- गार्टनर
- उत्पन्न
- उत्पन्न
- पीढ़ी
- मिल
- gif
- लक्ष्य
- चला जाता है
- गारंटी
- हार्डवेयर
- स्वास्थ्य
- स्वास्थ्य सेवा
- दिल
- मदद
- मदद करता है
- हाई
- हाइलाइट
- अत्यधिक
- कैसे
- तथापि
- एचटीएमएल
- HTTPS
- विशाल
- मानव
- मनुष्य
- सैकड़ों
- विचारों
- की छवि
- छवियों
- असंतुलन
- महत्व
- महत्वपूर्ण
- असंभव
- में सुधार
- in
- ग़लत
- शामिल
- शामिल
- उद्योग
- प्रारंभिक
- सूचना का आदान प्रदान
- रुचि
- साक्षात्कार
- मुद्दों
- IT
- केडनगेट्स
- रखना
- जानना
- ज्ञान
- लेबल
- लेबलिंग
- लेबल
- रंग
- बड़ा
- जानें
- सीख रहा हूँ
- इंजीनियरों को सीखना
- नेतृत्व
- जीवन
- प्रकाश
- सीमाओं
- सीमाएं
- लिंक्डइन
- सूची
- जीना
- सजीव आंकड़ा
- स्थान
- लंबे समय तक
- देख
- लॉट
- मशीन
- यंत्र अधिगम
- प्रमुख
- निर्माण
- मैन्युअल
- बहुत
- मैप्स
- मास्क
- विशाल
- मध्यम
- मध्यम
- हो सकता है
- लाखों
- गलतियां
- ML
- एमएलओपीएस
- आदर्श
- मॉडल
- धन
- निगरानी
- महीने
- अधिक
- अधिकांश
- अनिवार्य रूप से
- आवश्यकता
- रात
- साधारण
- Nvidia
- omniverse
- ONE
- विकल्प
- संगठन
- संगठनों
- अन्य
- काबू
- अपना
- प्रदत्त
- समानांतर
- भाग
- प्रदर्शन
- भौतिक
- प्लेटफार्म
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- संभव
- पद
- संभावित
- प्रथाओं
- की भविष्यवाणी
- भविष्यवाणी
- सिद्धांतों
- एकांत
- मुसीबत
- समस्याओं
- प्रक्रिया
- प्रक्रियाओं
- उत्पाद
- पेशेवर
- परियोजना
- प्रोटोटाइप
- गुणवत्ता
- मात्रा
- प्रशन
- राडार
- तेजी
- कच्चा
- कच्चा डेटा
- पहुंच
- वास्तविक
- असली दुनिया
- कारण
- कारण
- हाल
- हाल ही में
- मान्यता
- संबंधों
- अपेक्षाकृत
- प्रासंगिक
- की सूचना दी
- की आवश्यकता होती है
- अनुसंधान
- शोधकर्ताओं
- प्रतिबंध
- खुदरा
- फिर से शिक्षित करना
- की समीक्षा
- घुड़सवारी
- सड़क
- रोबोट
- लगभग
- सुरक्षा
- सहेजें
- स्केलेबल
- स्केलिंग
- परिदृश्य
- स्कूल के साथ
- विज्ञान
- विभाजन
- स्वयं ड्राइविंग
- बेचना
- भेजना
- सेंसर
- कई
- सेट
- सेट
- संकेत
- के बाद से
- एक
- तिरछा
- धीमा
- छोटा
- सॉफ्टवेयर
- कुछ
- स्रोत
- बिताना
- सड़क
- शक्ति
- अध्ययन
- कृत्रिम
- सिंथेटिक डेटा
- सिस्टम
- लेना
- कार्य
- टीम
- टीमों
- तकनीक
- शर्तों
- परीक्षण
- परीक्षण
- RSI
- लेकिन हाल ही
- चीज़ें
- हजारों
- पहर
- समय श्रृंखला
- बहुत समय लगेगा
- सेवा मेरे
- ऊपर का
- परंपरागत
- रेलगाड़ी
- प्रशिक्षित
- प्रशिक्षण
- लेनदेन
- प्रकार
- आम तौर पर
- समझ
- उपयोग
- उपयोगकर्ताओं
- आमतौर पर
- उपयोग
- वाहन
- वाहन
- वेग
- वीडियो
- दिखाई
- मौसम
- क्या
- कौन कौन से
- मर्जी
- सोच
- workflows
- काम कर रहे
- कार्य
- विश्व
- होगा
- साल
- आपका
- यूट्यूब
- जेफिरनेट