आपको "उत्पादक डेटा विज्ञान" क्यों और कैसे सीखना चाहिए?

= पिछला पोस्ट

अगला पोस्ट =>

टैग: पुस्तकें, कैरियर सलाह, कोर्स, डाटा विज्ञान, अजगर

प्रोडक्टिव डेटा साइंस क्या है और इसके कुछ घटक क्या हैं?

By तीर्थज्योति सरकार, एडैप्डिक्स कार्पोरेशन

टिप्पणियाँ

छवि स्रोत: Pixabay (मुफ्त छवि)

डेटा विज्ञान कार्यप्रवाह में दक्षता

डेटा साइंस और मशीन लर्निंग का अभ्यास दक्षता और उत्पादकता की अलग-अलग डिग्री के साथ किया जा सकता है। आवेदन क्षेत्र या विशेषज्ञता के बावजूद, एक डेटा वैज्ञानिक - शुरुआती या अनुभवी पेशेवर - को प्रयास करना चाहिए उसकी दक्षता में वृद्धि विशिष्ट डेटा विज्ञान कार्यों के सभी पहलुओं पर,

सांख्यिकीय विश्लेषण,
दृश्य,
मॉडल चयन, फीचर इंजीनियरिंग,
कोड गुणवत्ता परीक्षण, मॉडर्नाइजेशन,
समानांतर प्रसंस्करण,
आसान वेब-ऐप परिनियोजन

छवि स्रोत: Pixabay (मुफ्त छवि)

इसका अर्थ है इन सभी कार्यों को करना,

उच्च गति पर
तेजी से डिबगिंग के साथ
एक सिंक्रनाइज़ तरीके से
किसी भी और सभी उपलब्ध हार्डवेयर संसाधनों का पूरा लाभ उठाकर

इस प्रक्रिया में आपको क्या सीखने की उम्मीद करनी चाहिए?

आइए कल्पना करें कि कोई व्यक्ति "उत्पादक डेटा विज्ञान“पाठ्यक्रम या इसके बारे में एक किताब लिखना — भाषा ढांचे के रूप में पायथन का उपयोग करना। ऐसे पाठ्यक्रम या पुस्तक से सामान्य अपेक्षाएँ क्या होनी चाहिए?

छवि स्रोत: Pixabay (मुफ्त छवि)

पाठ्यक्रम/पुस्तक उन लोगों के लिए होनी चाहिए जो चाहते हैं मानक तरीके से आगे छलांग डेटा विज्ञान और मशीन सीखने के कार्यों को करने और उत्पादकता के उच्च स्तर के लिए पायथन डेटा विज्ञान पारिस्थितिकी तंत्र के पूर्ण स्पेक्ट्रम का उपयोग करने के लिए।

पाठकों को सिखाया जाना चाहिए कि मानक प्रक्रिया में अक्षमताओं और बाधाओं को कैसे देखना है और बॉक्स से परे कैसे सोचना है।

दोहराए जाने वाले डेटा विज्ञान कार्यों का स्वचालन एक प्रमुख मानसिकता है कि पाठक इस पुस्तक को पढ़ने से विकसित होंगे। कई मामलों में, वे यह भी सीखेंगे कि उन्नत सॉफ्टवेयर टूल की मदद से उच्च दक्षता वाले बड़े डेटासेट को संभालने के लिए मौजूदा कोडिंग अभ्यास का विस्तार कैसे किया जाए, जो पहले से ही पायथन पारिस्थितिकी तंत्र में मौजूद हैं लेकिन किसी भी मानक डेटा विज्ञान में नहीं पढ़ाए जाते हैं।

यह नम्पी या पंडों जैसे मानक पुस्तकालयों को पढ़ाने वाली एक नियमित पायथन कुकबुक नहीं होनी चाहिए।

इसके बजाय, इसे उपयोगी तकनीकों पर ध्यान देना चाहिए जैसे कि कैसे स्मृति पदचिह्न और निष्पादन गति को मापें एमएल मॉडल के, गुणवत्ता परीक्षण एक डेटा विज्ञान पाइपलाइन, modularize ऐप डेवलपमेंट आदि के लिए एक डेटा साइंस पाइपलाइन। इसमें पायथन लाइब्रेरी भी शामिल होनी चाहिए जो बहुत काम आती हैं स्वचालित और तेजी किसी भी डेटा वैज्ञानिक के दिन-प्रतिदिन के कार्य।

इसके अलावा, इसे उन उपकरणों और पैकेजों पर ध्यान देना चाहिए जो एक डेटा वैज्ञानिक की मदद करते हैं बड़े और जटिल डेटासेट से निपटना मानक पायथन डेटा विज्ञान प्रौद्योगिकी ज्ञान का पालन करके जो संभव होता, उससे कहीं अधिक इष्टतम तरीके से।

मास्टर करने के लिए कुछ विशिष्ट कौशल

छवि स्रोत: Pixabay (मुफ्त छवि)

चीजों को ठोस शब्दों में रखने के लिए, आइए हम सीखने और अभ्यास करने के लिए कुछ विशिष्ट कौशलों को संक्षेप में प्रस्तुत करें उत्पादक डेटा विज्ञान. मैंने संदर्भ के रूप में प्रत्येक कौशल के साथ जाने के लिए कुछ प्रतिनिधि लेखों के लिंक डालने का भी प्रयास किया है।

कैसे करें डेटा विज्ञान के लिए तेज़ और कुशल कोड लिखें/एमएल और उनकी गति और दक्षता को कैसे मापें (इस लेख को देखें)
उत्पादकता में सुधार के लिए मॉड्यूलर और अभिव्यंजक डेटा विज्ञान पाइपलाइन कैसे बनाएं (इस लेख को देखें)
डेटा विज्ञान और एमएल मॉडल के लिए परीक्षण मॉड्यूल कैसे लिखें (इस लेख को देखें)
बड़े और जटिल डेटासेट को कुशलता से कैसे संभालें (जो पारंपरिक डीएस टूल्स के साथ मुश्किल होता)
सभी प्रकार के डेटा विज्ञान और विश्लेषण कार्यों के लिए GPU और मल्टी-कोर प्रोसेसर का पूरी तरह से उपयोग कैसे करें, न कि केवल विशेष गहन शिक्षण मॉडलिंग के लिए (इस लेख को देखें)
डेटा विज्ञान/एमएल विचार या मॉडल ट्यूनिंग के डेमो के लिए त्वरित जीयूआई ऐप्स को कैसे चाबुक करें (इस लेख को देखें), या ऐप-स्तर पर एमएल मॉडल और डेटा विश्लेषण कोड को आसानी से (और तेज़ी से) कैसे परिनियोजित करें (इस लेख को देखें)

इस विषय पर एक आदर्श पुस्तक…

छवि स्रोत: Pixabay (मुफ्त छवि)

बाहर देखने का तरीका सिखाएं अक्षमता और बाधाएं मानक डेटा विज्ञान कोड में और उन समस्याओं को हल करने के लिए बॉक्स से परे कैसे सोचें।
विभिन्न स्थितियों में उत्पादकता में सुधार के लिए मॉड्यूलर, कुशल डेटा विश्लेषण और मशीन लर्निंग कोड लिखना सिखाएं - खोजपूर्ण डेटा विश्लेषण, विज़ुअलाइज़ेशन, गहन शिक्षण, आदि।
सॉफ्टवेयर परीक्षण, मॉड्यूल विकास जैसे साइड विषयों की एक विस्तृत श्रृंखला को कवर करें। GUI प्रोग्रामिंग, एमएल मॉडल परिनियोजन वेब-ऐप के रूप में, जो नवोदित डेटा वैज्ञानिकों के लिए अमूल्य कौशल हैं और जिन्हें किसी एक मानक डेटा विज्ञान पुस्तक में सामूहिक रूप से खोजना मुश्किल है।
कवर समानांतर कंप्यूटिंग (जैसे, डस्क, रे), मापनीयता (जैसे, वैक्स, मोदीनी), और GPU-संचालित डेटा साइंस स्टैक (उतार) व्यावहारिक उदाहरणों के साथ।
पाठकों को डेटा साइंस टूल्स के एक बड़े और कभी-विस्तार वाले पायथन इकोसिस्टम के बारे में बताएं और मार्गदर्शन करें जो कि व्यापक पहलुओं से जुड़े हैं सॉफ्टवेयर इंजीनियरिंग और उत्पादन स्तर की तैनाती।

एक ठोस उदाहरण: GPU द्वारा संचालित और वितरित डेटा विज्ञान

जबकि कोर एआई/एमएल कार्यों के लिए शैक्षणिक और व्यावसायिक हलकों में जीपीयू और वितरित कंप्यूटिंग के उपयोग पर व्यापक रूप से चर्चा की गई है, उन्होंने नियमित डेटा विज्ञान और डेटा इंजीनियरिंग कार्यों के लिए उनकी उपयोगिता में कम कवरेज पाया है। हालाँकि, नियमित रूप से दिन-प्रतिदिन के सांख्यिकीय विश्लेषण या अन्य डेटा विज्ञान कार्यों के लिए GPU का उपयोग लौकिक बनने की दिशा में एक लंबा रास्ता तय कर सकता है "उत्पादक डेटा वैज्ञानिक"".

उदाहरण के लिए, सॉफ्टवेयर पुस्तकालयों और एपीआई का रैपिड्स सूट आपको देता है - एक नियमित डेटा वैज्ञानिक (और जरूरी नहीं कि एक गहन शिक्षण व्यवसायी) - निष्पादित करने का विकल्प और लचीलापन पूरी तरह से GPU पर एंड-टू-एंड डेटा साइंस और एनालिटिक्स पाइपलाइन।

छवि स्रोत: लेखक ने कोलाज बनाया

जब एक मामूली GPU के साथ भी उपयोग किया जाता है, तो ये पुस्तकालय अपने नियमित पायथन समकक्षों की तुलना में गति में उल्लेखनीय सुधार दिखाते हैं। स्वाभाविक रूप से, जब भी हम कर सकते हैं, हमें इन्हें अपनाना चाहिए उत्पादक डेटा विज्ञान कार्यप्रवाह।

इसी तरह, पायथन भाषा की सिंगल-कोर प्रकृति की सीमाओं से परे जाने और सर्वोत्कृष्ट डेटा वैज्ञानिक व्यक्तित्व से दूर जाने के बिना समानांतर कंप्यूटिंग प्रतिमान को अपनाने के लिए उत्कृष्ट ओपन-सोर्स अवसर हैं।

छवि स्रोत: लेखक ने कोलाज बनाया

सारांश

हमने a . की उपयोगिताओं और मुख्य घटकों पर चर्चा की उत्पादक डेटा विज्ञान कार्यप्रवाह। हमने कल्पना की थी कि इस विषय पर एक आदर्श पाठ्यक्रम या पुस्तक पाठकों को क्या प्रदान करेगी। हमने कुछ ठोस उदाहरणों को छुआ और लाभों का वर्णन किया। कुछ संबंधित संसाधन भी मास्टर को कौशल के संदर्भ में प्रदान किए गए थे।

आप लेखक की जांच कर सकते हैं GitHub खजाने मशीन सीखने और डेटा विज्ञान में कोड, विचारों और संसाधनों के लिए। यदि आप मेरी तरह हैं, तो AI / मशीन लर्निंग / डेटा साइंस के बारे में भावुक होकर, कृपया बेझिझक करें मुझे लिंक्डइन पर जोड़ें or मुझे ट्वीटर पर अनुगमन कीजीए.

मूल। अनुमति के साथ पुनर्प्रकाशित।

संबंधित: