पोलोनीएक्स-सहमत-से-द-सेकंड-के-अधिक-से-10m.png के साथ-साथ-निपटान करने के लिए सहमत

आपको "उत्पादक डेटा विज्ञान" क्यों और कैसे सीखना चाहिए?

स्रोत नोड: 1858780

गोल्ड ब्लॉगआपको "उत्पादक डेटा विज्ञान" क्यों और कैसे सीखना चाहिए?

प्रोडक्टिव डेटा साइंस क्या है और इसके कुछ घटक क्या हैं?




छवि स्रोतPixabay (मुफ्त छवि)

डेटा विज्ञान कार्यप्रवाह में दक्षता

 
डेटा साइंस और मशीन लर्निंग का अभ्यास दक्षता और उत्पादकता की अलग-अलग डिग्री के साथ किया जा सकता है। आवेदन क्षेत्र या विशेषज्ञता के बावजूद, एक डेटा वैज्ञानिक - शुरुआती या अनुभवी पेशेवर - को प्रयास करना चाहिए उसकी दक्षता में वृद्धि विशिष्ट डेटा विज्ञान कार्यों के सभी पहलुओं पर,

  • सांख्यिकीय विश्लेषण,
  • दृश्य,
  • मॉडल चयन, फीचर इंजीनियरिंग,
  • कोड गुणवत्ता परीक्षण, मॉडर्नाइजेशन,
  • समानांतर प्रसंस्करण,
  • आसान वेब-ऐप परिनियोजन



छवि स्रोतPixabay (मुफ्त छवि)

 

इसका अर्थ है इन सभी कार्यों को करना,

  • उच्च गति पर
  • तेजी से डिबगिंग के साथ
  • एक सिंक्रनाइज़ तरीके से
  • किसी भी और सभी उपलब्ध हार्डवेयर संसाधनों का पूरा लाभ उठाकर

इस प्रक्रिया में आपको क्या सीखने की उम्मीद करनी चाहिए?

 
आइए कल्पना करें कि कोई व्यक्ति "उत्पादक डेटा विज्ञान“पाठ्यक्रम या इसके बारे में एक किताब लिखना — भाषा ढांचे के रूप में पायथन का उपयोग करना। ऐसे पाठ्यक्रम या पुस्तक से सामान्य अपेक्षाएँ क्या होनी चाहिए?



छवि स्रोतPixabay (मुफ्त छवि)

 

पाठ्यक्रम/पुस्तक उन लोगों के लिए होनी चाहिए जो चाहते हैं मानक तरीके से आगे छलांग डेटा विज्ञान और मशीन सीखने के कार्यों को करने और उत्पादकता के उच्च स्तर के लिए पायथन डेटा विज्ञान पारिस्थितिकी तंत्र के पूर्ण स्पेक्ट्रम का उपयोग करने के लिए।

पाठकों को सिखाया जाना चाहिए कि मानक प्रक्रिया में अक्षमताओं और बाधाओं को कैसे देखना है और बॉक्स से परे कैसे सोचना है।

दोहराए जाने वाले डेटा विज्ञान कार्यों का स्वचालन एक प्रमुख मानसिकता है कि पाठक इस पुस्तक को पढ़ने से विकसित होंगे। कई मामलों में, वे यह भी सीखेंगे कि उन्नत सॉफ्टवेयर टूल की मदद से उच्च दक्षता वाले बड़े डेटासेट को संभालने के लिए मौजूदा कोडिंग अभ्यास का विस्तार कैसे किया जाए, जो पहले से ही पायथन पारिस्थितिकी तंत्र में मौजूद हैं लेकिन किसी भी मानक डेटा विज्ञान में नहीं पढ़ाए जाते हैं।

यह नम्पी या पंडों जैसे मानक पुस्तकालयों को पढ़ाने वाली एक नियमित पायथन कुकबुक नहीं होनी चाहिए।

इसके बजाय, इसे उपयोगी तकनीकों पर ध्यान देना चाहिए जैसे कि कैसे स्मृति पदचिह्न और निष्पादन गति को मापें एमएल मॉडल के, गुणवत्ता परीक्षण एक डेटा विज्ञान पाइपलाइन, modularize ऐप डेवलपमेंट आदि के लिए एक डेटा साइंस पाइपलाइन। इसमें पायथन लाइब्रेरी भी शामिल होनी चाहिए जो बहुत काम आती हैं स्वचालित और तेजी किसी भी डेटा वैज्ञानिक के दिन-प्रतिदिन के कार्य।

इसके अलावा, इसे उन उपकरणों और पैकेजों पर ध्यान देना चाहिए जो एक डेटा वैज्ञानिक की मदद करते हैं बड़े और जटिल डेटासेट से निपटना मानक पायथन डेटा विज्ञान प्रौद्योगिकी ज्ञान का पालन करके जो संभव होता, उससे कहीं अधिक इष्टतम तरीके से।

मास्टर करने के लिए कुछ विशिष्ट कौशल

 



छवि स्रोतPixabay (मुफ्त छवि)

 

चीजों को ठोस शब्दों में रखने के लिए, आइए हम सीखने और अभ्यास करने के लिए कुछ विशिष्ट कौशलों को संक्षेप में प्रस्तुत करें उत्पादक डेटा विज्ञान. मैंने संदर्भ के रूप में प्रत्येक कौशल के साथ जाने के लिए कुछ प्रतिनिधि लेखों के लिंक डालने का भी प्रयास किया है।

  1. कैसे करें डेटा विज्ञान के लिए तेज़ और कुशल कोड लिखें/एमएल और उनकी गति और दक्षता को कैसे मापें (इस लेख को देखें)
  2. उत्पादकता में सुधार के लिए मॉड्यूलर और अभिव्यंजक डेटा विज्ञान पाइपलाइन कैसे बनाएं (इस लेख को देखें)
  3. डेटा विज्ञान और एमएल मॉडल के लिए परीक्षण मॉड्यूल कैसे लिखें (इस लेख को देखें)
  4. बड़े और जटिल डेटासेट को कुशलता से कैसे संभालें (जो पारंपरिक डीएस टूल्स के साथ मुश्किल होता)
  5. सभी प्रकार के डेटा विज्ञान और विश्लेषण कार्यों के लिए GPU और मल्टी-कोर प्रोसेसर का पूरी तरह से उपयोग कैसे करें, न कि केवल विशेष गहन शिक्षण मॉडलिंग के लिए (इस लेख को देखें)
  6. डेटा विज्ञान/एमएल विचार या मॉडल ट्यूनिंग के डेमो के लिए त्वरित जीयूआई ऐप्स को कैसे चाबुक करें (इस लेख को देखें), या ऐप-स्तर पर एमएल मॉडल और डेटा विश्लेषण कोड को आसानी से (और तेज़ी से) कैसे परिनियोजित करें (इस लेख को देखें)

इस विषय पर एक आदर्श पुस्तक…

 



छवि स्रोतPixabay (मुफ्त छवि)

 

  1. बाहर देखने का तरीका सिखाएं अक्षमता और बाधाएं मानक डेटा विज्ञान कोड में और उन समस्याओं को हल करने के लिए बॉक्स से परे कैसे सोचें।
  2. विभिन्न स्थितियों में उत्पादकता में सुधार के लिए मॉड्यूलर, कुशल डेटा विश्लेषण और मशीन लर्निंग कोड लिखना सिखाएं - खोजपूर्ण डेटा विश्लेषण, विज़ुअलाइज़ेशन, गहन शिक्षण, आदि।
  3. सॉफ्टवेयर परीक्षण, मॉड्यूल विकास जैसे साइड विषयों की एक विस्तृत श्रृंखला को कवर करें। GUI प्रोग्रामिंगएमएल मॉडल परिनियोजन वेब-ऐप के रूप में, जो नवोदित डेटा वैज्ञानिकों के लिए अमूल्य कौशल हैं और जिन्हें किसी एक मानक डेटा विज्ञान पुस्तक में सामूहिक रूप से खोजना मुश्किल है।
  4. कवर समानांतर कंप्यूटिंग (जैसे, डस्क, रे), मापनीयता (जैसे, वैक्स, मोदीनी), और GPU-संचालित डेटा साइंस स्टैक (उतार) व्यावहारिक उदाहरणों के साथ।
  5. पाठकों को डेटा साइंस टूल्स के एक बड़े और कभी-विस्तार वाले पायथन इकोसिस्टम के बारे में बताएं और मार्गदर्शन करें जो कि व्यापक पहलुओं से जुड़े हैं सॉफ्टवेयर इंजीनियरिंग और उत्पादन स्तर की तैनाती।

एक ठोस उदाहरण: GPU द्वारा संचालित और वितरित डेटा विज्ञान

 
जबकि कोर एआई/एमएल कार्यों के लिए शैक्षणिक और व्यावसायिक हलकों में जीपीयू और वितरित कंप्यूटिंग के उपयोग पर व्यापक रूप से चर्चा की गई है, उन्होंने नियमित डेटा विज्ञान और डेटा इंजीनियरिंग कार्यों के लिए उनकी उपयोगिता में कम कवरेज पाया है। हालाँकि, नियमित रूप से दिन-प्रतिदिन के सांख्यिकीय विश्लेषण या अन्य डेटा विज्ञान कार्यों के लिए GPU का उपयोग लौकिक बनने की दिशा में एक लंबा रास्ता तय कर सकता है "उत्पादक डेटा वैज्ञानिक"".

उदाहरण के लिए, सॉफ्टवेयर पुस्तकालयों और एपीआई का रैपिड्स सूट आपको देता है - एक नियमित डेटा वैज्ञानिक (और जरूरी नहीं कि एक गहन शिक्षण व्यवसायी) - निष्पादित करने का विकल्प और लचीलापन पूरी तरह से GPU पर एंड-टू-एंड डेटा साइंस और एनालिटिक्स पाइपलाइन।



छवि स्रोत: लेखक ने कोलाज बनाया

 

जब एक मामूली GPU के साथ भी उपयोग किया जाता है, तो ये पुस्तकालय अपने नियमित पायथन समकक्षों की तुलना में गति में उल्लेखनीय सुधार दिखाते हैं। स्वाभाविक रूप से, जब भी हम कर सकते हैं, हमें इन्हें अपनाना चाहिए उत्पादक डेटा विज्ञान कार्यप्रवाह।


 

इसी तरह, पायथन भाषा की सिंगल-कोर प्रकृति की सीमाओं से परे जाने और सर्वोत्कृष्ट डेटा वैज्ञानिक व्यक्तित्व से दूर जाने के बिना समानांतर कंप्यूटिंग प्रतिमान को अपनाने के लिए उत्कृष्ट ओपन-सोर्स अवसर हैं।



छवि स्रोत: लेखक ने कोलाज बनाया

सारांश

 
हमने a . की उपयोगिताओं और मुख्य घटकों पर चर्चा की उत्पादक डेटा विज्ञान कार्यप्रवाह। हमने कल्पना की थी कि इस विषय पर एक आदर्श पाठ्यक्रम या पुस्तक पाठकों को क्या प्रदान करेगी। हमने कुछ ठोस उदाहरणों को छुआ और लाभों का वर्णन किया। कुछ संबंधित संसाधन भी मास्टर को कौशल के संदर्भ में प्रदान किए गए थे।

आप लेखक की जांच कर सकते हैं GitHub खजाने मशीन सीखने और डेटा विज्ञान में कोड, विचारों और संसाधनों के लिए। यदि आप मेरी तरह हैं, तो AI / मशीन लर्निंग / डेटा साइंस के बारे में भावुक होकर, कृपया बेझिझक करें मुझे लिंक्डइन पर जोड़ें or मुझे ट्वीटर पर अनुगमन कीजीए.

 
मूल। अनुमति के साथ पुनर्प्रकाशित।

संबंधित:



शीर्ष आलेख पिछले 30 दिन
सबसे लोकप्रिय
  1. 6 में शीर्ष 2021 डेटा विज्ञान ऑनलाइन पाठ्यक्रम
  2. डेटा वैज्ञानिक और एमएल इंजीनियर लक्जरी कर्मचारी हैं
  3. Google के अनुसंधान निदेशक से डेटा विज्ञान सीखने की सलाह
  4. GitHub Copilot ओपन सोर्स अल्टरनेटिव्स
  5. डीप लर्निंग की ज्यामितीय नींव
सर्वाधिक साझा
  1. आपको "उत्पादक डेटा विज्ञान" क्यों और कैसे सीखना चाहिए?
  2. न केवल डीप लर्निंग के लिए: जीपीयू डेटा साइंस और डेटा एनालिटिक्स को कैसे तेज करता है
  3. टेराफॉर्म के साथ 5 मिनट में एक आधुनिक डेटा स्टैक बूटस्ट्रैप करें
  4. रैपिड्स के साथ जीपीयू-पावर्ड डेटा साइंस (डीप लर्निंग नहीं)
  5. 90 दिनों में एनालिटिक्स इंजीनियर बनें Engineer

स्रोत: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html

समय टिकट:

से अधिक केडनगेट्स

शीर्ष कहानियां, 6-12 सितंबर: क्या आप पायथन के साथ एक्सेल फाइलें पढ़ते हैं? एक 1000x तेज़ तरीका है; शुरुआती के लिए 8 डीप लर्निंग प्रोजेक्ट आइडियाज

स्रोत नोड: 1866658
समय टिकट: सितम्बर 13, 2021