अधिक डेटा विज्ञान धोखा देती है

अधिक डेटा विज्ञान धोखा देती है

स्रोत नोड: 1792233

हमें हाल ही में एहसास हुआ कि हम कुछ समय से आपके लिए कोई डेटा साइंस चीटशीट नहीं लाए हैं। और यह उनकी उपलब्धता की कमी के कारण नहीं है; डेटा साइंस चीटशीट हर जगह उपलब्ध हैं, परिचयात्मक से लेकर उन्नत तक, इसमें एल्गोरिदम से लेकर सांख्यिकी, साक्षात्कार युक्तियाँ और उससे भी आगे के विषय शामिल हैं।

लेकिन एक अच्छी चीटशीट क्या बनती है? क्या चीज़ एक चीटशीट को विशेष रूप से अच्छी चीज़ के रूप में पहचाने जाने योग्य बनाती है? इस पर उंगली रखना मुश्किल है ठीक - ठीक एक अच्छी चीटशीट क्या होती है, लेकिन जाहिर तौर पर वह जो आवश्यक जानकारी को संक्षिप्त रूप से बताती है - चाहे वह जानकारी सामान्य प्रकृति की हो - निश्चित रूप से एक अच्छी शुरुआत है। और यही बात आज हमारे उम्मीदवारों को उल्लेखनीय बनाती है। तो आपके डेटा विज्ञान सीखने या समीक्षा में सहायता के लिए चार क्यूरेटेड पूरक चीटशीट पढ़ें।

पहला ऊपर है आरोन वैंग की डेटा साइंस चीटशीट 2.0, सांख्यिकीय सार, मौलिक मशीन लर्निंग एल्गोरिदम और गहन शिक्षण विषयों और अवधारणाओं का चार पेज का संकलन। इसका मतलब संपूर्ण होना नहीं है, बल्कि यह साक्षात्कार की तैयारी और परीक्षा की समीक्षा जैसी स्थितियों के लिए एक त्वरित संदर्भ है, और ऐसी किसी भी चीज़ के लिए जिसके लिए समान स्तर की समीक्षा गहराई की आवश्यकता होती है। लेखक का कहना है कि जहां सांख्यिकी और रैखिक बीजगणित की बुनियादी समझ रखने वालों को यह संसाधन सबसे अधिक लाभकारी लगेगा, वहीं शुरुआती लोगों को भी इसकी सामग्री से उपयोगी जानकारी प्राप्त करने में सक्षम होना चाहिए।

आकृति
एरोन वैंग का स्क्रीनशॉट डेटा साइंस चीटशीट 2.0
 

आज हमारी अगली चीटशीट पेशकश वह है जिस पर आरोन वैंग का संसाधन आधारित है, मेवरिक लिन की डेटा साइंस चीटशीट (वांग का खुद को 2.0 के रूप में संदर्भित करना लिन के "मूल" की ओर सीधा संकेत है)। हम लिन की चीटशीट को वांग की तुलना में अधिक गहन मान सकते हैं (हालाँकि वांग का कम गहराई वाला निर्णय जानबूझकर और एक उपयोगी विकल्प लगता है), जिसमें अधिक मौलिक डेटा विज्ञान अवधारणाओं जैसे डेटा सफाई, मॉडलिंग का विचार, करना शामिल है। Hadoop, SQL और यहां तक ​​कि Python की बुनियादी बातों के साथ बड़ा डेटा”।

स्पष्ट रूप से यह उन लोगों को पसंद आएगा जो "शुरुआती" शिविर में अधिक मजबूती से हैं, और भूख बढ़ाने और पाठकों को डेटा विज्ञान के व्यापक क्षेत्र और इसमें शामिल कई अलग-अलग अवधारणाओं से अवगत कराने का अच्छा काम करता है। यह निश्चित रूप से एक और ठोस संसाधन है, खासकर यदि पाठक डेटा विज्ञान में नए हैं।

आकृति
मेवरिक लिन से स्क्रीनशॉट डेटा साइंस चीटशीट
 

जैसे-जैसे हम समय में और पीछे जाते हैं - लिन की चीटशीट के लिए प्रेरणा की तलाश में - हम सामने आते हैं विलियम चेन की संभावना चिपसेट 2.0. चेन की चीटशीट ने पिछले कुछ वर्षों में बहुत अधिक ध्यान और प्रशंसा अर्जित की है, और इसलिए हो सकता है कि आपको कभी न कभी इसका सामना करना पड़ा हो। स्पष्ट रूप से एक अलग फोकस (इसके नाम दिया गया) के साथ, चेन की चीटशीट एक क्रैश कोर्स है, या संभाव्यता अवधारणाओं की गहरी समीक्षा है, जिसमें विभिन्न प्रकार के वितरण, सहप्रसरण और परिवर्तन, सशर्त अपेक्षा, मार्कोव श्रृंखला, महत्व के विभिन्न सूत्र शामिल हैं, और बहुत अधिक।

10 पृष्ठों में, आपको यहां शामिल किए जाने वाले संभावित विषयों की व्यापकता की कल्पना करने में सक्षम होना चाहिए। लेकिन इसे आप पर हावी न होने दें; चेन की अवधारणाओं को उनके आवश्यक बुलेट बिंदुओं तक उबालने और सरल अंग्रेजी में समझाने की क्षमता, जबकि आवश्यक चीजों पर कोई त्याग नहीं करना उल्लेखनीय है। यह व्याख्यात्मक विज़ुअलाइज़ेशन में भी समृद्ध है, यह तब काफी उपयोगी है जब स्थान सीमित हो और संक्षिप्त होने की इच्छा प्रबल हो।

न केवल चेन का संकलन गुणवत्तापूर्ण है और आपके समय के योग्य है, एक नौसिखिया या पूर्ण समीक्षा में रुचि रखने वाले व्यक्ति के रूप में, मैं इन संसाधनों को प्रस्तुत करने के तरीके के विपरीत क्रम में काम करूंगा - चेन की चीटशीट से, लिन की और अंत में वांग की, जैसे-जैसे आप आगे बढ़ते हैं, अवधारणाओं के शीर्ष पर निर्माण करते जाते हैं।

आकृति
विलियम चेन का स्क्रीनशॉट संभाव्यता चीटशीट 2.0
 

एक अंतिम संसाधन जिसे मैं यहां शामिल कर रहा हूं, हालांकि तकनीकी रूप से यह कोई चीटशीट नहीं है ऋषभ आनंद की मशीन लर्निंग बाइट्स. खुद को सामान्य मशीन लर्निंग अवधारणाओं, सर्वोत्तम प्रथाओं, परिभाषाओं और सिद्धांत पर "[ए]एन साक्षात्कार गाइड" के रूप में पेश करते हुए, आनंद ने ज्ञान "बाइट्स" का एक विस्तृत संग्रह संकलित किया है, जिसकी उपयोगिता निश्चित रूप से मूल रूप से इच्छित साक्षात्कार तैयारी से परे है। इसमें शामिल विषयों में शामिल हैं:

  • मॉडल स्कोरिंग मेट्रिक्स
  • पैरामीटर साझाकरण
  • के-फोल्ड क्रॉस वैलिडेशन
  • पायथन डेटा प्रकार
  • मॉडल प्रदर्शन में सुधार
  • कंप्यूटर विज़न मॉडल
  • ध्यान और इसके प्रकार
  • वर्ग असंतुलन को संभालना
  • कंप्यूटर विज़न शब्दावली
  • वेनिला बैकप्रॉपैगेशन
  • नियमितीकरण
  • संदर्भ

आकृति
से स्क्रीनशॉट मशीन लर्निंग बाइट्स
 

जबकि मशीन लर्निंग में "अवधारणाओं, सर्वोत्तम प्रथाओं, परिभाषाओं और सिद्धांत" को छुआ जाता है, जैसा कि संसाधन के विवरण में वादा किया गया है, ये "बाइट्स" निश्चित रूप से व्यावहारिक की ओर ध्यान केंद्रित करते हैं, जो साइट को कवर की गई अधिकांश सामग्री का पूरक बनाता है। पहले उल्लिखित तीन चीटशीट। यदि मैं इस पोस्ट के सभी चार संसाधनों की सारी सामग्री को कवर करना चाह रहा होता, तो मैं निश्चित रूप से अन्य तीन के बाद इस पर भी गौर करता।

तो आपके पास सीखने या समीक्षा के लिए उपयोग करने के लिए चार चीटशीट (या तीन चीटशीट और एक चीटशीट-आसन्न संसाधन) हैं। उम्मीद है कि यहां कुछ आपके लिए उपयोगी है, और मैं किसी को भी उन चीटशीट को साझा करने के लिए आमंत्रित करता हूं जो उन्हें नीचे टिप्पणियों में उपयोगी लगी हैं।

समय टिकट:

से अधिक केडनगेट्स