उन्नत डेटा विज्ञान परियोजनाओं के लिए शीर्ष 16 तकनीकी डेटा स्रोत - केडीनगेट्स

उन्नत डेटा विज्ञान परियोजनाओं के लिए शीर्ष 16 तकनीकी डेटा स्रोत - केडीनगेट्स

स्रोत नोड: 3081921

उन्नत डेटा विज्ञान परियोजनाओं के लिए शीर्ष 16 तकनीकी डेटा स्रोत
लेखक द्वारा छवि
 

आपने इन पृष्ठों पर पढ़ा है (और मैं उनमें से कुछ लेख लिखने का दोषी हूं) कि तकनीकी डेटा विज्ञान कौशल के पूरे पैकेज को विकसित करने के लिए डेटा विज्ञान परियोजनाएं महत्वपूर्ण हैं। यह सच है, वे हैं। लेकिन आपके डेटा विज्ञान परियोजनाओं के लिए उच्च गुणवत्ता वाले डेटासेट का होना भी महत्वपूर्ण है। गुणवत्तापूर्ण डेटा एकत्र करना ही उचित है डेटा विज्ञान परियोजना के चरणों में से एक, लेकिन वह जो इसे बना या बिगाड़ सकता है।

सवाल यह है कि यह मामूली डेटा कहां मिलेगा? सौभाग्य से, अनेक वेबसाइटें विभिन्न प्रयोजनों के लिए प्रचुर मात्रा में डेटा उपलब्ध करा रही हैं।

 

उन्नत डेटा विज्ञान परियोजनाओं के लिए शीर्ष 16 तकनीकी डेटा स्रोत
लेखक द्वारा छवि

आपने के बारे में सुना Kaggle, शायद डेटा विज्ञान समुदाय में सबसे प्रसिद्ध मंच। यह विभिन्न प्रारूपों (CSV, JSON, SQLite, BigQuery) और स्वास्थ्य, ऑटोमोटिव, कला और मनोरंजन, जीवविज्ञान, सामाजिक विज्ञान, निवेश, सामाजिक नेटवर्क, खेल इत्यादि जैसे कई उद्योगों और विषयों से डेटासेट की एक विशाल श्रृंखला होस्ट करता है। पर। आप डेटासेट को उनके तकनीकी फोकस के आधार पर भी खोज सकते हैं, उदाहरण के लिए, कंप्यूटर विज्ञान, वर्गीकरण, कंप्यूटर विज़न, एनएलपी, या डेटा विज़ुअलाइज़ेशन।

वर्तमान में, 274,855 डेटासेट उपलब्ध हैं, इसलिए आपको डेटा की कमी नहीं होगी।

कागल का उपयोगकर्ता-अनुकूल इंटरफ़ेस और सक्रिय सामुदायिक मंच इसे शुरुआती और पेशेवरों दोनों के लिए एक उत्कृष्ट संसाधन बनाते हैं।

यदि आप मशीन सीखने के शौकीन हैं, तो यूसीआई मशीन लर्निंग रिपॉजिटरी आपकी पसंदीदा साइट होनी चाहिए। जैसा कि नाम से पता चलता है, यह रिपॉजिटरी कैलिफोर्निया विश्वविद्यालय, इरविन (यूसीआई) द्वारा बनाई गई है। उन्होंने मशीन लर्निंग के लिए तैयार किए गए डेटासेट का एक व्यापक संग्रह एकत्र किया। चूंकि डेटासेट विभिन्न विषयों को कवर करते हैं, इसलिए वे विशेष रूप से उपयोगी होते हैं। ये डेटासेट विषयों की एक विस्तृत श्रृंखला को कवर करते हैं और उन लोगों के लिए विशेष रूप से उपयोगी होते हैं जो अभ्यास करना चाहते हैं और अपने मशीन-लर्निंग कौशल में सुधार करना चाहते हैं।

वर्तमान में 653 डेटासेट हैं; आप उन्हें डेटा प्रकार, विषय क्षेत्र, कार्य, सुविधाओं और उदाहरणों की संख्या और सुविधा प्रकार के आधार पर ब्राउज़ कर सकते हैं।

स्ट्रैट स्क्रैच वास्तविक कंपनियों से प्राप्त 49 डेटासेट और प्रोजेक्ट प्रदान करता है। यह डेटा विज्ञान साक्षात्कार की तैयारी करने वालों के लिए विशेष रूप से फायदेमंद है, क्योंकि यह उपयोगकर्ताओं को अपने तकनीकी कौशल और डेटा से व्यावसायिक अंतर्दृष्टि प्राप्त करने की क्षमता विकसित करने में मदद करता है। यह डेटा विज्ञान परियोजनाओं के लिए एक व्यावहारिक और उद्योग-प्रासंगिक दृष्टिकोण की अनुमति देता है।

परियोजनाएं विभिन्न विषयों को कवर करती हैं, जैसे डेटा अन्वेषण, डेटा इंजीनियरिंग, व्यवसाय विश्लेषण, प्रतिगमन, वर्गीकरण, एनएलपी और क्लस्टरिंग।

Google डेटासेट खोज एक उपकरण है जिसका उद्देश्य वेब पर डेटासेट ढूंढना है। आप पहले से ही जानते हैं कि इसका उपयोग कैसे करना है, भले ही आपने अब तक इसके बारे में कभी नहीं सुना हो। क्यों? खैर, यह एक नियमित Google खोज की तरह दिखता है और काम करता है, केवल यह विशेष रूप से डेटासेट खोजने पर केंद्रित है। यदि आप विभिन्न स्रोतों, अकादमिक पेपरों और सरकारी डेटाबेस से डेटा ढूंढ रहे हैं तो यह बेहद उपयोगी है।

अमेज़न के AWS सार्वजनिक डेटासेट प्रोग्राम एक अन्य साइट है जहां आप बहुत सारा खुला डेटा पा सकते हैं। वर्तमान में उपलब्ध 494 डेटासेट के साथ, यह डेटा वैज्ञानिकों के लिए एक बहुमूल्य संसाधन है। वहां आपको जो डेटासेट मिलेंगे, उन्हें AWS क्लाउड सेवाओं के साथ एकीकृत किया जा सकता है। यदि आपकी परियोजनाओं को अधिक कंप्यूटिंग संसाधनों की आवश्यकता होती है तो यह सहायक हो सकता है। 

उपलब्ध डेटा की श्रेणी में जीनोमिक्स, मौसम विज्ञान और खगोल विज्ञान सहित अन्य शामिल हैं।

Data.gov अमेरिकी सरकार द्वारा प्रायोजित एक डेटा भंडार है और इसमें विभिन्न अमेरिकी संगठनों का डेटा शामिल है। इसमें 283,935 अमेरिकी संगठनों के 132 डेटासेट शामिल हैं। डेटा की एक विस्तृत श्रृंखला है, जैसे कृषि, सार्वजनिक स्वास्थ्य, वित्त, शिक्षा, जनसांख्यिकी, अर्थशास्त्र और पर्यावरण डेटा।

डेटासेट लगभग 50 अलग-अलग प्रारूपों में आते हैं, जिनमें HTML, XML, ZIP, CSV, PDF, ArcGIS जियोसर्विसेज REST API, KML, जियोJSON, JSON और TEXT शामिल हैं।

FiveThirtyEight एबीसी न्यूज द्वारा उनके लेख और ग्राफिक्स का डेटा और कोड भंडार है। यह डेटा पत्रकारों और सांख्यिकीय कहानी कहने में रुचि रखने वाले किसी भी व्यक्ति के लिए एक आदर्श संसाधन है। यदि आप ऐसी परियोजनाएं करने में रुचि रखते हैं जिनमें समसामयिक घटनाएं, राजनीति, खेल और बहुत कुछ शामिल है, तो यह आपका स्रोत है। 

यह 160 से आज तक 2014 से अधिक डेटासेट प्रदान करता है।

RSI विश्व बैंक ओपन डेटा वैश्विक विकास डेटा के इर्द-गिर्द घूमने वाले व्यापक डेटासेट प्रदान करता है। इस डेटा में दुनिया भर के देशों की अर्थव्यवस्था, पर्यावरण और सामाजिक मुद्दों के संकेतक शामिल हैं। यदि आप वैश्विक विकास और सामाजिक-आर्थिक विषयों में रुचि रखते हैं, तो आपको यहां बहुत सारे दिलचस्प डेटा मिल सकते हैं।

GitHub यह केवल कोड साझा करने का मंच नहीं है। इसका उपयोग डेटा परियोजनाओं के लिए डेटासेट खोजने के लिए भी किया जा सकता है। बहुत सारे संगठन और व्यक्तिगत उपयोगकर्ता GitHub रिपॉजिटरी पर अपने डेटासेट होस्ट करते हैं। यह डेटा विषयों की एक विस्तृत श्रृंखला को कवर करता है, जो अक्सर विश्लेषण के लिए व्यापक दस्तावेज़ीकरण और कोड द्वारा समर्थित होता है।

ओपनएमएल मशीन लर्निंग के लिए एक ऑनलाइन प्लेटफ़ॉर्म है। इसका मतलब आपको ढेर सारे डेटा तक पहुंच प्रदान करना भी है। अधिक विशेष रूप से, लगभग 5,400 डेटासेट। इसे मशीन लर्निंग प्रयोगों के डेटा और परिणामों को साझा करने, व्यवस्थित करने और चर्चा करने के लिए डिज़ाइन किया गया है। ओपनएमएल को लोकप्रिय मशीन लर्निंग वातावरण के साथ एकीकृत किया जा सकता है, जो आपके डेटा विज्ञान सीखने के लिए एक बोनस है। 

RSI डेटासेट सबरेडिट डेटा का एक समुदाय-संचालित स्रोत है। Reddit पर लोग हर चीज़ शेयर करते हैं. खैर, वे डेटा परियोजनाओं के लिए डेटासेट साझा और अनुरोध भी करते हैं। कभी-कभी वहां डेटा ढूंढना मुश्किल होता है। लेकिन डेटा की कमी के कारण नहीं. इसके विपरीत! यह स्थान डेटा से भरा हुआ है, जो कभी-कभी डेटा की खोज को काफी अव्यवस्थित बना सकता है। डेटा अत्यधिक विशिष्ट और असामान्य से लेकर अधिक पारंपरिक डेटासेट तक होता है। चूंकि यह मूल रूप से एक मंच है, आप चर्चाओं में भी भाग ले सकते हैं और डेटासेट के संबंध में सहायता मांग सकते हैं। 

यूरोपीय संघ का सांख्यिकी कार्यालय कहा जाता है यूरोस्टेट, और यह डेटा का एक व्यापक स्रोत है। यदि आप यूरोपीय संघ के सदस्य देशों के बारे में उच्च-गुणवत्ता वाले सांख्यिकीय डेटा में रुचि रखते हैं, तो यह आपका मुख्य डेटा स्रोत होना चाहिए। यूरोपीय संघ के देशों के डेटा में अर्थव्यवस्था, जनसंख्या, स्वास्थ्य और व्यापार जैसे विषय शामिल हैं।

एचडीएक्स एक खुला मंच है जहाँ आप मानवीय डेटा पा सकते हैं। इसका प्रबंधन मानवीय मामलों के समन्वय के लिए संयुक्त राष्ट्र कार्यालय द्वारा किया जाता है। यह प्लेटफ़ॉर्म दुनिया के हर देश में मानवीय संकटों और आपात स्थितियों से जुड़ा डेटा प्रदान करता है। यदि आप वैश्विक मुद्दों, आपदा प्रतिक्रिया और मानव कल्याण पर ध्यान केंद्रित करने वाली परियोजनाओं में रुचि रखते हैं तो यह आपके लिए उपयोगी हो सकता है।

विभिन्न विशेषताओं और प्रारूपों के साथ 20,344 सक्रिय और 2,570 संग्रहीत डेटासेट हैं।

पर सीडीसी, आप स्वास्थ्य संबंधी डेटा पा सकते हैं। डेटासेट विभिन्न स्वास्थ्य स्थितियों, जोखिम कारकों और सार्वजनिक स्वास्थ्य पर केंद्रित हैं। इसलिए, यदि ये वे विषय हैं जिनमें आपकी रुचि है, तो आपको यहां बहुत सारा उपयोगी डेटा मिलेगा।

RSI BLS साइट में अमेरिकी आर्थिक स्थितियों, श्रम बाजार, मूल्य परिवर्तन, जीवन की गुणवत्ता आदि पर बहुत सारा डेटा है। यदि आप उन विषयों में रुचि रखते हैं तो आपको बहुत सारे गुणवत्ता वाले डेटासेट मिलेंगे। 

डेटा का अंतिम स्रोत जिसका मैं उल्लेख करूंगा वह है नासा. एयरोस्पेस, अनुप्रयुक्त विज्ञान, ऐप्स, पृथ्वी विज्ञान, प्रबंधन/संचालन, कच्चा डेटा, सॉफ्टवेयर और अंतरिक्ष विज्ञान पर बहुत सारा डेटा है।

इसमें 10,000 से अधिक डेटासेट हैं, इसलिए इसके डेटा के ब्रह्मांड में न खोएं!

मुझे यकीन है कि ये 16 वेबसाइटें आपको अंत तक काम करने के लिए पर्याप्त डेटा देंगी, जो वास्तव में मेरा लक्ष्य था! हालाँकि, डेटा की मात्रा ही सब कुछ नहीं है।

मैंने इन साइटों को इसलिए चुना है क्योंकि वे आपको विभिन्न डेटा विज्ञान परियोजनाओं के लिए उपयुक्त डेटासेट की एक बहुत ही विविध श्रृंखला प्रदान करेंगी। डेटासेट की विशिष्टताएँ उद्योग से उद्योग में भिन्न होती हैं। इसलिए, विभिन्न डेटासेट के साथ काम करने से आपको डोमेन ज्ञान भी प्राप्त होता है।

चाहे आप मशीन लर्निंग, डेटा विश्लेषण, डेटा पत्रकारिता, सांख्यिकीय विश्लेषण, या डेटा विज़ुअलाइज़ेशन में गहराई से उतर रहे हों, आप हमेशा इन संसाधनों पर भरोसा कर सकते हैं।

अब, आप अपना स्वयं का डेटा विज्ञान प्रोजेक्ट कर सकते हैं! यदि आपको अधिक विचारों की आवश्यकता है, तो यहां कुछ हैं डेटा विज्ञान परियोजनाओं आप एक शुरुआती के रूप में कर सकते हैं।
 
 

नैट रोसीडि एक डेटा वैज्ञानिक और उत्पाद रणनीति में है। वह एनालिटिक्स पढ़ाने वाले एक सहायक प्रोफेसर भी हैं, और के संस्थापक हैं स्ट्रैट स्क्रैच, शीर्ष कंपनियों के वास्तविक साक्षात्कार प्रश्नों के साथ डेटा वैज्ञानिकों को उनके साक्षात्कार के लिए तैयार करने में मदद करने वाला एक मंच। उसके साथ जुड़ें ट्विटर: स्ट्रैट स्क्रैच or लिंक्डइन.

समय टिकट:

से अधिक केडनगेट्स

KDnuggets News, 18 जनवरी: SQL का अभ्यास करने के लिए 7 सर्वश्रेष्ठ प्लेटफ़ॉर्म • व्याख्या योग्य AI: आपके मॉडल के निर्णयों को समझने के लिए 10 Python लाइब्रेरी

स्रोत नोड: 1909830
समय टिकट: जनवरी 18, 2023