أفضل 16 مصدرًا للبيانات الفنية لمشاريع علوم البيانات المتقدمة - KDnuggets

أفضل 16 مصدرًا للبيانات التقنية لمشاريع علوم البيانات المتقدمة - KDnuggets

عقدة المصدر: 3081921

أفضل 16 مصدرًا للبيانات الفنية لمشاريع علوم البيانات المتقدمة
صورة المؤلف
 

لقد قرأت في هذه الصفحات (وأنا مذنب بكتابة بعض هذه المقالات) أن مشاريع علوم البيانات ضرورية لتطوير المجموعة الكاملة من المهارات التقنية لعلم البيانات. هذا صحيح، إنهم كذلك. ولكن الأمر الحيوي أيضًا هو وجود مجموعات بيانات عالية الجودة لمشاريع علوم البيانات الخاصة بك. جمع البيانات عالية الجودة أمر عادل إحدى مراحل مشروع علم البياناتولكن الذي يستطيع أن يصنعها أو يكسرها.

والسؤال هو، أين يمكن العثور على هذه البيانات المزعجة؟ ولحسن الحظ، تقدم العديد من مواقع الويب ثروة من البيانات لأغراض مختلفة.

 

أفضل 16 مصدرًا للبيانات الفنية لمشاريع علوم البيانات المتقدمة
صورة المؤلف

سمعت عنه Kaggleربما تكون المنصة الأكثر شهرة في مجتمع علوم البيانات. وهي تستضيف مجموعة واسعة من مجموعات البيانات بتنسيقات مختلفة (CSV وJSON وSQLite وBigQuery) ومن صناعات وموضوعات متعددة، مثل الصحة والسيارات والفنون والترفيه وعلم الأحياء والعلوم الاجتماعية والاستثمار والشبكات الاجتماعية والرياضة وما إلى ذلك. على. يمكنك أيضًا البحث عن مجموعات البيانات اعتمادًا على تركيزها الفني، على سبيل المثال، علوم الكمبيوتر، أو التصنيف، أو رؤية الكمبيوتر، أو البرمجة اللغوية العصبية (NLP)، أو تصور البيانات.

حاليًا، هناك 274,855 مجموعة بيانات متاحة، لذلك لن تفتقر إلى البيانات.

واجهة Kaggle سهلة الاستخدام ومنتديات المجتمع النشطة تجعلها مصدرًا ممتازًا لكل من المبتدئين والمحترفين.

إذا كنت من عشاق التعلم الآلي، فإن مستودع التعلم الآلي UCI ينبغي أن يكون موقعك المفضل. كما يوحي الاسم، تم إنشاء هذا المستودع من قبل جامعة كاليفورنيا، إيرفين (UCI). لقد جمعوا مجموعة واسعة من مجموعات البيانات المصممة للتعلم الآلي. نظرًا لأن مجموعات البيانات تغطي موضوعات مختلفة، فهي مفيدة بشكل خاص. تغطي مجموعات البيانات هذه مجموعة واسعة من المواضيع وهي مفيدة بشكل خاص لأولئك الذين يرغبون في ممارسة مهارات التعلم الآلي وتحسينها.

يوجد حاليًا 653 مجموعة بيانات؛ يمكنك تصفحها حسب نوع البيانات ومنطقة الموضوع والمهمة وعدد الميزات والمثيلات ونوع الميزة.

ستراتا سكراتش يوفر 49 مجموعة بيانات ومشروعات مصدرها شركات فعلية. وهذا مفيد بشكل خاص لأولئك الذين يستعدون للمقابلات المتعلقة بعلوم البيانات، لأنه يساعد المستخدمين على تطوير مهاراتهم الفنية وقدرتهم على استخلاص رؤى الأعمال من البيانات. وهذا يسمح باتباع نهج عملي ومتعلق بالصناعة لمشاريع علوم البيانات.

تغطي المشاريع موضوعات مختلفة، مثل استكشاف البيانات، وهندسة البيانات، وتحليل الأعمال، والانحدار، والتصنيف، ومعالجة اللغات الطبيعية، والتجميع.

بحث Google Dataset هي أداة تهدف إلى العثور على مجموعات البيانات عبر الويب. أنت تعرف بالفعل كيفية استخدامه، حتى لو لم تسمع عنه من قبل حتى الآن. لماذا؟ حسنًا، إنه يبدو ويعمل مثل بحث Google العادي، ولكنه يركز حصريًا على العثور على مجموعات البيانات. إنه مفيد للغاية إذا كنت تبحث عن بيانات من مصادر مختلفة، وأبحاث أكاديمية، وقواعد بيانات حكومية.

الأمازون مجموعات بيانات AWS العامة البرنامج هو موقع آخر حيث يمكنك العثور على الكثير من البيانات المفتوحة. مع توفر 494 مجموعة بيانات حاليًا، فهي مورد ثمين لعلماء البيانات. يمكن دمج مجموعات البيانات التي تجدها هناك مع خدمات AWS السحابية. قد يكون هذا مفيدًا إذا كانت مشاريعك تتطلب المزيد من موارد الحوسبة. 

يشمل نطاق البيانات المتاحة علم الجينوم، والأرصاد الجوية، وعلم الفلك، من بين أمور أخرى.

Data.gov هو مستودع بيانات ترعاه حكومة الولايات المتحدة ويحتوي على بيانات من منظمات أمريكية مختلفة. ويتضمن 283,935 مجموعة بيانات من 132 منظمة أمريكية. هناك مجموعة واسعة من البيانات، مثل الزراعة والصحة العامة والمالية والتعليم والتركيبة السكانية والاقتصاد والبيانات البيئية.

تأتي مجموعات البيانات في ما يقرب من 50 تنسيقًا مختلفًا، وأكثرها شيوعًا بما في ذلك HTML وXML وZIP وCSV وPDF وArcGIS GeoServices REST API وKML وGeoJSON وJSON وTEXT.

FiveThirtyEight بواسطة ABC News هو مستودع بيانات وأكواد مقالاتهم ورسوماتهم. إنه مورد مثالي لصحفيي البيانات وأي شخص مهتم بسرد القصص الإحصائية. إذا كنت مهتمًا بالقيام بمشاريع تتضمن الأحداث الجارية والسياسة والرياضة والمزيد، فهذا هو مصدرك. 

ويقدم أكثر من 160 مجموعة بيانات من عام 2014 حتى اليوم.

البيانات المفتوحة للبنك الدولي يقدم مجموعات بيانات واسعة النطاق تدور حول بيانات التنمية العالمية. تتضمن هذه البيانات مؤشرات حول الاقتصاد والبيئة والقضايا الاجتماعية من دول حول العالم. إذا كنت مهتمًا بالتنمية العالمية والموضوعات الاجتماعية والاقتصادية، فقد تجد الكثير من البيانات المثيرة للاهتمام هنا.

GitHub جيثب: ليست مجرد منصة لمشاركة التعليمات البرمجية. ويمكن استخدامه أيضًا للعثور على مجموعات البيانات لمشاريع البيانات. يستضيف الكثير من المؤسسات والمستخدمين الفرديين مجموعات البيانات الخاصة بهم على مستودعات GitHub. تغطي هذه البيانات نطاقًا واسعًا من المواضيع، وغالبًا ما تكون مدعومة بوثائق واسعة النطاق وكود للتحليل.

أوبنمل هي منصة على الإنترنت للتعلم الآلي. وهذا يعني أيضًا منحك إمكانية الوصول إلى الكثير من البيانات. وبشكل أكثر تحديدًا، ما يقرب من 5,400 مجموعة بيانات. إنه مصمم لمشاركة وتنظيم ومناقشة البيانات ونتائج تجارب التعلم الآلي. يمكن دمج OpenML مع بيئات التعلم الآلي الشائعة، وهو ما يعد ميزة إضافية لتعلم علوم البيانات. 

مجموعات البيانات الفرعية هو مصدر للبيانات يحركه المجتمع. يشارك الناس كل شيء على رديت. حسنًا، إنهم أيضًا يشاركون ويطلبون مجموعات البيانات لمشاريع البيانات. في بعض الأحيان يكون من الصعب العثور على البيانات هناك. ولكن ليس بسبب نقص البيانات. على العكس تماما! يمتلئ المكان بالبيانات، مما قد يجعل البحث عن البيانات فوضويًا للغاية في بعض الأحيان. تتراوح البيانات من مجموعات بيانات محددة للغاية وغير عادية إلى مجموعات بيانات أكثر تقليدية. نظرًا لأن هذا منتدى في الأساس، يمكنك أيضًا المشاركة في المناقشات وطلب المساعدة فيما يتعلق بمجموعات البيانات. 

ويسمى المكتب الإحصائي للاتحاد الأوروبي (يوروستات)، وهو مصدر شامل للبيانات. إذا كنت مهتمًا بالحصول على بيانات إحصائية عالية الجودة حول الدول الأعضاء في الاتحاد الأوروبي، فيجب أن يكون هذا هو مصدر بياناتك الرئيسي. تتضمن البيانات الخاصة بدول الاتحاد الأوروبي موضوعات مثل الاقتصاد والسكان والصحة والتجارة.

HDX هي منصة مفتوحة حيث يمكنك العثور على البيانات الإنسانية. ويديرها مكتب الأمم المتحدة لتنسيق الشؤون الإنسانية. توفر هذه المنصة بيانات تدور حول الأزمات الإنسانية وحالات الطوارئ في كل دولة في العالم. قد تجد هذا مفيدًا إذا كنت مهتمًا بمشاريع تركز على القضايا العالمية والاستجابة للكوارث ورفاهية الإنسان.

هناك 20,344 مجموعة بيانات نشطة و2,570 مجموعة بيانات مؤرشفة ذات ميزات وتنسيقات متنوعة.

على CDC، يمكنك العثور على البيانات المتعلقة بالصحة. وتركز مجموعات البيانات على مختلف الظروف الصحية، وعوامل الخطر، والصحة العامة. لذا، إذا كانت هذه هي المواضيع التي تهمك، فستجد الكثير من البيانات المفيدة هنا.

BLS يحتوي الموقع على الكثير من البيانات حول الظروف الاقتصادية في الولايات المتحدة، وسوق العمل، وتغيرات الأسعار، ونوعية الحياة، وما إلى ذلك. ستجد الكثير من مجموعات البيانات عالية الجودة إذا كنت مهتمًا بهذه المواضيع. 

المصدر الأخير للبيانات الذي سأذكره هو وكالة ناسا. هناك الكثير من البيانات المتعلقة بالفضاء والعلوم التطبيقية والتطبيقات وعلوم الأرض والإدارة/العمليات والبيانات الأولية والبرمجيات وعلوم الفضاء.

فهو يحتوي على أكثر من 10,000 مجموعة بيانات، لذا لا تضيع في عالم البيانات الخاص به!

أنا متأكد من أن هذه المواقع الستة عشر ستمنحك بيانات كافية للعمل عليها حتى نهاية الوقت، وهو ما كان هدفي على وجه التحديد! ومع ذلك، فإن كمية البيانات ليست كل شيء.

لقد اخترت هذه المواقع لأنها ستزودك بمجموعة متنوعة جدًا من مجموعات البيانات المناسبة لمجموعة متنوعة من مشاريع علوم البيانات. تختلف تفاصيل مجموعة البيانات من صناعة إلى أخرى. لذا، فإن العمل مع مجموعات البيانات المختلفة يتيح لك أيضًا اكتساب المعرفة بالمجال.

سواء كنت تتعمق في التعلم الآلي، أو تحليل البيانات، أو صحافة البيانات، أو التحليل الإحصائي، أو تصور البيانات، يمكنك دائمًا الاعتماد على هذه الموارد.

الآن، يمكنك القيام بمشروع علم البيانات الخاص بك! إذا كنت بحاجة إلى مزيد من الأفكار، فإليك بعضًا منها مشاريع علوم البيانات يمكنك القيام به كمبتدئ.
 
 

نيت روزيدي هو عالم بيانات وفي استراتيجية المنتج. وهو أيضًا أستاذ مساعد يقوم بتدريس التحليلات ، وهو مؤسس ستراتا سكراتش، وهي منصة تساعد علماء البيانات على الاستعداد لمقابلاتهم مع أسئلة مقابلة حقيقية من الشركات الكبرى. تواصل معه تويتر: StrataScratch or لينكدين:.

الطابع الزمني:

اكثر من KD nuggets