تصویر توسط نویسنده
شما در این صفحات خواندهاید (و من مقصر نوشتن برخی از آن مقالات هستم) که پروژههای علم داده برای توسعه کل مجموعه مهارتهای علوم دادههای فنی بسیار مهم هستند. این درست است، آنها هستند. اما آنچه نیز حیاتی است داشتن مجموعه داده های با کیفیت بالا برای پروژه های علم داده شماست. جمع آوری داده های با کیفیت فقط است یکی از مراحل پروژه علم داده، اما کسی که می تواند آن را بسازد یا بشکند.
سوال این است که این داده های فریبنده را از کجا می توان پیدا کرد؟ خوشبختانه، وب سایت های متعددی داده های زیادی را برای اهداف مختلف ارائه می دهند.
تصویر توسط نویسنده
شما در مورد شنیده کجگل، احتمالاً شناخته شده ترین پلت فرم در جامعه علم داده است. این مجموعه گسترده ای از مجموعه داده ها را در قالب های مختلف (CSV، JSON، SQLite، BigQuery) و از صنایع و موضوعات مختلف مانند سلامت، خودرو، هنر و سرگرمی، زیست شناسی، علوم اجتماعی، سرمایه گذاری، شبکه های اجتماعی، ورزش و غیره میزبانی می کند. بر. شما همچنین می توانید مجموعه داده ها را بسته به تمرکز فنی آنها جستجو کنید، به عنوان مثال، علوم کامپیوتر، طبقه بندی، بینایی کامپیوتر، NLP، یا تجسم داده ها.
در حال حاضر، 274,855 مجموعه داده در دسترس است، بنابراین شما فاقد داده نخواهید بود.
رابط کاربر پسند و انجمن های فعال جامعه Kaggle آن را به منبعی عالی برای مبتدیان و حرفه ای ها تبدیل کرده است.
اگر از علاقه مندان به یادگیری ماشینی هستید، مخزن یادگیری ماشین UCI باید سایت مراجعه کننده شما باشد. همانطور که از نام آن مشخص است، این مخزن توسط دانشگاه کالیفرنیا، ایروین (UCI) ایجاد شده است. آنها مجموعه گسترده ای از مجموعه داده های طراحی شده برای یادگیری ماشین را جمع آوری کردند. از آنجایی که مجموعه داده ها موضوعات مختلفی را پوشش می دهند، به ویژه مفید هستند این مجموعه داده ها طیف گسترده ای از موضوعات را پوشش می دهند و به ویژه برای کسانی که می خواهند مهارت های یادگیری ماشینی خود را تمرین کرده و بهبود بخشند، مفید هستند.
در حال حاضر 653 مجموعه داده وجود دارد. می توانید آنها را بر اساس نوع داده، حوزه موضوعی، کار، تعداد ویژگی ها و نمونه ها و نوع ویژگی مرور کنید.
StrataScratch 49 مجموعه داده و پروژه را ارائه می دهد که از شرکت های واقعی تهیه شده است. این به ویژه برای کسانی که برای مصاحبه های علم داده آماده می شوند مفید است، زیرا به کاربران کمک می کند تا مهارت های فنی و توانایی خود را برای به دست آوردن بینش تجاری از داده ها توسعه دهند. این امکان یک رویکرد عملی و مرتبط با صنعت را برای پروژه های علم داده فراهم می کند.
این پروژه ها موضوعات مختلفی مانند اکتشاف داده، مهندسی داده، تجزیه و تحلیل کسب و کار، رگرسیون، طبقه بندی، NLP و خوشه بندی را پوشش می دهند.
جستجوی مجموعه داده های گوگل ابزاری است که هدف آن یافتن مجموعه های داده در سراسر وب است. شما از قبل می دانید که چگونه از آن استفاده کنید، حتی اگر تا به حال چیزی در مورد آن نشنیده باشید. چرا؟ خوب، به نظر می رسد و مانند یک جستجوی معمولی در گوگل کار می کند، فقط به طور انحصاری روی یافتن مجموعه داده ها متمرکز است. اگر به دنبال داده هایی از منابع مختلف، مقالات دانشگاهی و پایگاه های داده دولتی هستید، بسیار مفید است.
آمازون مجموعه داده های عمومی AWS برنامه سایت دیگری است که در آن می توانید داده های باز زیادی پیدا کنید. با وجود 494 مجموعه داده در حال حاضر، این یک منبع گرانبها برای دانشمندان داده است. مجموعه داده هایی که در آنجا پیدا می کنید می توانند با سرویس های ابری AWS ادغام شوند. اگر پروژه های شما به منابع محاسباتی بیشتری نیاز دارند، این ممکن است مفید باشد.
گستره داده های موجود شامل ژنومیک، هواشناسی، و نجوم و غیره است.
داده.gov یک مخزن داده است که توسط دولت ایالات متحده حمایت می شود و حاوی داده هایی از سازمان های مختلف ایالات متحده است. این شامل 283,935 مجموعه داده از 132 سازمان ایالات متحده است. مجموعه گسترده ای از داده ها مانند داده های کشاورزی، بهداشت عمومی، امور مالی، آموزش، جمعیت شناسی، اقتصاد و محیط زیست وجود دارد.
مجموعه داده ها تقریباً در 50 فرمت مختلف ارائه می شوند که محبوب ترین آنها شامل HTML، XML، ZIP، CSV، PDF، ArcGIS GeoServices REST API، KML، GeoJSON، JSON و TEXT است.
FiveThirtyEight توسط ABC News مخزن اطلاعات و کد مقالات و گرافیک آنها است. این یک منبع عالی برای روزنامه نگاران داده و هر کسی که علاقه مند به داستان سرایی آماری است. اگر علاقه مند به انجام پروژه هایی هستید که شامل رویدادهای جاری، سیاست، ورزش و موارد دیگر می شود، این منبع شماست.
این بیش از 160 مجموعه داده از سال 2014 تا به امروز ارائه می دهد.
La داده های باز بانک جهانی مجموعه داده های گسترده ای را ارائه می دهد که حول داده های توسعه جهانی می چرخد. این داده ها شامل شاخص هایی در مورد اقتصاد، محیط زیست و مسائل اجتماعی از کشورهای سراسر جهان است. اگر به توسعه جهانی و موضوعات اجتماعی-اقتصادی علاقه مند هستید، ممکن است داده های جالب زیادی را در اینجا بیابید.
GitHub نه تنها یک پلت فرم برای به اشتراک گذاری کد است. همچنین می تواند برای یافتن مجموعه داده ها برای پروژه های داده استفاده شود. بسیاری از سازمان ها و کاربران فردی مجموعه داده های خود را در مخازن GitHub میزبانی می کنند. این داده ها طیف گسترده ای از موضوعات را پوشش می دهد که اغلب توسط اسناد و کدهای گسترده برای تجزیه و تحلیل پشتیبانی می شود.
OpenML یک پلت فرم آنلاین برای یادگیری ماشین است. این همچنین به این معنی است که شما به داده های زیادی دسترسی خواهید داشت. به طور دقیق تر، تقریباً 5,400 مجموعه داده. این برای به اشتراک گذاری، سازماندهی، و بحث در مورد داده ها و نتایج آزمایش های یادگیری ماشین طراحی شده است. OpenML را می توان با محیط های یادگیری ماشینی محبوب ادغام کرد که یک امتیاز برای یادگیری علم داده شما است.
La مجموعه داده های فرعی منبع داده جامعه محور است. مردم همه چیز را در reddit به اشتراک می گذارند. خوب، آنها همچنین مجموعه داده ها را برای پروژه های داده به اشتراک می گذارند و درخواست می کنند. گاهی اوقات یافتن داده در آنجا دشوار است. اما نه به دلیل کمبود اطلاعات. برعکس! این مکان مملو از داده است، که می تواند گاهی اوقات جستجو برای داده ها را کاملاً آشفته کند. دادهها از مجموعه دادههای بسیار خاص و غیر معمول تا سنتیتر متغیر هستند. از آنجایی که این اساسا یک انجمن است، میتوانید در بحثها شرکت کنید و در مورد مجموعه دادهها کمک بخواهید.
اداره آمار اتحادیه اروپا نامیده می شود Eurostatو منبع جامعی از داده است. اگر به داده های آماری باکیفیت در مورد کشورهای عضو اتحادیه اروپا علاقه مند هستید، این باید منبع اصلی داده شما باشد. داده های مربوط به کشورهای اتحادیه اروپا شامل موضوعاتی مانند اقتصاد، جمعیت، سلامت و تجارت است.
HDX یک پلت فرم باز است که در آن می توانید داده های بشردوستانه را پیدا کنید. این دفتر توسط دفتر هماهنگی امور بشردوستانه سازمان ملل متحد اداره می شود. این پلتفرم دادههایی را ارائه میکند که حول بحرانهای بشردوستانه و شرایط اضطراری در هر کشوری در جهان میچرخند. اگر به پروژههایی با تمرکز بر مسائل جهانی، واکنش به بلایا و رفاه انسانی علاقهمند هستید، میتوانید این کار را مفید بدانید.
20,344 مجموعه داده فعال و 2,570 مجموعه داده بایگانی شده با ویژگی ها و قالب های مختلف وجود دارد.
بر CDC، می توانید داده های مربوط به سلامت را پیدا کنید. مجموعه دادهها بر شرایط مختلف سلامت، عوامل خطر و سلامت عمومی متمرکز هستند. بنابراین، اگر اینها موضوعاتی هستند که به آنها علاقه دارید، داده های مفید زیادی را در اینجا پیدا خواهید کرد.
La BLS این سایت دارای داده های زیادی در مورد شرایط اقتصادی ایالات متحده، بازار کار، تغییرات قیمت، کیفیت زندگی، و غیره است. اگر به این موضوعات علاقه داشته باشید، مجموعه داده های با کیفیت زیادی پیدا خواهید کرد.
آخرین منبع داده ای که به آن اشاره خواهم کرد این است ناسا. داده های زیادی در مورد هوافضا، علوم کاربردی، برنامه ها، علوم زمین، مدیریت/عملیات، داده های خام، نرم افزار و علوم فضایی وجود دارد.
این دارای بیش از 10,000 مجموعه داده است، بنابراین در دنیای داده های آن گم نشوید!
مطمئنم این 16 وب سایت به شما داده های کافی برای کار تا پایان زمان می دهند که دقیقا هدف من همین بود! با این حال، حجم داده ها همه چیز نیست.
من این سایت ها را انتخاب کرده ام زیرا طیف بسیار متنوعی از مجموعه داده های مناسب برای انواع پروژه های علم داده را در اختیار شما قرار می دهند. مشخصات مجموعه داده از صنعتی به صنعت دیگر متفاوت است. بنابراین، کار با مجموعه داده های مختلف همچنین به شما امکان می دهد دانش دامنه را به دست آورید.
فرقی نمیکند در یادگیری ماشین، تجزیه و تحلیل دادهها، روزنامهنگاری داده، تجزیه و تحلیل آماری یا تجسم دادهها تحقیق کنید، همیشه میتوانید روی این منابع حساب کنید.
اکنون، شما می توانید پروژه علم داده خود را انجام دهید! اگر به ایده های بیشتری نیاز دارید، در اینجا برخی از آنها وجود دارد پروژه های علم داده شما می توانید به عنوان یک مبتدی انجام دهید.
ناتی روزیدی یک دانشمند داده و در استراتژی محصول است. او همچنین یک استاد کمکی در تدریس تجزیه و تحلیل است و بنیانگذار آن است StrataScratch، پلتفرمی است که به دانشمندان داده کمک می کند تا برای مصاحبه های خود با سؤالات مصاحبه واقعی از شرکت های برتر آماده شوند. با او ارتباط برقرار کنید توییتر: StrataScratch or لینک.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://www.kdnuggets.com/top-16-technical-data-sources-for-advanced-data-science-projects?utm_source=rss&utm_medium=rss&utm_campaign=top-16-technical-data-sources-for-advanced-data-science-projects
- : دارد
- :است
- :نه
- :جایی که
- 000
- 10
- 16
- 160
- 20
- 2014
- 400
- 49
- 50
- a
- الفبا
- توانایی
- درباره ما
- در مورد IT
- دانشگاهی
- دسترسی
- در میان
- فعال
- واقعی
- کمکی
- پیشرفته
- هوافضا
- امور
- کشاورزی
- اجازه می دهد تا
- تقریبا
- قبلا
- همچنین
- همیشه
- در میان
- مقدار
- an
- تحلیل
- علم تجزیه و تحلیل
- و
- دیگر
- هر کس
- API
- اعمال می شود
- روش
- برنامه های
- هستند
- محدوده
- دور و بر
- صف
- مقالات
- هنر
- AS
- پرسیدن
- کمک
- ستاره شناسی
- خودرو
- در دسترس
- AWS
- بانک
- اساسا
- BE
- زیرا
- مبتدی
- مبتدی ها
- مفید
- بزرگ نمایی
- زیست شناسی
- جایزه
- هر دو
- شکستن
- کسب و کار
- اما
- by
- کالیفرنیا
- نام
- CAN
- CDC
- تبادل
- برگزیده
- طبقه بندی
- ابر
- خدمات ابر
- خوشه بندی
- رمز
- جمع آوری
- مجموعه
- COM
- بیا
- انجمن
- جامعه محور
- شرکت
- جامع
- کامپیوتر
- علم کامپیوتر
- چشم انداز کامپیوتر
- محاسبه
- شرایط
- اتصال
- شامل
- هماهنگی
- میتوانست
- تعداد دفعات مشاهده
- کشور
- کشور
- پوشش
- را پوشش می دهد
- ایجاد شده
- بحران
- بسیار سخت
- جاری
- در حال حاضر
- داده ها
- تحلیل داده ها
- علم اطلاعات
- دانشمند داده
- تجسم داده ها
- پایگاه های داده
- مجموعه داده ها
- جمعیت
- بستگی دارد
- استخراج
- طراحی
- توسعه
- در حال توسعه
- پروژه
- متفاوت است
- مختلف
- مشکل
- فاجعه
- بحث در مورد
- بحث و گفتگو
- مختلف
- do
- مستندات
- عمل
- دامنه
- آیا
- e
- زمین
- اقتصادی
- شرایط اقتصادی
- اقتصاد (Economics)
- اقتصاد
- آموزش
- پایان
- مهندسی
- کافی
- سرگرمی
- علاقهمند
- محیط
- محیطی
- محیط
- به خصوص
- و غیره
- اتر (ETH)
- EU
- اروپا
- اروپایی
- اتحادیه اروپا
- حتی
- حوادث
- هر
- همه چیز
- عالی
- منحصرا
- آزمایش
- اکتشاف
- وسیع
- خیلی
- عوامل
- ویژگی
- امکانات
- سرمایه گذاری
- پیدا کردن
- پیدا کردن
- تمرکز
- متمرکز شده است
- تمرکز
- برای
- خوشبختانه
- انجمن
- انجمن
- موسس
- از جانب
- افزایش
- ژنومیک
- دریافت کنید
- GitHub
- دادن
- دادن
- جهانی
- گوگل
- جستجوی گوگل
- دولت
- گرافیک
- گناهکار
- داشتن
- he
- سلامتی
- شنیده
- مفید
- کمک
- کمک می کند
- اینجا کلیک نمایید
- با کیفیت بالا
- خیلی
- او را
- میزبان
- میزبان
- چگونه
- چگونه
- اما
- HTML
- HTTPS
- انسان
- بشردوستانه
- من می خواهم
- ICS
- ایده ها
- if
- بهبود
- in
- شامل
- از جمله
- شاخص ها
- فرد
- لوازم
- صنعت
- بینش
- نمونه ها
- یکپارچه
- علاقه مند
- جالب
- رابط
- مصاحبه
- سوالات مصاحبه
- مصاحبه
- به
- سرمایه گذاری
- شامل
- مسائل
- IT
- ITS
- روزنامه نگاری
- روزنامه نگاران
- json
- تنها
- kdnuggets
- دانستن
- دانش
- کار
- بازار کار
- عدم
- فاقد
- نام
- یادگیری
- زندگی
- پسندیدن
- لینک
- به دنبال
- مطالب
- از دست رفته
- خیلی
- مقدار زیادی
- دستگاه
- فراگیری ماشین
- اصلی
- ساخت
- اداره می شود
- بازار
- به معنی
- عضو
- ذکر
- قدرت
- بیش
- اکثر
- محبوبترین
- چندگانه
- my
- نام
- ناسا
- سازمان ملل
- نیاز
- شبکه
- هرگز
- اخبار
- nlp
- اکنون
- عدد
- متعدد
- of
- ارائه
- پیشنهادات
- دفتر
- غالبا
- on
- ONE
- آنلاین
- فقط
- باز کن
- داده های باز
- or
- سازمان های
- سازماندهی
- دیگران
- خود
- بسته
- صفحات
- اوراق
- شرکت کردن
- ویژه
- مردم
- کامل
- محل
- سکو
- افلاطون
- هوش داده افلاطون
- PlatoData
- سیاست
- محبوب
- جمعیت
- عملی
- تمرین
- گرانبها
- دقیقا
- آماده
- آماده
- قیمت
- شاید
- محصول
- حرفه ای
- معلم
- برنامه
- پروژه ها
- ارائه
- فراهم می کند
- عمومی
- سلامت عمومی
- هدف
- اهداف
- کیفیت
- داده های کافی
- سوال
- سوالات
- کاملا
- محدوده
- محدوده ها
- خام
- داده های خام
- خواندن
- واقعی
- ق
- رگرسیون
- منظم
- مخزن
- درخواست
- نیاز
- تحقیق
- منابع
- منابع
- پاسخ
- REST
- نتایج
- خطر
- عوامل خطر
- s
- می گوید:
- علم
- دانشمند
- دانشمندان
- جستجو
- خدمات
- اشتراک گذاری
- اشتراک
- باید
- سایت
- سایت
- مهارت ها
- So
- آگاهی
- معضلات اجتماعی
- شبکه های اجتماعی
- نرم افزار
- برخی از
- گاهی
- منبع
- منبع
- منابع
- فضا
- خاص
- به طور خاص
- جزئیات
- حمایت مالی
- ورزش ها
- مراحل
- آماری
- داستان سرایی
- استراتژی
- موضوع
- چنین
- مناسب
- پشتیبانی
- مطمئن
- طراحی شده
- کار
- تعلیم
- فنی
- مهارتهای فنی
- متن
- نسبت به
- که
- La
- جهان
- شان
- آنها
- آنجا.
- اینها
- آنها
- این
- کسانی که
- زمان
- به
- امروز
- ابزار
- بالا
- تاپیک
- تجارت
- سنتی
- درست
- نوع
- اتحادیه
- متحد
- سازمان ملل
- جهان
- دانشگاه
- دانشگاه کالیفرنیا
- تا
- غیر معمول
- us
- دولت ایالات متحده
- استفاده کنید
- استفاده
- مفید
- کاربر پسند
- کاربران
- تنوع
- مختلف
- وسیع
- بسیار
- بسیار متنوع
- دید
- تجسم
- حیاتی
- میخواهم
- بود
- ثروت
- وب
- وب سایت
- رفاه
- خوب
- معروف
- که
- تمام
- که
- چرا
- وسیع
- دامنه گسترده
- اراده
- با
- مهاجرت کاری
- کارگر
- با این نسخهها کار
- جهان
- نوشته
- XML
- شما
- شما
- زفیرنت
- زیپ