16 منبع داده فنی برتر برای پروژه های پیشرفته علم داده - KDnuggets

16 منبع داده فنی برتر برای پروژه های پیشرفته علم داده - KDnuggets

گره منبع: 3081921

16 منبع داده فنی برتر برای پروژه های پیشرفته علم داده
تصویر توسط نویسنده
 

شما در این صفحات خوانده‌اید (و من مقصر نوشتن برخی از آن مقالات هستم) که پروژه‌های علم داده برای توسعه کل مجموعه مهارت‌های علوم داده‌های فنی بسیار مهم هستند. این درست است، آنها هستند. اما آنچه نیز حیاتی است داشتن مجموعه داده های با کیفیت بالا برای پروژه های علم داده شماست. جمع آوری داده های با کیفیت فقط است یکی از مراحل پروژه علم داده، اما کسی که می تواند آن را بسازد یا بشکند.

سوال این است که این داده های فریبنده را از کجا می توان پیدا کرد؟ خوشبختانه، وب سایت های متعددی داده های زیادی را برای اهداف مختلف ارائه می دهند.

 

16 منبع داده فنی برتر برای پروژه های پیشرفته علم داده
تصویر توسط نویسنده

شما در مورد شنیده کجگل، احتمالاً شناخته شده ترین پلت فرم در جامعه علم داده است. این مجموعه گسترده ای از مجموعه داده ها را در قالب های مختلف (CSV، JSON، SQLite، BigQuery) و از صنایع و موضوعات مختلف مانند سلامت، خودرو، هنر و سرگرمی، زیست شناسی، علوم اجتماعی، سرمایه گذاری، شبکه های اجتماعی، ورزش و غیره میزبانی می کند. بر. شما همچنین می توانید مجموعه داده ها را بسته به تمرکز فنی آنها جستجو کنید، به عنوان مثال، علوم کامپیوتر، طبقه بندی، بینایی کامپیوتر، NLP، یا تجسم داده ها.

در حال حاضر، 274,855 مجموعه داده در دسترس است، بنابراین شما فاقد داده نخواهید بود.

رابط کاربر پسند و انجمن های فعال جامعه Kaggle آن را به منبعی عالی برای مبتدیان و حرفه ای ها تبدیل کرده است.

اگر از علاقه مندان به یادگیری ماشینی هستید، مخزن یادگیری ماشین UCI باید سایت مراجعه کننده شما باشد. همانطور که از نام آن مشخص است، این مخزن توسط دانشگاه کالیفرنیا، ایروین (UCI) ایجاد شده است. آنها مجموعه گسترده ای از مجموعه داده های طراحی شده برای یادگیری ماشین را جمع آوری کردند. از آنجایی که مجموعه داده ها موضوعات مختلفی را پوشش می دهند، به ویژه مفید هستند این مجموعه داده ها طیف گسترده ای از موضوعات را پوشش می دهند و به ویژه برای کسانی که می خواهند مهارت های یادگیری ماشینی خود را تمرین کرده و بهبود بخشند، مفید هستند.

در حال حاضر 653 مجموعه داده وجود دارد. می توانید آنها را بر اساس نوع داده، حوزه موضوعی، کار، تعداد ویژگی ها و نمونه ها و نوع ویژگی مرور کنید.

StrataScratch 49 مجموعه داده و پروژه را ارائه می دهد که از شرکت های واقعی تهیه شده است. این به ویژه برای کسانی که برای مصاحبه های علم داده آماده می شوند مفید است، زیرا به کاربران کمک می کند تا مهارت های فنی و توانایی خود را برای به دست آوردن بینش تجاری از داده ها توسعه دهند. این امکان یک رویکرد عملی و مرتبط با صنعت را برای پروژه های علم داده فراهم می کند.

این پروژه ها موضوعات مختلفی مانند اکتشاف داده، مهندسی داده، تجزیه و تحلیل کسب و کار، رگرسیون، طبقه بندی، NLP و خوشه بندی را پوشش می دهند.

جستجوی مجموعه داده های گوگل ابزاری است که هدف آن یافتن مجموعه های داده در سراسر وب است. شما از قبل می دانید که چگونه از آن استفاده کنید، حتی اگر تا به حال چیزی در مورد آن نشنیده باشید. چرا؟ خوب، به نظر می رسد و مانند یک جستجوی معمولی در گوگل کار می کند، فقط به طور انحصاری روی یافتن مجموعه داده ها متمرکز است. اگر به دنبال داده هایی از منابع مختلف، مقالات دانشگاهی و پایگاه های داده دولتی هستید، بسیار مفید است.

آمازون مجموعه داده های عمومی AWS برنامه سایت دیگری است که در آن می توانید داده های باز زیادی پیدا کنید. با وجود 494 مجموعه داده در حال حاضر، این یک منبع گرانبها برای دانشمندان داده است. مجموعه داده هایی که در آنجا پیدا می کنید می توانند با سرویس های ابری AWS ادغام شوند. اگر پروژه های شما به منابع محاسباتی بیشتری نیاز دارند، این ممکن است مفید باشد. 

گستره داده های موجود شامل ژنومیک، هواشناسی، و نجوم و غیره است.

داده.gov یک مخزن داده است که توسط دولت ایالات متحده حمایت می شود و حاوی داده هایی از سازمان های مختلف ایالات متحده است. این شامل 283,935 مجموعه داده از 132 سازمان ایالات متحده است. مجموعه گسترده ای از داده ها مانند داده های کشاورزی، بهداشت عمومی، امور مالی، آموزش، جمعیت شناسی، اقتصاد و محیط زیست وجود دارد.

مجموعه داده ها تقریباً در 50 فرمت مختلف ارائه می شوند که محبوب ترین آنها شامل HTML، XML، ZIP، CSV، PDF، ArcGIS GeoServices REST API، KML، GeoJSON، JSON و TEXT است.

FiveThirtyEight توسط ABC News مخزن اطلاعات و کد مقالات و گرافیک آنها است. این یک منبع عالی برای روزنامه نگاران داده و هر کسی که علاقه مند به داستان سرایی آماری است. اگر علاقه مند به انجام پروژه هایی هستید که شامل رویدادهای جاری، سیاست، ورزش و موارد دیگر می شود، این منبع شماست. 

این بیش از 160 مجموعه داده از سال 2014 تا به امروز ارائه می دهد.

La داده های باز بانک جهانی مجموعه داده های گسترده ای را ارائه می دهد که حول داده های توسعه جهانی می چرخد. این داده ها شامل شاخص هایی در مورد اقتصاد، محیط زیست و مسائل اجتماعی از کشورهای سراسر جهان است. اگر به توسعه جهانی و موضوعات اجتماعی-اقتصادی علاقه مند هستید، ممکن است داده های جالب زیادی را در اینجا بیابید.

GitHub نه تنها یک پلت فرم برای به اشتراک گذاری کد است. همچنین می تواند برای یافتن مجموعه داده ها برای پروژه های داده استفاده شود. بسیاری از سازمان ها و کاربران فردی مجموعه داده های خود را در مخازن GitHub میزبانی می کنند. این داده ها طیف گسترده ای از موضوعات را پوشش می دهد که اغلب توسط اسناد و کدهای گسترده برای تجزیه و تحلیل پشتیبانی می شود.

OpenML یک پلت فرم آنلاین برای یادگیری ماشین است. این همچنین به این معنی است که شما به داده های زیادی دسترسی خواهید داشت. به طور دقیق تر، تقریباً 5,400 مجموعه داده. این برای به اشتراک گذاری، سازماندهی، و بحث در مورد داده ها و نتایج آزمایش های یادگیری ماشین طراحی شده است. OpenML را می توان با محیط های یادگیری ماشینی محبوب ادغام کرد که یک امتیاز برای یادگیری علم داده شما است. 

La مجموعه داده های فرعی منبع داده جامعه محور است. مردم همه چیز را در reddit به اشتراک می گذارند. خوب، آنها همچنین مجموعه داده ها را برای پروژه های داده به اشتراک می گذارند و درخواست می کنند. گاهی اوقات یافتن داده در آنجا دشوار است. اما نه به دلیل کمبود اطلاعات. برعکس! این مکان مملو از داده است، که می تواند گاهی اوقات جستجو برای داده ها را کاملاً آشفته کند. داده‌ها از مجموعه داده‌های بسیار خاص و غیر معمول تا سنتی‌تر متغیر هستند. از آنجایی که این اساسا یک انجمن است، می‌توانید در بحث‌ها شرکت کنید و در مورد مجموعه داده‌ها کمک بخواهید. 

اداره آمار اتحادیه اروپا نامیده می شود Eurostatو منبع جامعی از داده است. اگر به داده های آماری باکیفیت در مورد کشورهای عضو اتحادیه اروپا علاقه مند هستید، این باید منبع اصلی داده شما باشد. داده های مربوط به کشورهای اتحادیه اروپا شامل موضوعاتی مانند اقتصاد، جمعیت، سلامت و تجارت است.

HDX یک پلت فرم باز است که در آن می توانید داده های بشردوستانه را پیدا کنید. این دفتر توسط دفتر هماهنگی امور بشردوستانه سازمان ملل متحد اداره می شود. این پلتفرم داده‌هایی را ارائه می‌کند که حول بحران‌های بشردوستانه و شرایط اضطراری در هر کشوری در جهان می‌چرخند. اگر به پروژه‌هایی با تمرکز بر مسائل جهانی، واکنش به بلایا و رفاه انسانی علاقه‌مند هستید، می‌توانید این کار را مفید بدانید.

20,344 مجموعه داده فعال و 2,570 مجموعه داده بایگانی شده با ویژگی ها و قالب های مختلف وجود دارد.

بر CDC، می توانید داده های مربوط به سلامت را پیدا کنید. مجموعه داده‌ها بر شرایط مختلف سلامت، عوامل خطر و سلامت عمومی متمرکز هستند. بنابراین، اگر اینها موضوعاتی هستند که به آنها علاقه دارید، داده های مفید زیادی را در اینجا پیدا خواهید کرد.

La BLS این سایت دارای داده های زیادی در مورد شرایط اقتصادی ایالات متحده، بازار کار، تغییرات قیمت، کیفیت زندگی، و غیره است. اگر به این موضوعات علاقه داشته باشید، مجموعه داده های با کیفیت زیادی پیدا خواهید کرد. 

آخرین منبع داده ای که به آن اشاره خواهم کرد این است ناسا. داده های زیادی در مورد هوافضا، علوم کاربردی، برنامه ها، علوم زمین، مدیریت/عملیات، داده های خام، نرم افزار و علوم فضایی وجود دارد.

این دارای بیش از 10,000 مجموعه داده است، بنابراین در دنیای داده های آن گم نشوید!

مطمئنم این 16 وب سایت به شما داده های کافی برای کار تا پایان زمان می دهند که دقیقا هدف من همین بود! با این حال، حجم داده ها همه چیز نیست.

من این سایت ها را انتخاب کرده ام زیرا طیف بسیار متنوعی از مجموعه داده های مناسب برای انواع پروژه های علم داده را در اختیار شما قرار می دهند. مشخصات مجموعه داده از صنعتی به صنعت دیگر متفاوت است. بنابراین، کار با مجموعه داده های مختلف همچنین به شما امکان می دهد دانش دامنه را به دست آورید.

فرقی نمی‌کند در یادگیری ماشین، تجزیه و تحلیل داده‌ها، روزنامه‌نگاری داده، تجزیه و تحلیل آماری یا تجسم داده‌ها تحقیق کنید، همیشه می‌توانید روی این منابع حساب کنید.

اکنون، شما می توانید پروژه علم داده خود را انجام دهید! اگر به ایده های بیشتری نیاز دارید، در اینجا برخی از آنها وجود دارد پروژه های علم داده شما می توانید به عنوان یک مبتدی انجام دهید.
 
 

ناتی روزیدی یک دانشمند داده و در استراتژی محصول است. او همچنین یک استاد کمکی در تدریس تجزیه و تحلیل است و بنیانگذار آن است StrataScratch، پلتفرمی است که به دانشمندان داده کمک می کند تا برای مصاحبه های خود با سؤالات مصاحبه واقعی از شرکت های برتر آماده شوند. با او ارتباط برقرار کنید توییتر: StrataScratch or لینک.

تمبر زمان:

بیشتر از kdnuggets