תמונה מאת המחבר
קראת בדפים האלה (ואני אשם בכתיבת חלק מהמאמרים האלה) שפרויקטים של מדעי נתונים הם חיוניים לפיתוח כל החבילה של מיומנויות מדעי נתונים טכניים. זה נכון, הם כן. אבל מה שחיוני הוא להחזיק מערכי נתונים באיכות גבוהה עבור פרויקטי מדעי הנתונים שלך. איסוף נתונים איכותיים זה פשוט אחד השלבים של פרויקט מדעי נתונים, אלא זה שיכול ליצור או לשבור אותו.
השאלה היא היכן ניתן למצוא את הנתונים המפחידים האלה? למרבה המזל, אתרי אינטרנט רבים מציעים שפע של נתונים למטרות שונות.
תמונה מאת המחבר
שמעת על קגל, כנראה הפלטפורמה הידועה ביותר בקהילת מדעי הנתונים. הוא מארח מגוון עצום של מערכי נתונים בפורמטים שונים (CSV, JSON, SQLite, BigQuery) ומתוך תעשיות ונושאים מרובים, כגון בריאות, רכב, אמנויות ובידור, ביולוגיה, מדעי החברה, השקעות, רשתות חברתיות, ספורט וכדומה. עַל. אתה יכול גם לחפש מערכי נתונים בהתאם למיקוד הטכני שלהם, למשל, מדעי המחשב, סיווג, ראייה ממוחשבת, NLP או הדמיית נתונים.
נכון לעכשיו, ישנם 274,855 מערכי נתונים זמינים, כך שלא יחסר לכם נתונים.
הממשק הידידותי למשתמש של Kaggle והפורומים הפעילים של הקהילה הופכים אותו למשאב מצוין למתחילים ולמקצוענים כאחד.
אם אתה חובב למידת מכונה, ה מאגר למידה של מכונות UCI צריך להיות אתר הביקור שלך. כפי שהשם אומר, מאגר זה נוצר על ידי אוניברסיטת קליפורניה, אירווין (UCI). הם אספו אוסף נרחב של מערכי נתונים המותאמים ללמידת מכונה. מכיוון שמערכי הנתונים מכסים נושאים שונים, הם שימושיים במיוחד מערכי הנתונים הללו מכסים מגוון רחב של נושאים והם שימושיים במיוחד עבור אלה שרוצים לתרגל ולשפר את כישורי למידת המכונה שלהם.
יש כרגע 653 מערכי נתונים; אתה יכול לעיין בהם לפי סוג נתונים, אזור נושא, משימה, מספר תכונות ומופעים וסוג תכונה.
StrataScratch מספק 49 מערכי נתונים ופרויקטים שמקורם בחברות בפועל. זה מועיל במיוחד עבור אלה שמתכוננים לראיונות במדעי הנתונים, מכיוון שהוא עוזר למשתמשים לפתח את הכישורים הטכניים שלהם ואת היכולת להפיק תובנות עסקיות מנתונים. זה מאפשר גישה מעשית ורלוונטית לתעשייה לפרויקטים של מדעי נתונים.
הפרויקטים מכסים נושאים שונים, כגון חקר נתונים, הנדסת נתונים, ניתוח עסקי, רגרסיה, סיווג, NLP ואשכולות.
חיפוש מערכי נתונים של גוגל הוא כלי שמטרתו למצוא מערכי נתונים ברחבי האינטרנט. אתה כבר יודע איך להשתמש בו, גם אם מעולם לא שמעתם עליו עד עכשיו. למה? ובכן, זה נראה ועובד כמו חיפוש רגיל בגוגל, רק שהוא מתמקד בלעדית באיתור מערכי נתונים. זה שימושי ביותר אם אתה מחפש נתונים ממקורות שונים, מאמרים אקדמיים וממאגרי מידע ממשלתיים.
אמזון מערכי נתונים ציבוריים של AWS תוכנית היא אתר נוסף שבו אתה יכול למצוא הרבה נתונים פתוחים. עם 494 מערכי נתונים זמינים כעת, זהו משאב יקר עבור מדעני נתונים. מערכי הנתונים שתמצא שם יכולים להיות משולבים עם שירותי הענן של AWS. זה עשוי להיות מועיל אם הפרויקטים שלך דורשים יותר משאבי מחשוב.
מגוון הנתונים הזמינים כולל בין היתר גנומיקה, מטאורולוגיה ואסטרונומיה.
Data.gov הוא מאגר נתונים בחסות ממשלת ארה"ב ומכיל נתונים מארגונים ארה"ב שונים. הוא כולל 283,935 מערכי נתונים מ-132 ארגונים בארה"ב. יש מגוון רחב של נתונים, כגון חקלאות, בריאות הציבור, פיננסים, חינוך, דמוגרפיה, כלכלה ונתונים סביבתיים.
מערכי הנתונים מגיעים בכמעט 50 פורמטים שונים, כאשר הפורמטים הפופולריים ביותר כוללים HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON ו-TEXT.
חמש ושלושים מאת חדשות ABC הוא מאגר הנתונים והקוד של המאמרים והגרפיקה שלהם. זהו משאב מושלם עבור עיתונאי נתונים וכל מי שמתעניין בסיפור סטטיסטי. אם אתה מעוניין לעשות פרויקטים הכוללים אירועים אקטואליים, פוליטיקה, ספורט ועוד, זה המקור שלך.
הוא מציע יותר מ-160 מערכי נתונים מ-2014 ועד היום.
השמיים נתונים פתוחים של הבנק העולמי מציע מערכי נתונים נרחבים הסובבים סביב נתוני פיתוח גלובליים. נתונים אלה כוללים אינדיקטורים על כלכלה, סביבה וסוגיות חברתיות ממדינות ברחבי העולם. אם אתה מתעניין בפיתוח גלובלי ובנושאים סוציו-אקונומיים, אולי תמצא כאן הרבה נתונים מעניינים.
GitHub היא לא רק פלטפורמה לשיתוף קוד. זה יכול לשמש גם למציאת מערכי נתונים עבור פרויקטי נתונים. הרבה ארגונים ומשתמשים בודדים מארחים את מערכי הנתונים שלהם במאגרי GitHub. נתונים אלה מכסים מגוון רחב של נושאים, הנתמכים לרוב בתיעוד נרחב וקוד לניתוח.
OpenML היא פלטפורמה מקוונת ללמידת מכונה. זה גם אומר לתת לך גישה להרבה נתונים. ליתר דיוק, כמעט 5,400 מערכי נתונים. זה נועד לשיתוף, ארגון ודיון בנתונים ובתוצאות של ניסויי למידת מכונה. ניתן לשלב את OpenML עם סביבות למידת מכונה פופולריות, וזה בונוס ללימוד מדעי הנתונים שלך.
השמיים ערכות נתונים subreddit הוא מקור נתונים מונחה קהילה. אנשים חולקים הכל ב-redit. ובכן, הם גם משתפים ומבקשים מערכי נתונים עבור פרויקטי נתונים. לפעמים קשה למצוא שם נתונים. אבל לא בגלל המחסור בנתונים. לעומת זאת! המקום שופע נתונים, מה שעלול להפוך את החיפוש אחר נתונים לכאוטי למדי לפעמים. הנתונים נעים בין מאוד ספציפיים ויוצאי דופן למערכים מסורתיים יותר. מכיוון שזה בעצם פורום, אתה יכול גם להשתתף בדיונים ולבקש עזרה עם מערכי נתונים.
המשרד הסטטיסטי של האיחוד האירופי נקרא Eurostat, וזה מקור מידע מקיף. אם אתה מעוניין בנתונים סטטיסטיים באיכות גבוהה על מדינות החברות באיחוד האירופי, זה צריך להיות מקור הנתונים העיקרי שלך. נתונים על מדינות האיחוד האירופי כוללים נושאים כמו כלכלה, אוכלוסיה, בריאות ומסחר.
HDX היא פלטפורמה פתוחה שבה אתה יכול למצוא נתונים הומניטריים. הוא מנוהל על ידי משרד האו"ם לתיאום עניינים הומניטריים. פלטפורמה זו מספקת נתונים הסובבים סביב משברים הומניטריים ומצבי חירום בכל מדינה בעולם. אתה יכול למצוא את זה שימושי אם אתה עוסק בפרויקטים המתמקדים בנושאים גלובליים, תגובה לאסונות ורווחת האדם.
ישנם 20,344 מערכי נתונים פעילים ו-2,570 נתונים בארכיון עם תכונות ופורמטים שונים.
על ה-CDC, תוכל למצוא נתונים הקשורים לבריאות. מערכי הנתונים מתמקדים במצבי בריאות שונים, גורמי סיכון ובריאות הציבור. לכן, אם אלו הנושאים שבהם אתה מעוניין, תמצא כאן הרבה נתונים שימושיים.
השמיים BLS באתר יש הרבה נתונים על התנאים הכלכליים בארה"ב, שוק העבודה, שינויים במחירים, איכות חיים וכו'. תמצא המון מערכי נתונים איכותיים אם אתה עוסק בנושאים אלה.
מקור הנתונים האחרון שאציין הוא נאס"א. יש הרבה נתונים על תעופה וחלל, מדע יישומי, אפליקציות, מדעי כדור הארץ, ניהול/תפעול, נתונים גולמיים, תוכנה ומדעי החלל.
יש לו יותר מ-10,000 מערכי נתונים, אז אל תלך לאיבוד ביקום הנתונים שלו!
16 האתרים האלה, אני בטוח, יתנו לכם מספיק נתונים לעבוד איתם עד קץ הזמן, וזו בדיוק הייתה המטרה שלי! עם זאת, כמות הנתונים היא לא הכל.
בחרתי באתרים אלה מכיוון שהם יספקו לך מגוון מאוד מגוון של מערכי נתונים המתאימים למגוון פרויקטים של מדעי נתונים. מפרטי הנתונים שונים מתעשייה לתעשייה. לכן, עבודה עם מערכי נתונים שונים מאפשרת לך גם להשיג ידע בתחום.
בין אם אתה מתעמק בלמידת מכונה, ניתוח נתונים, עיתונאות נתונים, ניתוח סטטיסטי או הדמיית נתונים, אתה תמיד יכול לסמוך על המשאבים האלה.
עכשיו, אתה יכול לעשות פרויקט מדעי נתונים משלך! אם אתה צריך עוד רעיונות, הנה כמה פרויקטים של מדעי נתונים אתה יכול לעשות בתור מתחיל.
נייט רוזידי הוא מדען נתונים ואסטרטגיית מוצר. הוא גם פרופסור עזר המלמד אנליטיקה, והוא המייסד של StrataScratch, פלטפורמה המסייעת למדעני נתונים להתכונן לראיונות שלהם עם שאלות ראיונות אמיתיות מחברות מובילות. התחבר אליו הלאה טוויטר: StrataScratch or לינקדין.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://www.kdnuggets.com/top-16-technical-data-sources-for-advanced-data-science-projects?utm_source=rss&utm_medium=rss&utm_campaign=top-16-technical-data-sources-for-advanced-data-science-projects
- :יש ל
- :הוא
- :לֹא
- :איפה
- 000
- 10
- 16
- 160
- 20
- 2014
- 400
- 49
- 50
- a
- א ב ג
- יכולת
- אודות
- בנוגע לזה
- אקדמי
- גישה
- לרוחב
- פעיל
- ממשי
- נלווה
- מתקדם
- אווירי
- העניינים
- חקלאות
- מאפשר
- כמעט
- כְּבָר
- גם
- תמיד
- בין
- כמות
- an
- אנליזה
- ניתוח
- ו
- אחר
- כל אחד
- API
- יישומית
- גישה
- אפליקציות
- ARE
- AREA
- סביב
- מערך
- מאמרים
- אומנות
- AS
- לשאול
- סיוע
- אסטרונומיה
- רכב
- זמין
- AWS
- בנק
- בעיקרון
- BE
- כי
- מתחיל
- למתחילים
- מועיל
- bigquery
- ביולוגיה
- מַעֲנָק
- שניהם
- לשבור
- עסקים
- אבל
- by
- קליפורניה
- נקרא
- CAN
- ה-CDC
- שינויים
- נבחר
- מיון
- ענן
- שירותי ענן
- קיבוץ
- קוד
- איסוף
- אוסף
- COM
- איך
- קהילה
- מונחה קהילה
- חברות
- מַקִיף
- המחשב
- מדעי מחשב
- ראייה ממוחשבת
- מחשוב
- תנאים
- לְחַבֵּר
- מכיל
- תאום
- יכול
- לספור
- מדינות
- מדינה
- לכסות
- מכסה
- נוצר
- משברים
- מכריע
- נוֹכְחִי
- כיום
- נתונים
- ניתוח נתונים
- מדע נתונים
- מדען נתונים
- נתונים להדמיה
- מאגרי מידע
- מערכי נתונים
- דמוגרפיה
- תלוי
- לגזור
- מעוצב
- לפתח
- מתפתח
- צעצועי התפתחות
- נבדלים
- אחר
- קשה
- אסון
- דנים
- דיונים
- שונה
- do
- תיעוד
- עושה
- תחום
- לא
- e
- כדור הארץ
- כַּלְכָּלִי
- תנאים כלכליים
- כלכלה
- כלכלה
- חינוך
- סוף
- הנדסה
- מספיק
- בידור
- נלהב
- סביבה
- סביבתי
- סביבות
- במיוחד
- וכו '
- Ether (ETH)
- EU
- אירופה
- אֵירוֹפִּי
- האיחוד האירופי
- אֲפִילוּ
- אירועים
- כל
- הכל
- מצוין
- אך ורק
- ניסויים
- חקירה
- נרחב
- מאוד
- גורמים
- מאפיין
- תכונות
- לממן
- מציאת
- להתמקד
- מרוכז
- התמקדות
- בעד
- למרבה המזל
- פוֹרוּם
- פורומים
- מייסד
- החל מ-
- לְהַשִׂיג
- הגנומיקה
- לקבל
- GitHub
- לתת
- נתינה
- גלוֹבָּלִי
- חיפוש Google
- ממשלה
- גרפיקה
- אשם
- יש
- he
- בְּרִיאוּת
- נשמע
- מועיל
- עזרה
- עוזר
- כאן
- באיכות גבוהה
- מאוד
- לו
- המארח
- מארחים
- איך
- איך
- אולם
- HTML
- HTTPS
- בן אנוש
- הומניטרי
- חולה
- ICS
- רעיונות
- if
- לשפר
- in
- כולל
- כולל
- אינדיקטורים
- בנפרד
- תעשיות
- תעשייה
- תובנות
- מקרים
- משולב
- מעוניין
- מעניין
- מִמְשָׁק
- ראיון אישי
- שאלות בראיון
- ראיונות
- אל תוך
- השקעה
- לערב
- בעיות
- IT
- שֶׁלָה
- עיתונאות
- עיתונאים
- ג'סון
- רק
- KDnuggets
- לדעת
- ידע
- עבודה
- שוק העבודה
- חוסר
- נעדר
- אחרון
- למידה
- החיים
- כמו
- לינקדין
- הסתכלות
- נראה
- אבוד
- מגרש
- הרבה
- מכונה
- למידת מכונה
- ראשי
- לעשות
- הצליח
- שוק
- אומר
- חבר
- להזכיר
- יכול
- יותר
- רוב
- הכי פופולארי
- מספר
- my
- שם
- נאס"א
- המאוחדות
- צורך
- רשתות
- לעולם לא
- חדשות
- NLP
- עַכשָׁיו
- מספר
- רב
- of
- הצעה
- המיוחדות שלנו
- Office
- לעתים קרובות
- on
- ONE
- באינטרנט
- רק
- לפתוח
- נתונים פתוחים
- or
- ארגונים
- ארגון
- אחרים
- שֶׁלוֹ
- חבילה
- דפים
- ניירות
- להשתתף
- במיוחד
- אֲנָשִׁים
- מקום
- פלטפורמה
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- פוליטיקה
- פופולרי
- אוכלוסייה
- מעשי
- תרגול
- יָקָר
- בדיוק
- להכין
- העריכה
- מחיר
- כנראה
- המוצר
- אנשי מקצוע
- פרופסור
- תָכְנִית
- פרויקטים
- לספק
- מספק
- ציבורי
- בריאות הציבור
- מטרה
- למטרות
- איכות
- נתונים איכותיים
- שאלה
- שאלות
- דַי
- רכס
- טווחים
- חי
- נתונים גולמיים
- חומר עיוני
- ממשי
- נסיגה
- רגיל
- מאגר
- לבקש
- לדרוש
- מחקר
- משאב
- משאבים
- תגובה
- REST
- תוצאות
- הסיכון
- גורמי סיכון
- s
- אומר
- מדע
- מַדְעָן
- מדענים
- חיפוש
- שירותים
- שיתוף
- שיתוף
- צריך
- אתר
- אתרים
- מיומנויות
- So
- חֶברָתִי
- בעיות חברתיות
- רשתות חברתיות
- תוכנה
- כמה
- לפעמים
- מָקוֹר
- מקור
- מקורות
- מֶרחָב
- ספציפי
- במיוחד
- פירוט
- ממומן
- ספורט
- שלבים
- סטטיסטי
- סיפורים
- אִסטרָטֶגִיָה
- נושא
- כזה
- מַתְאִים
- נתמך
- בטוח
- מותאם
- המשימות
- הוראה
- טכני
- כישורים טכניים
- טֶקסט
- מֵאֲשֶׁר
- זֶה
- השמיים
- העולם
- שֶׁלָהֶם
- אותם
- שם.
- אלה
- הֵם
- זֶה
- אלה
- זמן
- ל
- היום
- כלי
- חלק עליון
- נושאים
- סחר
- מסורתי
- נָכוֹן
- סוג
- התאחדות
- מאוחד
- האומות המאוחדות
- עולם
- אוניברסיטה
- אוניברסיטת קליפורניה
- עד
- בלתי שגרתי
- us
- ממשלת ארצות הברית
- להשתמש
- מְשׁוּמָשׁ
- מועיל
- ידידותי למשתמש
- משתמשים
- מגוון
- שונים
- Vast
- מאוד
- מגוון מאוד
- חזון
- ראיה
- חיוני
- רוצה
- היה
- עושר
- אינטרנט
- אתרים
- סעד
- טוֹב
- מוכר
- אשר
- כל
- של מי
- למה
- רָחָב
- טווח רחב
- יצטרך
- עם
- תיק עבודות
- עובד
- עובד
- עוֹלָם
- כתיבה
- XML
- אתה
- זפירנט
- רוכסן