poloniex-מסכים-להסדיר-עם-השנייה-למעלה מ-10 מ'.png

מדוע ואיך כדאי ללמוד "מדע נתונים פרודוקטיבי"?

צומת המקור: 1858780

בלוג זהבמדוע ואיך כדאי ללמוד "מדע נתונים פרודוקטיבי"?

מהו מדע נתונים פרודוקטיבי ומהם חלק ממרכיביו?




מקור תמונהpixabay (תמונה חינם)

יעילות בזרימת העבודה של מדעי הנתונים

 
ניתן לתרגל מדעי נתונים ולמידת מכונה בדרגות שונות של יעילות ופרודוקטיביות. ללא קשר לתחום היישום או ההתמחות, מדען נתונים - מתחיל או מקצועי ותיק - צריך לשאוף לשפר את היעילות שלו בכל ההיבטים של משימות טיפוסיות של מדעי הנתונים,

  • ניתוח סטטיסטי,
  • רְאִיָה,
  • בחירת דגמים, הנדסת תכונות,
  • בדיקת איכות קוד, מודולריזציה,
  • עיבוד מקביל,
  • פריסה קלה של אפליקציות אינטרנט



מקור תמונהpixabay (תמונה חינם)

 

זה אומר לבצע את כל המשימות האלה,

  • במהירות גבוהה יותר
  • עם איתור באגים מהיר יותר
  • באופן מסונכרן
  • על ידי ניצול מלא של כל משאבי החומרה הזמינים

מה אתה צריך לצפות ללמוד בתהליך זה?

 
בואו נדמיין שמישהו מלמד "מדעי נתונים פרודוקטיבייםקורס או כתיבת ספר על זה - באמצעות Python כמסגרת השפה. מה צריכות להיות הציפיות האופייניות מקורס או ספר כזה?



מקור תמונהpixabay (תמונה חינם)

 

הקורס/הספר אמור להיות מיועד למי שרוצה לזנק מעבר לדרך הסטנדרטית של ביצוע משימות מדעי נתונים ולמידת מכונה וניצול הספקטרום המלא של מערכת האקולוגית של מדעי הנתונים של Python לרמה גבוהה בהרבה של פרודוקטיביות.

יש ללמד את הקוראים כיצד להיזהר מחוסר יעילות וצווארי בקבוק בתהליך הסטנדרטי וכיצד לחשוב מעבר לקופסה.

אוטומציה של משימות מדעיות חוזרות ונשנות הוא הלך רוח מפתח שהקוראים יפתחו מקריאת ספר זה. במקרים רבים, הם גם ילמדו כיצד להרחיב את פרקטיקת הקידוד הקיימת לטיפול במערכי נתונים גדולים יותר ביעילות גבוהה בעזרת כלי תוכנה מתקדמים שכבר קיימים באקוסיסטם של Python אך אינם נלמדים בשום מדעי נתונים סטנדרטיים.

זה לא אמור להיות ספר בישול רגיל של Python המלמד ספריות סטנדרטיות כמו Numpy או Pandas.

במקום זאת, זה צריך להתמקד בטכניקות שימושיות כמו איך לעשות למדוד את טביעת הרגל של הזיכרון ומהירות הביצוע של דגמי ML, מבחן איכות צינור למדעי נתונים, לעשות מודולריזציה צינור מדעי נתונים לפיתוח אפליקציות וכו'. הוא אמור לכסות גם ספריות Python אשר מועילות מאוד עבור אוטומציה ו לזרז המשימות היומיומיות של כל מדען נתונים.

יתר על כן, עליו לגעת בכלים ובחבילות המסייעות למדען נתונים התמודדות עם מערכי נתונים גדולים ומורכבים בצורה הרבה יותר אופטימלית ממה שהיה אפשרי על ידי מעקב אחר חוכמת טכנולוגיית מדעי הנתונים הסטנדרטית של Python.

כמה כישורים ספציפיים לשלוט בהם

 



מקור תמונהpixabay (תמונה חינם)

 

כדי לנסח דברים במונחים קונקרטיים, הבה נסכם כמה מיומנויות ספציפיות שיש לשלוט בהן לצורך למידה ותרגול מדעי נתונים פרודוקטיביים. ניסיתי גם לזרוק את הקישורים לכמה מאמרים מייצגים שישתלבו עם כל מיומנות כהפניה.

  1. איך כתוב קוד מהיר ויעיל למדעי הנתונים/ML וכיצד למדוד את המהירות והיעילות שלהם (ראה מאמר זה)
  2. כיצד לבנות צינורות מדעי נתונים מודולריים ואקספרסיביים כדי לשפר את הפרודוקטיביות (ראה מאמר זה)
  3. כיצד לכתוב מודולי בדיקה עבור מודלים של מדעי נתונים ו-ML (ראה מאמר זה)
  4. כיצד לטפל במערך נתונים גדולים ומורכבים ביעילות (מה שהיה קשה עם כלי DS מסורתיים)
  5. כיצד להשתמש במלואו במעבדי GPU ורב-ליבות עבור כל מיני משימות מדעיות וניתוח נתונים, ולא רק עבור מודלים מיוחדים של למידה עמוקה (ראה מאמר זה)
  6. כיצד ליצור אפליקציות GUI מהירות להדגמה של רעיון מדעי נתונים/ML או כוונון מודל (ראה מאמר זה), או כיצד לפרוס בקלות (ובמהירות) מודלים של ML וקוד ניתוח נתונים ברמת האפליקציה (ראה מאמר זה)

ספר אידיאלי בנושא זה י...

 



מקור תמונהpixabay (תמונה חינם)

 

  1. למד כיצד להיזהר חוסר יעילות וצווארי בקבוק בקוד מדעי הנתונים הסטנדרטי וכיצד לחשוב מעבר לקופסה כדי לפתור את הבעיות הללו.
  2. למד כיצד לכתוב קוד ניתוח נתונים מודולרי ויעיל ולמידת מכונה כדי לשפר את הפרודוקטיביות במגוון מצבים - ניתוח נתונים חקרני, הדמיה, למידה עמוקה וכו'.
  3. לכסות מגוון רחב של נושאים צדדיים כגון בדיקות תוכנה, פיתוח מודולים, תכנות GUIפריסת מודל ML כמו אפליקציית אינטרנט, שהן מערכי מיומנויות שלא יסולא בפז עבור מדעני נתונים מתחילים להחזיק ושקשה למצוא יחד בכל ספר מדעי נתונים סטנדרטי אחד.
  4. כיסוי מחשוב מקביל (למשל, דאסק, ריי), מדרגיות (למשל, ואקס, מודיען), וערימת מדע נתונים המופעלת על ידי GPU (אֶשֶׁד) עם דוגמאות מעשית.
  5. לחשוף ולהדריך את הקוראים לאקוסיסטם של Python גדול יותר ומתרחב של כלים למדעי נתונים המחוברים להיבטים הרחבים יותר של הנדסת תוכנה ופריסה ברמת הייצור.

דוגמה קונקרטית: מדע נתונים מבוזר המופעל על ידי GPU

 
בעוד שהשימוש ב-GPUs ובמחשוב מבוזר נדון בהרחבה במעגלים האקדמיים והעסקים עבור משימות ליבה של AI/ML, הם מצאו פחות כיסוי בכלי השירות שלהם למשימות רגילות של מדעי נתונים והנדסת נתונים. עם זאת, שימוש במעבדי GPU עבור ניתוחים סטטיסטיים רגילים יומיומיים או משימות אחרות של מדעי הנתונים יכול לעשות דרך ארוכה לקראת הפיכתו של הפתגם. "מדען נתונים פרודוקטיבי

לדוגמה, חבילת RAPIDS של ספריות תוכנה וממשקי API לתת לך - מדען נתונים רגיל (ולאו דווקא מתרגל למידה מעמיקה) - את האפשרות והגמישות לביצוע צינורות מדעי הנתונים והקצה מקצה לקצה לחלוטין על מעבדי GPU.



מקור תמונה: המחבר יצר קולאז '

 

בשימוש אפילו עם GPU צנוע, ספריות אלה מציגות שיפור מדהים במהירות בהשוואה לעמיתיהם הרגילים ב-Python. באופן טבעי, עלינו לאמץ את אלה בכל פעם שנוכל מדעי נתונים פרודוקטיביים זרימת עבודה.


 

באופן דומה, יש הזדמנויות מצוינות בקוד פתוח לחרוג מגבולות הטבע הבודד של שפת פייתון ולאמץ את פרדיגמת המחשוב המקביל מבלי להתרחק מהפרסונה המהותית של מדען הנתונים.



מקור תמונה: המחבר יצר קולאז '

<br> סיכום

 
דנו בכלי השירות ובמרכיבי הליבה של א מדעי נתונים פרודוקטיביים זרימת עבודה. תיארנו לעצמנו מה קורס או ספר אידיאלי בנושא זה יציע לקוראים. נגענו בכמה דוגמאות קונקרטיות והמחשנו את היתרונות. כמה משאבים קשורים סופקו גם בהקשר של מיומנויות לשליטה.

אתה יכול לבדוק את המחבר GitHub מאגרים עבור קוד, רעיונות ומשאבים בלימוד מכונות ומדעי נתונים. אם אתה, כמוני, נלהב מ AI / למידת מכונות / מדעי נתונים, אנא אל תהסס לעשות זאת הוסף אותי בלינקדאין or עקוב אחריי בטוויטר.

 
מְקוֹרִי. פורסם מחדש באישור.

מידע נוסף:

מקור: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html

בול זמן:

עוד מ KDnuggets