يوافق poloniex على التسوية مع sec-for-more-than-10m.png

لماذا وكيف يجب أن تتعلم "علم البيانات الإنتاجية"؟

عقدة المصدر: 1858780

مدونة الذهبلماذا وكيف يجب أن تتعلم "علم البيانات الإنتاجية"؟

ما هو علم البيانات الإنتاجية وما هي بعض مكوناته؟




مصدر الصورةPixabay (صورة مجانية)

الكفاءة في سير عمل علم البيانات

 
يمكن ممارسة علم البيانات والتعلم الآلي بدرجات متفاوتة من الكفاءة والإنتاجية. بغض النظر عن مجال التطبيق أو التخصص ، يجب على عالم البيانات - مبتدئًا أو محترفًا متمرسًا - السعي لتحقيق ذلك تعزيز كفاءته في جميع جوانب مهام علم البيانات النموذجية ،

  • تحليل احصائي،
  • التصور
  • اختيار النموذج ، هندسة الميزات ،
  • اختبار جودة الكود ، والنمذجة ،
  • المعالجة المتوازية،
  • سهولة نشر تطبيقات الويب



مصدر الصورةPixabay (صورة مجانية)

 

هذا يعني أداء كل هذه المهام ،

  • بسرعة أعلى
  • مع تصحيح الأخطاء بشكل أسرع
  • بطريقة متزامنة
  • من خلال الاستفادة الكاملة من أي وجميع موارد الأجهزة المتاحة

ما الذي يجب أن تتوقع تعلمه في هذه العملية؟

 
لنتخيل أن شخصًا ما يقوم بتدريس "علم البيانات الإنتاجية"أو كتابة كتاب حول هذا الموضوع - باستخدام Python كإطار عمل للغة. ماذا يجب أن تكون التوقعات النموذجية من مثل هذه الدورة أو الكتاب؟



مصدر الصورةPixabay (صورة مجانية)

 

يجب أن تكون الدورة / الكتاب مخصصًا لمن يرغب في ذلك قفزات تتجاوز الطريقة القياسية لأداء مهام علم البيانات والتعلم الآلي والاستفادة من النطاق الكامل لنظام بايثون لعلوم البيانات لتحقيق مستوى أعلى من الإنتاجية.

يجب تعليم القراء كيفية البحث عن أوجه القصور والاختناقات في العملية القياسية وكيفية التفكير خارج الصندوق.

أتمتة مهام علوم البيانات المتكررة هي العقلية الأساسية التي سيطورها القراء من قراءة هذا الكتاب. في كثير من الحالات ، سيتعلمون أيضًا كيفية توسيع ممارسة الترميز الحالية للتعامل مع مجموعات البيانات الأكبر بكفاءة عالية بمساعدة أدوات البرامج المتقدمة الموجودة بالفعل في نظام Python البيئي ولكن لم يتم تدريسها في أي علم بيانات قياسي.

لا ينبغي أن يكون هذا كتابًا عاديًا لطهي Python يقوم بتدريس مكتبات قياسية مثل Numpy أو Pandas.

بدلاً من ذلك ، يجب أن تركز على التقنيات المفيدة مثل كيفية القيام بذلك قياس بصمة الذاكرة وسرعة التنفيذ من نماذج ML ، اختبار الجودة خط أنابيب علوم البيانات ، نمطي خط أنابيب علم البيانات لتطوير التطبيقات ، وما إلى ذلك. يجب أن يغطي أيضًا مكتبات Python التي تكون مفيدة جدًا أتمتة و  يتسارع المهام اليومية لأي عالم بيانات.

علاوة على ذلك ، يجب أن يتطرق إلى الأدوات والحزم التي تساعد عالم البيانات التعامل مع مجموعات البيانات الكبيرة والمعقدة بطريقة أفضل بكثير مما كان ممكنًا باتباع حكمة بايثون القياسية لتكنولوجيا علوم البيانات.

بعض المهارات المحددة لإتقانها

 



مصدر الصورةPixabay (صورة مجانية)

 

لوضع الأمور بشكل ملموس ، دعونا نلخص بعض المهارات المحددة لإتقانها من أجل التعلم والممارسة علم البيانات الإنتاجية. لقد حاولت أيضًا إضافة روابط لبعض المقالات التمثيلية لتتماشى مع كل مهارة كمرجع.

  1. كيف كتابة كود سريع وفعال لعلوم البيانات/ ML وكيفية قياس سرعتها وكفاءتها (انظر هذا المقال)
  2. كيفية إنشاء خطوط أنابيب معيارية ومعبرة لعلوم البيانات لتحسين الإنتاجية (انظر هذا المقال)
  3. كيفية كتابة وحدات الاختبار لعلوم البيانات ونماذج ML (انظر هذا المقال)
  4. كيفية التعامل مع مجموعات البيانات الكبيرة والمعقدة بكفاءة (وهو ما كان سيكون صعبًا باستخدام أدوات DS التقليدية)
  5. كيفية الاستفادة الكاملة من وحدة معالجة الرسومات (GPU) والمعالجات متعددة النواة لجميع أنواع مهام علوم البيانات والتحليلات ، وليس فقط لنمذجة التعلم العميق المتخصصة (انظر هذا المقال)
  6. كيفية تشغيل تطبيقات واجهة المستخدم الرسومية السريعة لعرض فكرة علم البيانات / تعلم الآلة أو ضبط النموذج (انظر هذا المقال) ، أو كيفية نشر نماذج ML وكود تحليل البيانات بسهولة (وبسرعة) على مستوى التطبيق (انظر هذا المقال)

الكتاب المثالي حول هذا الموضوع سوف ...

 



مصدر الصورةPixabay (صورة مجانية)

 

  1. علم كيف تبحث عنه عدم الكفاءة والاختناقات في كود علم البيانات القياسي وكيفية التفكير خارج الصندوق لحل هذه المشكلات.
  2. قم بتدريس كيفية كتابة تحليل بيانات معياري وفعال ورمز التعلم الآلي لتحسين الإنتاجية في مجموعة متنوعة من المواقف - تحليل البيانات الاستكشافية ، والتصور ، والتعلم العميق ، إلخ.
  3. تغطية مجموعة واسعة من الموضوعات الجانبية مثل اختبار البرامج ، وتطوير الوحدة ، برمجة واجهة المستخدم الرسوميةنشر نموذج ML كتطبيق ويب ، وهي مجموعات مهارات لا تقدر بثمن لعلماء البيانات الناشئين لامتلاكها والتي يصعب العثور عليها بشكل جماعي في أي كتاب علم بيانات قياسي واحد.
  4. تغطية الحوسبة المتوازية (على سبيل المثال ، داسك ، راي) ، قابلية التوسع (على سبيل المثال ، Vaex ، Modin) ، ومكدس علوم البيانات المدعوم بوحدة معالجة الرسومات (رابيدز) مع أمثلة عملية.
  5. قم بتعريض القراء وإرشادهم إلى نظام Python البيئي الأكبر والمتوسع باستمرار لأدوات علوم البيانات المرتبطة بالجوانب الأوسع من هندسة البرمجيات والنشر على مستوى الإنتاج.

مثال ملموس: علم البيانات الموزع والمعتمد على وحدة معالجة الرسومات

 
بينما تتم مناقشة استخدام وحدات معالجة الرسومات والحوسبة الموزعة على نطاق واسع في الدوائر الأكاديمية والتجارية لمهام الذكاء الاصطناعي / تعلم الآلة الأساسية ، فقد وجدوا تغطية أقل في فائدتها لمهام علوم البيانات وهندسة البيانات العادية. ومع ذلك ، فإن استخدام وحدات معالجة الرسومات للتحليلات الإحصائية اليومية العادية أو مهام علوم البيانات الأخرى يمكن أن يقطع شوطًا طويلاً نحو أن يصبح المثل "عالم البيانات الإنتاجية".

على سبيل المثال، مجموعة RAPIDS من مكتبات البرامج وواجهات برمجة التطبيقات يمنحك - عالم بيانات منتظم (وليس بالضرورة ممارسًا للتعلم العميق) - الخيار والمرونة للتنفيذ علوم البيانات الشاملة وخطوط تحليل البيانات بالكامل على وحدات معالجة الرسومات.



مصدر الصورة: أنشأ المؤلف الكولاج

 

عند استخدامها حتى مع وحدة معالجة رسومات متواضعة ، تُظهر هذه المكتبات تحسنًا ملحوظًا في السرعة مقارنة بنظيراتها من Python العادية. بطبيعة الحال ، يجب أن نتبنى هذه الأشياء كلما أمكننا ذلك علم البيانات الإنتاجية سير العمل.


 

وبالمثل ، هناك فرص ممتازة مفتوحة المصدر لتجاوز حدود الطبيعة أحادية النواة للغة بايثون واحتضان نموذج الحوسبة الموازية دون الابتعاد عن شخصية عالم البيانات المثالية.



مصدر الصورة: أنشأ المؤلف الكولاج

نبذة عامة

 
ناقشنا المرافق والمكونات الأساسية لـ علم البيانات الإنتاجية سير العمل. تخيلنا ما يمكن أن تقدمه الدورة أو الكتاب المثالي حول هذا الموضوع للقراء. لقد تطرقنا إلى بعض الأمثلة الملموسة وأوضحنا الفوائد. كما تم توفير بعض الموارد ذات الصلة في سياق المهارات اللازمة لإتقان.

يمكنك التحقق من المؤلف GitHub جيثب: مستودعات للتعليمات البرمجية والأفكار والموارد في التعلم الآلي وعلوم البيانات. إذا كنت مثلي شغوفًا بالذكاء الاصطناعي / التعلم الآلي / علوم البيانات ، فلا تتردد في ذلك أضفني على LinkedIn or تابعني على تويتر.

 
أصلي. تم إعادة النشر بإذن.

هذا الموضوع ذو علاقة بـ:

المصدر: https://www.kdnuggets.com/2021/07/learn-produc-data-science.html

الطابع الزمني:

اكثر من KD nuggets