دليل لمنهجيات إدارة مشروع علوم البيانات - KDnuggets

دليل لمنهجيات إدارة مشروع علوم البيانات - KDnuggets

عقدة المصدر: 2756610

دليل لمنهجيات إدارة مشاريع علوم البيانات
صورة المؤلف
 

يحتوي مشروع علم البيانات على العديد من العناصر. هناك العديد من الأشخاص المشاركين في هذه العملية، وتواجه العديد من التحديات على طول الطريق. ترى الكثير من الشركات الحاجة إلى علم البيانات، وقد تم تطبيقه في حياتنا اليوم. ومع ذلك، يواجه البعض صعوبة في كيفية الاستفادة من تحليلات البيانات الخاصة بهم والمسار الذي يجب استخدامه للوصول إلى هناك. 

أكبر افتراض تقوم به الشركات عند استخدام علم البيانات، هو الإشارة إلى أنه نظرًا لاستخدامها للغة البرمجة، فإنها تحاكي نفس منهجية هندسة البرمجيات. ومع ذلك، فإن علم البيانات والبرمجيات المضمنة في النماذج مختلفان. 

يتطلب علم البيانات دورة حياته ومنهجياته الفريدة ليكون ناجحًا. 

يمكن تقسيم دورة حياة علم البيانات إلى 7 خطوات. 

فهم الأعمال

إذا كنت تنتج أي شيء لشركة ما، فيجب أن يكون سؤالك الأول هو "لماذا؟". لماذا نحتاج ان نفعل هذا؟ لماذا هو مهم لرجال الأعمال؟ لماذا؟ لماذا؟ لماذا؟

فريق علم البيانات مسؤول عن بناء نموذج وإنتاج تحليلات البيانات بناءً على ما يتطلبه العمل. خلال هذه المرحلة من دورة حياة علم البيانات، يجب على فريق علم البيانات والمديرين التنفيذيين للشركة تحديد الأهداف المركزية للمشروع، على سبيل المثال النظر في المتغيرات التي يجب التنبؤ بها. 

ما هو نوع مشروع علم البيانات الذي يعتمد عليه هذا؟ هل هي مهمة انحدار أم تصنيف أم تجميع أم اكتشاف شذوذ؟ بمجرد فهم الهدف العام لهدفك، يمكنك الاستمرار في التساؤل عن السبب، وماذا، وأين، ومتى، وكيف! يعد طرح الأسئلة الصحيحة فنًا، وسيوفر لفريق علم البيانات سياقًا متعمقًا للمشروع. 

بيانات التعدين

بمجرد حصولك على كل الفهم التجاري الذي تحتاجه للمشروع، ستكون خطوتك التالية هي بدء المشروع من خلال جمع البيانات. تتضمن مرحلة استخراج البيانات جمع البيانات من مجموعة متنوعة من المصادر التي تتماشى مع هدف مشروعك. 

الأسئلة التي ستطرحها خلال هذه المرحلة هي: ما هي البيانات التي أحتاجها لهذا المشروع؟ من أين يمكنني الحصول على هذه البيانات؟ هل ستساعد هذه البيانات في تحقيق هدفي؟ أين سأقوم بتخزين هذه البيانات؟ 

تنظيف البيانات

يختار بعض علماء البيانات مزج مرحلتي استخراج البيانات وتنظيف البيانات معًا. ومع ذلك، من الجيد التمييز بين المراحل لتحسين سير العمل. 

يعد تنظيف البيانات المرحلة الأكثر استهلاكًا للوقت في سير عمل علم البيانات. كلما كانت بياناتك أكبر، كلما استغرقت وقتًا أطول. قد يستغرق الأمر عادةً ما يصل إلى 50-80% من وقت عالم البيانات لإكماله. السبب الذي يستغرقه الأمر وقتًا طويلاً هو أن البيانات ليست نظيفة أبدًا. من الممكن أن تتعامل مع البيانات التي تحتوي على تناقضات وبيانات مفقودة وتصنيفات غير صحيحة وأخطاء إملائية وغير ذلك الكثير. 

قبل القيام بأي عمل تحليلي، ستحتاج إلى تصحيح هذه الأخطاء للتأكد من أن البيانات التي تخطط للعمل بها صحيحة وستنتج مخرجات دقيقة. 

استكشاف البيانات

بعد قضاء الكثير من الوقت والطاقة في تنظيف البيانات، أصبح لديك الآن بيانات نظيفة تمامًا يمكنك التعامل معها. وقت استكشاف البيانات! هذه المرحلة هي العصف الذهني للهدف العام لمشروعك. أنت تريد التعمق في ما يمكنك العثور عليه من البيانات والأنماط المخفية وإنشاء تصورات للعثور على مزيد من الأفكار والمزيد. 

باستخدام هذه المعلومات، ستتمكن من إنشاء فرضية تتماشى مع هدف عملك واستخدامها كنقطة مرجعية لضمان قيامك بالمهمة. 

هندسة الميزات

هندسة الميزات هي تطوير وبناء ميزات بيانات جديدة من البيانات الأولية. يمكنك أخذ البيانات الأولية وإنشاء ميزات إعلامية تتماشى مع هدف عملك. تتكون مرحلة هندسة الميزات من اختيار الميزات وبناء الميزات.

يتم اختيار الميزة عندما تقوم بتقليل عدد الميزات المتوفرة لديك والتي تضيف مزيدًا من الضوضاء إلى البيانات مقارنة بالمعلومات القيمة الفعلية. يمكن أن يؤدي وجود عدد كبير جدًا من الميزات إلى لعنة الأبعاد، وزيادة التعقيد في البيانات حتى يتمكن النموذج من التعلم منها بسهولة وفعالية. 

بناء الميزة موجود في الاسم. إنه بناء ميزات جديدة. باستخدام الميزات المتوفرة لديك حاليًا، يمكنك إنشاء ميزات جديدة، على سبيل المثال، إذا كان هدفك يتركز على كبار الأعضاء، فيمكنك إنشاء حد للعمر الذي تريده.

هذه المرحلة مهمة جدًا لأنها ستؤثر على دقة النموذج التنبؤي الخاص بك. 

النمذجة التنبؤية

هذا هو المكان الذي تبدأ فيه المتعة، وسترى ما إذا كنت قد حققت هدف عملك. تتكون النمذجة التنبؤية من تدريب البيانات واختبارها واستخدام أساليب إحصائية شاملة للتأكد من أن نتائج النموذج مهمة للفرضية التي تم إنشاؤها. 

بناءً على جميع الأسئلة التي طرحتها في مرحلة "فهم الأعمال"، ستتمكن من تحديد النموذج المناسب لمهمتك التي بين يديك. قد يكون اختيارك للنموذج عبارة عن عملية تجربة وخطأ، ولكن هذا مهم لضمان إنشاء نموذج ناجح ينتج مخرجات دقيقة. 

بمجرد الانتهاء من بناء النموذج الخاص بك، ستحتاج إلى تدريبه على مجموعة البيانات الخاصة بك وتقييم أدائه. يمكنك استخدام مقاييس تقييم مختلفة مثل التحقق المتقاطع k-fold لقياس الدقة والاستمرار في القيام بذلك حتى تشعر بالرضا عن قيمة الدقة الخاصة بك. 

إن اختبار النموذج الخاص بك باستخدام بيانات الاختبار والتحقق من الصحة يضمن الدقة وأن النموذج الخاص بك يعمل بشكل جيد. تعد تغذية بياناتك ببيانات غير مرئية طريقة جيدة لمعرفة كيفية أداء النموذج مع البيانات التي لم يتم التدريب عليها من قبل. فإنه يضع النموذج الخاص بك للعمل!

التصور البيانات

بمجرد أن تشعر بالرضا عن أداء النموذج الخاص بك، فأنت على استعداد للعودة وشرح كل شيء للمديرين التنفيذيين في الشركة. يعد إنشاء تصورات للبيانات طريقة جيدة لشرح النتائج التي توصلت إليها للأشخاص غير التقنيين، كما أنها طريقة جيدة لسرد قصة حول البيانات.

تصور البيانات هو مزيج من الاتصالات والإحصاءات والفن. هناك العديد من الطرق التي يمكنك من خلالها تقديم نتائج البيانات الخاصة بك بطريقة جمالية ممتعة. يمكنك استخدام أدوات مثل وثائق Matplotlib, دروس سيبورنو مكتبة بلوتلي. إذا كنت تستخدم بايثون، فاقرأ هذا: قم بعمل تصورات مذهلة باستخدام معرض Python Graph

وهكذا تكون في نهاية دورة الحياة، لكن تذكر أنها دورة. لذلك عليك العودة إلى البداية: فهم الأعمال. ستحتاج إلى تقييم نجاح النموذج الخاص بك فيما يتعلق بفهم العمل الأصلي وهدفه، بالإضافة إلى الفرضية التي تم إنشاؤها.

لقد مررنا الآن بدورة حياة علم البيانات، ولا بد أنك تعتقد أن هذا يبدو بسيطًا للغاية. إنها مجرد خطوة واحدة تلو الأخرى. لكننا نعلم جميعًا أن الأمور ليست بهذه البساطة. ومن أجل جعل الأمر بسيطًا وفعالًا قدر الإمكان، يجب وضع منهجيات الإدارة. 

لم تعد مشاريع علم البيانات تقع تحت مسؤولية علماء البيانات فقط، بل أصبحت جهدًا جماعيًا. لذلك، يعد توحيد إدارة المشروع أمرًا ضروريًا، وهناك طرق يمكنك استخدامها لضمان ذلك. دعونا ننظر فيها.

منهجية الشلال

تمامًا مثل الشلال، تعد منهجية الشلال بمثابة عملية تطوير متسلسلة تتدفق خلال جميع مراحل المشروع. يجب إكمال كل مرحلة حتى تبدأ المرحلة التالية. لا يوجد تداخل بين المراحل، مما يجعلها طريقة فعالة حيث لا يوجد أي اشتباكات. إذا كان عليك إعادة النظر في المراحل السابقة، فهذا يعني أن الفريق خطط بشكل سيء. 

وتتكون من خمس مراحل:

  1. المتطلبات الأساسية
  2. تصميم
  3. تطبيق
  4. التحقق (الاختبار)
  5. الصيانة (النشر)

إذن متى يجب عليك استخدام منهجية الشلال؟ وبينما يتدفق مثل الماء، يجب أن يكون كل شيء واضحًا. وهذا يعني أن الهدف محدد، وأن الفريق يعرف حزمة التكنولوجيا من الداخل إلى الخارج، وأن عناصر المشروع كلها موجودة لضمان عملية سلسة وفعالة. 

ولكن دعونا نعود إلى الواقع. هل تتدفق مشاريع علوم البيانات بسهولة مثل الماء؟ لا، فهي تتطلب الكثير من التجارب وتغييرات المتطلبات والمزيد. ومع ذلك، هذا لا يعني أنه لا يمكنك استخدام عناصر منهجية الشلال. تتطلب منهجية الشلال الكثير من التخطيط. إذا كنت تخطط لكل شيء، نعم قد تواجه مشكلة أو مشكلتين في الطريق، ولكن التحديات ستكون أقل ولن تكون قاسية في هذه العملية. 

منهجية رشيقة

منهجية رشيقة وُلدت في أوائل عام 2001 عندما اجتمع 17 شخصًا لمناقشة مستقبل تطوير البرمجيات. تأسست على 4 قيم أساسية و12 مبدأ.

وتتوافق المنهجية الرشيقة أكثر مع تكنولوجيا اليوم، لأنها تعمل في صناعة تكنولوجيا سريعة الوتيرة ومتغيرة باستمرار. إذا كنت متخصصًا في مجال التكنولوجيا، فأنت تعلم أن المتطلبات في علم البيانات أو المشروع البرمجي تتغير طوال الوقت. لذلك، من المهم وجود الطريقة الصحيحة التي تسمح لك بالتكيف بسرعة مع هذه التغييرات.

تعد المنهجية الرشيقة طريقة مثالية لإدارة مشروع علوم البيانات لأنها تسمح للفريق بمراجعة متطلبات المشروع بشكل مستمر أثناء نموه. يمكن للمديرين التنفيذيين ومديري علوم البيانات اتخاذ قرارات بشأن التغييرات التي يجب إجراؤها أثناء عملية التطوير، وليس في النهاية بمجرد اكتمالها. 

وقد أثبت ذلك فعاليته العالية مع تطور النموذج ليعكس المخرجات التي تركز على المستخدم، مما يوفر الوقت والمال والطاقة. 

مثال على الأسلوب الرشيق هو سكروم. تستخدم طريقة سكروم إطار عمل يساعد على إنشاء هيكل في الفريق باستخدام مجموعة من القيم والمبادئ والممارسات. على سبيل المثال، باستخدام Scrum، يمكن لمشروع علم البيانات تقسيم مشروعه الأكبر إلى سلسلة من المشاريع الأصغر. سيتم تسمية كل من هذه المشاريع الصغيرة بسباق سريع وسيتكون من تخطيط سباق سريع لتحديد الأهداف والمتطلبات والمسؤوليات والمزيد. 

منهجية هجينة

لماذا لا تستخدم طريقتين مختلفتين معا؟ وهذا ما يسمى بالطريقة الهجينة، حيث يتم استخدام منهجيتين أو أكثر لإنشاء طريقة فريدة تمامًا للأعمال. يمكن للشركات استخدام أساليب مختلطة لجميع أنواع المشاريع، ومع ذلك، فإن السبب وراء ذلك يعود إلى تسليم المنتج. 

على سبيل المثال، إذا كان العميل يحتاج إلى منتج ولكنه غير راضٍ عن الإطار الزمني للإنتاج بناءً على استخدام سباقات السرعة بطريقة Agile. لذا يبدو أن الشركة بحاجة إلى القيام بالمزيد من التخطيط، أليس كذلك؟ ما هي الطريقة التي لديها الكثير من التخطيط؟ نعم هذا صحيح يا شلال. يمكن للشركة اعتماد الشلال في طريقتها لتلبية متطلبات العميل على وجه التحديد. 

قد يكون لدى بعض الشركات مشاعر مختلطة حول الجمع بين أسلوب رشيق وأسلوب غير رشيق مثل الشلال. يمكن أن تتواجد هاتان الطريقتان معًا، ومع ذلك، تقع على عاتق الشركة مسؤولية ضمان اتباع نهج بسيط منطقي، وقياس نجاح الطريقة الهجينة، وتوفير الإنتاجية. 

البحوث والتنمية

قد يعتبر البعض هذا بمثابة منهجية، ومع ذلك، أعتقد أن هذا أساس مهم لعملية مشروع علم البيانات. تمامًا مثل منهجية الشلال، لا ضرر من التخطيط وإعداد نفسك بأكبر قدر ممكن من المعلومات.

لكن هذا ليس ما أتحدث عنه هنا. نعم، من الرائع أن تبحث في كل شيء قبل أن تبدأ المشروع. لكن الطريقة الجيدة لضمان إدارة فعالة للمشروع هي أن تنظر إلى مشروعك كمشروع بحث وتطوير. إنها أداة فعالة للتعاون بين فريق علوم البيانات.

تريد المشي قبل تشغيل وتشغيل مشروع علوم البيانات الخاص بك كما لو كان ورقة بحثية. بعض مشاريع علوم البيانات لها مواعيد نهائية قاسية مما يجعل هذه العملية صعبة، ومع ذلك، فإن الإسراع في المنتج النهائي الخاص بك يأتي دائمًا مع المزيد من التحديات. أنت ترغب في إنشاء نموذج فعال وناجح يلبي المرحلة الأولية من دورة حياة علم البيانات: فهم الأعمال. 

البحث والتطوير في مشروع علم البيانات يبقي الأبواب مفتوحة للابتكار، ويزيد من الإبداع ولا يحد من قدرة الفريق على الاستقرار على شيء يمكن أن يكون أعظم من ذلك بكثير!

على الرغم من وجود منهجيات مختلفة للاختيار من بينها، إلا أن الأمر في النهاية يتعلق بعمليات الشركة. بعض الأساليب الشائعة في شركة ما، قد لا تكون أفضل طريقة لشركة أخرى. 

قد يكون لدى الأفراد طرق مختلفة للعمل، لذا فإن أفضل نهج هو إنشاء طريقة تناسب الجميع. 

إذا كنت تريد التعرف على كيفية أتمتة سير عمل علوم البيانات لديك، فاقرأ هذا: الأتمتة في سير عمل علوم البيانات.
 
 
نيشا آريا هو عالم بيانات وكاتب تقني مستقل ومدير المجتمع في KDnuggets. وهي مهتمة بشكل خاص بتقديم المشورة المهنية في علوم البيانات أو البرامج التعليمية والمعرفة القائمة على النظرية حول علوم البيانات. إنها ترغب أيضًا في استكشاف الطرق المختلفة التي يمكن للذكاء الاصطناعي من خلالها الاستفادة من طول عمر حياة الإنسان. متعلمة حريصة ، تسعى إلى توسيع معرفتها التقنية ومهارات الكتابة لديها ، بينما تساعد في توجيه الآخرين.
 

الطابع الزمني:

اكثر من KD nuggets