لا تلمس مجموعة بيانات دون طرح هذه الأسئلة العشرة
يعد اختيار مجموعة البيانات الصحيحة أمرًا بالغ الأهمية لنجاح مشروع الذكاء الاصطناعي الخاص بك.
By سانديب أوتامشانداني ، دكتوراه.، كل من منشئ المنتج / البرنامج (نائب رئيس Engg) والرائد في تشغيل مبادرات البيانات / الذكاء الاصطناعي على مستوى المؤسسة (CDO)
البيانات هي قلب منتج الذكاء الاصطناعي. هناك تركيز متزايد على ضبط البيانات بدلاً من ضبط النماذج - صاغها Andrew Ng as الذكاء الاصطناعي المرتكز على البيانات. من واقع خبرتي ، يمكن توقع نجاح أو فشل مشروع الذكاء الاصطناعي من خلال مجموعات البيانات المستخدمة.
إذا كنت عالم بيانات / مهندس ذكاء اصطناعي تتطلع إلى إنشاء نموذج جديد أو مهندس بيانات يعمل على بناء خطوط أنابيب لمشروع الذكاء الاصطناعي ، فلكل مجموعة بيانات قائمة مختصرة لديك ، اطرح الأسئلة التالية لتجنب الصداع والتوقعات المفقودة لاحقًا في دورة حياة الذكاء الاصطناعي.
1. هل معنى سمات مجموعة البيانات موثق؟
قبل عصر البيانات الضخمة ، كان يتم تنسيق البيانات قبل إضافتها إلى مستودع البيانات المركزي. يُعرف هذا المخطط عند الكتابة. اليوم ، النهج مع بحيرات البيانات هو تجميع البيانات أولاً ثم استنتاج معنى البيانات في وقت الاستهلاك. يُعرف هذا المخطط عند القراءة.
نادرًا ما يتم توثيق سمات البيانات بشكل صحيح أو تحديثها. في حين أن الحصول على الوثائق يمكن أن يُنظر إليه على أنه خطوة تؤدي إلى إبطاء المشروع ، فإنه في الواقع يصبح أمرًا بالغ الأهمية أثناء تصحيح أخطاء النموذج. حدد مضيف البيانات الذي يمتلك مجموعة البيانات وتأكد من قدرته على تقديم الوثائق الأكثر دقة.
2. هل المقاييس الإجمالية / المشتقة في مجموعة البيانات موحدة؟
يمكن أن تحتوي البيانات أو المقاييس المشتقة على مصادر متعددة للحقيقة وتعريفات الأعمال. تأكد من أن المقاييس لها تعريف عمل موثق واضح (أحيانًا ضمنيًا في ETL)
3. هل تمتثل مجموعة البيانات للوائح حقوق البيانات (مثل القانون العام لحماية البيانات ، وقانون حماية خصوصية المستهلك في كاليفورنيا ، وما إلى ذلك)
أصبحت لوائح حقوق البيانات الآن حاسمة - من المهم تتبعها وإنفاذها أثناء التدريب النموذجي وإعادة التدريب. يوجد عدد متزايد من لوائح حقوق البيانات مثل القانون العام لحماية البيانات (GDPR) ، وقانون حماية خصوصية المستهلك (CCPA) ، وقانون حماية البيانات العامة البرازيلي ، ومشروع قانون حماية البيانات الشخصية في الهند ، والعديد من اللوائح الأخرى ، كما هو موضح في الشكل. تتطلب هذه القوانين جمع بيانات العملاء واستخدامها وحذفها بناءً على تفضيلاتهم. يوجد جوانب مختلفة حقوق البيانات ، وهي: جمع حقوق البيانات ، استخدام حقوق البيانات ، حذف حقوق البيانات ، الوصول إلى حقوق البيانات.
4. هل هناك عملية إدارة تغيير واضحة بحيث يتم إخطار جميع المستهلكين بتغيير مخطط مجموعة البيانات / التعريف؟
من الشائع جدًا أن تكون تغييرات المخطط عند المصدر غير منسقة مع المعالجة النهائية. يمكن أن تتراوح التغييرات من تغييرات المخطط (كسر خطوط الأنابيب الحالية) إلى صعوبة اكتشاف التغييرات الأساسية لسمات البيانات. أيضًا ، عندما تتغير مقاييس العمل ، يكون هناك نقص في إصدار التعريفات.
5. ما هو السياق الذي تم فيه جمع مجموعة البيانات؟
نادرًا ما تلتقط مجموعات البيانات الحقيقة المطلقة من وجهة نظر إحصائية. فهم يلتقطون فقط السمات التي يطلبها مالكو التطبيق في ذلك الوقت لحالة الاستخدام الخاصة بهم. من المهم تحليل مجموعات البيانات للتحيز والبيانات المسقطة. يعتبر فهم سياق مجموعة البيانات فوق الحرج.
6. هي البيانات IID؟
• الافتراض الضمني التدريب النموذجي هو أن البيانات IID (مستقل وموزع بشكل مماثل). أيضا ، البيانات لها تاريخ انتهاء الصلاحية. قد لا تمثل سجلات سلوك العملاء من 10 سنوات ماضية.
7. هل تم اختبار / التحقق من صحة مجموعة البيانات بحثًا عن أخطاء منهجية في جمع البيانات؟
إذا كانت الأخطاء في مجموعة البيانات عشوائية ، فهي أقل ضررًا لتدريب النموذج. ولكن إذا كان هناك خطأ مثل أن صفًا أو عمودًا معينًا مفقودًا بشكل منهجي ، فقد يؤدي إلى تحيز في مجموعة البيانات. على سبيل المثال ، تفاصيل الجهاز الخاصة بنقرات العميل مفقودة لفئة مستخدم بسبب خطأ ، ستكون مجموعة البيانات غير ممثلة للواقع.
8. هل مجموعة البيانات مراقبة لتغيرات التوزيع المفاجئة؟
مجموعات البيانات تتطور باستمرار. لا يعد تحليل توزيع البيانات نشاطًا لمرة واحدة مطلوبًا فقط في وقت إنشاء النموذج. بدلاً من ذلك ، هناك حاجة إلى مراقبة مجموعات البيانات باستمرار بحثًا عن الانجرافات ، خاصة للتدريب عبر الإنترنت.
9. كيف يتم التعامل مع القيم المتطرفة في مجموعة البيانات؟
القيم المتطرفة ليست بالضرورة سيئة وأحيانًا تكون ضرورية لبناء النموذج بشكل صحيح. من المهم أن نفهم ما إذا كانت القيم المتطرفة يتم ترشيحها أثناء التجميع وما هو المنطق / المعايير.
10. هل تم تخصيص مضيف بيانات لمجموعة البيانات؟ (ينطبق على الفرق الكبيرة الحجم)
مجموعات البيانات عديمة الفائدة إذا كان لا يمكن فهمها. غالبًا ما تكون محاولة عكس هندسة معنى الأعمدة "معركة خاسرة". المفتاح هو التأكد من وجود مضيف بيانات مسؤول عن مجموعة بيانات لتحديث وتطوير تفاصيل الوثائق.
من واقع خبرتي ، فإن الإجابة على هذه الأسئلة تساعد في الكشف بشكل استباقي المعروف ، المجهول المعروف ، والمجهول المجهول في مجموعة البيانات. ليس من المهم أن يكون لكل سؤال إجابة مؤكدة. بدلاً من ذلك ، يمكن أن يؤدي أخذ هذه الاستجابات في الاعتبار إلى تسريع دورة حياة الذكاء الاصطناعي والمساعدة في تجنب النقاط العمياء.
السيرة الذاتية: سانديب أوتامشانداني ، دكتوراه.: Data + AI / ML - كلاهما مُنشئ منتج / برنامج (نائب رئيس Engg) وقائد في تشغيل مبادرات البيانات / الذكاء الاصطناعي على مستوى المؤسسة (CDO) | مؤلف كتاب أورايلي | مؤسس - DataForHumanity (غير هادفة للربح)
هذا الموضوع ذو علاقة بـ:
أهم الأخبار في الثلاثين يومًا الماضية | |||||
---|---|---|---|---|---|
|
|
المصدر: https://www.kdnuggets.com/2021/09/dataset-asking-10-questions.html
- "
- &
- الوصول
- حسابي
- AI
- الكل
- تحليل
- أندرو نانوغرام
- تطبيق
- التطبيقات
- معركة
- البيانات الكبيرة
- مشروع قانون
- علة
- نساعدك في بناء
- باني
- ابني
- الأعمال
- CCPA
- تغيير
- عمود
- مشترك
- المستهلكين
- استهلاك
- البيانات
- حماية البيانات
- علم البيانات
- مستودع البيانات
- التعلم العميق
- إسقاط
- مهندس
- الهندسة
- إلخ
- Excel
- الخبره في مجال الغطس
- استكشاف
- الوجه
- فشل
- الشكل
- الاسم الأول
- مؤسس
- GDPR
- العلاجات العامة
- متزايد
- الصداع
- كيفية
- HTTPS
- تحديد
- الهند
- IT
- القفل
- القوانين
- قيادة
- تعلم
- خط
- لينكدين:
- آلة التعلم
- إدارة
- المقاييس
- مایکروسافت
- نموذج
- أي
- غير هادفة للربح
- online
- جاكيت
- تعمل
- أخرى
- أصحاب
- البيانات الشخصية
- محفظة
- المنتج
- تنفيذ المشاريع
- الحماية
- بايثون
- نطاق
- واقع
- تسجيل
- قوانين
- عكس
- علوم
- العلماء
- مهارات
- تباطؤ
- سرعة
- قصص
- تحقيق النجاح
- الاختبار
- المصدر
- الوقت
- تيشرت
- تواصل
- مسار
- قادة الإيمان
- تحديث
- المخزن
- الويب
- ما هي تفاصيل
- من الذى
- في غضون
- X
- سنوات
- موقع YouTube