من ملف CSV إلى التقرير التحليلي الكامل باستخدام ChatGPT في 5 خطوات بسيطة - KDnuggets

من ملف CSV إلى التقرير التحليلي الكامل باستخدام ChatGPT في 5 خطوات بسيطة - KDnuggets

عقدة المصدر: 2982942

من ملف CSV إلى التقرير التحليلي الكامل باستخدام ChatGPT في 5 خطوات بسيطة
الصورة عن طريق rawpixel.com on Freepik
 

بغض النظر عن العمل الذي تعمل فيه، فإن معرفة كيفية تحليل البيانات أصبحت أكثر أهمية من أي وقت مضى في عصر يعتمد على البيانات. ومن شأن تحليل البيانات أن يمكّن الشركات من الحفاظ على قدرتها التنافسية وتوفير القدرة على اتخاذ قرارات أفضل.

أهمية تحليل البيانات تدفع كل فرد إلى معرفة كيفية إجراء تحليل البيانات. ومع ذلك، في بعض الأحيان يستغرق الأمر الكثير من الوقت لإجراء تحليل البيانات. ولهذا السبب يمكننا الاعتماد على ChatGPT لإنشاء تقرير كامل من ملف البيانات الخاص بنا.

ستستكشف هذه المقالة خمس خطوات بسيطة لإنشاء تقارير تحليلية كاملة من ملف CSV الخاص بك. تتضمن هذه الخطوات الخمس ما يلي:

الخطوة 1: استيراد ملف CSV

الخطوة 2: ملخص البيانات والمعالجة المسبقة

الخطوة 3: تحليل البيانات

الخطوة 4: تصور البيانات

الخطوة 5: إنشاء التقرير

كشرط أساسي، تفترض هذه المقالة أن القارئ قد اشترك في ChatGPT Plus. مع أخذ ذلك في الاعتبار، دعونا نبدأ.

الخطوة الأولى هي إعداد ملف CSV الذي تريد تحليله وإنشاء تقرير. يمكن أن يأتي هذا الملف من أي مصدر موثوق به، ولكن هذه المقالة ستستخدم مجموعة بيانات Telecom Churn من Kaggle.

تأكد من أن البيانات منظمة ومنظمة ولها عنوان واضح. إذا كان لديك هدف معين تريد تحليله، فلا تنس تضمين تلك البيانات في الملف. في مثالنا، سنحاول إجراء تحليل لعمود التدوير.

بعد أن أصبحت البيانات جاهزة، قم بإرفاقها بـ ChatGPT واترك النموذج يقوم بعمله.

الخطوة التالية هي الحصول على ملخص البيانات من ملف CSV الخاص بنا ومعالجته مسبقًا. أدخل المطالبة التالية أثناء تحميل البيانات.

Provide the data summary to this file and perform appropriate data processing for the dataset.

توفر المطالبة أعلاه النتائج التالية:

فيما يلي ملخص لمجموعة البيانات الخاصة بك:

عدد الصفوف: 3333

عدد الأعمدة: 11

أسماء الأعمدة:

يخض، يحرك بعنف

أسابيع الحساب

تجديد العقد

خطة البيانات

استخدام البيانات

CustServCalls

DayMins

مكالمات يومية

الرسوم الشهرية

رسوم زائدة

روممينس

أنواع البيانات:

عدد صحيح: Churn، AccountWeeks، ContractRenewal، DataPlan، CustServCalls، DayCalls

التعويم: استخدام البيانات، DayMins، MonthlyCharge، OverageFee، RoamMins

قيم مفقودة: لا توجد قيم مفقودة في أي من الأعمدة.

من الواضح أن ChatGPT يمكنه قراءة البيانات جيدًا وكان قادرًا على توفير مجموعة البيانات المحددة. والنتيجة التالية هي المعالجة المسبقة للبيانات من ChatGPT.

نظرًا لعدم وجود قيم مفقودة في مجموعة البيانات، سيكون التركيز الرئيسي لتنظيف البيانات ومعالجتها مسبقًا على ما يلي:

  • التحقق من وجود أي قيم متطرفة أو شذوذ في البيانات.
  • تطبيع أو توحيد البيانات إذا لزم الأمر، وخاصة بالنسبة للأعمدة ذات القيم العددية المستمرة.
  • تحويل البيانات الفئوية إلى تنسيق مناسب للتحليل، إذا لزم الأمر.

دعونا المضي قدما في هذه الخطوات. 
 

من ملف CSV إلى التقرير التحليلي الكامل باستخدام ChatGPT في 5 خطوات بسيطة
 

توفر boxplots نظرة عامة مرئية على القيم المتطرفة المحتملة في كل عمود رقمي في مجموعة البيانات الخاصة بك. وهنا بعض الملاحظات:

  • AccountWeeks وCustServCalls وDayCalls: تُظهر هذه الأعمدة توزيعًا طبيعيًا إلى حد ما مع عدد قليل من القيم المتطرفة.
  • DataUsage، DayMins، MonthlyCharge، OverageFee، RoamMins: تُظهر هذه الأعمدة أيضًا بعض القيم المتطرفة، ولكن يبدو أنها تقع ضمن نطاق معقول، مع الأخذ في الاعتبار طبيعة البيانات.
  • Churn، ContractRenewal، DataPlan: نظرًا لكونها بيانات فئوية/ثنائية، فإن هذه الأعمدة لا تعرض القيم المتطرفة التقليدية.

في ضوء هذه المعلومات، يمكن أن تشمل الخطوات التالية في تنظيف البيانات ومعالجتها المسبقة ما يلي:

  • التعامل مع القيم المتطرفة: يمكننا أن نقرر ما إذا كنا سنزيل القيم المتطرفة أو نضع حدًا لها أو نتعامل معها بطريقة أخرى بناءً على احتياجاتك التحليلية المحددة ومعرفة المجال.
  • تحويل البيانات: إذا لزم الأمر، يمكننا تسوية أو توحيد الأعمدة مثل DayMins وMonthlyCharge وما إلى ذلك، خاصة إذا كنت تخطط لاستخدام خوارزميات حساسة لحجم البيانات.
  • ترميز البيانات الفئوية: تحويل البيانات الفئوية إلى تنسيق مناسب للتحليل، إذا كان هذا التحويل مطلوبًا.

يمكنك السماح لـ ChatGPT بتنفيذ خطوات إضافية لتنظيف البيانات ومعالجتها مسبقًا أو تركها كما هي. في هذا المثال، سنواصل الخطوات التالية.

بعد ذلك، سنقوم بإجراء تحليل البيانات باستخدام ChatGPT. يعتمد تحليل البيانات على ما تريد تحقيقه. في حالتنا، نريد إجراء تحليل البيانات من Churn POV.

نستخدم الموجه التالي لتنفيذ تحليل البيانات باستخدام ChatGPT للحالة المذكورة أعلاه.

Please perform the data analysis based on the data above with respect to the churn data.

 

ويمكن رؤية تحليل البيانات في النتيجة التالية.

ولإجراء تحليل البيانات فيما يتعلق ببيانات التوقف عن العمل، سنركز على فهم كيفية ارتباط العوامل المختلفة بتوقف العملاء عن العمل. إن الزبد، كونه متغيرًا ثنائيًا (0 يعني عدم وجود زبد، 1 يعني زبد)، يتم تحليله عادةً من خلال طرق التصنيف ومن خلال فحص العلاقات مع المتغيرات الأخرى. ها هي الخطة:

  1. تحليل الارتباط: للبدء، سننظر في كيفية ارتباط كل ميزة عددية بالاضطراب. وهذا يمنحنا فهمًا أوليًا للعوامل التي قد تكون أكثر ارتباطًا بالاضطراب.
  1. الاختبارات الإحصائية: بالنسبة للمتغيرات الفئوية مثل ContractRenewal وDataPlan، يمكننا استخدام الاختبارات الإحصائية لمعرفة ما إذا كانت هناك اختلافات كبيرة في معدلات التراجع عبر الفئات المختلفة.
  1. التحليل البصري: سنقوم بإنشاء بعض التصورات لاستكشاف هذه العلاقات بشكل أكبر. يتضمن ذلك مقارنة معدلات التغيير عبر مجموعات مختلفة ورسم المتغيرات الرئيسية مقابل التغيير.
  1. إحصائيات ملخصة: سنقدم إحصائيات موجزة لمجموعات مختلفة بناءً على حالة الإلغاء لمعرفة ما إذا كانت هناك اختلافات ملحوظة في الوسائل أو التوزيعات.

لنبدأ بتحليل الارتباط ثم ننتقل إلى الخطوات التالية.

تحليل الارتباط مع زبد

العلاقة بين المتغيرات المختلفة مع الاضطراب هي كما يلي (من أقوى ارتباط سلبي إلى أقوى ارتباط إيجابي):

علاقة سلبية:

  • تجديد العقد: أقوى ارتباط سلبي. يشير إلى أن العملاء الذين لا يجددون عقودهم هم أكثر عرضة للتوقف عن العمل.
  • DataPlan: العملاء الذين ليس لديهم خطة بيانات هم أكثر عرضة قليلاً للتوقف عن العمل.
  • استخدام البيانات: يؤدي الاستخدام العالي للبيانات إلى تقليل احتمالية حدوث تغيير طفيف.

ترابط ايجابى:

  • AccountWeeks وDayCalls: ارتباط إيجابي ضعيف جدًا، مما يشير إلى تأثير ضئيل على الاضطراب.
  • RoamMins: زيادة طفيفة في احتمالية التوقف عن العمل مع زيادة دقائق التجوال.
  • الرسوم الشهرية: معدلات مخالفة أعلى قليلاً مع زيادة الرسوم الشهرية.
  • الرسوم الزائدة: ترتبط الرسوم الزائدة المرتفعة بشكل معتدل بزيادة الاضطراب.
  • DayMins: ترتبط الدقائق اليومية الأعلى بشكل معتدل بزيادة معدل التباطؤ.
  • CustServCalls: ارتباط إيجابي قوي. يرتبط المزيد من مكالمات خدمة العملاء بمعدلات أعلى للتوقف عن العمل.

وبناءً على هذه الارتباطات، يبدو أن عوامل مثل تجديد العقد، ومكالمات خدمة العملاء، والدقائق اليومية، والرسوم الزائدة ترتبط ارتباطًا وثيقًا بالتوقف عن العمل. يمكننا استكشاف هذه العوامل بشكل أكبر من خلال التحليل المرئي والاختبارات الإحصائية، خاصة بالنسبة للمتغيرات الفئوية مثل ContractRenewal وDataPlan.

التحليل البصري

 

من ملف CSV إلى التقرير التحليلي الكامل باستخدام ChatGPT في 5 خطوات بسيطة
 

تقدم المرئيات رؤى قيمة حول العلاقة بين المتغيرات المختلفة والتغيير:

التغيير عن طريق ContractRenewal وDataPlan:

  • تجديد العقد: من الواضح وجود اختلاف كبير في معدلات المخلفات. يظهر العملاء الذين لم يجددوا عقودهم معدلًا أعلى من الاضطراب.
  • DataPlan: هناك اختلاف ملحوظ في معدلات التوقف عن العمل بناءً على ما إذا كان العملاء لديهم خطة بيانات أم لا، حيث يظهر أولئك الذين ليس لديهم خطة بيانات معدل توقف أعلى.

المتغيرات الرقمية (CustServCalls، DayMins، MonthlyCharge، OverageFee) بواسطة Churn:

  • CustServCalls: العملاء الذين لديهم أعداد أكبر من مكالمات خدمة العملاء يميلون إلى إجراء المزيد من المكالمات.
  • DayMins: ترتبط الدقائق اليومية الأعلى باحتمالية أكبر للتوقف عن العمل.
  • الرسوم الشهرية: ترتبط الرسوم الشهرية المرتفعة بزيادة معدل الإيقاف.
  • OverageFee: ترتبط الرسوم الزائدة المرتفعة أيضًا بزيادة الاضطراب.

استنتاجات من التحليل

  • تعد حالة تجديد العقد ووجود خطة بيانات من العوامل المهمة في تراجع العملاء.
  • يرتبط الاستخدام العالي (من حيث دقائق اليوم) والرسوم المرتفعة (الرسوم الشهرية والرسوم الزائدة) بارتفاع معدلات التباطؤ.
  • يعد العدد الأكبر من مكالمات خدمة العملاء مؤشرًا قويًا على الاضطراب المحتمل.

الخطوات المقبلة

واستنادًا إلى هذه الأفكار، يمكن تطوير استراتيجيات مستهدفة لتقليل التغيير، مثل تحسين خدمة العملاء، أو مراجعة استراتيجيات التسعير، أو تقديم حوافز لتجديد العقد واشتراكات خطط البيانات.

من خلال مطالبة واحدة، يمكننا أن نرى مدى قدرة ChatGPT على تزويدنا بتحليل كامل للبيانات والتوصل إلى رؤى من البيانات. يمكنك تعديل أهداف التحليل والبدء من هناك.

يعد تصور البيانات نشاطًا داعمًا لتحسين تحليل البيانات والتقرير الشامل. ومن خلال التصور، يمكننا الحصول على تقرير أكثر شمولاً لفهم بياناتنا.

باستخدام الموجه التالي، يمكننا إجراء تصور البيانات باستخدام ChatGPT.

Please perform data visualization from the data analysis to explain the data better.

لتعزيز فهم نتائج تحليل البيانات، سأقوم بإنشاء سلسلة من التصورات التي تصور بوضوح النتائج الرئيسية المتعلقة بتراجع العملاء. ستشمل هذه التصورات ما يلي:

  1. مخططات شريطية للمتغيرات الفئوية:
  • مقارنة معدلات التوقف عن العمل للعملاء مع تجديد العقد وبدونه.
  • مقارنة معدلات التوقف عن العمل للعملاء الذين لديهم خطة بيانات وبدونها.
  • مخططات الصندوق للمتغيرات العددية الرئيسية:
  1. مكالمات خدمة العملاء مقابل Churn.
  • الدقائق اليومية مقابل Churn.
  • الرسوم الشهرية مقابل Churn.
  • الرسوم الزائدة مقابل Churn.
  1. خريطة الحرارة للارتباط:

لتصور العلاقة بين جميع المتغيرات مع زبد.

 

من ملف CSV إلى التقرير التحليلي الكامل باستخدام ChatGPT في 5 خطوات بسيطة
 

سيُظهر التصور جميع المخططات المهمة التي تغلف مجموعة البيانات بأكملها. يمكننا أن نطلب المزيد من الأوصاف التفصيلية لكل قطعة أرض، والتي يمكنك تجربتها بشكل مستقل.

الخطوة الأخيرة هي إنشاء التقرير بناءً على الخطوات السابقة. لسوء الحظ، قد لا يتمكن ChatGPT من التقاط كل الوصف والرؤى من تحليل البيانات، ولكن لا يزال بإمكاننا الحصول على نسخة بسيطة من التقرير.

استخدم المطالبة التالية لإنشاء تقرير PDF بناءً على التحليل السابق.

Please provide me with the pdf report from the first step to the last step.

سوف تحصل على نتيجة رابط PDF مع تغطية تحليلك السابق. حاول تكرار الخطوات إذا شعرت أن النتيجة غير كافية أو إذا كانت هناك أشياء تريد تغييرها.

تحليل البيانات هو نشاط يجب أن يعرفه الجميع لأنه من أكثر المهارات المطلوبة في العصر الحالي. ومع ذلك، فإن تعلم كيفية إجراء تحليل البيانات قد يستغرق وقتًا طويلاً. باستخدام ChatGPT، يمكننا تقليل كل وقت النشاط هذا. 

ناقشنا في هذه المقالة كيفية إنشاء تقرير تحليلي كامل من ملفات CSV في 5 خطوات. يوفر ChatGPT للمستخدمين نشاط تحليل البيانات الشامل، بدءًا من استيراد الملف وحتى إنتاج التقرير.
 
 

كورنليوس يودا ويجايا هو مدير مساعد لعلوم البيانات وكاتب بيانات. أثناء عمله بدوام كامل في Allianz Indonesia ، يحب مشاركة نصائح حول Python و Data عبر وسائل التواصل الاجتماعي وكتابة الوسائط.

الطابع الزمني:

اكثر من KD nuggets