از CSV تا گزارش تحلیلی کامل با ChatGPT در 5 مرحله ساده - KDnuggets

از CSV تا گزارش تحلیلی کامل با ChatGPT در 5 مرحله ساده - KDnuggets

گره منبع: 2982942

از CSV تا گزارش تحلیلی کامل با ChatGPT در 5 مرحله ساده
تصویر rawpixel.com on Freepik
 

مهم نیست که در چه کسب و کاری هستید، دانستن اینکه چگونه داده ها را تجزیه و تحلیل کنید در عصر مبتنی بر داده مهم تر از همیشه است. تجزیه و تحلیل داده ها کسب و کارها را قادر می سازد تا رقابتی باقی بمانند و توانایی تصمیم گیری بهتر را فراهم کنند.

اهمیت تجزیه و تحلیل داده ها، هر فردی را به دانستن نحوه انجام تجزیه و تحلیل داده ها سوق می دهد. با این حال، گاهی اوقات انجام تجزیه و تحلیل داده ها زمان زیادی می برد. به همین دلیل است که می‌توانیم برای ایجاد یک گزارش کامل از فایل داده خود، به ChatGPT اعتماد کنیم.

این مقاله به بررسی پنج مرحله ساده برای ایجاد گزارش های تحلیلی کامل از فایل CSV شما می پردازد. این پنج مرحله عبارتند از:

مرحله 1: وارد کردن فایل CSV

مرحله 2: خلاصه و پیش پردازش داده ها

مرحله 3: تجزیه و تحلیل داده ها

مرحله 4: تجسم داده ها

مرحله 5: تولید گزارش

به عنوان یک پیش نیاز، این مقاله فرض می کند که خواننده در ChatGPT Plus مشترک شده است. با در نظر گرفتن این موضوع، بیایید شروع کنیم.

اولین گام این است که فایل CSV را که می خواهید تجزیه و تحلیل کنید آماده کنید و یک گزارش ایجاد کنید. این فایل می‌تواند از هر منبع قابل اعتمادی باشد، اما این مقاله از مجموعه داده Telecom Churn استفاده می‌کند کجگل.

اطمینان حاصل کنید که داده‌ها ساختار یافته، سازمان‌یافته و دارای سرصفحه واضح هستند. اگر هدف خاصی دارید که می خواهید آن را تجزیه و تحلیل کنید، پس فراموش نکنید که آن داده ها را در فایل قرار دهید. در مثال خود، ما سعی می کنیم یک تحلیل برای ستون Churn انجام دهیم.

با آماده بودن داده ها، آنها را به ChatGPT متصل کنید و اجازه دهید مدل کار خود را انجام دهد.

گام بعدی این است که خلاصه داده ها را از فایل CSV خود دریافت کرده و آنها را پیش پردازش کنیم. هنگام آپلود داده ها، دستور زیر را وارد کنید.

Provide the data summary to this file and perform appropriate data processing for the dataset.

اعلان فوق نتایج زیر را ارائه می دهد:

در اینجا خلاصه مجموعه داده شما آمده است:

تعداد ردیف: 3333

تعداد ستون ها: 11

نام ستون ها:

دائما و شدیدا چیزی را تکان دادن و بم زدن

اکانت ویکس

تمدید قرارداد

نقشهی داده

استفاده از داده

CustServCalls

DayMins

تماس های روزانه

شارژ ماهانه

OverageFee

RoamMins

انواع داده ها:

عدد صحیح: Churn، AccountWeeks، Contract Renewal، DataPlan، CustServCalls، DayCalls

Float: DataUsage، DayMins، Monthly Charge، OverageFee، RoamMins

ارزش از دست رفته: هیچ مقدار از دست رفته در هیچ یک از ستون ها وجود ندارد.

ChatGPT به وضوح می‌توانست داده‌ها را به خوبی بخواند و قادر به ارائه مجموعه داده‌های داده شده بود. نتیجه بعدی پیش پردازش داده ها از ChatGPT است.

از آنجایی که هیچ مقدار گمشده ای در مجموعه داده وجود ندارد، تمرکز اصلی پاکسازی و پیش پردازش داده ها بر روی موارد زیر خواهد بود:

  • بررسی هر گونه موارد پرت یا ناهنجاری در داده ها.
  • عادی سازی یا استاندارد کردن داده ها در صورت لزوم، به ویژه برای ستون هایی با مقادیر عددی پیوسته.
  • در صورت لزوم، داده های طبقه بندی شده را به قالبی مناسب برای تجزیه و تحلیل تبدیل کنید.

بیایید این مراحل را ادامه دهیم. 
 

از CSV تا گزارش تحلیلی کامل با ChatGPT در 5 مرحله ساده
 

نمودارهای جعبه یک نمای کلی بصری از نقاط پرت بالقوه در هر ستون عددی مجموعه داده شما ارائه می دهند. در اینجا برخی از مشاهدات وجود دارد:

  • AccountWeeks، CustServCalls، DayCalls: این ستون ها توزیع نسبتاً نرمال را با چند نقطه پرت نشان می دهند.
  • DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: این ستون ها نیز برخی از نقاط پرت را نشان می دهند، اما به نظر می رسد با توجه به ماهیت داده ها در محدوده معقولی قرار دارند.
  • Churn، ContractRenewal، DataPlan: این ستون‌ها از آنجایی که داده‌های دسته‌بندی/دودویی هستند، نقاط پرت سنتی را نشان نمی‌دهند.

با توجه به این اطلاعات، مراحل بعدی در پاکسازی و پیش پردازش داده ها می تواند شامل موارد زیر باشد:

  • رسیدگی به موارد پرت: ما می‌توانیم بر اساس نیازهای تحلیلی خاص و دانش دامنه شما تصمیم بگیریم که آیا موارد پرت را حذف کنیم، آن را محدود کنیم یا در غیر این صورت مدیریت کنیم.
  • تبدیل داده: در صورت نیاز، می‌توانیم ستون‌هایی مانند DayMins، MonthlyCharge و غیره را عادی یا استاندارد کنیم، به خصوص اگر قصد دارید از الگوریتم‌هایی استفاده کنید که به مقیاس داده‌ها حساس هستند.
  • رمزگذاری داده های طبقه بندی شده: در صورت نیاز به چنین تغییری، داده های طبقه بندی را به قالبی مناسب برای تجزیه و تحلیل تبدیل کنید.

می‌توانید به ChatGPT اجازه دهید مراحل اضافی را برای تمیز کردن و پیش‌پردازش داده‌ها انجام دهد یا اجازه دهید همانطور که هست باشد. برای این مثال، ما به مراحل بعدی ادامه خواهیم داد.

سپس، تجزیه و تحلیل داده ها را با ChatGPT انجام می دهیم. تجزیه و تحلیل داده ها بستگی به آنچه می خواهید به دست آورید دارد. در مورد ما، ما می خواهیم تجزیه و تحلیل داده ها را از Churn POV انجام دهیم.

ما از دستور زیر برای اجرای تجزیه و تحلیل داده ها با ChatGPT برای مورد فوق استفاده می کنیم.

Please perform the data analysis based on the data above with respect to the churn data.

 

تجزیه و تحلیل داده ها را می توان در نتیجه زیر مشاهده کرد.

برای انجام تجزیه و تحلیل داده ها با توجه به داده های ریزش، ما بر درک چگونگی ارتباط عوامل مختلف با ریزش مشتری تمرکز خواهیم کرد. Churn که یک متغیر باینری است (0 برای بدون انحراف، 1 برای Churn)، معمولاً از طریق روش‌های طبقه‌بندی و با بررسی روابط با سایر متغیرها تجزیه و تحلیل می‌شود. در اینجا این طرح است:

  1. تجزیه و تحلیل همبستگی: برای شروع، چگونگی ارتباط هر یک از ویژگی های عددی با churn را بررسی خواهیم کرد. این به ما درک اولیه ای می دهد که کدام عوامل ممکن است ارتباط نزدیک تری با ریزش داشته باشند.
  1. تست‌های آماری: برای متغیرهای طبقه‌بندی مانند ContractRenewal و DataPlan، می‌توانیم از آزمون‌های آماری استفاده کنیم تا ببینیم آیا تفاوت‌های قابل توجهی در نرخ ریزش در دسته‌های مختلف وجود دارد یا خیر.
  1. تجزیه و تحلیل بصری: برای بررسی بیشتر این روابط، تجسم هایی ایجاد خواهیم کرد. این شامل مقایسه نرخ ریزش در گروه‌های مختلف و ترسیم متغیرهای کلیدی در برابر ریزش است.
  1. آمار خلاصه: ما آمار خلاصه ای را برای گروه های مختلف بر اساس وضعیت ریزش ارائه خواهیم کرد تا ببینیم آیا تفاوت های قابل توجهی در میانگین یا توزیع وجود دارد یا خیر.

بیایید با تحلیل همبستگی شروع کنیم و سپس به مراحل بعدی برویم.

تجزیه و تحلیل همبستگی با Churn

همبستگی متغیرهای مختلف با ریزش به صورت زیر است (از قوی ترین همبستگی منفی تا قوی ترین همبستگی مثبت):

همبستگی منفی:

  • تمدید قرارداد: قوی ترین همبستگی منفی. نشان می دهد که مشتریانی که قرارداد خود را تمدید نمی کنند، بیشتر احتمال دارد از بین بروند.
  • DataPlan: مشتریان بدون برنامه داده اندکی بیشتر احتمال دارد که از بین بروند.
  • DataUsage: استفاده بیشتر از داده احتمال ریزش را اندکی کاهش می دهد.

همبستگی مثبت:

  • AccountWeeks، DayCalls: همبستگی مثبت بسیار ضعیف، نشان‌دهنده کمترین تأثیر بر ریزش است.
  • RoamMins: افزایش جزئی در احتمال ریزش با افزایش دقایق رومینگ.
  • MonthlyCharge: نرخ ریزش اندکی بالاتر با افزایش هزینه های ماهانه.
  • OverageFee: هزینه های اضافه اضافه با افزایش ریزش ارتباط متوسطی دارد.
  • DayMins: دقیقه های روزانه بالاتر به طور متوسط ​​با افزایش ریزش ارتباط دارد.
  • CustServCalls: همبستگی مثبت قوی. تماس های بیشتر با خدمات مشتری با نرخ ریزش بیشتر همراه است.

بر اساس این همبستگی‌ها، به نظر می‌رسد که عواملی مانند تمدید قرارداد، تماس‌های خدمات مشتری، دقیقه‌های روزانه و هزینه‌های اضافی بیشتر با ریزش ارتباط دارند. ما می توانیم این عوامل را از طریق تجزیه و تحلیل بصری و آزمون های آماری، به ویژه برای متغیرهای طبقه بندی شده مانند ContractRenewal و DataPlan بیشتر بررسی کنیم.

تحلیل بصری

 

از CSV تا گزارش تحلیلی کامل با ChatGPT در 5 مرحله ساده
 

تجسم ها بینش های ارزشمندی را در مورد رابطه بین متغیرهای مختلف و ریزش ارائه می دهند:

Churn توسط ContractRenewal و DataPlan:

  • تمدید قرارداد: تفاوت قابل توجهی در نرخ ریزش مشهود است. مشتریانی که قرارداد خود را تمدید نکردند، نرخ ریزش بیشتری را نشان می دهند.
  • DataPlan: بر اساس اینکه مشتریان طرح داده دارند یا نه، تفاوت قابل توجهی در نرخ ریزش وجود دارد، با آنهایی که برنامه داده ای ندارند ریزش بالاتری را نشان می دهند.

متغیرهای عددی (CustServCalls، DayMins، MonthlyCharge، OverageFee) توسط Churn:

  • CustServCalls: مشتریانی که تعداد تماس‌های خدمات مشتری بالاتری دارند، تمایل بیشتری دارند.
  • DayMins: دقیقه های روزانه بیشتر با احتمال بیشتر ریزش همراه است.
  • Monthly Charge: هزینه های ماهانه بالاتر با افزایش نرخ ریزش مرتبط است.
  • OverageFee: هزینه های بیش از حد بالاتر نیز با افزایش ریزش همراه است.

نتیجه گیری از تجزیه و تحلیل

  • وضعیت تمدید قرارداد و وجود یک طرح داده از عوامل مهم در ریزش مشتری هستند.
  • استفاده زیاد (بر حسب دقیقه روز) و هزینه های بالا (هزینه های ماهانه و هزینه های اضافی) با نرخ ریزش بالاتر همراه است.
  • تعداد بیشتر تماس‌های خدمات مشتری، نشانگر قوی ریزش احتمالی است.

گام های بعدی

بر اساس این بینش ها، استراتژی های هدفمندی را می توان برای کاهش ریزش ایجاد کرد، مانند بهبود خدمات مشتری، تجدید نظر در استراتژی های قیمت گذاری، یا ارائه مشوق هایی برای تمدید قرارداد و اشتراک طرح داده.

با یک اعلان، می‌توانیم ببینیم که ChatGPT چقدر می‌تواند تجزیه و تحلیل کامل داده‌ها را به ما بدهد و به بینشی از داده‌ها دست پیدا کند. می توانید اهداف تحلیل را تغییر دهید و از آنجا شروع کنید.

تجسم داده ها یک فعالیت حمایتی برای بهبود تجزیه و تحلیل داده ها و گزارش کلی است. با داشتن تجسم، می توانیم گزارش جامع تری برای درک داده های خود داشته باشیم.

با استفاده از اعلان زیر می توانیم تصویرسازی داده ها را با ChatGPT انجام دهیم.

Please perform data visualization from the data analysis to explain the data better.

برای افزایش درک نتایج تجزیه و تحلیل داده‌ها، من مجموعه‌ای از تجسم‌سازی‌ها را ایجاد می‌کنم که به وضوح یافته‌های کلیدی مرتبط با ریزش مشتری را به تصویر می‌کشند. این تجسم ها شامل موارد زیر خواهد بود:

  1. نمودارهای میله ای برای متغیرهای طبقه بندی شده:
  • مقایسه نرخ ریزش برای مشتریان با و بدون تمدید قرارداد.
  • مقایسه نرخ ریزش برای مشتریان با و بدون برنامه داده.
  • نمودارهای جعبه ای برای متغیرهای عددی کلیدی:
  1. تماس های خدمات مشتری در مقابل Churn.
  • دقایق روزانه در مقابل چرن.
  • هزینه های ماهانه در مقابل ریزش.
  • هزینه بیش از حد در مقابل Churn.
  1. نقشه حرارتی همبستگی:

برای تجسم همبستگی همه متغیرها با churn.

 

از CSV تا گزارش تحلیلی کامل با ChatGPT در 5 مرحله ساده
 

تجسم تمام نمودارهای مهمی را نشان می دهد که کل مجموعه داده را در بر می گیرد. ما می‌توانیم توضیحات دقیق‌تری را برای هر طرح درخواست کنیم، که می‌توانید آن را به طور مستقل امتحان کنید.

آخرین مرحله تهیه گزارش بر اساس مراحل قبلی است. متأسفانه، ChatGPT ممکن است تمام توضیحات و بینش را از تجزیه و تحلیل داده ها دریافت نکند، اما همچنان می توانیم نسخه ساده گزارش را داشته باشیم.

از دستور زیر برای ایجاد یک گزارش PDF بر اساس تجزیه و تحلیل قبلی استفاده کنید.

Please provide me with the pdf report from the first step to the last step.

نتیجه پیوند PDF را با تجزیه و تحلیل قبلی خود دریافت خواهید کرد. اگر احساس می کنید نتیجه کافی نیست یا اگر چیزهایی وجود دارد که می خواهید تغییر دهید، سعی کنید مراحل را تکرار کنید.

تجزیه و تحلیل داده ها فعالیتی است که همه باید بدانند زیرا یکی از مهارت های مورد نیاز در عصر حاضر است. با این حال، یادگیری در مورد انجام تجزیه و تحلیل داده ها می تواند زمان زیادی طول بکشد. با ChatGPT، می‌توانیم تمام آن زمان فعالیت را به حداقل برسانیم. 

در این مقاله به نحوه تولید یک گزارش تحلیلی کامل از فایل های CSV در 5 مرحله پرداخته ایم. ChatGPT فعالیت های تجزیه و تحلیل داده های سرتاسری، از وارد کردن فایل تا تولید گزارش را در اختیار کاربران قرار می دهد.
 
 

کورنلیوس یودا ویجایا دستیار مدیر علوم داده و نویسنده داده است. در حالی که به طور تمام وقت در آلیانز اندونزی کار می کند، دوست دارد نکات Python و Data را از طریق رسانه های اجتماعی و رسانه های نوشتاری به اشتراک بگذارد.

تمبر زمان:

بیشتر از kdnuggets