Від CSV до повного аналітичного звіту за допомогою ChatGPT за 5 простих кроків - KDnuggets

Від CSV до повного аналітичного звіту за допомогою ChatGPT за 5 простих кроків – KDnuggets

Вихідний вузол: 2982942

Від CSV до повного аналітичного звіту за допомогою ChatGPT за 5 простих кроків
Зображення на rawpixel.com on Freepik
 

Незалежно від того, яким бізнесом ви займаєтеся, знання того, як аналізувати дані, є більш важливим, ніж будь-коли в епоху, що керується даними. Аналіз даних дозволить підприємствам залишатися конкурентоспроможними та дасть змогу приймати кращі рішення.

Важливість аналізу даних спонукає кожного знати, як виконувати аналіз даних. Однак іноді аналіз даних займає надто багато часу. Ось чому ми могли покластися на ChatGPT, щоб створити повний звіт із нашого файлу даних.

У цій статті описано п’ять простих кроків для створення повних аналітичних звітів із файлу CSV. Ці п’ять кроків включають:

Крок 1. Імпортуйте файл CSV

Крок 2: Зведення даних і попередня обробка

Крок 3: Аналіз даних

Крок 4: Візуалізація даних

Крок 5: Створення звіту

Як передумова ця стаття передбачає, що читач підписався на ChatGPT Plus. Маючи це на увазі, давайте почнемо.

Першим кроком є ​​підготовка файлу CSV, який потрібно проаналізувати, і створення звіту. Цей файл може бути отримано з будь-якого надійного джерела, але в цій статті буде використано набір даних Telecom Churn Згорнути.

Переконайтеся, що дані структуровані, упорядковані та мають чіткий заголовок. Якщо у вас є певна ціль, яку ви хочете проаналізувати, не забудьте включити ці дані у файл. У нашому прикладі ми спробуємо виконати аналіз для стовпця відтоку.

Готові дані, приєднайте їх до ChatGPT і дайте моделі виконати свою роботу.

Наступним кроком є ​​отримання підсумкових даних із нашого файлу CSV і попередня їх обробка. Введіть наступну підказку під час завантаження даних.

Provide the data summary to this file and perform appropriate data processing for the dataset.

Наведене вище підказка забезпечує такі результати:

Ось підсумок вашого набору даних:

Кількість рядів: 3333

Кількість колонок: 11

Назви стовпців:

Чур

AccountWeeks

Продовження контракту

DataPlan

DataUsage

CustServCalls

DayMins

DayCalls

MonthlyCharge

OverageFee

RoamMins

Типи даних:

Ціле число: Churn, AccountWeeks, ContractRenewal, DataPlan, CustServCalls, DayCalls

Плаваюче значення: DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins

Відсутні значення: У жодному зі стовпців немає пропущених значень.

ChatGPT явно міг добре читати дані та зміг надати вказаний набір даних. Наступним результатом є попередня обробка даних із ChatGPT.

Оскільки в наборі даних немає пропущених значень, основна увага при очищенні та попередній обробці даних буде зосереджена на:

  • Перевірка на будь-які викиди або аномалії в даних.
  • Нормалізація або стандартизація даних, якщо потрібно, особливо для стовпців із безперервними числовими значеннями.
  • Перетворення категоріальних даних у формат, придатний для аналізу, якщо необхідно.

Давайте продовжимо ці кроки. 
 

Від CSV до повного аналітичного звіту за допомогою ChatGPT за 5 простих кроків
 

Коробкові діаграми надають візуальний огляд потенційних викидів у кожному числовому стовпці вашого набору даних. Ось деякі спостереження:

  • AccountWeeks, CustServCalls, DayCalls: ці стовпці показують досить нормальний розподіл із кількома викидами.
  • DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: ці стовпці також показують деякі викиди, але вони, здається, знаходяться в розумному діапазоні, враховуючи природу даних.
  • Churn, ContractRenewal, DataPlan: оскільки дані є категоріальними/бінарними, у цих стовпцях не відображаються традиційні викиди.

Враховуючи цю інформацію, наступні кроки очищення та попередньої обробки даних можуть включати:

  • Обробка викидів: ми можемо вирішити, чи видаляти, обмежувати чи іншим чином обробляти викиди на основі ваших конкретних аналітичних потреб і знань предметної області.
  • Трансформація даних: за потреби ми можемо нормалізувати або стандартизувати такі стовпці, як DayMins, MonthlyCharge тощо, особливо якщо ви плануєте використовувати алгоритми, чутливі до масштабу даних.
  • Кодування категоріальних даних: Перетворення категоріальних даних у формат, придатний для аналізу, якщо таке перетворення потрібне.

Ви можете дозволити ChatGPT виконувати додаткові кроки для очищення та попередньої обробки даних або залишити все як є. Для цього прикладу ми продовжимо до наступних кроків.

Далі ми проведемо аналіз даних за допомогою ChatGPT. Аналіз даних залежить від того, чого ви хочете досягти. У нашому випадку ми хочемо виконати аналіз даних із Churn POV.

Ми використовуємо наступну підказку, щоб виконати аналіз даних за допомогою ChatGPT для вищезазначеного випадку.

Please perform the data analysis based on the data above with respect to the churn data.

 

Аналіз даних можна побачити в наступному результаті.

Щоб виконати аналіз даних стосовно відтоку клієнтів, ми зосередимося на розумінні того, як різні фактори пов’язані з відтоком клієнтів. Відтік, будучи бінарною змінною (0 означає відсутність відтоку, 1 для відтоку), зазвичай аналізується за допомогою методів класифікації та вивчення зв’язків з іншими змінними. Ось план:

  1. Кореляційний аналіз: для початку ми розглянемо, як кожна числова характеристика корелює з відтоком. Це дає нам початкове розуміння того, які фактори можуть бути більш тісно пов’язані з відтоком.
  1. Статистичні тести. Для таких категоріальних змінних, як ContractRenewal і DataPlan, ми можемо використовувати статистичні тести, щоб побачити, чи є значні відмінності в показниках відтоку в різних категоріях.
  1. Візуальний аналіз: ми створимо кілька візуалізацій, щоб глибше дослідити ці зв’язки. Це включає порівняння показників відтоку в різних групах і побудову графіка ключових змінних щодо відтоку.
  1. Зведена статистика: ми надамо зведену статистику для різних груп на основі статусу відтоку, щоб побачити, чи є помітні відмінності в середніх значеннях або розподілах.

Почнемо з кореляційного аналізу, а потім перейдемо до наступних кроків.

Кореляційний аналіз із відтоком

Кореляція різних змінних із відтоком виглядає наступним чином (від найсильнішої негативної до найсильнішої позитивної кореляції):

Негативна кореляція:

  • ContractRenewal: Найсильніша негативна кореляція. Вказує на те, що клієнти, які не продовжують свої контракти, частіше відтікають.
  • План передачі даних. Клієнти, які не мають тарифного плану передачі даних, дещо частіше відтікають.
  • DataUsage: більше використання даних трохи зменшує ймовірність відтоку.

Позитивна кореляція:

  • AccountWeeks, DayCalls: дуже слабка позитивна кореляція, що свідчить про мінімальний вплив на відтік.
  • RoamMins: невелике збільшення ймовірності відтоку зі збільшенням кількості хвилин у роумінгу.
  • MonthlyCharge: дещо вищі показники відтоку зі збільшенням щомісячних платежів.
  • OverageFee: вищі комісії за надлишок помірно корелюють із збільшенням відтоку.
  • DayMins: більші щоденні хвилини помірно корелюють із збільшенням відтоку.
  • CustServCalls: сильна позитивна кореляція. Більше звернень до служби підтримки клієнтів пов’язано з вищим рівнем відтоку.

Виходячи з цих кореляцій, здається, що такі фактори, як поновлення контракту, дзвінки в службу підтримки клієнтів, щоденні хвилини та комісія за надлишок, більш тісно пов’язані з відтоком. Ми можемо додатково вивчити ці фактори за допомогою візуального аналізу та статистичних тестів, особливо для таких категоріальних змінних, як ContractRenewal і DataPlan.

Візуальний аналіз

 

Від CSV до повного аналітичного звіту за допомогою ChatGPT за 5 простих кроків
 

Візуалізації пропонують цінну інформацію про зв’язок між різними змінними та відтоком:

Відтік через ContractRenewal і DataPlan:

  • Поновлення контракту: очевидна значна різниця в показниках відтоку. Клієнти, які не продовжили свої контракти, демонструють вищий рівень відтоку.
  • План передачі даних: існує помітна різниця в показниках відтоку, залежно від того, чи є у клієнтів тарифний план передавання даних чи ні, причому ті, хто не має тарифного плану передачі даних, демонструють більший відтік.

Числові змінні (CustServCalls, DayMins, MonthlyCharge, OverageFee) за Churn:

  • CustServCalls: Клієнти з більшою кількістю дзвінків у службу підтримки, як правило, більше відтікають.
  • DayMins: більше щоденних хвилин пов’язане з більшою ймовірністю відтоку.
  • MonthlyCharge: вищі місячні витрати корелюють із збільшенням відтоку користувачів.
  • OverageFee: вищі комісії за надлишок також пов’язані зі збільшенням відтоку.

Висновки з аналізу

  • Статус поновлення контракту та наявність тарифного плану є важливими факторами відтоку клієнтів.
  • Велике використання (щодо денних хвилин) і високі витрати (щомісячні платежі та комісія за перевищення) пов’язані з вищими показниками відтоку.
  • Більша кількість дзвінків у службу підтримки клієнтів є сильним показником потенційного відтоку клієнтів.

Наступні кроки

На основі цієї інформації можна розробити цільові стратегії для зменшення відтоку, наприклад, покращити обслуговування клієнтів, переглянути стратегії ціноутворення або заохотити заохочення для поновлення контракту та передплати тарифного плану.

За допомогою однієї підказки ми можемо побачити, наскільки добре ChatGPT може надати нам повний аналіз даних і вийти на основі цих даних. Ви можете налаштувати цілі аналізу та почати з цього.

Візуалізація даних є допоміжною діяльністю для покращення аналізу даних і загального звіту. Маючи візуалізацію, ми можемо отримати більш повний звіт для розуміння наших даних.

Використовуючи наступну підказку, ми можемо виконати візуалізацію даних за допомогою ChatGPT.

Please perform data visualization from the data analysis to explain the data better.

Щоб покращити розуміння результатів аналізу даних, я створю серію візуалізацій, які чітко відображатимуть ключові висновки, пов’язані з відтоком клієнтів. Ці візуалізації включатимуть:

  1. Гістограми для категоріальних змінних:
  • Порівняння показників відтоку клієнтів із продовженням контракту та без нього.
  • Порівняння показників відтоку клієнтів із тарифним планом і без нього.
  • Ящичні графіки для ключових числових змінних:
  1. Дзвінки в службу підтримки клієнтів проти відтоку.
  • Щоденні хвилини проти відтоку.
  • Щомісячні платежі проти відтоку.
  • Перевищення комісії проти відтоку.
  1. Теплова карта кореляції:

Щоб візуалізувати кореляцію всіх змінних із відтоком.

 

Від CSV до повного аналітичного звіту за допомогою ChatGPT за 5 простих кроків
 

Візуалізація покаже всі важливі графіки, які інкапсулюють весь набір даних. Ми можемо запросити більш детальні описи для кожної ділянки, які ви можете спробувати самостійно.

Останнім кроком є ​​створення звіту на основі попередніх кроків. На жаль, ChatGPT може не охопити весь опис і інформацію з аналізу даних, але ми можемо мати просту версію звіту.

Скористайтеся наступною підказкою, щоб створити звіт у форматі PDF на основі попереднього аналізу.

Please provide me with the pdf report from the first step to the last step.

Ви отримаєте результат посилання у форматі PDF із попереднім аналізом. Спробуйте повторити кроки, якщо ви вважаєте, що результат неадекватний або якщо є речі, які ви хочете змінити.

Аналіз даних — це діяльність, яку повинен знати кожен, оскільки це одна з найбільш потрібних навичок у поточну епоху. Однак вивчення аналізу даних може зайняти багато часу. За допомогою ChatGPT ми можемо мінімізувати весь цей час активності. 

У цій статті ми обговорили, як створити повний аналітичний звіт із файлів CSV за 5 кроків. ChatGPT надає користувачам наскрізний аналіз даних, від імпортування файлу до створення звіту.
 
 

Корнеліус Юдха Віджая є помічником менеджера з питань науки про дані та автора даних. Працюючи повний робочий день в Allianz Indonesia, він любить ділитися порадами щодо Python і даних у соціальних мережах і друкованих ЗМІ.

Часова мітка:

Більше від KDnuggets