От CSV к полному аналитическому отчету с помощью ChatGPT за 5 простых шагов - KDnuggets

От CSV к полному аналитическому отчету с помощью ChatGPT за 5 простых шагов – KDnuggets

Исходный узел: 2982942

От CSV до полного аналитического отчета с помощью ChatGPT за 5 простых шагов
Изображение на rawpixel.com on Freepik
 

Независимо от того, каким бизнесом вы занимаетесь, умение анализировать данные важнее, чем когда-либо, в эпоху, основанную на данных. Анализ данных позволит предприятиям оставаться конкурентоспособными и предоставит возможность принимать более обоснованные решения.

Важность анализа данных заставляет каждого человека знать, как выполнять анализ данных. Однако иногда на проведение анализа данных уходит слишком много времени. Вот почему мы можем положиться на ChatGPT для создания полного отчета из нашего файла данных.

В этой статье будут рассмотрены пять простых шагов для создания полных аналитических отчетов из вашего CSV-файла. Эти пять шагов включают в себя:

Шаг 1. Импорт CSV-файла

Шаг 2: Сводка данных и предварительная обработка

Шаг 3: Анализ данных

Шаг 4: Визуализация данных

Шаг 5: Создание отчета

В качестве предварительного условия в этой статье предполагается, что читатель подписался на ChatGPT Plus. Имея это в виду, давайте начнем.

Первый шаг — подготовить CSV-файл, который вы хотите проанализировать, и создать отчет. Этот файл может быть получен из любого заслуживающего доверия источника, но в этой статье будет использоваться набор данных Telecom Churn из Kaggle.

Убедитесь, что данные структурированы, организованы и имеют четкий заголовок. Если у вас есть определенная цель, которую вы хотите проанализировать, не забудьте включить эти данные в файл. В нашем примере мы попытаемся выполнить анализ столбца оттока.

Подготовив данные, прикрепите их к ChatGPT и позвольте модели выполнять свою работу.

Следующим шагом будет получение сводки данных из нашего CSV-файла и ее предварительная обработка. Введите следующую подсказку во время загрузки данных.

Provide the data summary to this file and perform appropriate data processing for the dataset.

Приведенная выше подсказка дает следующие результаты:

Вот сводка вашего набора данных:

Количество рядов: 3333

Число столбцов: 11

Имена столбцов:

Маслобойка

АккаунтНедели

Продление контракта

Тарифный план

Использование данных

CustServCalls

Дневные минуты

Дневные звонки

Ежемесячная плата

Плата за превышение

Роумминс

Типы данных:

Целое число: отток, AccountWeeks, ContractRenewal, DataPlan, CustServCalls, DayCalls.

Плавающее: DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins.

Отсутствующие значения: Ни в одном столбце нет пропущенных значений.

ChatGPT явно мог хорошо читать данные и смог предоставить заданный набор данных. Следующий результат — предварительная обработка данных из ChatGPT.

Поскольку в наборе данных нет пропущенных значений, основное внимание при очистке и предварительной обработке данных будет уделяться:

  • Проверка на наличие выбросов или аномалий в данных.
  • Нормализация или стандартизация данных при необходимости, особенно для столбцов с непрерывными числовыми значениями.
  • Преобразование категориальных данных в формат, подходящий для анализа, при необходимости.

Давайте продолжим эти шаги. 
 

От CSV до полного аналитического отчета с помощью ChatGPT за 5 простых шагов
 

Ящичные диаграммы предоставляют визуальный обзор потенциальных выбросов в каждом числовом столбце вашего набора данных. Вот некоторые наблюдения:

  • AccountWeeks, CustServCalls, DayCalls: эти столбцы показывают довольно нормальное распределение с несколькими выбросами.
  • DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: эти столбцы также показывают некоторые выбросы, но они, похоже, находятся в разумных пределах, учитывая характер данных.
  • Отток, ContractRenewal, DataPlan: поскольку эти столбцы являются категориальными/двоичными данными, в них не отображаются традиционные выбросы.

Учитывая эту информацию, следующие шаги по очистке и предварительной обработке данных могут включать:

  • Обработка выбросов. Мы можем решить, следует ли удалять, ограничивать или иным образом обрабатывать выбросы, исходя из ваших конкретных аналитических потребностей и знаний предметной области.
  • Преобразование данных. При необходимости мы можем нормализовать или стандартизировать столбцы, такие как DayMins, MonthlyCharge и т. д., особенно если вы планируете использовать алгоритмы, чувствительные к масштабу данных.
  • Категориальное кодирование данных: преобразуйте категориальные данные в формат, подходящий для анализа, если такое преобразование требуется.

Вы можете позволить ChatGPT выполнить дополнительные действия по очистке и предварительной обработке данных или оставить все как есть. В этом примере мы перейдем к следующим шагам.

Далее мы проведем анализ данных с помощью ChatGPT. Анализ данных зависит от того, чего вы хотите достичь. В нашем случае мы хотим выполнить анализ данных с точки зрения оттока.

Мы используем следующую подсказку для выполнения анализа данных с помощью ChatGPT для описанного выше случая.

Please perform the data analysis based on the data above with respect to the churn data.

 

Анализ данных можно увидеть в следующем результате.

Чтобы выполнить анализ данных об оттоке клиентов, мы сосредоточимся на понимании того, как различные факторы связаны с оттоком клиентов. Отток, являющийся двоичной переменной (0 — отсутствие оттока, 1 — отток), обычно анализируется с помощью методов классификации и изучения взаимосвязей с другими переменными. Вот план:

  1. Корреляционный анализ. Для начала мы посмотрим, как каждая числовая характеристика коррелирует с оттоком клиентов. Это дает нам первоначальное понимание того, какие факторы могут быть более тесно связаны с оттоком.
  1. Статистические тесты. Для категориальных переменных, таких как ContractRenewal и DataPlan, мы можем использовать статистические тесты, чтобы увидеть, существуют ли значительные различия в показателях оттока в разных категориях.
  1. Визуальный анализ: мы создадим несколько визуализаций для дальнейшего изучения этих взаимосвязей. Это включает в себя сравнение показателей оттока в разных группах и построение графика зависимости ключевых переменных от оттока.
  1. Сводная статистика: мы предоставим сводную статистику для различных групп на основе статуса оттока, чтобы увидеть, есть ли заметные различия в средних значениях или распределениях.

Начнем с корреляционного анализа, а затем перейдем к следующим шагам.

Корреляционный анализ с оттоком

Корреляция различных переменных с оттоком следующая (от самой сильной отрицательной до самой сильной положительной корреляции):

Отрицательная корреляция:

  • ContractRenewal: сильнейшая отрицательная корреляция. Указывает на то, что клиенты, которые не продлевают свои контракты, с большей вероятностью уйдут.
  • План данных: клиенты, не имеющие тарифного плана, имеют немного больше шансов уйти.
  • DataUsage: более высокий уровень использования данных немного снижает вероятность оттока.

Положительная корреляция:

  • AccountWeeks, DayCalls: очень слабая положительная корреляция, что предполагает минимальное влияние на отток клиентов.
  • RoamMins: небольшое увеличение вероятности оттока абонентов при увеличении количества минут в роуминге.
  • MonthlyCharge: немного более высокий уровень оттока при увеличении ежемесячных платежей.
  • OverageFee: более высокие комиссии за превышение лимита умеренно коррелируют с увеличением оттока клиентов.
  • DayMins: более высокие ежедневные минуты умеренно коррелируют с увеличением оттока.
  • CustServCalls: сильная положительная корреляция. Больше обращений в службу поддержки клиентов связано с более высоким уровнем оттока клиентов.

Судя по этим корреляциям, такие факторы, как продление контракта, звонки в службу поддержки клиентов, ежедневные минуты и плата за превышение лимита, более тесно связаны с оттоком клиентов. Мы можем дополнительно изучить эти факторы посредством визуального анализа и статистических тестов, особенно для таких категориальных переменных, как ContractRenewal и DataPlan.

Визуальный анализ

 

От CSV до полного аналитического отчета с помощью ChatGPT за 5 простых шагов
 

Визуализации дают ценную информацию о взаимосвязи между различными переменными и оттоком клиентов:

Отток по ContractRenewal и DataPlan:

  • Продление контракта: очевидна значительная разница в показателях оттока клиентов. Клиенты, которые не продлили свои контракты, демонстрируют более высокий уровень оттока.
  • DataPlan: существует заметная разница в показателях оттока в зависимости от того, есть ли у клиентов тарифный план или нет, при этом у тех, у кого нет тарифного плана, отток выше.

Числовые переменные (CustServCalls, DayMins, MonthlyCharge, OverageFee) от Churn:

  • CustServCalls: клиенты с большим количеством обращений в службу поддержки, как правило, больше отбиваются.
  • DayMins: более высокие ежедневные минуты связаны с большей вероятностью оттока.
  • MonthlyCharge: более высокие ежемесячные платежи коррелируют с увеличением оттока клиентов.
  • OverageFee: более высокие комиссии за превышение также связаны с увеличением оттока клиентов.

Выводы анализа

  • Статус продления контракта и наличие тарифного плана являются важными факторами оттока клиентов.
  • Высокий уровень использования (с точки зрения дневных минут) и высокие расходы (ежемесячные платежи и сборы за перерасход) связаны с более высокими показателями оттока.
  • Большее количество звонков в службу поддержки клиентов является убедительным индикатором потенциального оттока.

Следующие шаги

На основе этих данных можно разработать целевые стратегии для сокращения оттока клиентов, такие как улучшение обслуживания клиентов, пересмотр стратегии ценообразования или предложение стимулов для продления контракта и подписки на тарифные планы.

С помощью одного запроса мы можем увидеть, насколько хорошо ChatGPT может предоставить нам полный анализ данных и получить ценную информацию на основе данных. Вы можете настроить цели анализа и начать с этого.

Визуализация данных — это вспомогательное мероприятие, позволяющее улучшить анализ данных и общий отчет. Имея визуализацию, мы можем получить более полный отчет для понимания наших данных.

Используя следующую подсказку, мы можем выполнить визуализацию данных с помощью ChatGPT.

Please perform data visualization from the data analysis to explain the data better.

Чтобы лучше понять результаты анализа данных, я создам серию визуализаций, которые четко отображают ключевые выводы, связанные с оттоком клиентов. Эти визуализации будут включать в себя:

  1. Гистограммы для категориальных переменных:
  • Сравнение показателей оттока клиентов с продлением контракта и без него.
  • Сравнение показателей оттока клиентов с тарифным планом и без него.
  • Ящичные диаграммы для ключевых числовых переменных:
  1. Звонки в службу поддержки клиентов против оттока.
  • Ежедневные минуты против оттока.
  • Ежемесячные платежи против оттока.
  • Плата за перерасход против оттока.
  1. Тепловая карта корреляции:

Визуализировать корреляцию всех переменных с оттоком.

 

От CSV до полного аналитического отчета с помощью ChatGPT за 5 простых шагов
 

Визуализация покажет все важные графики, инкапсулирующие весь набор данных. Мы можем запросить более подробные описания для каждого сюжета, которые вы можете попробовать самостоятельно.

Последний шаг — создание отчета на основе предыдущих шагов. К сожалению, ChatGPT может не передать все описание и информацию из анализа данных, но у нас все равно есть простая версия отчета.

Используйте следующую подсказку, чтобы создать отчет в формате PDF на основе предыдущего анализа.

Please provide me with the pdf report from the first step to the last step.

Вы получите результат ссылки в формате PDF с учетом вашего предыдущего анализа. Попробуйте повторить шаги, если чувствуете, что результат неадекватен или есть что-то, что вы хотите изменить.

Анализ данных — это деятельность, которую должен знать каждый, поскольку это один из самых необходимых навыков в современную эпоху. Однако обучение выполнению анализа данных может занять много времени. С помощью ChatGPT мы можем минимизировать время этой активности. 

В этой статье мы обсудили, как создать полный аналитический отчет из файлов CSV за 5 шагов. ChatGPT предоставляет пользователям возможность комплексного анализа данных, от импорта файла до создания отчета.
 
 

Корнелиус Юдха Виджая является помощником менеджера по науке о данных и автором данных. Работая полный рабочий день в Allianz Indonesia, он любит делиться советами по Python и данным в социальных сетях и в печатных СМИ.

Отметка времени:

Больше от КДнаггетс