Зображення на rawpixel.com on Freepik
Незалежно від того, яким бізнесом ви займаєтеся, знання того, як аналізувати дані, є більш важливим, ніж будь-коли в епоху, що керується даними. Аналіз даних дозволить підприємствам залишатися конкурентоспроможними та дасть змогу приймати кращі рішення.
Важливість аналізу даних спонукає кожного знати, як виконувати аналіз даних. Однак іноді аналіз даних займає надто багато часу. Ось чому ми могли покластися на ChatGPT, щоб створити повний звіт із нашого файлу даних.
У цій статті описано п’ять простих кроків для створення повних аналітичних звітів із файлу CSV. Ці п’ять кроків включають:
Крок 1. Імпортуйте файл CSV
Крок 2: Зведення даних і попередня обробка
Крок 3: Аналіз даних
Крок 4: Візуалізація даних
Крок 5: Створення звіту
Як передумова ця стаття передбачає, що читач підписався на ChatGPT Plus. Маючи це на увазі, давайте почнемо.
Першим кроком є підготовка файлу CSV, який потрібно проаналізувати, і створення звіту. Цей файл може бути отримано з будь-якого надійного джерела, але в цій статті буде використано набір даних Telecom Churn Згорнути.
Переконайтеся, що дані структуровані, упорядковані та мають чіткий заголовок. Якщо у вас є певна ціль, яку ви хочете проаналізувати, не забудьте включити ці дані у файл. У нашому прикладі ми спробуємо виконати аналіз для стовпця відтоку.
Готові дані, приєднайте їх до ChatGPT і дайте моделі виконати свою роботу.
Наступним кроком є отримання підсумкових даних із нашого файлу CSV і попередня їх обробка. Введіть наступну підказку під час завантаження даних.
Provide the data summary to this file and perform appropriate data processing for the dataset.
Наведене вище підказка забезпечує такі результати:
Ось підсумок вашого набору даних:
Кількість рядів: 3333
Кількість колонок: 11
Назви стовпців:
Чур
AccountWeeks
Продовження контракту
DataPlan
DataUsage
CustServCalls
DayMins
DayCalls
MonthlyCharge
OverageFee
RoamMins
Типи даних:
Ціле число: Churn, AccountWeeks, ContractRenewal, DataPlan, CustServCalls, DayCalls
Плаваюче значення: DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins
Відсутні значення: У жодному зі стовпців немає пропущених значень.
ChatGPT явно міг добре читати дані та зміг надати вказаний набір даних. Наступним результатом є попередня обробка даних із ChatGPT.
Оскільки в наборі даних немає пропущених значень, основна увага при очищенні та попередній обробці даних буде зосереджена на:
- Перевірка на будь-які викиди або аномалії в даних.
- Нормалізація або стандартизація даних, якщо потрібно, особливо для стовпців із безперервними числовими значеннями.
- Перетворення категоріальних даних у формат, придатний для аналізу, якщо необхідно.
Давайте продовжимо ці кроки.
Коробкові діаграми надають візуальний огляд потенційних викидів у кожному числовому стовпці вашого набору даних. Ось деякі спостереження:
- AccountWeeks, CustServCalls, DayCalls: ці стовпці показують досить нормальний розподіл із кількома викидами.
- DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: ці стовпці також показують деякі викиди, але вони, здається, знаходяться в розумному діапазоні, враховуючи природу даних.
- Churn, ContractRenewal, DataPlan: оскільки дані є категоріальними/бінарними, у цих стовпцях не відображаються традиційні викиди.
Враховуючи цю інформацію, наступні кроки очищення та попередньої обробки даних можуть включати:
- Обробка викидів: ми можемо вирішити, чи видаляти, обмежувати чи іншим чином обробляти викиди на основі ваших конкретних аналітичних потреб і знань предметної області.
- Трансформація даних: за потреби ми можемо нормалізувати або стандартизувати такі стовпці, як DayMins, MonthlyCharge тощо, особливо якщо ви плануєте використовувати алгоритми, чутливі до масштабу даних.
- Кодування категоріальних даних: Перетворення категоріальних даних у формат, придатний для аналізу, якщо таке перетворення потрібне.
Ви можете дозволити ChatGPT виконувати додаткові кроки для очищення та попередньої обробки даних або залишити все як є. Для цього прикладу ми продовжимо до наступних кроків.
Далі ми проведемо аналіз даних за допомогою ChatGPT. Аналіз даних залежить від того, чого ви хочете досягти. У нашому випадку ми хочемо виконати аналіз даних із Churn POV.
Ми використовуємо наступну підказку, щоб виконати аналіз даних за допомогою ChatGPT для вищезазначеного випадку.
Please perform the data analysis based on the data above with respect to the churn data.
Аналіз даних можна побачити в наступному результаті.
Щоб виконати аналіз даних стосовно відтоку клієнтів, ми зосередимося на розумінні того, як різні фактори пов’язані з відтоком клієнтів. Відтік, будучи бінарною змінною (0 означає відсутність відтоку, 1 для відтоку), зазвичай аналізується за допомогою методів класифікації та вивчення зв’язків з іншими змінними. Ось план:
- Кореляційний аналіз: для початку ми розглянемо, як кожна числова характеристика корелює з відтоком. Це дає нам початкове розуміння того, які фактори можуть бути більш тісно пов’язані з відтоком.
- Статистичні тести. Для таких категоріальних змінних, як ContractRenewal і DataPlan, ми можемо використовувати статистичні тести, щоб побачити, чи є значні відмінності в показниках відтоку в різних категоріях.
- Візуальний аналіз: ми створимо кілька візуалізацій, щоб глибше дослідити ці зв’язки. Це включає порівняння показників відтоку в різних групах і побудову графіка ключових змінних щодо відтоку.
- Зведена статистика: ми надамо зведену статистику для різних груп на основі статусу відтоку, щоб побачити, чи є помітні відмінності в середніх значеннях або розподілах.
Почнемо з кореляційного аналізу, а потім перейдемо до наступних кроків.
Кореляційний аналіз із відтоком
Кореляція різних змінних із відтоком виглядає наступним чином (від найсильнішої негативної до найсильнішої позитивної кореляції):
Негативна кореляція:
- ContractRenewal: Найсильніша негативна кореляція. Вказує на те, що клієнти, які не продовжують свої контракти, частіше відтікають.
- План передачі даних. Клієнти, які не мають тарифного плану передачі даних, дещо частіше відтікають.
- DataUsage: більше використання даних трохи зменшує ймовірність відтоку.
Позитивна кореляція:
- AccountWeeks, DayCalls: дуже слабка позитивна кореляція, що свідчить про мінімальний вплив на відтік.
- RoamMins: невелике збільшення ймовірності відтоку зі збільшенням кількості хвилин у роумінгу.
- MonthlyCharge: дещо вищі показники відтоку зі збільшенням щомісячних платежів.
- OverageFee: вищі комісії за надлишок помірно корелюють із збільшенням відтоку.
- DayMins: більші щоденні хвилини помірно корелюють із збільшенням відтоку.
- CustServCalls: сильна позитивна кореляція. Більше звернень до служби підтримки клієнтів пов’язано з вищим рівнем відтоку.
Виходячи з цих кореляцій, здається, що такі фактори, як поновлення контракту, дзвінки в службу підтримки клієнтів, щоденні хвилини та комісія за надлишок, більш тісно пов’язані з відтоком. Ми можемо додатково вивчити ці фактори за допомогою візуального аналізу та статистичних тестів, особливо для таких категоріальних змінних, як ContractRenewal і DataPlan.
Візуальний аналіз
Візуалізації пропонують цінну інформацію про зв’язок між різними змінними та відтоком:
Відтік через ContractRenewal і DataPlan:
- Поновлення контракту: очевидна значна різниця в показниках відтоку. Клієнти, які не продовжили свої контракти, демонструють вищий рівень відтоку.
- План передачі даних: існує помітна різниця в показниках відтоку, залежно від того, чи є у клієнтів тарифний план передавання даних чи ні, причому ті, хто не має тарифного плану передачі даних, демонструють більший відтік.
Числові змінні (CustServCalls, DayMins, MonthlyCharge, OverageFee) за Churn:
- CustServCalls: Клієнти з більшою кількістю дзвінків у службу підтримки, як правило, більше відтікають.
- DayMins: більше щоденних хвилин пов’язане з більшою ймовірністю відтоку.
- MonthlyCharge: вищі місячні витрати корелюють із збільшенням відтоку користувачів.
- OverageFee: вищі комісії за надлишок також пов’язані зі збільшенням відтоку.
Висновки з аналізу
- Статус поновлення контракту та наявність тарифного плану є важливими факторами відтоку клієнтів.
- Велике використання (щодо денних хвилин) і високі витрати (щомісячні платежі та комісія за перевищення) пов’язані з вищими показниками відтоку.
- Більша кількість дзвінків у службу підтримки клієнтів є сильним показником потенційного відтоку клієнтів.
Наступні кроки
На основі цієї інформації можна розробити цільові стратегії для зменшення відтоку, наприклад, покращити обслуговування клієнтів, переглянути стратегії ціноутворення або заохотити заохочення для поновлення контракту та передплати тарифного плану.
За допомогою однієї підказки ми можемо побачити, наскільки добре ChatGPT може надати нам повний аналіз даних і вийти на основі цих даних. Ви можете налаштувати цілі аналізу та почати з цього.
Візуалізація даних є допоміжною діяльністю для покращення аналізу даних і загального звіту. Маючи візуалізацію, ми можемо отримати більш повний звіт для розуміння наших даних.
Використовуючи наступну підказку, ми можемо виконати візуалізацію даних за допомогою ChatGPT.
Please perform data visualization from the data analysis to explain the data better.
Щоб покращити розуміння результатів аналізу даних, я створю серію візуалізацій, які чітко відображатимуть ключові висновки, пов’язані з відтоком клієнтів. Ці візуалізації включатимуть:
- Гістограми для категоріальних змінних:
- Порівняння показників відтоку клієнтів із продовженням контракту та без нього.
- Порівняння показників відтоку клієнтів із тарифним планом і без нього.
- Ящичні графіки для ключових числових змінних:
- Дзвінки в службу підтримки клієнтів проти відтоку.
- Щоденні хвилини проти відтоку.
- Щомісячні платежі проти відтоку.
- Перевищення комісії проти відтоку.
- Теплова карта кореляції:
Щоб візуалізувати кореляцію всіх змінних із відтоком.
Візуалізація покаже всі важливі графіки, які інкапсулюють весь набір даних. Ми можемо запросити більш детальні описи для кожної ділянки, які ви можете спробувати самостійно.
Останнім кроком є створення звіту на основі попередніх кроків. На жаль, ChatGPT може не охопити весь опис і інформацію з аналізу даних, але ми можемо мати просту версію звіту.
Скористайтеся наступною підказкою, щоб створити звіт у форматі PDF на основі попереднього аналізу.
Please provide me with the pdf report from the first step to the last step.
Ви отримаєте результат посилання у форматі PDF із попереднім аналізом. Спробуйте повторити кроки, якщо ви вважаєте, що результат неадекватний або якщо є речі, які ви хочете змінити.
Аналіз даних — це діяльність, яку повинен знати кожен, оскільки це одна з найбільш потрібних навичок у поточну епоху. Однак вивчення аналізу даних може зайняти багато часу. За допомогою ChatGPT ми можемо мінімізувати весь цей час активності.
У цій статті ми обговорили, як створити повний аналітичний звіт із файлів CSV за 5 кроків. ChatGPT надає користувачам наскрізний аналіз даних, від імпортування файлу до створення звіту.
Корнеліус Юдха Віджая є помічником менеджера з питань науки про дані та автора даних. Працюючи повний робочий день в Allianz Indonesia, він любить ділитися порадами щодо Python і даних у соціальних мережах і друкованих ЗМІ.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://www.kdnuggets.com/from-csv-to-complete-analytical-report-with-chatgpt-in-5-simple-steps?utm_source=rss&utm_medium=rss&utm_campaign=from-csv-to-complete-analytical-report-with-chatgpt-in-5-simple-steps
- : має
- :є
- : ні
- $UP
- 1
- 7
- a
- здатність
- Здатний
- МЕНЮ
- вище
- Achieve
- через
- діяльність
- Додатковий
- проти
- Цілі
- алгоритми
- ВСІ
- Allianz
- Також
- an
- аналіз
- Аналітичний
- аналізувати
- проаналізовані
- та
- будь-який
- відповідний
- ЕСТЬ
- стаття
- AS
- запитати
- Помічник
- асоційований
- передбачає
- At
- приєднувати
- бар
- заснований
- BE
- буття
- Краще
- між
- Box
- бізнес
- підприємства
- але
- by
- Виклики
- CAN
- кришка
- захоплення
- випадок
- категорії
- певний
- зміна
- вантажі
- ChatGPT
- контроль
- класифікація
- Очищення
- ясно
- очевидно
- тісно
- Колонка
- Колони
- Приходити
- порівняння
- конкурентоспроможний
- повний
- всеосяжний
- Проводити
- беручи до уваги
- продовжувати
- безперервний
- контракт
- контрактів
- конвертувати
- перетворення
- корелює
- Кореляція
- кореляції
- може
- покритий
- створювати
- Поточний
- клієнт
- Контакти
- Клієнти
- щодня
- дані
- аналіз даних
- обробка даних
- наука про дані
- візуалізація даних
- керовані даними
- день
- вирішувати
- рішення
- зменшується
- Залежно
- description
- докладно
- розвиненою
- DID
- різниця
- Відмінності
- різний
- обговорювалися
- розподіл
- Розподілу
- do
- домен
- Дон
- Не знаю
- диски
- кожен
- включіть
- кодування
- кінець в кінець
- підвищувати
- Епоха
- особливо
- і т.д.
- НІКОЛИ
- Кожен
- все
- очевидний
- Вивчення
- приклад
- виконувати
- Пояснювати
- дослідити
- фактори
- достатньо
- особливість
- почувати
- Інформація про оплату
- кілька
- філе
- Файли
- результати
- Перший
- п'ять
- Сфокусувати
- після
- слідує
- для
- формат
- від
- далі
- породжувати
- отримати
- Давати
- даний
- дає
- великий
- Групи
- обробляти
- Обробка
- Мати
- має
- he
- тут
- Високий
- вище
- Як
- How To
- Однак
- HTTPS
- i
- if
- Impact
- значення
- важливо
- імпорт
- удосконалювати
- поліпшення
- in
- стимули
- включати
- includes
- Augmenter
- збільшений
- самостійно
- вказує
- індикатор
- індивідуальний
- Індонезія
- інформація
- початковий
- вхід
- розуміння
- розуміння
- в
- IT
- JPG
- KDnuggets
- ключ
- Знати
- Знання
- знання
- останній
- вивчення
- дозволяти
- як
- ймовірність
- Ймовірно
- LINK
- ll
- Довго
- багато часу
- подивитися
- любить
- головний
- зробити
- менеджер
- Матерія
- me
- засоби
- Медіа
- методика
- може бути
- mind
- мінімальний
- мінімізувати
- протокол
- відсутній
- модель
- щомісячно
- більше
- найбільш
- рухатися
- багато
- Імена
- природа
- необхідно
- необхідний
- потреби
- негативний
- наступний
- немає
- нормальний
- номер
- номера
- спостереження
- of
- пропонувати
- пропонує
- on
- ONE
- or
- Організований
- Інше
- інакше
- наші
- загальний
- огляд
- виконувати
- виконанні
- план
- plato
- Інформація про дані Платона
- PlatoData
- плюс
- позитивний
- потенціал
- Готувати
- наявність
- попередній
- ціни без прихованих комісій
- продовжити
- обробка
- виробництво
- забезпечувати
- забезпечує
- Python
- діапазон
- ставка
- ставки
- Читати
- читач
- готовий
- розумний
- зменшити
- пов'язаний
- відносини
- Відносини
- покладатися
- видаляти
- звітом
- Звіти
- вимагається
- повага
- результат
- результати
- s
- шкала
- наука
- побачити
- здається
- Здається,
- бачив
- чутливий
- Серія
- обслуговування
- Поділитись
- Повинен
- Показувати
- показ
- значний
- простий
- один
- навички
- соціальна
- соціальні медіа
- деякі
- іноді
- Source
- конкретний
- стандартизації
- старт
- почалася
- статистичний
- статистика
- Статус
- залишатися
- Крок
- заходи
- Як і раніше
- стратегії
- сильний
- найсильніший
- структурований
- підписки
- такі
- підходящий
- РЕЗЮМЕ
- підтримуючий
- T
- Приймати
- приймає
- Мета
- цільове
- телеком
- terms
- Тести
- ніж
- Що
- Команда
- їх
- Їх
- потім
- Там.
- Ці
- вони
- речі
- це
- ті
- через
- час
- Поради
- до
- занадто
- традиційний
- Перетворення
- заслуговуючий довіри
- намагатися
- щипати
- типово
- розуміти
- розуміння
- на жаль
- us
- Використання
- використання
- користувачі
- Цінний
- Цінності
- змінна
- версія
- дуже
- через
- візуальний
- візуалізації
- візуалізувати
- vs
- хотіти
- було
- we
- ДОБРЕ
- Що
- Чи
- який
- в той час як
- ВООЗ
- всі
- чому
- волі
- з
- в
- без
- Work
- робочий
- б
- письменник
- лист
- ви
- вашу
- зефірнет