Зображення автора
Використовуючи ChatGPT, я отримав один урок. Це надзвичайно корисно в науці про дані, але ви повинні ретельно вивчати все, що він виводить. Він чудово підходить для деяких завдань і може виконувати їх дуже швидко та точно. Для деяких інших завдань цього достатньо, і вам доведеться запитувати його кілька разів. І є одне завдання, яке я виявив, що ChatGPT справляється зовсім погано.
Ви можете приєднати свій набір даних до повідомлення ChatGPT, і за допомогою кількох простих інструкцій ChatGPT зможе досліджувати дані за вас.
Наприклад, я можу взяти набір даних із цей проект даних. Інструкції, які я дав:
«Використовуйте дані, що додаються, щоб виконати описовий статистичний аналіз. Включіть наступне:
- Узагальніть основні статистичні дані (середнє значення, медіана, стандартне відхилення тощо).
- Визначте відсутні значення та запропонуйте стратегії їх вирішення».
Він повертає підсумок, який виглядає так. Він виконує однакові розрахунки для кожної змінної.
вік:
- Середній вік: 28.79 років
- Стандартне відхилення: 6.94 року
- Діапазон: від 18 до 50 років
Він також не виявив відсутніх значень у наборі даних.
Якщо вам також потрібен код Python для цих обчислень, ви можете запропонувати йому написати їх.
Щоб завантажити набір даних, використовуйте цей код.
aerofit_data = pd.read_csv(file_path)
Для основної статистики він дає ось такий.
basic_stats = aerofit_data.describe()
І ви можете перевірити відсутні значення за допомогою цього коду.
missing_values = aerofit_data.isnull().sum()
Крім того, я можу попросити ChatGPT візуалізувати розподіл ключових змінних і виявити потенційні викиди та аномалії.
Він створює гістограми та коробкові діаграми для ключових змінних: віку, доходу та миль. Він виявив можливі викиди в розподілі доходів і миль.
Створено Author/ChatGPT
Створено Author/ChatGPT
Він також інтерпретує візуалізацію. Таким чином, він помічає, що розподіл доходів має правий перекіс, що вказує на те, що більшість клієнтів мають дохід на нижньому кінці спектра, і менше клієнтів отримують значно вищі доходи. Коробковий графік показує, що на вищому рівні є деякі викиди.
Створено Author/ChatGPT
Створено Author/ChatGPT
Така сама інтерпретація застосовна до розподілу Майлза: праворуч і викиди на верхньому кінці.
Враховуючи природу даних, можна припустити, що ці викиди не обов’язково є помилками, а радше представляють певний сегмент клієнтів. Щодо спотворених розподілів пропонується перетворення (наприклад, перетворення журналу) для нормалізації даних.
Звичайно, ви також можете попросити його написати код Python для цих візуалізацій.
Я можу використати ті самі дані та запитати ChatGPT, чи підходить він для логістична регресія. І якщо ні, що я повинен зробити, щоб перетворити його так, щоб воно було відповідним?
Він відповів, що мої дані в першу чергу підходять для описового та логічного аналізу безперервних даних.
Це запропоновані способи перетворення даних для логістичної регресії.
Створіть двійковий результат: Створіть двійковий результат, класифікуючи клієнтів як «високе використання» або «низьке використання на основі медіанного розподілу за змінною використання». Крім того, двійковий результат може бути «купівля бігової доріжки» або «не купівля бігової доріжки».
Перевірка мультиколінеарності: Використовувати кореляційна матриця or Фактор інфляції дисперсії (VIF) для перевірки мультиколінеарності. Якщо є мультиколінеарність, корельовані змінні можна видалити або об’єднати.
Масштабування функцій: Хоча масштабування функцій для підгонки моделі не є необхідним для логістичної регресії, воно може бути корисним для збіжність. Особливо це стосується об’єктів зі значно різними масштабами.
Боротьба з нелінійністю: Перетворення, такі як журнал or квадратний корінь, можна використовувати для змінних, які не задовольняють припущення про лінійність.
Обсяг вибірки: Набір даних має бути достатньо великим, враховуючи кількість змінних предиктора.
Попередня обробка даних: Обробка викидів і категоріальних змінних (за одноразове кодування або кодування міток) пропонується. Крім того, пропонується обробка відсутніх значень, але це не стосується моїх даних, оскільки відсутні відсутні значення.
ChatGPT може бути корисним на кожному етапі наукового проекту. Ви можете запропонувати йому написати код веб-збирання. Ви можете доручити йому вивчити та підготувати ваші дані для алгоритмів машинного навчання. Він також може надати вам код для вибору правильного алгоритму, розділення набору даних, A/B-тестування та алгоритмів для підвищення продуктивності. Нарешті, ви також можете попросити ChatGPT написати вам код для розгортання моделі.
Хоча ChatGPT може зробити все це, цілком можливо, що ви не відразу отримаєте код, який робить саме те, що ви хочете. Отже, ви повинні зрозуміти, чого ви хочете досягти, і перевірити код. Ймовірно, вам доведеться попросити ChatGPT виправити код і надати додаткові інструкції щодо змін.
ChatGPT може допомогти користувачам, які все ще вивчають нові мови програмування. Уявіть, що ви майстер SQL і у вас немає проблем з вирішенням це питання інтерв'ю. Однак ви хочете додати Python до своїх навичок. ChatGPT може допомогти вам у цьому. Ви можете скопіювати код SQL і попросити ChatGPT перетворити його на Python.
Отже, код SQL такий.
SELECT
company,
profit
FROM
(
SELECT
*,
rank() OVER (
ORDER BY
profit DESC
) as rank
FROM
(
SELECT
company,
sum(profits) AS profit
FROM
forbes_global_2010_2014
GROUP BY
company
) sq
) sq2
WHERE
rank = 3;
ChatGPT написав код Python на основі коду SQL вище, але він не працює належним чином. Тому я критикую ChatGPT за неправильний код. І я прошу його спробувати ще раз, оскільки вихід не такий, як із кодом SQL. Він повторює спробу та повертає правильний результат.
import pandas as pd
# Assuming 'forbes_global_2010_2014' is a pandas DataFrame with columns 'company' and 'profits'
# Since we don't have the actual data, this code assumes that the DataFrame is already loaded
# Step 1: Group by company and sum the profits
company_profits_sum = forbes_global_2010_2014.groupby('company')['profits'].sum().reset_index()
# Step 2: Rank the companies by profit in descending order
company_profits_sum['rank'] = company_profits_sum['profits'].rank(ascending=False, method='max')
# Step 3: Filter the top 3 companies
top_companies = company_profits_sum[company_profits_sum['rank'] = 3]
# Final selection of columns
result = top_companies[['company', 'profits']].sort_values('profits', ascending=False)
result # This will display the top 3 companies by profit
Як бачите, ви отримуєте гарний код із коментарями перед кожним блоком коду. Щоб покращити ваше навчання, ви можете попросити його інтерпретувати цей код. Таким чином ви зможете ще глибше зрозуміти, що робить кожен рядок коду та як.
Коли я кажу погано, я маю на увазі справді погано! Він досягає такого рівня, коли використовує правильну формулу та вставляє правильні значення, але якимось чином вдається зіпсувати не такі вже й складні обчислення.
Подивіться на це. Я попросив його вирішити цю проблему: «Припустімо, що ви кидаєте шестигранний кубик 10 разів. Яка ймовірність того, що випадуть дві 1, три 2, одна 3, нуль 4, три 5 і одна 6?»
Він обчислює ймовірність таким чином.
Це плутає під час обчислення факториалів. І робить це зі стилем! Абсолютно неправильно сказати 2! = 12. Це не так, це 2. Як можна зіпсувати просте обчислення, наприклад 2×1 = 2? Це справді смішно!
Ще смішніше, що раз, 3! = 36, а другий раз 3! = 6. Заслуговуйте на це, оскільки це було правильно хоча б один раз.
Коли я прошу його виправити обчислення без подальших пояснень, він обчислює знову та отримує ймовірність 0.0001389. Я не міг повірити своїм очам! Він може використовувати точно ту саму формулу та значення та отримати інший результат, який все одно є неправильним!
Я знову попросив його виправити обчислення, і він нарешті повернув правильний результат: 0.0008336. Третій раз — принадність!
Слід визнати, що ці помилки були зроблені ChatGPT 3.5. Я поставив ChatGPT 4 те саме запитання, і він зробив правильний розрахунок із першої спроби. Ви також можете використовувати деякі математичні плагіни, щоб бути в безпеці.
Головний висновок із усього цього полягає в тому, що ChatGPT є поганим господарем, але дуже хорошим слугою. Це може бути корисним у написанні коду, налагодженні, аналізі та візуалізації даних. Однак ніколи не довіряйте йому повністю і ніколи не сприймайте те, що він пише, без ретельної перевірки.
Перевірте код, який він пише, і перевірте обчислення. Зрештою, ви спеціаліст із обробки даних, а ChatGPT – ні! Ви можете не отримати бажаних результатів від ChatGPT з першої спроби. Але давши йому більш точні інструкції та спробувавши кілька разів, ви, ймовірно, досягнете бажаного результату.
Нейт Розіді є фахівцем із даних та стратегією продукту. Він також є ад’юнкт-професором, який викладає аналітику, і є засновником StrataScratch, платформа, яка допомагає науковцям з даних готуватися до інтерв’ю з реальними запитаннями для інтерв’ю від провідних компаній. Зв'яжіться з ним Twitter: StrataScratch or LinkedIn.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://www.kdnuggets.com/what-i-learned-from-using-chatgpt-for-data-science?utm_source=rss&utm_medium=rss&utm_campaign=what-i-learned-from-using-chatgpt-for-data-science
- : має
- :є
- : ні
- :де
- $UP
- 1
- 10
- 12
- 14
- 28
- 36
- 50
- 50 років
- 7
- a
- вище
- точно
- Achieve
- фактичний
- насправді
- додавати
- Додатково
- доповнення
- після
- знову
- вік
- алгоритм
- алгоритми
- ВСІ
- вже
- Також
- an
- аналіз
- аналітика
- Аналізуючи
- та
- застосовно
- Застосовувати
- відповідний
- ЕСТЬ
- AS
- запитати
- передбачає
- припущення
- At
- приєднувати
- поганий
- заснований
- основний
- BE
- перед тим
- Вірити
- корисний
- Блокувати
- Box
- але
- by
- обчислює
- розрахунок
- розрахунок
- прийшов
- CAN
- випадок
- категоризація
- шанс
- зміна
- ChatGPT
- перевірка
- Вибираючи
- код
- Кодування
- Колони
- комбінований
- Приходити
- приходить
- коментарі
- Компанії
- компанія
- повністю
- З'єднуватися
- безперервний
- конвертувати
- виправити
- Виправлення
- корелює
- курс
- створювати
- створює
- кредит
- клієнт
- Клієнти
- дані
- наука про дані
- вчений даних
- глибше
- розгортання
- бажаний
- виявляти
- виявлено
- відхилення
- Померти
- різний
- дисплей
- розподіл
- Розподілу
- do
- робить
- Ні
- Дон
- e
- кожен
- заробляти
- кодування
- кінець
- займатися
- досить
- помилки
- особливо
- і т.д.
- Ефір (ETH)
- Навіть
- Кожен
- все
- точно
- пояснення
- дослідити
- фактор
- ярмарок
- особливість
- риси
- менше
- фільтрувати
- остаточний
- в кінці кінців
- Перший
- пристосування
- після
- для
- формула
- знайдений
- засновник
- від
- далі
- дав
- отримати
- Давати
- даний
- дає
- дає
- йде
- добре
- великий
- Group
- обробляти
- Обробка
- Мати
- he
- допомога
- корисний
- допомогу
- вище
- його
- Як
- Однак
- HTML
- HTTPS
- i
- ідентифікований
- if
- картина
- негайно
- удосконалювати
- in
- включати
- Дохід
- вказує
- інфляція
- екземпляр
- інструкції
- інтерпретація
- інтерв'ю
- питання інтерв'ю
- інтерв'ю
- в
- Investopedia
- IT
- JPG
- KDnuggets
- ключ
- етикетка
- мови
- великий
- вчений
- вивчення
- найменш
- урок
- рівень
- як
- Лінія
- загрузка
- журнал
- подивитися
- ВИГЛЯДИ
- знизити
- машина
- навчання за допомогою машини
- made
- головний
- управляє
- майстер
- математичний
- Макс
- значити
- повідомлення
- може бути
- відсутній
- помилки
- модель
- більше
- найбільш
- повинен
- my
- природа
- обов'язково
- необхідно
- Необхідність
- ніколи
- Нові
- приємно
- немає
- номер
- of
- on
- один раз
- ONE
- or
- порядок
- Інше
- Результат
- вихід
- виходи
- відверто
- над
- панди
- виконувати
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- це можливо
- потенціал
- необхідність
- точно
- Прогноз
- Готувати
- в першу чергу
- ймовірність
- ймовірно
- Проблема
- проблеми
- Product
- Професор
- Прибуток
- прибутку
- проект
- забезпечувати
- Python
- питання
- питань
- швидко
- досить
- ранжувати
- швидше
- реальний
- насправді
- про
- регресія
- Вилучено
- представляти
- результат
- результати
- Умови повернення
- право
- Котити
- рухомий
- s
- сейф
- то ж
- задовольнити
- say
- приказка
- ваги
- Масштабування
- наука
- вчений
- Вчені
- вишкрібання
- огляд
- другий
- побачити
- сегмент
- вибрати
- вибір
- кілька
- Повинен
- сторона
- істотно
- простий
- з
- один
- Розмір
- навички
- So
- ВИРІШИТИ
- Розв’язування
- деякі
- якось
- конкретний
- спектр
- розкол
- SQ
- SQL
- Стажування
- standard
- статистичний
- статистика
- залишатися
- Крок
- Як і раніше
- стратегії
- Стратегія
- такі
- пропонувати
- Запропонує
- підходящий
- сума
- РЕЗЮМЕ
- T
- Приймати
- Завдання
- завдання
- Навчання
- Тестування
- Що
- Команда
- їх
- Їх
- Там.
- Ці
- третій
- це
- три
- час
- times
- до
- топ
- Перетворення
- Перетворення
- перетворень
- перетворення
- Довіряйте
- намагатися
- намагається
- два
- розуміти
- Використання
- використання
- використовуваний
- користувачі
- використовує
- використання
- Цінності
- змінна
- дуже
- візуалізувати
- vs
- хотіти
- було
- шлях..
- способи
- we
- Web
- веб-вискоблювання
- були
- Що
- Що таке
- коли
- який
- в той час як
- ВООЗ
- Вікіпедія
- волі
- з
- без
- Work
- запис
- лист
- Неправильно
- пише
- років
- ви
- вашу
- зефірнет
- нуль