著者による画像
ChatGPT の使用から学んだ教訓が 1 つあります。これはデータ サイエンスに非常に役立ちますが、出力されるものはすべて精査する必要があります。一部のタスクには最適で、非常に迅速かつ正確に実行できます。他のタスクではこれで十分ですが、何度かプロンプトを表示する必要があります。そして、ChatGPT が完全に苦手だと私が感じたタスクが 1 つあります。
データセットを ChatGPT メッセージに添付することができ、いくつかの簡単な指示を与えることで、ChatGPT がデータを探索できます。
たとえば、次からデータセットを取得できます。 このデータプロジェクト。私が与えた指示は次のとおりです。
「添付データを使用して、記述的な統計分析を実行します。以下のものが含まれます:
- 基本的な統計 (平均、中央値、標準偏差など) を要約します。
- 欠損値を特定し、それらを処理する戦略を提案します。」
次のような概要が返されます。各変数に対して同じ計算を実行します。
年齢:
- 平均: 28.79 年
- 標準偏差: 6.94 年
- 範囲: 18 ~ 50 歳
また、データセット内の欠損値も特定されませんでした。
これらの計算に Python コードも必要な場合は、その計算を記述するよう求めることができます。
データセットをロードするには、このコードを使用します。
aerofit_data = pd.read_csv(file_path)
基本的な統計については、これを示します。
basic_stats = aerofit_data.describe()
このコードで欠損値を確認できます。
missing_values = aerofit_data.isnull().sum()
さらに、ChatGPT に主要な変数の分布を視覚化し、潜在的な外れ値や異常を検出するように依頼できます。
主要な変数 (年齢、収入、マイル) のヒストグラムと箱ひげ図を作成します。収入とマイルの分布で外れ値の可能性があることが検出されました。
著者/ChatGPTによって作成されました
著者/ChatGPTによって作成されました
また、視覚化も解釈します。そのため、収入の分布が右に偏っていることに気づきました。これは、ほとんどの顧客の収入がスペクトルの下限にあり、大幅に高い収入を得ている顧客は少数であることを示しています。箱ひげ図は、上限にいくつかの外れ値があることを示しています。
著者/ChatGPTによって作成されました
著者/ChatGPTによって作成されました
同じ解釈がマイル分布にも当てはまります。右に偏り、上限が外れ値になります。
データの性質を考慮すると、これらの外れ値は必ずしも誤差ではなく、特定の顧客セグメントを表していることが示唆されます。偏った分布に関しては、データを正規化するための変換 (対数変換など) を提案します。
もちろん、これらの視覚化用の Python コードを作成するように依頼することもできます。
同じデータを使用して、ChatGPT にそれが適しているかどうかを尋ねることができます。 ロジスティック回帰。そうでない場合、適切になるように変換するにはどうすればよいでしょうか?
私のデータは主に連続データの記述的および推論的分析に適しているとの返答がありました。
これらは、ロジスティック回帰のためにデータを変換する推奨される方法です。
バイナリ結果を作成します。 使用量変数の中央値分割に基づいて顧客を「使用率が高い」または「使用率が低い」に分類することで、バイナリ結果を作成します。また、二者択一の結果は、「トレッドミルを購入する」か「トレッドミルを購入しない」になる可能性があります。
多重共線性をチェックします。 使用 相関行列 or 分散拡大係数(VIF) 多重共線性をチェックします。多重共線性がある場合、相関変数を削除または結合できます。
機能のスケーリング: モデルフィッティングのための特徴スケーリングはロジスティック回帰には必要ありませんが、次のような場合には有益です。 収束。これは、スケールが大きく異なるフィーチャの場合に特に当てはまります。
非線形性への取り組み: などの変換 ログ or 平方根、線形性の仮定を満たさない変数に使用できます。
サンプルサイズ: 予測変数の数を考慮すると、データセットは十分な大きさである必要があります。
データの前処理: 外れ値とカテゴリ変数の処理 (による) ワンホットエンコーディングまたはラベルエンコーディング)が提案されます。さらに、欠損値の処理を提案しますが、欠損値がないため、これは私のデータには当てはまりません。
ChatGPT は、データ サイエンス プロジェクトのあらゆる段階で実際に役立ちます。 Web スクレイピング コードを作成するように促すことができます。機械学習アルゴリズム用にデータを探索して準備するように指示できます。また、適切なアルゴリズム、データセット分割、A/B テスト、パフォーマンス向上アルゴリズムを選択するためのコードも提供されます。最後に、ChatGPT にモデルをデプロイするためのコードを作成するように依頼することもできます。
ChatGPT はこれらすべてを行うことができますが、希望どおりの動作をするコードがすぐに得られない可能性は十分にあります。したがって、何を達成したいのかを理解し、コードを確認する必要があります。おそらく、ChatGPT にコードの修正を求め、変更内容についての詳細な指示を提供する必要があるでしょう。
ChatGPT は、新しいコーディング言語を学習中のユーザーを支援します。あなたが SQL マスターであり、何の問題も解決できないと想像してください。 このインタビューの質問。ただし、自分のスキルに Python を追加したいと考えています。 ChatGPT がそれをお手伝いします。 SQL コードをコピーし、ChatGPT に Python への変換を依頼できます。
つまり、SQL コードは次のとおりです。
SELECT
company,
profit
FROM
(
SELECT
*,
rank() OVER (
ORDER BY
profit DESC
) as rank
FROM
(
SELECT
company,
sum(profits) AS profit
FROM
forbes_global_2010_2014
GROUP BY
company
) sq
) sq2
WHERE
rank = 3;
ChatGPT は上記の SQL コードに基づいて Python コードを作成しましたが、正しく動作しません。そこで私は、正しいコードを書かなかったとして ChatGPT をバッシングします。そして、出力が SQL コードの場合と同じではないため、再試行するよう依頼します。再試行すると、正しい結果が返されます。
import pandas as pd
# Assuming 'forbes_global_2010_2014' is a pandas DataFrame with columns 'company' and 'profits'
# Since we don't have the actual data, this code assumes that the DataFrame is already loaded
# Step 1: Group by company and sum the profits
company_profits_sum = forbes_global_2010_2014.groupby('company')['profits'].sum().reset_index()
# Step 2: Rank the companies by profit in descending order
company_profits_sum['rank'] = company_profits_sum['profits'].rank(ascending=False, method='max')
# Step 3: Filter the top 3 companies
top_companies = company_profits_sum[company_profits_sum['rank'] = 3]
# Final selection of columns
result = top_companies[['company', 'profits']].sort_values('profits', ascending=False)
result # This will display the top 3 companies by profit
ご覧のとおり、各コード ブロックの前にコメントが付いている素晴らしいコードが得られます。学習を改善するために、このコードを解釈するように依頼できます。こうすることで、各コード行が何をどのように行うのかをさらに深く理解できるようになります。
私が悪いと言ったら、本当に悪いという意味です!正しい式を使用し、正しい値を代入するレベルまで進みますが、それほど複雑ではない計算を何らかの方法で台無しにしてしまいます。
これを見てください。この問題を解決するために、私はこの問題を解決するよう求めました。「公平な 10 面体のサイコロを 1 回振ったとします。 2 が 3 つ、4 が 5 つ、6 が XNUMX つ、XNUMX が XNUMX つ、XNUMX が XNUMX つ、XNUMX が XNUMX つ出る確率はいくらですか?
このようにして確率を計算します。
階乗を計算するときに混乱します。そしてそれをスタイリッシュに実現します。完全に間違った言い方2! = 12。そうではありません、2 です。2×1 = 2 のような単純な計算をどうして台無しにすることができますか?これは本当に笑える!
さらに面白いのは、3 回の 36 回です。 = 3、6 回目は XNUMX! = XNUMX. 少なくとも一度は正しかったので、それを称賛します。
何も説明せずに計算を修正するよう依頼すると、再度計算して、0.0001389 という確率を出します。自分の目が信じられませんでした!まったく同じ式と値を使用しても、それでも間違っている別の結果が導き出される可能性があります。
計算を修正するためにもう一度要求したところ、最終的には正しい結果、0.0008336 が返されました。 XNUMX回目は魅力的です!
確かに、これらの間違いは ChatGPT 3.5 によって犯されました。 ChatGPT 4 に同じ質問をしたところ、最初の試行で正しい計算が得られました。安全を確保するために、いくつかの数学的プラグインを使用することもできます。
これらすべてから得られる主な教訓は、ChatGPT はマスターとしては悪いが、非常に優れた従者であるということです。コードの作成、デバッグ、分析、データの視覚化に役立ちます。ただし、決して完全に信用したり、書かれていることを鵜呑みにしたりしないでください。
記述されたコードを確認し、計算を確認してください。結局のところ、あなたはデータ サイエンティストですが、ChatGPT はそうではありません。最初の試行では ChatGPT から望ましい結果が得られない可能性があります。ただし、より正確な指示を与え、何度か試してみると、おそらく望ましい結果が得られるでしょう。
ネイト・ロシディ データサイエンティストであり、製品戦略に携わっています。 彼はまた、分析を教える非常勤教授であり、 ストラタスクラッチ、データサイエンティストがトップ企業からの実際の面接の質問で面接の準備をするのを支援するプラットフォーム。 彼とつながる Twitter:StrataScratch or LinkedIn.
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://www.kdnuggets.com/what-i-learned-from-using-chatgpt-for-data-science?utm_source=rss&utm_medium=rss&utm_campaign=what-i-learned-from-using-chatgpt-for-data-science
- :持っている
- :は
- :not
- :どこ
- $UP
- 1
- 10
- 12
- 14
- 28
- 36
- 50
- 50 年
- 7
- a
- 上記の.
- 正確にデジタル化
- 達成する
- 実際の
- 実際に
- 加えます
- さらに
- 付属
- 後
- 再び
- 年齢
- アルゴリズム
- アルゴリズム
- すべて
- 既に
- また
- an
- 分析
- 分析論
- 分析する
- および
- 適用可能な
- 申し込む
- 適切な
- です
- AS
- 頼む
- と仮定する
- 仮定
- At
- アタッチ
- 悪い
- ベース
- 基本
- BE
- 信じる
- 有益な
- ブロック
- ボックス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 計算する
- 計算
- 計算
- came
- 缶
- 場合
- 分類
- チャンス
- 変化する
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- チェック
- 選択する
- コード
- コーディング
- コラム
- 組み合わせた
- 来ます
- comes
- 注釈
- 企業
- 会社
- 完全に
- お問合せ
- 連続的な
- 変換
- 正しい
- 補正
- 相関
- ここから
- 作ります
- 作成します。
- クレジット
- 顧客
- Customers
- データ
- データサイエンス
- データサイエンティスト
- より深い
- 展開
- 希望
- 検出
- 検出された
- 偏差
- 死
- 異なります
- ディスプレイ
- ディストリビューション
- ディストリビューション
- do
- ありません
- そうではありません
- ドン
- e
- 各
- 稼ぐ
- エンコーディング
- end
- 従事する
- 十分な
- エラー
- 特に
- 等
- エーテル(ETH)
- さらに
- あらゆる
- すべてのもの
- 正確に
- 説明
- 探る
- 要因
- フェア
- 特徴
- 特徴
- より少ない
- filter
- ファイナル
- 最後に
- 名
- フィッティング
- フォロー中
- 式
- 発見
- AIとMoku
- から
- さらに
- 与えた
- 取得する
- 与える
- 与えられた
- 与える
- 与え
- ゴエス
- 良い
- 素晴らしい
- グループ
- ハンドル
- ハンドリング
- 持ってる
- he
- 助けます
- 役立つ
- 助け
- より高い
- 彼に
- 認定条件
- しかしながら
- HTML
- HTTPS
- i
- 特定され
- if
- 絵
- 直ちに
- 改善します
- in
- include
- 所得
- を示し
- インフレ
- 説明書
- 解釈
- インタビュー
- 面接の質問
- 記事執筆
- に
- Investopedia
- IT
- JPG
- KDナゲット
- キー
- ラベル
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 大
- 学んだ
- 学習
- 最低
- レッスン
- レベル
- ような
- LINE
- 負荷
- ログ
- 見て
- LOOKS
- 下側
- 機械
- 機械学習
- 製
- メイン
- 管理する
- マスター
- 数学的
- マックス
- 意味する
- メッセージ
- かもしれない
- 行方不明
- ミス
- 他には?
- 最も
- しなければなりません
- my
- 自然
- 必ずしも
- 必要
- 必要
- 決して
- 新作
- nice
- いいえ
- 数
- of
- on
- かつて
- ONE
- or
- 注文
- その他
- 結果
- 出力
- outputs
- 完全に
- が
- パンダ
- 実行する
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 可能
- 潜在的な
- 正確な
- 正確に
- Predictor
- 準備
- 主に
- 確率
- 多分
- 問題
- 問題
- プロダクト
- 東京大学大学院海洋学研究室教授
- 利益
- 利益
- プロジェクト
- 提供します
- Python
- 質問
- 質問
- すぐに
- 非常に
- ランク
- むしろ
- リアル
- 本当に
- に対する
- 回帰
- 削除済み
- 表す
- 結果
- 結果
- 収益
- 右
- ロール
- 圧延
- s
- 安全な
- 同じ
- 満たす
- 言う
- 格言
- 秤
- スケーリング
- 科学
- 科学者
- 科学者たち
- こすること
- 精査
- 二番
- セグメント
- select
- 選択
- いくつかの
- すべき
- 側
- 著しく
- 簡単な拡張で
- から
- サイズ
- スキル
- So
- 解決する
- 解決
- 一部
- 何とか
- 特定の
- スペクトラム
- split
- SQ
- SQL
- ステージ
- 標準
- 統計的
- 統計
- 滞在
- 手順
- まだ
- 作戦
- 戦略
- そのような
- 示唆する
- 提案する
- 適当
- 合計
- 概要
- T
- 取る
- 仕事
- タスク
- ティーチング
- テスト
- それ
- アプリ環境に合わせて
- それら
- そこ。
- ボーマン
- 三番
- この
- 三
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- top
- 最適化の適用
- 変換
- 変換
- 変換
- 信頼
- 試します
- しよう
- 2
- わかる
- 使用法
- つかいます
- 中古
- users
- 使用されます
- 価値観
- 変数
- 非常に
- 視覚化する
- vs
- 欲しいです
- ました
- 仕方..
- 方法
- we
- ウェブ
- ウェブスクレイピング
- した
- この試験は
- 何ですか
- いつ
- which
- while
- 誰
- Wikipedia
- 意志
- 無し
- 仕事
- 書きます
- 書き込み
- 間違った
- 書いた
- 年
- 貴社
- あなたの
- ゼファーネット
- ゼロ