科学者が知る必要のある重要な統計データ

ソースノード: 1876637

科学者が知る必要のある重要な統計データ

いくつかの基本的な統計概念は、愛好家から専門家まで、すべてのデータサイエンティストに十分に理解されている必要があります。 ここでは、Pythonでコードスニペットを提供して理解を深め、データに早期の洞察をもたらす主要なツールを提供します。


By レクシュミ・S・スニル、IIT Indore '23 | GHC'21奨学生.

統計分析により、手元のデータから貴重な洞察を引き出すことができます。 さまざまなツールを使用してデータを分析するには、重要な統計の概念と手法をしっかりと把握することが絶対に必要です。

詳細に入る前に、この記事で取り上げたトピックを見てみましょう。

  • 記述統計と推論統計
  • データ型
  • 確率とベイズの定理
  • 中心傾向の測定
  • 歪度
  • 尖度
  • 分散の測定
  • 共分散
  • 相関
  • 確率分布
  • 仮説検定
  • 不具合

記述統計と推論統計

統計は全体として、データの収集、編成、分析、解釈、および提示を扱います。 統計には、XNUMXつの主要なブランチがあります。

  1. 記述統計: これには、データの特徴を説明し、チャート/グラフを介して、または中心傾向、変動性、および分布の測定値を使用した数値計算を介してデータを視覚的に整理および提示することが含まれます。 注目すべき点のXNUMXつは、既知のデータに基づいて結論が導き出されることです。
  2. 推論統計:これには、推論を導き出し、それらから取得したサンプルを使用して、より大きな母集団について一般化することが含まれます。 したがって、より複雑な計算が必要です。 最終結果は、仮説検定、相関、回帰分析などの手法を使用して生成されます。 予測される将来の結果と導き出される結論は、利用可能なデータのレベルを超えています。

データ型

最も適切な統計手法を適用して適切な探索的データ分析(EDA)を実行するには、作業しているデータの種類を理解する必要があります。

  1. カテゴリデータ

カテゴリデータは、個人の性別、血液型、母国語などの定性的変数を表します。カテゴリデータも、数学的な意味のない数値の形式です。 たとえば、性別が変数の場合、女性は1で、男性は0で表すことができます。

  • 公称データ:値は変数にラベルを付け、カテゴリ間に定義された階層はありません。つまり、宗教、性別などの順序や方向はありません。カテゴリがXNUMXつしかない名目上の尺度は、「二分」と呼ばれます。
  • 順序データ:カテゴリ間に順序または階層が存在します。たとえば、品質評価、教育レベル、学生の手紙の成績などです。
  1. 数値データ

数値データは、数値のみで表される量的変数を表します。 たとえば、個人の身長、体重など。

  • 離散データ:値は可算であり、整数(ほとんどの場合整数)です。 たとえば、駐車場の車の数、国の数など。
  • 連続データ:観測値は測定できますが、カウントすることはできません。 データは、重量、高さなど、範囲内の任意の値を想定します。連続データは、間隔データ(同じ差があるが真のゼロがない順序値)と比率データ(同じ差がある順序値)にさらに分割できます。それらと真のゼロの間に存在します)。

確率とベイズの定理

確率は、イベントが発生する可能性の尺度です。

  • P(A)+ P(A ')= 1
  • P(A∪B)= P(A)+ P(B)− P(A∩B)
  • 独立したイベント:一方の発生が他方の発生の確率に影響を与えない場合、0つのイベントは独立しています。 P(A∩B)= P(A)P(B)ここで、P(A)!= 0およびP(B)!= XNUMXです。
  • 相互に排他的なイベント:0つのイベントは、両方を同時に発生させることができない場合、相互に排他的または互いに素です。 P(A∩B)= XNUMXおよびP(A∪B)= P(A)+ P(B)。
  • 条件付き確率:別のイベントBがすでに発生している場合の、イベントAの確率。 これはP(A | B)で表されます。 P(A | B)= P(A∩B)/ P(B)、P(B)> 0の場合。
  • ベイズの定理

中心傾向の測定

統計モジュールをインポートします。

  • 平均:データセットの平均値。

numpy.mean()も使用できます。

  • 中央値:データセットの中間値。

numpy.median()も使用できます。

  • モード:データセットで最も頻度の高い値。

平均、中央値、最頻値を使用するのはいつですか?

平均、中央値、最頻値の関係: モード= 3中央値—2平均

歪度

対称性の尺度、より正確には、対称性の欠如(非対称性)。

  • 正規/対称分布:最頻値=中央値=平均
  • 正(右)に歪んだ分布:最頻値<中央値<平均
  • 負に(左)歪んだ分布:平均<中央値<モード

尖度

データが正規分布に対して裾が重いか軽いかを測定します。つまり、分布の「裾」または「ピーク」を測定します。

  • Leptokurtic –陽性尖度
  • Mesokurtic –正規分布
  • Platykurtic –負の尖度

Pythonを使用した歪度と尖度。

分散の測定

中心値の周りのデータの広がり/分散について説明します。

測定レンジ: データセットの最大値と最小値の差。

四分位偏差:データセットの四分位数は、データを1つの等しい部分に分割します。最初の四分位数(Q2)は、データの最小数と中央値の中間の数です。 3番目の四分位数(QXNUMX)は、データセットの中央値です。 XNUMX番目の四分位数(QXNUMX)は、中央値と最大数の中間の数です。 四分位偏差は Q =½×(Q3 — Q1)

四分位範囲:IQR = Q3 — Q1

分散: 各データポイントと平均の間の平均二乗差。 データセットの広がりが平均と比較してどの程度であるかを測定します。

標準偏差: 分散の平方根。

Pythonを使用した分散と標準偏差。

共分散

これは、ある変数の変化が別の変数の変化を引き起こす確率変数のペア間の関係です。

負、ゼロ、および正の共分散。

Pythonを使用した共分散行列とそのヒートマップ表現。

相関

これは、変数のペアが互いに関連しているかどうか、およびどの程度強く関連しているかを示します。


共分散に使用されるのと同じデータを使用する相関行列。

共分散と相関。

確率分布

確率分布には、離散確率分布と連続確率分布のXNUMXつの大きなタイプがあります。

離散確率分布:

  • ベルヌーイ分布

確率変数は、確率pで1(成功)と確率0-pで1(失敗)のXNUMXつの可能な結果のみでXNUMX回の試行を行います。

  • 二項分布

各試験は独立しています。 トライアルで考えられる結果は、成功または失敗のXNUMXつだけです。 合計n回の同一の試行が実施されます。 成功と失敗の確率は、すべての試験で同じです。 (試行は同じです。)

  • ポアソン分布

指定された期間に指定された数のイベントが発生する確率を測定します。

連続確率分布:

  • 一様分布

一様分布とも呼ばれます。 すべての結果は同じように発生する可能性があります。


  • 正規/ガウス分布

分布の平均、中央値、および最頻値は一致します。 分布の曲線はベル型で、線に対して対称です x =μ。 曲線の下の合計面積は1です。値の正確に半分は中央の左側にあり、残りの半分は右側にあります。

正規分布は、二項分布とは大きく異なります。 ただし、試行回数が無限大に近づくと、形状は非常に似たものになります。

  • 指数分布

ポアソン点過程、つまり、一定の平均速度でイベントが継続的かつ独立して発生するプロセスにおけるイベント間の時間の確率分布。

仮説検定

まず、帰無仮説と対立仮説の違いを見てみましょう。

帰無仮説: 仮説検定によって不正確であることが示されない限り、真であると考えられるか、または議論を行うために使用される母集団パラメーターに関するステートメント。

対立仮説: 帰無仮説と矛盾する母集団と、帰無仮説を棄却した場合の結論について主張します。

タイプIエラー: 真の帰無仮説の棄却

タイプIIエラー: 偽の帰無仮説の棄却なし

有意水準(α):帰無仮説が真である場合にそれを棄却する確率。

p値: 帰無仮説が真であると仮定して、検定統計量が観察されたものと少なくとも同じくらい極端である確率。

  • p値>αの場合、帰無仮説を棄却できません。
  • p値≤αである間、帰無仮説を棄却し、有意な結果が得られたと結論付けることができます。

統計的仮説検定では、帰無仮説が与えられた場合に発生する可能性が非常に低い場合に、結果に統計的有意性があります。

臨界値: 帰無仮説を棄却する検定統計量のスケール上のポイント。 これは、検定のタイプに固有の検定統計量と、検定の感度を定義する有意水準αに依存します。

直線回帰

線形回帰は通常、私たちが遭遇する最初のMLアルゴリズムです。 それは単純であり、それを理解することは他の高度なMLアルゴリズムの基礎を築きます。

単純な線形回帰

従属変数とXNUMXつの独立変数の間の関係をモデル化するための線形アプローチ。

モデルがデータに最適になるようにパラメーターを見つける必要があります。 回帰直線 (つまり、最適な線)は、エラーが発生した線です。 予測値と観測値の間は最小です。

回帰直線。

それでは、これを実装してみましょう。

多重線形回帰

従属変数とXNUMXつ以上の独立変数の間の関係をモデル化するための線形アプローチ。

元の。 許可を得て転載。

関連する

出典:https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

タイムスタンプ:

より多くの KDナゲット