데이터 과학자가 알아야 할 중요한 통계

소스 노드 : 1876637

데이터 과학자가 알아야 할 중요한 통계

매니아에서 전문가에 이르기까지 모든 데이터 과학자는 몇 가지 기본 통계 개념을 충분히 이해해야 합니다. 여기에서는 데이터에 대한 초기 통찰력을 제공하는 주요 도구를 제공하기 위해 이해를 높이기 위해 Python으로 코드 스니펫을 제공합니다.


By 렉쉬미 S. 수닐, IIT 인도르 '23 | GHC '21 학자.

통계 분석을 통해 당면한 데이터에서 귀중한 통찰력을 얻을 수 있습니다. 다양한 도구를 사용하여 데이터를 분석하려면 중요한 통계 개념과 기술을 제대로 이해하는 것이 절대적으로 필요합니다.

자세히 살펴보기 전에 이 문서에서 다루는 주제를 살펴보겠습니다.

  • 기술 통계와 추론 통계
  • 데이터 타입
  • 확률 및 베이즈 정리
  • 중심 경향 측정
  • 왜도
  • 첨도
  • 분산 측정
  • 공분산
  • 상관 관계
  • 확률 분포
  • 가설 검증
  • 리그레션

기술 통계와 추론 통계

통계는 전체적으로 데이터의 수집, 구성, 분석, 해석 및 표현을 다룹니다. 통계에는 두 가지 주요 분기가 있습니다.

  1. 기술 통계: 여기에는 데이터의 특징을 설명하고 차트/그래프를 통해 시각적으로 또는 중심 경향, 변동성 및 분포 측정을 사용하는 수치 계산을 통해 데이터를 구성하고 표시하는 것이 포함됩니다. 한 가지 주목할만한 점은 이미 알려진 데이터를 기반으로 결론이 도출되었다는 것입니다.
  2. 추론 통계: 여기에는 더 큰 모집단에서 추출한 샘플을 사용하여 더 큰 모집단에 대한 추론을 도출하고 일반화하는 작업이 포함됩니다. 따라서 더 복잡한 계산이 필요합니다. 최종 결과는 가설 테스트, 상관 관계 및 회귀 분석과 같은 기술을 사용하여 생성됩니다. 예측된 미래 결과와 도출된 결론은 사용 가능한 데이터 수준을 뛰어넘습니다.

데이터 타입

가장 적합한 통계 기법을 적용한 적절한 탐색적 데이터 분석(EDA)을 수행하려면 작업 중인 데이터 유형을 이해해야 합니다.

  1. 범주형 데이터

범주형 데이터는 개인의 성별, 혈액형, 모국어 등과 같은 정성적 변수를 나타냅니다. 범주형 데이터도 수학적 의미가 없는 수치 형태입니다. 예를 들어 성별이 변수인 경우 여성은 1, 남성은 0으로 나타낼 수 있습니다.

  • 공칭 데이터: 값은 변수에 레이블을 지정하고 범주 사이에 정의된 계층이 없습니다. 즉, 순서나 방향이 없습니다(예: 종교, 성별 등). 범주가 두 개뿐인 명목 척도를 "이분법"이라고 합니다.
  • 서수 데이터: 범주 사이에 순서 또는 계층이 존재합니다(예: 품질 등급, 교육 수준, 학생 문자 등급 등).
  1. 수치 데이터

수치 데이터는 숫자로만 표현되는 정량적 변수를 나타냅니다. 예를 들어, 개인의 키, 몸무게 등.

  • 개별 데이터: 값은 셀 수 있고 정수(대부분 정수)입니다. 예를 들어 주차장에 있는 차량 수, 국가 수 등이 있습니다.
  • 연속 데이터: 관찰은 측정할 수 있지만 셀 수는 없습니다. 데이터는 범위 내의 모든 값(예: 체중, 키 등)을 가정합니다. 연속 데이터는 간격 데이터(차이가 같지만 실제 XNUMX이 아닌 정렬된 값)와 비율 데이터(동일한 차이가 있는 정렬된 값)로 더 나눌 수 있습니다. 그들 사이에 진정한 XNUMX이 존재합니다).

확률 및 베이즈 정리

확률은 어떤 사건이 일어날 확률의 척도입니다.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • 독립 사건: 두 사건 중 하나의 발생이 다른 사건의 발생 확률에 영향을 미치지 않는 경우 두 사건은 독립적입니다. P(A∩B) = P(A)P(B) 여기서 P(A) != 0 및 P(B) != 0.
  • 상호 배타적 사건: 두 사건이 동시에 발생할 수 없다면 상호 배타적이거나 분리된 사건입니다. P(A∩B) = 0 및 P(A∪B) = P(A)+P(B).
  • 조건부 확률: 다른 사건 B가 이미 발생했다는 점에서 사건 A의 확률. 이것은 P(A|B)로 표시됩니다. P(A|B) = P(A∩B)/P(B), P(B)>0일 때.
  • 베이 즈 정리

중심 경향 측정

통계 모듈을 가져옵니다.

  • Mean: 데이터셋의 평균값.

numpy.mean( ) 도 사용할 수 있습니다.

  • 중앙값: 데이터 세트의 중간 값입니다.

numpy.median( ) 도 사용할 수 있습니다.

  • 모드: 데이터 세트에서 가장 빈번한 값입니다.

평균, 중앙값 및 최빈값은 언제 사용합니까?

평균, 중앙값 및 최빈값 간의 관계: 최빈값 = 3 중앙값 — 2 평균

왜도

대칭의 척도 또는 보다 정확하게는 대칭 부족(비대칭)입니다.

  • 정규/대칭 분포: 최빈값 = 중앙값 = 평균
  • 양(오른쪽)으로 치우친 분포: 최빈값 < 중앙값 < 평균
  • 음(왼쪽)으로 치우친 분포: 평균 < 중앙값 < 최빈값

첨도

데이터가 정규 분포에 비해 두꺼운 꼬리인지 얇은 꼬리인지를 측정하는 척도입니다. 즉, 분포의 "꼬리" 또는 "첨두"를 측정합니다.

  • Leptokurtic – 양의 첨도
  • Mesokurtic – 정규 분포
  • Platykurtic – 음의 첨도

Python을 사용한 왜도 및 첨도.

분산 측정

중심 값을 중심으로 데이터가 분산되는 것을 설명합니다.

범위 : 데이터 세트에서 가장 큰 값과 가장 작은 값의 차이입니다.

사 분위수 편차: 데이터 세트의 사분위수는 데이터를 1개의 동일한 부분으로 나눕니다. 첫 번째 사분위수(Q2)는 데이터의 가장 작은 숫자와 중앙값 사이의 중간 숫자입니다. 두 번째 사분위수(Q3)는 데이터 세트의 중앙값입니다. 세 번째 사분위수(QXNUMX)는 중앙값과 가장 큰 숫자 사이의 중간 숫자입니다. 사분위수 편차는 Q = ½ × (Q3 — Q1)

사분위수 범위: IQR = Q3 — Q1

변화: 각 데이터 포인트와 평균 사이의 평균 제곱 차이입니다. 데이터 집합이 평균에 비해 얼마나 분산되어 있는지 측정합니다.

표준 편차: 분산의 제곱근.

Python을 사용한 분산 및 표준 편차.

공분산

한 변수의 변화가 다른 변수의 변화를 일으키는 한 쌍의 무작위 변수 사이의 관계입니다.

음수, XNUMX 및 양수 공분산.

Python을 사용한 공분산 행렬 및 히트맵 표현.

상관 관계

한 쌍의 변수가 서로 관련되어 있는지 여부와 얼마나 강하게 관련되어 있는지 보여줍니다.


공분산에 사용된 것과 동일한 데이터를 사용하는 상관 행렬입니다.

공분산 대 상관 관계.

확률 분포

확률 분포에는 불연속 확률 분포와 연속 확률 분포의 두 가지 유형이 있습니다.

이산 확률 분포:

  • 베르누이 분포

무작위 변수는 가능한 결과가 두 가지인 단일 시도를 수행합니다. 확률이 p인 1(성공)과 확률이 0-p인 1(실패)입니다.

  • 이항 분포

각 시도는 독립적입니다. 시도에서 가능한 결과는 성공 또는 실패의 두 가지뿐입니다. 총 n번의 동일한 시도가 수행됩니다. 성공과 실패의 확률은 모든 시행에서 동일합니다. (시도는 동일합니다.)

  • 포아송 분포

지정된 기간 동안 주어진 수의 이벤트가 발생할 확률을 측정합니다.

연속 확률 분포:

  • 균등 분포

직사각형 분포라고도 합니다. 모든 결과는 동일하게 발생합니다.


  • 정규/가우스 분포

분포의 평균, 중앙값 및 모드가 일치합니다. 분포 곡선은 종 모양이며 선에 대해 대칭입니다. x = μ. 곡선 아래의 총 면적은 1입니다. 값의 정확히 절반은 중앙 왼쪽에 있고 나머지 절반은 오른쪽에 있습니다.

정규 분포는 이항 분포와 매우 다릅니다. 그러나 시행 횟수가 무한대에 가까워지면 모양이 상당히 비슷해집니다.

  • 지수 분포

포아송점 과정, 즉 사건이 일정한 평균 비율로 연속적이고 독립적으로 발생하는 과정에서 사건 사이의 시간 확률 분포.

가설 검증

먼저 귀무가설과 대립가설의 차이점을 살펴보자.

귀무 가설: 가설 검정에 의해 부정확한 것으로 판명되지 않는 한 참이라고 여겨지거나 논증을 제시하는 데 사용되는 모집단 매개변수에 대한 진술.

대립 가설: 귀무가설과 모순되는 모집단에 대한 주장과 귀무가설을 기각할 경우 결론을 내리는 것.

유형 I 오류: 진정한 귀무가설의 기각

유형 II 오류: 거짓 귀무가설을 기각하지 않음

유의 수준(α): 귀무가설이 참인데 기각할 확률.

p-값: 검정 통계량의 확률은 귀무 가설이 참이라는 점을 감안할 때 적어도 관찰된 것만큼 극단적일 것입니다.

  • p-값 > α인 경우 귀무 가설을 기각하지 못합니다.
  • p-value ≤ α인 동안 귀무가설을 기각하고 유의미한 결과를 얻었다는 결론을 내릴 수 있습니다.

통계적 가설 검정에서 귀무 가설이 주어졌을 때 발생했을 가능성이 매우 낮을 때 결과가 통계적으로 유의합니다.

결정적인 가치: 귀무 가설을 기각하는 테스트 통계량의 한 지점입니다. 이는 테스트 유형에 따라 달라지는 테스트 통계량과 테스트의 민감도를 정의하는 유의 수준 α에 따라 달라집니다.

선형 회귀

선형 회귀는 일반적으로 우리가 접하는 첫 번째 ML 알고리즘입니다. 간단하며 이를 이해하면 다른 고급 ML 알고리즘의 토대가 됩니다.

단순 선형 회귀

종속 변수와 하나의 독립 변수 간의 관계를 모델링하는 선형 접근 방식입니다.

모델이 데이터에 가장 적합하도록 매개변수를 찾아야 합니다. 회귀선 (즉, 가장 잘 맞는 선)은 오류가 발생하는 선입니다. 예측값과 관측값 사이의 값이 최소입니다.

회귀선.

이제 이를 구현해 보도록 하겠습니다.

다중 선형 회귀

종속 변수와 둘 이상의 독립 변수 간의 관계를 모델링하는 선형 접근 방식입니다.

실물. 허가를 받아 다시 게시했습니다.

관련 :

출처: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

타임 스탬프 :

더보기 너 겟츠