Berkson-Jekel Paradox와 데이터 과학에 대한 중요성

Berkson-Jekel Paradox와 데이터 과학에 대한 중요성

소스 노드 : 2550862

Berkson-Jekel Paradox와 데이터 과학에 대한 중요성
작성자 별 이미지
 

데이터 과학자이거나 지망생이라면 해당 분야에서 통계의 중요성을 알게 될 것입니다. 통계는 데이터 과학자가 패턴과 추세를 식별하여 데이터를 수집, 분석 및 해석한 다음 미래를 예측하는 데 도움이 됩니다.

통계적 역설은 통계적 결과가 기대와 모순되는 경우입니다. 추가 방법을 사용하지 않고는 데이터를 이해하기 어렵기 때문에 정확한 원인을 찾아내는 것은 매우 어려울 수 있습니다. 그러나 잘못된 결과를 초래할 수 있는 원인에 대한 단서를 제공하므로 데이터 과학자에게 중요한 요소입니다. 

다음은 데이터 과학과 관련된 통계적 역설 목록입니다.

  • 심슨의 역설
  • 버크 슨의 역설
  • 거짓 긍정 역설
  • 정확도 역설
  • 학습 가능성-고델 패러독스

이 기사에서는 Berkson-Jekel 역설과 데이터 과학과의 관련성에 중점을 둘 것입니다. 

Berkson-Jekel 역설은 두 변수가 데이터에서 상관 관계가 있지만 데이터가 그룹화되거나 부분 집합화되면 상관 관계가 식별되지 않는 경우입니다. 평신도의 용어로 표현하자면 상관 관계는 데이터의 다른 하위 그룹에서 다릅니다.

Berkson-Jekel 역설은 역설을 기술한 최초의 통계학자인 Joseph Berkson과 John Jekel의 이름을 따서 명명되었습니다. Berkson-Jekel 역설의 발견은 두 통계학자가 흡연과 폐암 사이의 상관관계를 연구하던 중이었습니다. 연구 중에 그들은 일반 인구와 비교하여 폐렴과 폐암으로 입원한 사람들 사이의 상관관계를 발견했습니다. 그러나 그들은 담배를 피우지 않는 사람들에 비해 흡연자들이 폐렴으로 더 많이 입원하기 때문이라는 것을 보여주는 추가 연구를 수행했습니다.

왜 이런 일이 일어나는가?

Berkson-Jekel 역설에 대한 통계학자의 첫 번째 연구를 기반으로 상관 관계의 정확한 추론을 파악하려면 더 많은 연구가 필요하다고 말할 수 있습니다. 그러나 Berkson-Jekel 역설이 발생하는 다른 이유도 있습니다.

  • 숨겨진 변수: 데이터 세트에는 결과에 영향을 미치는 숨겨진 변수가 포함될 수 있습니다. 따라서 두 변수의 상관관계에 대한 연구가 있을 때 데이터 과학자와 연구자는 모든 잠재적 요인을 고려하지 않았을 수 있습니다. 
  • 샘플 편향: 데이터 샘플이 모집단을 대표하지 않을 수 있으므로 잘못된 상관 관계가 발생할 수 있습니다. 
  • 상관 관계 대 인과 ​​관계: 데이터 과학에서 기억해야 할 중요한 사항은 상관 관계가 인과 관계를 의미하지 않는다는 것입니다. 두 변수는 상관 관계가 있을 수 있지만 하나가 다른 변수를 유발한다는 의미는 아닙니다.

통계적 추론은 데이터 과학에서 매우 중요하며 주요 문제는 잘못된 결과를 다루는 것입니다. 데이터 과학자는 의사 결정 프로세스 및 향후 예측에 사용할 수 있는 정확한 결과를 생성하고 있는지 확인하려고 합니다. 잘못된 예측이나 오해의 소지가 있는 결과를 만드는 것은 카드의 마지막 항목입니다. 

Berkson-Jekel Paradox를 피하는 방법

Berkson-Jekel Paradox를 피하기 위해 사용할 수 있는 몇 가지 방법이 있습니다.

통계적 방법을 사용하여 숨겨진 변수 제어

  • 통계 모델링: 통계 모델링을 사용하여 둘 이상의 변수 간의 관계를 더 잘 이해할 수 있습니다. 이렇게 하면 잠재적으로 결과에 영향을 줄 수 있는 숨겨진 변수를 식별할 수 있습니다.
  • 무작위 대조 시험: 참가자가 무작위로 치료 그룹 또는 통제 그룹에 할당되는 경우입니다. 이를 통해 데이터 과학자는 연구 결과에 영향을 줄 수 있는 숨겨진 변수를 제어할 수 있습니다.
  • 결과 결합: 여러 연구 결과를 결합하여 연구를 더 잘 이해할 수 있습니다. 이러한 방식으로 데이터 과학자는 각 연구에서 숨겨진 변수를 더 잘 이해하고 제어할 수 있습니다. 

다양한 데이터 소스

샘플 데이터가 모집단을 대표하지 않아 잘못된 결과를 처리하는 경우 솔루션은 다양한 출처의 데이터를 사용하는 것입니다. 이렇게 하면 모집단의 보다 대표적인 샘플을 얻고 변수에 대해 더 많이 조사하고 더 잘 이해하는 데 도움이 됩니다.

오해의 소지가 있는 결과는 회사를 방해할 수 있습니다. 따라서 데이터로 작업할 때 데이터 전문가는 작업 중인 데이터의 한계, 다양한 변수 및 이들 사이의 관계, 오해의 소지가 있는 결과가 발생하는 것을 줄이는 방법을 이해해야 합니다. 

심슨의 역설에 대해 더 알고 싶다면 다음을 읽어보십시오. 심슨의 역설과 데이터 과학에 미치는 영향

다른 통계적 역설에 대해 더 알고 싶다면 다음을 읽어보십시오. 데이터 과학자가 알아야 할 5가지 통계적 패러독스
 
 
니샤 아리아 KDnuggets의 데이터 과학자, 프리랜서 기술 작가 및 커뮤니티 관리자입니다. 그녀는 특히 데이터 과학 경력 조언 또는 데이터 과학에 대한 자습서 및 이론 기반 지식을 제공하는 데 관심이 있습니다. 그녀는 또한 인공 지능이 인간의 수명에 도움이 되는 다양한 방식을 탐구하고자 합니다. 기술 지식과 작문 기술을 넓히고 다른 사람을 안내하는 데 도움을 주고자 하는 예리한 학습자.
 

타임 스탬프 :

더보기 너 겟츠