작성자 별 이미지
데이터 과학자이거나 지망생이라면 해당 분야에서 통계의 중요성을 알게 될 것입니다. 통계는 데이터 과학자가 패턴과 추세를 식별하여 데이터를 수집, 분석 및 해석한 다음 미래를 예측하는 데 도움이 됩니다.
통계적 역설은 통계적 결과가 기대와 모순되는 경우입니다. 추가 방법을 사용하지 않고는 데이터를 이해하기 어렵기 때문에 정확한 원인을 찾아내는 것은 매우 어려울 수 있습니다. 그러나 잘못된 결과를 초래할 수 있는 원인에 대한 단서를 제공하므로 데이터 과학자에게 중요한 요소입니다.
다음은 데이터 과학과 관련된 통계적 역설 목록입니다.
- 심슨의 역설
- 버크 슨의 역설
- 거짓 긍정 역설
- 정확도 역설
- 학습 가능성-고델 패러독스
이 기사에서는 Berkson-Jekel 역설과 데이터 과학과의 관련성에 중점을 둘 것입니다.
Berkson-Jekel 역설은 두 변수가 데이터에서 상관 관계가 있지만 데이터가 그룹화되거나 부분 집합화되면 상관 관계가 식별되지 않는 경우입니다. 평신도의 용어로 표현하자면 상관 관계는 데이터의 다른 하위 그룹에서 다릅니다.
Berkson-Jekel 역설은 역설을 기술한 최초의 통계학자인 Joseph Berkson과 John Jekel의 이름을 따서 명명되었습니다. Berkson-Jekel 역설의 발견은 두 통계학자가 흡연과 폐암 사이의 상관관계를 연구하던 중이었습니다. 연구 중에 그들은 일반 인구와 비교하여 폐렴과 폐암으로 입원한 사람들 사이의 상관관계를 발견했습니다. 그러나 그들은 담배를 피우지 않는 사람들에 비해 흡연자들이 폐렴으로 더 많이 입원하기 때문이라는 것을 보여주는 추가 연구를 수행했습니다.
왜 이런 일이 일어나는가?
Berkson-Jekel 역설에 대한 통계학자의 첫 번째 연구를 기반으로 상관 관계의 정확한 추론을 파악하려면 더 많은 연구가 필요하다고 말할 수 있습니다. 그러나 Berkson-Jekel 역설이 발생하는 다른 이유도 있습니다.
- 숨겨진 변수: 데이터 세트에는 결과에 영향을 미치는 숨겨진 변수가 포함될 수 있습니다. 따라서 두 변수의 상관관계에 대한 연구가 있을 때 데이터 과학자와 연구자는 모든 잠재적 요인을 고려하지 않았을 수 있습니다.
- 샘플 편향: 데이터 샘플이 모집단을 대표하지 않을 수 있으므로 잘못된 상관 관계가 발생할 수 있습니다.
- 상관 관계 대 인과 관계: 데이터 과학에서 기억해야 할 중요한 사항은 상관 관계가 인과 관계를 의미하지 않는다는 것입니다. 두 변수는 상관 관계가 있을 수 있지만 하나가 다른 변수를 유발한다는 의미는 아닙니다.
통계적 추론은 데이터 과학에서 매우 중요하며 주요 문제는 잘못된 결과를 다루는 것입니다. 데이터 과학자는 의사 결정 프로세스 및 향후 예측에 사용할 수 있는 정확한 결과를 생성하고 있는지 확인하려고 합니다. 잘못된 예측이나 오해의 소지가 있는 결과를 만드는 것은 카드의 마지막 항목입니다.
Berkson-Jekel Paradox를 피하는 방법
Berkson-Jekel Paradox를 피하기 위해 사용할 수 있는 몇 가지 방법이 있습니다.
통계적 방법을 사용하여 숨겨진 변수 제어
- 통계 모델링: 통계 모델링을 사용하여 둘 이상의 변수 간의 관계를 더 잘 이해할 수 있습니다. 이렇게 하면 잠재적으로 결과에 영향을 줄 수 있는 숨겨진 변수를 식별할 수 있습니다.
- 무작위 대조 시험: 참가자가 무작위로 치료 그룹 또는 통제 그룹에 할당되는 경우입니다. 이를 통해 데이터 과학자는 연구 결과에 영향을 줄 수 있는 숨겨진 변수를 제어할 수 있습니다.
- 결과 결합: 여러 연구 결과를 결합하여 연구를 더 잘 이해할 수 있습니다. 이러한 방식으로 데이터 과학자는 각 연구에서 숨겨진 변수를 더 잘 이해하고 제어할 수 있습니다.
다양한 데이터 소스
샘플 데이터가 모집단을 대표하지 않아 잘못된 결과를 처리하는 경우 솔루션은 다양한 출처의 데이터를 사용하는 것입니다. 이렇게 하면 모집단의 보다 대표적인 샘플을 얻고 변수에 대해 더 많이 조사하고 더 잘 이해하는 데 도움이 됩니다.
오해의 소지가 있는 결과는 회사를 방해할 수 있습니다. 따라서 데이터로 작업할 때 데이터 전문가는 작업 중인 데이터의 한계, 다양한 변수 및 이들 사이의 관계, 오해의 소지가 있는 결과가 발생하는 것을 줄이는 방법을 이해해야 합니다.
심슨의 역설에 대해 더 알고 싶다면 다음을 읽어보십시오. 심슨의 역설과 데이터 과학에 미치는 영향
다른 통계적 역설에 대해 더 알고 싶다면 다음을 읽어보십시오. 데이터 과학자가 알아야 할 5가지 통계적 패러독스
니샤 아리아 KDnuggets의 데이터 과학자, 프리랜서 기술 작가 및 커뮤니티 관리자입니다. 그녀는 특히 데이터 과학 경력 조언 또는 데이터 과학에 대한 자습서 및 이론 기반 지식을 제공하는 데 관심이 있습니다. 그녀는 또한 인공 지능이 인간의 수명에 도움이 되는 다양한 방식을 탐구하고자 합니다. 기술 지식과 작문 기술을 넓히고 다른 사람을 안내하는 데 도움을 주고자 하는 예리한 학습자.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- 플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://www.kdnuggets.com/2023/03/berksonjekel-paradox-importance-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=the-berkson-jekel-paradox-and-its-importance-to-data-science
- :이다
- a
- 소개
- 정확한
- 조언
- 에 영향을 미치는
- 후
- All
- 분석하다
- 및
- 있군요
- 약
- 기사
- 인조의
- 인공 지능
- AS
- 열망하는
- 할당 된
- At
- 뒤로
- 기반으로
- BE
- 뒤에
- 존재
- 이익
- 더 나은
- 사이에
- 바이어스
- 넓히다
- by
- CAN
- 게자리
- 카드
- 채용
- 원인
- 원인
- 일으키는
- 수집
- 결합
- 커뮤니티
- 회사
- 비교
- 실시
- 고려
- 제어
- 통제
- 상관 관계
- 수
- 데이터
- 데이터 과학
- 데이터 과학자
- 데이터 세트
- 취급
- 의사 결정
- 기술 된
- DID
- 다른
- 어려운
- 발견
- ...동안
- 마다
- 요소
- 확인
- 기대
- 탐험
- 요인
- 를
- 그림
- 먼저,
- 초점
- 럭셔리
- 발견
- 자유 계약의
- 에
- 추가
- 미래
- 일반
- 얻을
- 제공
- 그룹
- 안내
- 발생
- 무슨 일이
- 하드
- 있다
- 도움
- 도움이
- 숨겨진
- 보유
- 방법
- How To
- 그러나
- HTML
- HTTPS
- 사람의
- 확인
- 확인
- 식별
- 의미
- 중요성
- 중대한
- in
- 인텔리전스
- 관심있는
- 발행물
- IT
- 그
- 요한 복음
- 너 겟츠
- 날카로운
- 알아
- 지식
- 성
- 리드
- 학습자
- 생활
- 처럼
- 한계
- 링크드인
- 명부
- 장수
- 본관
- 확인
- 유튜브 영상을 만드는 것은
- 매니저
- 방법
- 모델링
- 배우기
- 여러
- 이름
- 필요
- of
- on
- ONE
- 기타
- 기타
- 역설
- 참가자
- 특별히
- 패턴
- 사람들
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 폐렴
- 인구
- 긍정적인
- 가능성
- 잠재적으로
- 예측
- 방법
- 전문가
- 제공
- 놓다
- 읽기
- 이유
- 감소
- 관계
- 관련성
- 관련된
- 기억
- 대리인
- 필수
- 연구
- 연구원
- 결과
- 결과
- s
- 과학
- 과학자
- 과학자
- 부문
- 모색
- 영상을
- 기술
- 연기
- 흡연자
- 흡연
- 해결책
- 지우면 좋을거같음 . SM
- 통계적인
- 통계
- 교육과정
- 공부
- 기술
- 테크니컬
- 조건
- 그
- XNUMXD덴탈의
- 그들의
- 그들
- 따라서
- 맡은 일
- 에
- 치료
- 트렌드
- 시련
- 자습서
- 이해
- 이해
- 사용
- 종류
- vs
- 방법..
- 방법
- 뭐
- 어느
- 하는 동안
- 누구
- 의지
- 소원
- 과
- 없이
- 일하는
- 겠지
- 작가
- 쓰기
- 제퍼 넷