기본 비율 오류와 데이터 과학에 미치는 영향

기본 비율 오류와 데이터 과학에 미치는 영향

소스 노드 : 2597848
기본 비율 오류와 데이터 과학에 미치는 영향
작성자 별 이미지
 

데이터 및 다양한 변수로 작업할 때 한 변수 또는 값을 다른 변수보다 크게 할당하는 것은 쉽습니다. 특정 변수 또는 데이터 포인트가 출력에 더 많은 영향을 미쳤다고 가정할 수 있지만 다른 변수가 동일한 영향을 미친다고 얼마나 확신할 수 있습니까?

통계에서 기본율은 '특징적 증거'에 따라 무조건 클래스의 확률로 볼 수 있습니다. 기본 요율은 사전 확률 가정으로 볼 수 있습니다. 

기본 요율은 연구에서 중요한 도구입니다. 예를 들어, 우리가 제약 회사이고 새로운 백신을 개발하고 파견하는 과정에 있다면 치료의 성공 여부를 조사하고 싶습니다. 이 예방 접종을 받을 의사가 있는 사람이 4000명이고 기본 요율이 1/25인 경우. 

160명 중 4000명만이 치료에 성공한다는 얘기다. 제약 업계에서 이것은 매우 낮은 성공률입니다. 이것이 기본 요율을 사용하여 연구 및 정확성을 개선하고 제품의 성능을 보장하는 방법입니다. 

단어를 나누면 더 잘 이해할 수 있습니다. 오류는 잘못된 믿음이나 잘못된 추론을 의미합니다. 이제 이를 위의 기본 요율 정의와 결합하면 됩니다. 

기본 요율 편향 및 기본 요율 무시라고도 하는 기본 요율 오류는 모든 관련 데이터를 고려하지 않고 특정 상황을 판단할 가능성입니다. 

기본 요율 오류에는 기본 요율에 대한 정보와 기타 관련 정보가 있습니다. 이는 데이터를 제대로 조사하고 분석하지 않았거나 데이터의 특정 부분을 선호하는 무지 등 다양한 이유 때문일 수 있습니다. 

기본 요율 오류는 누군가가 기존 기본 요율 정보를 무시하고 새로운 정보를 강요하고 선호하는 경향을 설명합니다. 이것은 증거 기반 추론의 기본 규칙에 위배됩니다.

일반적으로 금융 업계에서 이런 일이 발생한다는 소식을 듣게 됩니다. 예를 들어, 투자자는 기본 요율을 알고 있음에도 불구하고 비합리적인 정보를 기반으로 구매 또는 공유 전략을 수립하므로 시장 변동이 발생합니다. 

이제 우리는 기본 요율과 기본 요율 오류에 대해 더 잘 이해하게 되었습니다. 데이터 과학에서 관련성과 영향은 무엇입니까?

우리는 '클래스의 확률'과 '모든 관련 데이터 고려'에 대해 이야기했습니다. 데이터 과학자 또는 기계 학습 엔지니어이거나 문에 첫발을 내디딘 경우 정확한 출력 생성, 기계 학습 모델의 학습 프로세스 및 고성능 모델 생성에 확률과 관련 데이터가 얼마나 중요한지 알게 될 것입니다. 

데이터를 분석하고 예측하거나 기계 학습 모델이 정확한 출력을 생성하려면 데이터의 모든 부분을 고려해야 합니다. 데이터를 처음 볼 때 스캔할 때 어떤 부분은 관련이 있고 다른 부분은 관련이 없다고 생각할 수 있습니다. 그러나 이는 귀하의 판단이며 적절한 분석이 이루어질 때까지는 아직 사실이 아닙니다. 

위에서 언급했듯이 초기 기본 요율은 정확성을 보장하고 고성능 모델을 생성하는 데 도움이 됩니다. 그렇다면 데이터 사이언스에서 이를 어떻게 수행할 수 있을까요?

혼란 매트릭스

혼동 행렬은 분류 문제에 대한 예측 결과의 요약을 제공하는 성능 측정입니다. 혼동 행렬은 모두 True, False, Positive 및 Negative의 결과를 기반으로 합니다.

혼동 행렬은 테스트 단계 중 모델의 예측을 나타냅니다. 혼동 행렬의 거짓음성과 거짓양성은 기본율 오류의 예입니다.

  • 참양성(TP) - 모델이 양성으로 예측했고 그 결과가 양성입니다. 
  • 참음성(TN) - 모델이 부정적으로 예측했으며 결과는 부정적입니다.
  • 거짓 긍정(FP) - 모델이 긍정적으로 예측했지만 결과는 부정적입니다.
  • FN(거짓음성) - 모델이 부정적으로 예측했지만 결과는 긍정적입니다. 

혼동 행렬은 모델의 유효성을 측정하는 데 도움이 되는 5가지 측정항목을 계산할 수 있습니다.

  1. 오분류 = FP + FN / TP + TN + FP + FN
  2. 정밀도 = TP / TP + FP
  3. 정확도 = TP + TN / TP + TN + FP + FN
  4. 특이도 = TN / TN + FP
  5. 감도 일명 리콜 = TP / TP + FN

혼동 행렬을 더 잘 이해하려면 시각화를 살펴보는 것이 좋습니다. 
 

기본 비율 오류와 데이터 과학에 미치는 영향
작성자 별 이미지

이 기사를 검토하면서 모든 관련 데이터를 고려하지 않은 경우, 인적 오류 또는 정밀도 부족과 같은 기본 요율 오류의 다양한 원인을 생각할 수 있습니다. 

이것들은 모두 사실이며 기본 요율 오류의 원인에 추가됩니다. 모두 애초에 기준금리 정보를 무시하는 가장 큰 문제와 관련이 있다. 기본 요율 정보는 관련이 없는 것으로 간주되어 종종 무시되지만 기본 요율 정보는 사람들에게 많은 시간과 비용을 절약할 수 있습니다. 사용 가능한 기본 요율 정보를 사용하면 주어진 이벤트가 발생할지 여부에 대한 확률을 보다 정확하게 만들 수 있습니다. 

기본 요율 정보를 사용하면 기본 요율 오류를 피하는 데 도움이 됩니다. 

의견, 자동 프로세스 등과 같은 오류를 인식하면 기본 요율 오류 문제를 해결하고 잠재적인 오류를 줄일 수 있습니다. 특정 사건이 발생할 확률을 측정할 때 베이지안 방법을 사용하면 기본 비율 오류를 줄이는 데 도움이 될 수 있습니다.  

기본 요율은 연구 또는 프로젝트를 평가하고 모델을 미세 조정하는 방법에 대한 기본 이해를 제공하여 정확성과 성능을 전반적으로 향상시키므로 데이터 과학에서 중요합니다.

의료 분야의 기본 요율 오류에 대한 비디오를 보려면 다음 비디오를 확인하십시오. 의료 테스트 패러독스
 
 
니샤 아리아 KDnuggets의 데이터 과학자, 프리랜서 기술 작가 및 커뮤니티 관리자입니다. 그녀는 특히 데이터 과학 경력 조언 또는 데이터 과학에 대한 자습서 및 이론 기반 지식을 제공하는 데 관심이 있습니다. 그녀는 또한 인공 지능이 인간의 수명에 도움이 되는 다양한 방식을 탐구하고자 합니다. 기술 지식과 작문 기술을 넓히고 다른 사람을 안내하는 데 도움을 주고자 하는 예리한 학습자.
 

타임 스탬프 :

더보기 너 겟츠