A falácia da taxa básica e seu impacto na ciência de dados

A falácia da taxa básica e seu impacto na ciência de dados

Nó Fonte: 2597848
A falácia da taxa básica e seu impacto na ciência de dados
Imagem do autor
 

Ao trabalhar com dados e variáveis ​​diferentes, é fácil atribuir uma variável ou valor maior que o outro. Podemos presumir que uma variável ou ponto de dados específico teve mais impacto na saída, mas como temos certeza de que as outras variáveis ​​têm um impacto igual?

Nas estatísticas, a taxa básica pode ser vista como probabilidades de classes que são incondicionais em "evidências características". Você pode ver a taxa básica como sua suposição de probabilidade anterior. 

As taxas básicas são ferramentas importantes na pesquisa. Por exemplo, se somos uma empresa farmacêutica e estamos em processo de desenvolvimento e envio de uma nova vacina, queremos verificar o sucesso do tratamento. Se tivermos 4000 pessoas dispostas a tomar essa vacinação, e nossa taxa básica for 1/25. 

Isso significa que apenas 160 pessoas serão curadas com sucesso pelo tratamento em 4000 pessoas. No mundo farmacêutico, esta é uma taxa de sucesso muito baixa. É assim que as taxas básicas podem ser usadas para melhorar a pesquisa e a precisão e garantir que o produto tenha um bom desempenho. 

Se dividirmos as palavras, isso nos dará uma melhor compreensão. Falácia significa uma crença equivocada ou raciocínio defeituoso. Se agora combinarmos isso com nossa definição de taxa básica acima. 

A falácia da taxa básica, também conhecida como viés da taxa básica e negligência da taxa básica, é a probabilidade de julgar uma situação específica, sem levar em consideração todos os dados relevantes. 

A falácia da taxa básica contém informações sobre a taxa básica, bem como outras informações relevantes. Isso pode ser devido a vários motivos, como não examinar e analisar minuciosamente os dados adequadamente ou ignorância para favorecer uma parte específica dos dados. 

A falácia da taxa básica descreve a tendência de alguém desconsiderar as informações existentes da taxa básica, de pressionar e ser a favor das novas informações. Isso vai contra as regras fundamentais do raciocínio baseado em evidências.

Normalmente você ouvirá falar sobre isso acontecendo no setor financeiro. Por exemplo, os investidores basearão as suas tácticas de compra ou partilha em informações irracionais, o que leva à flutuação do mercado - apesar de terem conhecimento da taxa básica. 

Portanto, agora temos uma melhor compreensão da taxa básica e da falácia da taxa básica. Qual a sua relevância e impacto em Data Science?

Já falamos sobre “probabilidades de classes” e “levando em consideração todos os dados relevantes”. Se você é um cientista de dados, ou engenheiro de aprendizado de máquina, ou está começando a trabalhar - você saberá como as probabilidades e os dados relevantes são importantes para a produção de resultados precisos, o processo de aprendizagem do seu modelo de aprendizado de máquina e a produção de modelos de alto desempenho. 

Para analisar e fazer previsões sobre dados ou para que seu modelo de aprendizado de máquina produza resultados precisos, você precisa levar em consideração cada bit de dados. Ao examinar seus dados na primeira vez que os vê, você pode considerar algumas partes relevantes e outras irrelevantes. No entanto, este é o seu julgamento e ainda não é factual até que uma análise adequada seja realizada. 

Conforme mencionado acima, a taxa básica inicial ajuda a garantir a precisão e a produzir modelos de alto desempenho. Então, como podemos fazer isso em Data Science?

Matriz de Confusão

Uma matriz de confusão é uma medida de desempenho que fornece um resumo dos resultados de previsão em um problema de classificação. As matrizes de confusão são todas baseadas no resultado: Verdadeiro, Falso, Positivo e Negativo.

A matriz de confusão representa as previsões do nosso modelo durante a fase de teste. O falso negativo e o falso positivo na matriz de confusão são exemplos de falácia da taxa básica.

  • Verdadeiro Positivo (TP) – seu modelo previu positivo e é positivo 
  • Verdadeiro Negativo (TN) – seu modelo previu negativo e é negativo
  • Falso Positivo (FP) – seu modelo previu positivo e é negativo
  • Falso Negativo (FN) – seu modelo previu negativo e é positivo 

Uma matriz de confusão pode calcular 5 métricas diferentes para nos ajudar a medir a validade do nosso modelo:

  1. Classificação incorreta = FP + FN / TP + TN + FP + FN
  2. Precisão = TP / TP + FP
  3. Precisão = TP + TN / TP + TN + FP + FN
  4. Especificidade = TN / TN + FP
  5. Sensibilidade, também conhecida como Recall = TP / TP + FN

Para entender melhor uma matriz de confusão, é melhor observar uma visualização: 
 

A falácia da taxa básica e seu impacto na ciência de dados
Imagem do autor

Ao ler este artigo, você provavelmente pode pensar em várias causas da falácia da taxa básica, como não levar em consideração todos os dados relevantes, erro humano ou falta de precisão. 

Embora tudo isso seja verdade e aumente a causa da falácia da taxa básica. Todos eles se relacionam com o maior problema de ignorar as informações da taxa básica em primeiro lugar. As informações da taxa básica são frequentemente ignoradas, pois são consideradas irrelevantes; no entanto, as informações da taxa básica podem economizar muito tempo e dinheiro para as pessoas. O uso das informações de taxa básica disponíveis permite que você seja mais preciso ao criar probabilidades sobre a ocorrência de um determinado evento. 

O uso das informações da taxa básica ajudará a evitar a falácia da taxa básica. 

Estar ciente de falácias como opiniões, processos automáticos, etc. - permitirá combater o problema da falácia da taxa básica e reduzir possíveis erros. Quando você mede a probabilidade de ocorrência de um determinado evento, os métodos bayesianos podem ajudar a reduzir a falácia da taxa básica.  

A taxa básica é importante na ciência de dados, pois fornece uma compreensão básica de como avaliar seu estudo ou projeto e ajustar seu modelo, proporcionando um aumento geral na precisão e no desempenho.

Se você gostaria de assistir a um vídeo sobre a falácia da taxa básica na área médica, confira este vídeo: Paradoxo do teste médico
 
 
Nisha Arya é cientista de dados, redator técnico freelancer e gerente de comunidade da KDnuggets. Ela está particularmente interessada em fornecer conselhos ou tutoriais de carreira em Ciência de Dados e conhecimento baseado em teoria sobre Ciência de Dados. Ela também deseja explorar as diferentes maneiras pelas quais a Inteligência Artificial é/pode beneficiar a longevidade da vida humana. Uma aluna interessada, buscando ampliar seus conhecimentos técnicos e habilidades de escrita, ao mesmo tempo em que ajuda a orientar outras pessoas.
 

Carimbo de hora:

Mais de KDnuggetsGenericName