Abordagens para imputação de dados

Abordagens para imputação de dados

Nó Fonte: 1895750

Abordagens para imputação de dados
Foto por Ron ri
 

Os conjuntos de dados do mundo real raramente são perfeitos e geralmente vêm com valores ausentes ou informações incompletas. Essas falhas podem ser devidas ao elemento humano (pesquisas incorretamente preenchidas ou não preenchidas) ou tecnologia (sensores com defeito). Seja qual for o caso, muitas vezes você fica com valores ou informações ausentes.

Claro, isso apresenta um problema. Sem os valores ausentes, todo o conjunto de dados pode ser considerado inutilizável. Mas como leva tempo, esforço e (em muitos casos) dinheiro consideráveis ​​para adquirir dados de alta qualidade, descartar os dados incorretos e começar de novo podem não ser opções viáveis. Em vez disso, devemos encontrar uma maneira de contornar ou substituir esses valores ausentes. É aqui que entra a imputação de dados. 

Este guia discutirá o que é imputação de dados, bem como os tipos de abordagens que ela suporta.

Embora não possamos substituir dados ausentes ou corrompidos, existem métodos que podemos empregar para permitir que o conjunto de dados ainda seja utilizável. A imputação de dados é uma das técnicas mais confiáveis ​​para conseguir isso. No entanto, devemos primeiro identificar que tipo de dados está faltando e por quê. 

Em estatística e ciência de dados, existem três tipos principais de dados ausentes:

  • Faltando ao acaso (MAR), onde os dados ausentes estão vinculados a uma variável e podem ser observados ou rastreados. Em muitos casos, isso pode fornecer mais informações sobre os dados demográficos ou os titulares dos dados. Por exemplo, pessoas de uma certa idade podem decidir pular uma pergunta em uma pesquisa ou remover sistemas de rastreamento de seus dispositivos em determinados momentos. 
  • Faltando completamente ao acaso (MCAR), Onde o dados ausentes não pode ser observada ou atribuída a uma variável. É quase impossível discernir por que os dados estão faltando.
  • Dados ausentes que não estão ausentes aleatoriamente (NMAR), onde os dados ausentes estão vinculados a uma variável de interesse. Na maioria dos casos, esses dados ausentes podem ser ignorados. O NMAR pode ocorrer quando um respondente pula uma pergunta que não se aplica a ele.

Lidando com dados ausentes

Atualmente, você tem três opções principais para lidar com valores de dados ausentes:

  • eliminação
  • Imputação
  • Desconsiderar

Em vez de descartar todo o conjunto de dados, você pode usar o que é conhecido como exclusão de lista. Isso envolve a exclusão de registros com informações ou valores ausentes. A principal vantagem da exclusão por lista é que ela oferece suporte a todas as três categorias de dados ausentes. 

No entanto, isso pode resultar em perda de dados adicionais. É recomendado que você use apenas deleção de lista em instâncias onde há um número maior de valores ausentes (observados) do que valores presentes (observados), principalmente porque não há dados suficientes para inferi-los ou substituí-los. 

Se os dados ausentes observados não forem importantes (ignoráveis) e apenas alguns valores estiverem ausentes, você poderá ignorá-los e trabalhar com o que tiver. No entanto, isso nem sempre é uma possibilidade. A imputação de dados oferece uma terceira solução potencialmente mais viável. 

A imputação de dados envolve a substituição de valores ausentes para que os conjuntos de dados ainda possam ser usados. Existem duas categorias de abordagens de imputação de dados:

  • Individual
  • Múltiplo

A imputação média (MI) é uma das formas mais famosas de imputação de dados únicos.

Imputação Média (MI)

MI é uma forma de imputação simples. Isso envolve calcular a média dos valores observados e usar os resultados para inferir os valores ausentes. Infelizmente, esse método provou ser ineficiente. Isso pode levar a muitas estimativas tendenciosas, mesmo quando os dados estão faltando completamente ao acaso. Além disso, a “precisão” das estimativas depende do número de valores ausentes. 

Por exemplo, se houver um grande número de valores observados ausentes, usando imputação média pode levar à subestimação do valor. Assim, é mais adequado para conjuntos de dados e variáveis ​​com apenas alguns valores ausentes. 

Substituição Manual

Nessa situação, um operador pode usar o conhecimento prévio dos valores do conjunto de dados para substituir os valores ausentes. É um método de imputação único que depende da memória ou conhecimento do operador e às vezes é referido como conhecimento prévio de um número ideal. A precisão depende da capacidade do operador de recuperar os valores, portanto, esse método pode ser mais adequado para conjuntos de dados com apenas alguns valores ausentes.

K-vizinhos mais próximos (K-NN)

K-vizinho mais próximo é uma técnica famosamente usada em aprendizado de máquina para resolver problemas de regressão e classificação. Ele usa a média do valor de dados ausentes dos vizinhos do valor de dados ausentes para calculá-lo e imputá-lo. o método K-NN é muito mais eficaz do que a imputação média simples e é ideal para valores MCAR e MAR. 

Substituição

A substituição envolve encontrar um novo indivíduo ou sujeito para pesquisa ou teste. Este deve ser um sujeito que não foi selecionado na amostra original.

Imputação de regressão

A regressão tenta determinar a força de uma variável dependente (geralmente especificada como Y) para uma coleção de variáveis ​​independentes (geralmente indicadas como X). A regressão linear é a forma mais conhecida de regressão. Ele usa a linha de melhor ajuste para prever ou determinar o valor ausente. Consequentemente, é o melhor método para representar dados visualmente por meio de um modelo de regressão.

Quando a regressão linear é uma forma de regressão determinística em que é estabelecida uma relação exata entre os valores ausentes e presentes, os valores ausentes são substituídos pela previsão de 100% do modelo de regressão. Há uma limitação para este método, no entanto. A regressão linear determinística geralmente pode resultar em uma superestimação da proximidade da relação entre os valores.

Estocástico regressão linear compensa a “excesso de precisão” da regressão determinística introduzindo um termo de erro (aleatório) porque duas situações ou variáveis ​​raramente estão perfeitamente conectadas. Isso torna o preenchimento de valores ausentes usando a regressão mais apropriado.

Amostragem de Convés Quente

Essa abordagem envolve a seleção de um valor escolhido aleatoriamente de um assunto com outros valores semelhantes ao assunto sem o valor. Requer que você pesquise assuntos ou indivíduos e preencha os dados ausentes usando seus valores. 

O método de amostragem de convés quente limita a faixa de valores atingíveis. Por exemplo, se sua amostra estiver restrita a uma faixa etária entre 20 e 25 anos, seu resultado estará sempre entre esses números, aumentando a precisão potencial do valor de substituição. Os sujeitos/indivíduos para este método de imputação são escolhidos aleatoriamente.

Amostragem de Convés Frio

Este método envolve a busca de um indivíduo/sujeito que tenha valores semelhantes ou idênticos para todas as outras variáveis/parâmetros no conjunto de dados. Por exemplo, o sujeito pode ter a mesma altura, histórico cultural e idade do sujeito cujos valores estão faltando. Difere da amostragem de convés quente porque os assuntos são sistematicamente escolhidos e reutilizados. 

Embora existam muitas opções e técnicas para lidar com dados ausentes, a prevenção é sempre melhor do que a cura. Os pesquisadores devem implementar rigorosos planejamento de experimentos e estudos. O estudo deve ter uma declaração de missão ou objetivo claro em mente. 

Freqüentemente, os pesquisadores complicam demais um estudo ou falham em planejar contra impedimentos, o que resulta em dados ausentes ou insuficientes. É sempre melhor simplificar o desenho do estudo, colocando um foco preciso na coleta de dados. 

Colete apenas os dados necessários para atingir os objetivos do estudo e nada mais. Você também deve garantir que todos os instrumentos e sensores envolvidos no estudo ou experimentos estejam totalmente funcionais o tempo todo. Considere criar backups regulares de seus dados/respostas à medida que o estudo avança. 

A falta de dados é uma ocorrência comum. Mesmo se você implementar as melhores práticas, ainda poderá sofrer com dados incompletos. Felizmente, existem maneiras de resolver esse problema após o fato.   

 
 
Nahla Davies é um desenvolvedor de software e escritor de tecnologia. Antes de dedicar seu trabalho em tempo integral à redação técnica, ela conseguiu – entre outras coisas intrigantes – atuar como programadora líder em uma organização de branding experimental da Inc. 5,000, cujos clientes incluem Samsung, Time Warner, Netflix e Sony.
 

Carimbo de hora:

Mais de KDnuggetsGenericName