Explicabilidade de dados: a contrapartida da explicabilidade do modelo - DATAVERSITY

Explicabilidade de dados: a contrapartida da explicabilidade do modelo - DATAVERSITY

Nó Fonte: 2658143

Hoje, a IA e o ML estão por toda parte. 

Seja todo mundo brincando com ChatGPT (o mais rápido aplicativo adotado na história) ou uma proposta recente para adicionar uma quarta cor para semáforos para tornar mais segura a transição para carros autônomos, a IA saturou completamente nossas vidas. Embora a IA possa parecer mais acessível do que nunca, a complexidade dos modelos de IA aumentou exponencialmente. 

Os modelos de IA se enquadram nas categorias principais de modelos de caixa preta e caixa branca. Os modelos de caixa preta tomam uma decisão sem explicação, enquanto os modelos de caixa branca fornecem um resultado baseado nas regras que produziram esse resultado. 

À medida que continuamos avançando em direção a um mundo de métodos completos de aprendizagem profunda, a maioria gravita em grande parte em torno de modelos de caixa preta. 

O problema com essa abordagem? Modelos de caixa preta (como aqueles construídos em visão computacional) não podem ser consumidos diretamente. Isso costuma ser chamado de problema da caixa preta. Embora o retreinamento dos modelos de caixa preta possa dar aos usuários um impulso inicial, interpretar o modelo e compreender os resultados do modelo de caixa preta torna-se mais difícil à medida que os modelos aumentam em complexidade.

Uma tática para resolver o enigma da caixa preta é criar um modelo muito personalizado e explicável. 

Mas não é nesta direção que o mundo está se movendo. 

Onde termina a explicabilidade do modelo, começa a explicabilidade dos dados

A explicabilidade é crítica porque melhora a transparência, a precisão e a justiça do modelo e também pode aumentar a confiança na IA. Embora a explicabilidade do modelo seja uma abordagem convencional, surge agora também a necessidade de um novo tipo: a explicabilidade dos dados.

Explicabilidade do modelo significa compreender o algoritmo, a fim de compreender o resultado final. Por exemplo, se um modelo utilizado numa unidade oncológica for concebido para testar se um tumor é cancerígeno, um prestador de cuidados de saúde deve compreender as variáveis ​​que criam os resultados finais. Embora isso pareça ótimo em teoria, a explicabilidade do modelo não resolve exatamente o problema da caixa preta. 

À medida que os modelos se tornam cada vez mais complexos, a maioria dos profissionais não conseguirá identificar as transformações e interpretar os cálculos nas camadas internas do modelo. Eles dependem principalmente do que podem controlar, ou seja, dos conjuntos de dados de treinamento e do que observam, dos resultados e das medidas de previsão.  

Vamos usar o exemplo de um cientista de dados construindo um modelo para detectar fotos de canecas de café a partir de milhares de fotografias – mas o modelo começa a detectar também imagens de copos e canecas de cerveja, por exemplo. Embora as canecas de vidro e de cerveja possam ter alguma semelhança com as canecas de café, existem diferenças distintas, como materiais típicos, cor, opacidade e proporções estruturais.

Para que o modelo detecte canecas de café com maior confiabilidade, o cientista de dados deve ter respostas para perguntas como:

  • Que imagens a modelo escolheu em vez de canecas de café? 
  • O modelo falhou porque não forneci exemplos suficientes ou corretos de canecas de café?
  • Esse modelo é bom o suficiente para o que eu estava tentando realizar?
  • Preciso desafiar minha visão do modelo?
  • O que posso determinar de forma conclusiva que está causando a falha do modelo? 
  • Devo gerar novas suposições do modelo?
  • Acabei de escolher o modelo errado para o trabalho, para começar?

Como você pode ver, é altamente improvável fornecer esse tipo de insight, compreensão e explicabilidade do modelo sempre que há um problema.

Explicabilidade dos dados é compreender o dados, usado para treinamento e entrada em um modelo, a fim de entender como o resultado final de um modelo é alcançado. À medida que os algoritmos de ML se tornam cada vez mais complexos, mas mais amplamente utilizados em profissões e indústrias, a explicabilidade dos dados servirá como a chave para desbloquear e resolver rapidamente problemas comuns, como o nosso exemplo da caneca de café.

Aumentando a justiça e a transparência no ML com explicabilidade dos dados

A justiça nos modelos de ML é um tema quente, que pode se tornar ainda mais quente com a aplicação da explicabilidade dos dados.

Por que o burburinho? O preconceito na IA pode criar resultados preconceituosos para um grupo. Um dos casos mais bem documentados disso são os preconceitos em casos de uso racial. Vejamos um exemplo. 

Digamos que uma grande e conhecida plataforma de consumo esteja contratando para um novo cargo de diretor de marketing. Para lidar com a massa de currículos recebidos diariamente, o departamento de RH implementa um modelo de IA/ML para agilizar o processo de candidatura e recrutamento, selecionando características-chave ou candidatos qualificados. 

Para realizar esta tarefa e discernir e segmentar cada currículo, o modelo fará isso dando sentido às principais características dominantes. Infelizmente, isso tb significa que o modelo também poderia detectar implicitamente preconceitos raciais gerais nos candidatos. Como exatamente isso aconteceria? Se um grupo de candidatos incluir uma percentagem menor de uma raça, a máquina pensará que a organização prefere membros de uma raça diferente ou do conjunto de dados dominante.

Se um modelo falhar, mesmo que não seja intencional, a falha deverá ser resolvida pela empresa. Essencialmente, quem quer que tenha implementado o modelo deve ser capaz de defender a sua utilização.

No caso de contratação e preconceito racial, o defensor teria que ser capaz de explicar a um público irritado e/ou a um grupo de aplicativos o uso de conjuntos de dados para treinar o modelo, os resultados iniciais bem-sucedidos do modelo baseado nesse treinamento, o fracasso do o modelo a ser abordado em um caso secundário e como isso levou a um desequilíbrio de dados não intencional que acabou criando um processo de filtragem racialmente tendencioso.

Para a maioria, esse tipo de detalhe básico sobre IA, conjuntos de dados de desequilíbrio, treinamento de modelo e eventual falha por meio da supervisão de dados não será bem recebido ou mesmo compreendido. Mas o que será entendido e permanecerá nesta história? A empresa XYZ pratica preconceito racial nas contratações. 

A moral deste exemplo tão comum é que erros não intencionais cometidos por um modelo muito inteligente acontecem e podem impactar negativamente os seres humanos e ter consequências terríveis. 

Aonde a explicabilidade dos dados nos leva

Em vez de traduzir os resultados através da compreensão de um modelo complexo de aprendizagem automática, a explicabilidade dos dados consiste em utilizar os dados para explicar previsões e falhas.

A explicabilidade dos dados é então uma combinação de ver os dados de teste e entender o que um modelo captará desses dados. Isso inclui a compreensão de amostras de dados sub-representadas, amostras sobre-representadas (como no exemplo de contratação) e a transparência da detecção de um modelo para compreender com precisão as previsões e previsões erradas.

Esta compreensão da explicabilidade dos dados não só melhorará a precisão e a imparcialidade dos modelos, mas também ajudará os modelos a acelerar mais rapidamente.

À medida que continuamos a contar e a incorporar programas complexos de IA e ML na nossa vida quotidiana, resolver o problema da caixa negra torna-se crítico, especialmente no caso de falhas e previsões erradas. 

Embora a explicabilidade do modelo sempre tenha o seu lugar, ela requer outra camada. Precisamos de explicabilidade dos dados, pois a compreensão do que um modelo está vendo e lendo nunca será coberta pela explicabilidade clássica do modelo.

Carimbo de hora:

Mais de DATAVERSIDADE