A democratização da ciência de dados e IA: quando qualquer um pode avançar em um campo

A democratização da ciência de dados e IA: quando qualquer um pode avançar em um campo

Nó Fonte: 2599458

“A democratização da ciência de dados” ou a “democratização da IA” são frases populares há muito tempo. “Cientistas de dados cidadãos” vasculham conjuntos de dados de código aberto, encontrando insights valiosos e compartilhando-os com o mundo por um senso individual de curiosidade. E embora isso aconteça, a realidade é que na maioria das vezes estes avanços democratizados não foram feitas por indivíduos aleatórios, mas por profissionais em seu tempo livre. É um tipo de liberdade – não uma análise corporativa que persegue o lucro – mas não verdadeiramente democratizada no sentido de um novato curioso avançar no campo por conta própria.

AI viu muitas tentativas de soluções de baixo código que qualquer pessoa pode usar. Mas trabalhando nesta área há 15 anos, percebi que fazer você mesmo raramente é tão simples. Você pode extrair um conjunto de dados padrão e executar algoritmos padrão nele – certamente. Mas todos os projetos do mundo real dos quais participei foram dolorosos de maneiras complicadas e difíceis. Os dados não se juntam muito bem. Os anotadores não podem concordar. O conjunto de teste é diferente do conjunto de treinamento de uma forma importante e fundamental, mas difícil de detectar. E um dedo abaixo da superfície da maioria dos sistemas de IA amigáveis ​​é uma imensa quantidade de matemática e jargão. Seguindo o caminho mais conhecido, você pode ignorar isso. Mas, partindo por conta própria, ele consegue mostrar sua cara feia e exigir sua paciência e aprendizado. Isso não quer dizer que você não possa aprender sozinho – trabalhei nesta área como profissional por muitos anos enquanto aprendia freneticamente o que estava fazendo – mas sempre ficou aquém de qualquer acessibilidade ampla digna do apelido de “democratizado”.

Até, eu diria, agora. O campo AI Art (por exemplo, Dall-e e Stable Diffusion, onde redes profundas transformam descrições de texto livre em imagens) está repleto de truques fofos – anexando “tendências no ArtStation” para transmitir ao modelo que você não quer um visual feio imagem, mas sim digna de compartilhamento viral. Os artistas – a antítese cultural de nós, matemáticos – estão realizando estudos detalhados sobre como dezenas de nomes de câmeras afetam a qualidade final da imagem. Os amadores estão aprendendo, compartilhando, ensinando e criando criações lindas e desconcertantes.

ChatGPT, em sua busca para encontrar continuações prováveis ​​do que você digitou, revela constantemente novos recursos por meio de um prompt inteligente. Uma das primeiras foi a observação de que “tldr;” induz um resumo de um documento. Entendendo que o algoritmo central nos modelos de linguagem é a previsão de uma continuação provável, fica claro por que essa capacidade existiria. Mas é inteligente encontrá-lo. Embora o ChatGPT tenha muita dificuldade com a matemática, persuadi-lo com “mostre seu trabalho” ou “vamos resolver isso” faz com que ele escreva os estágios intermediários de um cálculo, que ele então realiza enquanto resolve o problema matemático agora com sucesso. Estas e muitas outras capacidades foram descobertas. E embora muitas vezes o descobridor seja um profissional da área, isso não é mais um requisito.

Toneladas de trabalho profissional altamente complexo ainda estão em andamento na IA. Nem todos os problemas podem ser superados com uma sugestão inteligente. E o cálculo necessário para um ChatGPT ou StableDiffusion impede que seja a ferramenta certa para cada problema. Mas há um novo espaço crescendo para trabalhar com esses sistemas de uma forma poderosa e criativa que não exige conhecimentos de programação e uma profunda familiaridade com o campo. Estou animado para ver como isso floresce em organizações onde o potencial da ciência de dados tem sido frequentemente bloqueado por recursos escassos e excessivamente comprometidos. Isso não quer dizer que um novato possa manejar essas tecnologias com segurança em um ambiente comercial – vimos repetidamente quantos danos programas de IA mal planejados podem causar, seja em mascotes de marcas digitais corrompidas pelo racismo ou na amplificação de preconceitos e erros nos dados de treinamento. Mas, no mínimo, surge subitamente esta região do espaço em expansão no campo que exige brincadeira – experimentação, pensamento lateral e compreensão intuitiva do comportamento destes artefactos em oposição à sua construção técnica. Nas estranhas travessuras do ChatGPT e na bizarra e bela arte da Stable Diffusion, finalmente vejo o que chamaria de “democratização” em nosso campo.

Carimbo de hora:

Mais de DATAVERSIDADE