Geração de dados sintéticos: construindo confiança garantindo privacidade e qualidade - Blog da IBM

Republicado por Platão

seguidores: 0

Com o surgimento de novos avanços e aplicações em modelos de aprendizagem automática e inteligência artificial, incluindo IA generativa, redes adversárias generativas, visão computacional e transformadores, muitas empresas procuram enfrentar os seus desafios de dados mais prementes do mundo real utilizando ambos os tipos de dados sintéticos: estruturado e não estruturado. Os tipos de dados sintéticos estruturados são quantitativos e incluem dados tabulares, como números ou valores, enquanto os tipos de dados sintéticos não estruturados são qualitativos e incluem texto, imagens e vídeo. Os líderes empresariais e cientistas de dados de vários setores enfatizam a necessidade de nova síntese de dados para resolver lacunas de dados, proteger informações confidenciais e melhorar a velocidade de lançamento no mercado. Eles já estão identificando e explorando vários casos de uso reais para dados sintéticos, como:

Geração de dados tabulares sintéticos para aumentar o tamanho da amostra e casos extremos. Você pode combinar esses dados com conjuntos de dados reais para melhorar o treinamento do modelo de IA e a precisão preditiva.
Criação de dados de teste sintéticos para agilizar testes, otimização e validação de novos aplicativos e recursos.
Explorar cenários hipotéticos ou novos eventos de negócios usando dados sintéticos sintetizados a partir de simulações baseadas em agentes.
Uso de dados sintéticos para evitar a exposição de dados confidenciais em algoritmos de aprendizado de máquina.
Compartilhar e monetizar uma réplica sintética de alta qualidade e protegida pela privacidade com partes interessadas internas ou parceiros de negócios externos.

Dito isto, a síntese de dados oferece mais proteção contra a privacidade de dados tradicionais e técnicas de anonimato de dados (pense em mascaramento), ao mesmo tempo que faz um trabalho melhor de preservação da utilidade dos dados. No entanto, ainda existe falta de confiança entre os líderes empresariais. Para construir essa confiança e impulsionar a ampla adoção, os fornecedores de ferramentas sintéticas de geração de dados precisarão abordar duas questões críticas que muitos líderes empresariais fazem: Os dados sintéticos exporão a minha empresa a riscos adicionais de privacidade de dados? Com que precisão os dados sintéticos refletem meus dados existentes?

Felizmente, já existem práticas recomendadas para ajudar as empresas a avaliar estas questões e, esperançosamente, a construir a confiança necessária nos dados sintéticos para se tornarem mais competitivas nos mercados atuais em constante mudança. Vamos dar uma olhada.

Garantindo a privacidade dos dados sintéticos

Embora sejam considerados dados artificiais ou “dados falsos” porque são gerados por computador e não criados por eventos reais (como uma compra de um cliente, um login na Internet ou um diagnóstico de um paciente), os dados sintéticos ainda podem revelar informações de identificação pessoal (PII) quando usados como dados de treinamento para modelos de IA. Por exemplo, se uma empresa prioriza a precisão na geração de dados sintéticos, o resultado resultante pode incluir inadvertidamente muitos atributos pessoalmente identificáveis, aumentando assim a exposição da empresa ao risco de privacidade sem saber. Além disso, à medida que as técnicas de modelagem se tornam cada vez mais sofisticadas na ciência de dados, incluindo aprendizagem profunda e modelos preditivos e generativos, as empresas e os fornecedores devem trabalhar diligentemente para evitar conexões não intencionais que possam vazar a identidade de uma pessoa e expô-la a ataques de terceiros.

Felizmente, as empresas interessadas em dados sintéticos podem tomar medidas para reduzir o risco de privacidade:

Mantenha seus dados onde estão

Embora muitas empresas estejam a migrar as suas aplicações de software existentes para a nuvem para reduzir custos, melhorar o desempenho e a escalabilidade, as implementações no local continuam a desempenhar um papel fundamental no aumento da privacidade e da proteção. Isto é parcialmente verdadeiro para dados sintéticos. Ao lidar com dados totalmente sintéticos (dados gerados sem dados existentes para treinamento de modelo) ou dados sintéticos que não contêm informações confidenciais ou PII, há um risco mínimo associado ao uso de um método de implantação de nuvem pública. No entanto, as empresas devem considerar implementações locais quando os seus dados sintéticos dependem de dados confidenciais existentes. Embora provedores de nuvem terceirizados ofereçam proteções robustas de segurança e privacidade integradas, o envio e o armazenamento de dados confidenciais de PII de clientes nessas nuvens podem expor sua organização a riscos potenciais e podem ser bloqueados por sua equipe de privacidade.

Tenha controle e proteção robusta

Nem todos os casos de uso de dados sintéticos exigem privacidade, mas alguns sim. Portanto, os líderes de risco, segurança e conformidade devem implementar um mecanismo para controlar o nível desejado de risco de privacidade durante o processo de geração de dados sintéticos. A “privacidade diferencial” é um desses mecanismos, permitindo que cientistas de dados e equipes de risco gerenciem o nível desejado de privacidade (normalmente dentro de uma faixa épsilon de 1 a 10, com 1 representando a privacidade mais alta). Este método mascara a contribuição de qualquer indivíduo, tornando impossível inferir informações específicas sobre uma pessoa, incluindo se a sua informação foi utilizada. Ele identifica automaticamente pontos de dados individuais vulneráveis e introduz “ruído” para ocultar suas informações específicas. Embora a adição de ruído reduza ligeiramente a precisão da saída (este é o “custo” da privacidade diferencial), ela não compromete a utilidade ou a qualidade dos dados em comparação com as técnicas tradicionais de mascaramento de dados. Em outras palavras, um conjunto de dados sintético diferencialmente privado ainda reflete as propriedades estatísticas do seu conjunto de dados real. Além disso, há benefícios no uso de técnicas de privacidade diferenciada, incluindo proteção robusta de dados contra possíveis ataques à privacidade, garantias de privacidade comprováveis em relação ao risco cumulativo de divulgações sucessivas de dados e transparência de dados, já que não há necessidade de manter em segredo a computação ou os parâmetros privados diferenciais.

Tenha insights sobre métricas relacionadas à privacidade

Quando a privacidade diferencial não é uma opção, os usuários empresariais devem manter uma visão clara das métricas relacionadas à privacidade, para ajudá-los a compreender a extensão de sua exposição à privacidade. Aqui estão duas métricas comuns que, embora não sejam abrangentes, servem como uma base sólida:

Pontuação de vazamento: esta pontuação mede a fração de linhas no conjunto de dados sintético que são idênticas ao conjunto de dados original. Embora um conjunto de dados sintético possa atingir alta precisão, ele pode comprometer a privacidade ao incluir muitos dados originais. O vazamento de dados ocorre quando os dados originais ou reais contêm informações sobre o alvo, mas esses dados não estarão acessíveis quando o modelo de IA for usado para previsão ou análise.
Pontuação de proximidade: A proximidade é determinada calculando a distância entre os dados originais e os conjuntos de dados sintéticos. Uma distância menor indica um risco maior de privacidade porque facilita o isolamento de determinadas linhas dos dados tabulares sintéticos.

Avaliando a qualidade dos dados sintéticos

A adoção em toda a empresa também exige que os líderes empresariais e os cientistas de dados tenham confiança na qualidade da produção de dados sintéticos. Especificamente, eles devem compreender de forma rápida e fácil até que ponto os dados sintéticos mantêm as propriedades estatísticas do seu modelo de dados existente. Embora alguns casos de uso justifiquem dados sintéticos de menor fidelidade, como dados ilustrativos para a criação de demonstrações realistas de produtos, ativos de treinamento interno ou determinados cenários de treinamento de modelos de IA, outros casos de uso exigem um alto grau de fidelidade, como ao sintetizar dados de pacientes na área da saúde. Neste último caso de utilização, como uma empresa de cuidados de saúde pode utilizar o resultado sintético para identificar novos insights de pacientes que informam a tomada de decisões a jusante, os líderes empresariais devem garantir que os dados sintéticos refletem com precisão as condições do seu negócio real.

Vejamos mais de perto a fidelidade e outras métricas relacionadas à qualidade:

Fidelidade

Uma métrica importante é a “fidelidade”. Avalia a qualidade dos dados sintéticos em termos da sua semelhança com os dados reais e o modelo de dados. As empresas devem obter informações não apenas sobre as distribuições das colunas, mas também sobre as relações entre outras colunas, tanto de um para um (univariada) como de um para muitos (multivariada). Compreender este último é crucial devido à complexidade e ao tamanho da maioria das tabelas de dados existentes. Felizmente, as redes neurais e os modelos generativos de IA mais recentes são excelentes na captura dessas relações intrincadas em tabelas de banco de dados e dados de séries temporais. As métricas de fidelidade são mostradas por meio de gráficos de barras e tabelas de correlação, que, embora potencialmente extensas, oferecem informações valiosas. Se você ainda não tem acesso à análise de fidelidade, pode começar usando pacotes Python de código aberto, como Métricas SD.

Utilidade

Os modelos de IA requerem dados suficientes para um treinamento eficaz e a obtenção de conjuntos de dados reais pode ser demorada. Os dados sintéticos fornecem uma alternativa mais rápida para treinar modelos de aprendizado de máquina. Portanto, é valioso compreender a utilidade dos dados sintéticos no treinamento de modelos de IA antes de compartilhá-los com as equipes apropriadas. Essencialmente, esta métrica mede a precisão preditiva relativa de um modelo de aprendizado de máquina quando treinado em dados reais em comparação com dados sintéticos.

justiça

Outra métrica importante é a “justiça”, um tema que ganha destaque devido aos potenciais preconceitos presentes nos conjuntos de dados recolhidos pelas empresas. Se o conjunto de dados existente apresentar viés, os dados sintéticos também serão tendenciosos. Obter informações sobre a extensão deste preconceito pode ajudar as empresas a reconhecê-lo e potencialmente corrigi-lo. Embora não seja tão predominante nas soluções de dados sintéticos atuais e não seja tão crítico quanto a privacidade, a fidelidade ou a utilidade, compreender o preconceito nos seus dados sintéticos ajudará as empresas a tomar decisões informadas.

Como começar com dados sintéticos em watsonx.ai

Os construtores de IA e cientistas de dados podem gerar dados tabulares sintéticos importando dados de um banco de dados, fazendo upload de um arquivo ou criando um esquema de dados customizado no IBM® watsonx.ai™. Este modelo baseado em estatísticas pode ser usado para gerar dados para ajudar a melhorar a precisão preditiva dos modelos de treinamento de IA por meio de casos extremos e amostras maiores. Esses dados também podem ser usados para ajudar a aumentar o realismo das demonstrações dos clientes e dos materiais de treinamento dos funcionários.

Watsonx.ai é um estúdio de IA de próxima geração pronto para empresas para aprendizado de máquina e IA generativa, alimentado por modelos básicos. Com o estúdio watsonx.ai, os criadores de IA, incluindo cientistas de dados, desenvolvedores de aplicativos e analistas de negócios, podem treinar, validar, ajustar e implantar tanto o aprendizado de máquina tradicional quanto novos recursos generativos de IA. Watsonx.ai foi projetado para facilitar a colaboração e escalabilidade no desenvolvimento de aplicativos de IA e pode ser implantado em ambientes de nuvem híbrida.

Confira nosso serviço de gerador de dados sintéticos em watsonx.ai Pelos dois acessando nosso teste gratuito or agendando uma chamada de 30 minutos com um dos nossos watsonx.ai especialistas do produto para uma visita guiada.

Explore os benefícios do watsonx.ai

Desbloqueie seu teste gratuito hoje

Dados sintéticos em IBM watsonx.ai, gerente de produto

Mais de Dados e Análise

28 de novembro de 2023

IBM Db2 agora está disponível no Amazon RDS

4 min ler - O IBM® Db2® está passando por um renascimento. Sentimos otimismo e entusiasmo quando conversamos com nossos clientes e parceiros de negócios. E vemos isso em nossos números: trimestre após trimestre, o Db2 continua a aumentar a receita e a ganhar participação de mercado. Os clientes confiam no Db2 mais do que nunca para executar seus aplicativos e cargas de trabalho de missão crítica. Essas aplicações dirigem a economia mundial. O Db2 se integra profundamente e garante diretamente o processamento rápido, seguro e preciso de trilhões de transações diárias em finanças…

28 de novembro de 2023

Aproveitando estruturas populares de IA de código aberto para infundir IA em aplicativos IBM Z e IBM LinuxONE

2 min ler - Código aberto e inteligência artificial O software de código aberto teve um impacto significativo no mundo da inteligência artificial (IA) e desempenhou um papel fundamental na sua evolução. A acessibilidade a um público mais amplo, a iteração rápida e o aumento da colaboração entre desenvolvedores, cientistas de dados, pesquisadores e toda a comunidade de IA transformaram a IA e aceleraram sua evolução e maturidade. Código aberto e empresas O código aberto tornou-se popular e ganhou imensa popularidade nos últimos anos. Uma pesquisa O'Reilly de 2020 sobre abertura…

7 de novembro de 2023

IBM e VMware ajudam empresas a adotar IA generativa com watsonx on-premises

4 min ler - A IBM e a VMware estão trabalhando juntas para trazer o IBM watsonx para ambientes locais no VMware® Private AI e no Red Hat® OpenShift®, para ajudar a habilitar recursos de IA generativos rápidos e transparentes. Em 2023, vimos a adoção da IA tornar-se dominante à medida que as empresas procuram impulsionar inovações transformadoras. A IA generativa, em particular, capturou a imaginação das organizações como um meio de gerar novos conteúdos com base numa variedade de inputs. Os casos de uso e tarefas de IA generativa são abrangentes – desde a geração de código até contact centers…

2 de agosto de 2023

Veja o que há de novo no SingleStoreDB com IBM 8.0

3 min ler - Apesar de décadas de progresso em sistemas de banco de dados, os construtores comprometeram pelo menos um dos seguintes itens: velocidade, confiabilidade ou facilidade. Eles têm duas opções: uma, eles poderiam obter um banco de dados de documentos que fosse rápido e fácil, mas que não fosse confiável para aplicações transacionais de missão crítica. Ou dois, eles poderiam contar com um data warehouse em nuvem que seja fácil de configurar, mas que permita apenas análises atrasadas. Mesmo assim, cada solução carece de alguma coisa, forçando os construtores a implantar outros bancos de dados para…

Boletins informativos da IBM

Receba nossos boletins informativos e atualizações de tópicos que oferecem as mais recentes lideranças inovadoras e insights sobre tendências emergentes.

Inscreva-se agora

Mais boletins informativos

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/

Carimbo de hora: 29 de novembro de 2023

Carimbo de hora: 3 de janeiro de 2024