Com o surgimento de novos avanços e aplicações em modelos de aprendizagem automática e inteligência artificial, incluindo IA generativa, redes adversárias generativas, visão computacional e transformadores, muitas empresas procuram enfrentar os seus desafios de dados mais prementes do mundo real utilizando ambos os tipos de dados sintéticos: estruturado e não estruturado. Os tipos de dados sintéticos estruturados são quantitativos e incluem dados tabulares, como números ou valores, enquanto os tipos de dados sintéticos não estruturados são qualitativos e incluem texto, imagens e vídeo. Os líderes empresariais e cientistas de dados de vários setores enfatizam a necessidade de nova síntese de dados para resolver lacunas de dados, proteger informações confidenciais e melhorar a velocidade de lançamento no mercado. Eles já estão identificando e explorando vários casos de uso reais para dados sintéticos, como:
- Geração de dados tabulares sintéticos para aumentar o tamanho da amostra e casos extremos. Você pode combinar esses dados com conjuntos de dados reais para melhorar o treinamento do modelo de IA e a precisão preditiva.
- Criação de dados de teste sintéticos para agilizar testes, otimização e validação de novos aplicativos e recursos.
- Explorar cenários hipotéticos ou novos eventos de negócios usando dados sintéticos sintetizados a partir de simulações baseadas em agentes.
- Uso de dados sintéticos para evitar a exposição de dados confidenciais em algoritmos de aprendizado de máquina.
- Compartilhar e monetizar uma réplica sintética de alta qualidade e protegida pela privacidade com partes interessadas internas ou parceiros de negócios externos.
Dito isto, a síntese de dados oferece mais proteção contra a privacidade de dados tradicionais e técnicas de anonimato de dados (pense em mascaramento), ao mesmo tempo que faz um trabalho melhor de preservação da utilidade dos dados. No entanto, ainda existe falta de confiança entre os líderes empresariais. Para construir essa confiança e impulsionar a ampla adoção, os fornecedores de ferramentas sintéticas de geração de dados precisarão abordar duas questões críticas que muitos líderes empresariais fazem: Os dados sintéticos exporão a minha empresa a riscos adicionais de privacidade de dados? Com que precisão os dados sintéticos refletem meus dados existentes?
Felizmente, já existem práticas recomendadas para ajudar as empresas a avaliar estas questões e, esperançosamente, a construir a confiança necessária nos dados sintéticos para se tornarem mais competitivas nos mercados atuais em constante mudança. Vamos dar uma olhada.
Garantindo a privacidade dos dados sintéticos
Embora sejam considerados dados artificiais ou “dados falsos” porque são gerados por computador e não criados por eventos reais (como uma compra de um cliente, um login na Internet ou um diagnóstico de um paciente), os dados sintéticos ainda podem revelar informações de identificação pessoal (PII) quando usados como dados de treinamento para modelos de IA. Por exemplo, se uma empresa prioriza a precisão na geração de dados sintéticos, o resultado resultante pode incluir inadvertidamente muitos atributos pessoalmente identificáveis, aumentando assim a exposição da empresa ao risco de privacidade sem saber. Além disso, à medida que as técnicas de modelagem se tornam cada vez mais sofisticadas na ciência de dados, incluindo aprendizagem profunda e modelos preditivos e generativos, as empresas e os fornecedores devem trabalhar diligentemente para evitar conexões não intencionais que possam vazar a identidade de uma pessoa e expô-la a ataques de terceiros.
Felizmente, as empresas interessadas em dados sintéticos podem tomar medidas para reduzir o risco de privacidade:
Mantenha seus dados onde estão
Embora muitas empresas estejam a migrar as suas aplicações de software existentes para a nuvem para reduzir custos, melhorar o desempenho e a escalabilidade, as implementações no local continuam a desempenhar um papel fundamental no aumento da privacidade e da proteção. Isto é parcialmente verdadeiro para dados sintéticos. Ao lidar com dados totalmente sintéticos (dados gerados sem dados existentes para treinamento de modelo) ou dados sintéticos que não contêm informações confidenciais ou PII, há um risco mínimo associado ao uso de um método de implantação de nuvem pública. No entanto, as empresas devem considerar implementações locais quando os seus dados sintéticos dependem de dados confidenciais existentes. Embora provedores de nuvem terceirizados ofereçam proteções robustas de segurança e privacidade integradas, o envio e o armazenamento de dados confidenciais de PII de clientes nessas nuvens podem expor sua organização a riscos potenciais e podem ser bloqueados por sua equipe de privacidade.
Tenha controle e proteção robusta
Nem todos os casos de uso de dados sintéticos exigem privacidade, mas alguns sim. Portanto, os líderes de risco, segurança e conformidade devem implementar um mecanismo para controlar o nível desejado de risco de privacidade durante o processo de geração de dados sintéticos. A “privacidade diferencial” é um desses mecanismos, permitindo que cientistas de dados e equipes de risco gerenciem o nível desejado de privacidade (normalmente dentro de uma faixa épsilon de 1 a 10, com 1 representando a privacidade mais alta). Este método mascara a contribuição de qualquer indivíduo, tornando impossível inferir informações específicas sobre uma pessoa, incluindo se a sua informação foi utilizada. Ele identifica automaticamente pontos de dados individuais vulneráveis e introduz “ruído” para ocultar suas informações específicas. Embora a adição de ruído reduza ligeiramente a precisão da saída (este é o “custo” da privacidade diferencial), ela não compromete a utilidade ou a qualidade dos dados em comparação com as técnicas tradicionais de mascaramento de dados. Em outras palavras, um conjunto de dados sintético diferencialmente privado ainda reflete as propriedades estatísticas do seu conjunto de dados real. Além disso, há benefícios no uso de técnicas de privacidade diferenciada, incluindo proteção robusta de dados contra possíveis ataques à privacidade, garantias de privacidade comprováveis em relação ao risco cumulativo de divulgações sucessivas de dados e transparência de dados, já que não há necessidade de manter em segredo a computação ou os parâmetros privados diferenciais.
Tenha insights sobre métricas relacionadas à privacidade
Quando a privacidade diferencial não é uma opção, os usuários empresariais devem manter uma visão clara das métricas relacionadas à privacidade, para ajudá-los a compreender a extensão de sua exposição à privacidade. Aqui estão duas métricas comuns que, embora não sejam abrangentes, servem como uma base sólida:
- Pontuação de vazamento: esta pontuação mede a fração de linhas no conjunto de dados sintético que são idênticas ao conjunto de dados original. Embora um conjunto de dados sintético possa atingir alta precisão, ele pode comprometer a privacidade ao incluir muitos dados originais. O vazamento de dados ocorre quando os dados originais ou reais contêm informações sobre o alvo, mas esses dados não estarão acessíveis quando o modelo de IA for usado para previsão ou análise.
- Pontuação de proximidade: A proximidade é determinada calculando a distância entre os dados originais e os conjuntos de dados sintéticos. Uma distância menor indica um risco maior de privacidade porque facilita o isolamento de determinadas linhas dos dados tabulares sintéticos.
Avaliando a qualidade dos dados sintéticos
A adoção em toda a empresa também exige que os líderes empresariais e os cientistas de dados tenham confiança na qualidade da produção de dados sintéticos. Especificamente, eles devem compreender de forma rápida e fácil até que ponto os dados sintéticos mantêm as propriedades estatísticas do seu modelo de dados existente. Embora alguns casos de uso justifiquem dados sintéticos de menor fidelidade, como dados ilustrativos para a criação de demonstrações realistas de produtos, ativos de treinamento interno ou determinados cenários de treinamento de modelos de IA, outros casos de uso exigem um alto grau de fidelidade, como ao sintetizar dados de pacientes na área da saúde. Neste último caso de utilização, como uma empresa de cuidados de saúde pode utilizar o resultado sintético para identificar novos insights de pacientes que informam a tomada de decisões a jusante, os líderes empresariais devem garantir que os dados sintéticos refletem com precisão as condições do seu negócio real.
Vejamos mais de perto a fidelidade e outras métricas relacionadas à qualidade:
Fidelidade
Uma métrica importante é a “fidelidade”. Avalia a qualidade dos dados sintéticos em termos da sua semelhança com os dados reais e o modelo de dados. As empresas devem obter informações não apenas sobre as distribuições das colunas, mas também sobre as relações entre outras colunas, tanto de um para um (univariada) como de um para muitos (multivariada). Compreender este último é crucial devido à complexidade e ao tamanho da maioria das tabelas de dados existentes. Felizmente, as redes neurais e os modelos generativos de IA mais recentes são excelentes na captura dessas relações intrincadas em tabelas de banco de dados e dados de séries temporais. As métricas de fidelidade são mostradas por meio de gráficos de barras e tabelas de correlação, que, embora potencialmente extensas, oferecem informações valiosas. Se você ainda não tem acesso à análise de fidelidade, pode começar usando pacotes Python de código aberto, como Métricas SD.
Utilidade
Os modelos de IA requerem dados suficientes para um treinamento eficaz e a obtenção de conjuntos de dados reais pode ser demorada. Os dados sintéticos fornecem uma alternativa mais rápida para treinar modelos de aprendizado de máquina. Portanto, é valioso compreender a utilidade dos dados sintéticos no treinamento de modelos de IA antes de compartilhá-los com as equipes apropriadas. Essencialmente, esta métrica mede a precisão preditiva relativa de um modelo de aprendizado de máquina quando treinado em dados reais em comparação com dados sintéticos.
justiça
Outra métrica importante é a “justiça”, um tema que ganha destaque devido aos potenciais preconceitos presentes nos conjuntos de dados recolhidos pelas empresas. Se o conjunto de dados existente apresentar viés, os dados sintéticos também serão tendenciosos. Obter informações sobre a extensão deste preconceito pode ajudar as empresas a reconhecê-lo e potencialmente corrigi-lo. Embora não seja tão predominante nas soluções de dados sintéticos atuais e não seja tão crítico quanto a privacidade, a fidelidade ou a utilidade, compreender o preconceito nos seus dados sintéticos ajudará as empresas a tomar decisões informadas.
Como começar com dados sintéticos em watsonx.ai
Os construtores de IA e cientistas de dados podem gerar dados tabulares sintéticos importando dados de um banco de dados, fazendo upload de um arquivo ou criando um esquema de dados customizado no IBM® watsonx.ai™. Este modelo baseado em estatísticas pode ser usado para gerar dados para ajudar a melhorar a precisão preditiva dos modelos de treinamento de IA por meio de casos extremos e amostras maiores. Esses dados também podem ser usados para ajudar a aumentar o realismo das demonstrações dos clientes e dos materiais de treinamento dos funcionários.
Watsonx.ai é um estúdio de IA de próxima geração pronto para empresas para aprendizado de máquina e IA generativa, alimentado por modelos básicos. Com o estúdio watsonx.ai, os criadores de IA, incluindo cientistas de dados, desenvolvedores de aplicativos e analistas de negócios, podem treinar, validar, ajustar e implantar tanto o aprendizado de máquina tradicional quanto novos recursos generativos de IA. Watsonx.ai foi projetado para facilitar a colaboração e escalabilidade no desenvolvimento de aplicativos de IA e pode ser implantado em ambientes de nuvem híbrida.
Confira nosso serviço de gerador de dados sintéticos em watsonx.ai Pelos dois acessando nosso teste gratuito or agendando uma chamada de 30 minutos com um dos nossos watsonx.ai especialistas do produto para uma visita guiada.
Explore os benefícios do watsonx.ai
Desbloqueie seu teste gratuito hoje
Mais de Dados e Análise
Boletins informativos da IBM
Receba nossos boletins informativos e atualizações de tópicos que oferecem as mais recentes lideranças inovadoras e insights sobre tendências emergentes.
Inscreva-se agora
Mais boletins informativos
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/
- :tem
- :é
- :não
- :onde
- $UP
- 1
- 10
- 17
- 2020
- 2023
- 25
- 28
- 29
- 30
- 300
- 31
- 32
- 40
- 400
- 7
- 72
- 8
- 9
- a
- Sobre
- acelerado
- Acesso
- acessibilidade
- acessível
- precisão
- preciso
- exatamente
- Alcançar
- em
- real
- acrescentando
- Adicional
- Adicionalmente
- endereço
- adotar
- Adoção
- avanços
- adversarial
- Publicidade
- Depois de
- contra
- AI
- Adoção de IA
- Modelos de IA
- Treinamento de IA
- casos de uso ai
- algoritmos
- Todos os Produtos
- permite
- já
- tb
- alternativa
- Apesar
- Amazon
- Amazon RDS
- entre
- amp
- an
- análise
- Analistas
- analítica
- e
- qualquer
- Aplicação
- Desenvolvimento de Aplicações
- aplicações
- apropriado
- SOMOS
- artigo
- artificial
- inteligência artificial
- Inteligência artificial (AI)
- AS
- perguntar
- avalia
- Ativos
- associado
- At
- Ataques
- atributos
- público
- AGOSTO
- Agosto de 2
- autor
- automaticamente
- disponível
- em caminho duplo
- Barra
- baseado
- BE
- Porque
- tornam-se
- antes
- Benefícios
- MELHOR
- melhores práticas
- Melhor
- entre
- viés
- tendencioso
- vieses
- bloqueado
- Blog
- Azul
- ambos
- trazer
- amplo
- construir
- ganhar confiança
- construtores
- Prédio
- construídas em
- negócio
- Líderes de negócios
- negócios
- mas a
- botão
- by
- cálculo
- CAN
- capacidades
- capturados
- Capturar
- carbono
- cartão
- Cartões
- casas
- casos
- CAT
- Categoria
- certo
- desafios
- verificar
- círculos
- classe
- cliente
- de perto
- Na nuvem
- código
- colaboração
- cor
- Coluna
- colunas
- combinar
- comum
- comunidade
- Empresas
- Empresa
- Empresa
- comparado
- competitivo
- complexidade
- compliance
- compreender
- compreensivo
- compromisso
- Comprometido
- computação
- computador
- Visão de Computador
- gerado por computador
- condições
- confiança
- Coneções
- Considerar
- considerado
- Contacto
- Recipiente
- contém
- conteúdo
- continuar
- continua
- contribuição
- ao controle
- correta
- Correlação
- Custo
- economia de custos
- poderia
- criado
- Criar
- crítico
- crucial
- APF
- personalizadas
- cliente
- dados do cliente
- Clientes
- diariamente
- transações diárias
- dados,
- Vazamento de informações
- Os pontos de dados
- privacidade de dados
- protecção de dados
- qualidade de dados
- ciência de dados
- data warehouse
- banco de dados
- bases de dados
- conjuntos de dados
- Data
- lidar
- décadas
- Tomada de Decisão
- decisões
- profundo
- deep learning
- Padrão
- definições
- Grau
- entregar
- Demos
- dependências
- implantar
- implantado
- desenvolvimento
- Implantações
- descrição
- projetado
- desejado
- determinado
- desenvolvedores
- Desenvolvimento
- diagnóstico
- diligentemente
- diretamente
- distância
- distribuições
- do
- documento
- parece
- fazer
- distância
- dois
- durante
- cada
- facilidade
- mais fácil
- facilmente
- fácil
- economia
- borda
- Eficaz
- ou
- emergência
- emergente
- enfatizar
- Empregado
- permitir
- permitindo
- aumentar
- aprimorando
- garantir
- garante
- assegurando
- Entrar
- empresas
- Todo
- ambientes
- essencialmente
- Éter (ETH)
- avaliar
- Mesmo
- eventos
- SEMPRE
- em constante mudança
- evolução
- Excel
- Excitação
- exposições
- existente
- existe
- saída
- a acelerar
- Explorando
- Exposição
- extensão
- externo
- facilitar
- falso
- RÁPIDO
- mais rápido
- Funcionalidades
- sentir
- fidelidade
- Envie o
- seguir
- seguinte
- fontes
- Escolha
- forçando
- Felizmente
- Foundation
- fração
- enquadramentos
- Gratuito
- teste grátis
- da
- totalmente
- Além disso
- Ganho
- ganhou
- ganhando
- lacunas
- gerar
- gerado
- gerando
- geração
- generativo
- redes adversárias geradoras
- IA generativa
- gerador
- ter
- gráficos
- aperto
- Grade
- Cresça:
- garantias
- dirigido
- tinha
- Ter
- Título
- saúde
- altura
- ajudar
- SUA PARTICIPAÇÃO FAZ A DIFERENÇA
- Alta
- alta qualidade
- superior
- mais
- Esperançosamente
- Como funciona o dobrador de carta de canal
- Contudo
- http
- HTTPS
- HÍBRIDO
- Nuvem híbrida
- IBM
- ICO
- ÍCONE
- idêntico
- identifica
- identificar
- identificar
- Identidade
- if
- imagem
- imagens
- imaginação
- imenso
- Impacto
- executar
- importante
- importador
- impossível
- melhorar
- melhorado
- in
- Em outra
- inadvertidamente
- incluir
- inclui
- Incluindo
- Crescimento
- aumentou
- aumentando
- cada vez mais
- índice
- indicam
- Individual
- indústrias
- informar
- INFORMAÇÕES
- informado
- e inovações
- inputs
- introspecção
- insights
- instância
- Inteligência
- interessado
- interno
- Internet
- para dentro
- intricado
- Introduz
- IT
- iteração
- ESTÁ
- se
- Trabalho
- jpg
- Guarda
- Chave
- Falta
- atraso
- grande
- Maior
- mais recente
- líderes
- Liderança
- vazar
- aprendizagem
- mínimo
- Nível
- aproveitando
- como
- Line
- local
- local
- entrar
- olhar
- diminuir
- máquina
- aprendizado de máquina
- Corrente principal
- a manter
- mantém
- fazer
- FAZ
- Fazendo
- gerencia
- muitos
- mercado
- fatia de mercado
- Mercados
- Máscaras
- materiais
- maturidade
- max-width
- Posso..
- significa
- medidas
- mecanismo
- método
- métrico
- Métrica
- migrando
- minutos
- mínimo
- minutos
- Móvel Esteira
- modelo
- modelagem
- modelos
- mais
- a maioria
- muito
- devo
- my
- Navegação
- você merece...
- redes
- Neural
- redes neurais
- Novo
- newsletters
- próxima geração
- não
- Ruído
- nada
- Novembro
- agora
- números
- obtendo
- of
- WOW!
- oferecer
- Oferece
- on
- ONE
- só
- aberto
- open source
- Otimismo
- otimização
- otimizado
- Opção
- Opções
- or
- organização
- organizações
- original
- Outros
- A Nossa
- Fora
- saída
- pacotes
- página
- parâmetros
- particular
- Parceiros
- paciente
- dados do paciente
- atuação
- pessoa
- Pessoalmente
- PHP
- Pii
- essencial
- Lugar
- platão
- Inteligência de Dados Platão
- PlatãoData
- Jogar
- desempenhado
- plug-in
- pontos
- Privacidade
- Popular
- popularidade
- posição
- Publique
- potencial
- potencialmente
- alimentado
- práticas
- predição
- preditivo
- presente
- preservando
- premente
- prevalecente
- evitar
- primário
- prioriza
- política de privacidade
- Técnicas de privacidade
- privado
- processo
- em processamento
- Produto
- Progresso
- proeminência
- Propriedades
- proteger
- proteção
- demonstrável
- fornecedores
- fornece
- público
- nuvem pública
- compra
- Python
- qualitativo
- qualidade
- quantitativo
- Trimestre
- Frequentes
- Links
- rapidamente
- alcance
- rápido
- em vez
- Leitura
- reais
- mundo real
- realista
- recentemente
- reconhecer
- Vermelho
- reduzir
- reduz
- refletir
- reflete
- em relação a
- Relacionamentos
- relativo
- Releases
- confiabilidade
- depender
- Renascimento
- responder
- representando
- requerer
- exige
- pesquisadores
- responsivo
- resultando
- revelar
- receita
- Risco
- riscos
- robôs
- uma conta de despesas robusta
- Tipo
- Execute
- proteções
- Dito
- Poupança
- AMPLIAR
- cenários
- Ciência
- cientistas
- Ponto
- Peneira
- Scripts
- Segredo
- seguro
- segurança
- Vejo
- Buscar
- busca
- visto
- envio
- sensível
- seo
- servir
- serviço
- conjunto
- vários
- Partilhar
- compartilhando
- rede de apoio social
- mostrando
- Vista
- periodo
- local
- Tamanho
- tamanhos
- pequeno
- menor
- Software
- sólido
- solução
- Soluções
- alguns
- algo
- sofisticado
- fonte
- especialistas
- específico
- especificamente
- velocidade
- Patrocinado
- quadrados
- partes interessadas
- começo
- começado
- estatístico
- Passos
- Ainda
- estruturada
- estudo
- Inscreva-se
- tal
- suficiente
- Vistorias
- SVG
- síntese
- sintético
- dados sintéticos
- sistemas
- Tire
- Converse
- Target
- tarefas
- Profissionais
- equipes
- técnicas
- condições
- terciário
- teste
- ensaio
- texto
- do que
- que
- A
- o mundo
- deles
- Eles
- tema
- então
- Lá.
- assim
- assim sendo
- Este
- deles
- think
- De terceiros
- isto
- pensamento
- liderança de pensamento
- Através da
- tempo
- demorado
- Título
- para
- hoje
- juntos
- também
- ferramentas
- topo
- tópico
- tradicional
- Trem
- treinado
- Training
- transacional
- Transações
- transformadora
- transformado
- transformadores
- Transparência
- transparente
- Tendências
- julgamento
- trilhões
- verdadeiro
- Confiança
- dois
- tipo
- tipos
- tipicamente
- passando
- compreender
- compreensão
- Atualizações
- Upload
- URL
- usar
- caso de uso
- usava
- usuários
- utilização
- utilidade
- VALIDAR
- validação
- Valioso
- Valores
- variedade
- vário
- fornecedores
- Vídeo
- visão
- vmware
- Vulnerável
- W
- Armazém
- Garantia
- foi
- we
- quando
- se
- qual
- enquanto
- mais largo
- precisarão
- de
- dentro
- sem
- WordPress
- palavras
- Atividades:
- trabalhar
- mundo
- do mundo
- escrito
- anos
- Você
- investimentos
- zefirnet