Prepare e analise dados JSON e ORC com o Amazon SageMaker Data Wrangler

Nó Fonte: 1600106

Gerenciador de dados do Amazon SageMaker é uma nova capacidade de Amazon Sage Maker que torna mais rápido para cientistas e engenheiros de dados preparar dados para aplicativos de aprendizado de máquina (ML) por meio de uma interface visual. A preparação de dados é uma etapa crucial do ciclo de vida do ML, e o Data Wrangler fornece uma solução completa para importar, preparar, transformar, caracterizar e analisar dados para ML em uma experiência visual e de baixo código integrada. Ele permite que você se conecte fácil e rapidamente a componentes da AWS, como Serviço de armazenamento simples da Amazon (Amazon S3), Amazona atena, Amazon RedShift e Formação AWS Lake, e fontes externas como Snowflake. O Data Wrangler também oferece suporte a tipos de dados padrão, como CSV e Parquet.

O Data Wrangler agora oferece suporte adicional para coluna de linha otimizada (ORC), JavaScript Object Notation (JSON) e formatos de arquivo JSON Lines (JSONL):

  • ORC – O formato de arquivo ORC fornece uma maneira altamente eficiente de armazenar dados do Hive. Ele foi projetado para superar as limitações dos outros formatos de arquivo Hive. O uso de arquivos ORC melhora o desempenho quando o Hive está lendo, gravando e processando dados. ORC é amplamente utilizado no ecossistema Hadoop.
  • JSON – O formato de arquivo JSON é um formato de intercâmbio de dados leve e comumente usado.
  • JSONL – JSON Lines, também chamado de JSON delimitado por nova linha, é um formato conveniente para armazenar dados estruturados que podem ser processados ​​um registro por vez.

Você pode visualizar dados ORC, JSON e JSONL antes de importar os conjuntos de dados para o Data Wrangler. Depois de importar os dados, você também pode usar um dos transformadores recém-lançados para trabalhar com colunas que contêm cadeias de caracteres ou matrizes JSON comumente encontradas em JSONs aninhados.

Importe e analise dados ORC com o Data Wrangler

A importação de dados ORC no Data Wrangler é fácil e semelhante à importação de arquivos em qualquer outro formato compatível. Navegue até seu arquivo ORC no Amazon S3 e no DETALHES painel, escolha ORC como o tipo de arquivo durante a importação.

Se você é novo no Data Wrangler, revise Introdução ao Data Wrangler. Veja também importação para aprender sobre as várias opções de importação.

Importe e analise dados JSON com Data Wrangler

Agora vamos importar arquivos no formato JSON com o Data Wrangler e trabalhar com colunas que contenham strings ou arrays JSON. Também demonstramos como lidar com JSONs aninhados. Com o Data Wrangler, importar arquivos JSON do Amazon S3 é um processo contínuo. Isso é semelhante à importação de arquivos em qualquer outro formato compatível. Depois de importar os arquivos, você pode visualizar os arquivos JSON conforme mostrado na captura de tela a seguir. Certifique-se de definir o tipo de arquivo como JSON no DETALHES painel.

Em seguida, vamos trabalhar em colunas estruturadas no arquivo JSON importado.

Para lidar com colunas estruturadas em arquivos JSON, o Data Wrangler está introduzindo duas novas transformações: Achatar coluna estruturada e Explodir coluna da matriz, que pode ser encontrado sob o Lidar com coluna estruturada opção no ADICIONAR TRANSFORMAÇÃO painel.

Vamos começar aplicando o Explodir coluna da matriz transformar em uma das colunas em nossos dados importados. Antes de aplicar a transformação, podemos ver a coluna topping é uma matriz de objetos JSON com id e type chaves.

Após aplicarmos a transformação, podemos observar as novas linhas adicionadas como resultado. Cada elemento na matriz agora é uma nova linha no DataFrame resultante.

Agora vamos aplicar o Achatar coluna estruturada transformar no topping_flattened coluna que foi criada como resultado da Explodir coluna da matriz transformação que aplicamos no passo anterior.

Antes de aplicar a transformação, podemos ver as chaves id e type no topping_flattened coluna.

Depois de aplicar a transformação, podemos agora observar as chaves id e type sob a topping_flattened coluna como novas colunas topping_flattened_id e topping_flattened_type, que são criados como resultado da transformação. Você também tem a opção de nivelar apenas chaves específicas inserindo os nomes de chave separados por vírgula para Chaves para achatar. Se deixado em branco, todas as chaves dentro da string ou struct JSON serão simplificadas.

Conclusão

Neste post, demonstramos como importar formatos de arquivo em ORC e ​​JSON facilmente com o Data Wrangler. Também aplicamos as transformações lançadas recentemente que nos permitem transformar qualquer coluna estruturada em dados JSON. Isso torna o trabalho com colunas que contêm strings ou arrays JSON uma experiência perfeita.

Como próximas etapas, recomendamos que você replique os exemplos demonstrados em sua própria interface visual do Data Wrangler. Se você tiver alguma dúvida relacionada ao Data Wrangler, sinta-se à vontade para deixá-la na seção de comentários.


Sobre os autores

Balaji Tummala é um engenheiro de desenvolvimento de software no Amazon SageMaker. Ele ajuda a dar suporte ao Amazon SageMaker Data Wrangler e é apaixonado por criar software de alto desempenho e escalável. Fora do trabalho, ele gosta de ler ficção e jogar vôlei.

Arunprasath Shankar é arquiteto de soluções especialista em inteligência artificial e aprendizado de máquina (AI / ML) da AWS, ajudando clientes globais a dimensionar suas soluções de IA de maneira eficaz e eficiente na nuvem. Em seu tempo livre, Arun gosta de assistir filmes de ficção científica e ouvir música clássica.

Fonte: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Carimbo de hora:

Mais de Blog do AWS Machine Learning