Inicie trabalhos de processamento com apenas alguns cliques usando o Amazon SageMaker Data Wrangler

Nó Fonte: 1600104

Gerenciador de dados do Amazon SageMaker torna mais rápido para cientistas e engenheiros de dados preparar dados para aplicativos de aprendizado de máquina (ML) usando uma interface visual. Anteriormente, quando você criava um fluxo de dados do Data Wrangler, podia escolher diferentes opções de exportação para integrar facilmente esse fluxo de dados em seu pipeline de processamento de dados. O Data Wrangler oferece opções de exportação para Serviço de armazenamento simples da Amazon (Amazon S3), Pipelines SageMaker e Loja de artigos SageMaker, ou como código Python. As opções de exportação criam um notebook Jupyter e exigem que você execute o código para iniciar um trabalho de processamento facilitado por Processamento SageMaker.

Temos o prazer de anunciar o lançamento geral dos nós de destino e o recurso Criar trabalho no Data Wrangler. Esse recurso oferece a capacidade de exportar todas as transformações feitas em um conjunto de dados para um nó de destino com apenas alguns cliques. Isso permite que você crie tarefas de processamento de dados e exporte para o Amazon S3 puramente por meio da interface visual sem precisar gerar, executar ou gerenciar notebooks Jupyter, aprimorando assim a experiência de baixo código. Para demonstrar esse novo recurso, usamos o Conjunto de dados do Titanic e mostre como exportar suas transformações para um nó de destino.

Pré-requisitos

Antes de aprendermos a usar os nós de destino com o Data Wrangler, você já deve entender como acesse e comece a usar o Data Wrangler. Você também precisa saber o que é um fluxo de dados significa com contexto para o Data Wrangler e como criar um importando seus dados das diferentes fontes de dados suportadas pelo Data Wrangler.

Visão geral da solução

Considere o seguinte fluxo de dados chamado example-titanic.flow:

  • Ele importa o conjunto de dados do Titanic três vezes. Você pode ver essas diferentes importações como ramificações separadas no fluxo de dados.
  • Para cada ramificação, aplica um conjunto de transformações e visualizações.
  • Ele une as ramificações em um único nó com todas as transformações e visualizações.

Com esse fluxo, talvez você queira processar e salvar partes de seus dados em uma filial ou local específico.

Nas etapas a seguir, demonstramos como criar nós de destino, exportá-los para o Amazon S3 e criar e iniciar um trabalho de processamento.

Criar um nó de destino

Você pode usar o procedimento a seguir para criar nós de destino e exportá-los para um bucket do S3:

  1. Determine quais partes do arquivo de fluxo (transformações) você deseja salvar.
  2. Escolha o sinal de mais ao lado dos nós que representam as transformações que você deseja exportar. (Se for um nó recolhido, você deve selecionar o ícone de opções (três pontos) para o nó).
  3. Passe o mouse sobre Adicionar destino.
  4. Escolha Amazon S3.
  5. Especifique os campos conforme mostrado na captura de tela a seguir.
  6. Para o segundo nó de junção, siga as mesmas etapas para adicionar o Amazon S3 como destino e especifique os campos.

Você pode repetir essas etapas quantas vezes precisar para quantos nós desejar em seu fluxo de dados. Posteriormente, você escolhe quais nós de destino incluir em seu trabalho de processamento.

Iniciar um trabalho de processamento

Use o procedimento a seguir para criar um trabalho de processamento e escolha o nó de destino para o qual deseja exportar:

  1. No Fluxo de dados guia, escolha Criar emprego.
  2. Escolha Nome do trabalho¸ insira o nome do trabalho de exportação.
  3. Selecione os nós de destino que deseja exportar.
  4. Opcionalmente, especifique o Serviço de gerenciamento de chaves AWS (AWS KMS) chave ARN.

A chave KMS é uma chave criptográfica que você pode usar para proteger seus dados. Para obter mais informações sobre chaves KMS, consulte o Guia do desenvolvedor chave da AWS.

  1. Escolha Em seguida, 2. Configurar trabalho.
  2. Opcionalmente, você pode configurar o trabalho de acordo com suas necessidades, alterando o tipo de instância ou a contagem ou adicionando quaisquer tags para associar ao trabalho.
  3. Escolha Execute para executar o trabalho.

Uma mensagem de sucesso aparece quando o trabalho é criado com sucesso.

Veja os dados finais

Por fim, você pode usar as seguintes etapas para visualizar os dados exportados:

  1. Depois de criar o trabalho, escolha o link fornecido.

Uma nova guia é aberta mostrando o trabalho de processamento no console do SageMaker.

  1. Quando o trabalho estiver concluído, revise os dados exportados no console do Amazon S3.

Você deve ver uma nova pasta com o nome do trabalho que escolheu.

  1. Escolha o nome do trabalho para visualizar um arquivo CSV (ou vários arquivos) com os dados finais.

Perguntas frequentes

Nesta seção, abordamos algumas perguntas frequentes sobre esse novo recurso:

  • O que aconteceu com a guia Exportar? Com esse novo recurso, removemos o Exportações guia do Data Wrangler. Você ainda pode facilitar a funcionalidade de exportação por meio dos notebooks Jupyter gerados pelo Data Wrangler de qualquer nó que você criou no fluxo de dados com as seguintes etapas:
    1. Escolha o sinal de mais ao lado do nó que deseja exportar.
    2. Escolha Exportar para.
    3. Escolha Amazon S3 (via Jupyter Notebook).
    4. Execute o notebook Jupyter.
  • Quantos nós de destino posso incluir em um trabalho? Há um máximo de 10 destinos por tarefa de processamento.
  • Quantos nós de destino posso ter em um arquivo de fluxo? Você pode ter quantos nós de destino quiser.
  • Posso adicionar transformações após meus nós de destino? Não, a ideia é que os nós de destino são nós terminais que não possuem etapas posteriores.
  • Quais são as fontes com suporte que posso usar com os nós de destino? No momento em que este livro foi escrito, oferecemos suporte apenas ao Amazon S3 como fonte de destino. O suporte para mais tipos de origem de destino será adicionado no futuro. Entre em contato se houver um específico que você gostaria de ver.

Resumo

Nesta postagem, demonstramos como usar os nós de destino recém-lançados para criar trabalhos de processamento e salvar seus conjuntos de dados transformados diretamente no Amazon S3 por meio da interface visual do Data Wrangler. Com esse recurso adicional, aprimoramos a experiência de código baixo orientada por ferramentas do Data Wrangler.

Como próximos passos, recomendamos que você experimente o exemplo demonstrado neste post. Se você tiver alguma dúvida ou quiser saber mais, consulte Exportações ou deixe uma pergunta na seção de comentários.


Sobre os autores

Alfonso Austin-Rivera é engenheiro de front-end no Amazon SageMaker Data Wrangler. Ele é apaixonado por criar experiências de usuário intuitivas que despertam alegria. Em seu tempo livre, você pode encontrá-lo lutando contra a gravidade em uma academia de escalada ou ao ar livre pilotando seu drone.

Parsa Shahbodaghi é redator técnico da AWS especializado em aprendizado de máquina e inteligência artificial. Ele escreve a documentação técnica para Amazon SageMaker Data Wrangler e Amazon SageMaker Feature Store. Em seu tempo livre, ele gosta de meditar, ouvir audiolivros, levantar pesos e assistir comédias stand-up. Ele nunca será um comediante de stand-up, mas pelo menos sua mãe o acha engraçado.

Balaji Tummala é um engenheiro de desenvolvimento de software no Amazon SageMaker. Ele ajuda a dar suporte ao Amazon SageMaker Data Wrangler e é apaixonado por criar software de alto desempenho e escalável. Fora do trabalho, ele gosta de ler ficção e jogar vôlei.

Arunprasath Shankar é arquiteto de soluções especialista em inteligência artificial e aprendizado de máquina (AI / ML) da AWS, ajudando clientes globais a dimensionar suas soluções de IA de maneira eficaz e eficiente na nuvem. Em seu tempo livre, Arun gosta de assistir filmes de ficção científica e ouvir música clássica.

Fonte: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Carimbo de hora:

Mais de Blog do AWS Machine Learning