Amazon SageMaker Data Wrangler를 사용하여 클릭 몇 번으로 처리 작업 시작

소스 노드 : 1600104

Amazon SageMaker 데이터 랭글러 데이터 과학자와 엔지니어가 시각적 인터페이스를 사용하여 기계 학습(ML) 애플리케이션용 데이터를 더 빠르게 준비할 수 있습니다. 이전에는 Data Wrangler 데이터 흐름을 생성할 때 다양한 내보내기 옵션을 선택하여 해당 데이터 흐름을 데이터 처리 파이프라인에 쉽게 통합할 수 있었습니다. Data Wrangler는 다음에 대한 내보내기 옵션을 제공합니다. 아마존 단순 스토리지 서비스 (아마존 S3), SageMaker 파이프 라인SageMaker 기능 저장소, 또는 파이썬 코드로. 내보내기 옵션은 Jupyter 노트북을 생성하고 다음을 통해 처리 작업을 시작하려면 코드를 실행해야 합니다. SageMaker 처리.

Data Wrangler의 대상 노드 및 작업 만들기 기능의 일반 릴리스를 발표하게 되어 기쁩니다. 이 기능을 사용하면 몇 번의 클릭만으로 데이터 세트에 수행한 모든 변환을 대상 노드로 내보낼 수 있습니다. 이를 통해 Jupyter 노트북을 생성, 실행 또는 관리할 필요 없이 순수하게 시각적 인터페이스를 통해 데이터 처리 작업을 생성하고 Amazon S3로 내보낼 수 있으므로 로우 코드 환경이 향상됩니다. 이 새로운 기능을 시연하기 위해 타이타닉 데이터 세트 변환을 대상 노드로 내보내는 방법을 보여줍니다.

사전 조건

Data Wrangler에서 대상 노드를 사용하는 방법을 배우기 전에 이미 다음을 이해해야 합니다. Data Wrangler 액세스 및 시작하기. 당신은 또한 알 필요가 데이터 흐름 Data Wrangler에 대한 컨텍스트와 Data Wrangler가 지원하는 다양한 데이터 소스에서 데이터를 가져와 데이터를 생성하는 방법을 의미합니다.

솔루션 개요

이름이 지정된 다음 데이터 흐름을 고려하십시오. example-titanic.flow:

  • Titanic 데이터 세트를 세 번 가져옵니다. 데이터 흐름에서 이러한 서로 다른 가져오기를 별도의 분기로 볼 수 있습니다.
  • 각 분기에 대해 일련의 변환 및 시각화를 적용합니다.
  • 모든 변환 및 시각화를 통해 분기를 단일 노드로 결합합니다.

이 흐름을 사용하면 데이터의 일부를 처리하고 특정 분기 또는 위치에 저장할 수 있습니다.

다음 단계에서는 대상 노드를 생성하고 Amazon S3로 내보내고 처리 작업을 생성 및 시작하는 방법을 보여줍니다.

대상 노드 만들기

다음 절차를 사용하여 대상 노드를 생성하고 S3 버킷으로 내보낼 수 있습니다.

  1. 저장하려는 흐름 파일의 부분(변환)을 결정합니다.
  2. 내보낼 변환을 나타내는 노드 옆에 있는 더하기 기호를 선택합니다. (축소된 노드인 경우 노드에 대한 옵션 아이콘(점 XNUMX개)을 선택해야 합니다.)
  3. 위로 마우스를 목적지 추가.
  4. 왼쪽 메뉴에서 아마존 S3.
  5. 다음 스크린샷과 같이 필드를 지정합니다.
  6. 두 번째 조인 노드의 경우 동일한 단계에 따라 Amazon S3를 대상으로 추가하고 필드를 지정합니다.

데이터 흐름에서 원하는 만큼의 노드에 대해 필요한 만큼 이러한 단계를 반복할 수 있습니다. 나중에 처리 작업에 포함할 대상 노드를 선택합니다.

처리 작업 시작

다음 절차를 사용하여 처리 작업을 생성하고 내보낼 대상 노드를 선택합니다.

  1. 데이터 흐름 탭에서 직업 만들기.
  2. 럭셔리 직업 이름¸ 내보내기 작업의 이름을 입력합니다.
  3. 내보낼 대상 노드를 선택합니다.
  4. 선택적으로 다음을 지정합니다. AWS 키 관리 서비스 (AWS KMS) 키 ARN.

KMS 키는 데이터를 보호하는 데 사용할 수 있는 암호화 키입니다. KMS 키에 대한 자세한 내용은 다음을 참조하세요. AWS 키 개발자 안내서.

  1. 왼쪽 메뉴에서 다음, 2. 작업 구성.
  2. 필요에 따라 인스턴스 유형이나 개수를 변경하거나 작업과 연결할 태그를 추가하여 필요에 따라 작업을 구성할 수 있습니다.
  3. 왼쪽 메뉴에서 달리기 작업을 실행합니다.

작업이 성공적으로 생성되면 성공 메시지가 나타납니다.

최종 데이터 보기

마지막으로 다음 단계를 사용하여 내보낸 데이터를 볼 수 있습니다.

  1. 작업을 생성한 후 제공된 링크를 선택합니다.

SageMaker 콘솔에서 처리 작업을 보여주는 새 탭이 열립니다.

  1. 작업이 완료되면 Amazon S3 콘솔에서 내보낸 데이터를 검토합니다.

선택한 작업 이름이 있는 새 폴더가 표시되어야 합니다.

  1. 최종 데이터가 있는 CSV 파일(또는 여러 파일)을 보려면 작업 이름을 선택하십시오.

자주하는 질문

이 섹션에서는 이 새로운 기능에 대해 자주 묻는 몇 가지 질문을 다룹니다.

  • 내보내기 탭은 어떻게 되었습니까? 이 새로운 기능으로 우리는 수출 Data Wrangler의 탭. 다음 단계를 통해 데이터 흐름에서 생성한 모든 노드에서 Data Wrangler 생성 Jupyter 노트북을 통해 내보내기 기능을 계속 사용할 수 있습니다.
    1. 내보낼 노드 옆에 있는 더하기 기호를 선택합니다.
    2. 왼쪽 메뉴에서 다음 위치로 내보내기 :.
    3. 왼쪽 메뉴에서 Amazon S3(Jupyter 노트북 사용).
    4. Jupyter 노트북을 실행합니다.
  • 작업에 몇 개의 대상 노드를 포함할 수 있습니까? 처리 작업당 최대 10개의 대상이 있습니다.
  • 흐름 파일에 몇 개의 대상 노드를 포함할 수 있습니까? 원하는 만큼 대상 노드를 가질 수 있습니다.
  • 대상 노드 다음에 변환을 추가할 수 있습니까? 아니요, 아이디어는 대상 노드가 이후에 추가 단계가 없는 터미널 노드라는 것입니다.
  • 대상 노드에서 사용할 수 있는 지원되는 소스는 무엇입니까? 이 글을 쓰는 시점에서 Amazon S3만 대상 소스로 지원합니다. 앞으로 더 많은 대상 소스 유형에 대한 지원이 추가될 예정입니다. 보고 싶은 특정 작품이 있으면 연락주세요.

요약

이 게시물에서는 새로 시작된 대상 노드를 사용하여 처리 작업을 생성하고 변환된 데이터 세트를 Data Wrangler 시각적 인터페이스를 통해 Amazon S3에 직접 저장하는 방법을 시연했습니다. 이 추가 기능을 통해 Data Wrangler의 도구 기반 로우 코드 환경이 향상되었습니다.

다음 단계로 이 게시물에 설명된 예제를 시도해 보는 것이 좋습니다. 질문이 있거나 자세한 내용을 알고 싶다면 다음을 참조하십시오. 수출 또는 댓글 섹션에 질문을 남겨주세요.


저자에 관하여

알폰소 오스틴-리베라 Amazon SageMaker Data Wrangler의 프런트 엔드 엔지니어입니다. 그는 기쁨을 불러일으키는 직관적인 사용자 경험을 구축하는 데 열정적입니다. 여가 시간에는 암벽 등반 체육관에서 중력과 싸우거나 밖에서 드론을 날리는 모습을 볼 수 있습니다.

파르사 샤보다기 기계 학습 및 인공 지능을 전문으로 하는 AWS의 테크니컬 라이터입니다. 그는 Amazon SageMaker Data Wrangler 및 Amazon SageMaker Feature Store에 대한 기술 문서를 작성합니다. 여가 시간에는 명상, 오디오북 듣기, 역도, 스탠드업 코미디 시청을 즐깁니다. 그는 스탠드업 코미디언이 될 수는 없지만 적어도 그의 엄마는 그가 재미있다고 생각합니다.

발라지 툼말라 Amazon SageMaker의 소프트웨어 개발 엔지니어입니다. 그는 Amazon SageMaker Data Wrangler 지원을 돕고 성능이 뛰어나고 확장 가능한 소프트웨어를 구축하는 데 열정적입니다. 업무 외에는 소설 읽기와 배구를 즐깁니다.

아룬 프라 사스 샨 카르 AWS의 인공 지능 및 기계 학습 (AI / ML) 전문 솔루션 아키텍트로서 글로벌 고객이 클라우드에서 AI 솔루션을 효과적이고 효율적으로 확장 할 수 있도록 지원합니다. 여가 시간에 Arun은 공상 과학 영화를보고 클래식 음악을 듣는 것을 즐깁니다.

출처: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

타임 스탬프 :

더보기 AWS 머신 러닝 블로그