Amazon SageMaker Data Wrangler로 JSON 및 ORC 데이터 준비 및 분석

소스 노드 : 1600106

Amazon SageMaker 데이터 랭글러 의 새로운 기능입니다 아마존 세이지 메이커 이를 통해 데이터 과학자와 엔지니어는 시각적 인터페이스를 통해 기계 학습(ML) 애플리케이션용 데이터를 더 빠르게 준비할 수 있습니다. 데이터 준비는 ML 수명 주기의 중요한 단계이며, Data Wrangler는 원활하고 시각적인 로우 코드 환경에서 ML용 데이터를 가져오고, 준비하고, 변환하고, 기능화하고, 분석하는 엔드투엔드 솔루션을 제공합니다. 다음과 같은 AWS 구성 요소에 쉽고 빠르게 연결할 수 있습니다. 아마존 단순 스토리지 서비스 (아마존 S3), 아마존 아테나, 아마존 레드 시프트AWS Lake 형성및 Snowflake와 같은 외부 소스. Data Wrangler는 CSV 및 Parquet와 같은 표준 데이터 유형도 지원합니다.

Data Wrangler는 이제 최적화된 행 열 형식(ORC), JSON(JavaScript Object Notation) 및 JSONL(JSON 라인) 파일 형식:

  • ORC – ORC 파일 형식은 Hive 데이터를 저장하는 매우 효율적인 방법을 제공합니다. 다른 Hive 파일 형식의 한계를 극복하도록 설계되었습니다. ORC 파일을 사용하면 Hive가 데이터를 읽고, 쓰고, 처리할 때 성능이 향상됩니다. ORC는 Hadoop 생태계에서 널리 사용됩니다.
  • JSON – JSON 파일 형식은 가볍고 일반적으로 사용되는 데이터 교환 형식입니다.
  • JSONL – 줄 바꿈으로 구분된 JSON이라고도 하는 JSON 라인은 한 번에 하나의 레코드를 처리할 수 있는 구조화된 데이터를 저장하는 데 편리한 형식입니다.

데이터 세트를 Data Wrangler로 가져오기 전에 ORC, JSON 및 JSONL 데이터를 미리 볼 수 있습니다. 데이터를 가져온 후 새로 출시된 변환기 중 하나를 사용하여 중첩된 JSON에서 일반적으로 발견되는 JSON 문자열 또는 배열이 포함된 열로 작업할 수도 있습니다.

Data Wrangler를 사용하여 ORC 데이터 가져오기 및 분석

ORC 데이터 가져오기는 Data Wrangler에서 가능하며 지원되는 다른 형식의 파일 가져오기와 유사합니다. Amazon S3 및 다음 위치에서 ORC 파일을 찾습니다. 세부 사항 창에서 가져오는 동안 파일 형식으로 ORC를 선택합니다.

Data Wrangler를 처음 사용하는 경우 검토하세요. 데이터 랭글러 시작하기. 또한 참조 수입 다양한 가져오기 옵션에 대해 알아보세요.

Data Wrangler를 사용하여 JSON 데이터 가져오기 및 분석

이제 Data Wrangler를 사용하여 JSON 형식의 파일을 가져오고 JSON 문자열 또는 배열이 포함된 열로 작업해 보겠습니다. 또한 중첩된 JSON을 처리하는 방법도 보여줍니다. Data Wrangler를 사용하면 Amazon S3에서 JSON 파일을 가져오는 과정이 원활해집니다. 이는 지원되는 다른 형식의 파일을 가져오는 것과 유사합니다. 파일을 가져온 후 다음 스크린샷과 같이 JSON 파일을 미리 볼 수 있습니다. 파일 형식을 JSON으로 설정했는지 확인하세요. 세부 사항 창유리.

다음으로 가져온 JSON 파일의 구조화된 열에 대해 작업해 보겠습니다.

JSON 파일의 구조화된 열을 처리하기 위해 Data Wrangler는 두 가지 새로운 변환을 도입합니다. 구조화된 열 평면화배열 열 분해, 다음에서 찾을 수 있습니다. 구조화된 열 처리 에서 옵션 변환 추가 창유리.

먼저 적용해 보겠습니다. 배열 열 분해 가져온 데이터의 열 중 하나로 변환합니다. 변환을 적용하기 전에 열을 볼 수 있습니다 topping JSON 객체의 배열입니다. idtype 열쇠.

변환을 적용한 후 결과로 추가된 새 행을 관찰할 수 있습니다. 이제 배열의 각 요소는 결과 DataFrame의 새 행이 됩니다.

이제 적용해보자 구조화된 열 평면화 에 변환 topping_flattened 결과로 생성된 열입니다. 배열 열 분해 이전 단계에서 적용한 변환입니다.

변환을 적용하기 전에 키를 볼 수 있습니다. idtype FBI 증오 범죄 보고서 topping_flattened 열입니다.

변환을 적용한 후 이제 키를 관찰할 수 있습니다. idtype 아래 topping_flattened 열을 새 열로 topping_flattened_idtopping_flattened_type, 변환의 결과로 생성됩니다. 쉼표로 구분된 키 이름을 입력하여 특정 키만 평면화할 수도 있습니다. 평탄화할 키. 비워 두면 JSON 문자열 또는 구조체 내부의 모든 키가 평면화됩니다.

결론

이 게시물에서는 Data Wrangler를 사용하여 ORC 및 JSON의 파일 형식을 쉽게 가져오는 방법을 시연했습니다. 또한 JSON 데이터의 모든 구조화된 열을 변환할 수 있는 새로 출시된 변환을 적용했습니다. 이를 통해 JSON 문자열이나 배열이 포함된 열 작업이 원활하게 이루어집니다.

다음 단계에서는 자체 Data Wrangler 시각적 인터페이스에서 시연된 예를 복제하는 것이 좋습니다. Data Wrangler와 관련된 질문이 있으시면 언제든지 댓글 섹션에 남겨주세요.


저자에 관하여

발라지 툼말라 Amazon SageMaker의 소프트웨어 개발 엔지니어입니다. 그는 Amazon SageMaker Data Wrangler 지원을 돕고 성능이 뛰어나고 확장 가능한 소프트웨어를 구축하는 데 열정적입니다. 업무 외에는 소설 읽기와 배구를 즐깁니다.

아룬 프라 사스 샨 카르 AWS의 인공 지능 및 기계 학습 (AI / ML) 전문 솔루션 아키텍트로서 글로벌 고객이 클라우드에서 AI 솔루션을 효과적이고 효율적으로 확장 할 수 있도록 지원합니다. 여가 시간에 Arun은 공상 과학 영화를보고 클래식 음악을 듣는 것을 즐깁니다.

출처: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

타임 스탬프 :

더보기 AWS 머신 러닝 블로그