Chuẩn bị và phân tích dữ liệu JSON và ORC với Amazon SageMaker Data Wrangler

Nút nguồn: 1600106

Trình sắp xếp dữ liệu Amazon SageMaker là một khả năng mới của Amazon SageMaker điều đó giúp các nhà khoa học dữ liệu và kỹ sư chuẩn bị dữ liệu cho các ứng dụng máy học (ML) nhanh hơn thông qua giao diện trực quan. Chuẩn bị dữ liệu là một bước quan trọng của vòng đời ML và Data Wrangler cung cấp giải pháp end-to-end để nhập, chuẩn bị, biến đổi, tạo lông và phân tích dữ liệu cho ML trong trải nghiệm mã thấp, trực quan, liền mạch. Nó cho phép bạn kết nối dễ dàng và nhanh chóng với các thành phần AWS như Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), amazon Athena, Amazon RedShiftSự hình thành hồ AWSvà các nguồn bên ngoài như Snowflake. Data Wrangler cũng hỗ trợ các kiểu dữ liệu tiêu chuẩn như CSV và Parquet.

Data Wrangler hiện hỗ trợ thêm Cột Hàng Tối ưu (CRO), Định dạng tệp JavaScript Object Notation (JSON) và JSON Lines (JSONL):

  • CRO - Định dạng tệp ORC cung cấp một cách hiệu quả cao để lưu trữ dữ liệu Hive. Nó được thiết kế để khắc phục những hạn chế của các định dạng tệp Hive khác. Sử dụng tệp ORC cải thiện hiệu suất khi Hive đang đọc, ghi và xử lý dữ liệu. ORC được sử dụng rộng rãi trong hệ sinh thái Hadoop.
  • JSON - Định dạng tệp JSON là định dạng trao đổi dữ liệu nhẹ, thường được sử dụng.
  • JSONL - JSON Lines, còn được gọi là JSON được phân cách bằng dòng mới, là một định dạng thuận tiện để lưu trữ dữ liệu có cấu trúc có thể được xử lý một bản ghi tại một thời điểm.

Bạn có thể xem trước dữ liệu ORC, JSON và JSONL trước khi nhập tập dữ liệu vào Data Wrangler. Sau khi nhập dữ liệu, bạn cũng có thể sử dụng một trong các máy biến áp mới khởi chạy để làm việc với các cột chứa chuỗi hoặc mảng JSON thường thấy trong các JSON lồng nhau.

Nhập và phân tích dữ liệu ORC với Data Wrangler

Nhập dữ liệu ORC trong Data Wrangler rất dễ dàng và tương tự như nhập tệp ở bất kỳ định dạng được hỗ trợ nào khác. Duyệt đến tệp ORC của bạn trong Amazon S3 và trong CHI TIẾT , chọn ORC làm loại tệp trong khi nhập.

Nếu bạn chưa quen với Data Wrangler, hãy xem lại Bắt đầu với Data Wrangler. Cũng thấy Nhập khẩu để tìm hiểu về các tùy chọn nhập khác nhau.

Nhập và phân tích dữ liệu JSON với Data Wrangler

Bây giờ, hãy nhập tệp ở định dạng JSON với Data Wrangler và làm việc với các cột chứa chuỗi hoặc mảng JSON. Chúng tôi cũng trình bày cách đối phó với các JSON lồng nhau. Với Data Wrangler, nhập tệp JSON từ Amazon S3 là một quá trình liền mạch. Điều này tương tự như nhập tệp ở bất kỳ định dạng được hỗ trợ nào khác. Sau khi nhập các tệp, bạn có thể xem trước các tệp JSON như được hiển thị trong ảnh chụp màn hình sau. Đảm bảo đặt loại tệp thành JSON trong CHI TIẾT cửa sổ.

Tiếp theo, hãy làm việc trên các cột có cấu trúc trong tệp JSON đã nhập.

Để xử lý các cột có cấu trúc trong tệp JSON, Data Wrangler đang giới thiệu hai biến đổi mới: Làm phẳng cột có cấu trúcBùng nổ cột mảng, có thể được tìm thấy dưới Xử lý cột có cấu trúc tùy chọn trong THÊM CHUYỂN ĐỔI cửa sổ.

Hãy bắt đầu bằng cách áp dụng Bùng nổ cột mảng chuyển đổi sang một trong các cột trong dữ liệu đã nhập của chúng tôi. Trước khi áp dụng biến đổi, chúng ta có thể thấy cột topping là một mảng các đối tượng JSON với idtype phím.

Sau khi áp dụng phép biến đổi, kết quả là chúng ta có thể quan sát các hàng mới được thêm vào. Mỗi phần tử trong mảng bây giờ là một hàng mới trong DataFrame kết quả.

Bây giờ chúng ta hãy áp dụng Làm phẳng cột có cấu trúc biến đổi trên topping_flattened cột được tạo ra do Bùng nổ cột mảng chuyển đổi mà chúng tôi đã áp dụng trong bước trước.

Trước khi áp dụng biến đổi, chúng ta có thể thấy các phím idtype trong topping_flattened cột.

Sau khi áp dụng biến đổi, bây giờ chúng ta có thể quan sát các phím idtype theo topping_flattened cột dưới dạng cột mới topping_flattened_idtopping_flattened_type, được tạo ra do quá trình biến đổi. Bạn cũng có tùy chọn chỉ làm phẳng các khóa cụ thể bằng cách nhập các tên khóa được phân tách bằng dấu phẩy cho Các phím để làm phẳng. Nếu để trống, tất cả các khóa bên trong chuỗi hoặc cấu trúc JSON sẽ được làm phẳng.

Kết luận

Trong bài đăng này, chúng tôi đã trình bày cách nhập các định dạng tệp trong ORC và JSON một cách dễ dàng với Data Wrangler. Chúng tôi cũng đã áp dụng các phép chuyển đổi mới ra mắt cho phép chúng tôi chuyển đổi bất kỳ cột có cấu trúc nào trong dữ liệu JSON. Điều này làm cho việc làm việc với các cột chứa chuỗi hoặc mảng JSON trở thành một trải nghiệm liền mạch.

Trong các bước tiếp theo, chúng tôi khuyên bạn nên sao chép các ví dụ minh họa trong giao diện trực quan Data Wrangler của riêng bạn. Nếu bạn có bất kỳ câu hỏi nào liên quan đến Data Wrangler, đừng ngại để lại trong phần bình luận.


Về các tác giả

Balaji Tummala là Kỹ sư phát triển phần mềm tại Amazon SageMaker. Anh ấy giúp hỗ trợ Amazon SageMaker Data Wrangler và đam mê xây dựng phần mềm hiệu quả và có thể mở rộng. Ngoài công việc, anh ấy thích đọc tiểu thuyết và chơi bóng chuyền.

Arunprasath Shankar là Kiến trúc sư chuyên về giải pháp trí tuệ nhân tạo và máy học (AI / ML) của AWS, giúp khách hàng toàn cầu mở rộng quy mô các giải pháp AI của họ một cách hiệu quả và hiệu quả trên đám mây. Khi rảnh rỗi, Arun thích xem phim khoa học viễn tưởng và nghe nhạc cổ điển.

Nguồn: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Dấu thời gian:

Thêm từ Blog Học máy AWS