Khởi chạy các công việc xử lý với một vài cú nhấp chuột bằng Amazon SageMaker Data Wrangler

Nút nguồn: 1600104

Trình sắp xếp dữ liệu Amazon SageMaker giúp các nhà khoa học dữ liệu và kỹ sư chuẩn bị dữ liệu cho các ứng dụng máy học (ML) nhanh hơn bằng cách sử dụng giao diện trực quan. Trước đây, khi bạn tạo luồng dữ liệu Data Wrangler, bạn có thể chọn các tùy chọn xuất khác nhau để dễ dàng tích hợp luồng dữ liệu đó vào đường ống xử lý dữ liệu của mình. Data Wrangler cung cấp các tùy chọn xuất sang Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), Đường ống SageMakerCửa hàng tính năng SageMaker, hoặc dưới dạng mã Python. Các tùy chọn xuất tạo một sổ ghi chép Jupyter và yêu cầu bạn chạy mã để bắt đầu công việc xử lý được hỗ trợ bởi Xử lý SageMaker.

Chúng tôi vui mừng thông báo về việc phát hành chung các nút đích và tính năng Tạo công việc trong Data Wrangler. Tính năng này cung cấp cho bạn khả năng xuất tất cả các chuyển đổi mà bạn đã thực hiện thành tập dữ liệu đến một nút đích chỉ với một vài cú nhấp chuột. Điều này cho phép bạn tạo các công việc xử lý dữ liệu và xuất sang Amazon S3 hoàn toàn thông qua giao diện trực quan mà không cần phải tạo, chạy hoặc quản lý sổ ghi chép Jupyter, do đó nâng cao trải nghiệm mã thấp. Để chứng minh tính năng mới này, chúng tôi sử dụng Bộ dữ liệu Titanic và chỉ ra cách xuất các phép biến đổi của bạn sang một nút đích.

Điều kiện tiên quyết

Trước khi chúng ta tìm hiểu cách sử dụng các nút đích với Data Wrangler, bạn nên hiểu cách truy cập và bắt đầu với Data Wrangler. Bạn cũng cần biết những gì dòng dữ liệu có nghĩa là với ngữ cảnh của Data Wrangler và cách tạo một dữ liệu bằng cách nhập dữ liệu của bạn từ các nguồn dữ liệu khác nhau mà Data Wrangler hỗ trợ.

Tổng quan về giải pháp

Hãy xem xét luồng dữ liệu sau có tên example-titanic.flow:

  • Nó nhập bộ dữ liệu Titanic ba lần. Bạn có thể xem các lần nhập khác nhau này là các nhánh riêng biệt trong luồng dữ liệu.
  • Đối với mỗi nhánh, nó áp dụng một tập hợp các phép biến đổi và hình dung.
  • Nó nối các nhánh thành một nút duy nhất với tất cả các phép biến đổi và hình dung.

Với quy trình này, bạn có thể muốn xử lý và lưu các phần dữ liệu của mình vào một chi nhánh hoặc vị trí cụ thể.

Trong các bước sau, chúng tôi trình bày cách tạo các nút đích, xuất chúng sang Amazon S3, tạo và khởi chạy một công việc xử lý.

Tạo một nút đích

Bạn có thể sử dụng quy trình sau để tạo các nút đích và xuất chúng sang nhóm S3:

  1. Xác định những phần nào của tệp luồng (biến đổi) bạn muốn lưu.
  2. Chọn dấu cộng bên cạnh các nút đại diện cho các phép biến đổi mà bạn muốn xuất. (Nếu đó là một nút thu gọn, bạn phải chọn biểu tượng tùy chọn (ba dấu chấm) cho nút).
  3. Di chuột qua Thêm điểm đến.
  4. Chọn Amazon S3.
  5. Chỉ định các trường như được hiển thị trong ảnh chụp màn hình sau.
  6. Đối với nút tham gia thứ hai, hãy làm theo các bước tương tự để thêm Amazon S3 làm đích và chỉ định các trường.

Bạn có thể lặp lại các bước này nhiều lần nếu bạn cần cho số lượng nút bạn muốn trong luồng dữ liệu của mình. Sau đó, bạn chọn các nút đích để đưa vào công việc xử lý của mình.

Bắt đầu một công việc xử lý

Sử dụng quy trình sau để tạo một công việc xử lý và chọn nút đích mà bạn muốn xuất sang:

  1. trên Dòng dữ liệu tab, chọn Tạo việc làm.
  2. Trong Tên công việc¸ nhập tên công việc xuất khẩu.
  3. Chọn các nút đích mà bạn muốn xuất.
  4. Tùy chọn, chỉ định Dịch vụ quản lý khóa AWS ARN chính (AWS KMS).

Khóa KMS là một khóa mật mã mà bạn có thể sử dụng để bảo vệ dữ liệu của mình. Để biết thêm thông tin về khóa KMS, hãy xem Hướng dẫn dành cho nhà phát triển chính AWS.

  1. Chọn Tiếp theo, 2. Định cấu hình công việc.
  2. Theo tùy chọn, bạn có thể định cấu hình công việc theo nhu cầu của mình bằng cách thay đổi loại phiên bản hoặc số lượng hoặc thêm bất kỳ thẻ nào để liên kết với công việc.
  3. Chọn chạy để điều hành công việc.

Thông báo thành công xuất hiện khi công việc được tạo thành công.

Xem dữ liệu cuối cùng

Cuối cùng, bạn có thể sử dụng các bước sau để xem dữ liệu đã xuất:

  1. Sau khi bạn tạo công việc, hãy chọn liên kết được cung cấp.

Một tab mới mở ra hiển thị công việc xử lý trên bảng điều khiển SageMaker.

  1. Khi công việc hoàn tất, hãy xem lại dữ liệu đã xuất trên bảng điều khiển Amazon S3.

Bạn sẽ thấy một thư mục mới với tên công việc bạn đã chọn.

  1. Chọn tên công việc để xem một tệp CSV (hoặc nhiều tệp) với dữ liệu cuối cùng.

Câu Hỏi Thường Gặp

Trong phần này, chúng tôi giải quyết một số câu hỏi thường gặp về tính năng mới này:

  • Điều gì đã xảy ra với tab Xuất? Với tính năng mới này, chúng tôi đã xóa Xuất khẩu tab từ Data Wrangler. Bạn vẫn có thể hỗ trợ chức năng xuất thông qua sổ ghi chép Jupyter do Data Wrangler tạo từ bất kỳ nút nào bạn đã tạo trong luồng dữ liệu bằng các bước sau:
    1. Chọn dấu cộng bên cạnh nút mà bạn muốn xuất.
    2. Chọn Xuất khẩu sang.
    3. Chọn Amazon S3 (thông qua Jupyter Notebook).
    4. Chạy sổ ghi chép Jupyter.
  • Tôi có thể bao gồm bao nhiêu nút đích trong một công việc? Có tối đa 10 điểm đến cho mỗi công việc xử lý.
  • Tôi có thể có bao nhiêu nút đích trong một tệp luồng? Bạn có thể có bao nhiêu nút đích tùy ý.
  • Tôi có thể thêm các phép biến đổi sau các nút đích của mình không? Không, ý tưởng là các nút đích là các nút đầu cuối không có bước nào khác sau đó.
  • Tôi có thể sử dụng các nguồn được hỗ trợ với các nút đích là gì? Theo bài viết này, chúng tôi chỉ hỗ trợ Amazon S3 như một nguồn đích. Hỗ trợ cho nhiều loại nguồn đích hơn sẽ được thêm vào trong tương lai. Vui lòng liên hệ nếu có địa chỉ cụ thể mà bạn muốn xem.

Tổng kết

Trong bài đăng này, chúng tôi đã trình bày cách sử dụng các nút đích mới ra mắt để tạo các công việc xử lý và lưu trực tiếp tập dữ liệu đã chuyển đổi của bạn vào Amazon S3 thông qua giao diện trực quan Data Wrangler. Với tính năng bổ sung này, chúng tôi đã nâng cao trải nghiệm mã thấp theo hướng công cụ của Data Wrangler.

Trong các bước tiếp theo, chúng tôi khuyên bạn nên thử ví dụ được minh họa trong bài đăng này. Nếu bạn có bất kỳ câu hỏi nào hoặc muốn tìm hiểu thêm, hãy xem Xuất khẩu hoặc để lại câu hỏi trong phần bình luận.


Về các tác giả

Alfonso Austin-Rivera là Kỹ sư Front End tại Amazon SageMaker Data Wrangler. Anh ấy đam mê xây dựng trải nghiệm người dùng trực quan khơi dậy niềm vui. Khi rảnh rỗi, bạn có thể bắt gặp anh ấy chiến đấu với trọng lực tại phòng tập thể dục leo núi hoặc lái máy bay không người lái bên ngoài.

Parsa Shahbodaghi là Nhà văn kỹ thuật trong AWS chuyên về máy học và trí tuệ nhân tạo. Anh ấy viết tài liệu kỹ thuật cho Amazon SageMaker Data Wrangler và Amazon SageMaker Feature Store. Khi rảnh rỗi, anh ấy thích thiền, nghe sách nói, tập tạ và xem hài kịch. Anh ấy sẽ không bao giờ là một diễn viên hài độc lập, nhưng ít nhất mẹ anh ấy nghĩ rằng anh ấy hài hước.

Balaji Tummala là Kỹ sư phát triển phần mềm tại Amazon SageMaker. Anh ấy giúp hỗ trợ Amazon SageMaker Data Wrangler và đam mê xây dựng phần mềm hiệu quả và có thể mở rộng. Ngoài công việc, anh ấy thích đọc tiểu thuyết và chơi bóng chuyền.

Arunprasath Shankar là Kiến trúc sư chuyên về giải pháp trí tuệ nhân tạo và máy học (AI / ML) của AWS, giúp khách hàng toàn cầu mở rộng quy mô các giải pháp AI của họ một cách hiệu quả và hiệu quả trên đám mây. Khi rảnh rỗi, Arun thích xem phim khoa học viễn tưởng và nghe nhạc cổ điển.

Nguồn: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Dấu thời gian:

Thêm từ Blog Học máy AWS