เริ่มงานการประมวลผลด้วยการคลิกเพียงไม่กี่ครั้งโดยใช้ Amazon SageMaker Data Wrangler

โหนดต้นทาง: 1600104

Amazon SageMaker ข้อมูล Wrangler ทำให้นักวิทยาศาสตร์และวิศวกรข้อมูลสามารถจัดเตรียมข้อมูลสำหรับแอปพลิเคชันการเรียนรู้ของเครื่อง (ML) ได้รวดเร็วยิ่งขึ้นโดยใช้อินเทอร์เฟซแบบภาพ ก่อนหน้านี้ เมื่อคุณสร้างโฟลว์ข้อมูล Data Wrangler คุณสามารถเลือกตัวเลือกการส่งออกต่างๆ เพื่อรวมโฟลว์ข้อมูลนั้นเข้ากับไปป์ไลน์การประมวลผลข้อมูลของคุณได้อย่างง่ายดาย Data Wrangler เสนอตัวเลือกการส่งออกไปยัง บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3) ท่อส่ง SageMakerและ ที่เก็บฟีเจอร์ SageMakerหรือเป็นโค้ด Python ตัวเลือกการส่งออกจะสร้างสมุดบันทึก Jupyter และกำหนดให้คุณต้องเรียกใช้รหัสเพื่อเริ่มงานการประมวลผลที่อำนวยความสะดวกโดย การประมวลผล SageMaker.

เรารู้สึกตื่นเต้นที่จะประกาศเปิดตัวโหนดปลายทางทั่วไปและคุณลักษณะสร้างงานใน Data Wrangler คุณลักษณะนี้ช่วยให้คุณสามารถส่งออกการแปลงทั้งหมดที่คุณทำกับชุดข้อมูลไปยังโหนดปลายทางได้ด้วยการคลิกเพียงไม่กี่ครั้ง วิธีนี้ช่วยให้คุณสร้างงานการประมวลผลข้อมูลและส่งออกไปยัง Amazon S3 ผ่านอินเทอร์เฟซแบบภาพได้อย่างเดียวโดยไม่ต้องสร้าง เรียกใช้ หรือจัดการโน้ตบุ๊ก Jupyter ซึ่งจะช่วยปรับปรุงประสบการณ์การใช้โค้ดน้อย เพื่อสาธิตคุณลักษณะใหม่นี้ เราใช้ ชุดข้อมูลไททานิค และแสดงวิธีการส่งออกการแปลงของคุณไปยังโหนดปลายทาง

เบื้องต้น

ก่อนที่เราจะเรียนรู้วิธีใช้โหนดปลายทางกับ Data Wrangler คุณควรเข้าใจวิธีการ เข้าถึงและเริ่มต้นใช้งาน Data Wrangler. คุณยังต้องรู้ว่า a . คืออะไร การไหลของข้อมูล หมายถึงบริบทของ Data Wrangler และวิธีการสร้างโดยการนำเข้าข้อมูลของคุณจากแหล่งข้อมูลต่างๆ ที่ Data Wrangler รองรับ

ภาพรวมโซลูชัน

พิจารณาโฟลว์ข้อมูลต่อไปนี้ที่ชื่อว่า example-titanic.flow:

  • มันนำเข้าชุดข้อมูลไททานิคสามครั้ง คุณสามารถดูการนำเข้าที่แตกต่างกันเหล่านี้เป็นสาขาที่แยกจากกันในโฟลว์ข้อมูล
  • สำหรับแต่ละสาขา จะใช้ชุดของการเปลี่ยนแปลงและการสร้างภาพข้อมูล
  • รวมสาขาเป็นโหนดเดียวพร้อมการแปลงและการแสดงภาพทั้งหมด

ด้วยโฟลว์นี้ คุณอาจต้องการประมวลผลและบันทึกข้อมูลบางส่วนของคุณไปยังสาขาหรือสถานที่เฉพาะ

ในขั้นตอนต่อไปนี้ เราสาธิตวิธีสร้างโหนดปลายทาง ส่งออกไปยัง Amazon S3 และสร้างและเรียกใช้งานการประมวลผล

สร้างโหนดปลายทาง

คุณสามารถใช้ขั้นตอนต่อไปนี้เพื่อสร้างโหนดปลายทางและส่งออกไปยังบัคเก็ต S3:

  1. กำหนดส่วนใดของโฟลว์ไฟล์ (การแปลง) ที่คุณต้องการบันทึก
  2. เลือกเครื่องหมายบวกถัดจากโหนดที่แสดงถึงการเปลี่ยนแปลงที่คุณต้องการส่งออก (หากเป็นโหนดที่ยุบ คุณต้องเลือกไอคอนตัวเลือก (สามจุด) สำหรับโหนด)
  3. วางเมาส์เหนือ เพิ่มปลายทาง.
  4. Choose Amazon S3.
  5. ระบุฟิลด์ตามที่แสดงในภาพหน้าจอต่อไปนี้
  6. สำหรับโหนดการรวมที่สอง ให้ทำตามขั้นตอนเดียวกันเพื่อเพิ่ม Amazon S3 เป็นปลายทางและระบุฟิลด์

คุณสามารถทำซ้ำขั้นตอนเหล่านี้ได้หลายครั้งเท่าที่คุณต้องการสำหรับโหนดมากเท่าที่คุณต้องการในโฟลว์ข้อมูลของคุณ หลังจากนั้น คุณเลือกโหนดปลายทางที่จะรวมไว้ในงานการประมวลผลของคุณ

เริ่มงานประมวลผล

ใช้ขั้นตอนต่อไปนี้เพื่อสร้างงานการประมวลผลและเลือกโหนดปลายทางที่คุณต้องการส่งออกไปยัง:

  1. เกี่ยวกับ การไหลของข้อมูล เลือกแท็บ สร้างงาน.
  2. สำหรับ ชื่องาน¸ ใส่ชื่องานส่งออก
  3. เลือกโหนดปลายทางที่คุณต้องการส่งออก
  4. หรือระบุ บริการจัดการคีย์ AWS (AWS KMS) คีย์ ARN

คีย์ KMS เป็นคีย์การเข้ารหัสที่คุณสามารถใช้เพื่อปกป้องข้อมูลของคุณได้ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับคีย์ KMS โปรดดูที่ คู่มือนักพัฒนาคีย์ AWS.

  1. Choose ถัดไป 2. กำหนดค่างาน.
  2. คุณสามารถกำหนดค่างานตามความต้องการของคุณโดยการเปลี่ยนประเภทหรือจำนวนอินสแตนซ์ หรือเพิ่มแท็กใดๆ เพื่อเชื่อมโยงกับงาน
  3. Choose วิ่ง เพื่อเรียกใช้งาน

ข้อความแสดงความสำเร็จจะปรากฏขึ้นเมื่อสร้างงานสำเร็จ

ดูข้อมูลสุดท้าย

สุดท้าย คุณสามารถใช้ขั้นตอนต่อไปนี้เพื่อดูข้อมูลที่ส่งออก:

  1. หลังจากที่คุณสร้างงานแล้ว ให้เลือกลิงก์ที่ให้ไว้

แท็บใหม่จะเปิดขึ้นเพื่อแสดงงานการประมวลผลบนคอนโซล SageMaker

  1. เมื่องานเสร็จสมบูรณ์ ให้ตรวจสอบข้อมูลที่ส่งออกบนคอนโซล Amazon S3

คุณควรเห็นโฟลเดอร์ใหม่ที่มีชื่องานที่คุณเลือก

  1. เลือกชื่องานเพื่อดูไฟล์ CSV (หรือหลายไฟล์) พร้อมข้อมูลสุดท้าย

คำถามที่พบบ่อย

ในส่วนนี้ เราตอบคำถามที่พบบ่อยสองสามข้อเกี่ยวกับคุณลักษณะใหม่นี้:

  • เกิดอะไรขึ้นกับแท็บส่งออก ด้วยคุณสมบัติใหม่นี้ เราได้ลบ ส่งออก แท็บจาก Data Wrangler คุณยังสามารถอำนวยความสะดวกในฟังก์ชันการส่งออกผ่าน Data Wrangler ที่สร้างโน้ตบุ๊ก Jupyter จากโหนดใดๆ ที่คุณสร้างขึ้นในโฟลว์ข้อมูลด้วยขั้นตอนต่อไปนี้:
    1. เลือกเครื่องหมายบวกถัดจากโหนดที่คุณต้องการส่งออก
    2. Choose ส่งออกไปที่.
    3. Choose Amazon S3 (ผ่าน Jupyter Notebook).
    4. เรียกใช้สมุดบันทึก Jupyter
  • ฉันสามารถรวมโหนดปลายทางในงานได้กี่โหนด มีปลายทางสูงสุด 10 ปลายทางต่องานที่ดำเนินการ
  • ฉันสามารถมีโหนดปลายทางได้กี่โหนดในไฟล์โฟลว์ คุณสามารถมีโหนดปลายทางได้มากเท่าที่คุณต้องการ
  • ฉันสามารถเพิ่มการแปลงหลังจากโหนดปลายทางของฉันได้หรือไม่ ไม่ แนวคิดคือโหนดปลายทางคือโหนดปลายทางที่ไม่มีขั้นตอนเพิ่มเติมหลังจากนั้น
  • แหล่งที่มาใดบ้างที่รองรับที่ฉันใช้กับโหนดปลายทางได้ ในการเขียนนี้ เราสนับสนุนเฉพาะ Amazon S3 เป็นแหล่งปลายทางเท่านั้น การสนับสนุนสำหรับประเภทต้นทางปลายทางเพิ่มเติมจะถูกเพิ่มในอนาคต โปรดติดต่อหากมีรายการใดที่คุณต้องการดู

สรุป

ในโพสต์นี้ เราสาธิตวิธีใช้โหนดปลายทางที่เพิ่งเปิดตัวใหม่เพื่อสร้างงานการประมวลผลและบันทึกชุดข้อมูลที่แปลงแล้วไปยัง Amazon S3 โดยตรงผ่านอินเทอร์เฟซแบบเห็นภาพของ Data Wrangler ด้วยคุณสมบัติเพิ่มเติมนี้ เราได้ปรับปรุงประสบการณ์การใช้โค้ดต่ำที่ขับเคลื่อนด้วยเครื่องมือของ Data Wrangler

สำหรับขั้นตอนต่อไป เราขอแนะนำให้คุณลองใช้ตัวอย่างที่แสดงในโพสต์นี้ หากมีข้อสงสัยหรือต้องการทราบข้อมูลเพิ่มเติม โปรดดูที่ ส่งออก หรือฝากคำถามไว้ในส่วนความคิดเห็น


เกี่ยวกับผู้เขียน

อัลฟองโซ ออสติน-ริเวรา เป็นวิศวกรส่วนหน้าของ Amazon SageMaker Data Wrangler เขาหลงใหลในการสร้างประสบการณ์ผู้ใช้ที่ใช้งานง่ายซึ่งจุดประกายความสุข ในเวลาว่าง คุณจะพบว่าเขากำลังต่อสู้กับแรงโน้มถ่วงที่โรงยิมปีนเขาหรือเล่นโดรนข้างนอก

ปาร์ซา ชาห์โบดากี เป็นนักเขียนด้านเทคนิคใน AWS ที่เชี่ยวชาญด้านแมชชีนเลิร์นนิงและปัญญาประดิษฐ์ เขาเขียนเอกสารทางเทคนิคสำหรับ Amazon SageMaker Data Wrangler และ Amazon SageMaker Feature Store ในเวลาว่าง เขาชอบนั่งสมาธิ ฟังหนังสือเสียง ยกน้ำหนัก และชมการแสดงตลก เขาจะไม่มีวันเป็นนักแสดงตลก แต่อย่างน้อยแม่ของเขาก็คิดว่าเขาเป็นคนตลก

บาลาจี ทุมมาลา เป็นวิศวกรพัฒนาซอฟต์แวร์ที่ Amazon SageMaker เขาช่วยสนับสนุน Amazon SageMaker Data Wrangler และหลงใหลในการสร้างซอฟต์แวร์ที่มีประสิทธิภาพและปรับขนาดได้ นอกเวลางาน เขาชอบอ่านนิยายและเล่นวอลเลย์บอล

อรุณประศาสน์ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้านปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง (AI/ML) กับ AWS ซึ่งช่วยให้ลูกค้าทั่วโลกปรับขนาดโซลูชัน AI ของตนในระบบคลาวด์ได้อย่างมีประสิทธิภาพและประสิทธิผล ในเวลาว่าง อรุณชอบดูหนังไซไฟและฟังเพลงคลาสสิก

ที่มา: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

ประทับเวลา:

เพิ่มเติมจาก บล็อก AWS Machine Learning