เรียกใช้การทดสอบ AutoML ด้วยชุดข้อมูลปาร์เก้ขนาดใหญ่โดยใช้ Amazon SageMaker Autopilot

โหนดต้นทาง: 1596421

เริ่มวันนี้ คุณสามารถใช้ ระบบนำร่องอัตโนมัติของ Amazon SageMaker เพื่อจัดการกับงานการถดถอยและการจัดหมวดหมู่บนชุดข้อมูลขนาดใหญ่สูงสุด 100 GB นอกจากนี้ ในตอนนี้ คุณสามารถระบุชุดข้อมูลของคุณในรูปแบบ CSV หรือ อาปาเช่ปาร์เก้ ประเภทเนื้อหา

ธุรกิจกำลังสร้างข้อมูลมากกว่าที่เคย ความต้องการที่สอดคล้องกันกำลังเพิ่มขึ้นสำหรับการสร้างข้อมูลเชิงลึกจากชุดข้อมูลขนาดใหญ่เหล่านี้เพื่อกำหนดรูปแบบการตัดสินใจทางธุรกิจ อย่างไรก็ตาม การฝึกอัลกอริทึมการเรียนรู้ของเครื่อง (ML) ที่ล้ำสมัยบนชุดข้อมูลขนาดใหญ่เหล่านี้อาจเป็นเรื่องที่ท้าทาย Autopilot ทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติและมอบประสบการณ์ที่ราบรื่นสำหรับการเรียกใช้การเรียนรู้ด้วยเครื่องอัตโนมัติ (AutoML) ในชุดข้อมูลขนาดใหญ่สูงสุด 100 GB

Autopilot จะสุ่มตัวอย่างชุดข้อมูลขนาดใหญ่ของคุณโดยอัตโนมัติเพื่อให้พอดีกับขีดจำกัดสูงสุดที่รองรับในขณะที่รักษาคลาสที่หายากไว้ในกรณีที่ ความไม่สมดุลของคลาส. ความไม่สมดุลของคลาสเป็นปัญหาสำคัญที่ต้องระวังใน ML โดยเฉพาะอย่างยิ่งเมื่อต้องจัดการกับชุดข้อมูลขนาดใหญ่ พิจารณาชุดข้อมูลการตรวจจับการฉ้อโกงที่คาดว่าธุรกรรมเพียงเล็กน้อยเท่านั้นที่จะเป็นการฉ้อโกง ในกรณีนี้ Autopilot จะสุ่มตัวอย่างเฉพาะธุรกรรมประเภทส่วนใหญ่ที่ไม่ใช่การฉ้อโกง ในขณะที่รักษาธุรกรรมที่เป็นการฉ้อโกงประเภทที่หายาก

เมื่อคุณเรียกใช้งาน AutoML โดยใช้ Autopilot ข้อมูลที่เกี่ยวข้องทั้งหมดสำหรับการสุ่มตัวอย่างย่อยจะถูกเก็บไว้ใน อเมซอน คลาวด์วอตช์. นำทางไปยังกลุ่มบันทึกสำหรับ /aws/sagemaker/ProcessingJobsค้นหาชื่องาน AutoML ของคุณ และเลือกสตรีมบันทึก CloudWatch ที่รวม -db- ในชื่อของมัน

ลูกค้าหลายรายของเราชอบประเภทเนื้อหาปาร์เก้เพื่อจัดเก็บชุดข้อมูลขนาดใหญ่ โดยทั่วไปเนื่องจากลักษณะการบีบอัด การสนับสนุนโครงสร้างข้อมูลขั้นสูง ประสิทธิภาพ และการดำเนินการต้นทุนต่ำ ข้อมูลนี้มักจะสามารถเข้าถึงได้ถึงสิบหรือหลายร้อย GB ตอนนี้คุณสามารถนำชุดข้อมูล Parquet เหล่านี้ไปยัง Autopilot ได้โดยตรง คุณสามารถใช้ API ของเราหรือไปที่ สตูดิโอ Amazon SageMaker เพื่อสร้างงาน Autopilot ได้ในไม่กี่คลิก คุณสามารถระบุตำแหน่งอินพุตของชุดข้อมูล Parquet เป็นไฟล์เดียวหรือหลายไฟล์ที่ระบุเป็นไฟล์ Manifest Autopilot จะตรวจหาประเภทเนื้อหาของชุดข้อมูลของคุณโดยอัตโนมัติ แยกวิเคราะห์ แยกคุณลักษณะที่มีความหมาย และฝึกอัลกอริทึม ML หลายชุด

คุณสามารถเริ่มต้นใช้งาน .ของเราได้ โน๊ตบุ๊คตัวอย่าง สำหรับการรัน AutoML โดยใช้ Autopilot บนชุดข้อมูล Parquet


เกี่ยวกับผู้เขียน

เอช. เฟอร์คาน บอซเคิร์ท, วิศวกรแมชชีนเลิร์นนิง, Amazon SageMaker Autopilot

วาเลริโอ เปโรเน, ผู้จัดการฝ่ายวิทยาศาสตร์ประยุกต์, Amazon SageMaker Autopilot

ที่มา: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

ประทับเวลา:

เพิ่มเติมจาก บล็อก AWS Machine Learning