ลดต้นทุนคลัสเตอร์ Amazon EMR ได้ถึง 19% ด้วยการปรับปรุงใหม่ใน Amazon EMR Managed Scaling

ลดต้นทุนคลัสเตอร์ Amazon EMR ได้ถึง 19% ด้วยการปรับปรุงใหม่ใน Amazon EMR Managed Scaling

โหนดต้นทาง: 1985302

ในเดือนมิถุนายน 2020 AWS ได้ประกาศความพร้อมใช้งานทั่วไปของ การปรับขนาดที่มีการจัดการของ Amazon EMR. ด้วย EMR Managed Scaling คุณจะระบุขีดจำกัดการประมวลผลขั้นต่ำและสูงสุดสำหรับคลัสเตอร์ของคุณ จากนั้น Amazon EMR จะปรับขนาดคลัสเตอร์ของคุณโดยอัตโนมัติเพื่อประสิทธิภาพสูงสุดและการใช้ทรัพยากร EMR Managed Scaling จะตรวจสอบตัววัดที่เกี่ยวข้องกับปริมาณงานที่สำคัญอย่างต่อเนื่อง และใช้อัลกอริทึมที่ปรับขนาดคลัสเตอร์ให้เหมาะสมเพื่อการใช้ทรัพยากรที่ดีที่สุด เนื่องจากคุณลักษณะนี้ได้รับการจัดการอย่างสมบูรณ์ การปรับปรุงอัลกอริทึมจึงเกิดขึ้นได้ทันทีโดยไม่จำเป็นต้องอัปเกรดเวอร์ชัน Amazon EMR สามารถปรับขนาดคลัสเตอร์ขึ้นในช่วงพีคและลดขนาดลงได้อย่างสวยงามในช่วงที่ไม่มีการใช้งาน ซึ่งช่วยลดต้นทุนและเพิ่มประสิทธิภาพความจุของคลัสเตอร์เพื่อประสิทธิภาพที่ดีที่สุด

ตลอดปี 2022 เราได้ปรับปรุงอัลกอริทึม EMR Managed Scaling หลายประการ จากการปรับปรุงเหล่านี้ เราสังเกตเห็นว่าสำหรับคลัสเตอร์ที่เปิดใช้งานด้วย EMR Managed Scaling การใช้งานได้รับการปรับปรุงสูงสุดถึง 15 เปอร์เซ็นต์ และต้นทุนทั้งหมดลดลงอีกถึง 19 เปอร์เซ็นต์ ตั้งแต่กลางเดือนธันวาคม 2022 เป็นต้นไป การปรับปรุง EMR Managed Scaling จะถูกเปิดใช้งานตามค่าเริ่มต้นสำหรับคลัสเตอร์ที่ใช้ Amazon EMR เวอร์ชัน 5.34.0 และใหม่กว่า และ Amazon EMR เวอร์ชัน 6.4.0 และใหม่กว่าสำหรับทั้งคลัสเตอร์ใหม่และที่มีอยู่ นอกจากนี้ เนื่องจากคุณลักษณะนี้ได้รับการจัดการโดยสมบูรณ์ คุณจะได้รับอัลกอริทึม Managed Scaling ที่ได้รับการปรับปรุงใหม่ตามค่าเริ่มต้น และคุณไม่จำเป็นต้องดำเนินการใดๆ

รายการด้านล่างนี้คือการปรับปรุงหลักบางส่วนที่เราเปิดใช้งานสำหรับ EMR Managed Scaling:

  • ปรับปรุงการใช้งานคลัสเตอร์ด้วยการลดขนาดเป้าหมายของคลัสเตอร์ EMR ของคุณ
  • ลดต้นทุนโดยการป้องกันการลดขนาดอินสแตนซ์ที่จัดเก็บข้อมูลสับเปลี่ยนระหว่างกลางโดยใช้ การรับรู้ข้อมูล Spark Shuffle
  • ปรับปรุงการใช้งานคลัสเตอร์และลดต้นทุนด้วยการปรับขนาดคลัสเตอร์ EMR ของคุณทีละน้อย

เรื่องราวความสำเร็จของลูกค้า

อัลกอริธึม EMR Managed Scaling ที่ได้รับการปรับปรุงช่วยให้องค์กรด้านเทคโนโลยีลดต้นทุนได้อย่างไร:

เพื่อแสดงให้เห็นการประหยัดต้นทุนตามตัวอย่าง เราได้ดูคลัสเตอร์ EMR สำหรับองค์กรเทคโนโลยี ซึ่งใช้ Amazon EMR อย่างหนักในการประมวลผลข้อมูลการเรียกเก็บเงินแบบเรียลไทม์ระหว่าง Kafka และ S3 โดยใช้ Spark โดยเรียกใช้คลัสเตอร์ EMR แบบถาวรด้วย EMR เวอร์ชัน 5.35 และเปิดใช้งาน EMR Managed Scaling แดชบอร์ด Amazon CloudWatch ต่อไปนี้แสดงให้เห็นว่าตั้งแต่วันที่ 21 ธันวาคม จะมีการจัดเตรียมอัลกอริทึม Managed Scaling ที่ปรับปรุงแล้วอย่างไร (โหนดทั้งหมดที่ร้องขอ) เพียง 70 โหนด เทียบกับอัลกอริธึม Managed Scaling ก่อนหน้านี้ ซึ่งจัดเตรียม 179 โหนดสำหรับโปรไฟล์งานที่คล้ายกัน ยิ่งจำนวนทรัพยากรที่จัดเตรียมไว้เพื่อรันงานของคุณน้อยลง ต้นทุนรวมของคลัสเตอร์ EMR ของคุณก็จะยิ่งต่ำลง

อัลกอริธึม EMR Managed Scaling ที่ได้รับการปรับปรุงช่วยให้องค์กรโฆษณาลดต้นทุนได้อย่างไร:

นอกจากนี้เรายังดูคลัสเตอร์ EMR สำหรับองค์กรโฆษณาซึ่งใช้ประโยชน์จาก Amazon EMR สำหรับกลยุทธ์การวิเคราะห์ข้อมูลและดำเนินงาน ETL แบบแบตช์โดยใช้ Spark พวกเขารันคลัสเตอร์บน EMR เวอร์ชัน 6.5 และเปิดใช้งาน EMR Managed Scaling แดชบอร์ด Amazon CloudWatch ต่อไปนี้แสดงให้เห็นว่าตั้งแต่วันที่ 15 ธันวาคม เป็นต้นไป อัลกอริทึม Managed Scaling ที่ได้รับการปรับปรุงได้รับการจัดเตรียม (หน่วยทั้งหมดที่ร้องขอ) เพียง 41 โหนด เทียบกับอัลกอริธึม Managed Scaling ก่อนหน้านี้ ซึ่งจัดเตรียม 86 โหนดสำหรับโปรไฟล์งานที่คล้ายกัน

การประมาณค่าการประหยัดต้นทุนและการปรับปรุงการใช้งานสำหรับคลัสเตอร์ EMR ของคุณ:

การประหยัดต้นทุนคลัสเตอร์:

หากต้องการดูการประหยัดต้นทุนโดยประมาณสำหรับคลัสเตอร์ EMR ของคุณด้วยการปรับปรุง EMR Managed Scaling โปรดทำตามขั้นตอนด้านล่าง:

  • เปิด คอนโซลตัววัด CloudWatch และภายใต้ EMR, ค้นหาโดยคุณ ClusterId.
  • จากรายการเมตริกที่มีสำหรับ EMR ให้เลือกเมตริกสองรายการต่อไปนี้:
    • กำลังการผลิต – ขึ้นอยู่กับประเภทหน่วยที่คุณระบุไว้ในนโยบาย Managed Scaling คุณจะสามารถใช้ได้เป็น “จำนวนหน่วยทั้งหมดที่ทำงานอยู่" หรือ "TotalNodesกำลังทำงานอยู่" หรือ "TotalVCPUรันนิ่ง"
    • ความจุที่ร้องขอโดย Managed Scaling – ขึ้นอยู่กับประเภทหน่วยที่คุณระบุไว้ในนโยบาย Managed Scaling คุณจะสามารถใช้ได้เป็น “จำนวนหน่วยที่ร้องขอ" หรือ "ร้องขอ TotalNodes" หรือ "ขอ TotalVCPU แล้ว"
  •  พล็อตตัววัดทั้งสองลงในแดชบอร์ด CloudWatch ของคุณ
  • เลือกกรอบเวลาเป็น 3 เดือนระหว่างเดือนพฤศจิกายน 2022 ถึงมกราคม 2023 เพื่อดูการปรับปรุงด้วยอัลกอริทึม Managed Scaling ที่ปรับปรุงแล้ว เมื่อเปรียบเทียบกับอัลกอริทึม Managed Scaling ก่อนหน้า

การปรับปรุงการใช้งานคลัสเตอร์:

หากต้องการประเมินการปรับปรุงการใช้งานคลัสเตอร์ EMR ของคุณด้วยการปรับปรุง EMR Managed Scaling โปรดทำตามขั้นตอนด้านล่าง:

  • เปิดคอนโซลตัววัด CloudWatch และภายใต้ EMR, ค้นหาโดยคุณ ClusterId.
  • จากรายการตัวชี้วัดที่มีสำหรับ EMR ให้เลือก “YARNหน่วยความจำเปอร์เซ็นต์ที่มีอยู่” เมตริก
  • หากต้องการรับหน่วยความจำที่ใช้โดย YARN ให้เพิ่มนิพจน์ทางคณิตศาสตร์เช่น “เพิ่มคณิตศาสตร์ → เริ่มต้นด้วยนิพจน์ว่าง”
    • สำหรับนิพจน์ทางคณิตศาสตร์ใหม่ ให้ตั้งค่า ป้ายกำกับ=การใช้เส้นด้าย และตั้งค่า รายละเอียด=100-YARNMemoryAvailablePercentage.
  • พล็อตตัววัดการใช้งานคลัสเตอร์ไปยังแดชบอร์ด CloudWatch ของคุณ
  • เลือกกรอบเวลาเป็น 3 เดือนระหว่างเดือนพฤศจิกายน 2022 ถึงมกราคม 2023 เพื่อดูการปรับปรุงด้วยอัลกอริทึม Managed Scaling ที่ปรับปรุงแล้ว เมื่อเปรียบเทียบกับอัลกอริทึม Managed Scaling ก่อนหน้า

อะไรต่อไป

เราจะยังคงปรับแต่งอัลกอริธึม Managed Scaling ด้วย EMR ใหม่ทุกรุ่น และด้วยเหตุนี้จึงปรับปรุงประสบการณ์ของลูกค้าเมื่อปรับขนาดคลัสเตอร์ด้วย EMR Managed Scaling

สรุป

ในโพสต์นี้ เราได้ให้ภาพรวมของการปรับปรุงหลักที่เราเปิดตัวใน EMR Managed Scaling ด้วยการปรับปรุงเหล่านี้ เราพบว่าการใช้งานคลัสเตอร์ดีขึ้นถึง 15 เปอร์เซ็นต์ และต้นทุนของคลัสเตอร์ลดลงถึง 19 เปอร์เซ็นต์ ตั้งแต่กลางเดือนธันวาคม 2022 เป็นต้นไป การปรับปรุงเหล่านี้เปิดใช้งานตามค่าเริ่มต้นสำหรับคลัสเตอร์ EMR ที่ใช้ Amazon EMR เวอร์ชัน 5.34.0 ขึ้นไป และ Amazon EMR เวอร์ชัน 6.4.0 ขึ้นไป เนื่องจาก EMR Managed Scaling เป็นคุณสมบัติที่มีการจัดการโดยสมบูรณ์ คุณจะได้รับอัลกอริธึม EMR Managed Scaling ใหม่ที่ปรับให้เหมาะสมตามค่าเริ่มต้น และคุณไม่จำเป็นต้องดำเนินการใดๆ

หากต้องการเรียนรู้เพิ่มเติมและเริ่มต้นใช้งาน EMR Managed Scaling โปรดไปที่ หน้าเอกสารประกอบ EMR Managed Scaling.


เกี่ยวกับผู้เขียน

สุชานต์ มาจิเธีย เป็นผู้จัดการผลิตภัณฑ์หลักสำหรับ EMR ที่ Amazon Web Services

 วิชาล วยาส เป็นวิศวกรซอฟต์แวร์อาวุโสของ EMR ที่ Amazon Web Services

แมทธิว เลียม เป็นผู้จัดการสถาปัตยกรรมโซลูชันอาวุโสที่ AWS

ประทับเวลา:

เพิ่มเติมจาก AWS ข้อมูลขนาดใหญ่

การกำกับดูแลข้อมูลอัตโนมัติด้วยคุณภาพข้อมูล AWS Glue การตรวจจับข้อมูลที่ละเอียดอ่อน และ AWS Lake Formation | อเมซอนเว็บเซอร์วิส

โหนดต้นทาง: 2934245
ประทับเวลา: ตุลาคม 10, 2023

ใช้คำสั่ง SQL ใหม่ MERGE และ QUALIFY เพื่อนำไปใช้และตรวจสอบความถูกต้องของการบันทึกข้อมูลการเปลี่ยนแปลงใน Amazon Redshift | อเมซอนเว็บเซอร์วิส

โหนดต้นทาง: 2896166
ประทับเวลา: กันยายน 22, 2023