Amazon EMR เปิดตัวการรองรับอินสแตนซ์ Amazon EC2 C7g (Graviton3) เพื่อปรับปรุงประสิทธิภาพด้านต้นทุนสำหรับปริมาณงาน Spark ขึ้น 7–13%

Amazon EMR เปิดตัวการรองรับอินสแตนซ์ Amazon EC2 C7g (Graviton3) เพื่อปรับปรุงประสิทธิภาพด้านต้นทุนสำหรับปริมาณงาน Spark ขึ้น 7–13%

โหนดต้นทาง: 1935298

อเมซอน EMR ให้บริการที่มีการจัดการเพื่อเรียกใช้แอปพลิเคชันการวิเคราะห์โดยใช้เฟรมเวิร์กโอเพ่นซอร์ส เช่น Apache Spark, Hive, Presto, Trino, HBase และ Flink รันไทม์ Amazon EMR สำหรับ จุดประกาย และ โอมเพี้ยง รวมถึงการเพิ่มประสิทธิภาพที่ให้การปรับปรุงประสิทธิภาพมากกว่าสองเท่าเมื่อเทียบกับ Apache Spark และ Presto แบบโอเพ่นซอร์ส

ด้วย Amazon EMR รีลีส 6.7 ตอนนี้คุณสามารถใช้ อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (Amazon EC2) อินสแตนซ์ C7g ซึ่งใช้ AWS Graviton3 โปรเซสเซอร์ อินสแตนซ์เหล่านี้ปรับปรุงประสิทธิภาพด้านราคาของการเรียกใช้ปริมาณงาน Spark บน Amazon EMR ได้ 7.93–13.35% เมื่อเทียบกับอินสแตนซ์รุ่นก่อนหน้า ขึ้นอยู่กับขนาดของอินสแตนซ์ ในโพสต์นี้ เราจะอธิบายวิธีประเมินผลประโยชน์ด้านราคาและประสิทธิภาพ

ประสิทธิภาพรันไทม์ของ Amazon EMR พร้อมอินสแตนซ์ EC2 C7g

เรารันการสืบค้นเกณฑ์มาตรฐาน TPC-DS 3 TB บน Amazon EMR 6.9 โดยใช้รันไทม์ Amazon EMR สำหรับ Apache Spark (เข้ากันได้กับ Apache Spark 3.3) ด้วยอินสแตนซ์ C7g ข้อมูลถูกเก็บไว้ใน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) และผลลัพธ์ถูกเปรียบเทียบกับคลัสเตอร์ C6g ที่เทียบเท่าจากตระกูลอินสแตนซ์รุ่นก่อนหน้า เราวัดผลการปรับปรุงประสิทธิภาพโดยใช้รันไทม์การสืบค้นทั้งหมดและค่าเฉลี่ยทางเรขาคณิตของรันไทม์การสืบค้นข้ามการสืบค้นเปรียบเทียบ TPC-DS 3 TB

ผลลัพธ์ของเราแสดงการปรับปรุง 13.65–18.73% ในประสิทธิภาพรันไทม์การสืบค้นทั้งหมด และการปรับปรุงค่าเฉลี่ยเรขาคณิต 16.98–20.28% บนคลัสเตอร์ EMR ที่มี C7g เมื่อเทียบกับคลัสเตอร์ EMR ที่เทียบเท่ากับอินสแตนซ์ C6g ทั้งนี้ขึ้นอยู่กับขนาดของอินสแตนซ์ ในการเปรียบเทียบต้นทุน เราสังเกตเห็นการลดลง 7.93–13.35% ในคลัสเตอร์ EMR ที่มี C7g เมื่อเทียบกับ C6g ที่เทียบเท่า ทั้งนี้ขึ้นอยู่กับขนาดของอินสแตนซ์ เราไม่ได้เปรียบเทียบอินสแตนซ์ C6g xlarge เนื่องจากอินสแตนซ์มีหน่วยความจำไม่เพียงพอที่จะเรียกใช้การสืบค้น

ตารางต่อไปนี้แสดงผลจากการเรียกใช้การสืบค้นข้อมูลเปรียบเทียบ TPC-DS ขนาด 3 TB โดยใช้ Amazon EMR 6.9 เทียบกับคลัสเตอร์ EMR ของอินสแตนซ์ C7g และ C6g ที่เทียบเท่า

ขนาดอินสแตนซ์ 16 XL 12 XL 8 XL 4 XL 2 XL
ขนาดรวมของคลัสเตอร์ (1 ลีดเดอร์ + 5 คอร์โหนด) 6 6 6 6 6
รันไทม์แบบสอบถามทั้งหมดบน C6g (วินาที) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
รันไทม์แบบสอบถามทั้งหมดบน C7g (วินาที) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
การปรับปรุงรันไทม์แบบสอบถามโดยรวมด้วย C7g 13.65% 15.13% 14.95% 18.73% 16.64%
รันไทม์การค้นหาค่าเฉลี่ยทางเรขาคณิต C6g (วินาที) 22.2113 21.75459 23.38081 31.97192 45.41656
รันไทม์การค้นหาค่าเฉลี่ยทางเรขาคณิต C7g (วินาที) 18.43905 17.65898 19.01684 25.48695 37.43737
การปรับปรุงรันไทม์แบบสอบถามค่าเฉลี่ยทางเรขาคณิตด้วย C7g 16.98% 18.83% 18.66% 20.28% 17.57%
ราคาอินสแตนซ์ EC2 C6g ($ ต่อชั่วโมง) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
ราคาอินสแตนซ์ EMR C6g ($ ต่อชั่วโมง) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
ราคาอินสแตนซ์ (EC2 + EMR) ($ ต่อชั่วโมง) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
ค่าใช้จ่ายในการรันบน C6g ($ ต่ออินสแตนซ์) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
ราคาอินสแตนซ์ EC2 C7g ($ ต่อชั่วโมง) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
ราคา EMR C7g ($ ต่อชั่วโมงต่ออินสแตนซ์) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) ราคาอินสแตนซ์ C7g ($ ต่อชั่วโมง) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
ค่าใช้จ่ายในการรันบน C7g ($ ต่ออินสแตนซ์) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
การลดต้นทุนโดยรวมด้วย C7g รวมถึงการปรับปรุงประสิทธิภาพ -7.93% -9.52% -9.32% -13.35% -11.13%

กราฟต่อไปนี้แสดงการปรับปรุงตามการสืบค้นที่สังเกตได้ในอินสแตนซ์ C7g 2xlarge เมื่อเปรียบเทียบกับรุ่น C6g ที่เทียบเท่า

วิธีการเปรียบเทียบ

เกณฑ์มาตรฐานที่ใช้ในโพสต์นี้มาจากเกณฑ์มาตรฐานอุตสาหกรรม TPC-DS และใช้ข้อความค้นหาจาก Spark SQL ทดสอบประสิทธิภาพ repo GitHub ดังต่อไปนี้ แก้ไข ประยุกต์

เราคำนวณ TCO โดยการคูณค่าใช้จ่ายต่อชั่วโมงด้วยจำนวนอินสแตนซ์ในคลัสเตอร์และเวลาที่ใช้ในการเรียกใช้การสืบค้นในคลัสเตอร์ เราใช้การกำหนดราคาตามความต้องการในภูมิภาคสหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียเหนือ) สำหรับทุกกรณี

สรุป

ในโพสต์นี้ เราได้อธิบายวิธีประเมินผลประโยชน์ด้านต้นทุนจากการใช้ Amazon EMR กับอินสแตนซ์ C7g เปรียบเทียบกับการใช้อินสแตนซ์รุ่นก่อนหน้าที่เทียบเท่ากัน การใช้อินสแตนซ์ใหม่เหล่านี้กับ Amazon EMR ช่วยปรับปรุงประสิทธิภาพด้านต้นทุนเพิ่มขึ้นอีก 7–13%


เกี่ยวกับผู้แต่ง

เอไอเอ็มเอสอัล เอ็มเอส เป็นผู้จัดการผลิตภัณฑ์สำหรับ Amazon EMR ที่ Amazon Web Services

คยองฮยอน รยู เป็นวิศวกรพัฒนาซอฟต์แวร์สำหรับ EMR ที่ Amazon Web Services เขาทำงานเกี่ยวกับการออกแบบและสร้างเครื่องมืออัตโนมัติสำหรับทีมภายในและลูกค้าเป็นหลักเพื่อเพิ่มประสิทธิภาพการทำงานสูงสุด นอกเวลางาน เขาเป็นแชมป์โลกที่เกษียณแล้วในวงการเกมมืออาชีพที่ยังคงสนุกกับการเล่นวิดีโอเกม

หยูโจวซัน เป็นวิศวกรพัฒนาซอฟต์แวร์สำหรับ EMR ที่ Amazon Web Services

สตีฟ คูนเซ่ เป็นผู้จัดการฝ่ายวิศวกรรมสำหรับ EMR ที่ Amazon Web Services

ประทับเวลา:

เพิ่มเติมจาก AWS ข้อมูลขนาดใหญ่