อเมซอน EMR ให้บริการที่มีการจัดการเพื่อเรียกใช้แอปพลิเคชันการวิเคราะห์โดยใช้เฟรมเวิร์กโอเพ่นซอร์ส เช่น Apache Spark, Hive, Presto, Trino, HBase และ Flink รันไทม์ Amazon EMR สำหรับ จุดประกาย และ โอมเพี้ยง รวมถึงการเพิ่มประสิทธิภาพที่ให้การปรับปรุงประสิทธิภาพมากกว่าสองเท่าเมื่อเทียบกับ Apache Spark และ Presto แบบโอเพ่นซอร์ส
ด้วย Amazon EMR รีลีส 6.7 ตอนนี้คุณสามารถใช้ อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (Amazon EC2) อินสแตนซ์ C7g ซึ่งใช้ AWS Graviton3 โปรเซสเซอร์ อินสแตนซ์เหล่านี้ปรับปรุงประสิทธิภาพด้านราคาของการเรียกใช้ปริมาณงาน Spark บน Amazon EMR ได้ 7.93–13.35% เมื่อเทียบกับอินสแตนซ์รุ่นก่อนหน้า ขึ้นอยู่กับขนาดของอินสแตนซ์ ในโพสต์นี้ เราจะอธิบายวิธีประเมินผลประโยชน์ด้านราคาและประสิทธิภาพ
ประสิทธิภาพรันไทม์ของ Amazon EMR พร้อมอินสแตนซ์ EC2 C7g
เรารันการสืบค้นเกณฑ์มาตรฐาน TPC-DS 3 TB บน Amazon EMR 6.9 โดยใช้รันไทม์ Amazon EMR สำหรับ Apache Spark (เข้ากันได้กับ Apache Spark 3.3) ด้วยอินสแตนซ์ C7g ข้อมูลถูกเก็บไว้ใน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) และผลลัพธ์ถูกเปรียบเทียบกับคลัสเตอร์ C6g ที่เทียบเท่าจากตระกูลอินสแตนซ์รุ่นก่อนหน้า เราวัดผลการปรับปรุงประสิทธิภาพโดยใช้รันไทม์การสืบค้นทั้งหมดและค่าเฉลี่ยทางเรขาคณิตของรันไทม์การสืบค้นข้ามการสืบค้นเปรียบเทียบ TPC-DS 3 TB
ผลลัพธ์ของเราแสดงการปรับปรุง 13.65–18.73% ในประสิทธิภาพรันไทม์การสืบค้นทั้งหมด และการปรับปรุงค่าเฉลี่ยเรขาคณิต 16.98–20.28% บนคลัสเตอร์ EMR ที่มี C7g เมื่อเทียบกับคลัสเตอร์ EMR ที่เทียบเท่ากับอินสแตนซ์ C6g ทั้งนี้ขึ้นอยู่กับขนาดของอินสแตนซ์ ในการเปรียบเทียบต้นทุน เราสังเกตเห็นการลดลง 7.93–13.35% ในคลัสเตอร์ EMR ที่มี C7g เมื่อเทียบกับ C6g ที่เทียบเท่า ทั้งนี้ขึ้นอยู่กับขนาดของอินสแตนซ์ เราไม่ได้เปรียบเทียบอินสแตนซ์ C6g xlarge เนื่องจากอินสแตนซ์มีหน่วยความจำไม่เพียงพอที่จะเรียกใช้การสืบค้น
ตารางต่อไปนี้แสดงผลจากการเรียกใช้การสืบค้นข้อมูลเปรียบเทียบ TPC-DS ขนาด 3 TB โดยใช้ Amazon EMR 6.9 เทียบกับคลัสเตอร์ EMR ของอินสแตนซ์ C7g และ C6g ที่เทียบเท่า
ขนาดอินสแตนซ์ | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
ขนาดรวมของคลัสเตอร์ (1 ลีดเดอร์ + 5 คอร์โหนด) | 6 | 6 | 6 | 6 | 6 |
รันไทม์แบบสอบถามทั้งหมดบน C6g (วินาที) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
รันไทม์แบบสอบถามทั้งหมดบน C7g (วินาที) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
การปรับปรุงรันไทม์แบบสอบถามโดยรวมด้วย C7g | 13.65% | 15.13% | 14.95% | 18.73% | 16.64% |
รันไทม์การค้นหาค่าเฉลี่ยทางเรขาคณิต C6g (วินาที) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
รันไทม์การค้นหาค่าเฉลี่ยทางเรขาคณิต C7g (วินาที) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
การปรับปรุงรันไทม์แบบสอบถามค่าเฉลี่ยทางเรขาคณิตด้วย C7g | 16.98% | 18.83% | 18.66% | 20.28% | 17.57% |
ราคาอินสแตนซ์ EC2 C6g ($ ต่อชั่วโมง) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
ราคาอินสแตนซ์ EMR C6g ($ ต่อชั่วโมง) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
ราคาอินสแตนซ์ (EC2 + EMR) ($ ต่อชั่วโมง) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
ค่าใช้จ่ายในการรันบน C6g ($ ต่ออินสแตนซ์) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
ราคาอินสแตนซ์ EC2 C7g ($ ต่อชั่วโมง) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
ราคา EMR C7g ($ ต่อชั่วโมงต่ออินสแตนซ์) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) ราคาอินสแตนซ์ C7g ($ ต่อชั่วโมง) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
ค่าใช้จ่ายในการรันบน C7g ($ ต่ออินสแตนซ์) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
การลดต้นทุนโดยรวมด้วย C7g รวมถึงการปรับปรุงประสิทธิภาพ | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
กราฟต่อไปนี้แสดงการปรับปรุงตามการสืบค้นที่สังเกตได้ในอินสแตนซ์ C7g 2xlarge เมื่อเปรียบเทียบกับรุ่น C6g ที่เทียบเท่า
วิธีการเปรียบเทียบ
เกณฑ์มาตรฐานที่ใช้ในโพสต์นี้มาจากเกณฑ์มาตรฐานอุตสาหกรรม TPC-DS และใช้ข้อความค้นหาจาก Spark SQL ทดสอบประสิทธิภาพ repo GitHub ดังต่อไปนี้ แก้ไข ประยุกต์
เราคำนวณ TCO โดยการคูณค่าใช้จ่ายต่อชั่วโมงด้วยจำนวนอินสแตนซ์ในคลัสเตอร์และเวลาที่ใช้ในการเรียกใช้การสืบค้นในคลัสเตอร์ เราใช้การกำหนดราคาตามความต้องการในภูมิภาคสหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียเหนือ) สำหรับทุกกรณี
สรุป
ในโพสต์นี้ เราได้อธิบายวิธีประเมินผลประโยชน์ด้านต้นทุนจากการใช้ Amazon EMR กับอินสแตนซ์ C7g เปรียบเทียบกับการใช้อินสแตนซ์รุ่นก่อนหน้าที่เทียบเท่ากัน การใช้อินสแตนซ์ใหม่เหล่านี้กับ Amazon EMR ช่วยปรับปรุงประสิทธิภาพด้านต้นทุนเพิ่มขึ้นอีก 7–13%
เกี่ยวกับผู้แต่ง
อัล เอ็มเอส เป็นผู้จัดการผลิตภัณฑ์สำหรับ Amazon EMR ที่ Amazon Web Services
คยองฮยอน รยู เป็นวิศวกรพัฒนาซอฟต์แวร์สำหรับ EMR ที่ Amazon Web Services เขาทำงานเกี่ยวกับการออกแบบและสร้างเครื่องมืออัตโนมัติสำหรับทีมภายในและลูกค้าเป็นหลักเพื่อเพิ่มประสิทธิภาพการทำงานสูงสุด นอกเวลางาน เขาเป็นแชมป์โลกที่เกษียณแล้วในวงการเกมมืออาชีพที่ยังคงสนุกกับการเล่นวิดีโอเกม
หยูโจวซัน เป็นวิศวกรพัฒนาซอฟต์แวร์สำหรับ EMR ที่ Amazon Web Services
สตีฟ คูนเซ่ เป็นผู้จัดการฝ่ายวิศวกรรมสำหรับ EMR ที่ Amazon Web Services
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 35%
- 7
- 9
- a
- ข้าม
- เพิ่มเติม
- AI
- ทั้งหมด
- อเมซอน
- Amazon EC2
- อเมซอน EMR
- Amazon Web Services
- การวิเคราะห์
- และ
- อาปาเช่
- Apache Spark
- การใช้งาน
- ประยุกต์
- อัตโนมัติ
- เพราะ
- มาตรฐาน
- ประโยชน์
- การก่อสร้าง
- คำนวณ
- แชมป์
- Cluster
- เมื่อเทียบกับ
- เปรียบเทียบ
- เข้ากันได้
- คำนวณ
- แกน
- ราคา
- ลดต้นทุน
- ค่าใช้จ่าย
- ลูกค้า
- ข้อมูล
- ทั้งนี้ขึ้นอยู่กับ
- ที่ได้มา
- บรรยาย
- อธิบาย
- การออกแบบ
- พัฒนาการ
- DID
- อย่างง่ายดาย
- ตะวันออก
- วิศวกร
- ชั้นเยี่ยม
- เพลิดเพลิน
- เท่ากัน
- ประมาณ
- อีเธอร์ (ETH)
- ครอบครัว
- ดังต่อไปนี้
- กรอบ
- ราคาเริ่มต้นที่
- เกม
- การเล่นเกม
- รุ่น
- ชั่วอายุคน
- GitHub
- กราฟ
- รัง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- HTTPS
- ปรับปรุง
- การปรับปรุง
- การปรับปรุง
- ช่วยเพิ่ม
- in
- รวมถึง
- รวมทั้ง
- ตัวอย่าง
- ภายใน
- IT
- การเปิดตัว
- ผู้นำ
- การจัดการ
- ผู้จัดการ
- เพิ่ม
- หน่วยความจำ
- MS
- คูณ
- ใหม่
- โหนด
- จำนวน
- โอเพนซอร์ส
- ด้านนอก
- การปฏิบัติ
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- เล่น
- โพสต์
- ก่อน
- ราคา
- การตั้งราคา
- ส่วนใหญ่
- โปรเซสเซอร์
- ผลิตภัณฑ์
- ผู้จัดการผลิตภัณฑ์
- ผลผลิต
- มืออาชีพ
- ให้
- ให้
- ภูมิภาค
- ปล่อย
- ผลสอบ
- วิ่ง
- วิ่ง
- วินาที
- บริการ
- บริการ
- แสดงให้เห็นว่า
- ง่าย
- ขนาด
- ซอฟต์แวร์
- การพัฒนาซอฟต์แวร์
- จุดประกาย
- SQL
- ยังคง
- การเก็บรักษา
- เก็บไว้
- อย่างเช่น
- เพียงพอ
- สนับสนุน
- ตาราง
- ทีม
- การทดสอบ
- พื้นที่
- ของพวกเขา
- เวลา
- ไปยัง
- เครื่องมือ
- รวม
- us
- ใช้
- วีดีโอ
- วิดีโอเกม
- virginia
- เว็บ
- บริการเว็บ
- ที่
- WHO
- งาน
- โรงงาน
- โลก
- ลมทะเล