ในโลกปัจจุบัน ลูกค้าจัดการข้อมูลจำนวนมหาศาลในตัวเอง บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon Data Lake (Amazon S3) ซึ่งต้องใช้ไปป์ไลน์ข้อมูลที่ซับซ้อนเพื่อทำความเข้าใจการเปลี่ยนแปลงในรูปแบบข้อมูลอย่างต่อเนื่องและทำให้พร้อมใช้งานสำหรับระบบที่ใช้งาน AWS กาว โปรแกรมรวบรวมข้อมูลมอบวิธีที่ตรงไปตรงมาในการจัดทำรายการข้อมูลใน AWS Glue Data Catalog ซึ่งจะขจัดความยุ่งยากเมื่อต้องจัดการกับสคีมาและการจัดประเภทข้อมูล โปรแกรมรวบรวมข้อมูล AWS Glue แยกสคีมาข้อมูลและพาร์ติชันจาก Amazon S3 เพื่อเติมข้อมูลในแค็ตตาล็อกข้อมูลโดยอัตโนมัติ ทำให้ข้อมูลเมตาเป็นปัจจุบัน
แต่ด้วยข้อมูลที่เพิ่มขึ้นอย่างทวีคูณเมื่อเวลาผ่านไป จำนวนพาร์ติชันในตารางหนึ่งๆ จะเพิ่มขึ้นอย่างมาก เนื่องจากบริการวิเคราะห์เช่น อเมซอน อาเธน่า ค้นหาตารางที่มีพาร์ติชันหลายล้านพาร์ติชัน เวลาที่ต้องใช้ในการดึงพาร์ติชันเพิ่มขึ้น และอาจทำให้รันไทม์ของคิวรีเพิ่มขึ้น
วันนี้ การสนับสนุนโปรแกรมรวบรวมข้อมูล AWS Glue ได้รับการขยายเพื่อเพิ่มดัชนีพาร์ติชันโดยอัตโนมัติสำหรับตารางที่เพิ่งค้นพบเพื่อเพิ่มประสิทธิภาพการประมวลผลแบบสอบถามในชุดข้อมูลที่แบ่งพาร์ติชัน ขณะนี้เมื่อโปรแกรมรวบรวมข้อมูลสร้างตารางแค็ตตาล็อกข้อมูลใหม่ระหว่างการเรียกใช้โปรแกรมรวบรวมข้อมูล โปรแกรมจะสร้างดัชนีพาร์ติชันตามค่าเริ่มต้นด้วย โดยการเปลี่ยนลำดับที่ใหญ่ที่สุดของคอลัมน์พาร์ติชันประเภทตัวเลขและสตริงทั้งหมดเป็นคีย์ จากนั้น Data Catalog จะสร้างดัชนีที่ค้นหาได้โดยใช้คีย์เหล่านี้ ซึ่งช่วยลดเวลาที่ต้องใช้ในการเรียกและกรองข้อมูลเมตาของพาร์ติชันบนตารางที่มีพาร์ติชันหลายล้านพาร์ติชัน การสร้างดัชนีพาร์ติชันเป็นประโยชน์ต่อเวิร์กโหลดการวิเคราะห์ที่ทำงานบน Athena อเมซอน EMR, อเมซอน Redshift Spectrumและ AWS Glue
ในโพสต์นี้ เราจะอธิบายวิธีสร้างดัชนีพาร์ติชันด้วยโปรแกรมรวบรวมข้อมูล AWS Glue และเปรียบเทียบการปรับปรุงประสิทธิภาพการสืบค้นเมื่อเข้าถึงข้อมูลที่รวบรวมข้อมูลด้วยและไม่มีดัชนีพาร์ติชันจาก Athena
ภาพรวมโซลูชัน
เราใช้ไฟล์ การก่อตัวของ AWS Cloud เทมเพลตเพื่อสร้างทรัพยากรโซลูชันของเรา ในขั้นตอนต่อไปนี้ เราจะสาธิตวิธีกำหนดค่าโปรแกรมรวบรวมข้อมูล AWS Glue เพื่อสร้างดัชนีพาร์ติชันโดยใช้คอนโซล AWS Glue หรือ อินเทอร์เฟซบรรทัดคำสั่ง AWS AWS (AWS CLI) จากนั้นเราจะเปรียบเทียบการปรับปรุงประสิทธิภาพการค้นหาโดยใช้ Athena
เบื้องต้น
หากต้องการติดตามโพสต์นี้ คุณต้องมีสิทธิ์เข้าถึง AWS Identity และการจัดการการเข้าถึง (IAM) บทบาทผู้ดูแลระบบเพื่อสร้างทรัพยากรโดยใช้ AWS CloudFormation
ตั้งค่าทรัพยากรโซลูชันของคุณ
เทมเพลต CloudFormation สร้างทรัพยากรต่อไปนี้:
- บทบาทและนโยบายของ IAM
- ฐานข้อมูล AWS Glue เพื่อเก็บสคีมา
- โปรแกรมรวบรวมข้อมูล AWS Glue ที่ชี้ไปยังชุดข้อมูลที่มีการแบ่งพาร์ติชันสูง
- เวิร์กกรุ๊ป Athena และบัคเก็ตเพื่อจัดเก็บผลลัพธ์การค้นหา
ทำตามขั้นตอนต่อไปนี้เพื่อตั้งค่าทรัพยากรของโซลูชัน:
- เข้าสู่ระบบเพื่อ คอนโซลการจัดการ AWS ในฐานะผู้ดูแลระบบ IAM
- Choose เรียกใช้ Stack ในการปรับใช้เทมเพลต CloudFormation:
- สำหรับ ชื่อฐานข้อมูลให้เป็นค่าเริ่มต้น
blog_partition_index_crawlerdb
. - Choose ถัดไป.
- ตรวจสอบรายละเอียดในหน้าสุดท้ายและเลือก ฉันรับทราบว่า AWS CloudFormation อาจสร้างทรัพยากร IAM.
- Choose สร้าง stack.
- เมื่อสแต็กเสร็จสมบูรณ์ บนคอนโซล AWS CloudFormation ให้ไปที่ Outputs แท็บของสแต็ก
- จดบันทึกค่าของ
DatabaseName
และGlueCrawlerName
.
ทรัพยากรบางอย่างที่สแตกนี้ปรับใช้มีค่าใช้จ่ายเมื่อใช้งาน
แก้ไขและเรียกใช้โปรแกรมรวบรวมข้อมูล AWS Glue
ในการกำหนดค่าและเรียกใช้โปรแกรมรวบรวมข้อมูล AWS Glue ให้ทำตามขั้นตอนต่อไปนี้:
- บนคอนโซล AWS Glue ให้เลือก โปรแกรมรวบรวมข้อมูล ในบานหน้าต่างนำทาง
- ค้นหาตำแหน่ง
crawler blog-partition-index-crawler
และเลือก Edit. - ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร ตั้งค่าเอาต์พุตและการจัดตารางเวลา ส่วนใต้ ตัวเลือกขั้นสูงให้เลือก สร้างดัชนีพาร์ติชันโดยอัตโนมัติ.
- ตรวจสอบและอัปเดตการตั้งค่าโปรแกรมรวบรวมข้อมูล
หรือคุณสามารถกำหนดค่าโปรแกรมรวบรวมข้อมูลของคุณโดยใช้ AWS CLI (ระบุบทบาทและภูมิภาค IAM ของคุณ):
- ตอนนี้ให้รันโปรแกรมรวบรวมข้อมูลและตรวจสอบว่าโปรแกรมรวบรวมข้อมูลทำงานเสร็จสมบูรณ์
ชุดข้อมูลนี้มีการแบ่งพาร์ติชันสูง และจะใช้เวลาประมาณ 90 นาทีจึงจะเสร็จสมบูรณ์
ตรวจสอบตารางที่แบ่งพาร์ติชัน
ในฐานข้อมูล AWS Glue blog_partition_index_crawlerdb
ตรวจสอบว่าตาราง highly_partitioned_table
ถูกสร้างขึ้น
ตามค่าเริ่มต้น โปรแกรมรวบรวมข้อมูลจะกำหนดดัชนีตามการเปลี่ยนลำดับที่ใหญ่ที่สุดของคอลัมน์พาร์ติชันของประเภทคอลัมน์ที่ถูกต้องในลำดับเดียวกันของคอลัมน์พาร์ติชัน ซึ่งเป็นตัวเลขหรือสตริง สำหรับตารางที่สร้างโดยโปรแกรมรวบรวมข้อมูล (highly_partitioned_table
) เรามีคอลัมน์พาร์ติชัน year
(สตริง) month
(สตริง) day
(สตริง) และ hour
(สตริง).
ตามคำจำกัดความนี้ โปรแกรมรวบรวมข้อมูลได้สร้างดัชนีในการเรียงสับเปลี่ยนของปี เดือน วัน และชั่วโมง โปรแกรมรวบรวมข้อมูลสร้างดัชนีที่นำหน้าด้วย crawler_
บนดัชนีพาร์ติชันใด ๆ ที่สร้างขึ้นโดยค่าเริ่มต้น
ตรวจสอบสิ่งเดียวกันโดยไปที่ตาราง highly_partitioned_table
บน AWS Glue Console และเลือก ดัชนี แถบ
โปรแกรมรวบรวมข้อมูลสามารถรวบรวมข้อมูลแหล่งข้อมูล S3 และเติมดัชนีพาร์ติชันสำหรับตารางได้สำเร็จ
เปรียบเทียบการปรับปรุงประสิทธิภาพการค้นหาโดยใช้ Athena
ก่อนอื่น เราค้นหาตารางใน Athena โดยไม่ใช้ดัชนีพาร์ติชัน ในการตรวจสอบตารางโดยใช้ Athena ให้ทำตามขั้นตอนต่อไปนี้:
- บนคอนโซล Athena ให้เลือก
crawler-primary-workgroup
เป็นเวิร์กกรุ๊ป Athena และเลือก รับทราบ. - เรียกใช้แบบสอบถามต่อไปนี้:
ภาพหน้าจอต่อไปนี้แสดงการสืบค้นใช้เวลาประมาณ 32 วินาทีโดยไม่ได้เปิดใช้งานการกรองโดยใช้ดัชนีพาร์ติชัน
- ตอนนี้เราเปิดใช้งานดัชนีพาร์ติชันในแบบสอบถาม Athena:
- เรียกใช้แบบสอบถามต่อไปนี้อีกครั้ง และจดบันทึกรันไทม์:
ภาพหน้าจอต่อไปนี้แสดงการสืบค้นใช้เวลาเพียง 700 มิลลิวินาที ซึ่งเร็วกว่ามากเมื่อเปิดใช้งานการกรองโดยใช้ดัชนีพาร์ติชัน
ทำความสะอาด
เพื่อหลีกเลี่ยงการเรียกเก็บเงินที่ไม่ต้องการไปยังบัญชี AWS ของคุณ คุณสามารถลบทรัพยากร AWS ได้:
- ลงชื่อเข้าใช้คอนโซล CloudFormation ในฐานะผู้ดูแลระบบ IAM ที่ใช้สร้าง CloudFormation stack
- ลบสแต็ก CloudFormation ที่คุณสร้างขึ้น
สรุป
ในโพสต์นี้ เราได้อธิบายวิธีกำหนดค่าโปรแกรมรวบรวมข้อมูล AWS เพื่อสร้างดัชนีพาร์ติชันและเปรียบเทียบประสิทธิภาพการสืบค้นเมื่อเข้าถึงข้อมูลด้วยดัชนีจาก Athena
หากไม่มีดัชนีพาร์ติชันในตาราง AWS Glue จะโหลดพาร์ติชันทั้งหมดของตาราง จากนั้นกรองพาร์ติชันที่โหลด ซึ่งส่งผลให้การดึงข้อมูลเมตาไม่มีประสิทธิภาพ บริการวิเคราะห์ เช่น Redshift Spectrum, Amazon EMR และ AWS Glue ETL Spark DataFrames สามารถใช้ดัชนีเพื่อดึงพาร์ติชัน ส่งผลให้ประสิทธิภาพการสืบค้นมีนัยสำคัญ
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับดัชนีพาร์ติชันและประสิทธิภาพการสืบค้นในเอ็นจิ้นการวิเคราะห์ต่างๆ โปรดดูที่ ปรับปรุงประสิทธิภาพการสืบค้นของ Amazon Athena โดยใช้ดัชนีพาร์ติชัน AWS Glue Data Catalog และ ปรับปรุงประสิทธิภาพการสืบค้นโดยใช้ดัชนีพาร์ติชั่น AWS Glue.
ขอขอบคุณเป็นพิเศษสำหรับทุกคนที่มีส่วนร่วมในการเปิดตัวฟีเจอร์โปรแกรมรวบรวมข้อมูลนี้: Yuhang Chen, Kyle Duong และ Mita Gavade
เกี่ยวกับผู้แต่ง
ศรีวิทย ปารธาสารถี เป็นสถาปนิก Big Data อาวุโสในทีม AWS Lake Formation เธอสนุกกับการสร้างโซลูชันดาต้าเมชและแบ่งปันกับชุมชน
ซานดีป แอดวานการ์ เป็นผู้จัดการผลิตภัณฑ์ด้านเทคนิคอาวุโสของ AWS ในแคลิฟอร์เนียเบย์แอเรีย เขาทำงานร่วมกับลูกค้าทั่วโลกเพื่อแปลข้อกำหนดทางธุรกิจและทางเทคนิคเป็นผลิตภัณฑ์ที่ช่วยให้ลูกค้าสามารถปรับปรุงวิธีจัดการ รักษาความปลอดภัย และเข้าถึงข้อมูลได้
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- การเงิน EVM ส่วนต่อประสานแบบครบวงจรสำหรับการเงินแบบกระจายอำนาจ เข้าถึงได้ที่นี่.
- กลุ่มสื่อควอนตัม IR/PR ขยาย เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. ข้อมูลอัจฉริยะ Web3 ขยายความรู้ เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/big-data/efficiently-crawl-your-data-lake-and-improve-data-access-with-aws-glue-crawler-using-partition-indexes/
- :มี
- :เป็น
- :ที่ไหน
- $ ขึ้น
- 1
- 100
- 11
- 27
- 32
- 8
- 9
- 90
- a
- สามารถ
- เข้า
- การเข้าถึง
- ลงชื่อเข้าใช้
- รับทราบ
- ข้าม
- เพิ่ม
- ผู้ดูแลระบบ
- อีกครั้ง
- ทั้งหมด
- ตาม
- ด้วย
- อเมซอน
- อเมซอน อาเธน่า
- อเมซอน EMR
- Amazon Web Services
- จำนวน
- an
- วิเคราะห์
- การวิเคราะห์
- และ
- ใด
- ประมาณ
- เป็น
- AREA
- รอบ
- AS
- At
- อัตโนมัติ
- ใช้ได้
- หลีกเลี่ยง
- AWS
- การก่อตัวของ AWS Cloud
- AWS กาว
- การก่อตัวของทะเลสาบ AWS
- ตาม
- อ่าว
- เพราะ
- รับ
- ประโยชน์ที่ได้รับ
- ใหญ่
- ข้อมูลขนาดใหญ่
- การก่อสร้าง
- ธุรกิจ
- by
- แคลิฟอร์เนีย
- CAN
- แค็ตตาล็อก
- ก่อให้เกิด
- การเปลี่ยนแปลง
- โหลด
- เฉิน
- Choose
- เลือก
- การจัดหมวดหมู่
- คอลัมน์
- คอลัมน์
- มา
- ชุมชน
- เปรียบเทียบ
- เมื่อเทียบกับ
- สมบูรณ์
- ปลอบใจ
- อย่างต่อเนื่อง
- ส่วน
- ค่าใช้จ่าย
- ไม้เลื้อย
- สร้าง
- ที่สร้างขึ้น
- สร้าง
- การสร้าง
- การสร้าง
- ปัจจุบัน
- ลูกค้า
- ข้อมูล
- การเข้าถึงข้อมูล
- ดาต้าเลค
- ฐานข้อมูล
- วัน
- ค่าเริ่มต้น
- สาธิต
- ปรับใช้
- Deploys
- บรรยาย
- รายละเอียด
- แน่นอน
- ค้นพบ
- ลง
- ในระหว่าง
- อย่างมีประสิทธิภาพ
- ทั้ง
- ทำให้สามารถ
- เปิดการใช้งาน
- เครื่องยนต์
- อีเธอร์ (ETH)
- ทุกคน
- ขยาย
- อธิบาย
- อย่างแทน
- สารสกัด
- ดึงข้อมูล
- เร็วขึ้น
- ลักษณะ
- กรอง
- กรอง
- ฟิลเตอร์
- สุดท้าย
- ปฏิบัติตาม
- ดังต่อไปนี้
- สำหรับ
- การสร้าง
- ราคาเริ่มต้นที่
- สร้าง
- กำหนด
- โลก
- ขึ้น
- การเจริญเติบโต
- มี
- he
- หนัก
- ยกของหนัก
- อย่างสูง
- ถือ
- ชั่วโมง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTML
- ที่ http
- HTTPS
- AMI
- เอกลักษณ์
- ปรับปรุง
- การปรับปรุง
- การปรับปรุง
- in
- เพิ่ม
- เพิ่มขึ้น
- ดัชนี
- ดัชนี
- ไม่มีประสิทธิภาพ
- ข้อมูล
- เข้าไป
- IT
- jpg
- เก็บ
- การเก็บรักษา
- กุญแจ
- ทะเลสาบ
- ใหญ่ที่สุด
- เปิดตัว
- แบบ
- facelift
- กดไลก์
- Line
- โหลด
- ทำ
- จัดการ
- การจัดการ
- ผู้จัดการ
- ตาข่าย
- เมตาดาต้า
- อาจ
- ล้าน
- นาที
- เดือน
- ข้อมูลเพิ่มเติม
- มาก
- ต้อง
- นำทาง
- การนำทาง
- การเดินเรือ
- จำเป็น
- ใหม่
- ใหม่
- ไม่
- ตอนนี้
- จำนวน
- of
- on
- เพียง
- เพิ่มประสิทธิภาพ
- or
- ใบสั่ง
- ของเรา
- เอาท์พุต
- เกิน
- หน้า
- บานหน้าต่าง
- เส้นทาง
- การปฏิบัติ
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- โพสต์
- นำเสนอ
- การประมวลผล
- ผลิตภัณฑ์
- ผู้จัดการผลิตภัณฑ์
- ผลิตภัณฑ์
- ให้
- ลด
- ภูมิภาค
- จำเป็นต้องใช้
- ความต้องการ
- ต้อง
- แหล่งข้อมูล
- ส่งผลให้
- ผลสอบ
- บทบาท
- บทบาท
- วิ่ง
- วิ่ง
- เดียวกัน
- วินาที
- Section
- ปลอดภัย
- ระดับอาวุโส
- บริการ
- ชุด
- การตั้งค่า
- ใช้งานร่วมกัน
- เธอ
- แสดงให้เห็นว่า
- สำคัญ
- อย่างมีความหมาย
- ง่าย
- ทางออก
- โซลูชัน
- แหล่ง
- จุดประกาย
- สเปกตรัม
- กอง
- ขั้นตอน
- การเก็บรักษา
- จัดเก็บ
- ซื่อตรง
- เชือก
- ประสบความสำเร็จ
- สนับสนุน
- ระบบ
- ตาราง
- เอา
- ทีม
- วิชาการ
- เทมเพลต
- ขอบคุณ
- ที่
- พื้นที่
- ของพวกเขา
- พวกเขา
- แล้วก็
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- นี้
- เวลา
- ไปยัง
- วันนี้
- เอา
- แปลความ
- จริง
- ชนิด
- ชนิด
- ภายใต้
- เข้าใจ
- ที่ไม่พึงประสงค์
- บันทึก
- ใช้
- มือสอง
- การใช้
- นำไปใช้
- ความคุ้มค่า
- ความคุ้มค่า
- ต่างๆ
- กว้างใหญ่
- ตรวจสอบ
- รุ่น
- คือ
- ทาง..
- we
- เว็บ
- บริการเว็บ
- เมื่อ
- ที่
- WHO
- จะ
- กับ
- ไม่มี
- กลุ่มงาน
- โรงงาน
- โลก
- มันแกว
- ปี
- เธอ
- ของคุณ
- ลมทะเล