ประมวลผลและวิเคราะห์ไฟล์ XML ที่ซ้อนกันสูงและมีขนาดใหญ่โดยใช้ AWS Glue และ Amazon Athena | Amazon Web Services

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในยุคดิจิทัลปัจจุบัน ข้อมูลถือเป็นหัวใจสำคัญของความสำเร็จของทุกองค์กร รูปแบบหนึ่งที่ใช้กันมากที่สุดสำหรับการแลกเปลี่ยนข้อมูลคือ XML การวิเคราะห์ไฟล์ XML มีความสำคัญด้วยเหตุผลหลายประการ ประการแรก ไฟล์ XML ถูกใช้ในหลายอุตสาหกรรม รวมถึงการเงิน การดูแลสุขภาพ และภาครัฐ การวิเคราะห์ไฟล์ XML สามารถช่วยให้องค์กรได้รับข้อมูลเชิงลึกเกี่ยวกับข้อมูล ทำให้พวกเขาสามารถตัดสินใจได้ดีขึ้นและปรับปรุงการดำเนินงานของพวกเขา การวิเคราะห์ไฟล์ XML ยังช่วยในการรวมข้อมูลได้ เนื่องจากแอปพลิเคชันและระบบจำนวนมากใช้ XML เป็นรูปแบบข้อมูลมาตรฐาน ด้วยการวิเคราะห์ไฟล์ XML องค์กรต่างๆ สามารถรวมข้อมูลจากแหล่งต่างๆ ได้อย่างง่ายดายและรับประกันความสอดคล้องกันทั่วทั้งระบบ อย่างไรก็ตาม ไฟล์ XML มีข้อมูลที่ซ้อนกันแบบกึ่งมีโครงสร้างสูง ทำให้ยากต่อการเข้าถึงและวิเคราะห์ข้อมูล โดยเฉพาะอย่างยิ่งหากไฟล์มีขนาดใหญ่และมี สคีมาที่ซับซ้อนและซ้อนกันสูง

ไฟล์ XML เหมาะสำหรับแอปพลิเคชัน แต่อาจไม่เหมาะสำหรับเครื่องมือวิเคราะห์ เพื่อเพิ่มประสิทธิภาพในการสืบค้นและช่วยให้เข้าถึงได้ง่ายในเครื่องมือวิเคราะห์ดาวน์สตรีมเช่น อเมซอน อาเธน่าการประมวลผลไฟล์ XML ล่วงหน้าให้อยู่ในรูปแบบแนวคอลัมน์ เช่น Parquet ถือเป็นสิ่งสำคัญ การเปลี่ยนแปลงนี้ช่วยปรับปรุงประสิทธิภาพและการใช้งานในเวิร์กโฟลว์การวิเคราะห์ ในโพสต์นี้ เราจะแสดงวิธีการประมวลผลข้อมูล XML โดยใช้ AWS กาว และเอเธน่า

ภาพรวมโซลูชัน

เราสำรวจเทคนิคที่แตกต่างกันสองประการซึ่งสามารถปรับปรุงขั้นตอนการประมวลผลไฟล์ XML ของคุณได้:

เทคนิคที่ 1: ใช้โปรแกรมรวบรวมข้อมูล AWS Glue และโปรแกรมแก้ไขภาพ AWS Glue – คุณสามารถใช้อินเทอร์เฟซผู้ใช้ AWS Glue ร่วมกับซอฟต์แวร์รวบรวมข้อมูลเพื่อกำหนดโครงสร้างตารางสำหรับไฟล์ XML ของคุณได้ แนวทางนี้มีอินเทอร์เฟซที่เป็นมิตรต่อผู้ใช้ และเหมาะอย่างยิ่งสำหรับบุคคลที่ชอบวิธีการจัดการข้อมูลแบบกราฟิก
เทคนิคที่ 2: ใช้ AWS Glue DynamicFrames กับสคีมาแบบสรุปและแบบคงที่ – โปรแกรมรวบรวมข้อมูลมีข้อจำกัดในการประมวลผลแถวเดียวในไฟล์ XML ที่มีขนาดใหญ่กว่า 1 MB. เพื่อเอาชนะข้อจำกัดนี้ เราใช้สมุดบันทึก AWS Glue เพื่อสร้าง AWS Glue DynamicFramesโดยใช้ทั้งสคีมาแบบอนุมานและแบบคงที่ วิธีการนี้ช่วยให้มั่นใจในการจัดการไฟล์ XML ที่มีแถวขนาดเกิน 1 MB ได้อย่างมีประสิทธิภาพ

ในทั้งสองแนวทาง เป้าหมายสูงสุดของเราคือการแปลงไฟล์ XML เป็นรูปแบบ Apache Parquet ทำให้พร้อมสำหรับการสืบค้นโดยใช้ Athena ด้วยเทคนิคเหล่านี้ คุณสามารถเพิ่มความเร็วในการประมวลผลและการเข้าถึงข้อมูล XML ของคุณได้ ทำให้คุณได้รับข้อมูลเชิงลึกอันมีค่าได้อย่างง่ายดาย

เบื้องต้น

ก่อนที่คุณจะเริ่มบทช่วยสอนนี้ ให้ทำตามข้อกำหนดเบื้องต้นต่อไปนี้ให้ครบถ้วน (ใช้ได้กับทั้งสองเทคนิค):

ดาวน์โหลดไฟล์ XML เทคนิค1.xml และ เทคนิค2.xml.
อัพโหลดไฟล์ไปที่ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน S3) ที่เก็บข้อมูล คุณสามารถอัปโหลดไปยังบัคเก็ต S3 เดียวกันในโฟลเดอร์ที่แตกต่างกันหรือไปยังบัคเก็ต S3 ที่แตกต่างกันได้
สร้าง AWS Identity และการจัดการการเข้าถึง บทบาท (IAM) สำหรับงาน ETL หรือสมุดบันทึกของคุณตามคำแนะนำใน ตั้งค่าการอนุญาต IAM สำหรับ AWS Glue Studio.
เพิ่มนโยบายอินไลน์ให้กับบทบาทของคุณด้วย แล้ว: PassRole หนังบู๊:

 "Version": "2012-10-17", "Statement": [ { "Action": ["iam:PassRole"], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/AWSGlueServiceRole*", "Condition": { "StringLike": { "iam:PassedToService": ["glue.amazonaws.com"] } } }
}

เพิ่มนโยบายการอนุญาตให้กับบทบาทที่มีสิทธิ์เข้าถึงบัคเก็ต S3 ของคุณ

ตอนนี้เราเสร็จสิ้นตามข้อกำหนดเบื้องต้นแล้ว มาดูการนำเทคนิคแรกไปใช้กันดีกว่า

เทคนิคที่ 1: ใช้โปรแกรมรวบรวมข้อมูล AWS Glue และโปรแกรมแก้ไขภาพ

ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมอย่างง่ายที่คุณสามารถใช้เพื่อนำโซลูชันไปใช้

การประมวลผลและการวิเคราะห์ไฟล์ XML โดยใช้ AWS Glue และ Amazon Athena

เพื่อวิเคราะห์ไฟล์ XML ที่จัดเก็บไว้ใน Amazon S3 โดยใช้ AWS Glue และ Athena เราได้ทำตามขั้นตอนระดับสูงต่อไปนี้:

สร้างโปรแกรมรวบรวมข้อมูล AWS Glue เพื่อแยกข้อมูลเมตา XML และสร้างตารางใน AWS Glue Data Catalog
ประมวลผลและแปลงข้อมูล XML เป็นรูปแบบ (เช่น Parquet) ที่เหมาะสำหรับ Athena โดยใช้งานการแยก แปลง และโหลด (ETL) ของ AWS Glue
ตั้งค่าและรันงาน AWS Glue ผ่านคอนโซล AWS Glue หรือ อินเทอร์เฟซบรรทัดคำสั่ง AWS AWS (AWS CLI)
ใช้ข้อมูลที่ประมวลผล (ในรูปแบบ Parquet) กับตาราง Athena เพื่อเปิดใช้งานการสืบค้น SQL
ใช้อินเทอร์เฟซที่เป็นมิตรต่อผู้ใช้ใน Athena เพื่อวิเคราะห์ข้อมูล XML ด้วยการสืบค้น SQL เกี่ยวกับข้อมูลของคุณที่จัดเก็บไว้ใน Amazon S3

สถาปัตยกรรมนี้เป็นโซลูชันที่ปรับขนาดได้และคุ้มค่าสำหรับการวิเคราะห์ข้อมูล XML บน Amazon S3 โดยใช้ AWS Glue และ Athena คุณสามารถวิเคราะห์ชุดข้อมูลขนาดใหญ่ได้โดยไม่ต้องมีการจัดการโครงสร้างพื้นฐานที่ซับซ้อน

เราใช้โปรแกรมรวบรวมข้อมูล AWS Glue เพื่อแยกข้อมูลเมตาของไฟล์ XML คุณสามารถเลือกตัวแยกประเภท AWS Glue เริ่มต้นสำหรับการจัดประเภท XML วัตถุประสงค์ทั่วไปได้ โดยจะตรวจจับโครงสร้างข้อมูลและสคีมา XML โดยอัตโนมัติ ซึ่งมีประโยชน์สำหรับรูปแบบทั่วไป

เรายังใช้ตัวแยกประเภท XML แบบกำหนดเองในโซลูชันนี้ ได้รับการออกแบบมาสำหรับสคีมาหรือรูปแบบ XML ที่เฉพาะเจาะจง ช่วยให้สามารถแยกข้อมูลเมตาได้อย่างแม่นยำ เหมาะอย่างยิ่งสำหรับรูปแบบ XML ที่ไม่ได้มาตรฐาน หรือเมื่อคุณต้องการการควบคุมการจัดประเภทอย่างละเอียด ตัวแยกประเภทที่กำหนดเองช่วยให้มั่นใจได้ว่าจะแยกเฉพาะข้อมูลเมตาที่จำเป็นเท่านั้น ซึ่งช่วยให้การประมวลผลและการวิเคราะห์ดาวน์สตรีมง่ายขึ้น วิธีการนี้จะเพิ่มประสิทธิภาพการใช้ไฟล์ XML ของคุณ

ภาพหน้าจอต่อไปนี้แสดงตัวอย่างไฟล์ XML พร้อมแท็ก

สร้างตัวแยกประเภทที่กำหนดเอง

ในขั้นตอนนี้ คุณจะสร้างตัวแยกประเภท AWS Glue แบบกำหนดเองเพื่อดึงข้อมูลเมตาจากไฟล์ XML ทำตามขั้นตอนต่อไปนี้:

บนคอนโซล AWS Glue ภายใต้ โปรแกรมรวบรวมข้อมูล ในบานหน้าต่างนำทาง ให้เลือก ลักษณนาม.
Choose เพิ่มตัวแยกประเภท.
เลือก XML เป็นประเภทลักษณนาม
ป้อนชื่อสำหรับตัวแยกประเภท เช่น blog-glue-xml-contact.
สำหรับ แท็กแถวให้ป้อนชื่อของแท็กรูทที่มีข้อมูลเมตา (เช่น metadata).
Choose สร้างบัญชีตัวแทน.

สร้าง AWS Glue Crawler เพื่อรวบรวมข้อมูลไฟล์ xml

ในส่วนนี้ เรากำลังสร้าง Glue Crawler เพื่อแยกข้อมูลเมตาจากไฟล์ XML โดยใช้ตัวแยกประเภทลูกค้าที่สร้างขึ้นในขั้นตอนก่อนหน้า

สร้างฐานข้อมูล

ไปที่ คอนโซลกาว AWSเลือก ฐานข้อมูล ในบานหน้าต่างนำทาง
คลิกที่ เพิ่มฐานข้อมูล
ระบุชื่อ เช่น blog_glue_xml
Choose สร้างบัญชีตัวแทน ฐานข้อมูล

สร้างโปรแกรมรวบรวมข้อมูล

ทำตามขั้นตอนต่อไปนี้เพื่อสร้างโปรแกรมรวบรวมข้อมูลแรกของคุณ:

บนคอนโซล AWS Glue ให้เลือก โปรแกรมรวบรวมข้อมูล ในบานหน้าต่างนำทาง
Choose สร้างโปรแกรมรวบรวมข้อมูล.
เกี่ยวกับ ตั้งค่าคุณสมบัติของโปรแกรมรวบรวมข้อมูล ระบุชื่อสำหรับโปรแกรมรวบรวมข้อมูลใหม่ (เช่น blog-glue-parquet) จากนั้นเลือก ถัดไป.
เกี่ยวกับ เลือกแหล่งข้อมูลและตัวแยกประเภท ใหเลือก ยัง ภายใต้ การกำหนดค่าแหล่งข้อมูล.
Choose เพิ่มที่เก็บข้อมูล.
สำหรับ เส้นทาง S3เรียกดูไปที่ s3://${BUCKET_NAME}/input/geologicalsurvey/.

ตรวจสอบให้แน่ใจว่าคุณเลือกโฟลเดอร์ XML แทนที่จะเป็นไฟล์ภายในโฟลเดอร์

ปล่อยให้ตัวเลือกที่เหลือเป็นค่าเริ่มต้นและเลือก เพิ่มแหล่งข้อมูล S3.
แสดง ตัวแยกประเภทที่กำหนดเอง – ไม่จำเป็นให้เลือก blog-glue-xml-contact จากนั้นเลือก ถัดไป และเก็บตัวเลือกที่เหลือไว้เป็นค่าเริ่มต้น
เลือกบทบาท IAM ของคุณหรือเลือก สร้างบทบาท IAM ใหม่ให้เพิ่มส่วนต่อท้าย glue-xml-contact (ตัวอย่างเช่น, AWSGlueServiceNotebookRoleBlog) และเลือก ถัดไป.
เกี่ยวกับ ตั้งค่าเอาต์พุตและการจัดตารางเวลา หน้าภายใต้ การกำหนดค่าเอาต์พุตเลือก blog_glue_xml for ฐานข้อมูลเป้าหมาย.
เข้าสู่ console_ เป็นคำนำหน้าที่ถูกเพิ่มลงในตาราง (ไม่บังคับ) และต่ำกว่า ตารางโปรแกรมรวบรวมข้อมูลให้ตั้งความถี่ไว้ที่ ตามความต้องการ.
Choose ถัดไป.
ตรวจสอบพารามิเตอร์ทั้งหมดแล้วเลือก สร้างโปรแกรมรวบรวมข้อมูล.

เรียกใช้โปรแกรมรวบรวมข้อมูล

หลังจากที่คุณสร้างโปรแกรมรวบรวมข้อมูลแล้ว ให้ทำตามขั้นตอนต่อไปนี้เพื่อเรียกใช้โปรแกรมรวบรวมข้อมูล:

บนคอนโซล AWS Glue ให้เลือก โปรแกรมรวบรวมข้อมูล ในบานหน้าต่างนำทาง
เปิดโปรแกรมรวบรวมข้อมูลที่คุณสร้างและเลือก วิ่ง.

โปรแกรมรวบรวมข้อมูลจะใช้เวลา 1-2 นาทีจึงจะเสร็จสิ้น

เมื่อโปรแกรมรวบรวมข้อมูลเสร็จสิ้น ให้เลือก ฐานข้อมูล ในบานหน้าต่างนำทาง
เลือกฐานข้อมูลที่คุณสร้าง และเลือกชื่อตารางเพื่อดูสคีมาที่แยกโดยโปรแกรมรวบรวมข้อมูล

สร้างงาน AWS Glue เพื่อแปลง XML เป็นรูปแบบ Parquet

ในขั้นตอนนี้ คุณจะสร้างงาน AWS Glue Studio เพื่อแปลงไฟล์ XML เป็นไฟล์ Parquet ทำตามขั้นตอนต่อไปนี้:

บนคอนโซล AWS Glue ให้เลือก งาน ในบานหน้าต่างนำทาง
ภายใต้ สร้างงานให้เลือก ภาพด้วยผ้าใบเปล่า.
Choose สร้างบัญชีตัวแทน.
เปลี่ยนชื่องานเป็น blog_glue_xml_job.

ตอนนี้คุณมีตัวแก้ไขงานภาพ AWS Glue Studio ที่ว่างเปล่าแล้ว ที่ด้านบนของตัวแก้ไขคือแท็บสำหรับมุมมองต่างๆ

เลือก ต้นฉบับ เพื่อดูเชลล์ว่างของสคริปต์ AWS Glue ETL

ขณะที่เราเพิ่มขั้นตอนใหม่ในตัวแก้ไขภาพ สคริปต์จะได้รับการอัปเดตโดยอัตโนมัติ

เลือก รายละเอียดงาน เพื่อดูการกำหนดค่างานทั้งหมด
สำหรับ บทบาท IAMเลือก AWSGlueServiceNotebookRoleBlog.
สำหรับ รุ่นกาวเลือก Glue 4.0 – รองรับ Spark 3.3, Scala 2, Python 3.
ชุด ขอจำนวนคนงาน เพื่อ 2
ชุด จำนวนครั้งในการลองใหม่ เพื่อ 0
เลือก ของ Visual แท็บเพื่อกลับไปที่โปรแกรมแก้ไขภาพ
เกี่ยวกับ แหล่ง เลือกเมนูแบบเลื่อนลง แคตตาล็อกข้อมูลกาว AWS Data.
เกี่ยวกับ คุณสมบัติแหล่งข้อมูล – แค็ตตาล็อกข้อมูล แท็บ ระบุข้อมูลต่อไปนี้:
1. สำหรับ ฐานข้อมูลเลือก blog_glue_xml.
2. สำหรับ ตารางให้เลือกตารางที่ขึ้นต้นด้วยชื่อ console_ ที่โปรแกรมรวบรวมข้อมูลสร้างขึ้น (เช่น console_geologicalsurvey).
เกี่ยวกับ คุณสมบัติโหนด แท็บ ระบุข้อมูลต่อไปนี้:
1. เปลี่ยนแปลง Name ไปยัง geologicalsurvey ชุดข้อมูล
2. Choose การกระทำ และการเปลี่ยนแปลง เปลี่ยนสคีมา (ใช้การแมป).
3. Choose คุณสมบัติโหนด และเปลี่ยนชื่อการแปลงจาก Change Schema (Apply Mapping) เป็น ApplyMapping.
4. เกี่ยวกับ เป้า เมนูให้เลือก S3.
เกี่ยวกับ คุณสมบัติแหล่งข้อมูล – S3 แท็บ ระบุข้อมูลต่อไปนี้:
1. สำหรับ รูปแบบให้เลือก ปาร์เกต์.
2. สำหรับ ประเภทการบีบอัดให้เลือก ไม่บีบอัด.
3. สำหรับ ประเภทแหล่งที่มา S3ให้เลือก ที่ตั้ง S3.
4. สำหรับ URL S3ป้อน s3://${BUCKET_NAME}/output/parquet/.
5. Choose คุณสมบัติโหนด และเปลี่ยนชื่อเป็น Output.
Choose ลด เพื่อบันทึกงาน
Choose วิ่ง เพื่อเรียกใช้งาน

ภาพหน้าจอต่อไปนี้แสดงงานในตัวแก้ไขภาพ

สร้าง AWS Gue Crawler เพื่อรวบรวมข้อมูลไฟล์ Parquet

ในขั้นตอนนี้ คุณจะสร้างโปรแกรมรวบรวมข้อมูล AWS Glue เพื่อดึงข้อมูลเมตาจากไฟล์ Parquet ที่คุณสร้างขึ้นโดยใช้งาน AWS Glue Studio คราวนี้ คุณใช้ตัวแยกประเภทเริ่มต้น ทำตามขั้นตอนต่อไปนี้:

บนคอนโซล AWS Glue ให้เลือก โปรแกรมรวบรวมข้อมูล ในบานหน้าต่างนำทาง
Choose สร้างโปรแกรมรวบรวมข้อมูล.
เกี่ยวกับ ตั้งค่าคุณสมบัติของโปรแกรมรวบรวมข้อมูล ระบุชื่อสำหรับซอฟต์แวร์รวบรวมข้อมูลใหม่ เช่น blog-glue-parquet-contact จากนั้นเลือก ถัดไป.
เกี่ยวกับ เลือกแหล่งข้อมูลและตัวแยกประเภท ใหเลือก ยัง for การกำหนดค่าแหล่งข้อมูล.
Choose เพิ่มที่เก็บข้อมูล.
สำหรับ เส้นทาง S3เรียกดูไปที่ s3://${BUCKET_NAME}/output/parquet/.

ตรวจสอบให้แน่ใจว่าคุณเลือก parquet แทนที่จะเป็นไฟล์ที่อยู่ในโฟลเดอร์

เลือกบทบาท IAM ของคุณที่สร้างขึ้นในระหว่างส่วนข้อกำหนดเบื้องต้นหรือเลือก สร้างบทบาท IAM ใหม่ (ตัวอย่างเช่น, AWSGlueServiceNotebookRoleBlog) และเลือก ถัดไป.
เกี่ยวกับ ตั้งค่าเอาต์พุตและการจัดตารางเวลา หน้าภายใต้ การกำหนดค่าเอาต์พุตเลือก blog_glue_xml for ฐานข้อมูล.
เข้าสู่ parquet_ เป็นคำนำหน้าที่ถูกเพิ่มลงในตาราง (ไม่บังคับ) และต่ำกว่า ตารางโปรแกรมรวบรวมข้อมูลให้ตั้งความถี่ไว้ที่ ตามความต้องการ.
Choose ถัดไป.
ตรวจสอบพารามิเตอร์ทั้งหมดแล้วเลือก สร้างโปรแกรมรวบรวมข้อมูล.

ตอนนี้คุณสามารถเรียกใช้โปรแกรมรวบรวมข้อมูลได้ ซึ่งจะใช้เวลา 1-2 นาทีจึงจะเสร็จสมบูรณ์

คุณสามารถดูตัวอย่างสคีมาที่สร้างขึ้นใหม่สำหรับไฟล์ Parquet ได้ใน AWS Glue Data Catalog ซึ่งคล้ายกับสคีมาของไฟล์ XML

ตอนนี้เรามีข้อมูลที่เหมาะกับการใช้งานกับเอเธน่าแล้ว ในส่วนถัดไป เราจะทำการสืบค้นข้อมูลโดยใช้ Athena

ค้นหาไฟล์ Parquet โดยใช้ Athena

Athena ไม่รองรับการสืบค้น รูปแบบไฟล์ XMLซึ่งเป็นสาเหตุที่ทำให้คุณแปลงไฟล์ XML เป็น Parquet เพื่อการสืบค้นและใช้งานข้อมูลที่มีประสิทธิภาพมากขึ้น สัญกรณ์จุด เพื่อค้นหาประเภทที่ซับซ้อนและโครงสร้างที่ซ้อนกัน

โค้ดตัวอย่างต่อไปนี้ใช้เครื่องหมายจุดเพื่อสอบถามข้อมูลที่ซ้อนกัน:

SELECT idinfo.citation.citeinfo.origin, idinfo.citation.citeinfo.pubdate, idinfo.citation.citeinfo.title, idinfo.citation.citeinfo.geoform, idinfo.citation.citeinfo.pubinfo.pubplace, idinfo.citation.citeinfo.pubinfo.publish, idinfo.citation.citeinfo.onlink, idinfo.descript.abstract, idinfo.descript.purpose, idinfo.descript.supplinf, dataqual.attracc.attraccr, dataqual.logic, dataqual.complete, dataqual.posacc.horizpa.horizpar, dataqual.posacc.vertacc.vertaccr, dataqual.lineage.procstep.procdate, dataqual.lineage.procstep.procdesc
FROM "blog_glue_xml"."parquet_parquet" limit 10;

หลังจากที่เราเสร็จสิ้นเทคนิคที่ 1 แล้ว เรามาเรียนรู้เกี่ยวกับเทคนิคที่ 2 กันต่อ

เทคนิคที่ 2: ใช้ AWS Glue DynamicFrames กับสคีมาแบบสรุปและแบบคงที่

ในส่วนก่อนหน้านี้ เราได้กล่าวถึงกระบวนการจัดการไฟล์ XML ขนาดเล็กโดยใช้โปรแกรมรวบรวมข้อมูล AWS Glue เพื่อสร้างตาราง งาน AWS Glue เพื่อแปลงไฟล์เป็นรูปแบบ Parquet และ Athena เพื่อเข้าถึงข้อมูล Parquet อย่างไรก็ตาม โปรแกรมรวบรวมข้อมูลพบข้อจำกัดในการประมวลผลไฟล์ XML ที่เกิน ขนาด 1 MB. ในส่วนนี้ เราจะเจาะลึกหัวข้อการประมวลผลไฟล์ XML ขนาดใหญ่เป็นชุด ซึ่งจำเป็นต้องมีการแยกวิเคราะห์เพิ่มเติมเพื่อแยกแต่ละเหตุการณ์และดำเนินการวิเคราะห์โดยใช้ Athena

แนวทางของเราเกี่ยวข้องกับการอ่านไฟล์ XML ผ่าน AWS Glue ไดนามิกเฟรมโดยใช้สกีมาทั้งแบบอนุมานและแบบตายตัว จากนั้นเราจะแยกแต่ละเหตุการณ์ในรูปแบบ Parquet โดยใช้ สัมพันธ์กัน การเปลี่ยนแปลงทำให้เราสามารถสืบค้นและวิเคราะห์ได้อย่างราบรื่นโดยใช้ Athena

เมื่อต้องการใช้โซลูชันนี้ คุณต้องทำตามขั้นตอนระดับสูงต่อไปนี้:

สร้างสมุดบันทึก AWS Glue เพื่ออ่านและวิเคราะห์ไฟล์ XML
ใช้ DynamicFrames กับ InferSchema เพื่ออ่านไฟล์ XML
ใช้ฟังก์ชันความสัมพันธ์เพื่อแยกอาร์เรย์ใดๆ
แปลงข้อมูลเป็นรูปแบบไม้ปาร์เก้
ค้นหาข้อมูล Parquet โดยใช้ Athena
ทำซ้ำขั้นตอนก่อนหน้า แต่คราวนี้ส่งสคีมาไป DynamicFrames แทนการใช้ InferSchema.

ไฟล์ XML ข้อมูลประชากรรถยนต์ไฟฟ้ามีรูปแบบ response แท็กที่ระดับราก แท็กนี้มีอาร์เรย์ของ row แท็กที่ซ้อนกันอยู่ภายใน แท็กแถวคืออาร์เรย์ที่ประกอบด้วยชุดของแท็กแถวอื่น ซึ่งให้ข้อมูลเกี่ยวกับยานพาหนะ รวมถึงยี่ห้อ รุ่น และรายละเอียดอื่นๆ ที่เกี่ยวข้อง ภาพหน้าจอต่อไปนี้แสดงตัวอย่าง

สร้างสมุดบันทึก AWS Glue

หากต้องการสร้างสมุดบันทึก AWS Glue ให้ทำตามขั้นตอนต่อไปนี้:

เปิด AWS กาวสตูดิโอ คอนโซล เลือก งาน ในบานหน้าต่างนำทาง
เลือก โน้ตบุ๊ค Jupyter และเลือก สร้างบัญชีตัวแทน.

ป้อนชื่อสำหรับงาน AWS Glue ของคุณ เช่น blog_glue_xml_job_Jupyter.
เลือกบทบาทที่คุณสร้างในข้อกำหนดเบื้องต้น (AWSGlueServiceNotebookRoleBlog).

สมุดบันทึก AWS Glue มาพร้อมกับตัวอย่างที่มีอยู่แล้วซึ่งสาธิตวิธีการสืบค้นฐานข้อมูลและเขียนเอาต์พุตไปยัง Amazon S3

ปรับการหมดเวลา (เป็นนาที) ดังที่แสดงในภาพหน้าจอต่อไปนี้ และเรียกใช้เซลล์เพื่อสร้างเซสชันแบบโต้ตอบ AWS Glue

สร้างตัวแปรพื้นฐาน

หลังจากที่คุณสร้างเซสชันแบบโต้ตอบแล้ว ที่ส่วนท้ายของสมุดบันทึก ให้สร้างเซลล์ใหม่ด้วยตัวแปรต่อไปนี้ (ระบุชื่อบัคเก็ตของคุณเอง):

BUCKET_NAME='YOUR_BUCKET_NAME'
S3_SOURCE_XML_FILE = f's3://{BUCKET_NAME}/xml_dataset/'
S3_TEMP_FOLDER = f's3://{BUCKET_NAME}/temp/'
S3_OUTPUT_INFER_SCHEMA = f's3://{BUCKET_NAME}/infer_schema/'
INFER_SCHEMA_TABLE_NAME = 'infer_schema'
S3_OUTPUT_NO_INFER_SCHEMA = f's3://{BUCKET_NAME}/no_infer_schema/'
NO_INFER_SCHEMA_TABLE_NAME = 'no_infer_schema'
DATABASE_NAME = 'blog_xml'

อ่านไฟล์ XML ที่อนุมานสคีมา

หากคุณไม่ส่งสคีมาไปที่ DynamicFrameมันจะอนุมานสคีมาของไฟล์ หากต้องการอ่านข้อมูลโดยใช้เฟรมไดนามิก คุณสามารถใช้คำสั่งต่อไปนี้:

df = glueContext.create_dynamic_frame.from_options( connection_type="s3", connection_options={"paths": [S3_SOURCE_XML_FILE]}, format="xml", format_options={"rowTag": "response"},
)

พิมพ์ DynamicFrame Schema

พิมพ์สคีมาด้วยรหัสต่อไปนี้:

df.printSchema()

สคีมาแสดงโครงสร้างที่ซ้อนกันด้วย row อาร์เรย์ที่มีหลายองค์ประกอบ หากต้องการแยกโครงสร้างนี้เป็นเส้น คุณสามารถใช้ AWS Glue สัมพันธ์กัน การเปลี่ยนแปลง:

df_relationalized = df.relationalize( "root", S3_TEMP_FOLDER
)

เราสนใจเฉพาะข้อมูลที่มีอยู่ในแถวอาร์เรย์เท่านั้น และเราสามารถดูสคีมาได้โดยใช้คำสั่งต่อไปนี้:

df_relationalized.select("root_row.row").printSchema()

ชื่อคอลัมน์ประกอบด้วย row.rowซึ่งสอดคล้องกับโครงสร้างอาร์เรย์และคอลัมน์อาร์เรย์ในชุดข้อมูล เราไม่เปลี่ยนชื่อคอลัมน์ในโพสต์นี้ สำหรับคำแนะนำในการดำเนินการดังกล่าว โปรดดูที่ ทำการแมปแบบไดนามิกและการเปลี่ยนชื่อคอลัมน์ในไฟล์ข้อมูลโดยอัตโนมัติโดยใช้ AWS Glue: ตอนที่ 1. จากนั้น คุณสามารถแปลงข้อมูลเป็นรูปแบบ Parquet และสร้างตาราง AWS Glue ได้โดยใช้คำสั่งต่อไปนี้:


s3output = glueContext.getSink( path= S3_OUTPUT_INFER_SCHEMA, connection_type="s3", updateBehavior="UPDATE_IN_DATABASE", partitionKeys=[], compression="snappy", enableUpdateCatalog=True, transformation_ctx="s3output",
)
s3output.setCatalogInfo( catalogDatabase="blog_xml", catalogTableName="jupyter_notebook_with_infer_schema"
)
s3output.setFormat("glueparquet")
s3output.writeFrame(df_relationalized.select("root_row.row"))

AWS กาว DynamicFrame มีคุณสมบัติที่คุณสามารถใช้ในสคริปต์ ETL ของคุณเพื่อสร้างและอัปเดตสคีมาใน Data Catalog เราใช้ updateBehavior พารามิเตอร์เพื่อสร้างตารางโดยตรงใน Data Catalog ด้วยแนวทางนี้ เราไม่จำเป็นต้องเรียกใช้โปรแกรมรวบรวมข้อมูล AWS Glue หลังจากที่งาน AWS Glue เสร็จสมบูรณ์

อ่านไฟล์ XML โดยการตั้งค่าสคีมา

อีกวิธีหนึ่งในการอ่านไฟล์คือการกำหนดสคีมาล่วงหน้า เมื่อต้องการทำเช่นนี้ ให้ทำตามขั้นตอนต่อไปนี้:

นำเข้าประเภทข้อมูล AWS Glue:
```
from awsglue.gluetypes import *
```

สร้างสคีมาสำหรับไฟล์ XML:

schema = StructType([ Field("row", StructType([ Field("row", ArrayType(StructType([ Field("_2020_census_tract", LongType()), Field("__address", StringType()), Field("__id", StringType()), Field("__position", IntegerType()), Field("__uuid", StringType()), Field("base_msrp", IntegerType()), Field("cafv_type", StringType()), Field("city", StringType()), Field("county", StringType()), Field("dol_vehicle_id", IntegerType()), Field("electric_range", IntegerType()), Field("electric_utility", StringType()), Field("ev_type", StringType()), Field("geocoded_column", StringType()), Field("legislative_district", IntegerType()), Field("make", StringType()), Field("model", StringType()), Field("model_year", IntegerType()), Field("state", StringType()), Field("vin_1_10", StringType()), Field("zip_code", IntegerType()) ]))) ]))
])

ส่งสคีมาเมื่ออ่านไฟล์ XML:

df = glueContext.create_dynamic_frame.from_options( connection_type="s3", connection_options={"paths": [S3_SOURCE_XML_FILE]}, format="xml", format_options={"rowTag": "response", "withSchema": json.dumps(schema.jsonValue())},
)

ยกเลิกชุดข้อมูลเหมือนเมื่อก่อน:
```
df_relationalized = df.relationalize( "root", S3_TEMP_FOLDER
)
```

แปลงชุดข้อมูลเป็น Parquet และสร้างตาราง AWS Glue:

s3output = glueContext.getSink( path=S3_OUTPUT_NO_INFER_SCHEMA, connection_type="s3", updateBehavior="UPDATE_IN_DATABASE", partitionKeys=[], compression="snappy", enableUpdateCatalog=True, transformation_ctx="s3output",
)
s3output.setCatalogInfo( catalogDatabase="blog_xml", catalogTableName="jupyter_notebook_no_infer_schema"
)
s3output.setFormat("glueparquet")
s3output.writeFrame(df_relationalized.select("root_row.row"))

สอบถามตารางโดยใช้ Athena

ตอนนี้เราได้สร้างทั้งสองตารางแล้ว เราสามารถสืบค้นตารางโดยใช้ Athena ได้ ตัวอย่างเช่น เราสามารถใช้แบบสอบถามต่อไปนี้:

SELECT * FROM "blog_xml"."jupyter_notebook_no_infer_schema " limit 10;

ภาพหน้าจอต่อไปนี้แสดงผล

ทำความสะอาดขึ้น

ในโพสต์นี้ เราได้สร้างบทบาท IAM, สมุดบันทึก AWS Glue Jupyter และตารางสองตารางใน AWS Glue Data Catalog เรายังอัปโหลดไฟล์บางไฟล์ไปยังบัคเก็ต S3 ด้วย หากต้องการล้างข้อมูลอ็อบเจ็กต์เหล่านี้ ให้ทำตามขั้นตอนต่อไปนี้:

บนคอนโซล IAM ให้ลบบทบาทที่คุณสร้างขึ้น
บนคอนโซล AWS Glue Studio ให้ลบตัวแยกประเภทที่กำหนดเอง โปรแกรมรวบรวมข้อมูล งาน ETL และสมุดบันทึก Jupyter
ไปที่ AWS Glue Data Catalog และลบตารางที่คุณสร้างขึ้น
บนคอนโซล Amazon S3 ให้นำทางไปยังบัคเก็ตที่คุณสร้างและลบโฟลเดอร์ที่มีชื่อ temp, infer_schemaและ no_infer_schema.

ประเด็นที่สำคัญ

ใน AWS Glue มีคุณสมบัติที่เรียกว่า InferSchema ใน AWS Glue DynamicFrames. มันจะระบุโครงสร้างของกรอบข้อมูลโดยอัตโนมัติตามข้อมูลที่มีอยู่ ในทางตรงกันข้าม การกำหนดสคีมาหมายถึงการระบุอย่างชัดเจนว่าโครงสร้างของกรอบข้อมูลควรเป็นอย่างไรก่อนที่จะโหลดข้อมูล

XML ซึ่งเป็นรูปแบบข้อความไม่ได้จำกัดประเภทข้อมูลของคอลัมน์ ซึ่งอาจทำให้เกิดปัญหากับฟังก์ชัน InferSchema ตัวอย่างเช่น ในการรันครั้งแรก ไฟล์ที่มีคอลัมน์ A มีค่า 2 จะส่งผลให้ไฟล์ Parquet มีคอลัมน์ A เป็นจำนวนเต็ม ในการรันครั้งที่สอง ไฟล์ใหม่มีคอลัมน์ A ที่มีค่า C ซึ่งนำไปสู่ไฟล์ Parquet ที่มีคอลัมน์ A เป็นสตริง ขณะนี้มีไฟล์สองไฟล์บน S3 โดยแต่ละไฟล์มีคอลัมน์ A ที่มีประเภทข้อมูลต่างกัน ซึ่งสามารถสร้างปัญหาดาวน์สตรีมได้

สิ่งเดียวกันนี้เกิดขึ้นกับประเภทข้อมูลที่ซับซ้อน เช่น โครงสร้างหรืออาร์เรย์ที่ซ้อนกัน ตัวอย่างเช่น หากไฟล์มีรายการแท็กหนึ่งรายการที่เรียกว่า transactionมันถูกอนุมานว่าเป็นโครงสร้าง แต่ถ้าไฟล์อื่นมีแท็กเดียวกัน ไฟล์นั้นจะอนุมานเป็นอาร์เรย์

แม้จะมีปัญหาประเภทข้อมูลเหล่านี้ InferSchema มีประโยชน์เมื่อคุณไม่ทราบสคีมาหรือการกำหนดสคีมาด้วยตนเองนั้นไม่สามารถทำได้ อย่างไรก็ตาม ไม่เหมาะสำหรับชุดข้อมูลขนาดใหญ่หรือมีการเปลี่ยนแปลงอยู่ตลอดเวลา การกำหนดสคีมามีความแม่นยำมากขึ้น โดยเฉพาะอย่างยิ่งกับประเภทข้อมูลที่ซับซ้อน แต่มีปัญหาในตัวเอง เช่น ต้องใช้ความพยายามด้วยตนเอง และไม่ยืดหยุ่นต่อการเปลี่ยนแปลงข้อมูล

InferSchema มีข้อจำกัด เช่น การอนุมานประเภทข้อมูลที่ไม่ถูกต้อง และปัญหาในการจัดการค่า Null การกำหนดสคีมายังมีข้อจำกัด เช่น การดำเนินการด้วยตนเองและข้อผิดพลาดที่อาจเกิดขึ้น

การเลือกระหว่างการอนุมานและการกำหนดสคีมาขึ้นอยู่กับความต้องการของโปรเจ็กต์ InferSchema เหมาะอย่างยิ่งสำหรับการสำรวจชุดข้อมูลขนาดเล็กอย่างรวดเร็ว ในขณะที่การกำหนดสคีมาจะดีกว่าสำหรับชุดข้อมูลขนาดใหญ่และซับซ้อนซึ่งต้องการความแม่นยำและความสม่ำเสมอ พิจารณาข้อดีข้อเสียและข้อจำกัดของแต่ละวิธีเพื่อเลือกสิ่งที่เหมาะสมกับโครงการของคุณที่สุด

สรุป

ในโพสต์นี้ เราได้สำรวจเทคนิคสองประการในการจัดการข้อมูล XML โดยใช้ AWS Glue ซึ่งแต่ละเทคนิคได้รับการออกแบบมาเพื่อตอบสนองความต้องการและความท้าทายเฉพาะที่คุณอาจเผชิญ

เทคนิคที่ 1 นำเสนอเส้นทางที่เป็นมิตรต่อผู้ใช้สำหรับผู้ที่ชื่นชอบอินเทอร์เฟซแบบกราฟิก คุณสามารถใช้โปรแกรมรวบรวมข้อมูล AWS Glue และโปรแกรมแก้ไขภาพเพื่อกำหนดโครงสร้างตารางสำหรับไฟล์ XML ของคุณได้อย่างง่ายดาย แนวทางนี้ทำให้กระบวนการจัดการข้อมูลง่ายขึ้น และน่าสนใจเป็นพิเศษสำหรับผู้ที่มองหาวิธีที่ตรงไปตรงมาในการจัดการข้อมูลของตน

อย่างไรก็ตาม เราทราบดีว่าโปรแกรมรวบรวมข้อมูลมีข้อจำกัด โดยเฉพาะเมื่อต้องจัดการกับไฟล์ XML ที่มีแถวขนาดใหญ่กว่า 1 MB นี่คือจุดที่เทคนิค 2 มาช่วยเหลือ โดยการควบคุม AWS Glue DynamicFrames ด้วยสคีมาทั้งแบบสรุปและแบบคงที่ และการใช้สมุดบันทึก AWS Glue คุณสามารถจัดการไฟล์ XML ทุกขนาดได้อย่างมีประสิทธิภาพ วิธีนี้เป็นโซลูชันที่มีประสิทธิภาพซึ่งช่วยให้การประมวลผลราบรื่นแม้กระทั่งไฟล์ XML ที่มีแถวเกินข้อจำกัด 1 MB

ในขณะที่คุณสำรวจโลกแห่งการจัดการข้อมูล การมีเทคนิคเหล่านี้ในชุดเครื่องมือของคุณจะช่วยให้คุณตัดสินใจโดยมีข้อมูลครบถ้วนตามความต้องการเฉพาะของโครงการของคุณ ไม่ว่าคุณจะชอบความเรียบง่ายของเทคนิค 1 หรือความสามารถในการปรับขนาดของเทคนิค 2 AWS Glue มอบความยืดหยุ่นที่คุณต้องการในการจัดการข้อมูล XML อย่างมีประสิทธิภาพ

เกี่ยวกับผู้เขียน

นวนิต ชุกลาทำหน้าที่เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญ AWS โดยมุ่งเน้นที่การวิเคราะห์ เขามีความกระตือรือร้นอย่างมากในการช่วยเหลือลูกค้าในการค้นพบข้อมูลเชิงลึกอันมีค่าจากข้อมูลของพวกเขา ด้วยความเชี่ยวชาญของเขา เขาสร้างโซลูชั่นที่เป็นนวัตกรรมที่ช่วยให้ธุรกิจต่างๆ มีตัวเลือกที่ขับเคลื่อนด้วยข้อมูลและชาญฉลาด โดยเฉพาะอย่างยิ่ง Navnit Shukla เป็นผู้แต่งหนังสือชื่อ “Data Wrangling on AWS” ที่ประสบความสำเร็จ

แพทริก มุลเลอร์ ทำงานเป็นสถาปนิก Data Lab อาวุโสที่ AWS ความรับผิดชอบหลักของเขาคือการช่วยเหลือลูกค้าในการเปลี่ยนความคิดของตนให้เป็นผลิตภัณฑ์ข้อมูลที่พร้อมสำหรับการผลิต ในเวลาว่าง แพทริคชอบเล่นฟุตบอล ดูหนัง และท่องเที่ยว

อาโมก ไกวาด เป็นนักพัฒนาโซลูชันอาวุโสที่ Amazon Web Services เขาช่วยลูกค้าทั่วโลกสร้างและปรับใช้โซลูชัน AI/ML บน AWS งานของเขามุ่งเน้นไปที่คอมพิวเตอร์วิทัศน์และการประมวลผลภาษาธรรมชาติเป็นหลัก และช่วยเหลือลูกค้าในการเพิ่มประสิทธิภาพปริมาณงาน AI/ML เพื่อความยั่งยืน Amogh สำเร็จการศึกษาระดับปริญญาโทสาขาวิทยาการคอมพิวเตอร์ที่เชี่ยวชาญด้านการเรียนรู้ของเครื่อง

ชีล่า โซโนน เป็นสถาปนิกอาวุโสประจำที่ AWS เธอช่วยให้ลูกค้า AWS ตัดสินใจอย่างมีข้อมูลและแลกเปลี่ยนกับการเร่งความเร็วข้อมูล การวิเคราะห์ รวมถึงปริมาณงานและการใช้งาน AI/ML ในเวลาว่าง เธอสนุกกับการใช้เวลาอยู่กับครอบครัว ซึ่งโดยปกติแล้วจะอยู่บนสนามเทนนิส

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/big-data/process-and-analyze-highly-nested-and-large-xml-files-using-aws-glue-and-amazon-athena/

ประทับเวลา: September 29, 2023

ประทับเวลา: กรกฎาคม 21, 2023

ประมวลผลและวิเคราะห์ไฟล์ XML ขนาดใหญ่ที่มีการซ้อนกันสูงโดยใช้ AWS Glue และ Amazon Athena | อเมซอนเว็บเซอร์วิส

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโซลูชัน

เบื้องต้น

เทคนิคที่ 1: ใช้โปรแกรมรวบรวมข้อมูล AWS Glue และโปรแกรมแก้ไขภาพ

สร้างตัวแยกประเภทที่กำหนดเอง

สร้าง AWS Glue Crawler เพื่อรวบรวมข้อมูลไฟล์ xml

สร้างงาน AWS Glue เพื่อแปลง XML เป็นรูปแบบ Parquet

สร้าง AWS Gue Crawler เพื่อรวบรวมข้อมูลไฟล์ Parquet

ค้นหาไฟล์ Parquet โดยใช้ Athena

เทคนิคที่ 2: ใช้ AWS Glue DynamicFrames กับสคีมาแบบสรุปและแบบคงที่

สร้างสมุดบันทึก AWS Glue

สร้างตัวแปรพื้นฐาน

อ่านไฟล์ XML ที่อนุมานสคีมา

พิมพ์ DynamicFrame Schema

อ่านไฟล์ XML โดยการตั้งค่าสคีมา

สอบถามตารางโดยใช้ Athena

ทำความสะอาดขึ้น

ประเด็นที่สำคัญ

สรุป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS ข้อมูลขนาดใหญ่

ขอแนะนำการสนับสนุนตาราง Delta Lake ดั้งเดิมด้วยโปรแกรมรวบรวมข้อมูล AWS Glue

ปรับปรุงความยืดหยุ่นด้วยการควบคุมงานตัวจัดการคลัสเตอร์สำหรับ Amazon OpenSearch Service | อเมซอนเว็บเซอร์วิส

สตรีมข้อมูลด้วย Amazon MSK Connect โดยใช้ตัวเชื่อมต่อ JDBC แบบโอเพ่นซอร์ส | บริการเว็บอเมซอน

เชื่อมต่อกับ Amazon MSK Serverless จากเครือข่ายภายในองค์กรของคุณ

กลยุทธ์ยอดนิยมสำหรับการติดตามปริมาณมากด้วย Amazon OpenSearch Ingestion

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้