จัดเตรียมและวิเคราะห์ข้อมูล JSON และ ORC ด้วย Amazon SageMaker Data Wrangler

โหนดต้นทาง: 1600106

Amazon SageMaker ข้อมูล Wrangler เป็นความสามารถใหม่ของ อเมซอน SageMaker ที่ทำให้นักวิทยาศาสตร์และวิศวกรข้อมูลสามารถจัดเตรียมข้อมูลสำหรับแอปพลิเคชันการเรียนรู้ของเครื่อง (ML) ได้รวดเร็วยิ่งขึ้นผ่านอินเทอร์เฟซแบบภาพ การเตรียมข้อมูลเป็นขั้นตอนที่สำคัญของวงจรชีวิต ML และ Data Wrangler มอบโซลูชันแบบครบวงจรเพื่อนำเข้า จัดเตรียม แปลง นำเสนอ และวิเคราะห์ข้อมูลสำหรับ ML ด้วยประสบการณ์การใช้โค้ดต่ำที่ไร้รอยต่อ ช่วยให้คุณเชื่อมต่อกับส่วนประกอบ AWS ได้อย่างง่ายดายและรวดเร็ว เช่น บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3) อเมซอน อาเธน่า, อเมซอน Redshiftและ การก่อตัวของทะเลสาบ AWSและแหล่งภายนอกเช่น Snowflake Data Wrangler ยังรองรับประเภทข้อมูลมาตรฐาน เช่น CSV และ Parquet

ขณะนี้ Data Wrangler รองรับคอลัมน์ Optimized Row เพิ่มเติมแล้ว (ORC), JavaScript Object Notation (JSON) และรูปแบบไฟล์ JSON Lines (JSONL):

  • ORC – รูปแบบไฟล์ ORC เป็นวิธีที่มีประสิทธิภาพสูงในการจัดเก็บข้อมูล Hive ออกแบบมาเพื่อเอาชนะข้อจำกัดของรูปแบบไฟล์ Hive อื่นๆ การใช้ไฟล์ ORC ช่วยเพิ่มประสิทธิภาพเมื่อ Hive กำลังอ่าน เขียน และประมวลผลข้อมูล ORC ใช้กันอย่างแพร่หลายในระบบนิเวศ Hadoop
  • JSON – รูปแบบไฟล์ JSON เป็นรูปแบบการแลกเปลี่ยนข้อมูลที่ใช้กันทั่วไปน้ำหนักเบา
  • JSONL – เส้น JSON หรือที่เรียกว่า JSON ที่คั่นบรรทัดใหม่ เป็นรูปแบบที่สะดวกสำหรับการจัดเก็บข้อมูลที่มีโครงสร้างที่อาจประมวลผลครั้งละหนึ่งระเบียน

คุณสามารถดูตัวอย่างข้อมูล ORC, JSON และ JSONL ก่อนที่จะนำเข้าชุดข้อมูลไปยัง Data Wrangler หลังจากที่คุณนำเข้าข้อมูลแล้ว คุณยังสามารถใช้หนึ่งในหม้อแปลงที่เพิ่งเปิดตัวใหม่เพื่อทำงานกับคอลัมน์ที่มีสตริง JSON หรืออาร์เรย์ที่มักพบใน JSON ที่ซ้อนกัน

นำเข้าและวิเคราะห์ข้อมูล ORC ด้วย Data Wrangler

การนำเข้าข้อมูล ORC อยู่ใน Data Wrangler นั้นง่ายและคล้ายกับการนำเข้าไฟล์ในรูปแบบอื่นๆ ที่รองรับ เรียกดูไฟล์ ORC ของคุณใน Amazon S3 และใน รายละเอียด บานหน้าต่าง เลือก ORC เป็นประเภทไฟล์ระหว่างการนำเข้า

หากคุณยังใหม่กับ Data Wrangler ให้ตรวจทาน เริ่มต้นใช้งาน Data Wrangler. ดูเพิ่มเติมที่ นำเข้า เพื่อเรียนรู้เกี่ยวกับตัวเลือกการนำเข้าต่างๆ

นำเข้าและวิเคราะห์ข้อมูล JSON ด้วย Data Wrangler

ตอนนี้ มานำเข้าไฟล์ในรูปแบบ JSON ด้วย Data Wrangler และทำงานกับคอลัมน์ที่มีสตริงหรืออาร์เรย์ JSON เรายังสาธิตวิธีจัดการกับ JSON ที่ซ้อนกัน ด้วย Data Wrangler การนำเข้าไฟล์ JSON จาก Amazon S3 เป็นกระบวนการที่ราบรื่น ซึ่งคล้ายกับการนำเข้าไฟล์ในรูปแบบอื่นๆ ที่รองรับ หลังจากที่คุณนำเข้าไฟล์ คุณสามารถดูตัวอย่างไฟล์ JSON ตามที่แสดงในภาพหน้าจอต่อไปนี้ ตรวจสอบให้แน่ใจว่าได้ตั้งค่าประเภทไฟล์เป็น JSON ในไฟล์ รายละเอียด บานหน้าต่าง

ต่อไป เรามาทำงานกับคอลัมน์ที่มีโครงสร้างในไฟล์ JSON ที่นำเข้ากัน

ในการจัดการกับคอลัมน์ที่มีโครงสร้างในไฟล์ JSON Data Wrangler ขอแนะนำการแปลงใหม่สองรูปแบบ: แผ่คอลัมน์ที่มีโครงสร้าง และ คอลัมน์อาร์เรย์ระเบิดซึ่งสามารถพบได้ภายใต้ จัดการคอลัมน์ที่มีโครงสร้าง ตัวเลือกใน เพิ่มการเปลี่ยนแปลง บานหน้าต่าง

มาเริ่มกันโดยใช้ คอลัมน์อาร์เรย์ระเบิด แปลงเป็นหนึ่งในคอลัมน์ในข้อมูลที่นำเข้าของเรา ก่อนใช้การแปลงเราจะเห็นคอลัมน์ topping เป็นอาร์เรย์ของวัตถุ JSON ด้วย id และ type กุญแจ

หลังจากที่เราใช้การแปลง เราสามารถสังเกตแถวใหม่ที่เพิ่มเป็นผล แต่ละองค์ประกอบในอาร์เรย์จะเป็นแถวใหม่ใน DataFrame ที่เป็นผลลัพธ์

ตอนนี้ มาประยุกต์ใช้ แผ่คอลัมน์ที่มีโครงสร้าง แปลงร่างบน topping_flattened คอลัมน์ที่สร้างขึ้นจากการที่ คอลัมน์อาร์เรย์ระเบิด การแปลงที่เราใช้ในขั้นตอนที่แล้ว

ก่อนใช้การแปลงเราจะเห็นกุญแจ id และ type ใน topping_flattened คอลัมน์.

หลังจากใช้การแปลง ตอนนี้เราสามารถสังเกตคีย์ได้ id และ type ภายใต้ topping_flattened คอลัมน์เป็นคอลัมน์ใหม่ topping_flattened_id และ topping_flattened_typeซึ่งเกิดขึ้นจากการเปลี่ยนแปลง คุณยังมีตัวเลือกในการขยายเฉพาะคีย์เฉพาะโดยป้อนชื่อคีย์ที่คั่นด้วยเครื่องหมายจุลภาคสำหรับ กุญแจที่จะแผ่ออกไป. หากปล่อยว่างไว้ คีย์ทั้งหมดภายในสตริงหรือโครงสร้าง JSON จะถูกทำให้แบน

สรุป

ในบทความนี้ เราได้สาธิตวิธีการนำเข้ารูปแบบไฟล์ใน ORC และ JSON อย่างง่ายดายด้วย Data Wrangler เรายังใช้การแปลงที่เพิ่งเปิดตัวซึ่งช่วยให้เราสามารถแปลงคอลัมน์ที่มีโครงสร้างในข้อมูล JSON ทำให้การทำงานกับคอลัมน์ที่มีสตริง JSON หรืออาร์เรย์เป็นไปอย่างราบรื่น

ในขั้นตอนต่อไป เราขอแนะนำให้คุณทำซ้ำตัวอย่างที่แสดงในอินเทอร์เฟซภาพ Data Wrangler ของคุณเอง หากคุณมีคำถามใดๆ เกี่ยวกับ Data Wrangler โปรดทิ้งคำถามไว้ในส่วนความคิดเห็น


เกี่ยวกับผู้เขียน

บาลาจี ทุมมาลา เป็นวิศวกรพัฒนาซอฟต์แวร์ที่ Amazon SageMaker เขาช่วยสนับสนุน Amazon SageMaker Data Wrangler และหลงใหลในการสร้างซอฟต์แวร์ที่มีประสิทธิภาพและปรับขนาดได้ นอกเวลางาน เขาชอบอ่านนิยายและเล่นวอลเลย์บอล

อรุณประศาสน์ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้านปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง (AI/ML) กับ AWS ซึ่งช่วยให้ลูกค้าทั่วโลกปรับขนาดโซลูชัน AI ของตนในระบบคลาวด์ได้อย่างมีประสิทธิภาพและประสิทธิผล ในเวลาว่าง อรุณชอบดูหนังไซไฟและฟังเพลงคลาสสิก

ที่มา: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

ประทับเวลา:

เพิ่มเติมจาก บล็อก AWS Machine Learning