อย่าแตะต้องชุดข้อมูลโดยไม่ถามคำถาม 10 ข้อนี้

คีย์เวิร์ด: ชุดข้อมูล, การกระจาย, ค่าผิดปกติ, ความเป็นส่วนตัว, มาตรฐาน

การเลือกชุดข้อมูลที่เหมาะสมมีความสำคัญต่อความสำเร็จของโครงการ AI ของคุณ

By ศานทีป อุตตมจันทานี, Ph.D., ทั้ง Product/Software Builder (VP of Engg) และผู้นำในการดำเนินงาน Data/AI Initiative (CDO) ทั่วทั้งองค์กร

การสำรวจข้อมูล

ข้อมูลคือหัวใจของผลิตภัณฑ์ AI มีการเน้นย้ำมากขึ้นในการปรับข้อมูลแทนการปรับโมเดล — คิดค้นโดย Andrew Ng as AI . ที่เน้นข้อมูล. จากประสบการณ์ของผม ความสำเร็จหรือความล้มเหลวของโครงการ AI สามารถคาดการณ์ได้จากชุดข้อมูลที่ใช้

หากคุณเป็นนักวิทยาศาสตร์ข้อมูล/วิศวกร AI ที่ต้องการสร้างโมเดลใหม่หรือวิศวกรข้อมูลที่ทำงานเกี่ยวกับการสร้างไปป์ไลน์สำหรับโครงการ AI สำหรับชุดข้อมูลทุกชุดที่คุณเลือก ให้ถามคำถามต่อไปนี้เพื่อหลีกเลี่ยงการปวดหัวและพลาดความคาดหวังในวงจรชีวิต AI ในภายหลัง

1. ความหมายของแอตทริบิวต์ชุดข้อมูลได้รับการบันทึกไว้หรือไม่?

ก่อนยุคบิ๊กดาต้า ข้อมูลจะถูกรวบรวมก่อนที่จะถูกเพิ่มไปยังคลังข้อมูลส่วนกลาง สิ่งนี้เรียกว่า schema-on-write ทุกวันนี้ แนวทางกับ data lake คือการรวบรวมข้อมูลก่อนแล้วจึงอนุมานความหมายของข้อมูลในเวลาที่มีการบริโภค สิ่งนี้เรียกว่า schema-on-read

แอตทริบิวต์ข้อมูลไม่ค่อยได้รับการจัดทำเป็นเอกสารอย่างถูกต้องหรือเป็นปัจจุบัน ในขณะที่มีเอกสารประกอบสามารถถูกมองว่าเป็นขั้นตอนที่ทำให้โปรเจ็กต์ช้าลง แต่จริง ๆ แล้วจะกลายเป็นเรื่องสำคัญอย่างยิ่งในระหว่างการดีบักโมเดล ระบุ Data Steward ที่เป็นเจ้าของชุดข้อมูลและรับรองว่าพวกเขาสามารถจัดเตรียมเอกสารที่ถูกต้องที่สุดได้

2. ตัวชี้วัดที่รวบรวม/ได้มาในชุดข้อมูลนั้นเป็นมาตรฐานหรือไม่?

ข้อมูลหรือตัวชี้วัดที่ได้รับสามารถมีแหล่งที่มาของความจริงและคำจำกัดความทางธุรกิจได้หลายแหล่ง ตรวจสอบให้แน่ใจว่าตัวชี้วัดมีคำจำกัดความทางธุรกิจที่ชัดเจน (บางครั้งมีนัยชัดเจนภายใน ETL)

3. ชุดข้อมูลเป็นไปตามระเบียบว่าด้วยสิทธิ์ในข้อมูล (เช่น GDPR, CCPA เป็นต้น) หรือไม่

ข้อบังคับเกี่ยวกับสิทธิ์ในข้อมูลกำลังกลายเป็นเรื่องสำคัญ — การติดตามและบังคับใช้สิ่งเหล่านี้ระหว่างการฝึกแบบจำลองและการฝึกอบรมซ้ำเป็นสิ่งสำคัญ มีกฎระเบียบเกี่ยวกับสิทธิ์ในข้อมูลจำนวนมากขึ้นเรื่อยๆ เช่น GDPR, CCPA, กฎหมายคุ้มครองข้อมูลทั่วไปของบราซิล, กฎหมายคุ้มครองข้อมูลส่วนบุคคลของอินเดีย และอื่นๆ อีกมากมาย ดังแสดงในรูป กฎหมายเหล่านี้กำหนดให้มีการรวบรวม ใช้ และลบข้อมูลลูกค้าตามการตั้งค่า มี ด้านต่างๆ ของสิทธิ์ในข้อมูล ได้แก่ การรวบรวมสิทธิ์ในข้อมูล การใช้สิทธิ์ในข้อมูล การลบสิทธิ์ในข้อมูล การเข้าถึงสิทธิ์ในข้อมูล

4. มีกระบวนการจัดการการเปลี่ยนแปลงที่ชัดเจนเพื่อให้การเปลี่ยนแปลงชุดข้อมูล/คำจำกัดความได้รับแจ้งไปยังผู้บริโภคทั้งหมดหรือไม่?

เป็นเรื่องปกติมากที่การเปลี่ยนแปลงสคีมาที่ต้นทางไม่สอดคล้องกับการประมวลผลดาวน์สตรีม การเปลี่ยนแปลงอาจมีตั้งแต่การเปลี่ยนแปลงสคีมา (การทำลายไปป์ไลน์ที่มีอยู่) ไปจนถึงการตรวจพบการเปลี่ยนแปลงทางซีเมติกของแอตทริบิวต์ข้อมูลได้ยาก นอกจากนี้ เมื่อตัววัดทางธุรกิจเปลี่ยนไป จะไม่มีการกำหนดเวอร์ชันของคำจำกัดความ

5. บริบทในการรวบรวมชุดข้อมูลคืออะไร?

ชุดข้อมูลไม่ค่อยจับความจริงขั้นสุดท้ายจากมุมมองทางสถิติ โดยจะรวบรวมเฉพาะแอตทริบิวต์ที่เจ้าของแอปพลิเคชันจำเป็นต้องใช้ในขณะนั้นสำหรับกรณีการใช้งานของตน การวิเคราะห์ชุดข้อมูลสำหรับความเอนเอียงและข้อมูลที่ลดลงเป็นสิ่งสำคัญ การทำความเข้าใจบริบทของชุดข้อมูลมีความสำคัญยิ่งยวด

6. เป็นข้อมูล IID หรือไม่?

พื้นที่ สมมติฐานโดยปริยาย ของ model training ก็คือ ข้อมูลนั้นคือ ไอดี (อิสระและกระจายอย่างเท่าเทียมกัน). นอกจากนี้ ข้อมูลยังมีวันหมดอายุ บันทึกพฤติกรรมของลูกค้าเมื่อ 10 ปีที่แล้วอาจไม่ได้เป็นตัวแทน

7. ชุดข้อมูลได้รับการทดสอบ/ตรวจสอบข้อผิดพลาดอย่างเป็นระบบในการรวบรวมข้อมูลหรือไม่?

หากข้อผิดพลาดในชุดข้อมูลเป็นแบบสุ่ม จะเป็นอันตรายต่อการฝึกโมเดล แต่ถ้ามีจุดบกพร่องที่แถวหรือคอลัมน์ใดแถวหนึ่งขาดหายไปอย่างเป็นระบบ ก็อาจทำให้เกิดอคติในชุดข้อมูลได้ ตัวอย่างเช่น รายละเอียดอุปกรณ์ของการคลิกของลูกค้าหายไปสำหรับหมวดหมู่ผู้ใช้เนื่องจากข้อบกพร่อง ชุดข้อมูลจะไม่เป็นตัวแทนของความเป็นจริง

8. ชุดข้อมูลถูกตรวจสอบการเปลี่ยนแปลงการกระจายอย่างกะทันหันหรือไม่?

ชุดข้อมูลมีการพัฒนาอย่างต่อเนื่อง การวิเคราะห์การกระจายข้อมูลไม่ใช่กิจกรรมแบบครั้งเดียวที่จำเป็นในขณะที่สร้างแบบจำลองเท่านั้น แต่มีความจำเป็นต้องตรวจสอบชุดข้อมูลสำหรับการดริฟต์อย่างต่อเนื่อง โดยเฉพาะอย่างยิ่งสำหรับการฝึกอบรมออนไลน์

9. มีการจัดการค่าผิดปกติในชุดข้อมูลอย่างไร

ค่าผิดปกติไม่จำเป็นต้องแย่เสมอไป และบางครั้งจำเป็นต่อการสร้างแบบจำลองอย่างถูกต้อง สิ่งสำคัญคือต้องเข้าใจว่ามีการกรองค่าผิดปกติระหว่างการรวบรวมหรือไม่ และตรรกะ/เกณฑ์คืออะไร

10. ชุดข้อมูลมี Data Steward ที่ได้รับมอบหมายหรือไม่? (ใช้ได้กับทีมขนาดใหญ่)

ชุดข้อมูลจะไร้ประโยชน์หากไม่สามารถเข้าใจได้ การพยายามทำวิศวกรรมย้อนกลับความหมายของคอลัมน์มักจะเป็น 'การต่อสู้ที่พ่ายแพ้' กุญแจสำคัญคือเพื่อให้แน่ใจว่ามี Data Steward ที่รับผิดชอบชุดข้อมูลเพื่ออัปเดตและพัฒนารายละเอียดเอกสาร

จากประสบการณ์ของผม คำตอบสำหรับคำถามเหล่านี้ช่วยให้ค้นพบในเชิงรุก รู้จัก รู้จัก รู้จัก ไม่รู้ ไม่รู้ ในชุดข้อมูล ไม่สำคัญที่คำถามแต่ละข้อจะมีคำตอบที่ยืนยันได้ แต่การพิจารณาการตอบสนองเหล่านี้สามารถเร่งวงจรชีวิตของ AI และช่วยหลีกเลี่ยงจุดบอดได้

Bio: ศานทีป อุตตมจันทานี, Ph.D.: Data + AI/ML — ทั้งผู้สร้างผลิตภัณฑ์/ซอฟต์แวร์ (VP of Engg) และผู้นำในการดำเนินงานโครงการ Data/AI (CDO) ทั่วทั้งองค์กร | ผู้แต่งหนังสือ O'Reilly | ผู้ก่อตั้ง – DataForHumanity (ไม่แสวงหาผลกำไร)

ที่เกี่ยวข้อง