อย่าแตะต้องชุดข้อมูลโดยไม่ถามคำถาม 10 ข้อนี้
การเลือกชุดข้อมูลที่เหมาะสมมีความสำคัญต่อความสำเร็จของโครงการ AI ของคุณ
By ศานทีป อุตตมจันทานี, Ph.D., ทั้ง Product/Software Builder (VP of Engg) และผู้นำในการดำเนินงาน Data/AI Initiative (CDO) ทั่วทั้งองค์กร
ข้อมูลคือหัวใจของผลิตภัณฑ์ AI มีการเน้นย้ำมากขึ้นในการปรับข้อมูลแทนการปรับโมเดล — คิดค้นโดย Andrew Ng as AI . ที่เน้นข้อมูล. จากประสบการณ์ของผม ความสำเร็จหรือความล้มเหลวของโครงการ AI สามารถคาดการณ์ได้จากชุดข้อมูลที่ใช้
หากคุณเป็นนักวิทยาศาสตร์ข้อมูล/วิศวกร AI ที่ต้องการสร้างโมเดลใหม่หรือวิศวกรข้อมูลที่ทำงานเกี่ยวกับการสร้างไปป์ไลน์สำหรับโครงการ AI สำหรับชุดข้อมูลทุกชุดที่คุณเลือก ให้ถามคำถามต่อไปนี้เพื่อหลีกเลี่ยงการปวดหัวและพลาดความคาดหวังในวงจรชีวิต AI ในภายหลัง
1. ความหมายของแอตทริบิวต์ชุดข้อมูลได้รับการบันทึกไว้หรือไม่?
ก่อนยุคบิ๊กดาต้า ข้อมูลจะถูกรวบรวมก่อนที่จะถูกเพิ่มไปยังคลังข้อมูลส่วนกลาง สิ่งนี้เรียกว่า schema-on-write ทุกวันนี้ แนวทางกับ data lake คือการรวบรวมข้อมูลก่อนแล้วจึงอนุมานความหมายของข้อมูลในเวลาที่มีการบริโภค สิ่งนี้เรียกว่า schema-on-read
แอตทริบิวต์ข้อมูลไม่ค่อยได้รับการจัดทำเป็นเอกสารอย่างถูกต้องหรือเป็นปัจจุบัน ในขณะที่มีเอกสารประกอบสามารถถูกมองว่าเป็นขั้นตอนที่ทำให้โปรเจ็กต์ช้าลง แต่จริง ๆ แล้วจะกลายเป็นเรื่องสำคัญอย่างยิ่งในระหว่างการดีบักโมเดล ระบุ Data Steward ที่เป็นเจ้าของชุดข้อมูลและรับรองว่าพวกเขาสามารถจัดเตรียมเอกสารที่ถูกต้องที่สุดได้
2. ตัวชี้วัดที่รวบรวม/ได้มาในชุดข้อมูลนั้นเป็นมาตรฐานหรือไม่?
ข้อมูลหรือตัวชี้วัดที่ได้รับสามารถมีแหล่งที่มาของความจริงและคำจำกัดความทางธุรกิจได้หลายแหล่ง ตรวจสอบให้แน่ใจว่าตัวชี้วัดมีคำจำกัดความทางธุรกิจที่ชัดเจน (บางครั้งมีนัยชัดเจนภายใน ETL)
3. ชุดข้อมูลเป็นไปตามระเบียบว่าด้วยสิทธิ์ในข้อมูล (เช่น GDPR, CCPA เป็นต้น) หรือไม่
ข้อบังคับเกี่ยวกับสิทธิ์ในข้อมูลกำลังกลายเป็นเรื่องสำคัญ — การติดตามและบังคับใช้สิ่งเหล่านี้ระหว่างการฝึกแบบจำลองและการฝึกอบรมซ้ำเป็นสิ่งสำคัญ มีกฎระเบียบเกี่ยวกับสิทธิ์ในข้อมูลจำนวนมากขึ้นเรื่อยๆ เช่น GDPR, CCPA, กฎหมายคุ้มครองข้อมูลทั่วไปของบราซิล, กฎหมายคุ้มครองข้อมูลส่วนบุคคลของอินเดีย และอื่นๆ อีกมากมาย ดังแสดงในรูป กฎหมายเหล่านี้กำหนดให้มีการรวบรวม ใช้ และลบข้อมูลลูกค้าตามการตั้งค่า มี ด้านต่างๆ ของสิทธิ์ในข้อมูล ได้แก่ การรวบรวมสิทธิ์ในข้อมูล การใช้สิทธิ์ในข้อมูล การลบสิทธิ์ในข้อมูล การเข้าถึงสิทธิ์ในข้อมูล
4. มีกระบวนการจัดการการเปลี่ยนแปลงที่ชัดเจนเพื่อให้การเปลี่ยนแปลงชุดข้อมูล/คำจำกัดความได้รับแจ้งไปยังผู้บริโภคทั้งหมดหรือไม่?
เป็นเรื่องปกติมากที่การเปลี่ยนแปลงสคีมาที่ต้นทางไม่สอดคล้องกับการประมวลผลดาวน์สตรีม การเปลี่ยนแปลงอาจมีตั้งแต่การเปลี่ยนแปลงสคีมา (การทำลายไปป์ไลน์ที่มีอยู่) ไปจนถึงการตรวจพบการเปลี่ยนแปลงทางซีเมติกของแอตทริบิวต์ข้อมูลได้ยาก นอกจากนี้ เมื่อตัววัดทางธุรกิจเปลี่ยนไป จะไม่มีการกำหนดเวอร์ชันของคำจำกัดความ
5. บริบทในการรวบรวมชุดข้อมูลคืออะไร?
ชุดข้อมูลไม่ค่อยจับความจริงขั้นสุดท้ายจากมุมมองทางสถิติ โดยจะรวบรวมเฉพาะแอตทริบิวต์ที่เจ้าของแอปพลิเคชันจำเป็นต้องใช้ในขณะนั้นสำหรับกรณีการใช้งานของตน การวิเคราะห์ชุดข้อมูลสำหรับความเอนเอียงและข้อมูลที่ลดลงเป็นสิ่งสำคัญ การทำความเข้าใจบริบทของชุดข้อมูลมีความสำคัญยิ่งยวด
6. เป็นข้อมูล IID หรือไม่?
พื้นที่ สมมติฐานโดยปริยาย ของ model training ก็คือ ข้อมูลนั้นคือ ไอดี (อิสระและกระจายอย่างเท่าเทียมกัน). นอกจากนี้ ข้อมูลยังมีวันหมดอายุ บันทึกพฤติกรรมของลูกค้าเมื่อ 10 ปีที่แล้วอาจไม่ได้เป็นตัวแทน
7. ชุดข้อมูลได้รับการทดสอบ/ตรวจสอบข้อผิดพลาดอย่างเป็นระบบในการรวบรวมข้อมูลหรือไม่?
หากข้อผิดพลาดในชุดข้อมูลเป็นแบบสุ่ม จะเป็นอันตรายต่อการฝึกโมเดล แต่ถ้ามีจุดบกพร่องที่แถวหรือคอลัมน์ใดแถวหนึ่งขาดหายไปอย่างเป็นระบบ ก็อาจทำให้เกิดอคติในชุดข้อมูลได้ ตัวอย่างเช่น รายละเอียดอุปกรณ์ของการคลิกของลูกค้าหายไปสำหรับหมวดหมู่ผู้ใช้เนื่องจากข้อบกพร่อง ชุดข้อมูลจะไม่เป็นตัวแทนของความเป็นจริง
8. ชุดข้อมูลถูกตรวจสอบการเปลี่ยนแปลงการกระจายอย่างกะทันหันหรือไม่?
ชุดข้อมูลมีการพัฒนาอย่างต่อเนื่อง การวิเคราะห์การกระจายข้อมูลไม่ใช่กิจกรรมแบบครั้งเดียวที่จำเป็นในขณะที่สร้างแบบจำลองเท่านั้น แต่มีความจำเป็นต้องตรวจสอบชุดข้อมูลสำหรับการดริฟต์อย่างต่อเนื่อง โดยเฉพาะอย่างยิ่งสำหรับการฝึกอบรมออนไลน์
9. มีการจัดการค่าผิดปกติในชุดข้อมูลอย่างไร
ค่าผิดปกติไม่จำเป็นต้องแย่เสมอไป และบางครั้งจำเป็นต่อการสร้างแบบจำลองอย่างถูกต้อง สิ่งสำคัญคือต้องเข้าใจว่ามีการกรองค่าผิดปกติระหว่างการรวบรวมหรือไม่ และตรรกะ/เกณฑ์คืออะไร
10. ชุดข้อมูลมี Data Steward ที่ได้รับมอบหมายหรือไม่? (ใช้ได้กับทีมขนาดใหญ่)
ชุดข้อมูลจะไร้ประโยชน์หากไม่สามารถเข้าใจได้ การพยายามทำวิศวกรรมย้อนกลับความหมายของคอลัมน์มักจะเป็น 'การต่อสู้ที่พ่ายแพ้' กุญแจสำคัญคือเพื่อให้แน่ใจว่ามี Data Steward ที่รับผิดชอบชุดข้อมูลเพื่ออัปเดตและพัฒนารายละเอียดเอกสาร
จากประสบการณ์ของผม คำตอบสำหรับคำถามเหล่านี้ช่วยให้ค้นพบในเชิงรุก รู้จัก รู้จัก รู้จัก ไม่รู้ ไม่รู้ ในชุดข้อมูล ไม่สำคัญที่คำถามแต่ละข้อจะมีคำตอบที่ยืนยันได้ แต่การพิจารณาการตอบสนองเหล่านี้สามารถเร่งวงจรชีวิตของ AI และช่วยหลีกเลี่ยงจุดบอดได้
Bio: ศานทีป อุตตมจันทานี, Ph.D.: Data + AI/ML — ทั้งผู้สร้างผลิตภัณฑ์/ซอฟต์แวร์ (VP of Engg) และผู้นำในการดำเนินงานโครงการ Data/AI (CDO) ทั่วทั้งองค์กร | ผู้แต่งหนังสือ O'Reilly | ผู้ก่อตั้ง – DataForHumanity (ไม่แสวงหาผลกำไร)
ที่เกี่ยวข้อง
ที่มา: https://www.kdnuggets.com/2021/09/dataset-asking-10-questions.html
- "
- &
- เข้า
- ลงชื่อเข้าใช้
- AI
- ทั้งหมด
- การวิเคราะห์
- แอนดรูว์
- การใช้งาน
- ปพลิเคชัน
- การต่อสู้
- ข้อมูลขนาดใหญ่
- บิล
- Bug
- สร้าง
- สร้าง
- การก่อสร้าง
- ธุรกิจ
- CCPA
- เปลี่ยนแปลง
- คอลัมน์
- ร่วมกัน
- ผู้บริโภค
- การบริโภค
- ข้อมูล
- การป้องกันข้อมูล
- วิทยาศาสตร์ข้อมูล
- คลังข้อมูล
- การเรียนรู้ลึก ๆ
- ปรับตัวลดลง
- วิศวกร
- ชั้นเยี่ยม
- ฯลฯ
- Excel
- ประสบการณ์
- การสำรวจ
- ใบหน้า
- ความล้มเหลว
- รูป
- ชื่อจริง
- ผู้สร้าง
- GDPR
- General
- การเจริญเติบโต
- อาการปวดหัว
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- HTTPS
- แยกแยะ
- อินเดีย
- IT
- คีย์
- กฎหมาย
- นำ
- การเรียนรู้
- Line
- เรียนรู้เครื่อง
- การจัดการ
- ตัวชี้วัด
- ไมโครซอฟท์
- แบบ
- คือ
- ไม่แสวงหาผลกำไร
- ออนไลน์
- เปิด
- การดำเนินงาน
- ผลิตภัณฑ์อื่นๆ
- เจ้าของ
- ข้อมูลส่วนบุคคล
- ผลงาน
- ผลิตภัณฑ์
- โครงการ
- การป้องกัน
- หลาม
- พิสัย
- ความจริง
- บันทึก
- กฎระเบียบ
- ย้อนกลับ
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- ทักษะ
- การชะลอตัว
- ความเร็ว
- จำนวนชั้น
- ความสำเร็จ
- การทดสอบ
- ที่มา
- เวลา
- ด้านบน
- แตะ
- ลู่
- การฝึกอบรม
- บันทึก
- คลังสินค้า
- เว็บ
- ความหมายของ
- WHO
- ภายใน
- X
- ปี
- YouTube