ภาพถ่ายโดย รอน แลค
ชุดข้อมูลในโลกแห่งความเป็นจริงมักไม่ค่อยสมบูรณ์แบบและมักมีค่าที่ขาดหายไปหรือข้อมูลที่ไม่สมบูรณ์ ข้อผิดพลาดเหล่านี้อาจเกิดจากองค์ประกอบของมนุษย์ (แบบสำรวจที่กรอกไม่ถูกต้องหรือไม่ได้กรอก) หรือเทคโนโลยี (เซ็นเซอร์ทำงานผิดปกติ) ไม่ว่ากรณีจะเป็นเช่นไร คุณมักจะทิ้งคุณค่าหรือข้อมูลที่ขาดหายไป
แน่นอนว่านี่เป็นปัญหา หากไม่มีค่าที่ขาดหายไป ชุดข้อมูลทั้งหมดอาจถือว่าใช้ไม่ได้ แต่เนื่องจากต้องใช้เวลา ความพยายาม และเงิน (ในหลายๆ กรณี) พอสมควร รับข้อมูลคุณภาพสูงการกำจัดข้อมูลที่ไม่ถูกต้องและเริ่มต้นใหม่อีกครั้งอาจไม่ใช่ตัวเลือกที่ใช้ได้ เราต้องหาวิธีแก้ไขหรือแทนที่ค่าที่ขาดหายไปเหล่านี้ นี่คือที่มาของการใส่ข้อมูล
คู่มือนี้จะกล่าวถึงการใส่ข้อมูลแบบใดและประเภทของแนวทางที่สนับสนุน
แม้ว่าเราจะไม่สามารถแทนที่ข้อมูลที่ขาดหายไปหรือเสียหายได้ แต่ก็มีวิธีการที่เราสามารถใช้เพื่อให้ชุดข้อมูลยังคงใช้งานได้ การใส่ร้ายข้อมูลเป็นหนึ่งในเทคนิคที่น่าเชื่อถือที่สุดในการบรรลุเป้าหมายนี้ อย่างไรก็ตาม เราต้องระบุก่อนว่าข้อมูลประเภทใดหายไปและเพราะเหตุใด
ในสถิติและวิทยาศาสตร์ข้อมูล มีข้อมูลขาดหายไปสามประเภทหลัก:
- หายไปโดยสุ่ม (MAR)โดยที่ข้อมูลที่ขาดหายไปจะเชื่อมโยงกับตัวแปรและสามารถสังเกตหรือติดตามได้ในที่สุด ในหลายกรณี ข้อมูลนี้จะให้ข้อมูลเพิ่มเติมเกี่ยวกับข้อมูลประชากรหรือเจ้าของข้อมูล ตัวอย่างเช่น ผู้คนในช่วงอายุหนึ่งอาจตัดสินใจข้ามคำถามในแบบสำรวจหรือลบระบบติดตามออกจากอุปกรณ์ในบางช่วงเวลา
- ขาดหายไปโดยสุ่ม (MCAR)ที่นี่มี ข้อมูลที่ขาดหายไป ไม่สามารถสังเกตหรือติดตามตัวแปรได้ แทบเป็นไปไม่ได้เลยที่จะแยกแยะว่าทำไมข้อมูลถึงหายไป
- ข้อมูลที่ขาดหายไปโดยไม่สุ่ม (NMAR)โดยที่ข้อมูลที่ขาดหายไปเชื่อมโยงกับตัวแปรที่น่าสนใจ ในกรณีส่วนใหญ่ ข้อมูลที่ขาดหายไปนี้สามารถละเว้นได้ NMAR อาจเกิดขึ้นเมื่อผู้ทำแบบสำรวจข้ามคำถามที่ไม่เกี่ยวข้องกับพวกเขา
การจัดการกับข้อมูลที่ขาดหายไป
ขณะนี้ คุณมีตัวเลือกหลักสามตัวเลือกในการจัดการกับค่าข้อมูลที่ขาดหายไป:
- การลบ
- การใส่ความ
- ไม่สนใจ
แทนที่จะทิ้งชุดข้อมูลทั้งหมด คุณสามารถใช้สิ่งที่เรียกว่าการลบแบบรายการ ซึ่งเกี่ยวข้องกับการลบบันทึกที่มีข้อมูลหรือค่าที่ขาดหายไป ข้อได้เปรียบหลักของการลบแบบรายการคือรองรับข้อมูลที่ขาดหายไปทั้งสามประเภท
อย่างไรก็ตาม อาจทำให้ข้อมูลสูญหายเพิ่มเติม ขอแนะนำให้ใช้เฉพาะ การลบตามรายการ ในกรณีที่มีค่าที่หายไป (สังเกตได้) เป็นจำนวนมากกว่าค่าปัจจุบัน (สังเกตได้) ส่วนใหญ่เป็นเพราะมีข้อมูลไม่เพียงพอที่จะอนุมานหรือแทนที่ได้
หากข้อมูลที่ขาดหายไปที่สังเกตได้ไม่สำคัญ (เพิกเฉยได้) และมีค่าเพียงไม่กี่ค่าเท่านั้นที่ขาดหายไป คุณสามารถเพิกเฉยต่อข้อมูลเหล่านั้นและทำงานกับสิ่งที่คุณมี อย่างไรก็ตาม นี่ไม่ใช่ความเป็นไปได้เสมอไป การใส่ข้อมูลเป็นวิธีแก้ปัญหาที่สามและเป็นไปได้มากกว่า
การใส่ข้อมูลเกี่ยวข้องกับการแทนที่ค่าที่ขาดหายไปเพื่อให้ชุดข้อมูลยังคงใช้งานได้ วิธีการใส่ข้อมูลมีสองประเภท:
- เดียว
- แพลตฟอร์มที่หลากหลาย
การใส่ข้อมูลเฉลี่ย (MI) เป็นหนึ่งในรูปแบบการใส่ข้อมูลเดียวที่มีชื่อเสียงที่สุด
การใส่ค่าเฉลี่ย (MI)
MI เป็นรูปแบบหนึ่งของการใส่ความง่ายๆ สิ่งนี้เกี่ยวข้องกับการคำนวณค่าเฉลี่ยของค่าที่สังเกตได้และใช้ผลลัพธ์เพื่ออนุมานค่าที่ขาดหายไป น่าเสียดายที่วิธีนี้ได้รับการพิสูจน์แล้วว่าไม่ได้ผล มันสามารถนำไปสู่การประมาณการที่มีอคติมากมาย แม้ว่าข้อมูลจะขาดหายไปทั้งหมดโดยการสุ่ม นอกจากนี้ “ความแม่นยำ” ของการประมาณค่ายังขึ้นอยู่กับจำนวนของค่าที่ขาดหายไป
ตัวอย่างเช่น ถ้ามีค่าสังเกตที่ขาดหายไปจำนวนมาก ใช้การใส่ความหมายถึง อาจนำไปสู่การประเมินมูลค่าต่ำเกินไป ดังนั้นจึงเหมาะกว่าสำหรับชุดข้อมูลและตัวแปรที่มีค่าขาดหายไปเพียงไม่กี่ค่า
การเปลี่ยนด้วยตนเอง
ในสถานการณ์นี้ ตัวดำเนินการสามารถใช้ความรู้เดิมเกี่ยวกับค่าของชุดข้อมูลเพื่อแทนที่ค่าที่ขาดหายไป เป็นวิธีการใส่ค่าวิธีเดียวที่อาศัยความจำหรือความรู้ของผู้ดำเนินการ และบางครั้งเรียกว่าความรู้เดิมเกี่ยวกับจำนวนในอุดมคติ ความแม่นยำขึ้นอยู่กับความสามารถของผู้ปฏิบัติงานในการเรียกคืนค่า ดังนั้นวิธีนี้อาจเหมาะสมกว่าสำหรับชุดข้อมูลที่มีค่าขาดหายไปเพียงไม่กี่ค่า
K-เพื่อนบ้านที่ใกล้ที่สุด (K-NN)
K-Nearest Neighbor เป็นเทคนิคที่มีชื่อเสียงซึ่งใช้ในแมชชีนเลิร์นนิงเพื่อแก้ปัญหาการถดถอยและการจำแนกประเภท ใช้ค่าเฉลี่ยของค่าข้อมูลที่หายไปของค่าข้อมูลที่หายไปของเพื่อนบ้านเพื่อคำนวณและนำไปใช้ เดอะ วิธี K-NN มีประสิทธิภาพมากกว่าการใส่ค่าเฉลี่ยอย่างง่าย และเหมาะสำหรับค่า MCAR และ MAR
การแทน
การทดแทนเกี่ยวข้องกับการค้นหาบุคคลใหม่หรืออยู่ภายใต้การสำรวจหรือการทดสอบ นี่ควรเป็นหัวข้อที่ไม่ได้ถูกเลือกในตัวอย่างต้นฉบับ
การใส่ความถดถอย
การถดถอยพยายามกำหนดความแข็งแกร่งของตัวแปรตาม (โดยปกติจะระบุเป็น Y) ต่อชุดของตัวแปรอิสระ (โดยปกติจะแสดงเป็น X) การถดถอยเชิงเส้นเป็นรูปแบบการถดถอยที่รู้จักกันดีที่สุด ใช้เส้นที่เหมาะสมที่สุดในการทำนายหรือกำหนดค่าที่ขาดหายไป ดังนั้นจึงเป็นวิธีที่ดีที่สุดในการแสดงข้อมูลด้วยภาพผ่านแบบจำลองการถดถอย
เมื่อการถดถอยเชิงเส้นเป็นรูปแบบหนึ่งของการถดถอยเชิงกำหนดซึ่งความสัมพันธ์ที่แน่นอนระหว่างค่าที่หายไปและค่าปัจจุบันถูกสร้างขึ้น ค่าที่หายไปจะถูกแทนที่ด้วยการทำนาย 100% ของแบบจำลองการถดถอย อย่างไรก็ตามมีข้อ จำกัด สำหรับวิธีนี้ การถดถอยเชิงเส้นเชิงกำหนดมักจะส่งผลให้เกิดการประมาณค่าความใกล้ชิดของความสัมพันธ์ระหว่างค่าสูงเกินไป
Stochastic การถดถอยเชิงเส้น ชดเชย "ความแม่นยำเกิน" ของ deterministic regression ด้วยการแนะนำข้อผิดพลาด (สุ่ม) เนื่องจากสถานการณ์หรือตัวแปรสองอย่างแทบจะไม่เชื่อมโยงกันอย่างสมบูรณ์ สิ่งนี้ทำให้การเติมค่าที่ขาดหายไปโดยใช้การถดถอยมีความเหมาะสมมากขึ้น
การสุ่มตัวอย่างแบบร้อน
วิธีการนี้เกี่ยวข้องกับการเลือกค่าที่สุ่มเลือกจากหัวเรื่องที่มีค่าอื่นคล้ายกับหัวเรื่องที่ไม่มีค่า คุณต้องค้นหาหัวเรื่องหรือบุคคลแล้วกรอกข้อมูลที่ขาดหายไปโดยใช้ค่าของพวกเขา
วิธีการสุ่มตัวอย่างแบบ Hot Deck จะจำกัดช่วงของค่าที่ได้ ตัวอย่างเช่น หากตัวอย่างของคุณถูกจำกัดให้อยู่ในกลุ่มอายุระหว่าง 20 ถึง 25 ปี ผลลัพธ์ของคุณจะอยู่ระหว่างตัวเลขเหล่านี้เสมอ ซึ่งจะช่วยเพิ่มความแม่นยำที่เป็นไปได้ของค่าทดแทน หัวข้อ/บุคคลสำหรับวิธีการใส่ความนี้จะถูกเลือกโดยการสุ่ม
การสุ่มตัวอย่างแบบเย็น
วิธีนี้เกี่ยวข้องกับการค้นหาบุคคล/หัวเรื่องที่มีค่าใกล้เคียงหรือเหมือนกันสำหรับตัวแปร/พารามิเตอร์อื่นๆ ในชุดข้อมูล ตัวอย่างเช่น ตัวแบบอาจมีส่วนสูง ภูมิหลังทางวัฒนธรรม และอายุเท่ากันกับตัวแบบที่ไม่มีค่า ซึ่งแตกต่างจากการสุ่มตัวอย่างแบบ Hot Deck ตรงที่อาสาสมัครจะถูกเลือกและนำกลับมาใช้ใหม่อย่างเป็นระบบ
แม้จะมีตัวเลือกและเทคนิคมากมายในการจัดการกับข้อมูลที่ขาดหายไป การป้องกันย่อมดีกว่าการรักษาเสมอ นักวิจัยต้องดำเนินการอย่างเข้มงวด การวางแผนสำหรับการทดลอง และการศึกษา การศึกษาจะต้องมีพันธกิจหรือเป้าหมายที่ชัดเจนในใจ
บ่อยครั้ง นักวิจัยทำการศึกษาให้ซับซ้อนเกินไปหรือล้มเหลวในการวางแผนป้องกันสิ่งกีดขวาง ซึ่งส่งผลให้ข้อมูลขาดหายหรือไม่เพียงพอ เป็นการดีที่สุดเสมอที่จะทำให้การออกแบบการศึกษาง่ายขึ้นในขณะที่ให้ความสำคัญกับการรวบรวมข้อมูล
รวบรวมเฉพาะข้อมูลที่คุณต้องการเพื่อให้บรรลุเป้าหมายของการศึกษาและไม่มีอะไรเพิ่มเติม คุณควรตรวจสอบให้แน่ใจด้วยว่าเครื่องมือและเซ็นเซอร์ทั้งหมดที่เกี่ยวข้องกับการศึกษาหรือการทดลองนั้นทำงานได้อย่างสมบูรณ์ตลอดเวลา พิจารณาสร้างการสำรองข้อมูล/การตอบกลับของคุณเป็นประจำในขณะที่การศึกษาดำเนินไป
ข้อมูลหายเป็นเรื่องปกติ แม้ว่าคุณจะใช้แนวทางปฏิบัติที่ดีที่สุด คุณก็ยังอาจประสบกับข้อมูลที่ไม่สมบูรณ์ โชคดีที่มีวิธีแก้ไขปัญหานี้หลังจากข้อเท็จจริง
นาห์ลา เดวีส์ เป็นนักพัฒนาซอฟต์แวร์และนักเขียนด้านเทคนิค ก่อนที่จะอุทิศงานเต็มเวลาให้กับงานเขียนเชิงเทคนิค เธอได้จัดการ — เหนือสิ่งอื่นใด — เพื่อทำหน้าที่เป็นผู้นำโปรแกรมเมอร์ที่องค์กรสร้างแบรนด์จากประสบการณ์ 5,000 แห่งของ Inc. ซึ่งมีลูกค้า ได้แก่ Samsung, Time Warner, Netflix และ Sony
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- ที่มา: https://www.kdnuggets.com/2023/01/approaches-data-imputation.html?utm_source=rss&utm_medium=rss&utm_campaign=approaches-to-data-imputation
- 000
- a
- ความสามารถ
- เกี่ยวกับเรา
- ไม่อยู่
- ความถูกต้อง
- เพิ่มเติม
- นอกจากนี้
- ที่อยู่
- ความได้เปรียบ
- หลังจาก
- กับ
- ทั้งหมด
- เสมอ
- ในหมู่
- และ
- ใช้
- เข้าใกล้
- วิธีการ
- เหมาะสม
- รอบ
- สำเร็จได้
- ความพยายามในการ
- พื้นหลัง
- การสำรองข้อมูล
- เพราะ
- ก่อน
- ที่ดีที่สุด
- ปฏิบัติที่ดีที่สุด
- ดีกว่า
- ระหว่าง
- แบรนด์ดิ้ง
- การคํานวณ
- ไม่ได้
- กรณี
- กรณี
- หมวดหมู่
- บาง
- เลือก
- การจัดหมวดหมู่
- ชัดเจน
- ลูกค้า
- ชุด
- อย่างไร
- ร่วมกัน
- อย่างสมบูรณ์
- งานที่เชื่อมต่อ
- ดังนั้น
- พิจารณา
- มาก
- ได้
- หลักสูตร
- การสร้าง
- ด้านวัฒนธรรม
- รักษา
- ข้อมูล
- ข้อมูลสูญหาย
- วิทยาศาสตร์ข้อมูล
- ชุดข้อมูล
- ชุดข้อมูล
- จัดการ
- การซื้อขาย
- ประชากร
- ขึ้นอยู่กับ
- ขึ้นอยู่กับ
- ออกแบบ
- กำหนด
- ผู้พัฒนา
- อุปกรณ์
- สนทนา
- ไม่
- มีประสิทธิภาพ
- ความพยายาม
- พอ
- ทำให้มั่นใจ
- ทั้งหมด
- ความผิดพลาด
- ที่จัดตั้งขึ้น
- ประมาณการ
- แม้
- ตัวอย่าง
- ประสบการณ์
- ล้มเหลว
- มีชื่อเสียง
- ชื่อเสียง
- สองสาม
- ใส่
- ที่เต็มไป
- หา
- หา
- ชื่อจริง
- พอดี
- โฟกัส
- ฟอร์ม
- รูปแบบ
- โชคดี
- ราคาเริ่มต้นที่
- เต็ม
- อย่างเต็มที่
- การทำงาน
- เป้าหมาย
- เป้าหมาย
- ยิ่งใหญ่
- มากขึ้น
- บัญชีกลุ่ม
- ให้คำแนะนำ
- ความสูง
- ที่มีคุณภาพสูง
- ร้อน
- อย่างไรก็ตาม
- HTML
- HTTPS
- เป็นมนุษย์
- องค์ประกอบของมนุษย์
- ไอบีเอ็ม
- ในอุดมคติ
- identiques
- แยกแยะ
- การดำเนินการ
- สำคัญ
- เป็นไปไม่ได้
- in
- อิงค์
- ประกอบด้วย
- อย่างไม่ถูกต้อง
- ที่เพิ่มขึ้น
- อิสระ
- เป็นรายบุคคล
- บุคคล
- ไม่มีประสิทธิภาพ
- ข้อมูล
- ตัวอย่าง
- แทน
- เครื่องมือ
- อยากเรียนรู้
- แนะนำ
- ร่วมมือ
- IT
- KD นักเก็ต
- ความรู้
- ที่รู้จักกัน
- นำ
- การเรียนรู้
- การ จำกัด
- ขีด จำกัด
- Line
- ปิด
- เครื่อง
- เรียนรู้เครื่อง
- หลัก
- ทำให้
- การจัดการ
- หลาย
- พบ
- หน่วยความจำ
- วิธี
- วิธีการ
- ใจ
- หายไป
- ภารกิจ
- ภารกิจของเรา
- แบบ
- เงิน
- ข้อมูลเพิ่มเติม
- มากที่สุด
- เกือบทั้งหมด
- จำเป็นต้อง
- เพื่อนบ้าน
- Netflix
- ใหม่
- จำนวน
- ตัวเลข
- เสนอ
- ONE
- ผู้ประกอบการ
- Options
- organizacja
- เป็นต้นฉบับ
- อื่นๆ
- คน
- สมบูรณ์
- การวาง
- แผนการ
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ความเป็นไปได้
- ที่มีศักยภาพ
- ที่อาจเกิดขึ้น
- การปฏิบัติ
- คาดการณ์
- คำทำนาย
- นำเสนอ
- นำเสนอ
- การป้องกัน
- ประถม
- ก่อน
- ปัญหา
- ปัญหาที่เกิดขึ้น
- โปรแกรมเมอร์
- ที่พิสูจน์แล้ว
- ให้
- คำถาม
- สุ่ม
- พิสัย
- แนะนำ
- บันทึก
- เรียกว่า
- ถดถอย
- ปกติ
- ความสัมพันธ์
- น่าเชื่อถือ
- เอาออก
- แทนที่
- แทนที่
- เป็นตัวแทนของ
- ต้อง
- นักวิจัย
- หวงห้าม
- ผล
- ผลสอบ
- เดียวกัน
- ซัมซุง
- วิทยาศาสตร์
- ค้นหา
- ค้นหา
- ไม่ค่อยจะ
- เลือก
- การเลือก
- เซ็นเซอร์
- ให้บริการ
- ชุด
- ชุดอุปกรณ์
- น่า
- คล้ายคลึงกัน
- ง่าย
- ลดความซับซ้อน
- ตั้งแต่
- เดียว
- สถานการณ์
- สถานการณ์
- So
- ซอฟต์แวร์
- ทางออก
- โซนี่
- ที่ระบุไว้
- ที่เริ่มต้น
- คำแถลง
- สถิติ
- ยังคง
- ความแข็งแรง
- การศึกษา
- ศึกษา
- หรือ
- เหมาะสม
- รองรับ
- การสำรวจ
- ระบบ
- ใช้เวลา
- เทคโนโลยี
- วิชาการ
- เทคนิค
- เทคโนโลยี
- ทดสอบ
- พื้นที่
- ของพวกเขา
- สิ่ง
- ที่สาม
- สาม
- ตลอด
- ผูก
- เวลา
- ครั้ง
- ไปยัง
- การติดตาม
- ชนิด
- ในที่สุด
- ใช้
- มักจะ
- ความคุ้มค่า
- ความคุ้มค่า
- ทำงานได้
- วอร์เนอร์
- วิธี
- โด่งดัง
- อะไร
- ความหมายของ
- ที่
- ในขณะที่
- WHO
- จะ
- ไม่มี
- งาน
- นักเขียน
- การเขียน
- X
- ของคุณ
- ลมทะเล