แนวทางการใส่ร้ายข้อมูล

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

แนวทางการใส่ข้อมูล
ภาพถ่ายโดย รอน แลค

ชุดข้อมูลในโลกแห่งความเป็นจริงมักไม่ค่อยสมบูรณ์แบบและมักมีค่าที่ขาดหายไปหรือข้อมูลที่ไม่สมบูรณ์ ข้อผิดพลาดเหล่านี้อาจเกิดจากองค์ประกอบของมนุษย์ (แบบสำรวจที่กรอกไม่ถูกต้องหรือไม่ได้กรอก) หรือเทคโนโลยี (เซ็นเซอร์ทำงานผิดปกติ) ไม่ว่ากรณีจะเป็นเช่นไร คุณมักจะทิ้งคุณค่าหรือข้อมูลที่ขาดหายไป

แน่นอนว่านี่เป็นปัญหา หากไม่มีค่าที่ขาดหายไป ชุดข้อมูลทั้งหมดอาจถือว่าใช้ไม่ได้ แต่เนื่องจากต้องใช้เวลา ความพยายาม และเงิน (ในหลายๆ กรณี) พอสมควร รับข้อมูลคุณภาพสูงการกำจัดข้อมูลที่ไม่ถูกต้องและเริ่มต้นใหม่อีกครั้งอาจไม่ใช่ตัวเลือกที่ใช้ได้ เราต้องหาวิธีแก้ไขหรือแทนที่ค่าที่ขาดหายไปเหล่านี้ นี่คือที่มาของการใส่ข้อมูล

คู่มือนี้จะกล่าวถึงการใส่ข้อมูลแบบใดและประเภทของแนวทางที่สนับสนุน

แม้ว่าเราจะไม่สามารถแทนที่ข้อมูลที่ขาดหายไปหรือเสียหายได้ แต่ก็มีวิธีการที่เราสามารถใช้เพื่อให้ชุดข้อมูลยังคงใช้งานได้ การใส่ร้ายข้อมูลเป็นหนึ่งในเทคนิคที่น่าเชื่อถือที่สุดในการบรรลุเป้าหมายนี้ อย่างไรก็ตาม เราต้องระบุก่อนว่าข้อมูลประเภทใดหายไปและเพราะเหตุใด

ในสถิติและวิทยาศาสตร์ข้อมูล มีข้อมูลขาดหายไปสามประเภทหลัก:

หายไปโดยสุ่ม (MAR)โดยที่ข้อมูลที่ขาดหายไปจะเชื่อมโยงกับตัวแปรและสามารถสังเกตหรือติดตามได้ในที่สุด ในหลายกรณี ข้อมูลนี้จะให้ข้อมูลเพิ่มเติมเกี่ยวกับข้อมูลประชากรหรือเจ้าของข้อมูล ตัวอย่างเช่น ผู้คนในช่วงอายุหนึ่งอาจตัดสินใจข้ามคำถามในแบบสำรวจหรือลบระบบติดตามออกจากอุปกรณ์ในบางช่วงเวลา
ขาดหายไปโดยสุ่ม (MCAR)ที่นี่มี ข้อมูลที่ขาดหายไป ไม่สามารถสังเกตหรือติดตามตัวแปรได้ แทบเป็นไปไม่ได้เลยที่จะแยกแยะว่าทำไมข้อมูลถึงหายไป
ข้อมูลที่ขาดหายไปโดยไม่สุ่ม (NMAR)โดยที่ข้อมูลที่ขาดหายไปเชื่อมโยงกับตัวแปรที่น่าสนใจ ในกรณีส่วนใหญ่ ข้อมูลที่ขาดหายไปนี้สามารถละเว้นได้ NMAR อาจเกิดขึ้นเมื่อผู้ทำแบบสำรวจข้ามคำถามที่ไม่เกี่ยวข้องกับพวกเขา

การจัดการกับข้อมูลที่ขาดหายไป

ขณะนี้ คุณมีตัวเลือกหลักสามตัวเลือกในการจัดการกับค่าข้อมูลที่ขาดหายไป:

การลบ
การใส่ความ
ไม่สนใจ

แทนที่จะทิ้งชุดข้อมูลทั้งหมด คุณสามารถใช้สิ่งที่เรียกว่าการลบแบบรายการ ซึ่งเกี่ยวข้องกับการลบบันทึกที่มีข้อมูลหรือค่าที่ขาดหายไป ข้อได้เปรียบหลักของการลบแบบรายการคือรองรับข้อมูลที่ขาดหายไปทั้งสามประเภท

อย่างไรก็ตาม อาจทำให้ข้อมูลสูญหายเพิ่มเติม ขอแนะนำให้ใช้เฉพาะ การลบตามรายการ ในกรณีที่มีค่าที่หายไป (สังเกตได้) เป็นจำนวนมากกว่าค่าปัจจุบัน (สังเกตได้) ส่วนใหญ่เป็นเพราะมีข้อมูลไม่เพียงพอที่จะอนุมานหรือแทนที่ได้

หากข้อมูลที่ขาดหายไปที่สังเกตได้ไม่สำคัญ (เพิกเฉยได้) และมีค่าเพียงไม่กี่ค่าเท่านั้นที่ขาดหายไป คุณสามารถเพิกเฉยต่อข้อมูลเหล่านั้นและทำงานกับสิ่งที่คุณมี อย่างไรก็ตาม นี่ไม่ใช่ความเป็นไปได้เสมอไป การใส่ข้อมูลเป็นวิธีแก้ปัญหาที่สามและเป็นไปได้มากกว่า

การใส่ข้อมูลเกี่ยวข้องกับการแทนที่ค่าที่ขาดหายไปเพื่อให้ชุดข้อมูลยังคงใช้งานได้ วิธีการใส่ข้อมูลมีสองประเภท:

เดียว
แพลตฟอร์มที่หลากหลาย

การใส่ข้อมูลเฉลี่ย (MI) เป็นหนึ่งในรูปแบบการใส่ข้อมูลเดียวที่มีชื่อเสียงที่สุด

การใส่ค่าเฉลี่ย (MI)

MI เป็นรูปแบบหนึ่งของการใส่ความง่ายๆ สิ่งนี้เกี่ยวข้องกับการคำนวณค่าเฉลี่ยของค่าที่สังเกตได้และใช้ผลลัพธ์เพื่ออนุมานค่าที่ขาดหายไป น่าเสียดายที่วิธีนี้ได้รับการพิสูจน์แล้วว่าไม่ได้ผล มันสามารถนำไปสู่การประมาณการที่มีอคติมากมาย แม้ว่าข้อมูลจะขาดหายไปทั้งหมดโดยการสุ่ม นอกจากนี้ “ความแม่นยำ” ของการประมาณค่ายังขึ้นอยู่กับจำนวนของค่าที่ขาดหายไป

ตัวอย่างเช่น ถ้ามีค่าสังเกตที่ขาดหายไปจำนวนมาก ใช้การใส่ความหมายถึง อาจนำไปสู่การประเมินมูลค่าต่ำเกินไป ดังนั้นจึงเหมาะกว่าสำหรับชุดข้อมูลและตัวแปรที่มีค่าขาดหายไปเพียงไม่กี่ค่า

การเปลี่ยนด้วยตนเอง

ในสถานการณ์นี้ ตัวดำเนินการสามารถใช้ความรู้เดิมเกี่ยวกับค่าของชุดข้อมูลเพื่อแทนที่ค่าที่ขาดหายไป เป็นวิธีการใส่ค่าวิธีเดียวที่อาศัยความจำหรือความรู้ของผู้ดำเนินการ และบางครั้งเรียกว่าความรู้เดิมเกี่ยวกับจำนวนในอุดมคติ ความแม่นยำขึ้นอยู่กับความสามารถของผู้ปฏิบัติงานในการเรียกคืนค่า ดังนั้นวิธีนี้อาจเหมาะสมกว่าสำหรับชุดข้อมูลที่มีค่าขาดหายไปเพียงไม่กี่ค่า

K-เพื่อนบ้านที่ใกล้ที่สุด (K-NN)

K-Nearest Neighbor เป็นเทคนิคที่มีชื่อเสียงซึ่งใช้ในแมชชีนเลิร์นนิงเพื่อแก้ปัญหาการถดถอยและการจำแนกประเภท ใช้ค่าเฉลี่ยของค่าข้อมูลที่หายไปของค่าข้อมูลที่หายไปของเพื่อนบ้านเพื่อคำนวณและนำไปใช้ เดอะ วิธี K-NN มีประสิทธิภาพมากกว่าการใส่ค่าเฉลี่ยอย่างง่าย และเหมาะสำหรับค่า MCAR และ MAR

การแทน

การทดแทนเกี่ยวข้องกับการค้นหาบุคคลใหม่หรืออยู่ภายใต้การสำรวจหรือการทดสอบ นี่ควรเป็นหัวข้อที่ไม่ได้ถูกเลือกในตัวอย่างต้นฉบับ

การใส่ความถดถอย

การถดถอยพยายามกำหนดความแข็งแกร่งของตัวแปรตาม (โดยปกติจะระบุเป็น Y) ต่อชุดของตัวแปรอิสระ (โดยปกติจะแสดงเป็น X) การถดถอยเชิงเส้นเป็นรูปแบบการถดถอยที่รู้จักกันดีที่สุด ใช้เส้นที่เหมาะสมที่สุดในการทำนายหรือกำหนดค่าที่ขาดหายไป ดังนั้นจึงเป็นวิธีที่ดีที่สุดในการแสดงข้อมูลด้วยภาพผ่านแบบจำลองการถดถอย

เมื่อการถดถอยเชิงเส้นเป็นรูปแบบหนึ่งของการถดถอยเชิงกำหนดซึ่งความสัมพันธ์ที่แน่นอนระหว่างค่าที่หายไปและค่าปัจจุบันถูกสร้างขึ้น ค่าที่หายไปจะถูกแทนที่ด้วยการทำนาย 100% ของแบบจำลองการถดถอย อย่างไรก็ตามมีข้อ จำกัด สำหรับวิธีนี้ การถดถอยเชิงเส้นเชิงกำหนดมักจะส่งผลให้เกิดการประมาณค่าความใกล้ชิดของความสัมพันธ์ระหว่างค่าสูงเกินไป

Stochastic การถดถอยเชิงเส้น ชดเชย "ความแม่นยำเกิน" ของ deterministic regression ด้วยการแนะนำข้อผิดพลาด (สุ่ม) เนื่องจากสถานการณ์หรือตัวแปรสองอย่างแทบจะไม่เชื่อมโยงกันอย่างสมบูรณ์ สิ่งนี้ทำให้การเติมค่าที่ขาดหายไปโดยใช้การถดถอยมีความเหมาะสมมากขึ้น

การสุ่มตัวอย่างแบบร้อน

วิธีการนี้เกี่ยวข้องกับการเลือกค่าที่สุ่มเลือกจากหัวเรื่องที่มีค่าอื่นคล้ายกับหัวเรื่องที่ไม่มีค่า คุณต้องค้นหาหัวเรื่องหรือบุคคลแล้วกรอกข้อมูลที่ขาดหายไปโดยใช้ค่าของพวกเขา

วิธีการสุ่มตัวอย่างแบบ Hot Deck จะจำกัดช่วงของค่าที่ได้ ตัวอย่างเช่น หากตัวอย่างของคุณถูกจำกัดให้อยู่ในกลุ่มอายุระหว่าง 20 ถึง 25 ปี ผลลัพธ์ของคุณจะอยู่ระหว่างตัวเลขเหล่านี้เสมอ ซึ่งจะช่วยเพิ่มความแม่นยำที่เป็นไปได้ของค่าทดแทน หัวข้อ/บุคคลสำหรับวิธีการใส่ความนี้จะถูกเลือกโดยการสุ่ม

การสุ่มตัวอย่างแบบเย็น

วิธีนี้เกี่ยวข้องกับการค้นหาบุคคล/หัวเรื่องที่มีค่าใกล้เคียงหรือเหมือนกันสำหรับตัวแปร/พารามิเตอร์อื่นๆ ในชุดข้อมูล ตัวอย่างเช่น ตัวแบบอาจมีส่วนสูง ภูมิหลังทางวัฒนธรรม และอายุเท่ากันกับตัวแบบที่ไม่มีค่า ซึ่งแตกต่างจากการสุ่มตัวอย่างแบบ Hot Deck ตรงที่อาสาสมัครจะถูกเลือกและนำกลับมาใช้ใหม่อย่างเป็นระบบ

แม้จะมีตัวเลือกและเทคนิคมากมายในการจัดการกับข้อมูลที่ขาดหายไป การป้องกันย่อมดีกว่าการรักษาเสมอ นักวิจัยต้องดำเนินการอย่างเข้มงวด การวางแผนสำหรับการทดลอง และการศึกษา การศึกษาจะต้องมีพันธกิจหรือเป้าหมายที่ชัดเจนในใจ

บ่อยครั้ง นักวิจัยทำการศึกษาให้ซับซ้อนเกินไปหรือล้มเหลวในการวางแผนป้องกันสิ่งกีดขวาง ซึ่งส่งผลให้ข้อมูลขาดหายหรือไม่เพียงพอ เป็นการดีที่สุดเสมอที่จะทำให้การออกแบบการศึกษาง่ายขึ้นในขณะที่ให้ความสำคัญกับการรวบรวมข้อมูล

รวบรวมเฉพาะข้อมูลที่คุณต้องการเพื่อให้บรรลุเป้าหมายของการศึกษาและไม่มีอะไรเพิ่มเติม คุณควรตรวจสอบให้แน่ใจด้วยว่าเครื่องมือและเซ็นเซอร์ทั้งหมดที่เกี่ยวข้องกับการศึกษาหรือการทดลองนั้นทำงานได้อย่างสมบูรณ์ตลอดเวลา พิจารณาสร้างการสำรองข้อมูล/การตอบกลับของคุณเป็นประจำในขณะที่การศึกษาดำเนินไป

ข้อมูลหายเป็นเรื่องปกติ แม้ว่าคุณจะใช้แนวทางปฏิบัติที่ดีที่สุด คุณก็ยังอาจประสบกับข้อมูลที่ไม่สมบูรณ์ โชคดีที่มีวิธีแก้ไขปัญหานี้หลังจากข้อเท็จจริง

นาห์ลา เดวีส์ เป็นนักพัฒนาซอฟต์แวร์และนักเขียนด้านเทคนิค ก่อนที่จะอุทิศงานเต็มเวลาให้กับงานเขียนเชิงเทคนิค เธอได้จัดการ — เหนือสิ่งอื่นใด — เพื่อทำหน้าที่เป็นผู้นำโปรแกรมเมอร์ที่องค์กรสร้างแบรนด์จากประสบการณ์ 5,000 แห่งของ Inc. ซึ่งมีลูกค้า ได้แก่ Samsung, Time Warner, Netflix และ Sony