ความผิดพลาดของอัตราฐานและผลกระทบต่อวิทยาศาสตร์ข้อมูล

ความผิดพลาดของอัตราฐานและผลกระทบต่อวิทยาศาสตร์ข้อมูล

โหนดต้นทาง: 2597848

ความผิดพลาดของอัตราฐานและผลกระทบต่อวิทยาศาสตร์ข้อมูล
ภาพโดยผู้เขียน
 

เมื่อทำงานกับข้อมูลและตัวแปรต่างๆ การกำหนดตัวแปรหรือค่าหนึ่งให้มากกว่าอีกตัวแปรหนึ่งเป็นเรื่องง่าย เราอาจสันนิษฐานว่าตัวแปรหรือจุดข้อมูลหนึ่งๆ มีผลกระทบต่อเอาต์พุตมากกว่า แต่เราแน่ใจได้อย่างไรว่าตัวแปรอื่นๆ มีผลกระทบเท่ากัน

ในสถิติ อัตราพื้นฐานสามารถมองได้ว่าเป็นความน่าจะเป็นของคลาสที่ไม่มีเงื่อนไขใน "หลักฐานเชิงคุณลักษณะ" คุณสามารถดูอัตราพื้นฐานเป็นสมมติฐานความน่าจะเป็นก่อนหน้าของคุณ 

อัตราฐานเป็นเครื่องมือสำคัญในการวิจัย ตัวอย่างเช่น หากเราเป็นบริษัทยาและกำลังอยู่ในขั้นตอนของการพัฒนาและจัดส่งวัคซีนใหม่ เราต้องการดูความสำเร็จของการรักษา ถ้าเรามีคน 4000 คนที่เต็มใจรับการฉีดวัคซีนนี้ และอัตราฐานของเราคือ 1/25 

ซึ่งหมายความว่ามีเพียง 160 คนเท่านั้นที่จะหายจากการรักษาจาก 4000 คน ในโลกเภสัชกรรม นี่เป็นอัตราความสำเร็จที่ต่ำมาก นี่คือวิธีที่สามารถใช้อัตราฐานเพื่อปรับปรุงการวิจัย ความแม่นยำ และทำให้มั่นใจว่าผลิตภัณฑ์จะทำงานได้ดี 

ถ้าเราแบ่งคำจะทำให้เราเข้าใจมากขึ้น Fallacy หมายถึง ความเชื่อที่ผิดหรือการให้เหตุผลผิดพลาด หากตอนนี้เรารวมสิ่งนั้นเข้ากับคำจำกัดความของอัตราฐานด้านบน 

ความผิดพลาดของอัตราฐาน หรือที่เรียกว่าความเอนเอียงของอัตราฐานและการละเลยอัตราฐาน คือความเป็นไปได้ในการตัดสินสถานการณ์เฉพาะ ในขณะที่ไม่ได้คำนึงถึงข้อมูลที่เกี่ยวข้องทั้งหมด 

ความผิดพลาดของอัตราฐานมีข้อมูลเกี่ยวกับอัตราฐานรวมถึงข้อมูลที่เกี่ยวข้องอื่นๆ ซึ่งอาจเกิดจากสาเหตุหลายประการ เช่น ไม่ได้ตรวจสอบและวิเคราะห์ข้อมูลอย่างละเอียดถี่ถ้วน หรือความเพิกเฉยต่อส่วนใดส่วนหนึ่งของข้อมูล 

ความผิดพลาดของอัตราฐานอธิบายถึงแนวโน้มที่บางคนจะไม่สนใจข้อมูลอัตราฐานที่มีอยู่ เพื่อผลักดันและสนับสนุนข้อมูลใหม่ สิ่งนี้ขัดกับกฎพื้นฐานของการให้เหตุผลตามหลักฐาน

โดยทั่วไป คุณจะได้ยินเกี่ยวกับสิ่งนี้ที่เกิดขึ้นในอุตสาหกรรมการเงิน ตัวอย่างเช่น นักลงทุนจะใช้กลยุทธ์ในการซื้อหรือแบ่งปันจากข้อมูลที่ไร้เหตุผล ซึ่งนำไปสู่ความผันผวนในตลาด แม้ว่าจะมีความรู้พื้นฐานด้านอัตราก็ตาม 

ตอนนี้เรามีความเข้าใจที่ดีขึ้นเกี่ยวกับอัตราฐานและการเข้าใจผิดของอัตราฐาน ความเกี่ยวข้องและผลกระทบใน Data Science คืออะไร?

เราได้พูดถึง 'ความน่าจะเป็นของคลาส' และ 'การพิจารณาข้อมูลที่เกี่ยวข้องทั้งหมด' หากคุณเป็นนักวิทยาศาสตร์ข้อมูล หรือวิศวกรการเรียนรู้ของเครื่อง หรือเริ่มก้าวเข้ามาแล้ว คุณจะรู้ว่าความน่าจะเป็นและข้อมูลที่เกี่ยวข้องมีความสำคัญเพียงใดในการสร้างผลลัพธ์ที่แม่นยำ กระบวนการเรียนรู้ของโมเดลการเรียนรู้ของเครื่อง และการสร้างโมเดลที่มีประสิทธิภาพสูง 

ในการวิเคราะห์และคาดการณ์เกี่ยวกับข้อมูลหรือเพื่อให้โมเดลแมชชีนเลิร์นนิงสร้างผลลัพธ์ที่ถูกต้อง คุณต้องคำนึงถึงข้อมูลทุกบิต ขณะที่คุณกำลังสแกนข้อมูลของคุณในครั้งแรกที่คุณเห็น คุณอาจพิจารณาว่าบางส่วนเกี่ยวข้องและบางส่วนไม่เกี่ยวข้อง อย่างไรก็ตาม นี่เป็นวิจารณญาณของคุณและยังไม่เป็นข้อเท็จจริงจนกว่าจะมีการวิเคราะห์ที่เหมาะสม 

ดังที่กล่าวไว้ข้างต้น อัตราฐานเริ่มต้นช่วยให้คุณมั่นใจได้ถึงความแม่นยำและสร้างแบบจำลองที่มีประสิทธิภาพสูง แล้วเราจะทำสิ่งนี้ได้อย่างไรใน Data Science

เมทริกซ์ความสับสน

เมทริกซ์ความสับสนคือการวัดประสิทธิภาพที่ให้ข้อมูลสรุปผลการทำนายเกี่ยวกับปัญหาการจำแนกประเภท เมทริกซ์ความสับสนทั้งหมดขึ้นอยู่กับผลลัพธ์: จริง เท็จ บวก และลบ

เมทริกซ์ความสับสนแสดงถึงการคาดการณ์ของแบบจำลองของเราในระหว่างขั้นตอนการทดสอบ ค่าเท็จ-ลบและค่าบวกเท็จในเมทริกซ์ความสับสนเป็นตัวอย่างของการเข้าใจผิดของอัตราฐาน

  • True Positive (TP) – โมเดลของคุณทำนายผลบวกและมันก็เป็นบวก 
  • True Negative (TN) – แบบจำลองของคุณคาดการณ์ค่าลบและค่าเป็นค่าลบ
  • False Positive (FP) – โมเดลของคุณทำนายผลบวกและผลลบ
  • False Negative (FN) – แบบจำลองของคุณคาดการณ์ค่าลบและค่าเป็นบวก 

เมทริกซ์ความสับสนสามารถคำนวณ 5 เมตริกที่แตกต่างกันเพื่อช่วยเราวัดความถูกต้องของแบบจำลองของเรา:

  1. การจัดประเภทผิด = FP + FN / TP + TN + FP + FN
  2. ความแม่นยำ = TP / TP + FP
  3. ความแม่นยำ = TP + TN / TP + TN + FP + FN
  4. ความจำเพาะ = TN / TN + FP
  5. ความไว aka Recall = TP / TP + FN

เพื่อให้เข้าใจเมทริกซ์ความสับสนได้ดียิ่งขึ้น ควรดูที่การแสดงภาพ: 
 

ความผิดพลาดของอัตราฐานและผลกระทบต่อวิทยาศาสตร์ข้อมูล
ภาพโดยผู้เขียน

ขณะที่คุณอ่านบทความนี้ คุณอาจนึกถึงสาเหตุหลายประการของการเข้าใจผิดเกี่ยวกับอัตราฐาน เช่น การไม่นำข้อมูลที่เกี่ยวข้องทั้งหมดมาพิจารณา ข้อผิดพลาดของมนุษย์ หรือการขาดความแม่นยำ 

แม้ว่าทั้งหมดนี้จะเป็นความจริงและเพิ่มสาเหตุของการเข้าใจผิดของอัตราฐาน ทั้งหมดนี้เกี่ยวข้องกับปัญหาที่ใหญ่ที่สุดของการเพิกเฉยต่อข้อมูลอัตราพื้นฐานตั้งแต่แรก ข้อมูลอัตราฐานมักถูกละเลยเนื่องจากถือว่าไม่เกี่ยวข้อง อย่างไรก็ตาม ข้อมูลอัตราฐานสามารถช่วยผู้คนประหยัดเวลาและเงินได้มาก การใช้ข้อมูลอัตราฐานที่มีอยู่จะช่วยให้คุณระบุความน่าจะเป็นได้อย่างแม่นยำมากขึ้นว่าเหตุการณ์หนึ่งๆ จะเกิดขึ้นหรือไม่ 

การใช้ข้อมูลอัตราฐานจะช่วยให้คุณหลีกเลี่ยงความผิดพลาดของอัตราฐานได้ 

การตระหนักถึงข้อผิดพลาดต่างๆ เช่น ความคิดเห็น กระบวนการอัตโนมัติ ฯลฯ จะช่วยให้คุณต่อสู้กับปัญหาอัตราฐานที่ผิดพลาดและลดข้อผิดพลาดที่อาจเกิดขึ้นได้ เมื่อคุณวัดความน่าจะเป็นของเหตุการณ์บางอย่างที่เกิดขึ้น วิธีการแบบเบส์สามารถช่วยในเรื่องนี้เพื่อลดความผิดพลาดของอัตราพื้นฐาน  

อัตราพื้นฐานมีความสำคัญในด้านวิทยาการข้อมูล เนื่องจากจะช่วยให้คุณมีความเข้าใจพื้นฐานเกี่ยวกับวิธีการประเมินการศึกษาหรือโครงการของคุณ และปรับแต่งโมเดลของคุณอย่างละเอียด ซึ่งช่วยเพิ่มความแม่นยำและประสิทธิภาพโดยรวม

หากคุณต้องการดูวิดีโอเกี่ยวกับการเข้าใจผิดเกี่ยวกับอัตราฐานในด้านการแพทย์ โปรดดูวิดีโอนี้: การทดสอบทางการแพทย์ Paradox
 
 
ณิชา อารยา เป็นนักวิทยาศาสตร์ข้อมูล นักเขียนด้านเทคนิคอิสระ และผู้จัดการชุมชนที่ KDnuggets เธอสนใจเป็นพิเศษในการให้คำแนะนำด้านอาชีพของ Data Science หรือแบบฝึกหัดและความรู้ตามทฤษฎีเกี่ยวกับ Data Science นอกจากนี้ เธอยังต้องการสำรวจวิธีการต่างๆ ของปัญญาประดิษฐ์ที่สามารถเป็นประโยชน์ต่อการมีอายุยืนยาวของมนุษย์ ใฝ่เรียนรู้ ต้องการเพิ่มพูนความรู้ด้านเทคโนโลยีและทักษะการเขียน ในขณะที่ช่วยแนะนำผู้อื่น
 

ประทับเวลา:

เพิ่มเติมจาก KD นักเก็ต

ข่าว KDnuggets วันที่ 6 ธันวาคม: พื้นที่เก็บข้อมูล GitHub สำหรับการเรียนรู้ของเครื่องระดับปรมาจารย์ • 5 หลักสูตรฟรีสำหรับผู้เชี่ยวชาญด้านวิศวกรรมข้อมูล – KDnuggets

โหนดต้นทาง: 2998625
ประทับเวลา: ธันวาคม 6, 2023