The Base Rate Fallacy And Its Impact On Data Science

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ความผิดพลาดของอัตราฐานและผลกระทบต่อวิทยาศาสตร์ข้อมูล
ภาพโดยผู้เขียน

เมื่อทำงานกับข้อมูลและตัวแปรต่างๆ การกำหนดตัวแปรหรือค่าหนึ่งให้มากกว่าอีกตัวแปรหนึ่งเป็นเรื่องง่าย เราอาจสันนิษฐานว่าตัวแปรหรือจุดข้อมูลหนึ่งๆ มีผลกระทบต่อเอาต์พุตมากกว่า แต่เราแน่ใจได้อย่างไรว่าตัวแปรอื่นๆ มีผลกระทบเท่ากัน

ในสถิติ อัตราพื้นฐานสามารถมองได้ว่าเป็นความน่าจะเป็นของคลาสที่ไม่มีเงื่อนไขใน "หลักฐานเชิงคุณลักษณะ" คุณสามารถดูอัตราพื้นฐานเป็นสมมติฐานความน่าจะเป็นก่อนหน้าของคุณ

อัตราฐานเป็นเครื่องมือสำคัญในการวิจัย ตัวอย่างเช่น หากเราเป็นบริษัทยาและกำลังอยู่ในขั้นตอนของการพัฒนาและจัดส่งวัคซีนใหม่ เราต้องการดูความสำเร็จของการรักษา ถ้าเรามีคน 4000 คนที่เต็มใจรับการฉีดวัคซีนนี้ และอัตราฐานของเราคือ 1/25

ซึ่งหมายความว่ามีเพียง 160 คนเท่านั้นที่จะหายจากการรักษาจาก 4000 คน ในโลกเภสัชกรรม นี่เป็นอัตราความสำเร็จที่ต่ำมาก นี่คือวิธีที่สามารถใช้อัตราฐานเพื่อปรับปรุงการวิจัย ความแม่นยำ และทำให้มั่นใจว่าผลิตภัณฑ์จะทำงานได้ดี

ถ้าเราแบ่งคำจะทำให้เราเข้าใจมากขึ้น Fallacy หมายถึง ความเชื่อที่ผิดหรือการให้เหตุผลผิดพลาด หากตอนนี้เรารวมสิ่งนั้นเข้ากับคำจำกัดความของอัตราฐานด้านบน

ความผิดพลาดของอัตราฐาน หรือที่เรียกว่าความเอนเอียงของอัตราฐานและการละเลยอัตราฐาน คือความเป็นไปได้ในการตัดสินสถานการณ์เฉพาะ ในขณะที่ไม่ได้คำนึงถึงข้อมูลที่เกี่ยวข้องทั้งหมด

ความผิดพลาดของอัตราฐานมีข้อมูลเกี่ยวกับอัตราฐานรวมถึงข้อมูลที่เกี่ยวข้องอื่นๆ ซึ่งอาจเกิดจากสาเหตุหลายประการ เช่น ไม่ได้ตรวจสอบและวิเคราะห์ข้อมูลอย่างละเอียดถี่ถ้วน หรือความเพิกเฉยต่อส่วนใดส่วนหนึ่งของข้อมูล

ความผิดพลาดของอัตราฐานอธิบายถึงแนวโน้มที่บางคนจะไม่สนใจข้อมูลอัตราฐานที่มีอยู่ เพื่อผลักดันและสนับสนุนข้อมูลใหม่ สิ่งนี้ขัดกับกฎพื้นฐานของการให้เหตุผลตามหลักฐาน

โดยทั่วไป คุณจะได้ยินเกี่ยวกับสิ่งนี้ที่เกิดขึ้นในอุตสาหกรรมการเงิน ตัวอย่างเช่น นักลงทุนจะใช้กลยุทธ์ในการซื้อหรือแบ่งปันจากข้อมูลที่ไร้เหตุผล ซึ่งนำไปสู่ความผันผวนในตลาด แม้ว่าจะมีความรู้พื้นฐานด้านอัตราก็ตาม

ตอนนี้เรามีความเข้าใจที่ดีขึ้นเกี่ยวกับอัตราฐานและการเข้าใจผิดของอัตราฐาน ความเกี่ยวข้องและผลกระทบใน Data Science คืออะไร?

เราได้พูดถึง 'ความน่าจะเป็นของคลาส' และ 'การพิจารณาข้อมูลที่เกี่ยวข้องทั้งหมด' หากคุณเป็นนักวิทยาศาสตร์ข้อมูล หรือวิศวกรการเรียนรู้ของเครื่อง หรือเริ่มก้าวเข้ามาแล้ว คุณจะรู้ว่าความน่าจะเป็นและข้อมูลที่เกี่ยวข้องมีความสำคัญเพียงใดในการสร้างผลลัพธ์ที่แม่นยำ กระบวนการเรียนรู้ของโมเดลการเรียนรู้ของเครื่อง และการสร้างโมเดลที่มีประสิทธิภาพสูง

ในการวิเคราะห์และคาดการณ์เกี่ยวกับข้อมูลหรือเพื่อให้โมเดลแมชชีนเลิร์นนิงสร้างผลลัพธ์ที่ถูกต้อง คุณต้องคำนึงถึงข้อมูลทุกบิต ขณะที่คุณกำลังสแกนข้อมูลของคุณในครั้งแรกที่คุณเห็น คุณอาจพิจารณาว่าบางส่วนเกี่ยวข้องและบางส่วนไม่เกี่ยวข้อง อย่างไรก็ตาม นี่เป็นวิจารณญาณของคุณและยังไม่เป็นข้อเท็จจริงจนกว่าจะมีการวิเคราะห์ที่เหมาะสม

ดังที่กล่าวไว้ข้างต้น อัตราฐานเริ่มต้นช่วยให้คุณมั่นใจได้ถึงความแม่นยำและสร้างแบบจำลองที่มีประสิทธิภาพสูง แล้วเราจะทำสิ่งนี้ได้อย่างไรใน Data Science

เมทริกซ์ความสับสน

เมทริกซ์ความสับสนคือการวัดประสิทธิภาพที่ให้ข้อมูลสรุปผลการทำนายเกี่ยวกับปัญหาการจำแนกประเภท เมทริกซ์ความสับสนทั้งหมดขึ้นอยู่กับผลลัพธ์: จริง เท็จ บวก และลบ

เมทริกซ์ความสับสนแสดงถึงการคาดการณ์ของแบบจำลองของเราในระหว่างขั้นตอนการทดสอบ ค่าเท็จ-ลบและค่าบวกเท็จในเมทริกซ์ความสับสนเป็นตัวอย่างของการเข้าใจผิดของอัตราฐาน

True Positive (TP) – โมเดลของคุณทำนายผลบวกและมันก็เป็นบวก
True Negative (TN) – แบบจำลองของคุณคาดการณ์ค่าลบและค่าเป็นค่าลบ
False Positive (FP) – โมเดลของคุณทำนายผลบวกและผลลบ
False Negative (FN) – แบบจำลองของคุณคาดการณ์ค่าลบและค่าเป็นบวก

เมทริกซ์ความสับสนสามารถคำนวณ 5 เมตริกที่แตกต่างกันเพื่อช่วยเราวัดความถูกต้องของแบบจำลองของเรา:

การจัดประเภทผิด = FP + FN / TP + TN + FP + FN
ความแม่นยำ = TP / TP + FP
ความแม่นยำ = TP + TN / TP + TN + FP + FN
ความจำเพาะ = TN / TN + FP
ความไว aka Recall = TP / TP + FN

เพื่อให้เข้าใจเมทริกซ์ความสับสนได้ดียิ่งขึ้น ควรดูที่การแสดงภาพ:

ความผิดพลาดของอัตราฐานและผลกระทบต่อวิทยาศาสตร์ข้อมูล
ภาพโดยผู้เขียน

ขณะที่คุณอ่านบทความนี้ คุณอาจนึกถึงสาเหตุหลายประการของการเข้าใจผิดเกี่ยวกับอัตราฐาน เช่น การไม่นำข้อมูลที่เกี่ยวข้องทั้งหมดมาพิจารณา ข้อผิดพลาดของมนุษย์ หรือการขาดความแม่นยำ

แม้ว่าทั้งหมดนี้จะเป็นความจริงและเพิ่มสาเหตุของการเข้าใจผิดของอัตราฐาน ทั้งหมดนี้เกี่ยวข้องกับปัญหาที่ใหญ่ที่สุดของการเพิกเฉยต่อข้อมูลอัตราพื้นฐานตั้งแต่แรก ข้อมูลอัตราฐานมักถูกละเลยเนื่องจากถือว่าไม่เกี่ยวข้อง อย่างไรก็ตาม ข้อมูลอัตราฐานสามารถช่วยผู้คนประหยัดเวลาและเงินได้มาก การใช้ข้อมูลอัตราฐานที่มีอยู่จะช่วยให้คุณระบุความน่าจะเป็นได้อย่างแม่นยำมากขึ้นว่าเหตุการณ์หนึ่งๆ จะเกิดขึ้นหรือไม่

การใช้ข้อมูลอัตราฐานจะช่วยให้คุณหลีกเลี่ยงความผิดพลาดของอัตราฐานได้

การตระหนักถึงข้อผิดพลาดต่างๆ เช่น ความคิดเห็น กระบวนการอัตโนมัติ ฯลฯ จะช่วยให้คุณต่อสู้กับปัญหาอัตราฐานที่ผิดพลาดและลดข้อผิดพลาดที่อาจเกิดขึ้นได้ เมื่อคุณวัดความน่าจะเป็นของเหตุการณ์บางอย่างที่เกิดขึ้น วิธีการแบบเบส์สามารถช่วยในเรื่องนี้เพื่อลดความผิดพลาดของอัตราพื้นฐาน

อัตราพื้นฐานมีความสำคัญในด้านวิทยาการข้อมูล เนื่องจากจะช่วยให้คุณมีความเข้าใจพื้นฐานเกี่ยวกับวิธีการประเมินการศึกษาหรือโครงการของคุณ และปรับแต่งโมเดลของคุณอย่างละเอียด ซึ่งช่วยเพิ่มความแม่นยำและประสิทธิภาพโดยรวม

หากคุณต้องการดูวิดีโอเกี่ยวกับการเข้าใจผิดเกี่ยวกับอัตราฐานในด้านการแพทย์ โปรดดูวิดีโอนี้: การทดสอบทางการแพทย์ Paradox

ณิชา อารยา เป็นนักวิทยาศาสตร์ข้อมูล นักเขียนด้านเทคนิคอิสระ และผู้จัดการชุมชนที่ KDnuggets เธอสนใจเป็นพิเศษในการให้คำแนะนำด้านอาชีพของ Data Science หรือแบบฝึกหัดและความรู้ตามทฤษฎีเกี่ยวกับ Data Science นอกจากนี้ เธอยังต้องการสำรวจวิธีการต่างๆ ของปัญญาประดิษฐ์ที่สามารถเป็นประโยชน์ต่อการมีอายุยืนยาวของมนุษย์ ใฝ่เรียนรู้ ต้องการเพิ่มพูนความรู้ด้านเทคโนโลยีและทักษะการเขียน ในขณะที่ช่วยแนะนำผู้อื่น

เพิ่มเติมในหัวข้อนี้

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
การสร้างอนาคตโดย Adryenn Ashley เข้าถึงได้ที่นี่.
ที่มา: https://www.kdnuggets.com/2023/04/base-rate-fallacy-impact-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=the-base-rate-fallacy-and-its-impact-on-data-science

ประทับเวลา: April 20, 2023

สุดยอดระบบนิเวศแบบจำลองภาษาโอเพ่นซอร์สขนาดใหญ่

คลัสเตอร์ต้นทาง:

KD นักเก็ต

โหนดต้นทาง: 2630066

ประทับเวลา: May 4, 2023

เผยแพร่ซ้ำโดยเพลโต

ยกระดับทักษะเครื่องมือค้นหาของคุณด้วย Uplimit's Search ด้วยหลักสูตร ML! – เคนักเก็ต

ChatGPT คืออะไรและทำไมจึงใช้งานได้

Smart Ingestion: การใช้ AI . ที่ขับเคลื่อนด้วย ontology

2023: ปีแห่ง AI ที่บ้าคลั่ง – KDnuggets

สุดยอดระบบนิเวศแบบจำลองภาษาโอเพ่นซอร์สขนาดใหญ่

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้