ข้อมูลสถิติที่สำคัญที่นักวิทยาศาสตร์จำเป็นต้องรู้

โหนดต้นทาง: 1876637

ข้อมูลสถิติที่สำคัญที่นักวิทยาศาสตร์จำเป็นต้องรู้

นักวิทยาศาสตร์ด้านข้อมูลทุกคนต้องชื่นชมแนวคิดทางสถิติพื้นฐานหลายประการ ตั้งแต่ผู้สนใจไปจนถึงมืออาชีพ ที่นี่ เราจัดเตรียมข้อมูลโค้ดใน Python เพื่อเพิ่มความเข้าใจ เพื่อนำเสนอเครื่องมือหลักที่นำข้อมูลเชิงลึกมาสู่ข้อมูลของคุณตั้งแต่เนิ่นๆ


By เล็กษมี เอส. สุนิล, ไอไอที อินดอร์ '23 | GHC '21 Scholar.

การวิเคราะห์ทางสถิติช่วยให้เราได้รับข้อมูลเชิงลึกอันมีค่าจากข้อมูลในมือ การเข้าใจแนวคิดและเทคนิคทางสถิติที่สำคัญเป็นสิ่งสำคัญอย่างยิ่งในการวิเคราะห์ข้อมูลโดยใช้เครื่องมือต่างๆ

ก่อนที่เราจะลงรายละเอียด เรามาดูหัวข้อที่กล่าวถึงในบทความนี้กันก่อน:

  • สถิติเชิงพรรณนาเทียบกับสถิติเชิงอนุมาน
  • ประเภทข้อมูล
  • ความน่าจะเป็น & ทฤษฎีบทของเบย์
  • มาตรการแนวโน้มส่วนกลาง
  • เบ้
  • โด่ง
  • มาตรการการกระจายตัว
  • ความแปรปรวนร่วม
  • ความสัมพันธ์
  • การแจกแจงความน่าจะเป็น
  • การทดสอบสมมติฐาน
  • การถอยหลัง

สถิติเชิงพรรณนาเทียบกับสถิติเชิงอนุมาน

สถิติโดยรวมเกี่ยวข้องกับการรวบรวม การจัดองค์กร การวิเคราะห์ การตีความ และการนำเสนอข้อมูล ภายในสถิติมีสองสาขาหลัก:

  1. สถิติเชิงพรรณนา: สิ่งนี้เกี่ยวข้องกับการอธิบายคุณสมบัติของข้อมูล การจัดระเบียบและการนำเสนอข้อมูลด้วยภาพผ่านแผนภูมิ/กราฟ หรือผ่านการคำนวณเชิงตัวเลขโดยใช้การวัดแนวโน้มจากส่วนกลาง ความแปรปรวน และการแจกแจง ประเด็นสำคัญประการหนึ่งคือข้อสรุปนั้นมาจากข้อมูลที่ทราบอยู่แล้ว
  2. สถิติเชิงอนุมาน: สิ่งนี้เกี่ยวข้องกับการอนุมานและการสรุปเกี่ยวกับประชากรจำนวนมากขึ้นโดยใช้ตัวอย่างที่นำมาจากพวกมัน จึงต้องอาศัยการคำนวณที่ซับซ้อนมากขึ้น ผลลัพธ์สุดท้ายถูกสร้างขึ้นโดยใช้เทคนิคต่างๆ เช่น การทดสอบสมมติฐาน สหสัมพันธ์ และการวิเคราะห์การถดถอย ผลลัพธ์และข้อสรุปที่คาดการณ์ในอนาคตนั้นเหนือกว่าระดับของข้อมูลที่มีอยู่

ประเภทข้อมูล

ในการดำเนินการ Exploratory Data Analysis (EDA) ที่เหมาะสมโดยใช้เทคนิคทางสถิติที่เหมาะสมที่สุด เราต้องเข้าใจว่าข้อมูลประเภทใดที่เรากำลังดำเนินการอยู่

  1. ข้อมูลหมวดหมู่

ข้อมูลตามหมวดหมู่แสดงถึงตัวแปรเชิงคุณภาพ เช่น เพศ กรุ๊ปเลือด ภาษาแม่ ฯลฯ ของแต่ละบุคคล ข้อมูลตามหมวดหมู่จะอยู่ในรูปของค่าตัวเลขโดยไม่มีความหมายทางคณิตศาสตร์ ตัวอย่างเช่น หากเพศเป็นตัวแปร ผู้หญิงสามารถแสดงด้วย 1 และเพศชายเป็น 0

  • ข้อมูลที่กำหนด: ค่าระบุตัวแปร และไม่มีลำดับชั้นที่กำหนดไว้ระหว่างหมวดหมู่ กล่าวคือ ไม่มีลำดับหรือทิศทาง—เช่น ศาสนา เพศ ฯลฯ มาตราส่วนที่กำหนดมีเพียงสองหมวดหมู่เรียกว่า "dichotomous"
  • ข้อมูลลำดับ: ลำดับหรือลำดับชั้นอยู่ระหว่างหมวดหมู่ เช่น การให้คะแนนคุณภาพ ระดับการศึกษา เกรดจดหมายของนักเรียน เป็นต้น
  1. ข้อมูลตัวเลข

ข้อมูลเชิงตัวเลขแสดงถึงตัวแปรเชิงปริมาณที่แสดงในรูปของตัวเลขเท่านั้น เช่น ส่วนสูง น้ำหนัก เป็นต้น

  • ข้อมูลแบบไม่ต่อเนื่อง: ค่าสามารถนับได้และเป็นจำนวนเต็ม (ส่วนใหญ่มักเป็นจำนวนเต็ม) เช่น จำนวนรถในลานจอดรถ จำนวนประเทศ เป็นต้น
  • ข้อมูลต่อเนื่อง: การสังเกตสามารถวัดได้ แต่ไม่สามารถนับได้ ข้อมูลถือว่าค่าใดๆ ภายในช่วง เช่น น้ำหนัก ส่วนสูง เป็นต้น ข้อมูลต่อเนื่องสามารถแบ่งออกเป็นข้อมูลช่วงเวลา (ค่าที่เรียงลำดับมีความแตกต่างกันแต่ไม่มีศูนย์จริง) และข้อมูลอัตราส่วน (ค่าที่เรียงลำดับมีความแตกต่างกัน ระหว่างพวกเขาและศูนย์จริงมีอยู่)

ความน่าจะเป็น & ทฤษฎีบทของเบย์

ความน่าจะเป็นคือการวัดความเป็นไปได้ที่เหตุการณ์จะเกิดขึ้น

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • เหตุการณ์อิสระ: สองเหตุการณ์เป็นอิสระหากการเกิดขึ้นของเหตุการณ์หนึ่งไม่ส่งผลต่อความน่าจะเป็นของการเกิดอีกเหตุการณ์หนึ่ง P(A∩B) = P(A)P(B) โดยที่ P(A) != 0 และ P(B) != 0
  • Mutually Exclusive Events: สองเหตุการณ์จะไม่เกิดร่วมกันหรือแยกจากกันหากไม่สามารถเกิดขึ้นพร้อมกันได้ P(A∩B) = 0 และ P(A∪B) = P(A)+P(B)
  • ความน่าจะเป็นแบบมีเงื่อนไข: ความน่าจะเป็นของเหตุการณ์ A เนื่องจากมีเหตุการณ์ B อื่นเกิดขึ้นแล้ว ซึ่งแสดงโดย P(A|B) P(A|B) = P(A∩B)/P(B) เมื่อ P(B)>0.
  • ทฤษฎีบทของเบย์

มาตรการแนวโน้มส่วนกลาง

นำเข้าโมดูลสถิติ

  • หมายความ: ค่าเฉลี่ยของชุดข้อมูล

numpy.mean( ) ก็ใช้ได้

  • มัธยฐาน: ค่ากลางของชุดข้อมูล

numpy.median( ) ก็ใช้ได้

  • โหมด: ค่าที่บ่อยที่สุดในชุดข้อมูล

เมื่อใดควรใช้ค่าเฉลี่ย ค่ามัธยฐาน และโหมด

ความสัมพันธ์ระหว่างค่าเฉลี่ย ค่ามัธยฐาน และโหมด: โหมด = 3 ค่ามัธยฐาน — 2 ค่าเฉลี่ย

เบ้

การวัดความสมมาตรหรือให้แม่นยำกว่านั้นคือการขาดความสมมาตร (ความไม่สมมาตร)

  • การกระจายแบบปกติ/สมมาตร: โหมด = ค่ามัธยฐาน = ค่าเฉลี่ย
  • บวก (ขวา) การกระจายแบบเบ้: โหมด < ค่ามัธยฐาน < หมายถึง
  • การกระจายแบบเบ้ (ซ้าย) เชิงลบ: ค่าเฉลี่ย < ค่ามัธยฐาน < โหมด

โด่ง

การวัดว่าข้อมูลเป็นแบบหางหนักหรือหางอ่อนที่สัมพันธ์กับการแจกแจงแบบปกติ กล่าวคือ จะวัด "ความลาดเอียง" หรือ "จุดสูงสุด" ของการแจกแจง

  • Leptokurtic – ความโด่งในเชิงบวก
  • Mesokurtic – การแจกแจงแบบปกติ
  • Platykurtic – ความโด่งเชิงลบ

ความเบ้และความโด่งโดยใช้ Python

มาตรการการกระจายตัว

อธิบายการแพร่กระจาย/การกระจายของข้อมูลรอบค่าส่วนกลาง

Range: ความแตกต่างระหว่างค่าที่มากที่สุดและค่าที่น้อยที่สุดในชุดข้อมูล

ค่าเบี่ยงเบนควอร์ไทล์: ควอร์ไทล์ของชุดข้อมูลแบ่งข้อมูลออกเป็นสี่ส่วนเท่าๆ กัน—ควอร์ไทล์แรก (Q1) คือตัวเลขตรงกลางระหว่างตัวเลขที่น้อยที่สุดกับค่ามัธยฐานของข้อมูล ควอร์ไทล์ที่สอง (Q2) เป็นค่ามัธยฐานของชุดข้อมูล ควอร์ไทล์ที่สาม (Q3) คือจำนวนตรงกลางระหว่างค่ามัธยฐานและจำนวนที่มากที่สุด ส่วนเบี่ยงเบนควอร์ไทล์คือ ถาม = ½ × (Q3 — Q1)

ช่วงระหว่างควอไทล์: IQR = Q3 — Q1

ผลต่าง: ผลต่างกำลังสองเฉลี่ยระหว่างจุดข้อมูลแต่ละจุดและค่าเฉลี่ย วัดการแพร่กระจายของชุดข้อมูลสัมพันธ์กับค่าเฉลี่ย

ส่วนเบี่ยงเบนมาตรฐาน: รากที่สองของความแปรปรวน

ความแปรปรวนและค่าเบี่ยงเบนมาตรฐานโดยใช้ Python

ความแปรปรวนร่วม

เป็นความสัมพันธ์ระหว่างตัวแปรสุ่มคู่หนึ่งซึ่งการเปลี่ยนแปลงในตัวแปรหนึ่งทำให้เกิดการเปลี่ยนแปลงในอีกตัวแปรหนึ่ง

ความแปรปรวนร่วมเชิงลบศูนย์และบวก

เมทริกซ์ความแปรปรวนร่วมและการแสดงแผนที่ความร้อนโดยใช้ Python

ความสัมพันธ์

มันแสดงให้เห็นว่าตัวแปรคู่หนึ่งมีความเกี่ยวข้องกันมากน้อยเพียงใด


เมทริกซ์สหสัมพันธ์โดยใช้ข้อมูลเดียวกันกับที่ใช้สำหรับความแปรปรวนร่วม

ความแปรปรวนร่วมเทียบกับสหสัมพันธ์

การแจกแจงความน่าจะเป็น

การแจกแจงความน่าจะเป็นมีสองประเภทกว้างๆ — การแจกแจงความน่าจะเป็นแบบแยกส่วนและแบบต่อเนื่อง

การกระจายความน่าจะเป็นแบบไม่ต่อเนื่อง:

  • เบอร์นูลลี ดิสทริบิวชั่น

ตัวแปรสุ่มใช้การทดลองครั้งเดียวโดยมีเพียงสองผลลัพธ์ที่เป็นไปได้: 1 (สำเร็จ) ด้วยความน่าจะเป็น p และ 0 (ล้มเหลว) ด้วยความน่าจะเป็น 1-p

  • การกระจายทวินาม

การทดลองแต่ละครั้งเป็นอิสระ มีเพียงสองผลลัพธ์ที่เป็นไปได้ในการทดลอง - สำเร็จหรือล้มเหลว มีการทดลองที่เหมือนกันทั้งหมด n ครั้ง ความน่าจะเป็นของความสำเร็จและความล้มเหลวจะเหมือนกันสำหรับการทดลองทั้งหมด (การทดลองเหมือนกัน)

  • การกระจายปัวซอง

วัดความน่าจะเป็นของจำนวนเหตุการณ์ที่กำหนดที่เกิดขึ้นในช่วงเวลาที่กำหนด

การกระจายความน่าจะเป็นต่อเนื่อง:

  • กระจายสม่ำเสมอ

เรียกอีกอย่างว่าการกระจายแบบสี่เหลี่ยม ผลลัพธ์ทั้งหมดมีโอกาสเท่าเทียมกัน


  • การกระจายแบบปกติ/แบบเกาส์เซียน

ค่าเฉลี่ย ค่ามัธยฐาน และโหมดของการกระจายตรงกัน เส้นโค้งของการกระจายเป็นรูประฆังและสมมาตรเกี่ยวกับเส้น x = ไมโคร. พื้นที่ทั้งหมดใต้เส้นโค้งคือ 1 ค่าครึ่งหนึ่งอยู่ทางซ้ายของศูนย์ และอีกครึ่งหนึ่งอยู่ทางขวา

การแจกแจงแบบปกติแตกต่างจากการแจกแจงแบบทวินามอย่างมาก อย่างไรก็ตาม หากจำนวนการทดลองเข้าใกล้อนันต์ รูปร่างก็จะค่อนข้างใกล้เคียงกัน

  • การกระจายแบบเอกซ์โพเนนเชียล

การกระจายความน่าจะเป็นของเวลาระหว่างเหตุการณ์ต่างๆ ในกระบวนการจุดปัวซอง กล่าวคือ กระบวนการที่เหตุการณ์เกิดขึ้นอย่างต่อเนื่องและเป็นอิสระในอัตราเฉลี่ยคงที่

การทดสอบสมมติฐาน

ก่อนอื่น มาดูความแตกต่างระหว่างสมมติฐานว่างกับสมมติฐานทางเลือกกัน

สมมติฐานว่าง: คำชี้แจงเกี่ยวกับพารามิเตอร์ประชากรที่เชื่อว่าเป็นจริงหรือใช้เพื่อโต้แย้ง เว้นแต่จะพิสูจน์ได้ว่าการทดสอบสมมติฐานไม่ถูกต้อง

สมมติฐานทางเลือก: อ้างสิทธิ์เกี่ยวกับประชากรที่ขัดแย้งกับสมมติฐานว่างและสิ่งที่เราสรุปหากเราปฏิเสธสมมติฐานว่าง

ข้อผิดพลาดประเภทที่ XNUMX: การปฏิเสธสมมติฐานว่างที่แท้จริง

ข้อผิดพลาดประเภท II: การไม่ปฏิเสธสมมติฐานว่างที่เป็นเท็จ

ระดับความสำคัญ (α): ความน่าจะเป็นของการปฏิเสธสมมติฐานว่างเมื่อเป็นจริง

p-ค่า: ความน่าจะเป็นของสถิติการทดสอบอย่างน้อยที่สุดเท่ากับที่สังเกตได้เนื่องจากสมมติฐานว่างเป็นจริง

  • เมื่อ p-value > α เราไม่สามารถปฏิเสธสมมติฐานว่างได้
  • ในขณะที่ค่า p ≤ α เราปฏิเสธสมมติฐานว่าง และเราสามารถสรุปได้ว่าเรามีผลลัพธ์ที่มีนัยสำคัญ

ในการทดสอบสมมติฐานทางสถิติ ผลลัพธ์มีนัยสำคัญทางสถิติเมื่อไม่น่าจะเกิดขึ้นจากสมมติฐานว่าง

ค่าวิกฤต: จุดบนมาตราส่วนของสถิติการทดสอบเกินกว่าที่เราปฏิเสธสมมติฐานว่าง ขึ้นอยู่กับสถิติการทดสอบ ซึ่งเฉพาะกับประเภทของการทดสอบ และระดับนัยสำคัญ α ซึ่งกำหนดความไวของการทดสอบ

การถดถอยเชิงเส้น

การถดถอยเชิงเส้นมักจะเป็นอัลกอริธึม ML แรกที่เราเจอ เป็นเรื่องง่าย และการทำความเข้าใจจะเป็นการวางรากฐานสำหรับอัลกอริธึม ML ขั้นสูงอื่นๆ

การถดถอยเชิงเส้นอย่างง่าย

วิธีการเชิงเส้นในการสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระหนึ่งตัว

เราต้องหาพารามิเตอร์เพื่อให้โมเดลเหมาะสมกับข้อมูลมากที่สุด เส้นถดถอย (กล่าวคือ เส้นที่พอดีที่สุด) คือเส้นที่เกิดข้อผิดพลาด ระหว่างค่าที่คาดการณ์ไว้และค่าที่สังเกตได้มีค่าน้อยที่สุด

เส้นถดถอย.

ทีนี้มาลองใช้สิ่งนี้กัน

การถดถอยเชิงเส้นพหุคูณ

วิธีการเชิงเส้นในการสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระสองตัวหรือมากกว่า

Original. โพสต์ใหม่โดยได้รับอนุญาต

ที่เกี่ยวข้อง



เรื่องเด่นใน 30 วันที่ผ่านมา
เป็นที่นิยม
  1. คุณอ่านไฟล์ Excel ด้วย Python หรือไม่? มีวิธีที่เร็วกว่า 1000 เท่า
  2. นักวิทยาศาสตร์ข้อมูลที่ไม่มีทักษะด้านวิศวกรรมข้อมูลจะต้องเผชิญกับความจริงที่รุนแรง
  3. ผลงานด้านวิทยาศาสตร์ข้อมูลที่จะนำคุณไปสู่งาน
  4. ทำให้ Microsoft Excel และ Word เป็นอัตโนมัติโดยใช้ Python
  5. วิธีสร้างเว็บแอปที่น่าทึ่งสำหรับโครงการวิทยาศาสตร์ข้อมูลของคุณ
แบ่งปันมากที่สุด
  1. วิธีจัดการกับการจัดประเภทที่ไม่สมดุลโดยไม่ต้องปรับสมดุลข้อมูลใหม่
  2. วิธีค้นหาจุดอ่อนในโมเดลการเรียนรู้ของเครื่อง
  3. The Machine & Deep Learning Compendium เปิดหนังสือ
  4. นักวิทยาศาสตร์ข้อมูลที่ไม่มีทักษะด้านวิศวกรรมข้อมูลจะต้องเผชิญกับความจริงที่รุนแรง
  5. อธิบายการทดสอบสมมติฐาน

ที่มา: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

ประทับเวลา:

เพิ่มเติมจาก KD นักเก็ต