เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ข้อมูลสถิติที่สำคัญที่นักวิทยาศาสตร์จำเป็นต้องรู้

คีย์เวิร์ด: ทฤษฎีบทเบย์, ข้อมูลวิทยาศาสตร์, ความน่าจะเป็น, สถิติ

นักวิทยาศาสตร์ด้านข้อมูลทุกคนต้องชื่นชมแนวคิดทางสถิติพื้นฐานหลายประการ ตั้งแต่ผู้สนใจไปจนถึงมืออาชีพ ที่นี่ เราจัดเตรียมข้อมูลโค้ดใน Python เพื่อเพิ่มความเข้าใจ เพื่อนำเสนอเครื่องมือหลักที่นำข้อมูลเชิงลึกมาสู่ข้อมูลของคุณตั้งแต่เนิ่นๆ

ความคิดเห็น

By เล็กษมี เอส. สุนิล, ไอไอที อินดอร์ '23 | GHC '21 Scholar.

การวิเคราะห์ทางสถิติช่วยให้เราได้รับข้อมูลเชิงลึกอันมีค่าจากข้อมูลในมือ การเข้าใจแนวคิดและเทคนิคทางสถิติที่สำคัญเป็นสิ่งสำคัญอย่างยิ่งในการวิเคราะห์ข้อมูลโดยใช้เครื่องมือต่างๆ

ก่อนที่เราจะลงรายละเอียด เรามาดูหัวข้อที่กล่าวถึงในบทความนี้กันก่อน:

สถิติเชิงพรรณนาเทียบกับสถิติเชิงอนุมาน
ประเภทข้อมูล
ความน่าจะเป็น & ทฤษฎีบทของเบย์
มาตรการแนวโน้มส่วนกลาง
เบ้
โด่ง
มาตรการการกระจายตัว
ความแปรปรวนร่วม
ความสัมพันธ์
การแจกแจงความน่าจะเป็น
การทดสอบสมมติฐาน
การถอยหลัง

สถิติเชิงพรรณนาเทียบกับสถิติเชิงอนุมาน

สถิติโดยรวมเกี่ยวข้องกับการรวบรวม การจัดองค์กร การวิเคราะห์ การตีความ และการนำเสนอข้อมูล ภายในสถิติมีสองสาขาหลัก:

สถิติเชิงพรรณนา: สิ่งนี้เกี่ยวข้องกับการอธิบายคุณสมบัติของข้อมูล การจัดระเบียบและการนำเสนอข้อมูลด้วยภาพผ่านแผนภูมิ/กราฟ หรือผ่านการคำนวณเชิงตัวเลขโดยใช้การวัดแนวโน้มจากส่วนกลาง ความแปรปรวน และการแจกแจง ประเด็นสำคัญประการหนึ่งคือข้อสรุปนั้นมาจากข้อมูลที่ทราบอยู่แล้ว
สถิติเชิงอนุมาน: สิ่งนี้เกี่ยวข้องกับการอนุมานและการสรุปเกี่ยวกับประชากรจำนวนมากขึ้นโดยใช้ตัวอย่างที่นำมาจากพวกมัน จึงต้องอาศัยการคำนวณที่ซับซ้อนมากขึ้น ผลลัพธ์สุดท้ายถูกสร้างขึ้นโดยใช้เทคนิคต่างๆ เช่น การทดสอบสมมติฐาน สหสัมพันธ์ และการวิเคราะห์การถดถอย ผลลัพธ์และข้อสรุปที่คาดการณ์ในอนาคตนั้นเหนือกว่าระดับของข้อมูลที่มีอยู่

ประเภทข้อมูล

ในการดำเนินการ Exploratory Data Analysis (EDA) ที่เหมาะสมโดยใช้เทคนิคทางสถิติที่เหมาะสมที่สุด เราต้องเข้าใจว่าข้อมูลประเภทใดที่เรากำลังดำเนินการอยู่

ข้อมูลหมวดหมู่

ข้อมูลตามหมวดหมู่แสดงถึงตัวแปรเชิงคุณภาพ เช่น เพศ กรุ๊ปเลือด ภาษาแม่ ฯลฯ ของแต่ละบุคคล ข้อมูลตามหมวดหมู่จะอยู่ในรูปของค่าตัวเลขโดยไม่มีความหมายทางคณิตศาสตร์ ตัวอย่างเช่น หากเพศเป็นตัวแปร ผู้หญิงสามารถแสดงด้วย 1 และเพศชายเป็น 0

ข้อมูลที่กำหนด: ค่าระบุตัวแปร และไม่มีลำดับชั้นที่กำหนดไว้ระหว่างหมวดหมู่ กล่าวคือ ไม่มีลำดับหรือทิศทาง—เช่น ศาสนา เพศ ฯลฯ มาตราส่วนที่กำหนดมีเพียงสองหมวดหมู่เรียกว่า "dichotomous"
ข้อมูลลำดับ: ลำดับหรือลำดับชั้นอยู่ระหว่างหมวดหมู่ เช่น การให้คะแนนคุณภาพ ระดับการศึกษา เกรดจดหมายของนักเรียน เป็นต้น

ข้อมูลตัวเลข

ข้อมูลเชิงตัวเลขแสดงถึงตัวแปรเชิงปริมาณที่แสดงในรูปของตัวเลขเท่านั้น เช่น ส่วนสูง น้ำหนัก เป็นต้น

ข้อมูลแบบไม่ต่อเนื่อง: ค่าสามารถนับได้และเป็นจำนวนเต็ม (ส่วนใหญ่มักเป็นจำนวนเต็ม) เช่น จำนวนรถในลานจอดรถ จำนวนประเทศ เป็นต้น
ข้อมูลต่อเนื่อง: การสังเกตสามารถวัดได้ แต่ไม่สามารถนับได้ ข้อมูลถือว่าค่าใดๆ ภายในช่วง เช่น น้ำหนัก ส่วนสูง เป็นต้น ข้อมูลต่อเนื่องสามารถแบ่งออกเป็นข้อมูลช่วงเวลา (ค่าที่เรียงลำดับมีความแตกต่างกันแต่ไม่มีศูนย์จริง) และข้อมูลอัตราส่วน (ค่าที่เรียงลำดับมีความแตกต่างกัน ระหว่างพวกเขาและศูนย์จริงมีอยู่)

ความน่าจะเป็น & ทฤษฎีบทของเบย์

ความน่าจะเป็นคือการวัดความเป็นไปได้ที่เหตุการณ์จะเกิดขึ้น

P(A) + P(A') = 1
P(A∪B) = P(A) + P(B) − P(A∩B)
เหตุการณ์อิสระ: สองเหตุการณ์เป็นอิสระหากการเกิดขึ้นของเหตุการณ์หนึ่งไม่ส่งผลต่อความน่าจะเป็นของการเกิดอีกเหตุการณ์หนึ่ง P(A∩B) = P(A)P(B) โดยที่ P(A) != 0 และ P(B) != 0
Mutually Exclusive Events: สองเหตุการณ์จะไม่เกิดร่วมกันหรือแยกจากกันหากไม่สามารถเกิดขึ้นพร้อมกันได้ P(A∩B) = 0 และ P(A∪B) = P(A)+P(B)
ความน่าจะเป็นแบบมีเงื่อนไข: ความน่าจะเป็นของเหตุการณ์ A เนื่องจากมีเหตุการณ์ B อื่นเกิดขึ้นแล้ว ซึ่งแสดงโดย P(A|B) P(A|B) = P(A∩B)/P(B) เมื่อ P(B)>0.
ทฤษฎีบทของเบย์

มาตรการแนวโน้มส่วนกลาง

นำเข้าโมดูลสถิติ

หมายความ: ค่าเฉลี่ยของชุดข้อมูล

numpy.mean( ) ก็ใช้ได้

มัธยฐาน: ค่ากลางของชุดข้อมูล

numpy.median( ) ก็ใช้ได้

โหมด: ค่าที่บ่อยที่สุดในชุดข้อมูล

เมื่อใดควรใช้ค่าเฉลี่ย ค่ามัธยฐาน และโหมด

ความสัมพันธ์ระหว่างค่าเฉลี่ย ค่ามัธยฐาน และโหมด: โหมด = 3 ค่ามัธยฐาน — 2 ค่าเฉลี่ย

เบ้

การวัดความสมมาตรหรือให้แม่นยำกว่านั้นคือการขาดความสมมาตร (ความไม่สมมาตร)

การกระจายแบบปกติ/สมมาตร: โหมด = ค่ามัธยฐาน = ค่าเฉลี่ย
บวก (ขวา) การกระจายแบบเบ้: โหมด < ค่ามัธยฐาน < หมายถึง
การกระจายแบบเบ้ (ซ้าย) เชิงลบ: ค่าเฉลี่ย < ค่ามัธยฐาน < โหมด

โด่ง

การวัดว่าข้อมูลเป็นแบบหางหนักหรือหางอ่อนที่สัมพันธ์กับการแจกแจงแบบปกติ กล่าวคือ จะวัด "ความลาดเอียง" หรือ "จุดสูงสุด" ของการแจกแจง

Leptokurtic – ความโด่งในเชิงบวก
Mesokurtic – การแจกแจงแบบปกติ
Platykurtic – ความโด่งเชิงลบ

ความเบ้และความโด่งโดยใช้ Python

มาตรการการกระจายตัว

อธิบายการแพร่กระจาย/การกระจายของข้อมูลรอบค่าส่วนกลาง

Range: ความแตกต่างระหว่างค่าที่มากที่สุดและค่าที่น้อยที่สุดในชุดข้อมูล

ค่าเบี่ยงเบนควอร์ไทล์: ควอร์ไทล์ของชุดข้อมูลแบ่งข้อมูลออกเป็นสี่ส่วนเท่าๆ กัน—ควอร์ไทล์แรก (Q1) คือตัวเลขตรงกลางระหว่างตัวเลขที่น้อยที่สุดกับค่ามัธยฐานของข้อมูล ควอร์ไทล์ที่สอง (Q2) เป็นค่ามัธยฐานของชุดข้อมูล ควอร์ไทล์ที่สาม (Q3) คือจำนวนตรงกลางระหว่างค่ามัธยฐานและจำนวนที่มากที่สุด ส่วนเบี่ยงเบนควอร์ไทล์คือ ถาม = ½ × (Q3 — Q1)

ช่วงระหว่างควอไทล์: IQR = Q3 — Q1

ผลต่าง: ผลต่างกำลังสองเฉลี่ยระหว่างจุดข้อมูลแต่ละจุดและค่าเฉลี่ย วัดการแพร่กระจายของชุดข้อมูลสัมพันธ์กับค่าเฉลี่ย

ส่วนเบี่ยงเบนมาตรฐาน: รากที่สองของความแปรปรวน

ความแปรปรวนและค่าเบี่ยงเบนมาตรฐานโดยใช้ Python

ความแปรปรวนร่วม

เป็นความสัมพันธ์ระหว่างตัวแปรสุ่มคู่หนึ่งซึ่งการเปลี่ยนแปลงในตัวแปรหนึ่งทำให้เกิดการเปลี่ยนแปลงในอีกตัวแปรหนึ่ง

ความแปรปรวนร่วมเชิงลบศูนย์และบวก

เมทริกซ์ความแปรปรวนร่วมและการแสดงแผนที่ความร้อนโดยใช้ Python

ความสัมพันธ์

มันแสดงให้เห็นว่าตัวแปรคู่หนึ่งมีความเกี่ยวข้องกันมากน้อยเพียงใด

เมทริกซ์สหสัมพันธ์โดยใช้ข้อมูลเดียวกันกับที่ใช้สำหรับความแปรปรวนร่วม

ความแปรปรวนร่วมเทียบกับสหสัมพันธ์

การแจกแจงความน่าจะเป็น

การแจกแจงความน่าจะเป็นมีสองประเภทกว้างๆ — การแจกแจงความน่าจะเป็นแบบแยกส่วนและแบบต่อเนื่อง

การกระจายความน่าจะเป็นแบบไม่ต่อเนื่อง:

เบอร์นูลลี ดิสทริบิวชั่น

ตัวแปรสุ่มใช้การทดลองครั้งเดียวโดยมีเพียงสองผลลัพธ์ที่เป็นไปได้: 1 (สำเร็จ) ด้วยความน่าจะเป็น p และ 0 (ล้มเหลว) ด้วยความน่าจะเป็น 1-p

การกระจายทวินาม

การทดลองแต่ละครั้งเป็นอิสระ มีเพียงสองผลลัพธ์ที่เป็นไปได้ในการทดลอง - สำเร็จหรือล้มเหลว มีการทดลองที่เหมือนกันทั้งหมด n ครั้ง ความน่าจะเป็นของความสำเร็จและความล้มเหลวจะเหมือนกันสำหรับการทดลองทั้งหมด (การทดลองเหมือนกัน)

การกระจายปัวซอง

วัดความน่าจะเป็นของจำนวนเหตุการณ์ที่กำหนดที่เกิดขึ้นในช่วงเวลาที่กำหนด

การกระจายความน่าจะเป็นต่อเนื่อง:

กระจายสม่ำเสมอ

เรียกอีกอย่างว่าการกระจายแบบสี่เหลี่ยม ผลลัพธ์ทั้งหมดมีโอกาสเท่าเทียมกัน

การกระจายแบบปกติ/แบบเกาส์เซียน

ค่าเฉลี่ย ค่ามัธยฐาน และโหมดของการกระจายตรงกัน เส้นโค้งของการกระจายเป็นรูประฆังและสมมาตรเกี่ยวกับเส้น x = ไมโคร. พื้นที่ทั้งหมดใต้เส้นโค้งคือ 1 ค่าครึ่งหนึ่งอยู่ทางซ้ายของศูนย์ และอีกครึ่งหนึ่งอยู่ทางขวา

การแจกแจงแบบปกติแตกต่างจากการแจกแจงแบบทวินามอย่างมาก อย่างไรก็ตาม หากจำนวนการทดลองเข้าใกล้อนันต์ รูปร่างก็จะค่อนข้างใกล้เคียงกัน

การกระจายแบบเอกซ์โพเนนเชียล

การกระจายความน่าจะเป็นของเวลาระหว่างเหตุการณ์ต่างๆ ในกระบวนการจุดปัวซอง กล่าวคือ กระบวนการที่เหตุการณ์เกิดขึ้นอย่างต่อเนื่องและเป็นอิสระในอัตราเฉลี่ยคงที่

การทดสอบสมมติฐาน

ก่อนอื่น มาดูความแตกต่างระหว่างสมมติฐานว่างกับสมมติฐานทางเลือกกัน

สมมติฐานว่าง: คำชี้แจงเกี่ยวกับพารามิเตอร์ประชากรที่เชื่อว่าเป็นจริงหรือใช้เพื่อโต้แย้ง เว้นแต่จะพิสูจน์ได้ว่าการทดสอบสมมติฐานไม่ถูกต้อง

สมมติฐานทางเลือก: อ้างสิทธิ์เกี่ยวกับประชากรที่ขัดแย้งกับสมมติฐานว่างและสิ่งที่เราสรุปหากเราปฏิเสธสมมติฐานว่าง

ข้อผิดพลาดประเภทที่ XNUMX: การปฏิเสธสมมติฐานว่างที่แท้จริง

ข้อผิดพลาดประเภท II: การไม่ปฏิเสธสมมติฐานว่างที่เป็นเท็จ

ระดับความสำคัญ (α): ความน่าจะเป็นของการปฏิเสธสมมติฐานว่างเมื่อเป็นจริง

p-ค่า: ความน่าจะเป็นของสถิติการทดสอบอย่างน้อยที่สุดเท่ากับที่สังเกตได้เนื่องจากสมมติฐานว่างเป็นจริง

เมื่อ p-value > α เราไม่สามารถปฏิเสธสมมติฐานว่างได้
ในขณะที่ค่า p ≤ α เราปฏิเสธสมมติฐานว่าง และเราสามารถสรุปได้ว่าเรามีผลลัพธ์ที่มีนัยสำคัญ

ในการทดสอบสมมติฐานทางสถิติ ผลลัพธ์มีนัยสำคัญทางสถิติเมื่อไม่น่าจะเกิดขึ้นจากสมมติฐานว่าง

ค่าวิกฤต: จุดบนมาตราส่วนของสถิติการทดสอบเกินกว่าที่เราปฏิเสธสมมติฐานว่าง ขึ้นอยู่กับสถิติการทดสอบ ซึ่งเฉพาะกับประเภทของการทดสอบ และระดับนัยสำคัญ α ซึ่งกำหนดความไวของการทดสอบ

การถดถอยเชิงเส้น

การถดถอยเชิงเส้นมักจะเป็นอัลกอริธึม ML แรกที่เราเจอ เป็นเรื่องง่าย และการทำความเข้าใจจะเป็นการวางรากฐานสำหรับอัลกอริธึม ML ขั้นสูงอื่นๆ

การถดถอยเชิงเส้นอย่างง่าย

วิธีการเชิงเส้นในการสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระหนึ่งตัว

เราต้องหาพารามิเตอร์เพื่อให้โมเดลเหมาะสมกับข้อมูลมากที่สุด เส้นถดถอย (กล่าวคือ เส้นที่พอดีที่สุด) คือเส้นที่เกิดข้อผิดพลาด ระหว่างค่าที่คาดการณ์ไว้และค่าที่สังเกตได้มีค่าน้อยที่สุด