ข้อมูลสถิติที่สำคัญที่นักวิทยาศาสตร์จำเป็นต้องรู้
นักวิทยาศาสตร์ด้านข้อมูลทุกคนต้องชื่นชมแนวคิดทางสถิติพื้นฐานหลายประการ ตั้งแต่ผู้สนใจไปจนถึงมืออาชีพ ที่นี่ เราจัดเตรียมข้อมูลโค้ดใน Python เพื่อเพิ่มความเข้าใจ เพื่อนำเสนอเครื่องมือหลักที่นำข้อมูลเชิงลึกมาสู่ข้อมูลของคุณตั้งแต่เนิ่นๆ
By เล็กษมี เอส. สุนิล, ไอไอที อินดอร์ '23 | GHC '21 Scholar.
การวิเคราะห์ทางสถิติช่วยให้เราได้รับข้อมูลเชิงลึกอันมีค่าจากข้อมูลในมือ การเข้าใจแนวคิดและเทคนิคทางสถิติที่สำคัญเป็นสิ่งสำคัญอย่างยิ่งในการวิเคราะห์ข้อมูลโดยใช้เครื่องมือต่างๆ
ก่อนที่เราจะลงรายละเอียด เรามาดูหัวข้อที่กล่าวถึงในบทความนี้กันก่อน:
- สถิติเชิงพรรณนาเทียบกับสถิติเชิงอนุมาน
- ประเภทข้อมูล
- ความน่าจะเป็น & ทฤษฎีบทของเบย์
- มาตรการแนวโน้มส่วนกลาง
- เบ้
- โด่ง
- มาตรการการกระจายตัว
- ความแปรปรวนร่วม
- ความสัมพันธ์
- การแจกแจงความน่าจะเป็น
- การทดสอบสมมติฐาน
- การถอยหลัง
สถิติเชิงพรรณนาเทียบกับสถิติเชิงอนุมาน
สถิติโดยรวมเกี่ยวข้องกับการรวบรวม การจัดองค์กร การวิเคราะห์ การตีความ และการนำเสนอข้อมูล ภายในสถิติมีสองสาขาหลัก:
- สถิติเชิงพรรณนา: สิ่งนี้เกี่ยวข้องกับการอธิบายคุณสมบัติของข้อมูล การจัดระเบียบและการนำเสนอข้อมูลด้วยภาพผ่านแผนภูมิ/กราฟ หรือผ่านการคำนวณเชิงตัวเลขโดยใช้การวัดแนวโน้มจากส่วนกลาง ความแปรปรวน และการแจกแจง ประเด็นสำคัญประการหนึ่งคือข้อสรุปนั้นมาจากข้อมูลที่ทราบอยู่แล้ว
- สถิติเชิงอนุมาน: สิ่งนี้เกี่ยวข้องกับการอนุมานและการสรุปเกี่ยวกับประชากรจำนวนมากขึ้นโดยใช้ตัวอย่างที่นำมาจากพวกมัน จึงต้องอาศัยการคำนวณที่ซับซ้อนมากขึ้น ผลลัพธ์สุดท้ายถูกสร้างขึ้นโดยใช้เทคนิคต่างๆ เช่น การทดสอบสมมติฐาน สหสัมพันธ์ และการวิเคราะห์การถดถอย ผลลัพธ์และข้อสรุปที่คาดการณ์ในอนาคตนั้นเหนือกว่าระดับของข้อมูลที่มีอยู่
ประเภทข้อมูล
ในการดำเนินการ Exploratory Data Analysis (EDA) ที่เหมาะสมโดยใช้เทคนิคทางสถิติที่เหมาะสมที่สุด เราต้องเข้าใจว่าข้อมูลประเภทใดที่เรากำลังดำเนินการอยู่
- ข้อมูลหมวดหมู่
ข้อมูลตามหมวดหมู่แสดงถึงตัวแปรเชิงคุณภาพ เช่น เพศ กรุ๊ปเลือด ภาษาแม่ ฯลฯ ของแต่ละบุคคล ข้อมูลตามหมวดหมู่จะอยู่ในรูปของค่าตัวเลขโดยไม่มีความหมายทางคณิตศาสตร์ ตัวอย่างเช่น หากเพศเป็นตัวแปร ผู้หญิงสามารถแสดงด้วย 1 และเพศชายเป็น 0
- ข้อมูลที่กำหนด: ค่าระบุตัวแปร และไม่มีลำดับชั้นที่กำหนดไว้ระหว่างหมวดหมู่ กล่าวคือ ไม่มีลำดับหรือทิศทาง—เช่น ศาสนา เพศ ฯลฯ มาตราส่วนที่กำหนดมีเพียงสองหมวดหมู่เรียกว่า "dichotomous"
- ข้อมูลลำดับ: ลำดับหรือลำดับชั้นอยู่ระหว่างหมวดหมู่ เช่น การให้คะแนนคุณภาพ ระดับการศึกษา เกรดจดหมายของนักเรียน เป็นต้น
- ข้อมูลตัวเลข
ข้อมูลเชิงตัวเลขแสดงถึงตัวแปรเชิงปริมาณที่แสดงในรูปของตัวเลขเท่านั้น เช่น ส่วนสูง น้ำหนัก เป็นต้น
- ข้อมูลแบบไม่ต่อเนื่อง: ค่าสามารถนับได้และเป็นจำนวนเต็ม (ส่วนใหญ่มักเป็นจำนวนเต็ม) เช่น จำนวนรถในลานจอดรถ จำนวนประเทศ เป็นต้น
- ข้อมูลต่อเนื่อง: การสังเกตสามารถวัดได้ แต่ไม่สามารถนับได้ ข้อมูลถือว่าค่าใดๆ ภายในช่วง เช่น น้ำหนัก ส่วนสูง เป็นต้น ข้อมูลต่อเนื่องสามารถแบ่งออกเป็นข้อมูลช่วงเวลา (ค่าที่เรียงลำดับมีความแตกต่างกันแต่ไม่มีศูนย์จริง) และข้อมูลอัตราส่วน (ค่าที่เรียงลำดับมีความแตกต่างกัน ระหว่างพวกเขาและศูนย์จริงมีอยู่)
ความน่าจะเป็น & ทฤษฎีบทของเบย์
ความน่าจะเป็นคือการวัดความเป็นไปได้ที่เหตุการณ์จะเกิดขึ้น
- P(A) + P(A') = 1
- P(A∪B) = P(A) + P(B) − P(A∩B)
- เหตุการณ์อิสระ: สองเหตุการณ์เป็นอิสระหากการเกิดขึ้นของเหตุการณ์หนึ่งไม่ส่งผลต่อความน่าจะเป็นของการเกิดอีกเหตุการณ์หนึ่ง P(A∩B) = P(A)P(B) โดยที่ P(A) != 0 และ P(B) != 0
- Mutually Exclusive Events: สองเหตุการณ์จะไม่เกิดร่วมกันหรือแยกจากกันหากไม่สามารถเกิดขึ้นพร้อมกันได้ P(A∩B) = 0 และ P(A∪B) = P(A)+P(B)
- ความน่าจะเป็นแบบมีเงื่อนไข: ความน่าจะเป็นของเหตุการณ์ A เนื่องจากมีเหตุการณ์ B อื่นเกิดขึ้นแล้ว ซึ่งแสดงโดย P(A|B) P(A|B) = P(A∩B)/P(B) เมื่อ P(B)>0.
- ทฤษฎีบทของเบย์
มาตรการแนวโน้มส่วนกลาง
นำเข้าโมดูลสถิติ
- หมายความ: ค่าเฉลี่ยของชุดข้อมูล
numpy.mean( ) ก็ใช้ได้
- มัธยฐาน: ค่ากลางของชุดข้อมูล
numpy.median( ) ก็ใช้ได้
- โหมด: ค่าที่บ่อยที่สุดในชุดข้อมูล
เมื่อใดควรใช้ค่าเฉลี่ย ค่ามัธยฐาน และโหมด
ความสัมพันธ์ระหว่างค่าเฉลี่ย ค่ามัธยฐาน และโหมด: โหมด = 3 ค่ามัธยฐาน — 2 ค่าเฉลี่ย
เบ้
การวัดความสมมาตรหรือให้แม่นยำกว่านั้นคือการขาดความสมมาตร (ความไม่สมมาตร)
- การกระจายแบบปกติ/สมมาตร: โหมด = ค่ามัธยฐาน = ค่าเฉลี่ย
- บวก (ขวา) การกระจายแบบเบ้: โหมด < ค่ามัธยฐาน < หมายถึง
- การกระจายแบบเบ้ (ซ้าย) เชิงลบ: ค่าเฉลี่ย < ค่ามัธยฐาน < โหมด
โด่ง
การวัดว่าข้อมูลเป็นแบบหางหนักหรือหางอ่อนที่สัมพันธ์กับการแจกแจงแบบปกติ กล่าวคือ จะวัด "ความลาดเอียง" หรือ "จุดสูงสุด" ของการแจกแจง
- Leptokurtic – ความโด่งในเชิงบวก
- Mesokurtic – การแจกแจงแบบปกติ
- Platykurtic – ความโด่งเชิงลบ
ความเบ้และความโด่งโดยใช้ Python
มาตรการการกระจายตัว
อธิบายการแพร่กระจาย/การกระจายของข้อมูลรอบค่าส่วนกลาง
Range: ความแตกต่างระหว่างค่าที่มากที่สุดและค่าที่น้อยที่สุดในชุดข้อมูล
ค่าเบี่ยงเบนควอร์ไทล์: ควอร์ไทล์ของชุดข้อมูลแบ่งข้อมูลออกเป็นสี่ส่วนเท่าๆ กัน—ควอร์ไทล์แรก (Q1) คือตัวเลขตรงกลางระหว่างตัวเลขที่น้อยที่สุดกับค่ามัธยฐานของข้อมูล ควอร์ไทล์ที่สอง (Q2) เป็นค่ามัธยฐานของชุดข้อมูล ควอร์ไทล์ที่สาม (Q3) คือจำนวนตรงกลางระหว่างค่ามัธยฐานและจำนวนที่มากที่สุด ส่วนเบี่ยงเบนควอร์ไทล์คือ ถาม = ½ × (Q3 — Q1)
ช่วงระหว่างควอไทล์: IQR = Q3 — Q1
ผลต่าง: ผลต่างกำลังสองเฉลี่ยระหว่างจุดข้อมูลแต่ละจุดและค่าเฉลี่ย วัดการแพร่กระจายของชุดข้อมูลสัมพันธ์กับค่าเฉลี่ย
ส่วนเบี่ยงเบนมาตรฐาน: รากที่สองของความแปรปรวน
ความแปรปรวนและค่าเบี่ยงเบนมาตรฐานโดยใช้ Python
ความแปรปรวนร่วม
เป็นความสัมพันธ์ระหว่างตัวแปรสุ่มคู่หนึ่งซึ่งการเปลี่ยนแปลงในตัวแปรหนึ่งทำให้เกิดการเปลี่ยนแปลงในอีกตัวแปรหนึ่ง
ความแปรปรวนร่วมเชิงลบศูนย์และบวก
เมทริกซ์ความแปรปรวนร่วมและการแสดงแผนที่ความร้อนโดยใช้ Python
ความสัมพันธ์
มันแสดงให้เห็นว่าตัวแปรคู่หนึ่งมีความเกี่ยวข้องกันมากน้อยเพียงใด
เมทริกซ์สหสัมพันธ์โดยใช้ข้อมูลเดียวกันกับที่ใช้สำหรับความแปรปรวนร่วม
ความแปรปรวนร่วมเทียบกับสหสัมพันธ์
การแจกแจงความน่าจะเป็น
การแจกแจงความน่าจะเป็นมีสองประเภทกว้างๆ — การแจกแจงความน่าจะเป็นแบบแยกส่วนและแบบต่อเนื่อง
การกระจายความน่าจะเป็นแบบไม่ต่อเนื่อง:
- เบอร์นูลลี ดิสทริบิวชั่น
ตัวแปรสุ่มใช้การทดลองครั้งเดียวโดยมีเพียงสองผลลัพธ์ที่เป็นไปได้: 1 (สำเร็จ) ด้วยความน่าจะเป็น p และ 0 (ล้มเหลว) ด้วยความน่าจะเป็น 1-p
- การกระจายทวินาม
การทดลองแต่ละครั้งเป็นอิสระ มีเพียงสองผลลัพธ์ที่เป็นไปได้ในการทดลอง - สำเร็จหรือล้มเหลว มีการทดลองที่เหมือนกันทั้งหมด n ครั้ง ความน่าจะเป็นของความสำเร็จและความล้มเหลวจะเหมือนกันสำหรับการทดลองทั้งหมด (การทดลองเหมือนกัน)
- การกระจายปัวซอง
วัดความน่าจะเป็นของจำนวนเหตุการณ์ที่กำหนดที่เกิดขึ้นในช่วงเวลาที่กำหนด
การกระจายความน่าจะเป็นต่อเนื่อง:
- กระจายสม่ำเสมอ
เรียกอีกอย่างว่าการกระจายแบบสี่เหลี่ยม ผลลัพธ์ทั้งหมดมีโอกาสเท่าเทียมกัน
- การกระจายแบบปกติ/แบบเกาส์เซียน
ค่าเฉลี่ย ค่ามัธยฐาน และโหมดของการกระจายตรงกัน เส้นโค้งของการกระจายเป็นรูประฆังและสมมาตรเกี่ยวกับเส้น x = ไมโคร. พื้นที่ทั้งหมดใต้เส้นโค้งคือ 1 ค่าครึ่งหนึ่งอยู่ทางซ้ายของศูนย์ และอีกครึ่งหนึ่งอยู่ทางขวา
การแจกแจงแบบปกติแตกต่างจากการแจกแจงแบบทวินามอย่างมาก อย่างไรก็ตาม หากจำนวนการทดลองเข้าใกล้อนันต์ รูปร่างก็จะค่อนข้างใกล้เคียงกัน
- การกระจายแบบเอกซ์โพเนนเชียล
การกระจายความน่าจะเป็นของเวลาระหว่างเหตุการณ์ต่างๆ ในกระบวนการจุดปัวซอง กล่าวคือ กระบวนการที่เหตุการณ์เกิดขึ้นอย่างต่อเนื่องและเป็นอิสระในอัตราเฉลี่ยคงที่
การทดสอบสมมติฐาน
ก่อนอื่น มาดูความแตกต่างระหว่างสมมติฐานว่างกับสมมติฐานทางเลือกกัน
สมมติฐานว่าง: คำชี้แจงเกี่ยวกับพารามิเตอร์ประชากรที่เชื่อว่าเป็นจริงหรือใช้เพื่อโต้แย้ง เว้นแต่จะพิสูจน์ได้ว่าการทดสอบสมมติฐานไม่ถูกต้อง
สมมติฐานทางเลือก: อ้างสิทธิ์เกี่ยวกับประชากรที่ขัดแย้งกับสมมติฐานว่างและสิ่งที่เราสรุปหากเราปฏิเสธสมมติฐานว่าง
ข้อผิดพลาดประเภทที่ XNUMX: การปฏิเสธสมมติฐานว่างที่แท้จริง
ข้อผิดพลาดประเภท II: การไม่ปฏิเสธสมมติฐานว่างที่เป็นเท็จ
ระดับความสำคัญ (α): ความน่าจะเป็นของการปฏิเสธสมมติฐานว่างเมื่อเป็นจริง
p-ค่า: ความน่าจะเป็นของสถิติการทดสอบอย่างน้อยที่สุดเท่ากับที่สังเกตได้เนื่องจากสมมติฐานว่างเป็นจริง
- เมื่อ p-value > α เราไม่สามารถปฏิเสธสมมติฐานว่างได้
- ในขณะที่ค่า p ≤ α เราปฏิเสธสมมติฐานว่าง และเราสามารถสรุปได้ว่าเรามีผลลัพธ์ที่มีนัยสำคัญ
ในการทดสอบสมมติฐานทางสถิติ ผลลัพธ์มีนัยสำคัญทางสถิติเมื่อไม่น่าจะเกิดขึ้นจากสมมติฐานว่าง
ค่าวิกฤต: จุดบนมาตราส่วนของสถิติการทดสอบเกินกว่าที่เราปฏิเสธสมมติฐานว่าง ขึ้นอยู่กับสถิติการทดสอบ ซึ่งเฉพาะกับประเภทของการทดสอบ และระดับนัยสำคัญ α ซึ่งกำหนดความไวของการทดสอบ
การถดถอยเชิงเส้น
การถดถอยเชิงเส้นมักจะเป็นอัลกอริธึม ML แรกที่เราเจอ เป็นเรื่องง่าย และการทำความเข้าใจจะเป็นการวางรากฐานสำหรับอัลกอริธึม ML ขั้นสูงอื่นๆ
การถดถอยเชิงเส้นอย่างง่าย
วิธีการเชิงเส้นในการสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระหนึ่งตัว
เราต้องหาพารามิเตอร์เพื่อให้โมเดลเหมาะสมกับข้อมูลมากที่สุด เส้นถดถอย (กล่าวคือ เส้นที่พอดีที่สุด) คือเส้นที่เกิดข้อผิดพลาด ระหว่างค่าที่คาดการณ์ไว้และค่าที่สังเกตได้มีค่าน้อยที่สุด
เส้นถดถอย.
ทีนี้มาลองใช้สิ่งนี้กัน
การถดถอยเชิงเส้นพหุคูณ
วิธีการเชิงเส้นในการสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระสองตัวหรือมากกว่า
Original. โพสต์ใหม่โดยได้รับอนุญาต
ที่เกี่ยวข้อง
ที่มา: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html
- "
- &
- ขั้นตอนวิธี
- อัลกอริทึม
- ทั้งหมด
- การวิเคราะห์
- ปพลิเคชัน
- AREA
- รอบ
- บทความ
- ที่ดีที่สุด
- เลือด
- สาขา
- รถยนต์
- เปลี่ยนแปลง
- การจัดหมวดหมู่
- รหัส
- ประเทศ
- เส้นโค้ง
- ข้อมูล
- วิทยาศาสตร์ข้อมูล
- นักวิทยาศาสตร์ข้อมูล
- ชุดข้อมูล
- จัดการ
- ข้อเสนอ
- การเรียนรู้ลึก ๆ
- ก่อน
- การศึกษา
- ชั้นเยี่ยม
- ฯลฯ
- เหตุการณ์
- เหตุการณ์
- Excel
- พิเศษ
- ใบหน้า
- ความล้มเหลว
- คุณสมบัติ
- ชื่อจริง
- พอดี
- ฟอร์ม
- รากฐาน
- อนาคต
- เพศ
- บัญชีกลุ่ม
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- HTTPS
- เพิ่ม
- ข้อมูลเชิงลึก
- IT
- คีย์
- การเรียนรู้
- ชั้น
- Line
- เรียนรู้เครื่อง
- การทำ
- วัด
- กลาง
- ไมโครซอฟท์
- ML
- อัลกอริทึม ML
- แบบ
- การสร้างแบบจำลอง
- แม่
- ตัวเลข
- เปิด
- ใบสั่ง
- organizacja
- การจัดระเบียบ
- อื่นๆ
- ที่จอดรถ
- ประชากร
- ผลงาน
- ผลิต
- หลาม
- Q1
- คุณภาพ
- เชิงปริมาณ
- พิสัย
- การให้คะแนน
- ถดถอย
- ศาสนา
- ผลสอบ
- ขนาด
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- ชุด
- ง่าย
- ทักษะ
- So
- กระจาย
- คำแถลง
- สถิติ
- จำนวนชั้น
- นักเรียน
- ความสำเร็จ
- ทดสอบ
- การทดสอบ
- เวลา
- ด้านบน
- หัวข้อ
- การทดลอง
- us
- ความคุ้มค่า
- เว็บ
- ภายใน
- X
- เป็นศูนย์