Được xuất bản lại bởi Plato

Người theo dõi: 0

Dữ liệu thống kê quan trọng mà các nhà khoa học cần biết

tags: Định lý Bayes, Khoa học dữ liệu, Xác suất, Thống kê học

Một số khái niệm thống kê cơ bản phải được đánh giá tốt bởi mọi nhà khoa học dữ liệu - từ người đam mê đến chuyên nghiệp. Tại đây, chúng tôi cung cấp các đoạn mã bằng Python để tăng cường hiểu biết nhằm mang đến cho bạn các công cụ chính mang lại thông tin chi tiết sớm về dữ liệu của bạn.

Bình luận

By Lekshmi S. Sunil, IIT Indore '23 | Học giả GHC '21.

Phân tích thống kê cho phép chúng tôi thu được những thông tin chi tiết có giá trị từ dữ liệu hiện có. Việc nắm chắc các khái niệm và kỹ thuật thống kê quan trọng là hoàn toàn cần thiết để phân tích dữ liệu bằng các công cụ khác nhau.

Trước khi đi vào chi tiết, chúng ta hãy xem xét các chủ đề được đề cập trong bài viết này:

Thống kê mô tả so với thống kê tham khảo
Loại dữ liệu
Xác suất & Định lý Bayes
Biện pháp của xu hướng trung ương
Skewness
Kurtosis
Các biện pháp phân tán
Hiệp phương sai
Tương quan
Phân bố xác suất
Kiểm tra giả thuyết
Hồi quy

Thống kê mô tả so với thống kê tham khảo

Thống kê nói chung liên quan đến việc thu thập, tổ chức, phân tích, giải thích và trình bày dữ liệu. Trong số liệu thống kê, có hai nhánh chính:

Thống kê mô tả: Điều này liên quan đến việc mô tả các đặc điểm của dữ liệu, tổ chức và trình bày dữ liệu một cách trực quan thông qua biểu đồ / đồ thị hoặc thông qua các phép tính số sử dụng các thước đo về xu hướng trung tâm, độ biến thiên và phân phối. Một điểm đáng chú ý là các kết luận được rút ra dựa trên các dữ liệu đã biết.
Thống kê suy luận: Điều này liên quan đến việc rút ra các suy luận và khái quát hóa về các quần thể lớn hơn bằng cách sử dụng các mẫu lấy từ chúng. Do đó, các tính toán phức tạp hơn được yêu cầu. Kết quả cuối cùng được tạo ra bằng cách sử dụng các kỹ thuật như kiểm tra giả thuyết, tương quan và phân tích hồi quy. Các kết quả dự đoán trong tương lai và kết luận rút ra vượt ra ngoài mức dữ liệu có sẵn.

Loại dữ liệu

Để thực hiện Phân tích Dữ liệu Khám phá (EDA) thích hợp áp dụng các kỹ thuật thống kê thích hợp nhất, chúng ta cần hiểu loại dữ liệu chúng ta đang làm việc.

Dữ liệu phân loại

Dữ liệu phân loại đại diện cho các biến định tính như giới tính, nhóm máu, tiếng mẹ đẻ của một cá nhân, v.v. Dữ liệu phân loại cũng ở dạng giá trị số mà không có bất kỳ ý nghĩa toán học nào. Ví dụ: nếu giới tính là một biến, nữ có thể được biểu thị bằng 1 và nam là 0.

Dữ liệu ẩn danh: Giá trị gắn nhãn cho các biến và không có thứ bậc xác định giữa các danh mục, tức là không có thứ tự hoặc hướng — ví dụ: tôn giáo, giới tính, v.v. Các thang đo danh nghĩa chỉ có hai danh mục được gọi là “lưỡng phân”.
Dữ liệu thông thường: Thứ tự hoặc thứ bậc tồn tại giữa các danh mục — ví dụ: xếp hạng chất lượng, trình độ học vấn, điểm thư của sinh viên, v.v.

Dữ liệu số

Dữ liệu số đại diện cho các biến định lượng chỉ được thể hiện dưới dạng số. Ví dụ, chiều cao, cân nặng của một cá nhân, v.v.

Dữ liệu rời rạc: Giá trị có thể đếm được và là số nguyên (thường là số nguyên). Ví dụ, số lượng ô tô trong một bãi đậu xe, không có quốc gia nào, v.v.
Dữ liệu liên tục: Các quan sát có thể đo được nhưng không thể đếm được. Dữ liệu giả định bất kỳ giá trị nào trong một phạm vi — ví dụ: cân nặng, chiều cao, v.v. Dữ liệu liên tục có thể được chia nhỏ hơn nữa thành dữ liệu khoảng thời gian (các giá trị được sắp xếp có cùng sự khác biệt giữa chúng nhưng không có giá trị thực) và dữ liệu tỷ lệ (các giá trị được sắp xếp có cùng sự khác biệt giữa chúng và tồn tại số không thực).

Xác suất & Định lý Bayes

Xác suất là thước đo khả năng xảy ra một sự kiện.

P (A) + P (A ') = 1
P (A∪B) = P (A) + P (B) - P (A∩B)
Sự kiện độc lập: Hai sự kiện độc lập nếu sự kiện xảy ra không ảnh hưởng đến xác suất xuất hiện của sự kiện kia. P (A∩B) = P (A) P (B) trong đó P (A)! = 0 và P (B)! = 0.
Sự kiện loại trừ lẫn nhau: Hai sự kiện loại trừ lẫn nhau hoặc rời rạc nếu chúng không thể xảy ra cùng một lúc. P (A∩B) = 0 và P (A∪B) = P (A) + P (B).
Xác suất có điều kiện: Xác suất của một sự kiện A, cho rằng một sự kiện B khác đã xảy ra. Điều này được biểu diễn bởi P (A | B). P (A | B) = P (A∩B) / P (B), khi P (B)> 0.
Định lý Bayes

Biện pháp của xu hướng trung ương

Nhập mô-đun thống kê.

Nghĩa là: Giá trị trung bình của tập dữ liệu.

numpy.mean () cũng có thể được sử dụng.

trung tuyến: Giá trị giữa của tập dữ liệu.

numpy.median () cũng có thể được sử dụng.

Chế độ: Giá trị thường xuyên nhất trong tập dữ liệu.

Khi nào sử dụng giá trị trung bình, trung vị và chế độ?

Mối quan hệ giữa giá trị trung bình, giá trị trung bình và chế độ: Chế độ = 3 Trung vị - 2 Trung bình

Skewness

Một thước đo của sự đối xứng, hay chính xác hơn là sự thiếu đối xứng (asymmetry).

Phân phối chuẩn / đối xứng: mode = median = mean
Phân phối lệch dương (phải): mode <trung bình <trung bình
Phân phối lệch âm (trái): trung bình <trung bình <chế độ

Kurtosis

Một thước đo về việc dữ liệu có đuôi nặng hay có đuôi nhẹ so với phân phối chuẩn, tức là, nó đo lường "độ theo đuôi" hoặc "đỉnh" của một phân phối.

Leptokurtic - kurtosis dương tính
Mesokurtic - phân phối chuẩn
Platykurtic - kurtosis âm tính

Skewness và kurtosis khi sử dụng Python.

Các biện pháp phân tán

Mô tả sự lan truyền / phân tán của dữ liệu xung quanh một giá trị trung tâm.

Phạm vi: Sự khác biệt giữa giá trị lớn nhất và nhỏ nhất trong tập dữ liệu.

Độ lệch tứ phân vị: Phần tư của tập dữ liệu chia dữ liệu thành bốn phần bằng nhau — phần tư đầu tiên (Q1) là số chính giữa giữa số nhỏ nhất và số trung vị của dữ liệu. Phần tư thứ hai (Q2) là giá trị trung bình của tập dữ liệu. Phần tư thứ ba (Q3) là số chính giữa giữa số trung vị và số lớn nhất. Độ lệch phần tư là Q = ½ × (Q3 - Q1)

Phạm vi liên phần: IQR = Q3 - Q1

Phương sai: Sự khác biệt bình phương trung bình giữa mỗi điểm dữ liệu và giá trị trung bình. Đo lường mức độ trải rộng của tập dữ liệu so với giá trị trung bình.

Độ lệch chuẩn: Căn bậc hai của phương sai.

Phương sai và độ lệch chuẩn bằng Python.

Hiệp phương sai

Đó là mối quan hệ giữa một cặp biến ngẫu nhiên, trong đó sự thay đổi của một biến gây ra sự thay đổi trong biến khác.

Hiệp phương sai âm, XNUMX và dương.

Ma trận hiệp phương sai và biểu diễn bản đồ nhiệt của nó bằng Python.

Tương quan

Nó cho biết liệu một cặp biến số có liên quan với nhau hay không và mức độ mạnh mẽ như thế nào.

Ma trận tương quan sử dụng cùng một dữ liệu được sử dụng cho hiệp phương sai.

Hiệp phương sai so với Tương quan.

Phân bố xác suất

Có hai loại phân phối xác suất - Phân phối xác suất rời rạc và liên tục.

Phân phối xác suất rời rạc:

Phân phối Bernoulli

Một biến ngẫu nhiên thực hiện một phép thử duy nhất với chỉ hai kết quả có thể xảy ra: 1 (thành công) với xác suất p và 0 (thất bại) với xác suất 1-p.

Phân phối nhị thức

Mỗi phiên tòa là độc lập. Chỉ có hai kết quả có thể xảy ra trong một cuộc thử nghiệm - thành công hoặc thất bại. Tổng số n thử nghiệm giống hệt nhau được tiến hành. Xác suất thành công và thất bại là như nhau cho tất cả các thử nghiệm. (Các thử nghiệm giống hệt nhau.)

Phân phối Poisson

Đo xác suất của một số sự kiện nhất định xảy ra trong một khoảng thời gian xác định.

Phân phối xác suất liên tục:

Phân bố đồng đều

Còn được gọi là phân phối hình chữ nhật. Tất cả các kết quả đều có khả năng xảy ra như nhau.

Phân phối bình thường / Gaussian

Giá trị trung bình, trung vị và chế độ phân phối trùng khớp. Đường cong của phân bố có dạng hình chuông và đối xứng về đường thẳng x = μ. Tổng diện tích dưới đường cong là 1. Chính xác một nửa số giá trị nằm ở bên trái tâm và nửa còn lại ở bên phải.

Phân phối chuẩn rất khác với Phân phối nhị thức. Tuy nhiên, nếu số lượng thử nghiệm tiến đến vô cùng, thì các hình dạng sẽ khá giống nhau.

Phân phối theo cấp số nhân

Phân phối xác suất của thời gian giữa các sự kiện trong một quá trình điểm Poisson, tức là, một quá trình trong đó các sự kiện xảy ra liên tục và độc lập với tốc độ trung bình không đổi.

Kiểm tra giả thuyết

Trước tiên, chúng ta hãy xem xét sự khác biệt giữa giả thuyết rỗng và giả thuyết thay thế.

Giả thuyết vô hiệu: Tuyên bố về tham số dân số được cho là đúng hoặc được sử dụng để đưa ra một lập luận trừ khi nó có thể được chứng minh là không chính xác bằng cách kiểm tra giả thuyết.

Giả thuyết thay thế: Tuyên bố về dân số mâu thuẫn với giả thuyết không và chúng ta kết luận gì nếu bác bỏ giả thuyết không.

Lỗi loại I: Bác bỏ giả thuyết vô hiệu thực sự

Lỗi loại II: Không bác bỏ giả thuyết vô hiệu sai

Mức ý nghĩa (α): Xác suất bác bỏ giả thuyết vô hiệu khi nó đúng.

giá trị p: Xác suất của thống kê thử nghiệm ít nhất là cực trị bằng với giá trị quan sát được cho rằng giả thuyết vô hiệu là đúng.

Khi p-value> α, chúng ta không thể bác bỏ giả thuyết rỗng.
Trong khi p-value ≤ α, chúng tôi bác bỏ giả thuyết vô hiệu và chúng tôi có thể kết luận rằng chúng tôi có một kết quả có ý nghĩa.

Trong kiểm định giả thuyết thống kê, một kết quả có ý nghĩa thống kê khi nó rất khó xảy ra với giả thuyết vô hiệu.

Giá trị quan trọng: Một điểm trên thang thống kê thử nghiệm mà chúng tôi bác bỏ giả thuyết vô hiệu. Nó phụ thuộc vào thống kê thử nghiệm, đặc trưng cho loại thử nghiệm và mức ý nghĩa, α, xác định độ nhạy của thử nghiệm.

linear Regression

Hồi quy tuyến tính thường là thuật toán ML đầu tiên mà chúng ta bắt gặp. Nó đơn giản và hiểu được nó đặt nền tảng cho các thuật toán ML nâng cao khác.

Hồi quy tuyến tính cơ bản

Phương pháp tiếp cận tuyến tính để mô hình hóa mối quan hệ giữa một biến phụ thuộc và một biến độc lập.

Chúng ta phải tìm các thông số để mô hình phù hợp nhất với dữ liệu. Đường hồi quy (tức là dòng phù hợp nhất) là dòng mà lỗi giữa các giá trị dự đoán và các giá trị quan sát là nhỏ nhất.