[ad_1]
Khi thảo luận về việc kiểm tra giả thuyết, chúng ta có thể áp dụng nhiều cách tiếp cận, tùy thuộc vào từng trường hợp cụ thể. Các thử nghiệm phổ biến như thử nghiệm z và thử nghiệm t là những phương pháp phù hợp để kiểm tra các giả thuyết của chúng tôi (các giả thuyết không và giả thuyết thay thế). Số liệu chúng tôi muốn kiểm tra sẽ khác nhau tùy thuộc vào vấn đề. Thông thường, khi tạo ra các giả thuyết, chúng ta liên quan đến dân số trung bình hoặc tỷ lệ dân số làm thước đo để nêu rõ chúng. Giả sử chúng ta muốn kiểm tra xem liệu tỷ lệ học sinh làm bài kiểm tra toán đạt 75 điểm có lớn hơn 80% hay không. Giả thuyết không được ký hiệu là H0, và giả thuyết thay thế được ký hiệu là H1; chúng tôi tạo ra các giả thuyết bằng cách:
Sau đó, chúng ta sẽ xem dữ liệu của mình, cho dù phương sai tổng thể đã biết hay chưa biết, để quyết định nên sử dụng công thức thống kê kiểm tra nào. Trong trường hợp này, chúng tôi sử dụng thống kê z cho công thức tỷ lệ. Để tính toán số liệu thống kê bài kiểm tra từ mẫu của chúng tôi, trước tiên, chúng tôi ước tính tỷ lệ dân số bằng cách chia tổng số học sinh đạt 75 cho tổng số học sinh tham gia bài kiểm tra. Sau đó, chúng ta cắm tỷ lệ ước tính vào để tính thống kê kiểm tra bằng công thức thống kê kiểm tra. Sau đó, chúng tôi xác định từ kết quả thống kê kiểm tra xem nó sẽ bác bỏ hay không bác bỏ giả thuyết khống bằng cách so sánh nó với vùng bác bỏ hoặc giá trị p.
Nhưng nếu chúng ta muốn kiểm tra các trường hợp khác nhau thì sao? Điều gì sẽ xảy ra nếu chúng ta suy luận về tỷ lệ biến nhóm học sinh (ví dụ: lớp A, B, C, v.v.) trong tập dữ liệu của chúng ta? Nếu chúng ta muốn kiểm tra xem có mối liên hệ nào giữa các nhóm học sinh và sự chuẩn bị của các em trước kỳ thi không (các em có học thêm ngoài trường hay không)? Nó có độc lập hay không? Điều gì sẽ xảy ra nếu chúng ta muốn kiểm tra dữ liệu phân loại và suy ra tổng thể của chúng trong tập dữ liệu của mình? Để kiểm tra điều đó, chúng tôi sẽ sử dụng bài kiểm tra chi bình phương.
Kiểm tra chi bình phương được tạo ra để giúp chúng tôi đưa ra kết luận về dữ liệu phân loại thuộc các danh mục khác nhau. Nó so sánh tần số (số lượng) quan sát được của từng danh mục với tần số dự kiến theo giả thuyết khống. Ký hiệu là X², chi bình phương có phân phối, cụ thể là phân phối chi bình phươngcho phép chúng tôi xác định tầm quan trọng của độ lệch quan sát được so với giá trị mong đợi.
Đồ thị mô tả sự phân bố liên tục của từng bậc tự do trong phép thử chi bình phương. Trong kiểm định chi bình phương, để chứng minh liệu chúng ta sẽ bác bỏ hay không bác bỏ giả thuyết không, chúng ta không sử dụng bảng z hoặc t để quyết định mà chúng ta sử dụng bảng chi bình phương. Nó liệt kê các xác suất của mức ý nghĩa được chọn và mức độ tự do của chi bình phương. Có hai loại bài kiểm tra chi bình phương, bài kiểm tra mức độ phù hợp chi bình phương và bài kiểm tra chi bình phương của bảng dự phòng. Mỗi loại này có một mục đích khác nhau khi giải quyết bài kiểm tra giả thuyết. Tune tune với cách tiếp cận lý thuyết của từng bài kiểm tra, tôi sẽ hướng dẫn bạn cách thể hiện hai bài kiểm tra đó bằng các ví dụ thực tế.
Đây là loại đầu tiên của bài kiểm tra chi bình phương. Bài kiểm tra này phân tích một nhóm dữ liệu phân loại từ một biến phân loại duy nhất có okay loại. Nó được sử dụng để giải thích cụ thể tỷ lệ quan sát trong từng loại trong dân số. Ví dụ: chúng tôi đã khảo sát 1000 học sinh đạt ít nhất 75 điểm trong bài kiểm tra toán. Chúng tôi quan sát thấy rằng từ 5 nhóm học sinh (Lớp A đến lớp E), sự phân bổ như sau:
Chúng tôi sẽ làm điều đó theo cả cách thủ công và Python. Hãy bắt đầu với hướng dẫn sử dụng.
Mẫu giả thuyết
Như chúng tôi biết, chúng tôi đã khảo sát 1000 sinh viên. Tôi muốn kiểm tra xem tỷ lệ dân số trong mỗi lớp có bằng nhau hay không. Các giả thuyết sẽ là:
Thử nghiệm thống kê
Công thức thống kê kiểm tra cho bài kiểm tra mức độ phù hợp chi bình phương như sau:
Ở đâu:
- okay: số lượng danh mục
- fi: số lượng quan sát được
- ei: số lượng dự kiến
Chúng tôi đã có số lượng danh mục (5 từ Loại A đến E) và số lượng được quan sát, nhưng chúng tôi chưa có số lượng dự kiến. Để tính toán điều đó, chúng ta nên suy ngẫm về các giả thuyết của mình. Trong trường hợp này, tôi giả định rằng tỷ lệ của tất cả các lớp đều như nhau, là 20%. Chúng tôi sẽ tạo một cột khác trong tập dữ liệu có tên Hy vọng. Chúng tôi tính toán nó bằng cách nhân tổng số quan sát với tỷ lệ chúng tôi chọn:
Bây giờ chúng ta thế vào công thức như thế này cho từng giá trị được quan sát và mong đợi:
Chúng tôi đã có kết quả thống kê kiểm tra. Nhưng làm thế nào để chúng ta quyết định liệu nó sẽ bác bỏ hay không bác bỏ giả thuyết không?
Quy tắc quyết định
Như đã đề cập ở trên, chúng tôi sẽ sử dụng bảng chi bình phương để so sánh thống kê kiểm tra. Hãy nhớ rằng một thống kê kiểm định nhỏ ủng hộ giả thuyết không, trong khi một thống kê kiểm định quan trọng ủng hộ giả thuyết thay thế. Vì vậy, chúng ta nên bác bỏ giả thuyết khống khi thống kê kiểm định là đáng kể (có nghĩa đây là kiểm định có đuôi trên). Bởi vì chúng tôi thực hiện việc này một cách thủ công nên chúng tôi sử dụng vùng bác bỏ để quyết định liệu nó sẽ bác bỏ hay không bác bỏ giả thuyết không. Vùng loại bỏ được xác định như sau:
Ở đâu:
- α: Mức ý nghĩa
- okay: số lượng danh mục
Nguyên tắc chung là: Nếu thống kê kiểm tra của chúng tôi có ý nghĩa hơn giá trị bảng chi bình phương mà chúng tôi tra cứu, chúng tôi sẽ bác bỏ giả thuyết không. Chúng ta sẽ sử dụng mức ý nghĩa 5% và xem xét bảng chi bình phương. Giá trị chi bình phương với mức ý nghĩa 5% và bậc tự do là 4 (năm loại trừ 1), ta được 9,49. Bởi vì thống kê kiểm tra của chúng tôi có ý nghĩa hơn nhiều so với giá trị của bảng chi bình phương (70,52 > 9,49), chúng tôi bác bỏ giả thuyết không ở mức ý nghĩa 5%. Bây giờ, bạn đã biết cách thực hiện bài kiểm tra mức độ phù hợp chi bình phương!
Phương pháp tiếp cận Python
Đây là cách tiếp cận Python để kiểm tra mức độ phù hợp chi bình phương bằng SciPy:
import pandas as pd
from scipy.stats import chisquare# Outline the scholar information
information = {
'Class': ('A', 'B', 'C', 'D', 'E'),
'Noticed': (157, 191, 186, 163, 303)
}
# Remodel dictionary into dataframe
df = pd.DataFrame(information)
# Outline the null and different hypotheses
null_hypothesis = "p1 = 20%, p2 = 20%, p3 = 20%, p4 = 20%, p5 = 20%"
alternative_hypothesis = "The inhabitants proportions don't match the given proportions"
# Calculate the overall variety of observations and the anticipated rely for every class
total_count = df('Noticed').sum()
expected_count = total_count / len(df) # As there are 5 classes
# Create a listing of noticed and anticipated counts
observed_list = df('Noticed').tolist()
expected_list = (expected_count) * len(df)
# Carry out the Chi-Squared goodness-of-fit take a look at
chi2_stat, p_val = chisquare(f_obs=observed_list, f_exp=expected_list)
# Print the outcomes
print(f"nChi2 Statistic: {chi2_stat:.2f}")
print(f"P-value: {p_val:.4f}")
# Print the conclusion
if p_val < 0.05:
print("Reject the null speculation: The inhabitants proportions don't match the given proportions.")
else:
print("Fail to reject the null speculation: The inhabitants proportions match the given proportions.")
Sử dụng giá trị p, chúng tôi cũng nhận được kết quả tương tự. Chúng tôi bác bỏ giả thuyết không ở mức ý nghĩa 5%.
Chúng ta đã biết cách suy luận về tỷ lệ của một biến phân loại. Nhưng nếu tôi muốn kiểm tra xem hai biến phân loại có độc lập hay không thì sao?
Để kiểm tra điều đó, chúng tôi sử dụng phép kiểm tra chi bình phương của bảng dự phòng. Chúng tôi sẽ sử dụng bảng dự phòng để tính giá trị thống kê kiểm tra. Bảng dự phòng là một bảng lập bảng chéo phân loại số lượng tóm tắt sự phân bố kết hợp của hai biến phân loại, mỗi biến có số lượng danh mục hữu hạn. Từ bảng này, bạn có thể xác định xem sự phân bố của một biến phân loại có nhất quán trên tất cả các loại của biến phân loại kia hay không.
Tôi sẽ giải thích cách thực hiện thủ công và sử dụng Python. Trong ví dụ này, chúng tôi lấy mẫu 1000 học sinh đạt ít nhất 75 điểm trong bài kiểm tra toán. Tôi muốn kiểm tra xem biến của một nhóm học sinh và biến của những học sinh đã học khóa học bổ sung (Taken or Not) bên ngoài trường trước khi thi có độc lập hay không. Sự phân phối là như thế này:
Mẫu giả thuyết
Để tạo ra những giả thuyết này là rất đơn giản. Chúng tôi xác định các giả thuyết là:
Thử nghiệm thống kê
Đây là phần khó nhất. Khi xử lý dữ liệu thực, tôi khuyên bạn nên sử dụng trực tiếp Python hoặc phần mềm thống kê khác vì việc tính toán quá phức tạp nếu chúng ta thực hiện thủ công. Nhưng vì chúng ta muốn biết cách tiếp cận từ công thức nên hãy thực hiện tính toán thủ công. Thống kê kiểm tra của bài kiểm tra này là:
Ở đâu:
- r = số hàng
- c = số cột
- fij: số lượng quan sát được
- eij = (tổng số hàng thứ i * tổng số hàng thứ j)/cỡ mẫu
Nhớ lại Hình 9, những giá trị đó chỉ là những giá trị được quan sát. Trước khi sử dụng công thức thống kê kiểm tra, chúng ta nên tính toán số lượng dự kiến. Chúng tôi làm điều đó bằng cách:
Bây giờ chúng ta có được số lượng quan sát được và dự kiến. Sau đó, chúng tôi sẽ tính toán thống kê kiểm tra bằng cách:
Quy tắc quyết định
Chúng tôi đã có số liệu thống kê kiểm tra; bây giờ chúng tôi so sánh nó với vùng bị từ chối. Vùng loại bỏ đối với bảng kiểm tra dự phòng được xác định bởi:
Ở đâu:
- α: Mức độ ý nghĩa
- r = số hàng
- c = số cột
Nguyên tắc chung cũng giống như bài kiểm tra mức độ phù hợp: Nếu thống kê kiểm tra của chúng tôi có ý nghĩa hơn giá trị bảng chi bình phương mà chúng tôi tra cứu, chúng tôi sẽ bác bỏ giả thuyết không. Chúng ta sẽ sử dụng mức ý nghĩa 5%. Vì tổng hàng là 5 và tổng cột là 2 nên chúng ta tra cứu giá trị chi bình phương với mức ý nghĩa 5% và bậc tự do là (5–1) * (2–1) = 4, và chúng ta nhận được 15,5. Bởi vì thống kê kiểm tra thấp hơn giá trị bảng chi bình phương (22,9758 > 15,5), chúng tôi bác bỏ giả thuyết không ở mức ý nghĩa 5%.
Phương pháp tiếp cận Python
Đây là cách tiếp cận Python để kiểm tra bảng dự phòng chi bình phương bằng SciPy:
import pandas as pd
from scipy.stats import chi2_contingency# Create the dataset
information = {
'Class': ('group A', 'group B', 'group C', 'group D', 'group E'),
'Taken Course': (91, 131, 117, 75, 197),
'Not Taken Course': (66, 60, 69, 88, 106)
}
# Create a DataFrame
df = pd.DataFrame(information)
df.set_index('Class', inplace=True)
# Carry out the Chi-Squared take a look at for independence
chi2_stat, p_val, dof, anticipated = chi2_contingency(df)
# Print the outcomes
print("Anticipated Counts:")
print(pd.DataFrame(anticipated, index=df.index, columns=df.columns))
print(f"nChi2 Statistic: {chi2_stat:.4f}")
print(f"P-value: {p_val:.4f}")
# Print the conclusion
if p_val < 0.05:
print("nReject the null speculation: The variables are usually not unbiased")
else:
print("nFail to reject the null speculation: The variables are unbiased")
Sử dụng giá trị p, chúng tôi cũng nhận được kết quả tương tự. Chúng tôi bác bỏ giả thuyết không ở mức ý nghĩa 5%.
Bây giờ bạn đã hiểu cách tiến hành kiểm tra giả thuyết bằng phương pháp kiểm tra chi bình phương, đã đến lúc áp dụng kiến thức này vào dữ liệu của riêng bạn. Chúc bạn thử nghiệm vui vẻ!
Kiểm tra chi bình phương là một phương pháp thống kê mạnh mẽ giúp chúng ta hiểu được mối quan hệ và phân bổ trong dữ liệu phân loại. Việc hình thành vấn đề và các giả thuyết phù hợp trước khi bắt đầu làm bài kiểm tra là rất quan trọng. Một mẫu lớn cũng rất quan trọng trong việc tiến hành kiểm tra chi bình phương; ví dụ: nó hoạt động tốt với kích thước xuống tới 5.000 (Bergh, 2015), vì kích thước mẫu nhỏ có thể dẫn đến kết quả không chính xác. Để diễn giải kết quả một cách chính xác, hãy chọn mức ý nghĩa phù hợp và so sánh thống kê chi bình phương với giá trị tới hạn từ bảng phân phối chi bình phương hoặc giá trị p.
- G. Keller, Thống kê quản lý và kinh tếtái bản lần thứ 11, Chương 15, Học về Cengage (2017).
- Daniel, Bergh. (2015). Kiểm tra Chi-Squared về mức độ phù hợp và cỡ mẫu-A So sánh giữa phương pháp lấy mẫu ngẫu nhiên và phương pháp điều chỉnh giá trị Chi-Sq… Tạp chí đo lường ứng dụng, 16(2):204–217.
[ad_2]
Source link