Connect & Share !: Học chương kiểm định giả thiết

Học chương kiểm định giả thiết

Posted in Nhãn: Học tập | 15:52

1. Khái niệm:

Kiểm định giả thiết là một bài toán quan trọng trong đời sống cũng như trong thống kê, kiểm toán. Ta thường gặp 1 cặp giả thiết đối nghịch nhau, bằng khả năng của mình, ta phải xác định xem giả thiết nào đúng.

- Giả thiết thống kê là các giả thiết về trung bình (μ), phương sai mẫu (σ²), tỉ lệ (f),… của đám đông (mẫu ) đang xét.

- Nội dung của bài toán kiểm định: Cho hai giả thiết H₀, H₁ (thường là đối nghịch nhau). Dựa vào các số liệu thu được, ta phải quyết định xem giả thiết H₀ đúng hay sai. Giả thiết H₁ đối nghịch với giả thiết H₀ gọi là đối thiết của H₀ . Việc đưa ra quyết định chấp nhận hay bác bỏ một giả thiết thống kê gọi là làm kiểm định (hay kiểm định thống kê).

Ví dụ: Khi ta cảm thấy mệt mỏi, ta nghi rằng “mình bị bệnh” – đây là giả thiết H₀, (H₁ là “mình không mắc bệnh”) và việc đi khám bệnh để xác định xem mình có bệnh hay không, chính là xác định xem giả thiết H₀ có đúng hay không. Việc này chính là kiểm định giả thiết.

Khi giả thiết H₀ có dạng: H₀ : a = a₀ (a là 1 tham số nào đó của đại lượng ngẫu nhiên ta đang nghiên cứu; a₀ là giá trị đã biết)

Khi đó: H₁ có thể là: H₁ : a ≠ a₀ . Việc kiểm định giả thiết với đối thiết dạng này được gọi là kiểm định hai phía (vì miền bác bỏ nằm về hai phía của miền chấp nhận).

Giả thiết đối dạng H₁ : a ≠ a₀ thường được áp dụng khi ta chưa biết rõ trong thực tế a > a₀ hay a< a₀ .

Nhưng nếu qua quan sát, phân tích ta biết được xu hướng là a > a₀ thì ta có thể đặt đối thiết H₁ : a > a₀ . Hoặc ta biết được khả năng a <a₀ thì đặt đối thiết H₁ : a < a₀ .

Nếu kiểm định giả thiết với giả thiết đối dạng H₁ : a > a₀ thì được gọi là kiểm định giả thiết về phía bên phải. Nếu kiểm định giả thiết với giả thiết đối dạng H₁ : a < a₀ thì được gọi là kiểm định giả thiết về phía bên trái

2. Các sai lầm mắc phải khi làm kiểm định:

Khi làm kiểm định, ta có thể mắc phải các sai lầm sau đây:

Sai lầm loại 1: Bác bỏ 1 giả thiết đúng ( Bác bỏ H₀ khi H₀ đúng).
Sai lầm loại 2: Chấp nhận 1 giả thiết sai (Nhận H₀ khi H₀ sai).

Kết luận Thực tế	Chấp nhận H₀	Bác bỏ H₀
H₀đúng	Kết luận đúng	Sai lầm loại 1
H₀ sai	Sai lầm loại 2	Kết luận đúng

Ví dụ:

1. Dựa vào các thông tin dự báo thời tiết, trung tâm khí tượng thủy văn dự báo 1 cơn bão sắp đến sẽ đổ bộ vào miền Nam thì H₀: “Bão đổ bộ vào miền Nam” (H₁ :”bão không đổ bộ vào miền Nam). Khi đó sai lầm loại 1 là rất tai hại vì khi đó, do không kịp thời chuẩn bị ứng phó nên bão sẽ gây ra những thiệt hại nặng nề.

2. Cho đậu 1 thí sinh yếu kém (mà đáng ra phải rớt) hoặc cho rớt 1 thí sinh giỏi (mà đáng lẽ ra phải đậu) đều là những sai lầm tai hại. Thực tế, cho thấy, có những cuộc thi mà kết quả chỉ dựa vào số lượng tin nhắn bình chọn thì chứa đựng nhiều sai lầm.

Tất nhiên, khi kiểm định một giả thiết. Ta cố gắng hạn chế các sai lầm, tức là cần giảm thiểu tối đa xác suất phạm cả hai sai lầm. Tuy nhiên, đây là điều trong thực tế không thể làm được vì nếu ta muốn giảm sai lầm loại 1 thì sẽ làm tăng xác suất sai lầm loại 2 và ngược lại.

Trong thống kê, ta quy ước rằng lỗi lầm loại 1 là tai hại hơn, và cần tránh trước. Do đó, với xác suất α nhỏ cho trước, ta cần ra quyết định sao cho: P(Phạm sai lầm loại 1) ≤ α . α gọi là mức ý nghĩa của kiểm định.

3. Một số bài toán kiểm định thường gặp:

3.1 Kiểm định giả thiết về số trung bình:

Giả sử đại lượng ngẫu nhiên gốc X trong tổng thể phân phối theo qui luật chuẩn với kỳ vọng là μ và phương sai mẫu σ², Cần kiểm định giả thiết:

$\left \{ \begin{array}{c} H_0 : {\mu} = a_0 \\ H_1 : {\mu} \ne a_0 \\ \end{array} \right.$ ( $a_0$ là 1 giá trị đã biết khi đặt $H_0$ )

Để kiểm định giả thiết trên, ta tiến hành lấy mẫu với kích thước n và xét các trường hợp sau:

1. Trường hợp 1: σ² đã biết:

Giả sử $X \sim N(\mu, \sigma^2) , (X_1,X_2,...,X_n)$ là mẫu độc lập của X. Khi đó: $Z ={ \dfrac{\overline{X}-\mu}{\sigma}}\sqrt{n} \sim N(0;1)$ Với mức ý nghĩa $\alpha$ , chọn miền bác bỏ giả thiết $H_0 : W=\left\{ (X_1, X_2, ..., X_n): |Z| > c_{\alpha} \right\}$

trong đó $c_{\alpha}$ thỏa: $\int\limits_{-c_{\alpha}}^{c_{\alpha}}{ \dfrac{1}{\sqrt{2{\pi}}}}e^{- \dfrac{t^2}{2}} \, dt = 1 - \alpha = \gamma$

Rõ ràng $c_{\alpha} = u\left({ \dfrac{\gamma}{2}} \right)$ và được xác định bởi bảng giá trị tích phân Laplace.

Ví dụ: mức ý nghĩa $\alpha = 0,05 \Rightarrow z_{\alpha} = 1,96$ ; $\alpha = 0,01 \Rightarrow z_{\alpha} = 2,58$

Hoàn toàn tương tự cho các phép kiểm định trung bình 1 phía, ta có thể tóm tắt bởi bảng sau:

2. Trường hợp 2: σ² chưa biết:

Giả sử $X \sim N(a, \sigma^2) , (X_1,X_2,...,X_n)$ là mẫu độc lập của X. Khi đó: $T ={ \dfrac{\overline{X}-a}{s}}\sqrt{n} \sim t(n-1;\alpha)$ Với mức ý nghĩa $\alpha$ , chọn miền bác bỏ giả thiết $H_0$ :

$W = \left \{ (X_1, X_2, ..., X_n): |T| > t_{n-1,{\alpha}} \right\}$

trong đó $t(n-1;\alpha)$ là phân phối Student n-1 bậc tự do.

Nếu n đủ lớn $(n \ge 30 )$ thì $t_{n-1,\alpha} \approx c_{\alpha}$

Hoàn toàn tương tự cho các phép kiểm định trung bình 1 phía, ta có thể tóm tắt bởi bảng sau:

3.2. Kiểm định so sánh 2 giá trị trung bình :

Cho $X \sim N(a_1, \sigma^2) , (X_1,X_2,...,X_n)$ là mẫu độc lập của X. $Y \sim N(a_2, \sigma^2) , (Y_1,Y_2,...,Y_n)$ là mẫu độc lập của X.

Trường hợp 1: Nếu $\sigma^2$ đã biết.

Xét phép kiểm định: $\left \{ \begin{array}{c} H_0 : a_1 = a_2 \\ H_1 : a_1 \ne a_2 \\ \end{array} \right.$

Khi đó: $T ={ \dfrac{\overline{X}-\overline{Y}}{{\sigma}}{\sqrt{\left({ \dfrac{1}{n}}+{ \dfrac{1}{m}}\right)}}} \sim t(m+n-2;\alpha)$

Với mức ý nghĩa $\alpha$ , chọn miền bác bỏ giả thiết $H_0$ :

$W=\left\{ (X_1, X_2, ..., X_n), (Y_1,Y_2,...,Y_n): |T| > c_{\alpha} \right\}$

$c_{\alpha}$ được tra từ bảng phạn phối Student (m+n-2) bậc tự do.

Trường hợp 2: Nếu $\sigma^2$ chưa biết.

Khi đó: $T ={ \dfrac{\overline{X} - \overline{Y}}{\sqrt{\left({ \dfrac{1}{n}}+{ \dfrac{1}{m}}\right).{ \dfrac{(n-1)S_X^2+(m-1)S_Y^2}{m+n-2}}}}} \sim t(m+n-2,{\alpha})$

Với mức ý nghĩa $\alpha$ , chọn miền bác bỏ giả thiết $H_0$ :

$W=\left\{ (X_1, X_2, ..., X_n), (Y_1,Y_2,...,Y_n): |T| > c_{\alpha} \right\}$

trong đó: $c_{\alpha}$ được tra từ bảng phân phối Student (m+n-2) bậc tự do. $S_X^2 , S_Y^2$ tương ứng là phương sai mẫu của X và Y.

3.3 Kiểm định giả thiết về tỉ lệ:

1. Kiểm định tỉ lệ:Giả sử trong 1 đám đông Ω , tỉ lệ các phần tử mang dấu hiệu A nào đó là p chưa biết. Từ mẫu $(X_1,X_2,...,X_n)$ ta có tỉ lệ quan sát được là: $f = { \dfrac{m}{n}}$