Giáo trình Thống kê y học - Nguyên tắc kiểm định - So sánh hai tỉ lệ

Biện luận giá trị của p

Giá trị p lớn hơn 0,1 được xem là đủ lớn để xem rằng không có đủ bằng chứng để bác bỏ giả thuyết Ho. Theo thông lệ, người ta cho rằng p<0,05 là có đủ bằng chứng để cho rằng giả thuyết Ho là không đúng. Khi đó, người ta có thể nói rằng sự khác biệt có ý nghĩa thống kê ở mức 5%. Một số người sử dụng quy tắc là nếu p ³ 0,05 thì chấp nhận Ho và nếu p<0,05 thì bác bỏ Ho. Tuy nhiên điều này hoàn toàn không có một căn cứ khoa học hay thống kê nào mà chỉ do thói quen thời thượng. Vì vậy chúng ta nên bác bỏ việc “mê tín” vào ngưỡng ý nghĩa 5%. Mặt khác, những phân tích thống kê cho thấy chúng ta nên sử dụng mức ý nghĩa thấp hơn, thí dụ như 0,01 hay 0,001, trong kiểm định giả thuyết. Và dù sử dụng bất cứ ngưỡng ý nghĩa nào, trong báo cáo khoa học chúng ta phải báo cáo giá trị thực sự của p, chứ không chỉ viết rằng p ở dưới một ngưỡng nào đó.

5. Sự lạm dụng của test thống kê

Kiểm định giả thuyết không phải là không có sai lầm: dù rằng chúng ta có 20 giả thuyết hoàn toàn đúng thì trên trung bình, việc tiến hành 20 kiểm định sẽ dẫn đến việc bác bỏ (sai lầm) một giả thuyết. Và nếu chúng ta thực hiện nhiều kiểm định hơn thì chúng ta có nhiều nguy cơ bị sai lầm hơn.

Sau khi đã có số liệu, nếu chúng ta tiến hành rất nhiều kiểm định để xem kiểm định nào là có ý nghĩa thống kê - người ta gọi đó là nạo vét số liệu (data dredging) - thì nguy cơ sai lầm sẽ tăng cao và những phát hiện sẽ gây rối hơn là làm sáng tỏ cho khoa học. Vì vậy đây là sự lạm dụng cần phê phán nghiêm túc. Trên lí tưởng thì các giả thuyết nghiên cứu cần kiểm định phải được phát biểu trước khi thu thập số liệu.

Một thí dụ: trong nghiên cứu anturane, mặc dù không có sự khác biệt có ý nghĩa giữa anturane và placebo nói chung, báo cáo có "phát hiện" rằng trong vòng 6 tháng đầu số tử vong ở nhóm anturane là 6 thấp hơn một cách có ý nghĩa so với tử vong ở nhóm placebo là 24 (p=0,001). Tuy nhiên bởi vì trong thiết kế của nghiên cứu không đề cập đến việc so sánh số tử vong trong vòng 6 tháng, lẽ ra nên tránh các so sánh như vậy trong báo cáo.

6 trang | Chia sẻ: trungkhoi17 | Lượt xem: 526 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Giáo trình Thống kê y học - Nguyên tắc kiểm định - So sánh hai tỉ lệ, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

NGUYÊN TẮC KIỂM ÐỊNH - SO SÁNH HAI TỈ LỆ Mục tiêu: Sau khi nghiên chủ đề, học viên có khả năng: - Nêu được nguyên tắc của việc kiểm định ý nghĩa - Đánh giá một giả thuyết không (Ho) có đạt yêu cầu hay không - Trình bày và ứng dụng công thức z để so sánh 2 tỉ lệ ở 2 mẫu - Trình bày và ứng dụng được công thức của khoảng tin cậy của hiệu số 2 tỉ lệ - Trình bày được sự liên hệ giữa kiểm định ý nghĩa và khoảng tin cậy - Phân biệt được 2 loại sai lầm: sai lầm loại I và sai lầm loại II 1. Thí dụ: Trong một thử nghiệm lâm sàng để điều trị ung thư vú đã di căn, bệnh nhânh được phân nhóm ngẫu nhiên để được điều trị với L-Pam hay CMF (một phối hợp gồm 3 loại thuốc). Ðáp ứng khối u được định nghĩa là sự teo nhỏ trên một nửa của diện tích khối u trong thời gian tối thiểu là 2 tuần. Số liệu được trình bày trong bảng sau: Ðiều trị CMF L-Pam Tổng số Ðáp ứng của khối u Có 49 (52,7%) 18 (19,8%) 67 (36,4%) Không 44 73 117 Tổng số bệnh nhân 93 91 184 Với số liệu trên, chúng ta có thể sử dụng kiểm định ý nghĩa để xem bằng chứng để kết luận CMF tốt hơn L-Pam mạnh đến mức độ nào. 2. Nguyên tắc của kiểm định ý nghĩa Nguyên lí của phương pháp phản chứng là nều chúng ta có thể suy luận nếu {A Þ B không xảy ra} thì {B xảy ra Þ A không xảy ra} Kí hiệu `B là phủ định của mệnh đề B, `A là phủ định của mệnh đề A, ta có thể viết nếu {A Þ `B} thì {B Þ `A } Ðây là suy luận chúng ta rất thường xuyên ứng dụng trong chẩn đoán y khoa (dù rằng chúng ta ứng dụng nó một cách có ý thức hay vô thức).Thí dụ: một bệnh nhân nhập viện vì bị đau bụng dữ dội. Giả sử chúng ta nghi ngờ bệnh nhân bị tắc ruột và chúng ta khai thác bệnh sử của bệnh nhân. Bệnh nhân cho biết bệnh nhân có trung tiện bình thường và chúng ta loại bỏ căn nguyên tắc ruột. Có thể chúng ta không nhận thức được quá trình suy luận nhưng nó đã diễn ra như sau: Nếu bệnh nhân bị tắc ruột thì bệnh nhân sẽ không đi trung tiện. Do bệnh nhân trung tiện bình thường nên bệnh nhân không bị tắc ruột. Nguyên tắc của kiểm định ý nghĩa tương tự như nguyên tắc của phương pháp phản chứng. Ðó là: Nếu {Ho Þ T hiếm xảy ra} thì { T xảy ra Þ Ho hiếm xảy ra } Kí hiệu theo công thức xác suất của biến cố T là P(T), ta viết: Nếu {Ho Þ P(T) nhỏ } thì { T xảy ra Þ P(Ho) nhỏ } Phân tích từng bước của quá trình kiểm định ý nghĩa chúng ta có các bước: 1. Xây dựng giả thuyết Ho 2. Chọn lựa kiểm định thích hợp - Việc tìm chuỗi suy luận từ Ho Þ P(T) 3. Tính giá trị thống kê T của số liệu thu thập được 4. Tính xác suất của thống kê T - kí hiệu là P(T) và được gọi là giá trị p 5. Và nếu P(T) đủ nhỏ chúng ta kết luận P(Ho) nhỏ và chúng ta bác bỏ giả thuyết Ho 2.1. Giả thuyết không Trong thống kê, giả thuyết không (null hypothesis) là một mệnh đề âm tính cho rằng không có sự liên hệ thống kê nào và như ở trên đã trình bày, khẳng định giả thuyết không là buớc đầu tiên của bất cứ một kiểm định ý nghĩa thống kê nào. Trong trường hợp so sánh 2 tỉ lệ trước tiên chúng ta sẽ chọn lập trường âm tính: giả định rằng không có sự khác biệt về tỉ lệ giữa hai dân số đích mà đã được đại diện bởi hai dân số nghiên cứu (mẫu). Trong thí dụ điều trị ung thư vú, chúng ta xem giả thuyết không là hai điều trị này có hiệu quả tương đương. Nói khác đi các bệnh nhân ung thư vú sẽ có tỉ lệ đáp ứng với điều trị bằng nhau đối với CMF và L-Pam. Ho: p1=p2 Hay Hp: tỉ lệ đáp ứng với CMF = tỉ lệ đáp ứng với L-Pam Chúng ta cũng có phát biểu giả thuyết không như sau: đối với một bệnh nhân bất kì, xác suất đáp ứng điều trị với CMF và L-Pam là bằng nhau. 2.2. Chọn kiểm định ý nghĩa để so sánh hai tỉ lệ phần trăm Sau khi xác định giả thuyết không chúng ta cần xác định chuỗi suy luận từ HoÞ P(B) bằng cách đặt ra câu hỏi: - Nếu giả thuyết không là đúng, cơ hội (xác suất) xảy ra sự khác biệt về tỉ lệ tương tự hay lớn hơn sự khác biệt đã quan sát được là bao nhiêu? Cụ thể trong trường hợp thí dụ về ung thư vú, chúng ta đặt ra câu hỏi, nếu thuốc CMF và L-Pam có hiệu quả điều trị cùng bằng 36%, xác suất xảy ra sự khác biệt tương tự hoặc khác biệt nhiều hơn số liệu đã quan sát (đó là đáp ứng với CMF là 52,7% và với L-Pam là 19,8%) là bao nhiêu? Như vậy, giả thuyết không cho rằng số bệnh nhân điều trị thuốc L-Pam được xem là một mẫu gồm 19 bệnh nhân và bệnh nhân điều trị thuốc CMF là một mẫu gồm 93 bệnh nhân cả hai đều có tỉ lệ đáp ứng là 36,4%. Trong trường hợp này lí thuyết thống kê cho rằng: - Hiệu số của tỉ lệ đáp ứng ở hai mẫu p1-p2 sẽ có phân phối xấp xỉ bình thường - Hiệu số của tỉ lệ đáp ứng ở hai mẫu p1-p2 sẽ dao động chung quanh giá trị 0 - Sai số chuẩn của hiệu số hai tỉ lệ là 2.3. Tính chỉ số thống kê đo lường hiệu số quan sát được Sự khác biệt (hiệu số) quan sát được đo lường theo sai số chuẩn được gọi là thống kê z: 2.4. Tính xác suất của chỉ số thống kê Z Ðối với phân phối bình thường, ta có xác định xác suất có được thống kê Z lớn hơn hoặc bằng một giá trị Z0 nhất định bằng cách sử dụng một phần mềm thống kê (thí dụ như Epi-Info; Excel hay Stata), hoặc tham khảo bảng phân phối chuẩn. Hoặc chúng ta có thể sử dụng trực tiếp các thông tin sau: P(|Z| ³ 0,674) =0,5 P(|Z| ³ 1,282) =0,2 P(|Z| ³ 1,645) =0,1 P(|Z| ³ 1,960) =0,05 P(|Z| ³ 2,576) =0,01 P(|Z| ³ 3,291)=0,001 Ðiểm cần nhắc lại là nếu Z càng lớn thì xác suất P càng nhỏ. Trong thí dụ trên với Z=4,63 thì ta có P<0,001. Nói cách khác, nếu điều trị CMF và L-Pam thực sự có hiệu quả như nhau thì xác suất có được sự khác biệt lớn như chúng ta đã quan sát là nhỏ hơn 1/1000. 2.5. Kết luận Vì vậy chúng ta kết luận bác bỏ giả thuyết Ho với mức ý nghĩa 0,001. Hay nói rằng sự khác biệt có ý nghĩa thống kê ở mức 0,001. Do đó có bằng chứng mạnh mẽ cho rằng các bệnh nhân nhân nhóm CMF thực sự có đáp ứng tốt hơn so với bệnh nhân nhóm L-Pam 3. Phương pháp tắt để tính z Ðiều trị CMF L-Pam Tổng số Ðáp ứng của khối u Có a1 a0 b1 b0 49 18 67 Không 44 73 117 Tổng số bệnh nhân 93 91 184 Ngoài cách tính z bằng tỉ số giữa hiệu số 2 tỉ lệ và sai số chuẩn của hiệu số 2 tỉ lệ, chúng ta có thể tính z theo công thức sau (kí hiệu 4 tần suất của 4 ô trong bảng 2 x 2 lần lượt là a, b, c, d): Ðây là phương pháp tắt để tính z và có ưu điểm là có thể tính nhanh hơn và ít nhầm lẫn hơn. Khuyết điểm của phương pháp này là không thể hiện được bản chất của phương pháp kiểm định z. Cả hai phương pháp đều cho kết quả đồng nhất nhau nếu không có sai số do việc làm tròn số. 4. Biện luận giá trị của p Giá trị p lớn hơn 0,1 được xem là đủ lớn để xem rằng không có đủ bằng chứng để bác bỏ giả thuyết Ho. Theo thông lệ, người ta cho rằng p<0,05 là có đủ bằng chứng để cho rằng giả thuyết Ho là không đúng. Khi đó, người ta có thể nói rằng sự khác biệt có ý nghĩa thống kê ở mức 5%. Một số người sử dụng quy tắc là nếu p ³ 0,05 thì chấp nhận Ho và nếu p<0,05 thì bác bỏ Ho. Tuy nhiên điều này hoàn toàn không có một căn cứ khoa học hay thống kê nào mà chỉ do thói quen thời thượng. Vì vậy chúng ta nên bác bỏ việc “mê tín” vào ngưỡng ý nghĩa 5%. Mặt khác, những phân tích thống kê cho thấy chúng ta nên sử dụng mức ý nghĩa thấp hơn, thí dụ như 0,01 hay 0,001, trong kiểm định giả thuyết. Và dù sử dụng bất cứ ngưỡng ý nghĩa nào, trong báo cáo khoa học chúng ta phải báo cáo giá trị thực sự của p, chứ không chỉ viết rằng p ở dưới một ngưỡng nào đó. 5. Sự lạm dụng của test thống kê Kiểm định giả thuyết không phải là không có sai lầm: dù rằng chúng ta có 20 giả thuyết hoàn toàn đúng thì trên trung bình, việc tiến hành 20 kiểm định sẽ dẫn đến việc bác bỏ (sai lầm) một giả thuyết. Và nếu chúng ta thực hiện nhiều kiểm định hơn thì chúng ta có nhiều nguy cơ bị sai lầm hơn. Sau khi đã có số liệu, nếu chúng ta tiến hành rất nhiều kiểm định để xem kiểm định nào là có ý nghĩa thống kê - người ta gọi đó là nạo vét số liệu (data dredging) - thì nguy cơ sai lầm sẽ tăng cao và những phát hiện sẽ gây rối hơn là làm sáng tỏ cho khoa học. Vì vậy đây là sự lạm dụng cần phê phán nghiêm túc. Trên lí tưởng thì các giả thuyết nghiên cứu cần kiểm định phải được phát biểu trước khi thu thập số liệu. Một thí dụ: trong nghiên cứu anturane, mặc dù không có sự khác biệt có ý nghĩa giữa anturane và placebo nói chung, báo cáo có "phát hiện" rằng trong vòng 6 tháng đầu số tử vong ở nhóm anturane là 6 thấp hơn một cách có ý nghĩa so với tử vong ở nhóm placebo là 24 (p=0,001). Tuy nhiên bởi vì trong thiết kế của nghiên cứu không đề cập đến việc so sánh số tử vong trong vòng 6 tháng, lẽ ra nên tránh các so sánh như vậy trong báo cáo. 6. Khoảng tin cậy 95% của hai hiệu số Nếu chỉ kiểm định so sánh hai tỉ lệ mà không ước lượng khoảng tin cậy của hiệu số hai tỉ lệ thì vẫn chưa hoàn chỉnh. Chúng ta nhận thức rằng p có ích để định lượng bằng chứng chống lại giả thuyết Ho, khoảng tin cậy cho chúng ta biết về độ lớn của sự khác biệt và thể hiện mức độ không chắc chắn về độ lớn sự khác biệt đó. Công thức để tính khoảng tin cậy của hiệu số như sau: Trong thử nghiệm anturane, khoảng tin cậy 95% của khác biệt về tỉ lệ tử vong sau một năm là: Chúng ta có thể nói rằng sự khác biệt về hiệu quả giữa anturane và placebo nằm đâu đó giữa 2 trường hợp: tăng tỉ lệ tử vong 0,7% trong nhóm anturane và giảm tỉ lệ tử vong 3,7% ở nhóm anturane. Có thể nhận xét rằng nếu khoảng tin cậy 95% đi từ giá trị âm đến giá trị dương thì nó có chứa giá trị 0 và như vậy có nghĩa là chúng ta không bác bỏ giả thuyết H0 cho rằng không có sự khác biệt giữa hai tỉ lệ (với ngưỡng tin cậy 5%) và khi đó giá trị p>0,05. Ngược lại nếu khoảng tin cậy không chứa giá trị 0 thì giá trị p sẽ <0,05 Bài tập 1. Những nghiên cứu trước đây cho thấy rằng thuốc chẹn kênh calci tác dụng nhanh làm gia tăng bệnh tật và tử vong ở các bệnh nhân bị suy tim mãn tính. Một nghiên cứu được tiến hành để xem xét hiệu quả của Amlodipine trên những bệnh nhân bị suy tim mạn tính. Trong nghiên cứu này 1153 bệnh nhân bị suy tim mãn tính và phân số tống máu nhỏ hơn 30% được điều trị mù đôi hoặc là với amolodipine (571) hay placebo (582 bệnh nhân) cùng với điều trị sẵn có. Các bệnh nhân được phân tầng tuỳ theo có hay không bị thiếu máu cơ tim. Biến số kết quả chính (primary outcome) của nghiên cứu là tử vong do bất cứ nguyên nhân nào hay nhập viện do các biến cố tim mạch. a. Giả sử anh chị là người thiết kế nghiên cứu cho thử nghiệm lâm sàng này, anh chị cho rằng điều trị bằng amlodipine sẽ có tác động tốt ở biến số nào (tử vong do bất kì nguyên nhân nào - nhập viện do biến cố tim mạch - hay xảy ra một trong 2 biến có trên)? Anh chi cho rằng amlodipine sẽ có kết quả tốt ở phân tầng nào (ở nhóm thiếu máu cơ tim hay ở nhóm không thiếu máu cơ tim? Sau một thời gian theo dõi (từ 6 đến 33 tháng với trung vị là 13,8 tháng), kết quả được ghi nhận như sau: Biến số kết quả Tất cả bệnh nhân Nhóm thiếu máu cơ tim Nhóm không thiếu máu Placebo (n=582) amlodipine (n=571) Placebo (n=370) amlodipine (n=362) Placebo (n=212) amlodipine (n=209) Chết 192 160 126 123 66 37 Phù phổi Thiếu tưới máu nặng Nhồi máu cơ tim Nhịp nhanh thất hay rung thất 15 11 10 18 35 10 7 10 13 8 9 12 21 8 4 8 2 3 1 6 14 2 3 2 Tổng cộng 246 222 168 164 78 58 Sử dụng test ý nghĩa phù hợp để đánh giá: b. Có phải điều trị bằng amlodipine giảm nguy cơ tử vong ở các bệnh nhân bị suy tim mãn hay không? b. Có phải điều trị bằng amlodipine giảm nguy cơ nhập viện vì các biến cố tim mạch ở các bệnh nhân bị suy tim mãn hay không? b. Có phải điều trị bằng amlodipine giảm nguy cơ xảy ra biến cố kết quả chính (tử vong hay nhập viện vì các biến cố tim mạch) ở các bệnh nhân bị suy tim mãn hay không? c. Có phải điều trị bằng amlodipine giảm nguy cơ tử vong ở các bệnh nhân bị suy tim mãn và có thiếu máu cơ tim hay không? d. Có phải điều trị bằng amlodipine giảm nguy cơ tử vong ở các bệnh nhân bị suy tim mãn và không bị thiếu máu cơ tim hay không? e. Chúng ta có thể kết luận gì về hiệu quả của amlodipine từ nghiên cứu này?

Các file đính kèm theo tài liệu này:

giao_trinh_thong_ke_y_hoc_nguyen_tac_kiem_dinh_so_sanh_hai_t.doc