Tại sao thống kê cần thiết cho y khoa và y tế công cộng?
Các chuyên viên y tế công cộng tham gia vào công việc phòng bệnh, chẩn đoán một số bệnh tật cũng như cho lời khuyên cho người dân tiên lượng của các biến cố. Bác sĩ cũng phải tham gia vào việc phòng bệnh, chẩn đoán, điều trị cho bệnh nhân. Những thông tin cần thiết cho những hoạt động này là:
Phòng bệnh: Bệnh tật do nguyên nhân gì?
Chẩn đoán: Bệnh nhân có những triệu chứng và dấu hiệu gì của bênh
Điều trị: Điều trị nào là có hiệu quả cho một bệnh nhất định và có hiệu quả cho bệnh nhân nào
Tư vấn: Một bệnh nhân bị một bệnh nào đó (như nhiễm HIV) sẽ có khả năng mắc phải những bệnh lí gì trong 5 năm tới.
Những thông tin này phụ thuộc rất nhiều vào nhiều yếu tố và phần lớn những yếu tố này không tiên đoán được, thí dụ bệnh có thể gây ra bởi yếu tố môi trường, bởi tác nhân vi sinh vật (vi khuẩn, virus), các yếu tố bệnh nhân (di truyền, hành vi vệ sinh, các yếu tố xã hội). Tương tự các triệu chứng, dấu hiệu bệnh tật, đáp ứng với điều trị và diễn tiến tự nhiên của bệnh phụ thuộc vào nhiều biến số.
Thống kê rõ ràng là rất cần thiết. Tuy nhiên do thống kê là một công cụ hết sức mạnh mẽ nên nó đã bị rất nhiều người lạm dụng trong khi họ chưa được huấn luyện một cách đầy đủ. Một bác sĩ hay một chuyên viên y tế công cộng tương lai cần phải tìm hiểu thấu đáo về thống kê khi sử dụng nó để tránh bị xếp vào cùng loại với những người nói dối và những người nói dối trơ tráo như theo cách nhìn nhận của nhà văn Mark Twain (“lies, damned lies, and statistics”)
174 trang |
Chia sẻ: trungkhoi17 | Lượt xem: 777 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Giáo trình Thống kê y học, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
20 trẻ trai 2 tuổi bị bệnh hồng cầu liềm ở thành phố Cần Thơ.
84,4 87,0 80,6 83,4 85,0
85,4 89,2 78,5 80,0 89,8
82,5 85,0 89,0 84,1 81,3
85,4 80,7 85,5 81,9 86,3
a. Tính trung bình và độ lệch chuẩn của chiều cao của trẻ trong dân số nghiên cứu này
b. Giả định chiều cao có phân phối bình thường, số liệu chiều cao của dân số này sẽ nằm chủ yếu trong khoảng giá trị nào?
c. Kiểm tra lại số liệu trên thực tế
d. Sử dụng kết quả ở câu a và b hãy phác thảo (vẽ phác) phân phối tần suất của chiều cao của trẻ.
e. Ước tính sai số chuẩn của trung bình mẫu. Trình bày sự khác biệt giữa sai số chuẩn và độ lệch chuẩn của chiều cao của trẻ. Phác thảo phân phối mẫu trên cùng đồ thị các bạn vẽ ở câu d.
f. Sử dụng phân phối bình thường. Tính khoảng tin cậy 95% của giá trị trung bình thực sự của chiều cao của các trẻ này (trung bình dân số).
g. Tính lại khoảng tin cậy nhưng sử dụng phân phối t hay vì phân phối bình thường.
h. Nếu chúng ta muốn ước tính chiều cao trẻ chính xác hơn, chúng ta sẽ cần tăng hay giảm khoảng tin cậy 95%? Muốn vậy chúng ta cần phải làm gì?
i. Khoảng tin cậïy 99% sẽ rộng hơn hay hẹp hơn khoảng tin cậy 95%. Tính khoảng tin cậy 95%
j. Tổ chức y tế thế giới cho biết chiều cao trung bình của trẻ trai 2 tuổi là 86,5 cm. Từ khoảng tin cậy chúng ta có cho rằng chiều cao của trẻ em bị bệnh hồng cầu liềm thấp hơn trẻ trai bình thường hay không?
k. Thực hiện kiểm định t để so sánh chiều cao trẻ trai bị hồng cầu liềm và trẻ trai bình thường. Giá trị p bằng bao nhiêu? Lí giải giá trị p
l. Nếu có sự khác biệt, thảo luận các lí do tại sao có sự khác biệt.
2. Người ta thực hiện một thử nghiệm lâm sàng ngẫu nhiên, mù đôi, bắt chéo nhằm so sánh hiệu quả điều trị của một loại thuốc hạ áp đã có (propranolol) với một loại thuốc hạ áp mới (thuốc X). Mỗi bệnh nhân được điều trị với mỗi loại thuốc hạ áp trong 8 tuần, và hai đợt điều trị này cách nhau bởi 2 tuần lễ không điều trị để tránh loại bỏ tác dụng kéo dài của thuốc này ảnh hưởng lên kết quả điều trị của thuốc kia (thời gian rửa trôi) . Do thứ tự dùng 2 loại thuốc này là ngẫu nhiên và do có thời gian rửa trôi, chúng ta giả định rằng thứ tự sử dụng thuốc không có ảnh hưởng đáng kể lên kết quả.
Kết quả theo dõi huyết áp của 10 bệnh nhân này như sau:
Bệnh nhân
Huyết áp tâm thu
Propranolo
Thuốc X
1
150
130
2
148
131
3
107
144
4
159
144
5
171
113
6
110
128
7
140
112
8
138
112
9
143
116
10
126
134
a. Có bằng chứng về sự khác biệt về hiệu quả của hai loại thuốc lên huyết áp tâm thu hay không?
b. Tính khoảng tin cậy của trung bình hiệu số huyết áp của hai loại thuốc.
c. Chúng ta có thể kết luận gì?
3.Tiến hành lấy mẫu huyết thanh ở 25 trẻ dưới 5 tuổi để tìm hiệu giá kháng thể ngưng kết với não mô cầu sử dụng phương pháp pha loãng. Kết quả như saub:
1:1 1:8 1:8 1:16 1:32
1:1 1:8 1:8 1:64 1:8
1:16 1:1 1:8 1:8 1:8
1:4 1:16 1:8 1:8 1:32
1:4 1:1 1:4 1:128 1:2
a. Sử dụng nghịch đảo của hiệu giá, người ta tính được hiệu giá trung bình là 16,2 và độ lệch chuẩn là 27.0. Giả sử hiệu giá có phân phối bình thường, hiệu giá kháng thể sẽ nằm chủ yếu trong khoảng số liệu nào? Kiểm tra có phải đa số số liệu nằm trong khoảng giá trị đó hay không? Nếu không, tại sao?
b. Lập lại các bước trên sử dụng log của nghịch đảo hiệu giá. Có phải phần lớn các giá trị nằm trong khoảng đã tính hay không? Tại sao?
c. Tính khoảng tin cậy 95% của trung bình của log của hiệu giá kháng thể.
d. Aùp dụng hàm mũ (antilog) cho khoảng tin cậy của log. Số liệu này là gì? Tại sao chúng ta phải lấy log trong phân tích này?
SO SÁNH HAI TRUNG BÌNH - KIỂM ÐỊNH T KHÔNG BẮT CẶP
Mục tiêu
Sau khi nghiên cứu chủ đề, học viên có khả năng
1. Tính khoảng tin cậy của hiệu số hai trung bình
2. Kiểm định giả thuyết hai trung bình là bằng nhau theo phép kiểm t và phép kiểm z
3. Trình bày được các giả định của 2 phép kiểm t và phép kiểm z.
1. Giới thiệu
Trong phần trước chúng ta đã nghiên cứu phương pháp suy luận thống kê về trung bình của một biến số định lượng trong một dân số, dựa trên số liệu từ một mẫu ngẫu nhiên hoặc trung bình của hiệu số trước sau của một biến số của cùng dân số. Trên thực tế, chúng ta thường phải thực hiện việc so sánh trung bình của hai dân số sử dụng mẫu không bắt cặp. Ðó là hai mẫu chúng ta chọn từ hai dân số khác nhau và không có sự liên hệ gì giữa các quan sát, chẳng hạn quan sát thứ nhất của mẫu một không có liên hệ gì với quan sát thứ nhất của mẫu hai.
Trong phần này chúng ta sẽ nghiên cứu hai phương pháp
1. Tính khoảng tin cậy của hiệu số hai trung bình và
2. Kiểm định giả thuyết hai trung bình là bằng nhau
ứng dụng cho hai mẫu không bắt cặp.
2. Kí hiệu
Chúng ta kí hiệu trung bình và độ lệch chuẩn của biến số x trong dân số thứ nhất là m1 và s1 và trong dân số thứ hai là m2 và s2. Hiển nhiên là với hai dân số xác định, các trung bình m1, m2 và các độ lệch chuẩn dân số s1 và s2 là không đổi.
Nếu chúng ta nghiên cứu n1 đối tượng được chọn ngẫu nhiên trong dân số 1 và n2 đối tượng được chọn ngẫu nhiên trong dân số 2, chúng ta sẽ tính được trung bình `x1 và độ lệch chuẩn s1 của mẫu 1 và trung bình `x2 và độ lệch chuẩn s2 của mẫu 2.
Dân số 1
Mẫu 1
Dân số 2
Mẫu 2
Trung bình
m1
`x1
m2
`x2
Ðộ lệch chuẩn
s1
s1
s2
s2
3. Thí dụ
Ðể đánh giá sự liên hệ giữa tình trạng dinh dưỡng ở tuổi thiếu nhi và khả năng hoạt động thể lực ở tuổi trưởng thành, một nghiên cứu được tiến hành ở 2 làng_. Ở một làng, tất cả các bà mẹ mang thai hay cho con bú và tất cả trẻ em dưới 7 tuổi được bổ sung thực phẩm giàu năng lượng và giàu protein (Atole: 163 KCal + 6,4 g protein/180 mL) và ở làng khác các bà mẹ và trẻ em chỉ được bổ sung thực phẩm nghèo năng lượng và không có protein (Fresco: 59 KCal + 0 g protein/180 mL). Can thiệp dinh dưỡng được chấm dứt vào năm 1977. Vào năm 1988, các nhà nghiên cứu trở lại làng và tiến hành đo đạc tốc độ tiêu thụ oxy cực đại (VO2max) trên các nam thanh niên từ 14 đến 18 tuổi (đây là các đối tượng được bổ sung dinh dưỡng trong lúc mang thai và ít nhất trong 3 năm đầu cuộc đời). Kết quả như sau
Nhóm can thiệp
n
VO2max (L/phút)
Trung bình mẫu
Ðộ lệch chuẩn
Atole
44
2,62
0,54
Fresco
42
2,24
0,54
Từ số liệu này chúng ta có thể kết luận gì về tốc độ tiêu thụ oxy cực đại ở hai nhóm can thiệp dinh dưỡng.
4. Phân phối mẫu của hiệu số hai trung bình
Giả sử chúng ta có một dân số P1 gồm nhiều đối tượng được bổ sung dinh dưỡng với Atole và một dân số P2 gồm nhiều đối tượng được bổ sung dinh dưỡng với Fresco. Giả sử chúng ta tiến hành nhiều lần việc rút ra cỡ mẫu gồm 44 nam thanh niên từ dân số P1 và 42 nam thanh niên từ dân số P2 và chúng ta tính hiệu số trung bình (`x1 -`x2). Phân phối của các hiệu số trung bình (`x1 -`x2) có các đặc tính sau thay đổi tuỳ theo giả định của chúng ta:
a. Phương sai của 2 dân số bằng nhau
1. Giá trị `x1 -`x2 sẽ thay đổi từ mẫu này sang mẫu khác (`x1, s1,`x2, s2 cũng thay đổi từ mẫu này sang mẫu khác)
2. Giá trị `x1 -`x2 sẽ phân phối đối xứng chung quanh giá trị (m1 - m2) là hiệu số trung bình thực của dân số P1 và P2:
3. Các giá trị gần (m1 - m2) sẽ phổ biến hơn các giá trị xa với (m1 - m2)
4. Sai số chuẩn của (`x1 -`x2) sẽ được tính theo công thức:
Viết theo ngôn ngữ toán học hình thức
X1~N(m1,s2) và X2~N(m2,s2) => (`X1 -`X2)~(m1 -m2 , )
b. Phương sai của 2 dân số khác nhau
1. Giá trị `x1 -`x2 sẽ thay đổi từ mẫu này sang mẫu khác (`x1, s1,`x2, s2 cũng thay đổi từ mẫu này sang mẫu khác)
2. Giá trị `x1 -`x2 sẽ phân phối đối xứng chung quanh giá trị (m1 - m2) là hiệu số trung bình thực của dân số P1 và P2:
3. Các giá trị gần (m1 - m2) sẽ phổ biến hơn các giá trị xa với (m1 - m2)
4. Sai số chuẩn của (`x1 -`x2) sẽ được tính theo công thức:
Viết theo ngôn ngữ toán học hình thức
X1~N(m1,s12) và X2~N(m2,s22) => (`X1 -`X2)~(m1 -m2 , )
Công thức này có thể chứng minh sử dụng định lí: phương sai của tổng (hay hiệu) của 2 biến số độc lập sẽ bằng tổng của hai phương sai của 2 biến số đó.
Phương sai của (`x1 -`x2) = Phương sai của (`x1 ) + Phương sai của (`x2)
=
6. Kiểm định giả thuyết để so sánh hai trung bình
Chúng ta có thể muốn kiểm định giả thuyết là hai trung bình dân số, m1 và m2, bằng nhau hay nói khác đi (m1 - m2)=0. Nếu giả thuyết Ho đúng thì hiệu số trung bình mẫu sẽ có phân phối bình thường, tập trung tại giá trị 0 và có sai số chuẩn thay đổi tuỳ theo giả định
a. Phương sai của 2 dân số bằng nhau
Khi đó, Giá trị Z của hiệu số trung bình mẫu sẽ :
Tuy nhiên trên thực tiễn do chúng ta không thể xác định s một cách chính xác, chúng ta phải sử dụng để thay thế cho s. Khi đó chúng ta sẽ có giá trị t
với n1+n2-2 độ tự do (1)
b . Phương sai của 2 dân số khác nhau
Khi đó, Giá trị Z của hiệu số trung bình mẫu sẽ :
Cũng tương tự như lập luận ở trên, trên thực tiễn do chúng ta không biết được chính xác s1 và s2, nên chúng ta phải sử dụng s1 thay thế cho s1 và s2 thay thế cho s2 và chúng ta có giá trị t:
(2)
với (3)
Việc công thức tính độ tự do khi sử dụng giả định 2 phương sai khác nhau tương đối khó nhớ nên độ tự do của phân phối t khi phương sai không bằng nhau thường chỉ tính toán các phần mềm thống. Khi phân tích thống kê với máy tính cầm tay, người ta thường giả định nếu cỡ mẫu của 2 nhóm đều trên 20 thì độ tự do của t sẽ trên 30 (xem bảng 1). Khi đó có thể không cần tra bảng t mà chỉ cần tra bảng phân phối chuẩn. Do đó, đôi khi công thức kiểm định t cho 2 trung bình khi phương sai không bằng nhau với cỡ mẫu lớn còn được gọi là công thức kiểm định z
Bảng 3. Độ tự do của t khi phương sai không bằng nhau tương ứng với phương sai nhóm và cỡ mẫu của 2 nhóm khác nhau
Độ lệch chuẩn nhóm 1: s1
1
1
1
2
2
2
Cỡ mẫu nhóm 1: n1
10
20
20
10
20
20
Độ lệch chuẩn nhóm 2: s2
1
1
1
1
1
1
Cỡ mẫu nhóm 2: n2
10
10
20
10
10
20
Độ tự do
18
18
38
13
28
28
Tóm lại, chúng ta có 2 công thức để kiểm định 2 trung bình: công thức (1) và công thức (2). Cả hai công thức này đều chỉ sử dụng được khi biến số cần so sánh có phân phối bình thường. Tuy nhiên công thức (1) sử dụng khi có thể giả định là 2 phương sai bằng nhau và công thức (2) chỉ đơn giản để sử dụng khi cỡ mẫu của 2 nhóm đều lớn. Trong trường hợp nếu 2 phương sai không bằng nhau, chúng ta sử dụng công thức (2) và tính toán cụ thể độ tự do theo công thức (3).
7. Thí dụ về tính toán kiểm định so sánh 2 trung bình
1. Trong thí dụ so sánh tốc độ sử dụng oxy cực đại ở hai nhóm thanh niên, giả thuyết Ho được đưa ra là
Ho: trung bình tốc độ sử dụng oxy cực đại ở nhóm Atole bằng trung bình tốc độ sử dụng oxy cực đại ở nhóm Fresco
mA = mF
Bởi vì cả hai giả định (a) phương sai bằng nhau và (b) cỡ mẫu 2 nhóm đều lớn đều đúng, chúng ta có thể chọn sử dụng một trong 2 phương pháp kiểm định ở trên:
2a. Kiểm định sử dụng giả định phương sai bằng nhau
3a. Tính giá trị thống kê
với 84 độ tự do
4a. Vì độ tự do khá lớn nên chúng ta có thể tra bảng phân phối chuẩn z thay cho bảng t. Ta có
P(|Z|³3,26)=0,0012
Nếu chúng ta không thể tính trực tiếp p, tra bảng chúng ta có thể biết rằng p 0,001
5a. Khi đó chúng ta có thể bác bỏ Ho với p=0,0011, hay nói khác đi số liệu cho phép kết luận can thiệp dinh dưỡng bằng Atole ở tuổi nhà trẻ làm tăng tốc độ sử dụng oxy tối đa ở tuổi trưởng thành (p=0,0011).
2b. Kiểm định sử dụng giả định phương sai không bằng nhau
3b. Tính giá trị thống kê
bởi vì cỡ mẫu của 2 nhóm đều lớn chúng ta có thể cho rằng độ tự do của t cũng khá lớn và có thể tra bảng phân phối chuẩn z thay cho bảng t. Nếu muốn chặt chẽ chúng ta có thể sử dụng cong thức đã trình bày ở trên để tính độ tự do của phân phối t bằng 83,8.
4b. Tính giá trị p:
P(|Z|³3,26)=0,0012
5b. Kết luận:
Chúng ta có thể bác bỏ Ho với p=0,0011, hay nói khác đi số liệu cho phép kết luận can thiệp dinh dưỡng bằng Atole ở tuổi nhà trẻ làm tăng tốc độ sử dụng oxy tối đa ở tuổi trưởng thành (p=0,0012).
7. Ðiều kiện sử dụng test Z
Test Z như trình bày ở trên đòi hỏi 2 giả định:
1. Phân phối mẫu của trung bình mẫu và phân phối mẫu của hiệu số trung bình mẫu có phân phối xấp xỉ bình thường.
2. Ðộ lệch chuẩn thực sự (độ lệch chuẩn dân số) s1 và s2 có thể được ước lượng một cách chính xác bằng độ lệch chuẩn mẫu s1 và s2.
Chính xác ra, giả định thứ nhất chỉ đúng nếu giá trị của số liệu trong dân số có phân phối bình thường. Tuy nhiên theo định lí giới hạn trung tâm, với cỡ mẫu lớn thì phân phối của trung bình mẫu sẽ tiệm cận phân phối bình thường ngay cả khi giá trị của số liệu trong dân số không có phân phối bình thường.
Về giả định thứ hai, s1 và s2. cũng ước lượng khá chính xác s1 và s2 nếu cỡ mẫu lớn. Vì vậy, phương pháp z nói chung đáng tin cậy khi cỡ mẫu đủ lớn (cỡ mẫu của mỗi nhóm từ 20 trở lên) và hình dạng của tổ chức đồ không quá không bình thường. Ngoài ra nếu phân tích trên tổ chức đồ chúng ta thấy phân phối bị lệch dương, chúng ta cần phải dùng biến đổi log để phân phối trở lại gần giống phân phối bình thường.
8. Phương pháp với mẫu nhỏ
Nếu một trong haimẫu nhỏ, cả hai giả định nêu ở trên sẽ bị vi phạm và khi đó sử dụng xấp xỉ bình thường là không đáng tin cậy.
Tuy nhiên nếu chúng ta phân tích tổ chức đồ cho thấy các giá trị là tương đối đối xứng và không quá khác biệt với phân phối bình thường, chúng ta có thể sử dụng phương pháp biến cải từ phép kiểm định z nêu ở trên. Ðó là sử dụng phân phối t và trong đó chấp nhận sai số thêm vào khi sử dụng độ lệch chuẩn mẫu s1 và s2 thay vì độ lệch chuẩn thực s1 và s2. Tuy nhiên phương pháp này đòi hỏi thêm một giả định là hai độ lệch chuẩn thực s1 và s2 là bằng nhau và bằng với giá trị chung s. Vì vậy phương pháp này đòi hỏi hai độ lệch chuẩn không quá khác nhau (tỉ số của chúng không lớn hơn 2).
Công thức của kiểm định t cũng tương tự như kiểm định z nhưng chỉ khác ở công thức của sai số chuẩn:
Trong công thức trên s là ước lượng của độ lệch chuẩn chung s và được gọi là độ lệch chuẩn gộp (pooled standard deviation) và trung bình của hai độ lệch chuẩn s1 và s2 với hệ số là mẫu số trong công thức tính độ lệch chuẩn.
Ðể kiểm định ý nghĩa thống kê người ta tính giá trị t
rồi tính P(|t|>to) bằng cách sử dụng các phần mềm máy tính hay tra bảng phân phối student với (n1+n2-2) độ tự do. Trong trường hợp này người ta gọi đây là test t không bắt cặp.
Ðể tính khoảng tin cậy của hiệu số (m1 - m2) bằng thống kê t ta sử dụng công thức:
giá trị t ở đây cũng được tra từ bảng phân phối student.
9. So sánh kiểm định z và kiểm định t
Kiểm định z và kiểm định t hoàn toàn tương đương trong thống kê các biến số định lượng. Như vậy chúng ta có thể sử dụng thống kê z hay t trong ước lượng khoảng tin cậy của trung bình, của hiệu số 2 trung bình, kiểm định ý nghĩa trong so sánh 2 trung bình ở thiết kế có bắt cặp và không bắt cặp. Chúng chỉ khác nhau về điều kiện áp dụng. Ðiều kiện áp dụng của thống kê z là cỡ mẫu đủ lớn (để trung bình mẫu có phân phối bình thường và độ lệch chuẩn mẫu gần bằng độ lệch chuẩn dân số). Ðiều kiện áp dụng thống kê t là phân phối của các giá trị phải xấp xỉ bình thường (trong trường hợp so sánh 2 mẫu nó cần thêm điều kiện là hai độ lệch chuẩn của 2 mẫu không quá khác nhau).
Khi chúng ta không thể áp dụng thống kê z hay thống kê t, thí dụ như khi cỡ mẫu nhỏ và phân phối không bình thường hoặc hai phương sai không đồng nhất ta cần phải sử dụng các phép kiểm phi tham số.
5. Khoảng tin cậy của hiệu số hai trung bình
Sử dụng lập luận chúng ta đã trình bày cho việc tính các khoảng tin cậy của trung bình và tỉ lệ đơn, chúng ta sẽ có các công thức khoảng tin cậy 95% của hiệu số (m1 - m2) tuỳ theo các giả định:
a. Giả định phương sai 2 nhóm bằng nhau
Ðể tính khoảng tin cậy của hiệu số (m1 - m2) bằng thống kê t ta sử dụng công thức:
với tc là giá trị tới hạn của phân phối t ở n1+n2- 2 độ tự do
với
b. Giả định phương sai 2 nhóm không bằng nhau
Khoảng tin cậy của hiệu số (m1 - m2) khi phương sai của 2 nhóm không bằng nhau được tính theo công thức:
với tc là giá trị tới hạn của phân phối t với độ tự do
Khi cỡ mẫu đủ lớn chúng ta không cần phải tính độ tự do (bởi vì độ tự do cũng khá lớn) mà chỉ cần áp dụng giá trị tới hạn của z thay cho giá trị tới hạn của t.
Áp dụng trong nghiên cứu về can thiệp dinh dưỡng lên khả năng hoạt động thể lực, khoảng tin cậy 95% của VO2max là:
Khoảng tin cậy 95% trên có ý nghĩa: Xác suất hiệu số của trung bình tốc độ oxy tối đa các nam thanh niên can thiệp dinh dưỡng bằng Atole và nhóm can thiệp bằng Fresco nằm trong khoảng 0,38 đến 0,61 lít/phút là 95%.
Bài tập
1. Mẫu gồm 143 trẻ gái và 127 trẻ trai tuổi từ 1-4 tuổi được chọn từ ngẫu nhiên từ một dân số nông thôn. Mức Hemoglobin (Hb) tính bằng g/dL của mỗi đứa trẻ được đo lường và cho kết quả sau:
Giới tính
n
Hemoglobin (g/dL)
Trung bình mẫu
Ðộ lệch chuẩn
Nam
143
11,35
1,41
Nữ
127
11,01
1,32
a. Hiệu số quan sát của trung bình nồng độ Hb ở trẻ em nam và trẻ em nữ? Nếu không làm kiểm định thống kê, chúng ta có cho rằng có sự khác biệt về nồng độ Hb theo giới tính trong dân số này không?
b. Ước lượng sai số chuẩn của hiệu số của hai trung bình mẫu. Nó có ý nghĩa gì? Vẽ phác phân phối mẫu hiệu số của trung bình.
c. Sử dụng sai số chuẩn tính được để tính khoảng tin cậy 95% cho hiệu số thực sự giữa trẻ em nam và trẻ em nữ. Chúng ta có thể kết luận gì từ điều này?
d. nếu chúng ta muốn có sức mạnh của bằng chứng cho sự khác biệt giữa hai giới, chúng ta sẽ làm gì?
e. Tiến hành kiểm định ý nghĩa và tính giá trị p. Giả thuyết không là gì? Giá trị p được lí giải như thế nào?
f. Tính khoảng tin cậy 95% của Hb trung bình ở trẻ nam và trẻ nữ. Hai khoảng tin cậy này có trùng nhau không? Thảo luận.
g. Chúng ta có cần kiểm định t trong phân tích này hay không?
2. Trong một thử nghiệm cộng đồng sử dụng Ivermectin để điều trị nhiễm onchocercam, dân làng từ 5 tuổi trở lên được dùng Ivermectin hay viên placebo. Trước khi điều trị, thể tích hồng cầu đặc (packed cell volume - PCV) được đo và bằng nhau giữa hai nhóm. Sáu tháng sau khi điều trị, thể tích hồng cầu đặc được đo và số liệu của đàn ông từ 25-29 tuổi được trình bày trong bảng sau:
Ivermectin (n=16)
39 - 35 - 38 - 42 - 37 - 52 - 40 - 45 - 39 - 31 - 34 - 45 - 44 - 42 - 40 - 43
Placebo (n=14)
40 - 41 - 35 - 36 - 32 - 38 - 38 - 44 - 43 - 46 - 33 - 35 - 31 - 33
a. Tính trung bình và độ lệch chuẩn của PCV ở 2 nhóm. Hiệu số quan sát giữa trung bình PCV ở hai nhóm. Nếu không làm kiểm định thống kê, chúng ta có cho rằng có sự khác biệt về PCV ở hai nhóm can thiệp và placebo hay không?
b. Kiểm định ý nghĩa nào cần thiết để đánh giá hiệu số giữa hai trung bình?
c. Ðiều kiện để kiểm định này có giá trị là gì? Ðiều kiện đó có thoả trong trường hợp này hay không?
d. Kiểm định thống kê và tính giá trị p. Lí giải giá trị p.
e. Tính khoảng tin cậy 95% của hiệu số PCV trung bình giữa nhóm ivermectin và nhóm placebo.
f. Từ số liệu này chúng ta có thể rút ra kết luận gì?
3. Người ta đếm số lượng cung quăng trong một 100 ml nước của một hồ nước trong bảy ngày liên tiếp ở tháng mười và trong 10 ngày liên tiếp ở tháng mười một. Kết quả được trình bày ở bảng sau:
Tháng mười
25 41 10 22 7 36 14
Tháng mười một
7 3 9 5 2 2 3 13 5 10
a. Tính trung bình và độ lệch chuẩn của số lượng lăng quăng bắt trong mỗi tháng
b. Kiểm định t có thích hợp để so sánh sự khác biệt giữa hai tháng hay không?
c. Lấy logarithm của số lượng cung quăng, lúc đó kiểm định t có thích hợp không? nếu có tiến hành kiểm định và lí giải kết quả.
d. tính khoảng tin cậy của hiệu số trung bình (vẫn sử dụng thang đo log)
e. Lấy antilog của hiệu số quan sát của trung bình của log, lí giải ý nghĩa của số đó. Lấy antilog của k
4. Một bệnh viện so sánh nằm viện trung bình của hai nhóm bệnh nhân: nhóm 1 bao gồm các bệnh nhân được các bác sĩ (chưa được đạo tạo sau đại học) điều trị và một nhóm 2 được các bác sĩ đã có bằng sau đại học điều trị. Kết quả như sau:
n1 = 1820; `x1 = 12,6; s1= 1
n2 = 1250; `x2 = 12,3; s2= 3
Kiểm định nào được sử dụng để so sánh thời gian nằm viện trung bình của hai nhóm bệnh nhân.
Kiểm định thống kê và tính giá trị của p. Lí giải giá trị của p
Từ số liệu này chúng ta có thể rút ra kết luận gì?
MỘT SỐ NHỮNG PHÂN PHỐI LẤY MẪU QUAN TRỌNG.
Mục tiêu
Sau khi nghiên cứu chủ đề, học viên có khả năng:
- Phân biệt được sự khác biệt của phân phối xác suất của giá trị cá thể và phân phối xác suất của các ước lượng lấy mẫu
- Trình bày được công thức tính phân phối xác suất của trung bình mẫu, hiệu số trung bình mẫu, tỉ lệ và hiệu số tỉ lệ của mẫu.
1. Lấy mẫu ngẫu nhiên đơn
Mẫu xác suất là mẫu rút từ dân số theo cách sao cho mọi phần tử trong dân số đều có một xác suất được đưa vào mẫu.
Mẫu có cỡ mẫu n được rút từ trong dân số có N phần tử sao cho mọi cách lấy mẫu cỡ n đều có một xác suất lựa chọn như nhau, mẫu đó được gọi là mẫu ngẫu nhiên đơn.
Phương pháp lẫy mẫu còn được chia theo 2 loại: phương pháp lấy mẫu có hoàn lại và lấy mẫu không hoàn lại. Trong phương pháp lấy mẫu hoàn lại,một phần tử sau khi được rút chọn để đưa vào mẫu vẫn có khả năng được rút chọn thêm - như vậy, một phần tử có thể làm đại diện cho dân số 1, 2, 3 hay nhiều hơn lần. Trong phương pháp lấy mẫu không hoàn lại, những phần tử được rút chọn rồi sẽ không được chọn một lần nữa. Do đó một phần tử có thể được đưa vào mẫu tối đa 1 lần.
Thí dụ: Giả sử trong một dân số gồm mẫu đường huyết lúc đói của 150 đối tượng. Hãy dùng phương pháp rút chọn ngẫu nhiên đơn để chọn ra một mẫu ngẫu nhiên có cỡ mẫu bằng 10. Tính đường huyết trung bình trong mẫu đó.
2.Phân phối lấy mẫu
Phân phối của tất cả các giá trị (trung bình) được tính từ các mẫu ngẫu nhiên có cỡ mẫu bằng nhau được gọi là phân phối lấy mẫu (của trung bình).
- Ngoài tính giá trị trung bình, người ta có thể tính các giá trị khác như độ lệch chuẩn, tỉ lệ v.v.
- Nếu dân số là hữu hạn ta có thể tìm được tất cả các mẫu cỡ n có thể có và sau đó tính phân phối. Nhưng nếu dân số là vô hạn hay có kích thước lớn thì không thể liệt kê tất cả các mẫu, chỉ có thể nghiên cứu phân phối trên một số lớn những mẫu mà thôi.
3. Phân phối của trung bình của mẫu
Thí dụ:Giả sử chúng ta có một dân số có cỡ mẫu N = 5, bao gồm tuổi của năm đứa trẻ là bệnh nhân ngoại trú của một trung tâm sức khỏe tâm thần. Tuổi các đứa trẻ là như sau: x1 = 6, x2 = 8, x3 = 10, x4 = 12, x5 = 14. Tuổi trung bình của dân số này là Sxi /N = 10 và có phương sai s2 = 8.
Nếu chúng ta chọn mẫu có hoàn lại, có thể có đến 25 mẫu. Sau đó ta có thể xây dựng phân phối lấy mẫu của `x bằng cách liệt kê tất cả các giá trị của `x ở một cột và tần suất xuất hiện ở cột kia.
Và khi đó chúng ta có thể tính được trung bình của `x
m`x = 250 / 25 = 10
và s2 = 4
Ðịnh lí giới hạn trung tâm: Cho một dân số với bất kì hình dnạg phân phối nào với trung bình là m và phương sai là s2 , phân phối lấy mẫu của `x, tính từ mẫu cỡ n của dân số này sẽ có phân phối xấp xỉ bình thường với trung bình là m và phương sai là s2/n, khi cỡ mẫu lớn (cỡ mẫu ³ 30).
- Lưu ý:
. Khi các giá trị của phân phối đã là phân phối xấp xỉ bình thường thì định lí trên đúng, không cần điều kiện cỡ mẫu lớn.
. khi mẫu cỡ n là mẫu không hoàn lại từ một dân số hữu hạn, phân phối lấy mẫu của `x, tính từ mẫu cỡ n của dân số này sẽ có phân phối xấp xỉ bình thường với trung bình là (và phương sai là [(N-n)/(N-1)]s2/n, khi cỡ mẫu lớn (cỡ mẫu ³ 30). Hệ số (N-n)/(N-1) được gọi là hệ số hiệu chỉnh dân số hữu hạn. Thông thường người ta không quan tâm đến hệ số này trừ khi cỡ mẫu lớn hơn 5% quy mô của dân số.
4. Ứng dụng
Nếu chúng ta biết chiều dài xương sọ là phân phối xấp xỉ bình thường với trung bình là 185,6 mm và độ lệch chuẩn 12,7 mm. Tính xác suất mẫu có cỡ mẫu 10 rút ra từ dân số này có trung bình lớn hơn 190.
Bài giải:
Phân phối lấy mẫu của trung bình của chiều dài xương sọ sẽ có phân phối xấp xỉ bình thường với trung bình là 185,6 mm và độ lệch chuẩn = 12.7/Ö10 = 4,02.
Giá trị chiều dài xương sọ 190 tương ứng với z = (190-185,6)/4,02 =1,09.
Từ bảng phân phối chuẩn, ta biết diện tích phần bên phải 1,09 là 0,1379 hay xác suất một mẫu có cỡ mẫu 10 có trung bình lớn hơn 190 là 0,1379.
5. Phân phối của hiệu số của hai trung bình mẫu
Thí dụ: Giả sử chúng ta có hai dân số - một dân số gồm những đứa trẻ bị suy dinh dưỡng lúc nhỏ và một dân số gồm những trẻ không bị suy dinh dưỡng. Phân phối của thương số thông minh của hai dân số này là xấp xỉ bình thường và có độ lệch chuẩn khoảng 20. Nếu chúng ta lấy một mẫu gồm 15 người trong mỗi dân số và tính thương số thôngminh của mỗi nhóm có kết quả như sau `x1 = 92, `x2 = 105. Nếu không có sự khác biệt về trí thông minh giữa hai nhóm trẻ em. Tính xác suất có thể quan sát được sự khác biệt này hoặc khác biệt nhiều hơn của hiệu số (`x1 -`x2 ) giữa hai trung bình mẫu.
Áp dụng công thức:
Ta tính được z = -1,78
Do đó nếu không có sự khác biệt về trung bình dân số, xác suất có được sự khác biệt giữa trung bình dân số ³ 13 là 0,0375.
6. Phân phối của tỉ lệ của mẫu
Thí dụ: Nếu chúng ta biết trong dân số tỉ lệ mù màu p là 0,08. Nếu chúng ta chọn ngẫu nhiên trong dân số 150 đối tượng , xác suất để tỉ lệ mù màu p lên đến 0,15.
Theo công thức:
Ta tính được z= 3,15. Tra bảng phân phối chuẩn ta có xác suất quan sát được p³ 0,08 là 0,0008. Do vậy tìm được một mẫu như vậy là một sự kiện hiếm.
7. Phân phối của hiệu số của hai tỉ lệ mẫu
Thí
Các file đính kèm theo tài liệu này:
- giao_trinh_thong_ke_y_hoc.doc