Bài giảng Thống kê học Ứng dụng trong quản lý xây dựng - Chương 2: Khám phá và tìm hiểu dữ liệu định lượng - Nguyễn Duy Long

Luôn cho biết độ sải (spread) cùng với trị trung tâm

khi mô tả phân phối bằng số.

 Khoảng (vùng) (range) của dữ liệu là sự khác nhau

giữa các giá trị lớn và nhỏ nhất:

Vùng (range) = max – min

 Bất lợi của khoảng là nếu có một giá trị cực hạn có

thể làm nó rất lớn và vì thế không đại diện cho dữ

liệu nói chung.

Khoảng tứ phân vị (interquartile range, IQR) bỏ qua các

giá trị cực hạn và tập trung vào vùng giữa của dữ liệu.

 Để tìm IQR, trước tiên tìm các điểm tứ phân vị

(quartiles), mà chia dữ liệu thành bốn đoạn bằng nhau.

◦ Điểm tứ phân vị dưới (lower quartile, Q1) là trung vị

của nửa dữ liệu nằm dưới trung vị.

◦ Điểm tứ phân vị trên (upper quartile, Q3) là trung vị

của nửa dữ liệu nằm trên trung vị.

◦ Nếu số điểm trong dữ liệu là chẵn, việc phân chia là

rõ ràng. Nếu số lẻ, tính trung vị trong cả hai nửa của

dữ liệu.

 Sự khác nhau giữa hai điểm tứ phân vị là IQR

IQR = điểm tứ phân vị trên – điểm tứ phân vị dưới

pdf36 trang | Chia sẻ: trungkhoi17 | Lượt xem: 408 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Thống kê học Ứng dụng trong quản lý xây dựng - Chương 2: Khám phá và tìm hiểu dữ liệu định lượng - Nguyễn Duy Long, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
9/7/2010 1 Phần 02 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1  Trình bày dữ liệu định lượng  Mô tả phân phối bằng số  Độ lệch chuẩn như thước đo và mô hình chuẩn ©2010, Nguyễn Duy Long, Tiến Sỹ 2 9/7/2010 2 3©2010, Nguyễn Duy Long, Tiến Sỹ  Tóm tắt dữ liệu giúp xem xét tập hợp các dữ liệu định lượng lớn. Nế khô ó ắ ẽ ấ khó để biế á dữ u ng t m t t, s r t t c c liệu cho chúng ta biết điều gì.  Không dùng biểu đồ bánh cho các biến định lượng. 4©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010 3 1997 1998 1999 2000 2001 Tháng 1 -$1.44 0.78 3.28 5.72 14.38 Tháng 2 -0.75 0.62 3.34 21.06 -1.08 Tháng 3 -0.69 2.44 -1.22 4.50 -10.11 Tháng 4 -0.88 -0.28 0.47 4.56 -12.11 Tháng 5 0.12 2.22 5.62 -1.25 5.84 Tháng 6 0.75 -0.50 -1.59 -1.19 -9.37 Tháng 7 0.81 2.06 4.31 -3.12 -4.74 Tháng 8 -1.75 -0.88 1.47 8.00 -2.69 ©2010, Nguyễn Duy Long, Tiến Sỹ 5 Tháng 9 0.69 -4.50 -0.72 9.31 -10.61 Tháng 10 -0.22 4.12 -0.38 1.12 -5.85 Tháng 11 -0.16 1.16 -3.25 -3.19 -17.16 Tháng 12 0.34 -0.50 0.03 -17.75 -11.59 (Nguồn: De Veaux et al., 2006)  Chia khoản giá trị của biến định lượng thành các cột có cùng chiều rộng, gọi là hộc (bins).  Các hộc và số đếm trong mỗi hộc cho ra phân phối của biến định lượng. Giá thay đổi hàng tháng của cổ hiế C E t há ng ©2010, Nguyễn Duy Long, Tiến Sỹ 6 p u ty nron: Thay đổi giá ($) Số 9/7/2010 4  Biểu đồ tần suất tương đối mô tả phần trăm của các trường hợp cho mỗi hộc thay vì số đếm. th án g Biểu đồ tần suất tương đối: Thay đổi giá hàng tháng của cổ phiếu Enron Thay đổi giá ($) % số t ©2010, Nguyễn Duy Long, Tiến Sỹ 7  Biểu đồ cành-và-lá (stem-and-leaf displays) biểu diễn phân phối của biến định lượng như biểu đồ tần suất, nhưng vẫn giữ các giá trị riêng rẽ.  Biểu đồ cành-và-lá: ◦ chứa tất cả thông tin có trong biểu đồ tần suất ◦ thỏa mãn nguyên lý diện tích, và ể ố◦ bi u thị sự phân ph i. ©2010, Nguyễn Duy Long, Tiến Sỹ 8 9/7/2010 5  Cắt giá trị dữ liệu thành các con số chủ đạo (cành) và các con số kéo theo (lá).  Dùng các cành để gán hộc.  Chỉ dùng một con số cho mỗi lá – hoặc làm tròn hoặc cắt các giá trị dữ liệu để có một vị trí thập phân phía sau cành. ©2010, Nguyễn Duy Long, Tiến Sỹ 9  Xây dựng biểu đồ cành và lá cho dữ liệu sau: ◦ Với hộc 10 triệu VNĐ ◦ Với hộc 5 triệu VNĐ Công trình Chi phí móng (triệu VNĐ) 01 33 02 35 03 50 04 41 05 48 06 33 07 45 ©2010, Nguyễn Duy Long, Tiến Sỹ 10 08 47 09 52 10 63 11 45 12 71 9/7/2010 6  So sánh biểu đồ tần suất và biểu đồ cành-và-lá hiển thị nhịp tim của 24 phụ nữ ở một trạm y tế. Sự hiển thị nào có nhiều thông tin hơn? Biểu đồ cành-và-lá: Nhịp tim của 24 phụ nữBiểu đồ tần xuất Tầ n su ất ©2010, Nguyễn Duy Long, Tiến Sỹ 11 T Nhịp tim (nhịp/phút)  Đồ thị điểm (dotplot) là một sự hiển thị đơn giản - chỉ đặt một dấu chấm an ch iến th ắn g (g iâ y)(dot) dọc một trục cho mỗi trường hợp trong dữ liệu.  Đồ thị điểm có thể biểu diễn theo phương ngang hoặc phương đứng. Th ời gi a Số cuộc đua  Thời gian chiến thắng của đua ngựa Kentucky Derby, 1875-2004 (hình bên) ©2010, Nguyễn Duy Long, Tiến Sỹ 12 Nguồn: 9/7/2010 7  Khi mô tả một phân phối, luôn nói về ba điều: hình dạng (shape), trung tâm (center), và sải (spread).  Hình dạng của phân phối là gì? ◦ Phân phối có một gò (hump) ở trung tâm hay có vài mỏm (bump) phân tán? ể đồ ầ ấ ó đố ? ©2010, Nguyễn Duy Long, Tiến Sỹ 13 ◦ Bi u t n su t c i xứng ◦ Có các đặc điểm bất thường lộ ra không?  Câu hỏi 1: Phân phối có một gò (hump) ở trung tâm hay có vài mỏm (bump) phân tán? ◦ Gò trên biểu đồ tần suất gọi là mốt (mode). ◦ Biểu đồ tần suất có một đỉnh gọi là một mốt (unimodal), hai đỉnh gọi là hai mốt (bimodal), và ba đỉnh trở lên gọi là nhiều (đa) mốt (multimodal). ©2010, Nguyễn Duy Long, Tiến Sỹ 14 9/7/2010 8  Biểu đồ tần suất hai mốt có hai đỉnh: ượ ng số đế m ©2010, Nguyễn Duy Long, Tiến Sỹ 15 L  Tần suất đều (uniform): Biểu đồ tần suất dường như không có mốt và tất cả các thanh có chiều cao ầg n như nhau: ợn g số đế m ©2010, Nguyễn Duy Long, Tiến Sỹ 16 Lư ợ 9/7/2010 9  Câu hỏi 2: Biểu đồ tần suất có đối xứng? ấG p dọc đường đứt ©2010, Nguyễn Duy Long, Tiến Sỹ 17 Biểu đồ tần suất đối xứng có thể gấp ở giữa sao cho hai bên gần như trùng nhau ◦ Các đầu mỏng hơn của phân phối gọi là đuôi (tails). Nếu một đuôi trải xa hơn đuôi còn lại, biểu đồ tần suất là lệch (skewed) về phía có đuôi dài hơn. ◦ Biểu đồ tần suất màu xanh bên dưới gọi là lệch trái (skewed left), biểu đồ màu hồng là lệch phải (skewed right). tim tim ©2010, Nguyễn Duy Long, Tiến Sỹ 18 Tuổi Số nữ bệ nh Số nữ bệ nh Lệ phí ($) 9/7/2010 10  Câu hỏi 3: Có các đặc điểm bất thường lộ ra không? ◦ Thỉnh thoảng những đặc điểm bất thường cho ta biết có gì đó lý thú về dữ liệu ◦ Luôn đề cập đến các giá trị ngoại lệ (outliers) mà nó đứng tách ra trong phần thân của phân phối ◦ Có các chỗ gián đoạn (gap) trong phân phối? Nếu vậy, dữ liệu có thể có từ hơn một nhóm. ©2010, Nguyễn Duy Long, Tiến Sỹ 19  Biểu đồ tần suất sau đây có giá các trị ngoài lệ. Có ba thành phố ở thanh xa nhất bên trái.  Theo bạn điều gì đang xảy ra? , Số nhân khẩu trong một hộ ở các thành phố được chọn lựa àn h ph ố ©2010, Nguyễn Duy Long, Tiến Sỹ 20 Nhân khẩu/hộ Số th à 9/7/2010 11  Nếu bạn phải lấy một số để mô tả tất cả dữ liệu, bạn sẽ lấy số gì? Dễ dà để tì t tâ khi biể đồ tầ ất là ng m rung m u n su một mốt và đối xứng – nó ngay ở giữa.  Ngược lại, sẽ rất khó để tìm trung tâm nếu biểu đồ tần suất là bị lệch hoặc có hai hay nhiều mốt.  Đến đây ta chỉ cần chỉ ra trung tâm của phân phối băng mắt thường. ©2010, Nguyễn Duy Long, Tiến Sỹ 21  Vấn đề ở sự biến đổi (thống kê học là về sự biến đổi).  Các giá trị của phân phối là gom lại xung quanh trung tâm hay sải ra?  Các phần tiếp theo ta nói về sải ©2010, Nguyễn Duy Long, Tiến Sỹ 22 9/7/2010 12  Thường ta muốn so sánh hai hay nhiều phân phối với nhau thay vì chỉ xem một phân phối.  Khi xem xét hai phân phối, điều quan trọng là các biểu đồ tần suất có cùng tỷ lệ.  Khi so sánh các phân phối, chúng ta nói về hình dạng, trung tâm, và sải của các phân phối. ©2010, Nguyễn Duy Long, Tiến Sỹ 23  So sánh hai biểu đồ bên: hân nữ ◦ Chúng có gì chung? ◦ Chúng khác nhau ra sao? Các phân phối của bệnh nhân nữ và nam bị nhồi á i Tuổi Số bệ nh nh ân na m m u cơ t m: ©2010, Nguyễn Duy Long, Tiến Sỹ 24 Tuổi Số bệ nh nh â 9/7/2010 13  Với một số tập dữ liệu, chúng ta quan tâm đến dữ liệu cư xử thế nào theo thời gian – vẽ biểu đồ thời gian (time-plots) cho dữ liệu . ◦ Cổ phiểu của Enron như thế nào theo thời gian? Thay đổi về giá của cổ phiếu Enron, 1997-2002 về gi á ($ ) ©2010, Nguyễn Duy Long, Tiến Sỹ 25 Năm Th ay đổ i  Biểu đồ số người mắc bệnh và tử vong do cúm A/H1N1: ©2010, Nguyễn Duy Long, Tiến Sỹ 26 Nguồn: Báo Tuổi Trẻ, 28/09/2009 9/7/2010 14 ©2010, Nguyễn Duy Long, Tiến Sỹ 27  Để đo trung tâm, khoảng giữa (midrange, trị trung bình của các giá trị nhỏ và lớn nhất) là rất nhạy với ốcác phân ph i lệch hoặc giá trị ngoại lệ.  Trung vị (median) là lựa chọn hợp lý cho trung tâm hơn là khoảng giữa 28©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010 15  Trung vị là giá trị mà một nửa các giá trị của dữ liệu nhỏ hơn nó và một nửa lớn hơn nó. ◦ Đó là giá trị giữa của dữ liệu khi sắp xếp theo thứ tự và chia biểu đồ tần suất ra hai phần có diện tích bằng nhau. ◦ Với số điểm dữ liệu là chẵn, lấy trung bình hai số ở giữa: Tuổi thọ của các nước thành viên của Liên Hiệp Quốc (2001) Số nư ớc  median(2,4,6,7,8,9) =6.5 Tuổi thọ S ©2010, Nguyễn Duy Long, Tiến Sỹ 29  Luôn cho biết độ sải (spread) cùng với trị trung tâm khi mô tả phân phối bằng số.  Khoảng (vùng) (range) của dữ liệu là sự khác nhau giữa các giá trị lớn và nhỏ nhất: Vùng (range) = max – min  Bất lợi của khoảng là nếu có một giá trị cực hạn có thể làm nó rất lớn và vì thế không đại diện cho dữ liệu nói chung. ©2010, Nguyễn Duy Long, Tiến Sỹ 30 9/7/2010 16  Khoảng tứ phân vị (interquartile range, IQR) bỏ qua các giá trị cực hạn và tập trung vào vùng giữa của dữ liệu.  Để tìm IQR trước tiên tìm các điểm tứ phân vị, (quartiles), mà chia dữ liệu thành bốn đoạn bằng nhau. ◦ Điểm tứ phân vị dưới (lower quartile, Q1) là trung vị của nửa dữ liệu nằm dưới trung vị. ◦ Điểm tứ phân vị trên (upper quartile, Q3) là trung vị của nửa dữ liệu nằm trên trung vị.. ◦ Nếu số điểm trong dữ liệu là chẵn, việc phân chia là rõ ràng. Nếu số lẻ, tính trung vị trong cả hai nửa của dữ liệu.  Sự khác nhau giữa hai điểm tứ phân vị là IQR IQR = điểm tứ phân vị trên – điểm tứ phân vị dưới ©2010, Nguyễn Duy Long, Tiến Sỹ 31  Điểm tứ phân vị dưới và trên là các phân vị (percentiles) thứ 25 và 75 của dữ liệu. IQR hứ 50% iá t ị ở iữ ủ hâ hối c a g r g a c a p n p “Tóm tắt năm số” về tuổi thọ: max = 73.6 Q3 = 62.65 Median = 57.7 Q1 = 48.9 Tuổi thọ của các nước thành viên của Liên Hiệp Quốc (2001) Số nư ớc min = 26.5 ©2010, Nguyễn Duy Long, Tiến Sỹ Tuổi thọ S năm 32 9/7/2010 17  Tóm tắt năm số (five- number summary) của ố ế ề Chết tại các buổi diễn nhạc Rock, 1999-2000 ết phân ph i cho bi t v trung vị, hai điểm tứ phân vị, và các giá trị cực hạn (maximum and minimum). ◦ Ví dụ: Tóm tắt năm số về tuổi lúc mất của 66 người Max 47 năm Q3 22 Số lư ợn g ch xem các buổi diễn nhạc rock do chen lấn như bên phải ©2010, Nguyễn Duy Long, Tiến Sỹ Median 19 Q1 17 Min 13 33  Biểu đồ hộp (boxplot) là biểu thị đồ họa về tóm tắt năm số*.  Biểu đồ hộp đặc biệt hữu ích khi so sánh các nhóm (groups). * Và một số thông tin khác, ví dụ là các giá trị ngoại lệ (outliers) ©2010, Nguyễn Duy Long, Tiến Sỹ 34 9/7/2010 18 1. Vẽ một trục bao hàm khoảng giá trị của dữ liệu • Vẽ ba đường ngang ngắn tại Q1, Q3, và trung vị. • Nối chúng lại bằng các đường đứng để hình thành một hộp (box). ©2010, Nguyễn Duy Long, Tiến Sỹ 35 2. Dựng “hàng rào” xung quyanh phần chính của dữ liệu. ◦ Hàng rào trên là 1.5xIQR trên Q3. ◦ Hàng rào dưới là 1.5xIQR dưới Q1. ©2010, Nguyễn Duy Long, Tiến Sỹ 36 9/7/2010 19 3. Dùng hàng rào để phát triển “đuôi” ◦ Vẽ các đường từ các đầu của hộp lên và xuống đến các giá trị dữ liệu cực hạn trong hàng rào. ◦ Nếu một giá trị dữ liệu nằm ngoài các hàng rào, đừng nối nó để trở thành đuôi. ©2010, Nguyễn Duy Long, Tiến Sỹ 37 4. Thêm các giá trị ngoại lệ nằm ngoài hàng rào bằng các ký hiệu khác. ©2010, Nguyễn Duy Long, Tiến Sỹ 38 9/7/2010 20  So sánh biểu đồ tần suất và biểu đồ hộp Chết tại các buổi diễn nhạc Rock, 1999-2000 Số lư ợn g ch ết  Biểu đồ trên biểu thị dữ liệu như thế nào? ©2010, Nguyễn Duy Long, Tiến Sỹ Tuổi 39  Biểu đồ hộp so sánh hiệu quả của các bình chứa cà phê: Thay đổi nhiệt độ theo các nhãn hiệu của bình chứa cà phê đổ iv ền hi ệt độ (o F ) ©2010, Nguyễn Duy Long, Tiến Sỹ Ta hy Bình chứa 40 9/7/2010 21  Trung vị là rất tốt để xác định trung tâm của các phân phối lệch.  Khi dữ liệu đối xứng, trị trung bình (mean) xác định trung tâm tốt.  Tìm trị trung bình: n yi ©2010, Nguyễn Duy Long, Tiến Sỹ n iy  1 41  Phân phối về nhịp tim của 52 người lớn này đối xứng, với trị trung bình 72.7 (nhịp/phút) và trung vị là 73 (nhịp/phút): Nhịp tim của 52 người lớn gư ời lớn nhịp/phút Slide 5- 42©2010, Nguyễn Duy Long, Tiến Sỹ Số n Nhịp tim (nhịp/phút) 9/7/2010 22  Bất kể hình dạng của phân phối trị Tuổi thọ của các nước thành viên của Liên Hiệp Quốc (2001) , trung bình là điểm mà biểu đồ tần suất cân bằng: Sốn ướ c ©2010, Nguyễn Duy Long, Tiến Sỹ Tuổi thọ Điểm cân bằng 43  Phân phối đối xứng có giá trị trung bình và trung vị gần nhau, nên có thể dùng trị bất cứ trị nào để chỉ âtrung t m.  Với phân phối lệch nhiều thì dùng trung vị để xác định trung tâm. ©2010, Nguyễn Duy Long, Tiến Sỹ 44 9/7/2010 23  Độ lệch chuẩn (standard deviation) đo lường sải (spread) tốt hơn IQR, bằng cách xem xét mỗi giá trị dự liệu cách trị trung bình bao xa.  Độ lệch (deviation) là khoảng cách từ một giá trị dữ liệu đến trị trung bình. ©2010, Nguyễn Duy Long, Tiến Sỹ 45  Phương sai (variance), với ký hiệu s2:  2  Vấn đề của phương sai khi đo lường sải là được đo lường theo bình phương đơn vị đo của dữ liệu ban đầu. 2 1 ii y y s n   ©2010, Nguyễn Duy Long, Tiến Sỹ 46 9/7/2010 24  Độ lệch chuẩn (standard deviation), s, (hay SD):  2 1 ii y y s n    ©2010, Nguyễn Duy Long, Tiến Sỹ 47  Vì thống kê học là về sự biến đổi (variation), sải là một khái niệm quan trọng của thống kê học. Đ độ ải iú hú t bà ề hữ ái hú t o s g p c ng a n v n ng c c ng a không biết.  Khi các giá trị dữ liệu cụm lại xung quyanh trung tâm của phân phối, IQR và SD là nhỏ.  Khi các giá trị dữ liệu phân tán xa trung tâm của phân phối, IQR và SD sẽ lớn. ©2010, Nguyễn Duy Long, Tiến Sỹ 48 9/7/2010 25  Khi mô tả biến định lượng, luôn cho biết về hình dạng phân phối của nó, cùng với trung tâm và sải. ◦ Nếu hình dạng bị lệch, cho biết trung vị và khoảng tứ phân vị. ◦ Nếu hình dạng đối xứng, cho biết trị trung bình và độ lệch chuẩn và có thể cả trung vị và khoảng tứ trung vị. ©2010, Nguyễn Duy Long, Tiến Sỹ 49  Nếu có các trị ngoại lề rõ ràng mà cho biết về trị trung bình và độ lệch chuẩn thì cho biết chúng khi có trị ngoại lệ và không có trị ngoại lệ. Sự khác nhau có thể bộc lộ.  Chú ý: Trung vị và khoảng tứ trung vị ít khả năng bị ảnh hưởng bởi các trị ngoại lệ như trị trung bình và độ lệch chuẩn. ©2010, Nguyễn Duy Long, Tiến Sỹ 50 9/7/2010 26 Mô tả dữ liệu bằng số Hình dạng Đối xứng hay lệch Trung tâm Trung bình Sải Khoảng tứ trung vị ©2010, Nguyễn Duy Long, Tiến Sỹ 51 Trị ngoại lệ Trung vị Khoảng giữa Khoảng Độ lệch chuẩn  Mô tả dữ liệu phân phối ra sao  Đối xứng hay lệch Lệch phảiLệch trái Đối xứng Mean=Median= ModeMean<Median<Mode Mode<Median<Mean 52©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010 27  Đo lường sự biến đổi mô tả về sải hay biến thiên của các giá trị dữ liệu. Cùng trung tâm, Sự biến đổi khác nhau 53©2010, Nguyễn Duy Long, Tiến Sỹ ©2010, Nguyễn Duy Long, Tiến Sỹ 54 9/7/2010 28  Độ lệch chuẩn như là thước đo để so sánh các giá trị trông khác nhau.  Độ lệch chuẩn cho ta biết sự tập hợp (collection) của các giá trị thay đổi ra sao – là thước đo để so sánh giá trị riêng rẻ với một nhóm.  Độ lệch chuẩn là trị đo thường dùng của sự biến đổi, và đóng vai trò quan trọng việc chúng ta nhìn vào dữ liệu như thế nào. ©2010, Nguyễn Duy Long, Tiến Sỹ 55  Điểm z (z-score): Khi so sánh một giá trị đơn lẻ với trung vị, sự tương đối với độ lệch chuẩn:  Gọi kết quả là trị được chuẩn hóa (standardized values), ký hiệu z hay điểm z (z-scores).  y yz s  ©2010, Nguyễn Duy Long, Tiến Sỹ 56 9/7/2010 29  Cộng (hay trừ) một lượng không đổi vào mỗi giá trị chỉ cộng (hay trừ) lượng đó vào trị trung bình. Điề đó ũ đú h t ị à á t ị đ ề ị u c ng ng c o rung v v c c r o v v trí khác.  Thêm một hằng số vào mỗi giá trị dữ liệu sẽ thêm hằng số đó vào các trị đo về trung tâm và các phân vị nhưng các trị đo về sải không đổi. ©2010, Nguyễn Duy Long, Tiến Sỹ 57  Biểu đồ tần suất (và hộp) chỉ sự dịch chuyển từ cân nặng của đàn ông sang số cân trên cân nặng được ếkhuy n nghị: Số đà n ôn g Số đà n ôn g ©2010, Nguyễn Duy Long, Tiến Sỹ Cân nặng (kg) Số cân (kg) trên cân nặng khuyến nghị) 58 9/7/2010 30  Khi nhân (hay chia) tất cả các giá trị dữ liệu bởi một giá trị không đổi, các trị sau đây được nhân (hay chia) bởi giá trị không đổi đó ◦ các giá trị riêng lẻ (max, min), ◦ trị đo về trung tâm (trung bình và trung vị) và ◦ trị đo về sải ( khoảng, khoảng tứ trung vị, độ lệch chuẩn) ©2010, Nguyễn Duy Long, Tiến Sỹ 59  Dữ liệu về cân nặng của đàn ông đo lường bằng kg. Nếu đổi qua cân Anh (lb), chúng ta sẽ thay đổi tỷ lệ (rescale) dữ liệu: đà n ôn g ốđ àn ôn g ©2010, Nguyễn Duy Long, Tiến Sỹ Cân nặng (kg) Số Cân nặng (lb) S 60 9/7/2010 31  Chuẩn hóa dữ liệu thành điểm z dịch chuyển (shift) dữ liệu bằng cách trừ trị trung bình và thay đổi tỷ lệ ằ(rescale) các giá trị b ng cách chia cho độ lệch chuẩn. ◦ Chuẩn hóa thành điểm z không thay đổi hình dạng (shape) của phân phối. ◦ Chuẩn hóa thành điểm z thay đổi trung tâm (center) với trị trung bình bằng 0. ◦ Chuẩn hóa thành điểm z thay đổi sải (spread) với độ lệch chuẩn bằng 1. ©2010, Nguyễn Duy Long, Tiến Sỹ 61  Điểm z chỉ ra một giá trị bất thường thế nào bởi vì nó cho biết giá trị đó cách trung bình bao xa.  Dùng điểm z với một mô hình (model) thường gặp trong thống kê học: mô hình chuẩn (Normal model) ©2010, Nguyễn Duy Long, Tiến Sỹ 62 9/7/2010 32  Mô hình chuẩn thường thích hợp cho các phân phối có hình dạng một mốt và khá đối xứng - hình chuông (bell shaped).  N(μ,σ) thể hiện mô hình chuẩn với trị trung bình bằng μ độ lệch là σ.  Dùng chữ cái Hy Lạp vì trị trung bình và độ lệch này không phải từ dữ liệu và chúng từ các thông số (parameters) của mô hình.  Các tóm tắt của dữ liệu, như trị trung bình và độẩ ẫlệch chu n của m u dùng chữ cái La Tinh. Các tóm tắt đó gọi là trị số thống kê (statistics). ©2010, Nguyễn Duy Long, Tiến Sỹ 63  Khi chuẩn hóa các dữ liệu chuẩn (Normal), giá trị được chuẩn hóa là điểm z (z-score):  Một khi chuẩn hóa, chỉ cần một mô hình: ◦ Mô hình N(0,1) gọi là mô hình chuẩn (chính) tắc (standard Normal model hay standard Normal distribution). yz    Không dùng mô hình chuẩn cho bất cứ tập dữ liệu nào, vì việc chuẩn hóa không thay đổi hình dạng của phân phối ©2010, Nguyễn Duy Long, Tiến Sỹ 64 9/7/2010 33  Khi dùng mô hình chuẩn, ta đang giả định phân phối là chuẩn.  Vì không thể kiểm tra giả định này trong thực tế, kiểm tra điều kiện sau: ◦ Điều kiện gần chuẩn (Nearly Normal Condition): Hình dạng của phân phối dữ liệu là một mốt và đối xứng. ©2010, Nguyễn Duy Long, Tiến Sỹ 65  Các mô hình chuẩn cho ta biết mức cực hạn của một giá trị bằng cách cho biết khả năng để tìm một giá trị cách xa trị trung bình.  Có thể tìm số này một cách chính xác ở các chương sau, bay giờ có thể dùng một qui tắc đơn giản mà cho ta biết rất nhiều về mô hình chuẩn  Với mô hình chuẩn: ◦ Khoảng 68% các giá trị nằm trong một khoảng độ lệch chuẩn của trị trung bình; h ả 9 % á á ằ h kh ả đ l h h ẩ◦ K o ng 5 c c gi trị n m trong ai o ng ộ ệc c u n của trị trung bình; và, ◦ Khoảng 99.7% các giá trị nằm trong ba khoảng độ lệch chuẩn của trị trung bình. ©2010, Nguyễn Duy Long, Tiến Sỹ 66 9/7/2010 34  Hình sao biểu thị qui tắc 68-95-99.7. ©2010, Nguyễn Duy Long, Tiến Sỹ 67  Bảng Z trong phụ lục E (tr. A56-57) là bảng cho mô hình chuẩn tắc. Ví dụ với z 1 80: = . ◦ Bao nhiêu phần trăm dữ liệu đã được chuẩn hóa dưới điểm z = 1.80 này? ©2010, Nguyễn Duy Long, Tiến Sỹ 68 9/7/2010 35  MS Excel có hàm kiểm nghiệm z một phía (one-sided z-test):  Có thể tìm phân phối cho một điểm z với hàm Normsdist(z) ◦ Ví dụ: Normsdist(1.8) = 0.9641: giá trị chuẩn hóa của dữ liệu dưới điểm z bằng 1.8 khoảng 96.41%. Có thể tì điể h ột á ất à m m z c o m x c su n o đó với hàm Normsinv(p) ◦ Ví dụ: Normsinv(.9641) = 1.8 ©2010, Nguyễn Duy Long, Tiến Sỹ 69  Tìm z hay giá trị dữ liệu ban đầu với một diện tích đã cho.  Ví dụ: tìm điểm z cho điểm tứ phân vị thứ nhất trong mô hình chuẩn? ©2010, Nguyễn Duy Long, Tiến Sỹ Độ lệch chuẩn 70 9/7/2010 36  Dùng bảng Z theo cách khác: ©2010, Nguyễn Duy Long, Tiến Sỹ 71 ©2010, Nguyễn Duy Long, Tiến Sỹ 72

Các file đính kèm theo tài liệu này:

  • pdfgiao_trinh_thong_ke_hoc_ung_dung_trong_quan_ly_xay_dung_chuo.pdf
Tài liệu liên quan