Bài giảng Phân tích dữ liệu bằng công cụ trực qua (Bản hay)

Dàn bài

 Giới thiệu

 Trường hợp dữ liệu một chiều

 Trường hợp dữ liệu 2 hoặc 3 chiều

 Trường hợp dữ liệu có > 3 chiều18

Trường hợp dữ liệu 2 hoặc 3

chiều

 Các phương pháp

◦ Scatter

◦ Bivariate Histogram19

Scatter

 Trên hệ trục Cartesian vẽ các điểm tương ứng

với từng điểm dữ liệu

 Đây là phương pháp đơn giản nhất cho việc

quan sát phân bố tập dữ liệu

 Ví dụ:

◦ scatter2D.m

◦ scatter3D.m

pdf27 trang | Chia sẻ: trungkhoi17 | Lượt xem: 505 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Phân tích dữ liệu bằng công cụ trực qua (Bản hay), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PhânPhân tt ííchch dd lili uu bb ngng côngcông cc trtr cc quanquan 1 Dàn bài  Gi i thi u  Tr ng h p d li u m t chi u  Tr ng h p d li u 2 ho c 3 chi u  Tr ng h p d li u có > 3 chi u 2 Gi i thi u  2 m c tiêu quan tr ng c a phân tích d li u ◦ Xác nh mô hình h p lý c a quá trình phát sinh d li u ◦ Xác nh d li u nhi u (outlier) trong t p m u  Trong ph n này xem xét k thu t s dng các công c tr c quan 3 Dàn bài  Gi i thi u  Tr ưng h p d li u m t chi u  Tr ng h p d li u 2 ho c 3 chi u  Tr ng h p d li u có > 3 chi u 4 Tr ng h p d li u m t chi u  Các ph ơ ng pháp ◦ Histogram ◦ Quantile plot ◦ Box plot 5 Histogram  Chia tr c x thành các ‘bin’ có rng h nh nhau b t u t x0 [x 0,x 0+h), [x 0+h,x 0+2h),, [x 0+n.h,x 0+(n+1)h),  Gi v k là sm r ơi vào bin th k, t c là [x 0+(k-1)h,x 0+k.h)  Gi n là sng im trong t p d li u 6 Histogram (tt)  Frequency histogram: ˆ = ∈+− + fx() vk , x [ x0 (1), k hx 0 kh .)  Relative frequency histogram: v fxˆ()=k , xx ∈+− [ (1), k hxkh + .) n 0 0  Density histogram v fxˆ()=k , xx ∈+− [ (1), k hxkh + .) n. h 0 0 7 Histogram (tt)  Ví d: histogramExample.m 8 Quantile plot  Quantile q p ca bi n ng u nhiên x c xác nh sao cho p = P{x < q p}  Ví d: cho x ~ U(a,b) ◦ q0 = a ◦ q0.5 = (a+b)/2 ◦ q1 = b 9 Quantile plot (tt) 10 Quantile plot (tt)  Tp d li u c s p x p t ng d n ≤ ≤ ≤ x1 x2 xn  Hàm phân ph i th c nghi m (empirical distribution function) c cho b i < 0 x x 1  ˆ = j ≤ < Pxn( )  xxx j j +1 n ≥ 1 x x n 11 Quantile plot (tt)  Mc tiêu: ki m nh xem t p d li u có phân ph i P hay không. ≤ ≤ ≤  Gi s tp d li u c s p x 1 x2 xn  B1: sinh chu i n s −1− 0.5 − i − 0.5 −  n − 0.5  P1,..., P 1  ,..., P 1   n  n  n   B2: bi u di n trên th , tr c x là các x i, tr c y là các giá tr sc B1.  B3: n u th y g n tuy n tính  tp d li u có phân ph i P 12 Quantile plot (tt)  Ví d: xem quantilePlotExample.m 13 Box plot  Trong ph ơ ng pháp này, 5 tham s c quan tâm ◦ 3 quantile q 0.25 , q 0.5 , q 0.75 , ◦ Giá tr min và max trong t p m u  t IQR (interquartile range) là IQR = q 0.75 - q0.25  2 gi i h n ◦ Low: LL = q 0.25 – 1.5 IQR ◦ Up: UL = q0.75 + 1.5 IQR 14 Box plot (tt)  Mi im d li u n m ngoài [LL,UL] u b coi là outlier 15 Box plot (tt)  Ví d: boxPlotExample.m Dàn bài  Gi i thi u  Tr ng h p d li u m t chi u  Tr ưng h p d li u 2 ho c 3 chi u  Tr ng h p d li u có > 3 chi u 17 Tr ng h p d li u 2 ho c 3 chi u  Các ph ơ ng pháp ◦ Scatter ◦ Bivariate Histogram 18 Scatter  Trên h tr c Cartesian v các im t ơ ng ng vi t ng im d li u  ây làơ áp ơ n gi n nh t cho vi c quan sát phân b tp d li u  Ví d: ◦ scatter2D.m ◦ scatter3D.m 19 Bivariate Histogram  2 tr c x (1) và x(2)  Chia tr c x (i) thành các ‘bin’ có rng h(i) nh (i) nhau b t u t x 0 (i) (i) (i) (i) (i) (i) (i) (i) (i) [x 0, x 0 +h ), [x 0 +h , x 0 +2h ),, [x 0 +n. h , (i) (i) x 0 +(n+1) h ), (1)  Gi v l,k là sm r ơi vào bin th l theo tr c x và th k theo tr c x (2) , t c là (1) (1) (1) (1) (2) (2) (2) [x 0 +(l-1) h , x 0 +l. h ) x [x 0 +(k-1) h , x 0 +k. h (2) ) 20 Bivariate histogram (tt)  Density histogram v fˆ(x )= l, k , n. h(1) h (2) x∈+−(1) (1) (1) +×+− (1) (2) (2) (2) + (1) [x0 (1), lhx 0 lh .)[ x 0 (1), khx 0 kh .)  Ví d: bivariateHistogramExample.m 21 Dàn bài  Gi i thi u  Tr ng h p d li u m t chi u  Tr ng h p d li u 2 ho c 3 chi u  Tr ưng h p d li u có > 3 chi u 22 Tr ng h p d li u > 3 chi u  Các ph ơ ng pháp ◦ Scatter plot matrix ◦ Parallel coordinates 23 Scatter plot matrix  Áp d ng scatter 2D cho t ng c p c tr ng 1 chi u  Nu t p d li u có d chi u thì s có d*d scatter plot.  Ví d: scatterPlotMatrix.m 24 Parallel coordinates  Cách th hi n d li u 2, 3 chi u trong h tr c Cartesian: các tr c vuông góc t ng ôi m t  ti a 3D  Parallel Coordinates: các chi u song song v i nhau 25 Parallel Coordinates (tt) x4 x3 x2 x1 26 Parallel coordinates (tt) •Ví d: parallelCoordinates.m 27

Các file đính kèm theo tài liệu này:

  • pdfbai_giang_phan_tich_du_lieu_bang_cong_cu_truc_qua_ban_hay.pdf
Tài liệu liên quan