Dàn bài
 Giới thiệu
 Trường hợp dữ liệu một chiều
 Trường hợp dữ liệu 2 hoặc 3 chiều
 Trường hợp dữ liệu có > 3 chiều18
Trường hợp dữ liệu 2 hoặc 3
chiều
 Các phương pháp
◦ Scatter
◦ Bivariate Histogram19
Scatter
 Trên hệ trục Cartesian vẽ các điểm tương ứng
với từng điểm dữ liệu
 Đây là phương pháp đơn giản nhất cho việc
quan sát phân bố tập dữ liệu
 Ví dụ:
◦ scatter2D.m
◦ scatter3D.m
                
              
                                            
                                
            
 
            
                 27 trang
27 trang | 
Chia sẻ: trungkhoi17 | Lượt xem: 739 | Lượt tải: 0 
              
            Bạn đang xem trước 20 trang tài liệu Bài giảng Phân tích dữ liệu bằng công cụ trực qua (Bản hay), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PhânPhân tt ííchch dd    lili   uu bb   ngng 
 côngcông cc    trtr   cc quanquan
 1
Dàn bài
 Gi  i thi  u
 Tr   ng h  p d   li  u m  t chi  u
 Tr   ng h  p d   li  u 2 ho  c 3 chi  u
 Tr   ng h  p d   li  u có > 3 chi  u
 2
Gi  i thi  u
 2 m  c tiêu quan tr  ng c  a phân tích d   li  u
 ◦ Xác   nh mô hình h  p lý c  a quá trình phát sinh d  
 li  u
 ◦ Xác   nh d   li  u nhi  u (outlier) trong t  p m  u
 Trong ph  n này xem xét k   thu  t s   d ng các 
 công c   tr  c quan
 3
Dàn bài
 Gi  i thi  u
 Tr ư ng h  p d   li  u m  t chi  u
 Tr   ng h  p d   li  u 2 ho  c 3 chi  u
 Tr   ng h  p d   li  u có > 3 chi  u
 4
Tr   ng h  p d   li  u m  t chi  u
 Các ph  ơ ng pháp
 ◦ Histogram
 ◦ Quantile plot
 ◦ Box plot
 5
Histogram
 Chia tr  c x thành các ‘bin’ có    r ng h nh   
 nhau b  t   u t   x0
[x 0,x 0+h), [x 0+h,x 0+2h),, [x 0+n.h,x 0+(n+1)h),
 G i v k là s     m r ơi vào bin th   k, t  c là
 [x 0+(k-1)h,x 0+k.h)
 G i n là s     ng  i m trong t  p d   li  u
 6
Histogram (tt)
 Frequency histogram: 
 ˆ = ∈+− +
 fx() vk , x [ x0 (1), k hx 0 kh .)
 Relative frequency histogram: 
 v
 fxˆ()=k , xx ∈+− [ (1), k hxkh + .)
 n 0 0
 Density histogram
 v
 fxˆ()=k , xx ∈+− [ (1), k hxkh + .)
 n. h 0 0
 7
Histogram (tt)
 Ví d : histogramExample.m
 8
Quantile plot
 Quantile q p c a bi  n ng  u nhiên x    c xác 
   nh sao cho
 p = P{x < q p}
 Ví d : cho x ~ U(a,b)
 ◦ q0 = a
 ◦ q0.5 = (a+b)/2
 ◦ q1 = b
 9
Quantile plot (tt)
 10
Quantile plot (tt)
 T p d   li  u    c s  p x  p t  ng d  n
 ≤ ≤ ≤
 x1 x2  xn
 Hàm phân ph  i th  c nghi  m (empirical 
 distribution function)     c cho b  i 
 <
 0 x x 1
 
 ˆ = j ≤ <
 Pxn( )  xxx j j +1
 n
 ≥
 1 x x n
 11
Quantile plot (tt)
 M c tiêu: ki  m   nh xem t  p d   li  u có phân 
 ph  i P hay không.
 ≤ ≤ ≤
 Gi   s  t p d   li  u    c s  p x 1 x2  xn
 B1: sinh chu  i n s  
 −1− 0.5 − i − 0.5 −  n − 0.5 
 P1,..., P 1  ,..., P 1  
 n  n  n 
 B2: bi  u di  n trên    th  , tr  c x là các x i, tr  c y 
 là các giá tr   s          c   B1.
 B3: n  u th  y g  n tuy  n tính  t p d   li  u có
 phân ph  i P
 12
Quantile plot (tt)
 Ví d : xem quantilePlotExample.m
 13
Box plot
 Trong ph  ơ ng pháp này, 5 tham s      c quan 
 tâm
 ◦ 3 quantile q 0.25 , q 0.5 , q 0.75 ,
 ◦ Giá tr   min và max trong t  p m  u
   t IQR (interquartile range) là
 IQR = q 0.75 - q0.25
 2 gi  i h  n
 ◦ Low: LL = q 0.25 – 1.5 IQR
 ◦ Up: UL = q0.75 + 1.5 IQR
 14
Box plot (tt)
 M i  i m d   li  u n  m ngoài [LL,UL]    u b   coi 
 là outlier
 15
Box plot (tt)
 Ví d : boxPlotExample.m
Dàn bài
 Gi  i thi  u
 Tr   ng h  p d   li  u m  t chi  u
 Tr ư ng h  p d   li  u 2 ho  c 3 chi  u
 Tr   ng h  p d   li  u có > 3 chi  u
 17
Tr   ng h  p d   li  u 2 ho  c 3 
chi  u
 Các ph  ơ ng pháp
 ◦ Scatter
 ◦ Bivariate Histogram
 18
Scatter
 Trên h   tr  c Cartesian v   các  i m t  ơ ng  ng 
 v i t  ng  i m d   li  u
  ây là    ơ      áp  ơ n gi  n nh  t cho vi  c 
 quan sát phân b   t p d   li  u
 Ví d :
 ◦ scatter2D.m
 ◦ scatter3D.m
 19
Bivariate Histogram
 2 tr  c x (1) và x(2)
 Chia tr  c x (i) thành các ‘bin’ có    r ng h(i) nh   
 (i)
 nhau b  t   u t   x 0
 (i) (i) (i) (i) (i) (i) (i) (i) (i)
[x 0, x 0 +h ), [x 0 +h , x 0 +2h ),, [x 0 +n. h , 
 (i) (i)
 x 0 +(n+1) h ),
 (1)
 G i v l,k là s     m r ơi vào bin th   l theo tr  c x
 và th   k theo tr  c x (2) , t  c là
 (1) (1) (1) (1) (2) (2) (2)
[x 0 +(l-1) h , x 0 +l. h ) x [x 0 +(k-1) h , x 0 
 +k. h (2) )
 20
Bivariate histogram (tt)
  Density histogram
 v
fˆ(x )= l, k ,
 n. h(1) h (2)
x∈+−(1) (1) (1) +×+− (1) (2) (2) (2) + (1)
 [x0 (1), lhx 0 lh .)[ x 0 (1), khx 0 kh .)
  Ví d : bivariateHistogramExample.m
 21
Dàn bài
 Gi  i thi  u
 Tr   ng h  p d   li  u m  t chi  u
 Tr   ng h  p d   li  u 2 ho  c 3 chi  u
 Tr ư ng h  p d   li  u có > 3 chi  u
 22
Tr   ng h  p d   li  u > 3 chi  u
 Các ph  ơ ng pháp
 ◦ Scatter plot matrix
 ◦ Parallel coordinates
 23
Scatter plot matrix
 Áp d  ng scatter 2D cho t  ng c  p   c tr  ng 1 
 chi  u
 N u t  p d   li  u có d chi  u thì s  có d*d scatter 
 plot.
 Ví d : scatterPlotMatrix.m
 24
Parallel coordinates
 Cách th   hi  n d   li  u 2, 3 chi  u trong h   tr  c 
 Cartesian: các tr  c vuông góc t  ng  ôi m  t 
 t i  a 3D
 Parallel Coordinates: các chi  u song song v  i 
 nhau
 25
Parallel Coordinates (tt)
 x4
 x3
 x2
 x1
 26
 Parallel coordinates (tt)
•Ví d : parallelCoordinates.m
 27
            Các file đính kèm theo tài liệu này:
 bai_giang_phan_tich_du_lieu_bang_cong_cu_truc_qua_ban_hay.pdf bai_giang_phan_tich_du_lieu_bang_cong_cu_truc_qua_ban_hay.pdf