Dàn bài
Giới thiệu
Trường hợp dữ liệu một chiều
Trường hợp dữ liệu 2 hoặc 3 chiều
Trường hợp dữ liệu có > 3 chiều18
Trường hợp dữ liệu 2 hoặc 3
chiều
Các phương pháp
◦ Scatter
◦ Bivariate Histogram19
Scatter
Trên hệ trục Cartesian vẽ các điểm tương ứng
với từng điểm dữ liệu
Đây là phương pháp đơn giản nhất cho việc
quan sát phân bố tập dữ liệu
Ví dụ:
◦ scatter2D.m
◦ scatter3D.m
27 trang |
Chia sẻ: trungkhoi17 | Lượt xem: 454 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Phân tích dữ liệu bằng công cụ trực qua (Bản hay), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PhânPhân tt ííchch dd lili uu bb ngng
côngcông cc trtr cc quanquan
1
Dàn bài
Gi i thi u
Tr ng h p d li u m t chi u
Tr ng h p d li u 2 ho c 3 chi u
Tr ng h p d li u có > 3 chi u
2
Gi i thi u
2 m c tiêu quan tr ng c a phân tích d li u
◦ Xác nh mô hình h p lý c a quá trình phát sinh d
li u
◦ Xác nh d li u nhi u (outlier) trong t p m u
Trong ph n này xem xét k thu t s d ng các
công c tr c quan
3
Dàn bài
Gi i thi u
Tr ư ng h p d li u m t chi u
Tr ng h p d li u 2 ho c 3 chi u
Tr ng h p d li u có > 3 chi u
4
Tr ng h p d li u m t chi u
Các ph ơ ng pháp
◦ Histogram
◦ Quantile plot
◦ Box plot
5
Histogram
Chia tr c x thành các ‘bin’ có r ng h nh
nhau b t u t x0
[x 0,x 0+h), [x 0+h,x 0+2h),, [x 0+n.h,x 0+(n+1)h),
G i v k là s m r ơi vào bin th k, t c là
[x 0+(k-1)h,x 0+k.h)
G i n là s ng i m trong t p d li u
6
Histogram (tt)
Frequency histogram:
ˆ = ∈+− +
fx() vk , x [ x0 (1), k hx 0 kh .)
Relative frequency histogram:
v
fxˆ()=k , xx ∈+− [ (1), k hxkh + .)
n 0 0
Density histogram
v
fxˆ()=k , xx ∈+− [ (1), k hxkh + .)
n. h 0 0
7
Histogram (tt)
Ví d : histogramExample.m
8
Quantile plot
Quantile q p c a bi n ng u nhiên x c xác
nh sao cho
p = P{x < q p}
Ví d : cho x ~ U(a,b)
◦ q0 = a
◦ q0.5 = (a+b)/2
◦ q1 = b
9
Quantile plot (tt)
10
Quantile plot (tt)
T p d li u c s p x p t ng d n
≤ ≤ ≤
x1 x2 xn
Hàm phân ph i th c nghi m (empirical
distribution function) c cho b i
<
0 x x 1
ˆ = j ≤ <
Pxn( ) xxx j j +1
n
≥
1 x x n
11
Quantile plot (tt)
M c tiêu: ki m nh xem t p d li u có phân
ph i P hay không.
≤ ≤ ≤
Gi s t p d li u c s p x 1 x2 xn
B1: sinh chu i n s
−1− 0.5 − i − 0.5 − n − 0.5
P1,..., P 1 ,..., P 1
n n n
B2: bi u di n trên th , tr c x là các x i, tr c y
là các giá tr s c B1.
B3: n u th y g n tuy n tính t p d li u có
phân ph i P
12
Quantile plot (tt)
Ví d : xem quantilePlotExample.m
13
Box plot
Trong ph ơ ng pháp này, 5 tham s c quan
tâm
◦ 3 quantile q 0.25 , q 0.5 , q 0.75 ,
◦ Giá tr min và max trong t p m u
t IQR (interquartile range) là
IQR = q 0.75 - q0.25
2 gi i h n
◦ Low: LL = q 0.25 – 1.5 IQR
◦ Up: UL = q0.75 + 1.5 IQR
14
Box plot (tt)
M i i m d li u n m ngoài [LL,UL] u b coi
là outlier
15
Box plot (tt)
Ví d : boxPlotExample.m
Dàn bài
Gi i thi u
Tr ng h p d li u m t chi u
Tr ư ng h p d li u 2 ho c 3 chi u
Tr ng h p d li u có > 3 chi u
17
Tr ng h p d li u 2 ho c 3
chi u
Các ph ơ ng pháp
◦ Scatter
◦ Bivariate Histogram
18
Scatter
Trên h tr c Cartesian v các i m t ơ ng ng
v i t ng i m d li u
ây là ơ áp ơ n gi n nh t cho vi c
quan sát phân b t p d li u
Ví d :
◦ scatter2D.m
◦ scatter3D.m
19
Bivariate Histogram
2 tr c x (1) và x(2)
Chia tr c x (i) thành các ‘bin’ có r ng h(i) nh
(i)
nhau b t u t x 0
(i) (i) (i) (i) (i) (i) (i) (i) (i)
[x 0, x 0 +h ), [x 0 +h , x 0 +2h ),, [x 0 +n. h ,
(i) (i)
x 0 +(n+1) h ),
(1)
G i v l,k là s m r ơi vào bin th l theo tr c x
và th k theo tr c x (2) , t c là
(1) (1) (1) (1) (2) (2) (2)
[x 0 +(l-1) h , x 0 +l. h ) x [x 0 +(k-1) h , x 0
+k. h (2) )
20
Bivariate histogram (tt)
Density histogram
v
fˆ(x )= l, k ,
n. h(1) h (2)
x∈+−(1) (1) (1) +×+− (1) (2) (2) (2) + (1)
[x0 (1), lhx 0 lh .)[ x 0 (1), khx 0 kh .)
Ví d : bivariateHistogramExample.m
21
Dàn bài
Gi i thi u
Tr ng h p d li u m t chi u
Tr ng h p d li u 2 ho c 3 chi u
Tr ư ng h p d li u có > 3 chi u
22
Tr ng h p d li u > 3 chi u
Các ph ơ ng pháp
◦ Scatter plot matrix
◦ Parallel coordinates
23
Scatter plot matrix
Áp d ng scatter 2D cho t ng c p c tr ng 1
chi u
N u t p d li u có d chi u thì s có d*d scatter
plot.
Ví d : scatterPlotMatrix.m
24
Parallel coordinates
Cách th hi n d li u 2, 3 chi u trong h tr c
Cartesian: các tr c vuông góc t ng ôi m t
t i a 3D
Parallel Coordinates: các chi u song song v i
nhau
25
Parallel Coordinates (tt)
x4
x3
x2
x1
26
Parallel coordinates (tt)
•Ví d : parallelCoordinates.m
27
Các file đính kèm theo tài liệu này:
- bai_giang_phan_tich_du_lieu_bang_cong_cu_truc_qua_ban_hay.pdf