Finite Mixture (tt)
Có 3 vấn đề
◦ Xác định mô hình pi
◦ Xác định số lượng mật độ thành phần c
◦ Ước lượng từng tham số θi và trọng số wi
Thông thường, pi được chọn là mật độ xác suất
chuẩnFinite Mixture (tt)
Ước lượng c: dựa trên sự phân bố dữ liệu trong
không gian đặc trưng
Ví dụ: c = ???Finite Mixture (tt)
Ước lượng tha
34 trang |
Chia sẻ: trungkhoi17 | Lượt xem: 517 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Phân tích dữ liệu - Ước lượng mật độ phân bố xác suất (Bản hay), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PhânPhân tt ííchch dd lili uu --
ưư cc ll ưư ngng mm tt phânphân
bb xxáácc susu tt
Lê Phong
Dàn bài
Gi i thi u
Ph ươ ng pháp tham s ố hóa
◦ Ước l ượng mô hình b ằng các công c ụ tr ực quan
◦ Ước l ượng tham s ố của mô hình
◦ Finite Mixture
Ph ươ ng pháp phi tham s ố hóa
◦ Ước l ượng b ằng Histogram
◦ Ước l ượng b ằng Kernel
So sánh 2 l ớp ph ươ ng pháp
Gi i thi u
Trong th ống kê, để khai thác được các tính ch ất
của t ập qu ần th ể, người ta quan tâm đến phân b ố
xác su ất ẩn trong qu ần th ể đ ó.
Ước l ượng hàm m ật độ phân b ố xác su ất t ừ tập
mẫu.
Có 2 ph ươ ng pháp ti ếp c ận
◦ Tham s ố hóa
◦ Phi tham s ố hóa
Gi i thi u (tt)
Mỗi ph ươ ng pháp đều có ưu nhược điểm và
được đánh giá trên
◦ Độ chính xác
◦ Bộ nh ớ lưu trữ
◦ Tốc độ tính toán
Để đ ánh giá độ chính xác, ng ười ta th ường dùng
1 trong 3 độ đo tiêu chuẩn (càng nh ỏ càng t ốt)
◦ Mean squared error
◦ Mean integrated squared error
◦ Mean integrated absolute error
Gi i thi u (tt)
Mean squared error t ại m ột điểm x
MSEfx[ˆ ( )]= E [( fx ˆ ( ) − fx ( ))2 ]
Mean integrated squared error
ˆ ˆ 2
MISEf[]= E∫ (() fx − fx ()) dx
Mean integrated absolute error
ˆ ˆ
MIAE[] f= E∫ |() f x − f ()| x dx
Dàn bài
Gi ới thi ệu
Ph ơ ng pháp tham s hóa
◦ Ước l ượng mô hình b ằng các công c ụ tr ực quan
◦ Ước l ượng tham s ố của mô hình
◦ Finite Mixture
Ph ươ ng pháp phi tham s ố hóa
◦ Ước l ượng b ằng Histogram
◦ Ước l ượng b ằng Kernel
So sánh 2 l ớp ph ươ ng pháp
Ph ơ ng pháp tham s hóa
Ý t ưởng c ủa các ph ươ ng pháp này g ồm 2 bước
◦ B1: xác định mô hình phân b ố xác su ất theo nh ững
phân b ố quen thu ộc (normal, uniform, beta,)
◦ B2: ước l ượng tham s ố để mô hình tr ở nên “tốt nh ất”
đối v ới t ập m ẫu
Ph ơ ng pháp tham s hóa (tt)
Bước 1 có th ể th ực hi ện d ựa trên các ph ươ ng
pháp phân tích tr ực quan nh ư
◦ Histogram
◦ Quantile-based
(xem l ại slide Phân tích d ữ li ệu b ằng các
ph ươ ng pháp tr ực quan)
Ví dụ:
◦ univariateHistogram.m
◦ quantilePlot.m
Ph ơ ng pháp tham s hóa (tt)
Bước 2: vi ệc ước l ượng tham s ố có th ể được
th ực thi b ằng m ột s ố phương ph áp
◦ Maximum Likelihood
◦ Ph ươ ng pháp moment
(xem l ại slide Phân tích d ữ li ệu _ các đặc tr ưng
và ước l ượng tham s ố)
Finite Mixture
Ý t ưởng: ước l ượng m ật độ xác su ất b ằng t ổng
các m ật độ xác su ất thành ph ần có tr ọng s ố.
c
p()x= ∑ wi p i (|) x i
i=1
Trong đó
◦ pi là các m ật độ thành ph ần
◦ wi là tr ọng s ố tương ứng
◦ θi là tham s ố của p i
◦ c là số lượng thành ph ần, c << n
Finite Mixture (tt)
Ví dụ:
px( )= 0.3 Nx ( ; −+ 3,1) 0.3 Nx ( ;0,1) + 0.4 Nx ( ;2,0.5)
Finite Mixture (tt)
Có 3 v ấn đề
◦ Xác định mô hình p i
◦ Xác định s ố lượng m ật độ thành ph ần c
◦ Ước l ượng t ừng tham s ố θi và tr ọng s ố wi
Thông th ường, p i được ch ọn là mật độ xác su ất
chu ẩn
Finite Mixture (tt)
Ước l ượng c: d ựa trên s ự phân b ố dữ li ệu trong
không gian đặc tr ưng
Ví dụ: c = ???
Finite Mixture (tt)
Ước l ượng tham s ố θi và tr ọng s ố wi : ph ươ ng
pháp EM
Dàn bài
Gi ới thi ệu
Ph ươ ng pháp tham s ố hóa
◦ Ước l ượng mô hình b ằng các công c ụ tr ực quan
◦ Ước l ượng tham s ố của mô hình
◦ Finite Mixture
Ph ơ ng pháp phi tham s hóa
◦ Ước l ượng b ằng Histogram
◦ Ước l ượng b ằng Kernel
So sánh 2 l ớp ph ươ ng pháp
Ph ơ ng pháp phi tham s
Lớp ph ươ ng pháp này không c ần ph ải xác định
tr ước mô hình phân b ố.
Xem xét 2 phương ph áp
◦ Histogram
◦ Kernel
Ph ơ ng pháp Histogram
Ý t ưởng chính:
◦ dùng t ập m ẫu để xây d ựng density histogram
◦ dùng histogram này là ước l ượng cho m ật độ xác su ất
ẩn c ủa t ập qu ần th ể
Density histogram
v
fˆ()x=k , x ∈ bink ()
n. h1 ... h d
Trong đó
◦ không gian đặc tr ưng được chia thành các bin có kích
th ước b ằng nhau
◦ d là số chi ều, h i là độ rộng chi ều th ứ i c ủa m ỗi bin
◦ vk là số điểm r ơi vào bin th ứ k
Ph ơ ng pháp Histogram (tt)
Ảnh h ưởng c ủa h i: phân ph ối chu ẩn
Ph ơ ng pháp Histogram (tt)
Cần ph ải tìm h i sao cho t ối thi ểu hóa error
Ch ứng minh được là
Ph ơ ng pháp Histogram (tt)
Nếu m ỗi chi ều đặc tr ưng th ứ i có phân ph ối
2
chu ẩn v ới ph ươ ng sai σi thì
Ví dụ: bivariateHistogram.m
Ph ơ ng pháp Histogram (tt)
Một m ở rộng là: Average Shifted Histogram
m ∞∞∞?
Ph ơ ng pháp Kernel – 1 chi u
Hàm m ật độ được ước l ượng
K(.) được g ọi là hàm kernel v ới tính ch ất
∫K(t)dt=1 (t ại sao?)
Thông th ường K(.) là hàm m ật độ, đối x ứng và
có đỉnh t ại 0.
Ý ngh ĩa: đặt giá tr ị cao t ại n ơi có mật độ dày
Ph ơ ng pháp Kernel – 1D (tt)
Ph ơ ng pháp Kernel – 1D (tt)
Ảnh h ưởng c ủa h: phân ph ối chu ẩn
Ph ơ ng pháp Kernel – 1D (tt)
Nếu K(.) có trung bình µ và phương sai σ2 thì
Tối ưu đạt được t ại h làm c ực ti ểu AMISE
Một ước l ượng
Ph ơ ng pháp Kernel – 1D (tt)
Ph ơ ng pháp Kernel – 1D (tt)
Ph ơ ng pháp Kernel – 1D (tt)
Vi ệc xác định h quan tr ọng h ơn là vi ệc ch ọn
K(.)
Ph ơ ng pháp Kernel - dD
Hàm m ật độ được ước l ượng
Với m ột trong nh ững ước l ượng h j
Dàn bài
Gi ới thi ệu
Ph ươ ng pháp tham s ố hóa
◦ Ước l ượng mô hình b ằng các công c ụ tr ực quan
◦ Ước l ượng tham s ố của mô hình
◦ Finite Mixture
Ph ươ ng pháp phi tham s ố hóa
◦ Ước l ượng b ằng Histogram
◦ Ước l ượng b ằng Kernel
So sánh 2 l p ph ơ ng pháp
So sánh 2 l p ph ơ ng pháp
Chi phí bộ nh ớ
◦ Ph ươ ng pháp tham s ố ch ỉ cần l ưu l ại các tham s ố nên
tốn ít b ộ nh ớ
◦ Ph ươ ng pháp phi tham s ố bu ộc ph ải l ưu l ại
Histogram: r ất nhi ều giá tr ị f^(x) vì số lượng bin r ất
lớn
Kernel: ph ải l ưu l ại toàn b ộ tập m ẫu
So sánh (tt)
Chi phí tính toán
◦ Offline:
ph ươ ng pháp tham s ố do ph ải ước l ượng mô hình và
tham s ố nên t ốn nhi ều th ời gian
ph ươ ng pháp phi tham s ố thì ko h ề tốn th ời gian nào
◦ Online:
ph ươ ng pháp tham s ố tính r ất nhanh chóng do ch ỉ
cần th ế số vào hàm
ph ươ ng pháp phi tham s ố tính toán r ất l ớn
Histogram: tìm xem x thu ộc bin nào
Kernel: tính toàn b ộ n l ần hàm kernel
So sánh (tt)
Độ chính xác:
◦ Ph ươ ng pháp tham s ố
Do ph ải gò ép vào m ột mô hình bi ết tr ước nên error
ch ưa ch ắc gi ảm xu ống khi n t ăng, th ậm chí có rủi ro
nếu ước đoán mô hình sai
Đối v ới Finite Mixture: n ếu c vô h ạn thì ước
lượng chính xác b ất k ỳ hàm m ật độ nào, tuy nhiên
khi đó chi phí về bộ nh ớ và th ời gian tính toán
không thua gì phương ph áp phi tham s ố
◦ Ph ươ ng pháp phi tham s ố
Error gi ảm khi n t ăng
So sánh (tt)
Ph ươ ng pháp kernel và Finite Mixture có mối
liên h ệ với nhau (bài t ập)
Các file đính kèm theo tài liệu này:
- bai_giang_phan_tich_du_lieu_uoc_luong_mat_do_phan_bo_xac_sua.pdf