Bài giảng Phân tích dữ liệu - Ước lượng mật độ phân bố xác suất (Bản hay)

Finite Mixture (tt)

 Có 3 vấn đề

◦ Xác định mô hình pi

◦ Xác định số lượng mật độ thành phần c

◦ Ước lượng từng tham số θi và trọng số wi

 Thông thường, pi được chọn là mật độ xác suất

chuẩnFinite Mixture (tt)

 Ước lượng c: dựa trên sự phân bố dữ liệu trong

không gian đặc trưng

 Ví dụ: c = ???Finite Mixture (tt)

 Ước lượng tha

pdf34 trang | Chia sẻ: trungkhoi17 | Lượt xem: 517 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Phân tích dữ liệu - Ước lượng mật độ phân bố xác suất (Bản hay), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PhânPhân tt ííchch dd lili uu -- ưưcc ll ưưngng mm tt phânphân bb xxáácc susu tt Lê Phong Dàn bài  Gi i thi u  Ph ươ ng pháp tham s ố hóa ◦ Ước l ượng mô hình b ằng các công c ụ tr ực quan ◦ Ước l ượng tham s ố của mô hình ◦ Finite Mixture  Ph ươ ng pháp phi tham s ố hóa ◦ Ước l ượng b ằng Histogram ◦ Ước l ượng b ằng Kernel  So sánh 2 l ớp ph ươ ng pháp Gi i thi u  Trong th ống kê, để khai thác được các tính ch ất của t ập qu ần th ể, người ta quan tâm đến phân b ố xác su ất ẩn trong qu ần th ể đ ó.  Ước l ượng hàm m ật độ phân b ố xác su ất t ừ tập mẫu.  Có 2 ph ươ ng pháp ti ếp c ận ◦ Tham s ố hóa ◦ Phi tham s ố hóa Gi i thi u (tt)  Mỗi ph ươ ng pháp đều có ưu nhược điểm và được đánh giá trên ◦ Độ chính xác ◦ Bộ nh ớ lưu trữ ◦ Tốc độ tính toán  Để đ ánh giá độ chính xác, ng ười ta th ường dùng 1 trong 3 độ đo tiêu chuẩn (càng nh ỏ càng t ốt) ◦ Mean squared error ◦ Mean integrated squared error ◦ Mean integrated absolute error Gi i thi u (tt)  Mean squared error t ại m ột điểm x MSEfx[ˆ ( )]= E [( fx ˆ ( ) − fx ( ))2 ]  Mean integrated squared error ˆ ˆ 2  MISEf[]= E∫ (() fx − fx ()) dx   Mean integrated absolute error ˆ ˆ  MIAE[] f= E∫ |() f x − f ()| x dx  Dàn bài  Gi ới thi ệu  Ph ơ ng pháp tham s hóa ◦ Ước l ượng mô hình b ằng các công c ụ tr ực quan ◦ Ước l ượng tham s ố của mô hình ◦ Finite Mixture  Ph ươ ng pháp phi tham s ố hóa ◦ Ước l ượng b ằng Histogram ◦ Ước l ượng b ằng Kernel  So sánh 2 l ớp ph ươ ng pháp Ph ơ ng pháp tham s hóa  Ý t ưởng c ủa các ph ươ ng pháp này g ồm 2 bước ◦ B1: xác định mô hình phân b ố xác su ất theo nh ững phân b ố quen thu ộc (normal, uniform, beta,) ◦ B2: ước l ượng tham s ố để mô hình tr ở nên “tốt nh ất” đối v ới t ập m ẫu Ph ơ ng pháp tham s hóa (tt)  Bước 1 có th ể th ực hi ện d ựa trên các ph ươ ng pháp phân tích tr ực quan nh ư ◦ Histogram ◦ Quantile-based  (xem l ại slide Phân tích d ữ li ệu b ằng các ph ươ ng pháp tr ực quan)  Ví dụ: ◦ univariateHistogram.m ◦ quantilePlot.m Ph ơ ng pháp tham s hóa (tt)  Bước 2: vi ệc ước l ượng tham s ố có th ể được th ực thi b ằng m ột s ố phương ph áp ◦ Maximum Likelihood ◦ Ph ươ ng pháp moment  (xem l ại slide Phân tích d ữ li ệu _ các đặc tr ưng và ước l ượng tham s ố) Finite Mixture  Ý t ưởng: ước l ượng m ật độ xác su ất b ằng t ổng các m ật độ xác su ất thành ph ần có tr ọng s ố. c p()x= ∑ wi p i (|) x i i=1  Trong đó ◦ pi là các m ật độ thành ph ần ◦ wi là tr ọng s ố tương ứng ◦ θi là tham s ố của p i ◦ c là số lượng thành ph ần, c << n Finite Mixture (tt)  Ví dụ: px( )= 0.3 Nx ( ; −+ 3,1) 0.3 Nx ( ;0,1) + 0.4 Nx ( ;2,0.5) Finite Mixture (tt)  Có 3 v ấn đề ◦ Xác định mô hình p i ◦ Xác định s ố lượng m ật độ thành ph ần c ◦ Ước l ượng t ừng tham s ố θi và tr ọng s ố wi  Thông th ường, p i được ch ọn là mật độ xác su ất chu ẩn Finite Mixture (tt)  Ước l ượng c: d ựa trên s ự phân b ố dữ li ệu trong không gian đặc tr ưng  Ví dụ: c = ??? Finite Mixture (tt)  Ước l ượng tham s ố θi và tr ọng s ố wi : ph ươ ng pháp EM Dàn bài  Gi ới thi ệu  Ph ươ ng pháp tham s ố hóa ◦ Ước l ượng mô hình b ằng các công c ụ tr ực quan ◦ Ước l ượng tham s ố của mô hình ◦ Finite Mixture  Ph ơ ng pháp phi tham s hóa ◦ Ước l ượng b ằng Histogram ◦ Ước l ượng b ằng Kernel  So sánh 2 l ớp ph ươ ng pháp Ph ơ ng pháp phi tham s  Lớp ph ươ ng pháp này không c ần ph ải xác định tr ước mô hình phân b ố.  Xem xét 2 phương ph áp ◦ Histogram ◦ Kernel Ph ơ ng pháp Histogram  Ý t ưởng chính: ◦ dùng t ập m ẫu để xây d ựng density histogram ◦ dùng histogram này là ước l ượng cho m ật độ xác su ất ẩn c ủa t ập qu ần th ể  Density histogram v fˆ()x=k , x ∈ bink () n. h1 ... h d  Trong đó ◦ không gian đặc tr ưng được chia thành các bin có kích th ước b ằng nhau ◦ d là số chi ều, h i là độ rộng chi ều th ứ i c ủa m ỗi bin ◦ vk là số điểm r ơi vào bin th ứ k Ph ơ ng pháp Histogram (tt)  Ảnh h ưởng c ủa h i: phân ph ối chu ẩn Ph ơ ng pháp Histogram (tt)  Cần ph ải tìm h i sao cho t ối thi ểu hóa error  Ch ứng minh được là Ph ơ ng pháp Histogram (tt)  Nếu m ỗi chi ều đặc tr ưng th ứ i có phân ph ối 2 chu ẩn v ới ph ươ ng sai σi thì  Ví dụ: bivariateHistogram.m Ph ơ ng pháp Histogram (tt)  Một m ở rộng là: Average Shifted Histogram m ∞∞∞? Ph ơ ng pháp Kernel – 1 chi u  Hàm m ật độ được ước l ượng  K(.) được g ọi là hàm kernel v ới tính ch ất ∫K(t)dt=1 (t ại sao?)  Thông th ường K(.) là hàm m ật độ, đối x ứng và có đỉnh t ại 0.  Ý ngh ĩa: đặt giá tr ị cao t ại n ơi có mật độ dày Ph ơ ng pháp Kernel – 1D (tt) Ph ơ ng pháp Kernel – 1D (tt)  Ảnh h ưởng c ủa h: phân ph ối chu ẩn Ph ơ ng pháp Kernel – 1D (tt)  Nếu K(.) có trung bình µ và phương sai σ2 thì  Tối ưu đạt được t ại h làm c ực ti ểu AMISE  Một ước l ượng Ph ơ ng pháp Kernel – 1D (tt) Ph ơ ng pháp Kernel – 1D (tt) Ph ơ ng pháp Kernel – 1D (tt)  Vi ệc xác định h quan tr ọng h ơn là vi ệc ch ọn K(.) Ph ơ ng pháp Kernel - dD  Hàm m ật độ được ước l ượng  Với m ột trong nh ững ước l ượng h j Dàn bài  Gi ới thi ệu  Ph ươ ng pháp tham s ố hóa ◦ Ước l ượng mô hình b ằng các công c ụ tr ực quan ◦ Ước l ượng tham s ố của mô hình ◦ Finite Mixture  Ph ươ ng pháp phi tham s ố hóa ◦ Ước l ượng b ằng Histogram ◦ Ước l ượng b ằng Kernel  So sánh 2 l p ph ơ ng pháp So sánh 2 l p ph ơ ng pháp  Chi phí bộ nh ớ ◦ Ph ươ ng pháp tham s ố ch ỉ cần l ưu l ại các tham s ố nên tốn ít b ộ nh ớ ◦ Ph ươ ng pháp phi tham s ố bu ộc ph ải l ưu l ại  Histogram: r ất nhi ều giá tr ị f^(x) vì số lượng bin r ất lớn  Kernel: ph ải l ưu l ại toàn b ộ tập m ẫu So sánh (tt)  Chi phí tính toán ◦ Offline:  ph ươ ng pháp tham s ố do ph ải ước l ượng mô hình và tham s ố nên t ốn nhi ều th ời gian  ph ươ ng pháp phi tham s ố thì ko h ề tốn th ời gian nào ◦ Online:  ph ươ ng pháp tham s ố tính r ất nhanh chóng do ch ỉ cần th ế số vào hàm  ph ươ ng pháp phi tham s ố tính toán r ất l ớn  Histogram: tìm xem x thu ộc bin nào  Kernel: tính toàn b ộ n l ần hàm kernel So sánh (tt)  Độ chính xác: ◦ Ph ươ ng pháp tham s ố  Do ph ải gò ép vào m ột mô hình bi ết tr ước nên error ch ưa ch ắc gi ảm xu ống khi n t ăng, th ậm chí có rủi ro nếu ước đoán mô hình sai  Đối v ới Finite Mixture: n ếu c  vô h ạn thì ước lượng chính xác b ất k ỳ hàm m ật độ nào, tuy nhiên khi đó chi phí về bộ nh ớ và th ời gian tính toán không thua gì phương ph áp phi tham s ố ◦ Ph ươ ng pháp phi tham s ố  Error gi ảm khi n t ăng So sánh (tt)  Ph ươ ng pháp kernel và Finite Mixture có mối liên h ệ với nhau (bài t ập)

Các file đính kèm theo tài liệu này:

  • pdfbai_giang_phan_tich_du_lieu_uoc_luong_mat_do_phan_bo_xac_sua.pdf