Dàn bài
 Giới thiệu
 Lý thuyết ra quyết định Bayes
 Phân lớp bằng biệt hàm
◦ Biệt hàm, vùng ra quyết định
◦ Biệt hàm cho phân phối chuẩn
 Một số vấn đề mở rộng
 Xây dựng hệ phân lớpBiệt hàm
 Mỗi lớp wi có một biệt hàm (discriminant function)
gi(x). Với mỗi đối tượng
                
              
                                            
                                
            
 
            
                 43 trang
43 trang | 
Chia sẻ: trungkhoi17 | Lượt xem: 722 | Lượt tải: 0 
              
            Bạn đang xem trước 20 trang tài liệu Bài giảng Phân loại bằng Bayes (Bản hay), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PhânPhân lolo   ii bb   ngng BayesBayes
 Lê Phong
DDàànn bb ààii
 Gi ới thi ệu
 ◦ Bài tóan
 ◦ H  ng ti  p c  n Bayes 
 Lý thuy  t ra quy  t   nh Bayes
 Phân l  p b  ng bi  t hàm
 M t s   v n    m  r ng
 Xây d  ng h   phân l  p
GiGi   ii thithi   uu
 Bài toán phân lo  i (Pattern Classification)
 Xác   nh   i t   ng có   c tr  ng x thu  c l  p nào 
 trong c l  p w 1, w 2,, w c.
 x
 ?
 ?
 ? ?
 w1 w2  wc
 Lý thuy  t ra quy  t   nh Bayes là n n t  ng cho các 
 ph  ơ ng pháp phân l  p th  ng kê.
GiGi   ii thithi   uu (tt)(tt)
 Gi   s        t tr   c xác su  t ti  n   nh 
 P(w = w i) i = 1..c
 G i p( x|w i) là m t    xác su  t c  a   c tr  ng x trong 
 l p w i.
 Khi  ó, xác su  t h  u   nh      i t   ng có   c tr  ng 
 x thu  c l  p w i là
 ◦ Trong  ó
    ng  n g  n, vi  t 
GiGi   ii thithi   uu (tt)(tt)
 p(x|w i), i=1..c
 x
 P(w |x)
 1 P(w 2|x) P(w i|x) P(w c|x)
 w1 w2  wc
 P(w ) P(w )
 1 P(w 2) P(w i) c
 D a trên P(w i|x)    quy  t   nh   i t   ng x thu  c 
 l p nào.
DDàànn bb ààii
 Gi  i thi  u
 Lý thuy ết ra quy ết định Bayes
 ◦ Tr   ng h  p  ơ n gi  n – 2 l  p
 ◦ Tr   ng h  p t  ng quát
 ◦ Ví d 
 Phân l  p b  ng bi  t hàm
 M t s   v n    m  r ng
 Xây d  ng h   phân l  p
LýLý thuythuy   tt rara quyquy   tt     nhnh BayesBayes
 V  m t c  m quan, ch  n l  p w best sao cho 
 P(w best |x) = min P(w i|x) i=1..c
 Xem xét 2      ng h  p
 ◦ Tr   ng h  p  ơ n gi  n 2 l  p
 ◦ Tr   ng h  p t  ng quát
TrTr     ngng hh   pp  ơ ơ nn gigi   nn
 Có 2 l  p w 1 và w2
TrTr     ngng hh   pp  ơ ơ nn gigi   nn (tt)(tt)
 Trung bình xác su  t l  i (average probability of 
 error)
 ◦ Trong  ó
 là xác su  t l  i khi    a ra quy  t   nh
 Lu  t 1    ơ    ng
 làm c  c ti  u hóa trung bình xác su  t l  i
TrTr     ngng hh   pp tt   ngng ququ áátt
 M  r ng gi   thi  t v  i
1. S   l p là b t k  .
2. a hành   ng  1,  2,,  a (ví d        ành   ng  i là
 phân x vào l  p w i).
3. Hàm tiêu t  n λ( i|wj) th   hi  n cái giá ph  i tr   khi 
 th  c hi  n hành   ng  i           ng h  p   i t   ng 
 thu  c l  p w j (ví d        à chi phí khi phân lo  i sai).
TrTr     ngng hh   pp tt   ngng ququ áátt (tt)(tt)
 Xác su  t l  i    c t  ng quát hóa b  ng r  i ro có    u 
 ki  n
 Th   hi  n cái giá ph  i tr   cho hành   ng  i       i 
 t  ng có   c tr  ng x
 Xác su  t l  i trung bình    c t  ng quát hóa b  ng r  i 
 ro toàn b  
 ◦ Trong  ó  (x) nh  n các hành   ng  i   i=1..a) t ơ ng 
  ng v  i   c tr  ng x
 tìm  (x)      t c  c ti  u R.
TrTr     ngng hh   pp tt   ngng ququ áátt (tt)(tt)
 Lu  t 2    t    c c  c ti  u cho R*  -        c g  i là
 r i ro Bayes.
HHààmm tiêutiêu tt   nn     ii xx   ngng
 Tr   ng h  p   c bi  t:  i là hành   ng phân   i 
 t  ng x vào l  p w i v i hàm tiêu t  n
 Ý ngh  a: không tr   giá n u phân lo  i  úng, ng  c 
 l i tr   giá là 1.
 Hàm r  i ro có    u ki  n
VVíí dd  
  2 l  p P(w 1)=2/3, P(w 2)=1/3
  3 hành   ng
 ◦  1 = “x p   i t   ng vào l  p w 1”
 ◦  2 = “x p   i t   ng vào l  p w 2”
 ◦  3 = “không phân l  p”
  Hàm tiêu t  n λ
VVíí dd   (tt)(tt)
 Tính 
VVíí dd   (tt)(tt)
  1  3  2
DDàànn bb ààii
 Gi  i thi  u
 Lý thuy  t ra quy  t   nh Bayes
 Phân l ớp b ằng bi ệt hàm
 ◦ Bi  t hàm, vùng ra quy  t   nh
 ◦ Bi  t hàm cho phân ph  i chu  n
 M t s   v n    m  r ng
 Xây d  ng h   phân l  p
BiBi   tt hh ààmm
 M i l  p w i có m t bi  t hàm (discriminant function) 
 gi(x). V  i m  i   i t   ng có   c tr  ng x, h   phân l  p 
 s  phân x và l p w i n u
BiBi   tt hh ààmm (tt)(tt)
  M t s       ng h  p
 ◦ Tính chi phí b ng xác su  t l  i trung bình
 ho  c
 ◦ Tính chi phí b ng r  i ro toàn c  c
VVùùngng rara quyquy   tt     nhnh
 Phân ho  ch không gian   c tr  ng ra c ph  n không 
 giao nhau R 1,, R c v i x thu  c R i n u x    c phân 
 vào l  p w i
 Ri    c g  i là vùng ra quy  t   nh (decision region)
 Biên bao quanh các R i    c g  i là biên ra quy  t 
   nh (decision boundary)
VVùùngng rara quyquy   tt     nhnh (tt)(tt)
BiBi   tt hh ààmm chocho phânphân phph   ii chuchu   nn
 Xây d  ng h   phân l  p v  i tiêu chí c c ti  u hóa 
 trung bình xác su  t l  i
 S  d ng bi  t hàm
 Gi   thi  t
do  ó
 2
TrTr     ngng hh   pp 1:1: Σi = σ I
   m i l  p: các   c tr  ng thành ph  n   c l  p v  i 
 nhau và có cùng ph  ơ ng sai σ 2
 Biên ra quy  t   nh có    c nh   gi  i ph  ơ ng trình
 gi()x= g j () x
 T
 Suy ra biên w( x− x 0 ) = 0
 ◦ Trong  ó w =µi − µ j
 1 σ 2 P(ω )
 x =+−(µµ ) lni ( µµ − )
 0 2i j 2 P (ω ) i j
 µi− µ j j
 2
TrTr     ngng hh   pp 1:1: Σi = σ I
 N u P(w i) = P(w j)
 2
TrTr     ngng hh   pp 1:1: Σi = σ I
 N u P(w i)   P(w j)
TrTr     ngng hh   pp 2:2: Σi = Σ
  Hi  p ph  ơ ng sai   m i l  p   u nh   nhau và b t k  
  Biên ra quy  t   nh
 T
 w( x− x 0 ) = 0
 ◦ Trong  ó
 −1
 w =Σ( µi − µ j )
 1 1 P(ω )
 =+−i −
 x0 (µµi j )T −1 ln ( µµi j )
 2 (µij− µ )( Σµ ij − µ )()P ω j
TrTr     ngng hh   pp 2:2: Σi = Σ
TrTr     ngng hh   pp 3:3: Σ i bb   tt kk   
   y là     ng h  p t  ng quát nh  t: các ma tr  n hi  p 
 ph  ơ ng sai không nh  t thi  t b  ng nhau.
 Bi  t hàm là hàm b  c 2
 1T−1 T − 1 T − 1  1
 gi(x )=− x Σ ix − 2µ iiiii Σ x +µΣµ  − ln Σ i + lnP (ω i )
 2 2
 T T
 =xWxi + w i x + w i 0
 Biên ra quy  t   nh có th   là hyperquadaric 
 (hyperplane, c  p hyperplane, hypersphare,)
TrTr     ngng hh   pp 3:3: Σ i bb   tt kk   
TrTr     ngng hh   pp 3:3: Σ i bb   tt kk   
TrTr     ngng hh   pp 3:3: Σ i bb   tt kk   
VVíí dd  ::
 2 l  p w 1, w 2 v i P(w 1) = P(w 2) = 0.5
 1 1 x2 
 p( xω1 )= N (0,3) = exp − . 
 2π 3 2 3 
 1 1 
 pxN(ω )= (2,1) = exp −− ( x 2) 2 
 2 2π 2 
VVíí dd   (tt)(tt)
 Bi  t hàm
 1 1
 gx( )=− x2 − ln 3 + ln P (ω )
 1 6 2 1
 1
 gx()=− xx2 + 2 −+ 2ln() P ω
 2 2 2
 Vùng ra quy  t   nh R 1 th  a g 1(x) > g 2(x)
 1 1 1
 −x2 −ln3ln() + Pω >− xxP2 +−+ 2 2ln() ω
 6 21 2 2
 2
 ⇔−+−+2xx 12 12 3ln3 6ln P (ω1 ) − 6ln P ( ω 2 ) > 0
 ⇔x ∈()() −∞,0.84 ∪ 5.16, ∞
VVíí dd   (tt)(tt)
DDàànn bb ààii
 Gi  i thi  u
 Lý thuy  t ra quy  t   nh Bayes
 Phân l  p b  ng bi  t hàm
 Một s ố vấn đề mở rộng
 ◦   c tr  ng r  i r  c
 ◦   c tr  ng khi  m khuy  t
 Xây d  ng h   phân l  p
    cc trtr   ngng rr   ii rr   cc
 d
 x ch   nh  n 1 trong m giá tr   v1,, v m ∈ ℜ
 Thay p( x|w) b  ng P( x|w)
    cc trtr   ngng bb    thithi   uu vv àà bibi   nn dd   ngng bb   ii 
nhinhi   uu
 Khi  ã xây d  ng xong h   phân l  p.
 V i m  t   c tr  ng m  i có khi  m khuy  t    a vào
 ◦ Do thi  u m  t vài   c tr  ng thành ph  n
 ◦ Do nhi  u
 C n ph  i kh  c ph  c nh  ng khi  m khuy  t  ó
 (t   tìm hi  u trong Phân l  p Bayes.pdf)
DDàànn bb ààii
 Gi  i thi  u
 Lý thuy  t ra quy  t   nh Bayes
 Phân l  p b  ng bi  t hàm
 M t s   v n    m  r ng
 Xây d ựng h ệ phân l ớp
 ◦ Hu  n luy  n và ki  m tra
 ◦ Independent Test Sample
 ◦ Cross-validation
XâyXây dd   ngng hh    phânphân ll   pp
 T p d   li  u D = { x1, x2, , xn}
 2 b  c xây d  ng h   phân l  p
 ◦ B1: Hu  n luy  n    tìm ra tham s   cho mô hình phân 
 l p
 ◦ B2: Ki  m tra ‘   t t’ c a h   phân l  p tìm    c
 C n chia D ra làm 2 t  p
 ◦ Dtrain         c 1
 ◦ Dtest         c 2
BB    cc 1:1: huhu   nn luyluy   nn
 P(w i) i=1..c
 cost
BB    cc 2:2: kiki   mm tratra
 c
 (i)
 ∑ n cc
  i=1
 Dtest
 cost
IndependentIndependent TestTest SampleSample
    c  ng d  ng khi t  p m  u l  n
 -Lấy ng ẫu nhiên n train đối t ượng ở D cho vào 
 Dtrain , ph ần còn l ại n test đối t ượng cho vào 
 Dtest .
 - Dùng D train để hu ấn luy ện
 - Dùng D test để ki ểm tra
 - Xác định t ỉ lệ phân lo ại đúng
 c
 (i)
 ∑ n cc
 P(CC ) = i=1
 Dtest
CrossCross --validationvalidation
     c  ng d  ng khi t  p m  u nh  
 - Chia t ập m ẫu thành k ph ần b ằng nhau D 1,, D k
 -Ncc := 0
 - For i t ừ 1  k
 Dtrain = D\Di; D test = D i
 Dùng D train để hu ấn luy ện
 Dùng D test để ki ểm tra
 c
 (i)
 Ncc := Ncc + ∑ n cc
 - End for i=1
 N
 P(CC ) = cc
 D
            Các file đính kèm theo tài liệu này:
 bai_giang_phan_loai_bang_bayes_ban_hay.pdf bai_giang_phan_loai_bang_bayes_ban_hay.pdf