Trên thực tế, Wi-Fi RSSI thu thập tại từng RP khác nhau từ mỗi AP
khác nhau có phân bố khác nhau, có thể gồm một hoặc nhiều thành phần
Gauss. Nếu sử dụng GMM với J thành phần Gauss, số tham số của
GMM sẽ là NPs=3J-1. Điều này có nghĩa là số lượng tham số cần lưu
trong cơ sở dữ liệu và số phép toán của thuật toán định vị tỉ lệ thuận với
số thành phần Gauss được sử dụng mô tả phân bố của Wi-Fi RSSI. Vì
vậy cần có một giải pháp ước lượng số thành phần Gauss trong GMM
mô tả phân bố của Wi-Fi RSSI nhằm tối ưu cơ sở dữ liệu và làm giảm
mức độ phức tạp của các phép tính trong thuật toán định vị của IPS
27 trang |
Chia sẻ: honganh20 | Lượt xem: 342 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Nghiên cứu, phát triển kỹ thuật định vị trong nhà sử dụng tín hiệu wi - Fi, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ặt vấn đề đã nghiên cứu
Phân bố của Wi-Fi RSSI có thể tuân theo phân phối Gauss hoặc bao
gồm nhiều thành phần Gauss khi được thu thập trong điều kiện môi
trường xung quanh thay đổi (cửa đóng/mở, người đi lại). Vì vậy so với
phân phối Gauss, GMM mô tả phân bố của Wi-Fi RSSI chính xác hơn.
Tuy nhiên trên thực tế một số mẫu dữ liệu có thể không quan sát được
do một trong hai nguyên nhân sau:
- Thiết bị thu thập Wi-Fi RSSI không đo được các giá trị nhỏ hơn
ngưỡng thu, khi đó sẽ trả về giá trị bằng với ngưỡng thu (thông thường
là – 100dBm với các điện thoại thông minh). Hiện tượng này được gọi
tắt là “censoring”.
- Đôi khi tín hiệu Wi-Fi đột ngột bị mất do AP ngừng hoạt động, khi
đó thiết bị thu thập Wi-Fi RSSI cũng trả về giá trị bằng với ngưỡng thu.
Hiện tượng này được gọi tắt là “dropping”.
Từ kết quả khảo sát Wi-Fi RSSI từ kết quả nghiên cứu trong các công
trình đã công bố, tập dữ liệu (Wi-Fi RSSI) thu thập tại một RP, từ một
AP có đặc điểm tương ứng với một trong số tám trường hợp sau:
(1) Dữ liệu có phân bố tuân theo phân phối Gauss, quan sát được toàn
bộ tập dữ liệu;
(2) Dữ liệu có phân bố tuân theo phân phối Gauss, một phần dữ liệu
không quan sát được do bị censoring;
(3) Dữ liệu có phân bố tuân theo phân phối Gauss, một phần dữ liệu
không quan sát được do bị dropping;
(4) Dữ liệu có phân bố tuân theo phân phối Gauss, một phân dữ liệu
không quan sát được do censoring và dropping;
5
(5) Dữ liệu có phân bố gồm đa thành phần Gauss, quan sát được toàn
bộ tập dữ liệu;
(6) Dữ liệu có phân bố gồm đa thành phần Gauss, một phần dữ liệu
không quan sát được do censoring (hình 1.10a);
(7) Dữ liệu có phân bố gồm đa thành phần Gauss, một phần dữ liệu
không quan sát được do dropping (hình 1.10b);
(8) Dữ liệu có phân bố gồm đa thành phần Gauss, một phần dữ liệu
không quan sát được do censoring và dropping (hình 1.10c).
a.
b.
c.
Hình 1.10. Biểu đồ tần suất của Wi-Fi RSSI thể hiện các vấn đề
censoring, dropping và đa thành phần Gauss
Các tác giả trong các bài báo khác nhau đã giải quyết được tập dữ liệu
có các đặc điểm như các trường hợp (1)-(5). Tuy nhiên chưa có nghiên
cứu nào giải quyết được tập dữ liệu có các đặc điểm như các trường hợp
(6)-(8). Vì lý do này, luận án tập trung nghiên cứu, đề xuất giải pháp
phát triển RSSIF-IPT để giải quyết đồng thời các vấn đề censoring,
dropping và đa thành phần Gauss (các trường hợp (6)-(8)) và vẫn đảm
bảo đúng khi dữ liệu có các đặc điểm như các trường hợp (1)-(5).
1.3. Kết luận chương 1
Trong chương này, luận án trình bày các kỹ thuật định vị trong nhà sử
dụng tín hiệu Wi-Fi. Chương 1 cũng tổng hợp và phân tích các công
trình nghiên cứu về RSSIF-IPT. Trên cơ sở nghiên cứu các vấn đề đã và
chưa được giải quyết đối với RSSIF-IPT, luận án đề ra định hướng
nghiên cứu.
6
CHƯƠNG 2. ƯỚC LƯỢNG THAM SỐ CỦA MÔ HÌNH MÔ TẢ
PHÂN BỐ Wi-Fi RSSI
2.1. Đặt vấn đề
Trong thực tế, tập dữ liệu bao gồm các phép đo chỉ số cường độ tín
hiệu nhận được của tín hiệu Wi-Fi (Wi-Fi RSSI) thu thập tại 1 điểm
tham chiếu (RP) từ 1 điểm truy cập (AP) có phân bố tuân theo GMM với
từ 1 đến J thành phần Gauss (J là một số hữu hạn). Gọi ny là giá trị RSSI
thu thập được ở lần thứ n từ một AP tại một RP ( ny , 1 n N ), N
là số lần thu thập. Do các lần thu thập là độc lập với nhau nên các ny
độc lập với nhau. Nếu coi ny là các biến ngẫu nhiên có phân bố tuân
theo GMM khi đó hàm mật mật độ xác suất (PDF: Probability Density
Function) sẽ là:
1
( ),p ; ;
J
n j n j
j
y w yΘ
(2.1)
với Θ là bộ tham số của GMM, jw và j là trọng số và tham số
của thành phần Gauss thứ j.
Gọi c là ngưỡng thu của thiết bị thu thập Wi-Fi RSSI, thay vì thu thập
được tập dữ liệu đầy đủ 1 2 Ny ,y ,...,yy , thiết bị thu thập Wi-Fi RSSI
chỉ thu thập được tập dữ liệu không đầy đủ 1 2 Nx ,x ,...,xx với:
, 1 .
khi
khi
n n
n
n
y y c
x n N
c y c
(2.4)
Đây chính là hiện tượng hiện tượng một phần dữ liệu không quan sát
được do censoring.
Gọi 1 2 Nd ,d ,...,dd là tập các biến nhị phân biểu thị khi một mẫu dữ
liệu ( )ny không quan sát được do dropping 1( )nd hoặc quan sát được
( 0)nd . Khi đó, thay vì thu thập được tập dữ liệu đầy đủ ( )y , ở một số
7
trường hợp, thiết bị thu thập Wi-Fi RSSI chỉ thu thập được tập dữ liệu
không đầy đủ ( )x với:
, 1 .
khi =0
khi =1
n n
n
n
y d
x n N
c d
(2.5)
Các mẫu dữ liệu có giá trị bằng c trong trường hợp này là các mẫu dữ
liệu không quan sát được do dropping.
Censoring và dropping hoàn toàn có thể xảy ra đồng thời, khi đó:
, 1 .
khi vaø =0
khi hoaëc =1
n n n
n
n n
y y c d
x n N
c y c d
(2.6)
Mục tiêu đặt ra của chương 2 là ước lượng các tham số ( )Θ của mô
hình mô tả phân bố của tập dữ liệu y (GMM) khi thu thập được tập dữ
liệu x .
2.2. Giới thiệu thuật toán EM
Thuật toán EM được sử dụng giải bài toán tìm hợp lý cực đại (ML:
Maximum Likelihood) hoặc cực đại xác suất hậu nghiệm (MaP:
Maximum a Posteriori) của một mô hình thống kê có các biến ẩn
(unobservable variables) bằng cách thực hiện liên tiếp các vòng lặp, mỗi
vòng lặp gồm 2 bước:
- Bước E (E-step): Tính giá trị kỳ vọng (expected value) của hàm hợp
lý (LF: Likelihood Function).
- Bước M (M-step): Ước lượng tham số của mô hình để cực đại hóa
giá trị kỳ vọng của hàm hợp lý đã tính được ở bước E.
2.3. Ước lượng các tham số của GMM khi một phần dữ liệu không
quan sát được do censoring
Thuật toán EM ước lượng các tham số của GMM khi một phần dữ liệu
không quan sát được do censoring (EM-C-GMM) [CT3]:
Gọi Δnj ( 1 , 1n N j J ) là tập các biến nhị phân tiềm ẩn (latent
variables), Δ 1nj khi ny thuộc thành phần Gauss thứ j ; Δ 0nj với các
8
trường hợp khác. Khi đó, kỳ vọng của logarit hàm hợp lý cho trước bởi
tập dữ liệu quan sát được ( )x và các tham số ở lần lặp thứ (k) được xác
định như sau:
Bước E:
( ) ( )
( )
1 1
Q ; ln ; ,
ln p ; p , | ; d
;
.
k k
N J
k
n n n nnj j j nj
n j
w y y x y
Θ Θ Θ y Δ Θ
Θ
x
(2.17)
Hàm ( )Q ; kΘ Θ được tính cho trường hợp n nx y và trường hợp nx c
, kết quả như sau:
( ) ( )
( )
( )
( )
1 1
1 1 0
1 ln ln
β
Q ; ; ;
;
; dln ln
I
.
N J
n j
k k
n j n j
k
n jk
j n
n j
cN J
n n
n j
j k
j
j
z w
z w
x x
y
y y
Θ Θ
(2.19)
Trong công thức (2.19), ( 1 ) nz n N là các biến nhị phân thể hiện các
mẫu dữ liệu quan sát được hoặc không quan sát được. 0nz khi n nx y ,
khi đó ny c; 1nz khi nx c, khi đó ny c . Ngoài ra ( )( ; ) kn jx ,
( )β( ) kj và (0 )( )I kj được xác định như sau:
( ) ( )
( )
( ) ( )
1
;
; ;
;
k k
nj jk
n j J
k k
nj j
j
w x
x
w x
(2.20)
( ) ( )
( )
( ( )
1
0
)
0Iβ
I
;
k k
j jk
j J
k k
j j
j
w
w
(2.21)
( )
( ) (
( )0
) 1; d erfc .
2 2
I
kc
jk k
n nj j k
j
c
y y
(2.22)
Bước M:
9
Các tham số ước lượng được ở lần lặp thứ ( 1)k+ được xác định bằng
cách lần lượt lấy đạo hàm riêng của ( )Q ; kΘ Θ trong công thức (2.19)
theo , , j j jw và gán bằng 0, kết quả như sau:
( )
( ) ( )
( )
( 1)
( )
( ) ( )
1
1 10
1
)
1
(
1 0
I
1 β
I
I
.
1 ;
I
;
β
N N
n n n
n n
k
jk k
n j j k
jk
j k
jk k
n j j k
N N
n n
n nj
z x z
z z
x
x
(2.23)
( ) ( )
( 1)2
( ) ( )
( ) ( ) ( )
2( ) ( )
( ) ( )
( ) ( )
2
1
1 1
2 1
10 0
1 1
;
;
+ .
;
1
1 β
I 2 I
β
I I
1 β
k k
n j jk
j
k k
n j j
k k k
j j jk k
j jk k
j
N
n n
n
N N
n n
n n
j
N
n
n
N N
n n
k
j
n n
k
n j
z x
z z
z
x
x
x
z
z
(2.24)
( ) ( )
( 1) 1 1
;1 β
.
N N
n n
n n
k k
n j j
k
j
xz z
N
w
(2.25)
Trong các công thức (2.23)- (2.25), )1 (I kj và )2 (I kj được xác định
như sau:
2( )
( ) ( ) ( ) ( )
( )1 0
1 exp ;I
2 2
I
k
jk k k k
j j j j k
j
c (2.26)
2( )2 2( ) ( ) ( ) ( ) ( ) (
( )0
)
2I
1 exp .
2
I
2
k
jk k k k k k
j j j j j j k
j
c
c
(2.27)
10
2.4. Ước lượng các tham số của GMM khi một phần dữ liệu không
quan sát được do dropping
Thuật toán EM ước lượng các tham số của GMM khi một phần dữ liệu
không quan sát được do dropping (EM-D-GMM) [CT2]:
Bước E:
( )
1
1
(
1
)
( )
1
ln ln
1 ln ln ln; .
Q ;
1 ;
N J
k
n j j
k
k
n nj
n j
N J
n
n j
jj
d w
x x
w
d w
Θ Θ
(2.30)
Trong công thức (2.30), P( 1) nd là xác suất xảy ra hiện tượng
dropping.
Bước M:
(
1
)
(
1
1)
( )
;
.
;
1
1
N
n n
n
k
n j
k
j
k
j
N
n n
n
xd x
xd
(2.31)
2(( )
( 1)2
( )
)
1
1
;
.
1
1 ;
N
kk
n jk
j
k
n j
n n j
n
N
n
n
xd x
d x
(2.32)
( )
1 1
( )
( 1)
1 ;
.
N N
n n
k k
n j j
k
j
n n
x wd d
N
w
(2.33)
( 1) 1 .
N
n
nk
d
N
(2.34)
2.5. Ước lượng các tham số của GMM khi một phần dữ liệu không
quan sát được do censoring và dropping
Thuật toán EM ước lượng các tham số của GMM khi một phần dữ liệu
không quan sát được do censoring và dropping (EM-CD-GMM) [CT4]:
11
Bước E:
( )
( )
( )
( ) ( ) ( )
(
1 1
1 1 0
1
)
( ) ( ) ( )
1
1 ln ln ln
β α ln ln
Q ;
; 1 ;
;
, 1
I
α
; d
1 , ln .
k
k
n nj j
kc
n
N J
n j
n j
N J
n nj
n j
N J
n
n j
jk k k
nj j k
j
k k k
j
v w
v w
x x
y
y y
v w
Θ Θ
Θ
Θ
(2.52)
Trong công thức (2.52): ( 1 ) nv n N là các biến nhị phân thể hiện các
mẫu dữ liệu quan sát được hoặc không quan sát được ( 0nv khi ny c
và 0nd , khi đó n nx y ; 1nv khi ny c hoặc 1nd , khi đó );nx c
( ) ( ) ( )
0
1( ) ( )
( ) ( ) ( ) ( )
0
1
1 I
,
1
α
I
J
k k k
j j
jk k
J
k k k k
j j
j
w
w
Θ
Bước M:
1
( )
( ) ( ) ( ) ( )
( )
( 1)
( )
1 10
1
( ) ( ) (
1
)
; ,
.
;
I
1 β α
I
1 β ,α
k
jk k k k
n j j k
jk
j
k
N N
n n n
k k k
n j
n n
N N
n n
n n
j
v x
v v
x v
x
Θ
Θ
(2.53)
( ) ( ) 2
( 1)2
( ) ( ) (
1
1 1
2 1
10
) ( )
( ) ( ) ( )
2( ) ( ) ( ) ( )
( ) ( )
( ) ( ) (
0
)
1
1
1 β α
I 2 I
β α
;
; ,
,
I
;1 β
+
,
I
α
k k
n j jk
j
k k k k
n j j
k k k
j j jk k k k
j jk k
N
n n
n
j j
k k k
n j j
N N
n n
n n
N
n
n
N
n
n
x
x
x
v x
v v
v
v
Θ
Θ
Θ
1
( )
.
N
n
n
k v
(2.54)
12
( ) ( ) ( ) ( )
( 1)
( ) (
1
)
1
1
; ,
1 ,
β
.
1 α
α
k k k k
n j j
k
j
N N
n n
n n
n
k
N
k
n
v v
v
x
N
w
N
Θ
Θ
(2.55)
( )
( 1
( )
1)
,
.
1 α
k k n
nk
N
v
N
Θ
(2.56)
Từ các công thức (2.53) - (2.56) có thể nhận thấy:
- Nếu 0nv (dữ liệu thu thập được đầy đủ), (2.52)- (2.55) rút gọn về
các công thức của thuật toán EM ước lượng tham số trong GMM (EM-
GMM, trường hợp 5);
- Nếu 1J , (2.52)- (2.56) rút gọn về các công thức của thuật toán EM
ước lượng tham số của phân phối Gauss khi một phần dữ liệu không
quan sát được do censoring và dropping (EM-CD-G, các trường hợp (1)-
(4));
Từ các lập luận trên có thể kết luận: EM-CD-GMM [CT4] ngoài việc
giải quyết được đồng thời cả 3 vấn đề, bao gồm đa thành phần Gauss
trong phân bố của Wi-Fi RSSI, censoring và dropping (các trường hợp
(5)-(8), mục 1.2) còn hoàn toàn đúng với khi dữ liệu có phân bố tuân
theo phân phối Gauss (các trường hợp (1)-(4), mục 1.2).
2.6. Đánh giá sai số của các tham số trong GMM ước lượng được
bằng các thuật toán EM
Trong mục này, thuật toán EM-CD-GMM sẽ được kiểm nghiệm và so
sánh với các thuật toán EM khác đã được công bố trên tập dữ liệu mô
phỏng, thông qua khoảng cách Kullback Leibler (KLD: Kullback
Leibler Divergence). Sau 1000 lần thực nghiệm, giá trị trung bình KLD
( )KLD của các thuật toán được thể hiện như bảng 2.1 và độ lệch chuẩn (
KLD ) được thể hiện như bảng 2.2 (khi c= – 90dBm).
Bảng 2.1. KLD của các thuật toán EM sau 1000 lần thực nghiệm
13
c
(dBm) Thuật toán
0 0.075 0.15 0.225 0.3
–90
EM-GMM 3.1491 3.2325 3.3142 3.5054 6.1253
EM-CD-G 0.0798 0.0864 0.1096 0.1329 0.1998
EM-CD-GMM 0.0098 0.0111 0.0229 0.0334 0.0364
Bảng 2.2. KLD của các thuật toán EM sau 1000 lần thực nghiệm
c
(dBm) Thuật toán
0 0.075 0.15 0.225 0.3
–90
EM-GMM 0.0351 0.3535 1.7911 2.202 2.4937
EM-CD-G 0.1199 0.1364 0.1535 0.1963 0.296
EM-CD-GMM 0.0227 0.0601 0.0857 0.1005 0.1302
Từ các kết quả thực nghiệm trong bảng 2.1 và bảng 2.2 có thể nhận
thấy:
- Với 0 và 96c , dữ liệu quan sát được gần như đầy đủ. Khi đó
không có sự sai lệch lớn giữa các tham số được ước lượng bằng EM-
GMM và các tham số được ước lượng bằng EM-CD-GMM. EM-CD-G
có sai số lớn hơn do coi phân bố của dữ liệu tuân theo phân phối Gauss.
- Với các trường hợp khác, KLD và KLD của EM-CD-GMM luôn nhỏ
nhất. Bởi vậy EM-CD-GMM là thuật toán có thể ước lượng chính xác
nhất mô hình mô tả phân bố của Wi-Fi RSSI khi tập dữ liệu thu thập
được có phân bố gồm đa thành phần Gauss, một phần không quan sát
được do censoring và dropping.
2.7. Kết luận chương 2
Trong chương 2, tác giả đề xuất ba thuật toán ước lượng các tham số
của GMM trong các trường hợp: Một phần dữ liệu không quan sát được
do censoring; một phần dữ liệu không quan sát được do dropping; một
phần dữ liệu không quan sát được do censoring và dropping. Các kết
quả thực nghiệm đã chứng minh hiệu quả của thuật toán EM-CD-GMM
so với EM-GMM và EM-CD-G.
14
CHƯƠNG 3. ƯỚC LƯỢNG SỐ THÀNH PHẦN GAUSS TRONG
MÔ HÌNH MÔ TẢ PHÂN BỐ Wi-Fi RSSI
3.1. Đặt vấn đề
Trên thực tế, Wi-Fi RSSI thu thập tại từng RP khác nhau từ mỗi AP
khác nhau có phân bố khác nhau, có thể gồm một hoặc nhiều thành phần
Gauss. Nếu sử dụng GMM với J thành phần Gauss, số tham số của
GMM sẽ là NPs=3J-1. Điều này có nghĩa là số lượng tham số cần lưu
trong cơ sở dữ liệu và số phép toán của thuật toán định vị tỉ lệ thuận với
số thành phần Gauss được sử dụng mô tả phân bố của Wi-Fi RSSI. Vì
vậy cần có một giải pháp ước lượng số thành phần Gauss trong GMM
mô tả phân bố của Wi-Fi RSSI nhằm tối ưu cơ sở dữ liệu và làm giảm
mức độ phức tạp của các phép tính trong thuật toán định vị của IPS.
3.2. Các phương pháp ước lượng số thành phần Gauss trong GMM
3.2.1. Ước lượng số thành phần Gauss trong GMM bằng phương
pháp hàm phạt (PF: Penalty Function)
Gọi x là tập dữ liệu quan sát được, có phân bố tuân theo GMM; N là
số mẫu dữ liệu trong tập x ; ˆ JΘ là bộ tham số của GMM với J thành
phần Gauss mô tả phân bố của x ; PsN là số tham số trong GMM;
ˆ( | )JΘ x là hàm hợp lý. PF của AIC, AIC3 và BIC được định nghĩa lần
lượt như trong các công thức (3.3)-(3.5).
AIC
ˆ ˆ( ) [ ( | )]PF 2ln 2 . J J PsNΘ Θ x (3.3)
AIC3
ˆ ˆ( ) [ ( | )]PF 2ln 3 . J J PsNΘ Θ x (3.4)
BIC ˆ ˆ( ) [ ( | )]PF 2ln ln . J J PsN NΘ Θ x (3.5)
3.2.2. Ước lượng số thành phần Gauss trong GMM bằng phương
pháp hàm đặc trưng (CF: Characteristic Function)
Phương pháp CF sử dụng sự hội tụ của tổng có trọng số của các phần
thực trong logarit của hàm đặc trưng (SWRLCF: Sum of Weighted Real
15
parts of all Log-Characteristic Functions) để xác định số thành phần
Gauss như sau:
1
ˆ ˆSWRLCF( ) .
j
J
j
j
wJ (3.6)
3.3. Ước lượng số thành phần Gauss trong GMM khi một phần dữ
liệu không quan sát được do censoring và dropping [CT5]
Thành phần ˆ[ ( | )]ln JΘ x của PFBIC trong (3.5) được tính như sau:
1 1
0
1 1
ˆˆ ˆ1 ln 1 ;
ˆˆ ˆ ln 1
ˆ ˆln , |
I .ˆ
j
N J
n n j
n j
N J
n jj
j
J
n
v x
wv
wΘ x
(3.7)
Gọi BIC CD ˆ( , )ˆPF JΘ là PF tương ứng với trường hợp một phần dữ liệu
không quan sát được do censoring và dropping, ta có:
1 1
BIC
1
CD
0
1
ˆˆ ˆ2 1 ln 1 ;
ˆˆ ˆ 2 ln
ˆ ˆPF ,
ˆ 3 ln .1 I
N J
n n j
n
jJ
j
j
N J
n j
n j
w
w N
v
J
x
v
Θ
(3.12)
Thuật toán ước lượng số thành phần Gauss và các tham số trong
GMM khi một phần dữ liệu không quan sát được do censoring và
dropping (EM-CD-GMM-PFBIC-CD) được đề xuất như sau (hình 3.4):
Các tham số đầu vào:Tập dữ liệu ( )x với một phần không quan sát
được do censoring và dropping; ngưỡng hội tụ của thuật toán EM-CD-
GMM ( ) EM ; số thành phần Gauss tối đa ( )maxJ được sử dụng để tính
các hàm PFBIC-CD .
Các tham số đầu ra: Các tham số ước lượng được, bao gồm số thành
phần Gauss ˆ( )J và các tham số trong GMM ˆˆ ˆ( , )JΘ mô tả phân bố của
tập x .
16
Sai
Đúng
Bắt đầu
1J
1; khôûi taïo = , , , =1 vaø j j j jwk j J
β α
Θ
( ) ( ) ( ) ( ) ( ) (
0 2
)
1
( )
( () )
,I I I;
|
Böôùc E: Tính , , , , vaø
theo EM-CD-GMM; tính ln theo (3.11) ôû voøng laëp thöù ( ),
k k k k k k
n j j j j j
k
kk
J
x
kx
( 1) ( 1) ( 1) ( 1)
( 1
( 1)
( )1) |
, ,
ln ,
k k k k
j j
k
j
k
j
k
J
w j J
k +1
Θ x
Böôùc M: Tính = , =1 vaø theo EM-CD-GMM;
tính theo (3.11) ôû voøng laëp thöù ( )
( 1) ( 1) ( 1) ( 1)( 1)
1 ˆˆ ˆ ˆ ˆ,..., , ,
Löu taïm thôøi caùc tham soá trong GMM vôùi thaønh phaàn Gauss,
öôùc löôïng baèng EM-CD-GMM:
,vôùi = , =1 vaø
k k k k
j j
k
J J j j j w
J
j JΘ
BIC CD ˆTính PF , theo (3.12)ˆJ Θ
ˆ ˆ ˆ ˆ1 1 1
ˆ)
ˆˆ ˆˆ ˆ ˆ ˆ ˆ ˆ,..., ;
Löu soá thaønh phaàn Gauss öôùc löôïng ñöôïc ( vaø caùc tham soá trong GMM
vôùi thaønh phaàn Gauss: = , , , , J J J J
J
J w wΘ
J=Jmax
BIC CD BIC CD
ˆBIC CD BIC CD 1 BIC CD
PF PF :
ˆ ˆ ˆPF , min PF , ,...,Pˆ ˆ F ˆ,
max
max
J J JJ
J
Θ Θ Θ
Choïn nhoû nhaát trong soá caùc
Đúng
Kết thúc
1k k
1J J
Sai
( 1)( 1) ( ) ( )| |ln , ln ,J EMkk kkJ Θ x Θ x
EM-CD-GMM
Hình 3.4. Thuật toán EM-CD-GMM-PFBIC-CD
17
3.4. Đánh giá các thuật toán ước lượng số thành phần Gauss trong
GMM
Trong mục này, các thuật toán ước lượng số thành phần Gauss trong
GMM được đánh giá thông qua các lần thực nghiệm khác nhau trên các
tập dữ liệu mô phỏng. Các thuật toán được thực nghiệm bao gồm:
- Thuật toán ước lượng số thành phần Gauss sử dụng EM-GMM và
PFAIC (EM-GMM-PFAIC), các tham số đầu vào được khởi tạo gồm
610 EM , 6maxJ ;
- Thuật toán ước lượng số thành phần Gauss sử dụng EM-GMM và
PFBIC (EM-GMM-PFBIC), các tham số đầu vào được khởi tạo gồm
610 EM , 6maxJ ;
- Thuật toán ước lượng số thành phần Gauss sử dụng EM-GMM và
SWRLCF (EM-GMM-SWRLCF), các tham số đầu vào được khởi tạo
gồm 610 EM , 0.02 CF ;
- Thuật toán EM-CD-GMM-PFBIC-CD được tác giả đề xuất, các tham số
đầu vào được khởi tạo gồm 610 EM , 6maxJ .
Sau 1000 lần thực nghiệm, kết quả thể hiện như trong bảng 3.2, với
ˆP( )J=J , ˆP(| | 1) J J và ˆP( | 2) J J lần lượt là xác suất số thành phần
Gauss ước lượng ˆ( )J được bằng số thành phần Gauss thực( )J , xác suất
Jˆ lệch so với J 1 thành phần Gauss và xác suất Jˆ lệch so với J từ 2
thành phần Gauss trở lên.
Từ các kết quả trong bảng 3.2. có thể thấy, trong mọi trường hợp, EM-
CD-GMM-PFBIC-CD đều có kết quả tốt hơn so với các thuật toán khác.
Cụ thể, tính trung bình xác suất ước lượng đúng số thành phần Gauss
trong GMM của EM-CD-GMM-PFBIC-CD cao hơn so với xác suất ước
lượng đúng số thành phần Gauss trong GMM của EM-GMM-PFAIC,
EM-GMM-PFBIC và EM-GMM-SWRLCF lần lượt là 76%, 69% và
67%.
18
Bảng 3.2. Thống kê xác suất ước lượng đúng, lệch 1 và lệch từ 2
thành phần Gauss trở lên của các thuật toán (khi c= 92 dBm)
c
(dBm)
Thuật toán Xác suất
0 0.1 0.2
92
EM-GMM-PFAIC
ˆP( )J=J 0.01 0.01 0.01
ˆP(| | 1) J J 0.31 0.27 0.22
ˆP( | 2) J J 0.68 0.72 0.78
EM-GMM-PFBIC
ˆP( )J=J 0.01 0.01 0.01
ˆP(| | 1) J J 0.39 0.37 0.3
ˆP( | 2) J J 0.6 0.62 0.69
EM-GMM-SWRLCF
ˆP( )J=J 0.52 0.02 0.01
ˆP(| | 1) J J 0.39 0.78 0.77
ˆP( | 2) J J 0.09 0.2 0.22
EM-CD-GMM-PFBIC-CD
ˆP( )J=J 0.82 0.8 0.79
ˆP(| | 1) J J 0.16 0.18 0.2
ˆP( | 2) J J 0.02 0.02 0.01
3.5. Kết luận chương 3
Khi một phần dữ liệu không quan sát được do dropping hoặc
censoring hoặc cả hai, các phương pháp ước lượng số thành phần Gauss
trong GMM được công bố trước đều có sai số lớn do chưa đề cập tới các
mẫu dữ liệu không quan sát được. Trong chương 3, PF của BIC được
tính trên cả các mẫu dữ liệu quan sát được nx c và các mẫu dữ liệu
không quan sát được nx c . Đây là những điểm mới trong các phương
pháp ước lượng số thành phần Gauss của GMM mô tả phân bố Wi-Fi
RSSI được đề xuất so với các phương pháp được giới thiệu trong các
công bố trên.
19
CHƯƠNG 4. XÂY DỰNG THUẬT TOÁN ĐỊNH VỊ VÀ CÁC KẾT
QUẢ THỰC NGHIỆM IPS
4.1. Đặt vấn đề
P-RSSIF-IPT bao gồm giai đoạn huấn luyện ngoại tuyến và giai đoạn
định vị trực tuyến. Trong giai đoạn huấn luyện ngoại tuyến, gọi RPN là
số điểm tham chiếu (RP) trong khu vực cần định vị; gọi APN là số điểm
truy cập Wi-Fi (AP); gọi , 1 , 1 q i RP APq N i Nx là tập dữ liệu thu
thập được tại RP thứ q từ AP thứ i , khi đó, giai đoạn huấn luyện ngoại
tuyến của IPS sử dụng P-RSSIF-IPT cần xây dựng cơ sở dữ liệu:
,ˆ ; 1 , 1 , q i RP APq N i NΘR (4.1)
với ,ˆ q iΘ là bộ tham số của mô hình mô tả phân bố của ,q ix . Bộ tham số
này được ước lượng bằng thuật toán EM-CD-GMM-PFBIC-CD.
Trong giai đoạn định vị trực tuyến, gọi 1( ... ) AP
on on on
Nx xx là tập dữ
liệu do OB thu thập được, bài toán định vị tương đương với bài toán
phân lớp cho onx , với các lớp là các RP. Vị trí của OB sẽ tương ứng với
vị trí của một hoặc một số lớp (RP) “phù hợp” nhất với onx . Cực đại xác
xuất hậu nghiệm (MaP) là phương pháp được sử dụng phổ biên để ước
lượng vị trí của OB trong P-RSSIF-IPT sử dụng mô hình có tham số.
Tuy nhiên, ở môi trường trong nhà, Wi-Fi RSSI thường chịu ảnh hưởng
bởi các hiện tượng censoring, dropping. Bởi vậy trong chương này, thuật
toán định vị dựa trên phương pháp MaP được đề xuất để giải quyết vấn
đề một phần dữ liệu thu thập trong giai đoạn định vị trực tuyến không
quan sát được do censoring và dropping.
4.2. Thuật toán định vị dựa trên phương pháp MaP [CT5]
Gọi q là vị trí của RP thứ q trong khu vực cần định vị, khi OB thu
thập trực tuyến tại một vị trí nào đó các mẫu dữ liệu
1 2[ , ,..., ] AP
on on on on
Nx x xx , xác suất hậu nghiệm (posterior) được xác định
như sau:
20
1
1 1
p | P
p |
p | P
AP
APRP
N
on
q qi
on i
q NN
on
i q' q'
q' i
x
x
x
(4.2)
Trong công thức (4.2), P( )q là xác suất biên, nếu coi các RP là độc
lập với nhau:
;1P q
RPN
1 1
p | P
APRP NN
on
i q' q'
q' i
x là hằng số chuẩn hóa
(normalising constant); p |oni qx là hợp lý (likelihood) và được tính như
sau:
,
',
,
,
ˆ
, , , , ,
11
ˆ
', ', , ', ,
' 1 11
ˆ
, , , , , ,0
11
ˆ
, , , ,0
1
ˆˆ ˆ1 ;
khi
ˆˆ ˆ1 ;
p |
ˆ ˆ ˆˆ I 1
ˆˆ I
q iAP
q iAPRP
q iAP
q i
JN
on
q i q i j i q i j
ji on
iJNN
on
iq i q i j q i j
q ji
on
Jq N
q i j
Các file đính kèm theo tài liệu này:
- tom_tat_luan_an_nghien_cuu_phat_trien_ky_thuat_dinh_vi_trong.pdf