LỜI CAM ĐOAN . i
LỜI CẢM ƠN . ii
DANH MỤC HÌNH VẼ . iv
DANH MỤC BẢNG BIỀU, LƯỢC ĐỒ . vi
DANH MỤC CÁC TỪ VIẾT TẮT . vii
DANH MỤC CÁC KÝ HIỆU CHÍNH . x
MỞ ĐẦU . 1
1. Tính cấp thiết của đề tài . 1
2. Đối tượng và phạm vi nghiên cứu . 5
3. Mục tiêu nghiên cứu . 5
4. Phương pháp nghiên cứu . 6
5. Bố cục của luận án . 6
CHƯƠNG 1. TỔNG QUAN VỀ KỸ THUẬT ĐỊNH VỊ TRONG NHÀ SỬ
DỤNG TÍN HIỆU Wi-Fi . 8
1.1. Các kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi . 8
1.1.1. Kỹ thuật định vị tiệm cận . 8
1.1.2. Kỹ thuật định vị sử dụng ToA . 9
1.1.3. Kỹ thuật định vị sử dụng TDoA. 10
1.1.4. Kỹ thuật định vị sử dụng AoA . 11
1.1.5. Kỹ thuật định vị sử dụng kết hợp AoA và ToA . 12
1.1.6. Kỹ thuật định vị sử dụng RSSI và mô hình suy hao đường truyền
. 14
1.1.7. Kỹ thuật định vị dựa trên dấu vân tay RSSI . 15
1.1.7.1. RSSIF-IPT sử dụng phương pháp tất định . 15
1.1.7.2. RSSIF-IPT sử dụng phương pháp xác suất . 17
1.1.8. Đánh giá các kỹ thuật định vị . 21
144 trang |
Chia sẻ: honganh20 | Ngày: 15/03/2022 | Lượt xem: 320 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu, phát triển kỹ thuật định vị trong nhà sử dụng tín hiệu wi-Fi, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
)0 (I kj là tích phân được tính toán chi tiết như trong phụ lục 1, kết
quả:
( )
( ) (
( )0
) 1; d erf .I c
2 2
kc
jk k
j n j n k
j
c
y y
(2.22)
Bước M:
Các tham số ước lượng được ở lần lặp thứ ( 1)k + được xác định bằng
cách lần lượt lấy đạo hàm riêng của ( )Q ; kΘ Θ trong công thức (2.19) theo
, ,j j jw và gán bằng 0 (chi tiết như trong phụ lục 5), kết quả như sau:
( )
( ) ( )
( )
( 1)
( )
( ) ( )
1
1 10
1
)
1
(
1 0
I
1 β
I
I
.
1 ;
I
;
β
N N
n n n
n n
k
jk k
n j j k
jk
j k
jk k
n j j k
N N
n n
n nj
z x z
z z
x
x
(2.23)
( ) ( )
( 1)2
( ) ( )
( ) ( ) ( )
2( ) ( )
( ) ( )
( ) ( )
2
1
1 1
2 1
10 0
1 1
;
;
+ .
;
1
1 β
I 2 I
β
I I
1 β
k k
n j jk
j
k k
n j j
k k k
j j jk k
j jk k
j
N
n n
n
N N
n n
n n
j
N
n
n
N N
n n
k
j
n n
k
n j
z x
z z
z
x
x
x
z
z
(2.24)
( ) ( )
( 1) 1 1
;1 β
.
N N
n n
n n
k k
n j j
k
j
xz z
N
w (2.25)
Trong các công thức (2.23)-(2.25), )1 (I kj và )2 (I kj là các tích
phân, được tính toán chi tiết như trong phụ lục 2, 3, kết quả như sau:
44
2( )
( ) ( ) ( )
1 0
( )
( )
1 exp ;
2
I
2
I
k
jk k k k
j j j j k
j
c
(2.26)
2( )
2 2( ) ( ) ( ) ( ) ( )
2 0
( )
( )
1 eI xp .
2 2
I
k
jk k k k k k
j j j j j j k
j
c
c
(2.27)
Từ các công thức (2.23)-(2.25) có thể nhận thấy nếu 0nz với
1 n N (không xảy ra censoring hay dữ liệu thu được đầy đủ), các công
thức này rút gọn về các công thức của thuật toán EM ước lượng các tham số
của GMM tiêu chuẩn (EM-GMM: The EM algorithm for parameter
estimation of the standard GMM). Mặt khác, nếu 1J , công thức (2.23) và
(2.24) rút gọn về các công thức của thuật toán EM ước lượng các tham số của
phân phối Gauss khi một phần dữ liệu không quan sát được do censoring
(EM-C-G: EM algorithm for parameter estimation of Gaussian distribution in
the presence of Censored data) [25]. Điều này có nghĩa là ngoài giải quyết
được đồng thời vấn đề đa thành phần Gauss trong phân bố của dữ liệu và một
phần dữ liệu không quan sát được do censoring (trường hợp (6), mục 1.2),
EM-C-GMM [CT3] còn hoàn toàn đúng khi được sử dụng ước lượng các
tham số của tập dữ liệu đầy đủ, có phân bố tuân theo GMM [4, 49] (trường
hợp (5), mục 1.2) hoặc tập dữ liệu với một phần không quan sát được do
censoring, có phân bố tuân theo phân phối Gauss [25] (trường hợp (1), (2),
mục 1.2).
2.4. Ước lượng các tham số của GMM khi một phần dữ liệu không quan
sát được do dropping.
Mục tiêu trong mục này là xây dựng thuật toán EM ước lượng các
tham số của GMM khi một phần dữ liệu không quan sát được do dropping
45
(EM-D-GMM: The EM algorithm for parameter estimation of the GMM in
the presence of Dropped mixture data) [CT2].
Để mô tả các mẫu dữ liệu không quan sát được do dropping, tập d
được đưa vào LF, khi đó LLF trở thành:
1 1
ln ; , ln p , ; .
N J
nj j n n j
n j
w y dΘ y d,Δ (2.28)
Bước E:
( ) ( )
1
( )
1 1 0
Q ; ln ; ,
ln p , ; p , ,
;
| ; d .
n
k k
N J
k
nj j n n j n n nj n n
n j d
w y d y d x y
Θ Θ Θ y d,Δ
Θ
x Θ
(2.29)
Hàm ( )Q ; kΘ Θ trong công thức (2.29) được tính cho trường hợp
không xảy ra dropping ( 0nd , khi đó )n nx y và xảy ra dropping ( 1nd ,
khi đó )nx c . Chi tiết tính toán như trong phụ lục 6, kết quả như sau:
( )
1 1
1
( )
(
1
)
ln ln
1 ln ln l
Q
1 n
;
; .;
N J
k
n j j
n
k
k
n j n j
j
N J
n j
n j
d w
xd wx
wΘ Θ
(2.30)
Trong công thức (2.30), P( 1)nd là xác suất xảy ra hiện tượng
dropping.
Bước M:
Các tham số ước lượng được ở lần lặp thứ ( 1)k + được xác định bằng
cách lần lượt lấy đạo hàm riêng của ( )Q ; kΘ Θ theo , , ,j j jw và gán
bằng 0 (tương tự mục 2.3). Kết quả như sau:
46
(
1
)
(
1
1)
( )
;
.
;
1
1
N
n n
n
k
n j
k
j
k
j
N
n n
n
xd x
xd
(2.31)
2(( )
( 1)2
( )
)
1
1
;
.
1
1 ;
N
kk
n jk
j
k
n j
n n j
n
N
n
n
xd x
d x
(2.32)
( )
1 1
( )
( 1)
1 ;
.
N N
n n
k k
n j j
k
j
n n
x wd d
N
w
(2.33)
( 1) 1 .
N
n
nk
d
N
(2.34)
Từ các công thức (2.31)-(2.34) có thể nhận thấy nếu 0 (không
xảy ra dropping), các công thức này rút gọn về các công thức của EM-GMM
[4, 49]. Điều này có nghĩa là ngoài giải quyết được đồng thời vấn đề đa thành
phần Gauss trong phân bố của dữ liệu và một phần dữ liệu không quan sát
được do dropping (trường hợp (7), mục 1.2), EM-D-GMM [CT2] hoàn toàn
đúng trong trường hợp dữ liệu thu thập được là đầy đủ, có phân bố gồm đa
thành phần Gauss (trường hợp (5), mục 1.2). Ngoài ra, nếu 1J , các công
thức (2.31), (2.32) và (2.34) rút gọn về các công thức của thuật toán EM ước
lượng các tham số của phân phối Gauss khi một phần dữ liệu không quan sát
được do dropping (trường hợp (1), (3) mục 1.2).
2.5. Ước lượng các tham số của GMM khi một phần dữ liệu không quan
sát được do censoring và dropping
Mục tiêu trong mục này là xây dựng thuật toán EM ước lượng các
tham số của GMM khi một phần dữ liệu không quan sát được do censoring và
47
dropping (EM-CD-GMM: The EM algorithm for parameter estimation of the
GMM in the presence of Censored and Dropped mixture data).
Gọi ( 1 )nv n N là các biến nhị phân thể hiện các mẫu dữ liệu quan
sát được hoặc không quan sát được. 0nv khi ny c và 0nd , khi đó
n nx y . Vì các mẫu dữ liệu không quan sát được do censoring hay dropping
đều có giá trị bằng c nên: 1nv khi ny c hoặc 1nd , khi đó .nx c
Bước E:
( ) ( )
1
( )
1 1 0
Q ; ln ; ,
ln p , ; p , ,
;
| ; d .
n
k k
N J
k
nj j n n j n n nj n n
n j d
w y d y d x y
Θ Θ Θ y d,Δ
Θ
x Θ
(2.35)
Đặt ( ) ( )F , , , ; p , , | ;k kn n n nj n n nj ny d x y d x Θ Θ , ta có:
( )
( ) ( ) ( ) ( )
( )
F , , , ;
p | , , ; P | , ; p | ; P ;
.
p ;
k
n n n nj
k k k k
n n n nj n n nj n nj nj
k
n
y d x
y d x d x x
x
Θ
Θ Θ Θ Θ
Θ (2.36)
Với trường hợp 0nv , khi đó ny c và 0nd hàm ( )Q ; kΘ Θ được
tính tương tự như trường hợp 0nd trong mục 2.4, kết quả được:
( ) ( )0
1 1
Q ; ;1 ln ln ln1 ; .
n k kv n j n
N J
jn j
n j
xv w xΘ Θ
(2.37)
Với trường hợp 1nv , xét hai trường hợp:
Trường hợp 1: 0nd , khi đó ny c , các thành phần của hàm
( )F , , , ; kn n n njy d x Θ trong công thức (2.36) được tính cụ thể như sau:
48
( )
( ) ( )
( )
0
;
p | , , 1; p | c, 0 ;;
I
k
n jk k
n n n nj n n n j k
j
y
y x d y x dΘ
(2.38)
( )
( )
( ) ( )
( ) ( ) ( )
0
1
( ) ( ) ( ) ( )
0
1
P | , ;
p , | 0; P 0
p , | 0; P 0 p , | 1; P 1
1 I
;
1 I
k
n n nj
k
n nj n n
k k
n nj n n n nj n n
J
k k k
j j
j
J
k k k k
j j
j
d x
x d d
x d d x d d
w
w
Θ
Θ
Θ Θ
(2.39)
( ) ( )P 1; ;k knj jw Θ (2.40)
( ) ( ) ( ) ( )0p | ; p | 1; p ; I ;k k k kn nj n nj n j jx x x Θ Θ
( ) ( ) ( ) ( ) ( )
1 1
0p Ip ; ; .
J J
k k k k k
n j n j j j
j j
x w x wΘ (2.41)
Đặt
( ) ( ) ( )
0
1( ) ( )
( ) ( ) ( ) ( )
0
1
1 I
,
1
α
I
J
k k k
j j
jk k
J
k k k k
j j
j
w
w
Θ , từ (2.38)-(2.41)
suy ra:
( )
( ) ( ) ( ) ( )
( )
( )
1, 0
(
0
0
0
) ( )
1
( )
( ) ( ) (
( )
0
)
;
,
F , , , ;
;
α I
I
I
β α . ,
I
n n
k
n j k k k k
j jk
jk
v d n n n nj J
k k
j j
j
k
n jk k k
j k
j
y
w
y d x
w
y
Θ
Θ
Θ
(2.42)
Mặt khác, p , ;n n jy d trong công thức (2.35) được tính như sau:
p , ; p | 0; P 0; 1 ; . n n j n n j n j n jy d y d d y (2.43)
49
Từ (2.35), (2.42) và (2.43), ta có:
( )
1, 0
( )
( ) ( ) ( )
1
)
1 0
(β α ln ln
Q ;
;
,
I
1 ; d .
n n
k
v d
kc
n jk k k
j
N J
n j n
j
n j k
jn
v
y
yw y
Θ Θ
Θ
(2.44)
Trường hợp 2: 1nd , khi đó nx c , các thành phần của hàm
( )F , , , ; kn n n njy d x Θ trong công thức (2.36) được tính cụ thể như sau:
( ) ( )p | , , 1; p | c, 1; δ ; k kn n n nj n n n j ny x d y x d y c (2.45)
( )
( )
( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( )
0
1
P | , ;
p , | 1; P 0
p , | 0; P 0 p , | 1; P 1
1 , ;
1 I
α
k
n n nj
k
n nj n n
k k
n nj n n n nj n n
k
k k
J
k k k k
j j
j
d x
x d d
x d d x d d
w
Θ
Θ
Θ Θ
Θ
(2.46)
( ) ( )P 1; ;k knj jw Θ (2.47)
( ) ( ) ( )
( )
p | ; p | 1; p ;
p c | 1; P 1 δ ;
k k k
n nj n nj n j
k
n n j n n
x x x
x d d x c
Θ Θ
(2.48)
( ) ( ) ( ) ( )
1 1
p ; δp ; .δ
J J
k k k k
n j n j n j n
j j
x w x x c w x cΘ (2.49)
Trong các công thức (2.45), (2.48) và (2.49), δ . là hàm Kronecker
Delta. Từ (2.45)-(2.49) ta có:
( ) ( ) ( ) ( )1, 1F , , , ; 1 , .α δ n n k k k kv d n n n nj j ny d x w y cΘ Θ (2.50)
Mặt khác, p , ;n n jy d trong công thức (2.35) được tính như sau:
50
p , ; p | 1 δ; P 1 . n n j n n j n ny d y d d y c (2.51)
Từ (2.35), (2.50) và (2.51), ta có:
1 1
1 1
( )
1, 1
( ) ( ) ( )
( ) ( ) ( )
Q ;
1 , d
1 , ln .
α ln δ δ
α
n n
N J
n n
n j
N J
k
v d
c
k k k
j n n
k k k
n
n j
j
v y
v
w y c y c
w
Θ Θ
Θ
Θ
(2.52)
Kết hợp (2.37), (2.44) và (2.52) ta có:
( ) ( ) ( ) ( )
0 1, 0 1, 1
( )
( )
( ) ( ) ( )
( )
(
1 1
1 1 0
1 1
) (
Q ; Q ; Q ; Q ;
; 1 ;
;
, 1 ;
1 ln ln ln
β α ln ln d
I
α1
n n n n n
k k k k
v v d v d
k
n j n j
k
N J
n j
n j
N J
n
c
n jk k k
j n j k
j
k k
j n
n j
N J
jn
n j
v w
v
x x
y
y
w
w y
v
Θ Θ Θ Θ Θ Θ Θ Θ
Θ
Θ
) ( ), ln . k
(2.53)
Bước M:
Các tham số ước lượng được ở lần lặp thứ ( 1)k + được xác định bằng
cách lần lượt lấy đạo hàm riêng của ( )Q ; kΘ Θ trong công thức (2.53) theo
, , ,j j jw và gán bằng 0 (tương tự mục 2.3). Kết quả như sau:
1
( )
( ) ( ) ( ) ( )
( )
( 1)
( )
1 10
1
( ) ( ) (
1
)
; ,
.
;
I
1 β α
I
1 β ,α
k
jk k k k
n j j k
jk
j
k
N N
n n n
k k k
n j
n n
N N
n n
n n
j
v x
v v
x v
x
Θ
Θ
(2.54)
51
2( ) ( )
( 1)2
( ) ( )
1
( ) ( )
( ) ( ) ( )
2( ) ( ) ( ) ( )
( ) ( )
( ) ( ) ( ) (
1 1
2 1
10 0
1
1
1 β α
I 2 I
β α
;
; ,
,
+
; ,
I I
1 β α
k k
N
n n
n
N N
n n
n n
N
n j jk
j
k k k k
n j j
k k k
j j jk k k k
j jk k
j j
k k k
n j
n
n
N
n
n
j
v x
v v
v
v
x
x
x
Θ
Θ
Θ
1
)
.
n
k
N
nv
(2.55)
( ) ( ) ( ) ( )
1 1( 1)
(
1
( ) )
; ,
1 ,
.
1 β α
α
k k k k
n j j
k
j
k k
N N
n n
n n
N
n
n
v v
N
v
N
x
w
Θ
Θ
(2.56)
( ) ( )
( ) 11
,α
.
1
k k n
nk
N
v
N
Θ
(2.57)
Từ các công thức (2.53) - (2.57) có thể nhận thấy:
- Nếu 0 (không xảy ra dropping), (2.53) - (2.56) rút gọn về các
công thức ước lượng tham số của GMM khi một phần dữ liệu không quan sát
được do censoring (EM-C-GMM) [CT3];
- Nếu : nn y c (không xảy ra censoring), (2.53) - (2.57) rút gọn về
các công thức ước lượng tham số của GMM khi một phần dữ liệu không quan
sát được do dropping (EM-D-GMM) [CT2];
- Nếu 0nv (dữ liệu thu thập được đầy đủ), (2.53) - (2.56) rút gọn về
các công thức ước lượng tham số của GMM tiêu chuẩn (EM-GMM) [4, 49];
- Nếu 1J và 0 , (2.53), (2.54) và (2.55) rút gọn về các công thức
của EM-C-G [25];
52
- Nếu 1J , (2.53)-(2.55) và (2.57) rút gọn về các công thức của thuật
toán EM ước lượng tham số của phân phối Gauss khi một phần dữ liệu không
quan sát được do censoring và dropping (EM-CD-G: EM algorithm for
parameter estimation of Gaussian distribution in the presence of Censored and
Dropped data) [26];
Từ các lập luận trên có thể kết luận: EM-CD-GMM [CT4] ngoài việc
giải quyết được đồng thời cả ba vấn đề, bao gồm đa thành phần Gauss trong
phân bố của Wi-Fi RSSI, censoring và dropping (các trường hợp (5)-(8), mục
1.2) còn hoàn toàn đúng với khi dữ liệu có phân bố tuân theo phân phối Gauss
(các trường hợp (1)-(4), mục 1.2).
2.6. Đánh giá sai số của các tham số trong GMM ước lượng được bằng
thuật toán EM
Trong mục này, thuật toán EM-CD-GMM sẽ được kiểm nghiệm và so
sánh với các thuật toán EM khác đã được công bố. Cụ thể hơn, sai số của các
tham số trong GMM được ước lượng bằng các thuật toán EM-CD-GMM,
EM-GMM [4, 49] và EM-CD-G [26] sẽ được đánh giá trên cùng một tập dữ
liệu mô phỏng (artificial data). Tập dữ liệu mô phỏng được tạo ra trên Matlab
theo trình tự như sau:
- Tạo tập dữ liệu đầy đủ ( y ) có phân bố tuân theo GMM với các tham
số (true parameters): 1 2; 0.5;0.5w w ; 1 2; 90; 80 ;
1 2; 3;4 ; 2J ; 1000N (phụ lục 7).
- Tạo tập dữ liệu không đầy đủ (x ) từ tập y bằng hàm
max( , )n nx y c , với c thay đổi từ 96(dBm) đến 84(dBm) , thay đổi từ
0 đến 0.3 (phụ lục 7).
53
Để đánh giá các thuật toán EM, khoảng cách Kullback Leibler (KLD:
Kullback Leibler Divergence) [24] được sử dụng. Gọi KLD là giá trị trung
bình của KLD sau M lần thực nghiệm, KLD được xác định như sau:
- Với thuật toán EM-GMM và EM-CD-GMM:
2
2
1
10 2
1 1
2
1
1 exp
2 21 1 log .
ˆ1ˆ exp
ˆ2 ˆ2
J
nm j
j
M N j j j
KLD
Jm n
nm jm
jm
j jm jm
y
w
M N y
w
(2.58)
Trong công thức (2.58), nmy là các mẫu dữ liệu được tạo ra ở lần thực
nghiệm thứ ( 1 ) m m M ; ˆ jm , ˆ jm , ˆ jmw là các tham số ước lượng được
(estimated parameters) ở lần thực nghiệm thứ m bằng EM-GMM hoặc EM-
CD-GMM.
- Với thuật toán EM-CD-G:
2
2
1
10 2
1 1
2
1 exp
2 21 1 log .
ˆ1 exp
ˆ2 ˆ2
J
nm j
j
M N j j j
KLD
m n nm m
m m
y
w
M N y
(2.59)
Trong công thức (2.59), ˆm , ˆm , ˆ mw là các tham số ước lượng được ở
lần thực nghiệm thứ m bằng EM-CD-G. Sau 1000 lần thực nghiệm
( 1000)M , KLD của các thuật toán được thể hiện như bảng 2.1 và độ lệch
chuẩn ( KLD ) được thể hiện như bảng 2.2.
54
Bảng 2.1. KLD của các thuật toán EM sau 1000 lần thực nghiệm
c
(dBm) Thuật toán
0 0.075 0.15 0.225 0.3
–96
EM-GMM 0.0018 0.0288 0.4317 1.1377 3.9022
EM-CD-G 0.0664 0.0728 0.0872 0.0958 0.1048
EM-CD-GMM 0.0016 0.0023 0.0027 0.0033 0.0036
–93
EM-GMM 0.0329 0.265 0.7725 1.6687 5.4476
EM-CD-G 0.0679 0.0792 0.0933 0.1272 0.1778
EM-CD-GMM 0.0034 0.0044 0.0121 0.0163 0.0235
–90
EM-GMM 3.1491 3.2325 3.3142 3.5054 6.1253
EM-CD-G 0.0798 0.0864 0.1096 0.1329 0.1998
EM-CD-GMM 0.0098 0.0111 0.0229 0.0334 0.0364
–87
EM-GMM 5.6358 5.6505 5.7878 7.4773 7.6172
EM-CD-G 0.0886 0.1249 0.1461 0.1872 0.2253
EM-CD-GMM 0.0126 0.0211 0.0389 0.0443 0.0947
–84
EM-GMM 7.2847 7.3424 7.3649 8.0163 8.7835
EM-CD-G 0.0972 0.1556 0.1836 0.2029 0.3878
EM-CD-GMM 0.0481 0.0634 0.0785 0.1115 0.1241
Bảng 2.2. KLD của các thuật toán EM sau 1000 lần thực nghiệm
c
(dBm) Thuật toán
0 0.075 0.15 0.225 0.3
–96
EM-GMM 0.0151 0.0246 1.1053 1.3516 1.4934
EM-CD-G 0.0172 0.0182 0.0658 0.131 0.2185
EM-CD-GMM 0.0139 0.0153 0.0186 0.02 0.0383
–93
EM-GMM 0.0323 0.1244 1.2243 1.4871 1.7042
EM-CD-G 0.0175 0.0192 0.1154 0.1671 0.2356
EM-CD-GMM 0.0176 0.0182 0.026 0.047 0.0665
–90
EM-GMM 0.0351 0.3535 1.7911 2.202 2.4937
EM-CD-G 0.1199 0.1364 0.1535 0.1963 0.296
EM-CD-GMM 0.0227 0.0601 0.0857 0.1005 0.1302
–87
EM-GMM 0.1025 0.8761 2.0984 2.3214 2.9138
EM-CD-G 0.1325 0.1632 0.2654 0.4974 0.5215
EM-CD-GMM 0.0451 0.0769 0.0968 0.1204 0.1402
–84
EM-GMM 0.1984 1.0912 2.1361 2.6663 3.6588
EM-CD-G 0.1851 0.2029 0.3025 0.5963 0.6813
EM-CD-GMM 0.0624 0.086 0.1207 0.1393 0.1527
55
Từ các kết quả thực nghiệm trong bảng 2.1 và bảng 2.2 có thể nhận
thấy:
- Với 0 và 96c , dữ liệu quan sát được gần như đầy đủ. Khi đó
không có sự sai lệch lớn giữa GMM có các tham số được ước lượng bằng
EM-GMM và GMM có các tham số được ước lượng bằng EM-CD-GMM. Cụ
thể, KLD và KLD của EM-GMM lần lượt là 0.0018 và 0.0151; KLD và KLD
của EM-CD-GMM lần lượt là 0.0016 và 0.0139. EM-CD-G có sai số lớn hơn
do coi phân bố của dữ liệu tuân theo phân phối Gauss (KLD và KLD có giá trị
lần lượt là 0.0664 và 0.0172).
- Với các trường hợp khác, KLD và KLD của EM-CD-GMM luôn nhỏ
nhất. Bởi vậy EM-CD-GMM là thuật toán có thể ước lượng chính xác nhất
mô hình mô tả phân bố của Wi-Fi RSSI khi tập dữ liệu thu thập được có phân
bố gồm đa thành phần Gauss, một phần không quan sát được do censoring và
dropping.
Ngoài ra, hình 2.3 thể hiện tương quan giữa số lượng mẫu dữ liệu (N)
và sai số toàn phương trung bình (MSE: Mean Squared Error) của các tham
số trong GMM được ước lượng bởi EM-CD-GMM khi 90c và 0.15
sau 1000 lần thực nghiệm (trung bình tỷ lệ dữ liệu quan sát được là 56.25%).
MSE của từng tham số được xác định như sau:
2 2
1 1
2 2
1 1
ˆ ˆ
ˆ ˆMSE ; MSE ;
ˆˆ
ˆˆMSE ; MSE .
M M
jm j jm j
m m
j j
M M
jm j m
m m
j
M M
w w
w
M M
(2.60)
56
Hình 2.3. Tương quan giữa số lượng mẫu dữ liệu (N) và MSE của các tham
số trong GMM được ước lượng bởi EM-CD-GMM
Trên hình 2.3, MSE giảm dần khi N tăng dần. Điều này đồng nghĩa
với số lượng mẫu dữ liệu thu thập được trong giai đoạn huấn luyện ngoại
tuyến càng lớn thì GMM với các tham số ước lượng bởi EM-CD-GMM càng
mô tả chính xác phân bố của chúng.
2.7. Kết luận chương 2
Trong chương 2, tác giả đề xuất sử dụng GMM mở rộng để mô tả
phân bố của Wi-Fi RSSI và xây dựng các thuật toán ước lượng các tham số
của GMM trong các trường hợp: một phần dữ liệu không quan sát được do
censoring; một phần dữ liệu không quan sát được do dropping; một phần dữ
liệu không quan sát được do censoring và dropping. Các kết quả thực nghiệm
đã chứng minh hiệu quả của thuật toán EM-CD-GMM so với EM-GMM [4,
49] và EM-CD-G [26].
57
Chương 3 bao gồm các nội dung chính: Các phương pháp ước lượng
số thành phần Gauss trong GMM; đề xuất thuật toán ước lượng số thành phần
Gauss dựa trên tiêu chuẩn thông tin Bayes (BIC: Bayesian Information
Criterion) khi một phần dữ liệu không quan sát được do censoring và
dropping [CT5]; kết quả thực nghiệm của các phương pháp lượng số thành
phần Gauss.
3.1. Đặt vấn đề
Kỹ thuật định vị trong nhà dựa trên dấu vân tay RSSI sử dụng phương
pháp xác suất (P-RSSIF-IPT) kèm mô hình có tham số mô tả hàm mật độ xác
suất (PDF) có thể dùng phân phối Gauss [25, 26] hoặc GMM [4] mô tả phân
bố của Wi-Fi RSSI. So với phân phối Gauss, GMM có thể mô tả phân bố của
dữ liệu với một hoặc nhiều thành phần Gauss. Vì lý do này, GMM mô tả phân
bố của Wi-Fi RSSI được thu thập ở môi trường trong nhà chính xác hơn so
với phân phối Gauss [CT1]. Tuy nhiên ở chiều ngược lại, khi sử dụng GMM,
số lượng tham số cần lưu trong cơ sở dữ liệu sẽ lớn hơn so với sử dụng phân
phối Gauss, cụ thể: Nếu sử dụng phân phối Gauss, số lượng tham số cần lưu
trong cơ sở dữ liệu để mô tả phân bố của các mẫu dữ liệu thu thập được từ
một AP tại một RP là hai tham số, bao gồm giá trị trung bình và độ lệch
chuẩn ; nếu sử dụng GMM với một thành phần Gauss, số lượng tham số
cần lưu cũng là 2, tuy nhiên nếu sử dụng GMM với hai thành phần Gauss, số
lượng tham số cần lưu là 5, bao gồm: 1 1 2 2, , , và 1w hoặc 2w (vì
1 21w w ). Một cách tổng quát, gọi PsN là số lượng tham số cần lưu trong
CHƯƠNG 3. ƯỚC LƯỢNG SỐ THÀNH PHẦN GAUSS
TRONG MÔ HÌNH MÔ TẢ PHÂN BỐ Wi-Fi RSSI
58
cơ sở dữ liệu khi sử dụng GMM với J thành phần Gauss để mô tả phân bố
của Wi-Fi RSSI thu thập được từ một AP tại một RP là:
3 1. PsN J (3.1)
Khi một phần dữ liệu không quan sát được do dropping, cơ sở dữ liệu
cần lưu thêm một tham số thể hiện xác suất xảy ra dropping , (3.1) trở
thành:
3 .PsN J (3.2)
Với IPS sử dụng RSSIF-IPT, khi khu vực định vị có diện tích lớn, số
AP và số RP sẽ rất lớn. Khi đó, việc lưu hai tham số (khi sử dụng phân phối
Gauss) hay PsN tham số (khi sử dụng GMM) cho mỗi AP tại mỗi RP sẽ là
khác biệt lớn với cơ sở dữ liệu nếu 2PsN . Mặt khác, ở giai đoạn định vị
trực tuyến PsN tỉ lệ thuận với số lượng các phép tính trong thuật toán định vị.
Thuật toán định vị với nhiều phép tính đồng nghĩa với thời gian tính toán xác
định vị trí của đối tượng cần định vị (OB) lớn, điều này ảnh hưởng tới tham
số “thời gian định vị”, một trong các tham số quan trọng được sử dụng đánh
giá hiệu năng của IPS.
Trên thực tế, Wi-Fi RSSI thu thập tại từng RP khác nhau từ mỗi AP
khác nhau có phân bố khác nhau. Phân bố của một số tập dữ liệu thu thập
được dường như tuân theo phân phối Gauss (hình 3.1a); một số khác dường
như tuân theo GMM với hai, ba hoặc bốn thành phần Gauss (hình 3.1b, c, d).
Giả thiết rằng toàn bộ dữ liệu thu thập được ở giai đoạn huấn luyện ngoại
tuyến có phân bố tuân theo phân phối Gauss, khi đó sử dụng GMM và phân
phối Gauss để mô tả phân bố của dữ liệu đều cho ra kết quả định vị với độ
chính xác tương đương nhau. Ngược lại nếu 50% dữ liệu thu thập được ở giai
đoạn huấn luyện ngoại tuyến có phân bố tuân theo GMM, 50% còn lại phân
bố tuân theo phân phối Gauss, khi đó sử dụng GMM để mô tả phân bố của dữ
59
liệu cho kết quả định vị với độ chính xác cao hơn so với sử dụng phân phối
Gauss [CT1]. Điều này chứng tỏ rằng GMM có thể mô tả chính xác phân bố
của các tập dữ liệu tuân theo phân phối Gauss (hình 3.1a) nhưng ngược lại,
phân phối Gauss không mô tả chính xác phân bố của các tập dữ liệu tuân theo
GMM (hình 3.1b,c,d). Nói cách khác, nếu dữ liệu thu thập được có phân bố
tuân theo GMM với J' thành phần Gauss thì cần sử dụng GMM với
J J J' thành phần Gauss để mô tả. Trường hợp lý tưởng nhất là dùng
GMM với J J' thành phần Gauss bởi nếu J J' sẽ dẫn tới gia tăng số
lượng tham số cần lưu trong cơ sở dữ liệu và gia tăng số phép tính trong thuật
toán định vị trong khi kết quả định vị không được cải thiện.
a.
b.
c.
d.
Hình 3.1. Biểu đồ tần suất của Wi-Fi RSSI thu thập từ một AP
60
Từ những phân tích như trên có thể kết luận: Ước lượng số thành phần
Gauss trong GMM mô tả phân bố của Wi-Fi RSSI không những có thể tối ưu
cơ sở dữ liệu mà còn có thể làm giảm mức độ phức tạp của các phép tính
trong thuật toán định vị của IPS.
3.2. Các phương pháp ước lượng số thành phần Gauss trong GMM
Số thành phần Gauss trong GMM có thể ước lượng bằng phương pháp
ràng buộc đẳng thức, còn gọi là phương pháp hàm phạt (PF: Penalty
Function) hoặc phương pháp hàm đặc trưng (CF: Characteristic Function).
Các phương pháp PF bao gồm: Tiêu chuẩn thông tin Akaike [49] (AIC:
Akaike Informa
Các file đính kèm theo tài liệu này:
- luan_an_nghien_cuu_phat_trien_ky_thuat_dinh_vi_trong_nha_su.pdf