MỤC LỤC
Trang
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT . v
DANH MỤC CÁC BẢNG . ix
DANH MỤC CÁC HÌNH VẼ . x
MỞ ĐẦU . 1
CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG SINH TRẮC HỌC VÀ CÁC KỸ
THUẬT BIẾN ĐỔI SỐ TRÊN ẢNH ĐẦU VÀO . 8
1.1. Các hệ thống nhận dạng khuôn mặt và tròng mắt . 8
1.1.1. Hệ thống nhận dạng khuôn mặt . 10
1.1.2. Hệ thống nhận dạng tròng mắt . 12
1.1.3. Một số CSDL sử dụng trong sinh trắc học . 18
1.2. Các kỹ thuật tiền xử lý ảnh đầu vào. 21
1.2.1. Tiền xử lý ảnh khuôn mặt . 21
1.2.2. Tiền xử lý ảnh tròng mắt . 22
1.3. Các phép biến đổi số trong xử lý ảnh . 25
1.3.1. Các biến đổi không thích nghi . 26
1.3.2. Các phép biến đổi thích nghi . 29
1.3.3. Biến đổi Curvelet . 30
1.4. Tình hình nghiên cứu ở trong và ngoài nước. 33
1.4.1. Tình hình nghiên cứu và ứng dụng ngoài nước . 33
1.4.2. Tình hình nghiên cứu trong nước . 36
1.5. Kết luận Chương 1 . 37
CHƯƠNG 2: CÁC KỸ THUẬT TIỀN XỬ LÝ NHẰM NÂNG CAO HIỆU QUẢ
CHO HỆ THỐNG NHẬN DẠNG KHUÔN MẶT VÀ TRÒNG MẮT . 39
2.1. Thuật toán SDWTL bù sáng cho ảnh màu mặt người . 39
2.1.1. Động lực nghiên cứu . 39
2.1.2. Phân loại ảnh màu mặt người theo cường độ sáng . 42
2.1.3. Mô hình thuật toán SDWTL . 45
2.1.4. Kết quả mô phỏng và thảo luận . 53
2.2. Tối ưu phân vùng ảnh bằng thuật toán Dijkstra đa nguồn cải tiến . 65
2.2.1. Động lực nghiên cứu . 65
iv
2.2.2. Mô hình thuật toán Dijkstra cải tiến . 67
2.2.3. Kết quả mô phỏng và thảo luận . 72
2.3. Phạm vi ứng dụng . 78
2.4. Kết luận Chương 2 . 79
CHƯƠNG 3: CẢI THIỆN ĐỘ CHÍNH XÁC TRONG NHẬN DẠNG BẰNG
CÁC KẾT HỢP BIẾN ĐỔI SỐ RỜI RẠC . 81
3.1. Biến đổi nhanh Curvelet rời rạc kết hợp các thuật toán PCA và SVD . 81
3.1.1. Động lực nghiên cứu . 81
3.1.2. Mô hình kết hợp thuật toán FDCT, PCA và SVD . 83
3.1.3. Kết quả thực nghiệm và thảo luận . 85
3.2. Kết hợp của biến đổi Curvelet nhanh rời rạc và DTCWT . 87
3.2.1. Động lực nghiên cứu . 87
3.2.2. Mô hình kết hợp biến đổi Curvelet và DTCWT . 89
3.2.3. Kết quả thực nghiệm và thảo luận . 95
3.3. Phạm vi ứng dụng . 97
3.4. Kết luận Chương 3 . 98
KẾT LUẬN . 100
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ . 103
TÀI LIỆU THAM KHẢO . 104
126 trang |
Chia sẻ: vietdoc2 | Ngày: 27/11/2023 | Lượt xem: 300 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu giải pháp lọc số dùng biến đổi wavelet nâng cao chất lượng xử lý ảnh trong kỹ thuật nhận dạng khuôn mặt và tròng mắt người, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
từ 0 đến 255. Theo
cảm nhận của con người, các điểm ảnh với cường độ xám trong khoảng giá trị [0, 40]
có thể được coi là tối (dark), trong khoảng [40, 210] có thể được coi là trung bình
(normal) và trong khoảng giá trị [210, 255] được coi là sáng (bright). Trong không
gian màu RGB, kênh ánh sáng xanh lá cây G có ảnh hưởng nhiều nhất vào cường độ
cảm nhận của con người, và ngược lại kênh ánh sáng xanh B có ảnh hưởng ít nhất.
Tuy vậy, việc nhận dạng các ảnh màu mặt người có màu rất tối sẽ khó hơn rất nhiều
so với màu rất sáng. Do đó, kênh ánh sáng màu xanh B thường được làm ngưỡng
tham chiếu trong các thực nghiệm bù sáng của luận án.
Cho một ảnh đầu vào là ảnh màu mặt người kích thước 𝑚 × 𝑛, giả sử Pl, Pn
và Ph biểu thị số lượng các điểm ảnh thuộc nhóm có cường độ sáng thấp, trung bình
và cao. Tỉ lệ phân bố điểm ảnh cường độ sáng thấp LDR (Low Brightness Pixel
43
Distribution Rate) [90] được định nghĩa là tỉ lệ giữa số lượng các điểm ảnh có cường
độ sáng thấp với tổng số lượng các điểm ảnh trong ảnh đã cho:
100%
lPLDR
m n
(2.1)
Tỉ lệ phân bố điểm ảnh cường độ sáng trung bình NDR (Normal Brightness
Pixel Distribution Rate) [90] được định nghĩa là tỉ lệ giữa số lượng các điểm ảnh có
cường độ sáng trung bình với tổng số lượng các điểm ảnh trong ảnh đã cho:
100%
nPNDR
m n
(2.2)
Tương tự, tỉ lệ phân bố điểm ảnh cường độ sáng cao HDR (High Brightness
Pixel Distribution Rate) [90] được định nghĩa là tỉ lệ giữa số lượng các điểm ảnh có
cường độ sáng cao với tổng số lượng các điểm ảnh trong ảnh đã cho:
100%
hPHDR
m n
(2.3)
Một ảnh đầu vào được coi là sáng tự nhiên (lateral lighting) nếu chỉ có hai
trong số ba chỉ số LDR, NDR và HDR có giá trị lớn hơn 40. Ngược lại, ảnh đầu vào
sẽ được gọi là sáng đều (uniform lighting) [93]. Ảnh màu mặt người có thể được phân
chia dựa theo các chỉ số trên như sau: các ảnh tối màu sẽ có giá trị LDR trong khoảng
[70-100], các ảnh sáng màu sẽ có giá trị HDR trong khoảng [70-100] và các ảnh là
trung bình nếu nó không thuộc hai nhóm trên. Cột đầu trong Hình 2.2 bao gồm 03
ảnh màu gương mặt của cùng một người trong CSDL ảnh CMU-PIE được chụp dưới
những điều kiện chiếu sáng khác nhau. Cột thứ hai bao gồm các điểm ảnh có độ sáng
thấp và giá trị kênh màu B trong khoảng [0-40]. Cột thứ ba bao gồm các điểm ảnh có
độ sáng trung bình và giá trị kênh màu B trong khoảng (40-210). Cột thứ tư bao gồm
các điểm ảnh có độ sáng cao và giá trị kênh màu B trong khoảng [210-255]. Cột cuối
cùng là phân bố màu tương ứng của các điểm ảnh. Dễ nhận thấy ảnh khuôn mặt trong
Hình 2.2(a) được coi là tối, ảnh trong Hình 2.2(b) được coi là bình thường và ảnh
trong Hình 2.2(c) được coi là sáng. Lưu ý rằng các ảnh trong CSDL CMU-PIE có thể
được phân thành hai nhóm như trên, tuy nhiên các ảnh trong CSDL FERET đều là
44
sáng đều (Hình 2.3), giữa các nhóm ảnh đầu vào thuộc Hình 2.3(a) và Hình 2.3(b) có
độ tương phản ít hơn.
(a)
(b)
(c)
Hình 2.2 Các ảnh màu mặt người trong CSDL CMU-PIE và phân bố màu tương
ứng của các điểm ảnh.
(a)
(b)
Hình 2.3 Các ảnh màu mặt người trong CSDL FERET và các phân bố điểm ảnh
tương ứng.
45
2.1.3. Mô hình thuật toán SDWTL
Phương pháp được đề suất trong phần này với mục đích cải thiện chất lượng
ảnh màu mặt người bằng cách làm cho các phân bố màu tương ứng trở nên gần với
dạng chuẩn tắc (trung bình).
Hình 2.4 Mô hình phân bố chuẩn tắc Gauss G(μ, σ).
Trong Hình 2.4, một phân bố chuẩn tắc Gauss G(μ, σ) có trục hoành biểu diễn
các giá trị khác nhau của phân bố dữ liệu thực (cụ thể là các giá trị điểm ảnh từ 0 đến
255 trong luận án). Trục tung biểu diễn các mức thay đổi về xác suất mà G có một
một giá trị tương ứng của trục hoành. Cần chú ý rằng tất cả dữ liệu có phân bố chuẩn
tắc có thể được biến đổi về dạng phân bố Gauss và có thể được xử lý theo các quy tắc
chung thống nhất cho dạng phân bố đó. Điểm trung tâm là giá trị trung bình μ, các
giá trị sai khác với μ khi dịch về hai phía được gọi là độ lệch chuẩn σ. Các tập dữ liệu
tuân theo phân bố Gauss có một số tính chất quan trọng biết trước và có tính đối xứng,
do đó dễ dàng được xử lý trong các mô hình tính toán và dự đoán gắn với thế giới
thực. Các nghiên cứu đã chỉ ra rằng rất nhiều sự kiện trong thế giới thực có thể được
mô hình hóa theo phân bố Gauss hoặc ít nhất có dạng rất gần với phân bố Gauss [31],
[90]. Các mô hình phân bố màu sắc của các ảnh màu RGB khi chụp các đối tượng
ảnh trong tự nhiên cũng có tính chất như vậy. Trong không gian ảnh màu RGB, chúng
ta cần lưu ý rằng một ảnh chất lượng tốt thường có độ phân phối gần phân phối chuẩn
tắc, còn được gọi là phân bố Gauss, là phân phối chuẩn với giá trị trung bình bằng
và độ lệch chuẩn bằng 1. Phương pháp đề xuất sẽ tham chiếu đến một ảnh có
46
phân phối Gauss để tính toán hệ số bù sáng cho các kênh màu của ảnh màu mặt người,
qua đó tự động điều chỉnh các kênh màu có độ phân bố gần với phân bố chuẩn tắc
với giá trị các điểm ảnh nằm trong khoảng giá trị từ 0 đến 255.
Hiện nay, biến đổi Logarit (LT) được sử dụng để mở rộng rãi trong lĩnh vực
xử lý ảnh, đặc biệt trong các bài toán nâng cao chất lượng ảnh [85]. Do tính chất của
hàm logarit, LT ánh xạ một khoảng hẹp của các giá trị cấp xám thấp trong ảnh đầu
vào thành một khoảng rộng hơn của ảnh đầu ra và ngược lại biến một khoảng rộng
các giá trị cấp xám cao trong ảnh đầu vào thành một khoảng hẹp các giá trị cấp xám
của ảnh đầu ra. Với các ảnh màu mặt người bị che khuất, luận án sử dụng LT để mở
rộng các giá trị của các điểm ảnh tối trong một ảnh màu trong khi nén các giá trị màu
cao lại. Hình 2.5 biểu diễn một số ảnh màu mặt người trong CSDL CMU-PIE và các
ảnh thu sau khi được sau khi sử dụng LT. Kết quả cho thấy, phần bị che khuất trong
ảnh đã được khuếch đại làm cho rõ hơn. Tuy nhiên, các phần không bị che khuất cũng
bị khuếch đại làm cho ảnh bị quá sáng.
(a)
(b)
Hình 2.5 Ảnh màu mặt người trong CSDL CMU-PIE (a) và ảnh thu được sau khi sử
dụng LT (b).
Giả sử ảnh mặt người f trong không gian màu RGB được phân tách thành các
kênh màu riêng biệt { , , }f f ff R G B . Biến đổi LT ánh xạ một khoảng hẹp của các
giá trị cấp xám thấp trong ảnh đầu vào thành một khoảng rộng hơn của ảnh đầu ra và
ngược lại biến một khoảng rộng các giá trị cấp xám cao trong ảnh đầu vào thành một
47
khoảng hẹp các giá trị cấp xám của ảnh đầu ra. Ký hiệu ( )LTf LT f và
, ( )a LT aG LT G , ta có:
, log( ( , , )) log( , log( ), l )og( ) ( ) (, )
f f f f f f f f f
LT LT LT LT LTf R G f R G B R GB f B
(2.4)
, log( ) a LT aG G (2.5)
Phân rã giá trị riêng được sử dụng rộng rãi trong xử lý ảnh do cấu trúc ảnh số
giống như một ma trận. Không làm mất tính tổng quát, giả sử f có kích thước
,( )M N M N . SVD của ảnh f được tính như sau:
Tf U V (2.6)
trong đó,
1 2[ , ,..., ]NU u u u và 1 2[ , , , ]... NV v v v là các ma trận trực giao chứa các véc-
tơ riêng và 𝛴 = [𝐷, 𝑂]. 𝛴 gồm các giá trị riêng trên đường chéo chính và được sắp
xếp theo chiều giảm dần, với
1 2( , ,..., )kD diag là các giá trị riêng, O là ma trận
không kích thước ( )m m n và k là hạng của f. Khi ảnh được phân rã bởi SVD, các
giá trị riêng sẽ chứa thông tin độ sáng của ảnh số, còn véctơ riêng chứa thông tin về
độ phản xạ.
(a) (b) (c) (d)
Hình 2.6 Các ảnh mặt người tối màu (a), sáng màu (c) và các ảnh tái tạo tương ứng
(b), (d) khi gán các giá trị riêng bằng 1.
Hình 2.6 biểu diễn 02 ảnh trong CSDL CMU-PIE và ảnh của chúng thu được
sau khi gán các giá trị riêng của ảnh bằng 1. Từ công thức (2.6) cho thấy, khi gán ma
trận bởi ma trận đơn vị, ảnh thu được sẽ không còn tác động của ma trận . Sau
khi loại bỏ sự tác động của các giá trị riêng, ta thu được ảnh cấu trúc của khuôn mặt
không còn tác động của độ sáng. Điều này khẳng định, các giá trị riêng mang thông
tin độ sáng trong ảnh. Không những vậy, giá trị riêng lớn nhất của ảnh còn chứa
99,72% năng lượng của ảnh [65]. Kết quả trên đạt được cả trên nhóm ảnh tối màu
như Hình 2.6(a) và ảnh sáng màu như Hình 2.6(c).
48
Tiếp theo, biến đổi DWT được sử dụng để biến đổi các kênh màu trong miền
logarit sang miền Wavelet, nhờ đó chúng ta xác định được các thành phần tần số thấp
mang thông tin của độ sáng. Biến đổi DWT được lựa chọn dựa trên tính đơn giản của
nó. Trong hướng đề xuất này, ảnh màu mặt người chỉ được phân rã trong miền logarit
bằng biến đổi DWT ở mức 1 (sử dụng Symlets 2 Wavelet [48]) để giảm bớt tính phức
tạp trong tính toán và thời gian thực thi. Ba kênh màu RGB được phân rã thành 04
băng con tương ứng theo thang cấp 1 là LL, HL, LH, HH với các hệ số tương ứng
llm,n, hlm,n, lhm,n và hhm,n. Các ma trận LLG, HLG, LHG, HHG là các ma trận mẫu tương
ứng với các hệ số llG,m,n, hlG,m,n, lhG,m,n và hhG,m,n.
, , , ,,A m n G G m nLL ll LL ll
(2.7)
, , , ,,A m n G G m nHL hl HL hl
(2.8)
, , ,,m n G G m nLH lh LH ll
(2.9)
, , ,,m n G G m nHH hh HH hh
(2.10)
Với 𝑚 = 0, 1, 2, ,
𝑀
2
− 1; ; 𝑛 = 0, 1, 2, ,
𝑁
2
− 1; LL, HL, HH là các ma trận
có kích thước (M/2 × N/2)
Các tần số thấp LL chứa thông tin màu sắc, các thành phần tần số trung bình
HL và LH mang thông tin cấu trúc của ảnh mặt người còn thành phần tần số cao HH
mang thông tin về nhiễu. Thông thường, để cải thiện chất lượng ảnh, các thông tin
màu sắc ở băng thấp được điều chỉnh, đồng thời cấu trúc khuôn mặt trong các băng
con giữa và cao được nâng cao bằng cách nhân với các hệ số thích nghi. Các hệ số
này được nhân với tất cả các hệ số Wavelet trong các kênh màu RGB. Trong phần
này chỉ thực hiện việc bù sáng cho băng con tần số thấp LL, giữ nguyên băng con tần
số trung bình LH và HL, gán các giá trị băng HH bằng 0. Các hệ số bù sáng cho mỗi
kênh màu được tính toán riêng. Với giá trị hệ số lớn nhất được sử dụng làm tham
chiếu, các hệ số của hai kênh màu còn lại được tính toán một cách thích nghi. Giá trị
trung bình cho mỗi băng con có thể bằng 0 vì tính chất đối xứng của các biến đổi
Wavelet. Các hệ số dương của mỗi băng con sẽ chứa các thông tin quan trọng nhất
49
của ảnh đầu vào. Giá trị trung bình của mỗi băng con từ 03 kênh màu có thể được
tính như sau:
/2 1 /2 1
, ,
0 0
4
; 0
M N
LL m n m n
m n
ll ll
MN
(2.11)
/2 1 /2 1
, ,
0 0
4
; 0
M N
HL m n m n
m n
hl ll
MN
(2.12)
/2 1 /2 1
, ,
0 0
4
; 0
M N
LH m n m n
m n
lh lh
MN
(2.13)
/2 1 /2 1
, ,
0 0
4
; 0
M N
HH m n m n
m n
hh hh
MN
(2.14)
và các giá trị trung bình lớn nhất của các băng con LL, LH, HL, HH của 03
kênh màu có thể được tính như sau:
_ max max( )LL LL (2.15)
_ max max( )HL HL (2.16)
_ max max( )LH LH (2.17)
_ max max( )HH HH (2.18)
Phương pháp đề xuất sẽ tính trước các giá trị bù cho từng hệ số băng con dương
trong các kênh màu. Tính toán SVD của các băng con tần số thấp của các kênh màu
R, G, B và tham chiếu Gauss Ga có kích thước tương ứng với băng con LL:
( ) f f f
R R R
f T
R LL LL LL
SVD LL U V (2.19)
( ) f f f
G G G
f T
G LL LL LL
SVD LL U V (2.20)
( ) f f f
B B B
f T
B LL LL LL
SVD LL U V (2.21)
( ) TGa Ga GaSVD Ga U V (2.22)
Bởi vì các ma trận SV (singular value) tượng trưng cho các thông tin cường
độ màu sắc của ảnh đã cho nên các ma trận này được điều chỉnh một cách tự động để
cải thiện chất lượng của ảnh khi được bù sáng. Khi thu được một ảnh mịn có độ tương
phản thấp (ảnh băng con LL), các ma trận SV sẽ được nhân với một tỉ số lớn hơn 1.
Ngược lại, các ma trận SV sẽ được nhân với một hệ số nhỏ hơn 1 nếu thu được một
ảnh mịn có độ tương phản lớn. Ngoài ra, cấu trúc của khuôn mặt người trong kênh
50
giữa được cải thiện bằng cách nhân các ma trận SV với một tỉ số lớn hơn 1. Có thể
thu được một ảnh có cường độ điểm ảnh đã được chuẩn hóa và tối ưu bằng cách tạo
các giá trị điểm ảnh ngẫu nhiên tuân thủ phân bố chuẩn hóa Gauss. Hơn nữa, giá trị
riêng đóng góp tới 99,72% năng lượng của ảnh nguyên bản [37].
Khi phân giải ảnh đầu vào thành các băng LL, LH, HL và HH, các hệ số
LL ,
LH , HL , HH cho từng kênh màu được tính toán riêng và sẽ được xem xét điều chỉnh
khi thiết kế các mẫu Gauss để tham chiếu tới. Các hệ số này phải lớn hơn 1 nếu ảnh
màu mặt người đầu vào là tối màu. Ngược lại, các hệ số này phải nhỏ hơn 1 nếu ảnh
màu mặt người đầu vào là sáng màu. Việc tăng giá trị các hệ số này nhìn chung sẽ cải
thiện độ sáng của ảnh được bù màu, Kết quả này đạt được bởi vì khi đó các ma trận
SV của các hệ số trong kênh con được cải thiện một cách đáng kể. Việc giảm giá trị
các hệ số trên sẽ làm giảm độ sáng của toàn ảnh. Điều này có thể được coi là có ích
khi chúng ta áp dụng kỹ thuật tiền xử lý bù sáng trên các ảnh sáng màu.
Trong không gian màu RGB, các tác giả trong công trình nghiên cứu [37] đã
chỉ ra rằng một giá trị hệ số cho tất cả các kênh màu có thể được tính theo công
thức dưới đây:
( 0.5, 1)max( )
, { , , }
max( )
G
A
A R G B
(2.23)
với A là ma trận giá trị riêng của kênh màu A. Như vậy một giá trị chung được
tính toán trước và sau đó được áp dụng cho tất cả các kênh màu. Wang và các cộng
sự [81] đã cải tiến phương pháp trên bằng cách sử dụng giá trị trung bình lớn nhất
của phân bố các kênh màu để làm chuẩn và tính toán từng hệ số riêng cho từng
kênh màu theo công thức sau:
{R, G, B} ( 0.5, 1)
max max( )
, { , , }
max( )
A
A G
A
A A
A R G B
(2.24)
với μA là giá trị trung bình của kênh màu A. Các phương pháp bù sáng tác động lên
một dải động của các kênh màu thông qua tính chất của hàm Gauss. Tuy nhiên, hình
ảnh gương mặt thu được vẫn có thể không đạt chất lượng mong muốn do hai nguyên
nhân chính:
51
- Các phương pháp trên được áp dụng trên một miền không gian, trong đó các
thông tin màu sắc không thể được tách riêng để xử lý.
- Mẫu Gauss ( 0.5, 1)G được áp dụng một cách cố định cho tất cả các
kênh màu.
Với khoảng giá trị biến đổi của các kênh màu RGB là (0, 255), giá trị trung
bình μ của mẫu Gauss tại giá trị 128 tại vị trí trung tâm. Ngoài ra, mẫu Gauss còn có
thể được lựa chọn theo phương pháp thích nghi bằng cách tính toán giá trị trung bình
μ bằng công thức sau:
{R, G, B}256 , { , , }
3
AA A R G B
(2.25)
với μA là giá trị trung bình của kênh màu { , , }A R G B . Cần lưu ý rằng độ lệch chuẩn
σ = 32 tại vị trí biên của không gian màu RGB [37]. Sau khi mẫu Gauss được lựa
chọn, các giá trị
A được tính toán theo công thức ở trên.
Cụ thể, các hệ số bù sáng được tính như sau:
_ max _max( )
max( )
=
LL LL Ga
LL
LL LL
(2.26)
_ max _max( )
max( )
=
LH LH Ga
LH
LH LH
(2.27)
_ max _max( )
max( )
=
HL HL Ga
HL
HL HL
(2.28)
_ max _max( )
max( )
=
HH HH Ga
HH
HH HH
(2.29)
Sau khi tính toán các hệ số bù sáng, băng con LL bù sáng được tính bởi:
_ ( )f f f f
R R R R
f T
R b LL LL LL LL
LL U V (2.30)
_ ( )f f f f
G G G G
f T
G b LL LL LL LL
LL U V (2.31)
_ ( )f f f f
B B B B
f T
B b LL LL LL LL
LL U V (2.32)
Gán các băng con tần số cao HH của các kênh màu bằng 0 và tái tạo lại các
kênh màu bằng biến đổi DWT ngược (iDWT), các kênh màu được bù sáng như sau:
W , , ,0 f f fR R RfbR LD LL H LT Hi (2.33)
W , , ,0 f f fG G GfbG LD LL H LT Hi (2.34)
52
W , , ,0 f f fB B BfbB LD LL H LT Hi (2.35)
Cuối cùng, trộn lẫn 03 kênh màu và chuẩn hóa dữ liệu, ta thu được ảnh mặt
người có phân bố giá trị độ sáng gần với phân bố chuẩn chính tắc như Hình 2.7. Chất
lượng màu và chi tiết khuôn mặt của ảnh đầu vào đã được cải thiện một cách đáng kể
và lược đồ xám tương ứng cũng được điều chỉnh về mức gần chuẩn hóa. Lưu ý rằng
phân bố của từng kênh màu cũng không có sự khác biệt đáng kể khi so sánh với nhau.
Do bề mặt người không phải là bề mặt khuếch tán hoàn hảo (bề mặt
Lambertian) nên trong một số trường hợp, có những đặc trưng của khuôn mặt không
nằm ở băng tần thấp. Hơn nữa, những phần bị che khuất cũng nằm trên cùng băng
tần với các đặc trưng quan trọng của khuôn mặt, có thể độ sáng không được bù đúng
bởi bỏ đi các tần số cao. Vì vậy, trong luận án không đề xuất dùng biến đổi logarit
ngược để hạn chế khả năng các sai số với đặc tính phi tuyến tính.
Thuật toán đề xuất SDWTL tự động điều chỉnh các giá trị điểm ảnh theo 03
kênh màu cho các ảnh mặt người đầu vào trong không gian màu RGB. Các hệ số biến
đổi được tính toán sao cho ba kênh màu RGB có phân bố gần chuẩn tắc, nhờ đó cải
thiện chất lượng ảnh màu mặt người đầu vào. Toàn bộ thuật toán được tóm tắt theo
từng bước như trong phần dưới đây:
Thuật toán 2.1: Thuật toán SDWTL bù sáng cho ảnh màu mặt người
Input: Ảnh màu mặt người { , , }f f ff R G B
Output: Ảnh SDWTL
1. Tách ảnh đầu vào thành 3 kênh màu R, G, B
2. Xác định cường độ sáng tại các điểm ảnh
3. Biến đổi Logarithm các kênh màu R, G, B theo công thức (2.4):
{ , , } f f fLT LT LT LTf R G B
4. Chọn các mẫu Gauss tương ứng ,a LTG theo công thức (2.5).
5. Áp dụng biến đổi 2D DWT cho từng kênh màu để chia thành các băng
tần số con cùng hệ số kèm theo theo các công thức (2.6)-(2.10).
53
6. Tính hệ số của mỗi băng con ( _ maxLL , _ maxLH , _ maxHL , _ maxHH ) theo
cả 03 kênh màu, sau đó xác định giá trị lớn nhất theo các công thức
(2.11) - (2.18).
7. Tính phân giã ), ), ), )( ( ( (SVD LL SVD LH SVD HL SVD HH cho băng tần
con tương ứng với từng màu theo công thức (2.19) - (2.22)
8. Tính giá trị các trọng số , , ,LL LH HL HH theo các công thức (2.26) -
(2.29)
9. Cập nhật lại giá trị các hệ số của các băng con LLb, LHb, HLb, HHb theo
các công thức (2.30) - (2.32)
10. Khử nhiễu bằng cách gắn các hệ số âm cho các băng con giữa, gán các
hệ số bằng 0 cho các băng con cao.
11. Tái cấu trúc các băng con để thu được ảnh { , , }f f fb b b bf R G B đã được
bù sáng bằng cách áp dụng biến đổi 2D WiD T cho các băng con đã
được bù sáng và chuẩn hóa cho từng kênh màu.
2.1.4. Kết quả mô phỏng và thảo luận
2.1.4.1. Các mẫu Gauss được chọn tham chiếu
Theo thang cường độ xám với phạm vi giá trị từ 0 đến 255 như trong Hình 2.1,
các điểm ảnh màu xám, trung bình và sáng có các khoảng giá trị điểm ảnh lần lượt là
[0, 40], [40, 210] và [210, 255]. Khi đó, các CSDL CMU-PIE, FERET sẽ bao gồm
các ảnh màu mặt người được chia làm 03 nhóm: tối màu, sáng màu và bình thường
(xem Hình 2.7). Đồng thời, giá trị độ lệch chuẩn σ = 32 cho tất cả các mẫu Gauss
trong không gian màu RGB theo phân tích ở phần trên. Như vậy, mẫu Gauss với giá
trị trung bình µ = 210 và độ lệch chuẩn σ = 32, hoặc ký hiệu là Ga(210,32) được áp
dụng cho các ảnh màu mặt người thuộc nhóm sáng màu.
Hình 2.7 minh họa cho 03 nhóm ảnh màu mặt người cùng các mẫu Gauss
tương ứng, trong đó các kênh màu được điều chỉnh bù sáng một cách tự động. Cụ thể,
hàng đầu tiên bao gồm các ảnh thuộc nhóm tối màu, hàng thứ hai gồm các ảnh thuộc
nhóm bình thường và hàng cuối cùng gồm các ảnh thuộc nhóm sáng màu. Cột đầu
tiên (a) là các ảnh màu mặt người nguyên bản được lấy từ CSDL CMU-PIE làm ảnh
54
đầu vào. Cột (b) là các lược đồ xám tương ứng với ảnh đầu vào đó. Cột (c) là kết quả
thu được khi áp dụng thuật toán SDWTL bù sáng tự động cho các ảnh đầu vào trong
cột (a). Cột (d) là lược đồ xám của các ảnh trong cột (c). Hình 2.7 cũng cho thấy các
ảnh thu được sau khi áp dụng thuật toán SDWTL sẽ có phân bố gần đạt mức chuẩn
hóa, trong đó các mặt người xuất hiện rõ hơn và tự nhiên hơn giống như là chúng
được chụp trong điều kiện chiếu sáng bình thường. Hiệu quả đạt được thể hiện ổn
định trong cả ba nhóm ảnh đầu vào là nhóm các ảnh tối, nhóm các ảnh bình thường
và nhóm các ảnh sáng màu.
(a) (b) (c) (d)
Hình 2.7 Các dạng ảnh màu và các mẫu Gaus tương ứng.
2.1.4.2. Kết quả mô phỏng trên CSDL ảnh màu CMU-PIE
Để làm rõ sự hiệu quả của phương pháp SDWTL, luận án đã tiến hành thực
nghiệm trên CSDL ảnh màu CMU-PIE. Kết quả của SDWTL cũng được so sánh với
các phương pháp trước như ASVD, ASVDW [81]. Để tiến hành so sánh, luận án sử
dụng các phương pháp khác nhau cho trích xuất đặc trưng khuôn mặt để tiến hành
nhận dạng như Eigenface [17], Gradientface [92] và Weberface [80], [84].
Chúng ta chọn ngẫu nhiên lấy 45 ảnh chụp trực diện của cùng một người trong
CSDL, mỗi ảnh có độ sáng khác nhau được chụp bởi máy ảnh trung tâm (c27), bao
gồm hai điều kiện "tắt đèn" và "bật đèn". Loại "tắt đèn" bao gồm 11 độ sáng từ f02
đến f22, trong khi loại "bật đèn" bao gồm 16 độ sáng từ f00 đến f23 như trong Hình
55
2.8. Khuôn mặt người được trích xuất và chuẩn hóa dưới cùng một kích thước
96×132. Lần lượt từng phương pháp ASVD, ASVDW và SDWTL được áp dụng để
thu được các ảnh từ ảnh màu mặt người gốc để tiến hành nhận dạng. Các hình dưới
đây biểu diễn các ảnh gốc và kết quả của của các phương pháp.
Hình 2.8 biểu diễn 45 ảnh dưới 45 độ sáng khác nhau, trong cả điều kiện “tắt
đèn” và “bật đèn” của một người trong CSDL CMU-PIE. Hình 2.9 biểu diễn kết quả
thu được sau khi áp dụng phương pháp ASVD và kết quả của phương pháp ASVDW
được biểu diễn trong Hình 2.10. Kết quả cho thấy, ảnh ASVD không quá khác biệt
so với ảnh gốc và giữa các ảnh vẫn có sự khác biệt rất lớn về cường độ sáng, thể hiện
qua các khuôn mặt bị che khuất và bị hiện tượng ảnh bị quá sáng. Hình 2.10 biểu diễn
ảnh thu được khi áp dụng phương pháp ASVDW như được trình bày trong [81]. Kết
quả cho thấy, ASVDW tuy đã đưa được các hình ảnh về có cùng độ sáng, nhưng
nhưng chưa xử lý được tác động của điều kiện “tắt đèn” và “bật đèn”.
Hình 2.8 Các ảnh gốc của một người trong CSDL CMU-PIE.
56
Hình 2.9 Kết quả biến đổi ASVD của các ảnh gốc trong Hình 2.8.
Hình 2.10 Kết quả biến đổi ASVDW của các ảnh gốc trong Hình 2.8.
57
Hình 2.11 Kết quả biến đổi SDWTL của các ảnh gốc trong Hình 2.8.
Kết quả của phương pháp SDWTL đề xuất được biểu diễn trong Hình 2.11
cho thấy, tất cả các ảnh đã rõ nét hơn, đặc biệt là các ảnh bị che khuất và tái tạo được
làn da gốc của người với màu sắc được phân bố cân bằng hơn. Tổng thể, các ảnh có
màu sắc giống nhau như được chụp cùng một thời điểm trong điều kiện “bật đèn”.
Hình 2.12 Tỉ lệ nhận dạng bằng phương pháp Eigenface tương ứng với số thành
phần huấn luyện và kiểm tra trên CSDL CMU-PIE bằng các phương pháp ASVD,
ASVDW và SDWTL.
58
Hình 2.13 Tỉ lệ nhận dạng bằng phương pháp Eigenface tương ứng với các đối
tượng nhận dạng trên CSDL CMU-PIE bằng các phương pháp ASVD, ASVDW và
SDWTL.
Để đánh giá ảnh hưởng của các kết quả xử lý bù sáng lên hiệu quả chung của
hệ thống nhận dạng khuôn mặt, các ảnh thu được sau xử lý ASVD, ASVDW và
SDWTL ở trên được sử dụng như là các ảnh đầu vào cho phương pháp Eigenface
[17] nhằm thực thi nhận dạng khuôn mặt. Phương pháp Eigenface sẽ áp dụng thuật
toán PCA [53] để thực hiện các phép chiếu tuyến tính từ không gian ảnh sang một
không gian đặc trưng với kích thước chiều không gian thấp hơn. PCA sử dụng k thành
phần chính (là các eigenvector tương ứng với k giá trị eigenvalue cao nhất) làm các
đặc trưng và sau đó tìm lân cận gần nhất giữa các hình được chiếu để huấn luyện với
hình được chiếu để nhận dạng. Ở bước này, các tỉ lệ nhận dạng tương ứng với các
phương pháp bù sáng khác nhau ASVD, ASVDW và SDWTL sẽ được so sánh với
nhau. Tổng cộng có 15 ảnh huấn luyện được lựa chọn (6 ảnh từ f17 đến f22 cho điều
kiện “tắt đèn” và 9 ảnh từ f15 đến f24 cho điều kiện “bật đèn” trong phòng) và 30
ảnh còn lại được lựa chọn để kiểm tra nhận dạng. Các ảnh huấn luyện được chụp
trong các điều kiện chiếu sáng bình thường. Sau khi trích xuất phân vùng ảnh hình
chữ nhật chứa khuôn mặt RFOI (The Rectangular Face of Interest) và đưa về cùng
kích thước 128x128 điểm ảnh, các phương pháp ASVD, ASVDW và SDWTL được
59
sử dụng để xử lý tình trạng cường độ chiếu sáng thay đổi của các ảnh này. Hình 2.12
minh họa các tỉ lệ nhận dạng trung bình với các thành phần huấn luyện và kiểm tra
khác nhau. Hình 2.13 thể hiện các tỉ lệ nhận dạng trung bình cho 68 đối tượng từ
CSDL CMU-PIE với tất cả các thành phần chính cho huấn luyện và kiểm tra. Qua
quan sát bằng mắt, chúng ta có thể thấy mặc dù các ảnh sau xử lý bù sáng bởi phương
pháp ASVDW có vẻ có độ sáng tốt hơn và đều hơn (Hình 2.10) nhưng lại chịu ảnh
hưởng biến đổi cường độ sáng tại các vùng biên theo 04 phân vùng ảnh nên cho kết
quả nhận dạng tương ứng lại thấp hơn so với các ảnh sau xử lý bù sáng bằng phương
pháp SDWTL (Hình 2.11).
Bảng 2.1 Kết quả nhận dạng mặt người trên CSDL CMU-PIE bằng Eigenface.
CSDL ảnh
đầu vào
Độ chính xác (%)
Ảnh gốc ASVD ASVDW SDWTL
CMU-PIE 89,95 92,45 98,28 99,76
Hình