Luận án Nghiên cứu giải pháp lọc số dùng biến đổi wavelet nâng cao chất lượng xử lý ảnh trong kỹ thuật nhận dạng khuôn mặt và tròng mắt người

MỤC LỤC

Trang

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT . v

DANH MỤC CÁC BẢNG . ix

DANH MỤC CÁC HÌNH VẼ . x

MỞ ĐẦU . 1

CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG SINH TRẮC HỌC VÀ CÁC KỸ

THUẬT BIẾN ĐỔI SỐ TRÊN ẢNH ĐẦU VÀO . 8

1.1. Các hệ thống nhận dạng khuôn mặt và tròng mắt . 8

1.1.1. Hệ thống nhận dạng khuôn mặt . 10

1.1.2. Hệ thống nhận dạng tròng mắt . 12

1.1.3. Một số CSDL sử dụng trong sinh trắc học . 18

1.2. Các kỹ thuật tiền xử lý ảnh đầu vào. 21

1.2.1. Tiền xử lý ảnh khuôn mặt . 21

1.2.2. Tiền xử lý ảnh tròng mắt . 22

1.3. Các phép biến đổi số trong xử lý ảnh . 25

1.3.1. Các biến đổi không thích nghi . 26

1.3.2. Các phép biến đổi thích nghi . 29

1.3.3. Biến đổi Curvelet . 30

1.4. Tình hình nghiên cứu ở trong và ngoài nước. 33

1.4.1. Tình hình nghiên cứu và ứng dụng ngoài nước . 33

1.4.2. Tình hình nghiên cứu trong nước . 36

1.5. Kết luận Chương 1 . 37

CHƯƠNG 2: CÁC KỸ THUẬT TIỀN XỬ LÝ NHẰM NÂNG CAO HIỆU QUẢ

CHO HỆ THỐNG NHẬN DẠNG KHUÔN MẶT VÀ TRÒNG MẮT . 39

2.1. Thuật toán SDWTL bù sáng cho ảnh màu mặt người . 39

2.1.1. Động lực nghiên cứu . 39

2.1.2. Phân loại ảnh màu mặt người theo cường độ sáng . 42

2.1.3. Mô hình thuật toán SDWTL . 45

2.1.4. Kết quả mô phỏng và thảo luận . 53

2.2. Tối ưu phân vùng ảnh bằng thuật toán Dijkstra đa nguồn cải tiến . 65

2.2.1. Động lực nghiên cứu . 65

2.2.2. Mô hình thuật toán Dijkstra cải tiến . 67

2.2.3. Kết quả mô phỏng và thảo luận . 72

2.3. Phạm vi ứng dụng . 78

2.4. Kết luận Chương 2 . 79

CHƯƠNG 3: CẢI THIỆN ĐỘ CHÍNH XÁC TRONG NHẬN DẠNG BẰNG

CÁC KẾT HỢP BIẾN ĐỔI SỐ RỜI RẠC . 81

3.1. Biến đổi nhanh Curvelet rời rạc kết hợp các thuật toán PCA và SVD . 81

3.1.1. Động lực nghiên cứu . 81

3.1.2. Mô hình kết hợp thuật toán FDCT, PCA và SVD . 83

3.1.3. Kết quả thực nghiệm và thảo luận . 85

3.2. Kết hợp của biến đổi Curvelet nhanh rời rạc và DTCWT . 87

3.2.1. Động lực nghiên cứu . 87

3.2.2. Mô hình kết hợp biến đổi Curvelet và DTCWT . 89

3.2.3. Kết quả thực nghiệm và thảo luận . 95

3.3. Phạm vi ứng dụng . 97

3.4. Kết luận Chương 3 . 98

KẾT LUẬN . 100

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ . 103

TÀI LIỆU THAM KHẢO . 104

126 trang | Chia sẻ: vietdoc2 | Ngày: 27/11/2023 | Lượt xem: 403 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu giải pháp lọc số dùng biến đổi wavelet nâng cao chất lượng xử lý ảnh trong kỹ thuật nhận dạng khuôn mặt và tròng mắt người, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

từ 0 đến 255. Theo cảm nhận của con người, các điểm ảnh với cường độ xám trong khoảng giá trị [0, 40] có thể được coi là tối (dark), trong khoảng [40, 210] có thể được coi là trung bình (normal) và trong khoảng giá trị [210, 255] được coi là sáng (bright). Trong không gian màu RGB, kênh ánh sáng xanh lá cây G có ảnh hưởng nhiều nhất vào cường độ cảm nhận của con người, và ngược lại kênh ánh sáng xanh B có ảnh hưởng ít nhất. Tuy vậy, việc nhận dạng các ảnh màu mặt người có màu rất tối sẽ khó hơn rất nhiều so với màu rất sáng. Do đó, kênh ánh sáng màu xanh B thường được làm ngưỡng tham chiếu trong các thực nghiệm bù sáng của luận án. Cho một ảnh đầu vào là ảnh màu mặt người kích thước 𝑚 × 𝑛, giả sử Pl, Pn và Ph biểu thị số lượng các điểm ảnh thuộc nhóm có cường độ sáng thấp, trung bình và cao. Tỉ lệ phân bố điểm ảnh cường độ sáng thấp LDR (Low Brightness Pixel 43 Distribution Rate) [90] được định nghĩa là tỉ lệ giữa số lượng các điểm ảnh có cường độ sáng thấp với tổng số lượng các điểm ảnh trong ảnh đã cho: 100% lPLDR m n    (2.1) Tỉ lệ phân bố điểm ảnh cường độ sáng trung bình NDR (Normal Brightness Pixel Distribution Rate) [90] được định nghĩa là tỉ lệ giữa số lượng các điểm ảnh có cường độ sáng trung bình với tổng số lượng các điểm ảnh trong ảnh đã cho: 100% nPNDR m n    (2.2) Tương tự, tỉ lệ phân bố điểm ảnh cường độ sáng cao HDR (High Brightness Pixel Distribution Rate) [90] được định nghĩa là tỉ lệ giữa số lượng các điểm ảnh có cường độ sáng cao với tổng số lượng các điểm ảnh trong ảnh đã cho: 100% hPHDR m n    (2.3) Một ảnh đầu vào được coi là sáng tự nhiên (lateral lighting) nếu chỉ có hai trong số ba chỉ số LDR, NDR và HDR có giá trị lớn hơn 40. Ngược lại, ảnh đầu vào sẽ được gọi là sáng đều (uniform lighting) [93]. Ảnh màu mặt người có thể được phân chia dựa theo các chỉ số trên như sau: các ảnh tối màu sẽ có giá trị LDR trong khoảng [70-100], các ảnh sáng màu sẽ có giá trị HDR trong khoảng [70-100] và các ảnh là trung bình nếu nó không thuộc hai nhóm trên. Cột đầu trong Hình 2.2 bao gồm 03 ảnh màu gương mặt của cùng một người trong CSDL ảnh CMU-PIE được chụp dưới những điều kiện chiếu sáng khác nhau. Cột thứ hai bao gồm các điểm ảnh có độ sáng thấp và giá trị kênh màu B trong khoảng [0-40]. Cột thứ ba bao gồm các điểm ảnh có độ sáng trung bình và giá trị kênh màu B trong khoảng (40-210). Cột thứ tư bao gồm các điểm ảnh có độ sáng cao và giá trị kênh màu B trong khoảng [210-255]. Cột cuối cùng là phân bố màu tương ứng của các điểm ảnh. Dễ nhận thấy ảnh khuôn mặt trong Hình 2.2(a) được coi là tối, ảnh trong Hình 2.2(b) được coi là bình thường và ảnh trong Hình 2.2(c) được coi là sáng. Lưu ý rằng các ảnh trong CSDL CMU-PIE có thể được phân thành hai nhóm như trên, tuy nhiên các ảnh trong CSDL FERET đều là 44 sáng đều (Hình 2.3), giữa các nhóm ảnh đầu vào thuộc Hình 2.3(a) và Hình 2.3(b) có độ tương phản ít hơn. (a) (b) (c) Hình 2.2 Các ảnh màu mặt người trong CSDL CMU-PIE và phân bố màu tương ứng của các điểm ảnh. (a) (b) Hình 2.3 Các ảnh màu mặt người trong CSDL FERET và các phân bố điểm ảnh tương ứng. 45 2.1.3. Mô hình thuật toán SDWTL Phương pháp được đề suất trong phần này với mục đích cải thiện chất lượng ảnh màu mặt người bằng cách làm cho các phân bố màu tương ứng trở nên gần với dạng chuẩn tắc (trung bình). Hình 2.4 Mô hình phân bố chuẩn tắc Gauss G(μ, σ). Trong Hình 2.4, một phân bố chuẩn tắc Gauss G(μ, σ) có trục hoành biểu diễn các giá trị khác nhau của phân bố dữ liệu thực (cụ thể là các giá trị điểm ảnh từ 0 đến 255 trong luận án). Trục tung biểu diễn các mức thay đổi về xác suất mà G có một một giá trị tương ứng của trục hoành. Cần chú ý rằng tất cả dữ liệu có phân bố chuẩn tắc có thể được biến đổi về dạng phân bố Gauss và có thể được xử lý theo các quy tắc chung thống nhất cho dạng phân bố đó. Điểm trung tâm là giá trị trung bình μ, các giá trị sai khác với μ khi dịch về hai phía được gọi là độ lệch chuẩn σ. Các tập dữ liệu tuân theo phân bố Gauss có một số tính chất quan trọng biết trước và có tính đối xứng, do đó dễ dàng được xử lý trong các mô hình tính toán và dự đoán gắn với thế giới thực. Các nghiên cứu đã chỉ ra rằng rất nhiều sự kiện trong thế giới thực có thể được mô hình hóa theo phân bố Gauss hoặc ít nhất có dạng rất gần với phân bố Gauss [31], [90]. Các mô hình phân bố màu sắc của các ảnh màu RGB khi chụp các đối tượng ảnh trong tự nhiên cũng có tính chất như vậy. Trong không gian ảnh màu RGB, chúng ta cần lưu ý rằng một ảnh chất lượng tốt thường có độ phân phối gần phân phối chuẩn tắc, còn được gọi là phân bố Gauss, là phân phối chuẩn với giá trị trung bình  bằng  và độ lệch chuẩn  bằng 1. Phương pháp đề xuất sẽ tham chiếu đến một ảnh có 46 phân phối Gauss để tính toán hệ số bù sáng cho các kênh màu của ảnh màu mặt người, qua đó tự động điều chỉnh các kênh màu có độ phân bố gần với phân bố chuẩn tắc với giá trị các điểm ảnh nằm trong khoảng giá trị từ 0 đến 255. Hiện nay, biến đổi Logarit (LT) được sử dụng để mở rộng rãi trong lĩnh vực xử lý ảnh, đặc biệt trong các bài toán nâng cao chất lượng ảnh [85]. Do tính chất của hàm logarit, LT ánh xạ một khoảng hẹp của các giá trị cấp xám thấp trong ảnh đầu vào thành một khoảng rộng hơn của ảnh đầu ra và ngược lại biến một khoảng rộng các giá trị cấp xám cao trong ảnh đầu vào thành một khoảng hẹp các giá trị cấp xám của ảnh đầu ra. Với các ảnh màu mặt người bị che khuất, luận án sử dụng LT để mở rộng các giá trị của các điểm ảnh tối trong một ảnh màu trong khi nén các giá trị màu cao lại. Hình 2.5 biểu diễn một số ảnh màu mặt người trong CSDL CMU-PIE và các ảnh thu sau khi được sau khi sử dụng LT. Kết quả cho thấy, phần bị che khuất trong ảnh đã được khuếch đại làm cho rõ hơn. Tuy nhiên, các phần không bị che khuất cũng bị khuếch đại làm cho ảnh bị quá sáng. (a) (b) Hình 2.5 Ảnh màu mặt người trong CSDL CMU-PIE (a) và ảnh thu được sau khi sử dụng LT (b). Giả sử ảnh mặt người f trong không gian màu RGB được phân tách thành các kênh màu riêng biệt { , , }f f ff R G B . Biến đổi LT ánh xạ một khoảng hẹp của các giá trị cấp xám thấp trong ảnh đầu vào thành một khoảng rộng hơn của ảnh đầu ra và ngược lại biến một khoảng rộng các giá trị cấp xám cao trong ảnh đầu vào thành một 47 khoảng hẹp các giá trị cấp xám của ảnh đầu ra. Ký hiệu ( )LTf LT f và , ( )a LT aG LT G , ta có: , log( ( , , )) log( , log( ), l )og( ) ( ) (, ) f f f f f f f f f LT LT LT LT LTf R G f R G B R GB f B  (2.4) , log( ) a LT aG G (2.5) Phân rã giá trị riêng được sử dụng rộng rãi trong xử lý ảnh do cấu trúc ảnh số giống như một ma trận. Không làm mất tính tổng quát, giả sử f có kích thước ,( )M N M N  . SVD của ảnh f được tính như sau: Tf U V  (2.6) trong đó, 1 2[ , ,..., ]NU u u u và 1 2[ , , , ]... NV v v v là các ma trận trực giao chứa các véc- tơ riêng và 𝛴 = [𝐷, 𝑂]. 𝛴 gồm các giá trị riêng trên đường chéo chính và được sắp xếp theo chiều giảm dần, với 1 2( , ,..., )kD diag    là các giá trị riêng, O là ma trận không kích thước ( )m m n  và k là hạng của f. Khi ảnh được phân rã bởi SVD, các giá trị riêng sẽ chứa thông tin độ sáng của ảnh số, còn véctơ riêng chứa thông tin về độ phản xạ. (a) (b) (c) (d) Hình 2.6 Các ảnh mặt người tối màu (a), sáng màu (c) và các ảnh tái tạo tương ứng (b), (d) khi gán các giá trị riêng bằng 1. Hình 2.6 biểu diễn 02 ảnh trong CSDL CMU-PIE và ảnh của chúng thu được sau khi gán các giá trị riêng của ảnh bằng 1. Từ công thức (2.6) cho thấy, khi gán ma trận  bởi ma trận đơn vị, ảnh thu được sẽ không còn tác động của ma trận  . Sau khi loại bỏ sự tác động của các giá trị riêng, ta thu được ảnh cấu trúc của khuôn mặt không còn tác động của độ sáng. Điều này khẳng định, các giá trị riêng mang thông tin độ sáng trong ảnh. Không những vậy, giá trị riêng lớn nhất của ảnh còn chứa 99,72% năng lượng của ảnh [65]. Kết quả trên đạt được cả trên nhóm ảnh tối màu như Hình 2.6(a) và ảnh sáng màu như Hình 2.6(c). 48 Tiếp theo, biến đổi DWT được sử dụng để biến đổi các kênh màu trong miền logarit sang miền Wavelet, nhờ đó chúng ta xác định được các thành phần tần số thấp mang thông tin của độ sáng. Biến đổi DWT được lựa chọn dựa trên tính đơn giản của nó. Trong hướng đề xuất này, ảnh màu mặt người chỉ được phân rã trong miền logarit bằng biến đổi DWT ở mức 1 (sử dụng Symlets 2 Wavelet [48]) để giảm bớt tính phức tạp trong tính toán và thời gian thực thi. Ba kênh màu RGB được phân rã thành 04 băng con tương ứng theo thang cấp 1 là LL, HL, LH, HH với các hệ số tương ứng llm,n, hlm,n, lhm,n và hhm,n. Các ma trận LLG, HLG, LHG, HHG là các ma trận mẫu tương ứng với các hệ số llG,m,n, hlG,m,n, lhG,m,n và hhG,m,n. , , , ,,A m n G G m nLL ll LL ll        (2.7) , , , ,,A m n G G m nHL hl HL hl        (2.8) , , ,,m n G G m nLH lh LH ll        (2.9) , , ,,m n G G m nHH hh HH hh        (2.10) Với 𝑚 = 0, 1, 2, , 𝑀 2 − 1; ; 𝑛 = 0, 1, 2, , 𝑁 2 − 1; LL, HL, HH là các ma trận có kích thước (M/2 × N/2) Các tần số thấp LL chứa thông tin màu sắc, các thành phần tần số trung bình HL và LH mang thông tin cấu trúc của ảnh mặt người còn thành phần tần số cao HH mang thông tin về nhiễu. Thông thường, để cải thiện chất lượng ảnh, các thông tin màu sắc ở băng thấp được điều chỉnh, đồng thời cấu trúc khuôn mặt trong các băng con giữa và cao được nâng cao bằng cách nhân với các hệ số thích nghi. Các hệ số này được nhân với tất cả các hệ số Wavelet trong các kênh màu RGB. Trong phần này chỉ thực hiện việc bù sáng cho băng con tần số thấp LL, giữ nguyên băng con tần số trung bình LH và HL, gán các giá trị băng HH bằng 0. Các hệ số bù sáng cho mỗi kênh màu được tính toán riêng. Với giá trị hệ số lớn nhất được sử dụng làm tham chiếu, các hệ số của hai kênh màu còn lại được tính toán một cách thích nghi. Giá trị trung bình cho mỗi băng con có thể bằng 0 vì tính chất đối xứng của các biến đổi Wavelet. Các hệ số dương của mỗi băng con sẽ chứa các thông tin quan trọng nhất 49 của ảnh đầu vào. Giá trị trung bình của mỗi băng con từ 03 kênh màu có thể được tính như sau: /2 1 /2 1 , , 0 0 4 ; 0 M N LL m n m n m n ll ll MN         (2.11) /2 1 /2 1 , , 0 0 4 ; 0 M N HL m n m n m n hl ll MN         (2.12) /2 1 /2 1 , , 0 0 4 ; 0 M N LH m n m n m n lh lh MN         (2.13) /2 1 /2 1 , , 0 0 4 ; 0 M N HH m n m n m n hh hh MN         (2.14) và các giá trị trung bình lớn nhất của các băng con LL, LH, HL, HH của 03 kênh màu có thể được tính như sau: _ max max( )LL LL  (2.15) _ max max( )HL HL  (2.16) _ max max( )LH LH  (2.17) _ max max( )HH HH  (2.18) Phương pháp đề xuất sẽ tính trước các giá trị bù cho từng hệ số băng con dương trong các kênh màu. Tính toán SVD của các băng con tần số thấp của các kênh màu R, G, B và tham chiếu Gauss Ga có kích thước tương ứng với băng con LL: ( ) f f f R R R f T R LL LL LL SVD LL U V   (2.19) ( ) f f f G G G f T G LL LL LL SVD LL U V   (2.20) ( ) f f f B B B f T B LL LL LL SVD LL U V   (2.21) ( ) TGa Ga GaSVD Ga U V   (2.22) Bởi vì các ma trận SV (singular value) tượng trưng cho các thông tin cường độ màu sắc của ảnh đã cho nên các ma trận này được điều chỉnh một cách tự động để cải thiện chất lượng của ảnh khi được bù sáng. Khi thu được một ảnh mịn có độ tương phản thấp (ảnh băng con LL), các ma trận SV sẽ được nhân với một tỉ số lớn hơn 1. Ngược lại, các ma trận SV sẽ được nhân với một hệ số nhỏ hơn 1 nếu thu được một ảnh mịn có độ tương phản lớn. Ngoài ra, cấu trúc của khuôn mặt người trong kênh 50 giữa được cải thiện bằng cách nhân các ma trận SV với một tỉ số lớn hơn 1. Có thể thu được một ảnh có cường độ điểm ảnh đã được chuẩn hóa và tối ưu bằng cách tạo các giá trị điểm ảnh ngẫu nhiên tuân thủ phân bố chuẩn hóa Gauss. Hơn nữa, giá trị riêng đóng góp tới 99,72% năng lượng của ảnh nguyên bản [37]. Khi phân giải ảnh đầu vào thành các băng LL, LH, HL và HH, các hệ số LL , LH , HL , HH cho từng kênh màu được tính toán riêng và sẽ được xem xét điều chỉnh khi thiết kế các mẫu Gauss để tham chiếu tới. Các hệ số này phải lớn hơn 1 nếu ảnh màu mặt người đầu vào là tối màu. Ngược lại, các hệ số này phải nhỏ hơn 1 nếu ảnh màu mặt người đầu vào là sáng màu. Việc tăng giá trị các hệ số này nhìn chung sẽ cải thiện độ sáng của ảnh được bù màu, Kết quả này đạt được bởi vì khi đó các ma trận SV của các hệ số trong kênh con được cải thiện một cách đáng kể. Việc giảm giá trị các hệ số trên sẽ làm giảm độ sáng của toàn ảnh. Điều này có thể được coi là có ích khi chúng ta áp dụng kỹ thuật tiền xử lý bù sáng trên các ảnh sáng màu. Trong không gian màu RGB, các tác giả trong công trình nghiên cứu [37] đã chỉ ra rằng một giá trị hệ số  cho tất cả các kênh màu có thể được tính theo công thức dưới đây: ( 0.5, 1)max( ) , { , , } max( ) G A A R G B         (2.23) với A là ma trận giá trị riêng của kênh màu A. Như vậy một giá trị  chung được tính toán trước và sau đó được áp dụng cho tất cả các kênh màu. Wang và các cộng sự [81] đã cải tiến phương pháp trên bằng cách sử dụng giá trị trung bình lớn nhất của phân bố các kênh màu để làm chuẩn và tính toán từng hệ số  riêng cho từng kênh màu theo công thức sau: {R, G, B} ( 0.5, 1) max max( ) , { , , } max( ) A A G A A A A R G B             (2.24) với μA là giá trị trung bình của kênh màu A. Các phương pháp bù sáng tác động lên một dải động của các kênh màu thông qua tính chất của hàm Gauss. Tuy nhiên, hình ảnh gương mặt thu được vẫn có thể không đạt chất lượng mong muốn do hai nguyên nhân chính: 51 - Các phương pháp trên được áp dụng trên một miền không gian, trong đó các thông tin màu sắc không thể được tách riêng để xử lý. - Mẫu Gauss ( 0.5, 1)G    được áp dụng một cách cố định cho tất cả các kênh màu. Với khoảng giá trị biến đổi của các kênh màu RGB là (0, 255), giá trị trung bình μ của mẫu Gauss tại giá trị 128 tại vị trí trung tâm. Ngoài ra, mẫu Gauss còn có thể được lựa chọn theo phương pháp thích nghi bằng cách tính toán giá trị trung bình μ bằng công thức sau: {R, G, B}256 , { , , } 3 AA A R G B       (2.25) với μA là giá trị trung bình của kênh màu { , , }A R G B . Cần lưu ý rằng độ lệch chuẩn σ = 32 tại vị trí biên của không gian màu RGB [37]. Sau khi mẫu Gauss được lựa chọn, các giá trị A được tính toán theo công thức ở trên. Cụ thể, các hệ số bù sáng được tính như sau: _ max _max( ) max( ) = LL LL Ga LL LL LL       (2.26) _ max _max( ) max( ) = LH LH Ga LH LH LH       (2.27) _ max _max( ) max( ) = HL HL Ga HL HL HL       (2.28) _ max _max( ) max( ) = HH HH Ga HH HH HH       (2.29) Sau khi tính toán các hệ số bù sáng, băng con LL bù sáng được tính bởi: _ ( )f f f f R R R R f T R b LL LL LL LL LL U V    (2.30) _ ( )f f f f G G G G f T G b LL LL LL LL LL U V    (2.31) _ ( )f f f f B B B B f T B b LL LL LL LL LL U V    (2.32) Gán các băng con tần số cao HH của các kênh màu bằng 0 và tái tạo lại các kênh màu bằng biến đổi DWT ngược (iDWT), các kênh màu được bù sáng như sau:  W , , ,0 f f fR R RfbR LD LL H LT Hi    (2.33)  W , , ,0 f f fG G GfbG LD LL H LT Hi    (2.34) 52  W , , ,0 f f fB B BfbB LD LL H LT Hi    (2.35) Cuối cùng, trộn lẫn 03 kênh màu và chuẩn hóa dữ liệu, ta thu được ảnh mặt người có phân bố giá trị độ sáng gần với phân bố chuẩn chính tắc như Hình 2.7. Chất lượng màu và chi tiết khuôn mặt của ảnh đầu vào đã được cải thiện một cách đáng kể và lược đồ xám tương ứng cũng được điều chỉnh về mức gần chuẩn hóa. Lưu ý rằng phân bố của từng kênh màu cũng không có sự khác biệt đáng kể khi so sánh với nhau. Do bề mặt người không phải là bề mặt khuếch tán hoàn hảo (bề mặt Lambertian) nên trong một số trường hợp, có những đặc trưng của khuôn mặt không nằm ở băng tần thấp. Hơn nữa, những phần bị che khuất cũng nằm trên cùng băng tần với các đặc trưng quan trọng của khuôn mặt, có thể độ sáng không được bù đúng bởi bỏ đi các tần số cao. Vì vậy, trong luận án không đề xuất dùng biến đổi logarit ngược để hạn chế khả năng các sai số với đặc tính phi tuyến tính. Thuật toán đề xuất SDWTL tự động điều chỉnh các giá trị điểm ảnh theo 03 kênh màu cho các ảnh mặt người đầu vào trong không gian màu RGB. Các hệ số biến đổi được tính toán sao cho ba kênh màu RGB có phân bố gần chuẩn tắc, nhờ đó cải thiện chất lượng ảnh màu mặt người đầu vào. Toàn bộ thuật toán được tóm tắt theo từng bước như trong phần dưới đây: Thuật toán 2.1: Thuật toán SDWTL bù sáng cho ảnh màu mặt người Input: Ảnh màu mặt người { , , }f f ff R G B Output: Ảnh SDWTL 1. Tách ảnh đầu vào thành 3 kênh màu R, G, B 2. Xác định cường độ sáng tại các điểm ảnh 3. Biến đổi Logarithm các kênh màu R, G, B theo công thức (2.4): { , , } f f fLT LT LT LTf R G B 4. Chọn các mẫu Gauss tương ứng ,a LTG theo công thức (2.5). 5. Áp dụng biến đổi 2D DWT cho từng kênh màu để chia thành các băng tần số con cùng hệ số kèm theo theo các công thức (2.6)-(2.10). 53 6. Tính hệ số của mỗi băng con ( _ maxLL , _ maxLH , _ maxHL , _ maxHH ) theo cả 03 kênh màu, sau đó xác định giá trị lớn nhất theo các công thức (2.11) - (2.18). 7. Tính phân giã ), ), ), )( ( ( (SVD LL SVD LH SVD HL SVD HH cho băng tần con tương ứng với từng màu theo công thức (2.19) - (2.22) 8. Tính giá trị các trọng số , , ,LL LH HL HH    theo các công thức (2.26) - (2.29) 9. Cập nhật lại giá trị các hệ số của các băng con LLb, LHb, HLb, HHb theo các công thức (2.30) - (2.32) 10. Khử nhiễu bằng cách gắn các hệ số âm cho các băng con giữa, gán các hệ số bằng 0 cho các băng con cao. 11. Tái cấu trúc các băng con để thu được ảnh { , , }f f fb b b bf R G B đã được bù sáng bằng cách áp dụng biến đổi 2D WiD T cho các băng con đã được bù sáng và chuẩn hóa cho từng kênh màu. 2.1.4. Kết quả mô phỏng và thảo luận 2.1.4.1. Các mẫu Gauss được chọn tham chiếu Theo thang cường độ xám với phạm vi giá trị từ 0 đến 255 như trong Hình 2.1, các điểm ảnh màu xám, trung bình và sáng có các khoảng giá trị điểm ảnh lần lượt là [0, 40], [40, 210] và [210, 255]. Khi đó, các CSDL CMU-PIE, FERET sẽ bao gồm các ảnh màu mặt người được chia làm 03 nhóm: tối màu, sáng màu và bình thường (xem Hình 2.7). Đồng thời, giá trị độ lệch chuẩn σ = 32 cho tất cả các mẫu Gauss trong không gian màu RGB theo phân tích ở phần trên. Như vậy, mẫu Gauss với giá trị trung bình µ = 210 và độ lệch chuẩn σ = 32, hoặc ký hiệu là Ga(210,32) được áp dụng cho các ảnh màu mặt người thuộc nhóm sáng màu. Hình 2.7 minh họa cho 03 nhóm ảnh màu mặt người cùng các mẫu Gauss tương ứng, trong đó các kênh màu được điều chỉnh bù sáng một cách tự động. Cụ thể, hàng đầu tiên bao gồm các ảnh thuộc nhóm tối màu, hàng thứ hai gồm các ảnh thuộc nhóm bình thường và hàng cuối cùng gồm các ảnh thuộc nhóm sáng màu. Cột đầu tiên (a) là các ảnh màu mặt người nguyên bản được lấy từ CSDL CMU-PIE làm ảnh 54 đầu vào. Cột (b) là các lược đồ xám tương ứng với ảnh đầu vào đó. Cột (c) là kết quả thu được khi áp dụng thuật toán SDWTL bù sáng tự động cho các ảnh đầu vào trong cột (a). Cột (d) là lược đồ xám của các ảnh trong cột (c). Hình 2.7 cũng cho thấy các ảnh thu được sau khi áp dụng thuật toán SDWTL sẽ có phân bố gần đạt mức chuẩn hóa, trong đó các mặt người xuất hiện rõ hơn và tự nhiên hơn giống như là chúng được chụp trong điều kiện chiếu sáng bình thường. Hiệu quả đạt được thể hiện ổn định trong cả ba nhóm ảnh đầu vào là nhóm các ảnh tối, nhóm các ảnh bình thường và nhóm các ảnh sáng màu. (a) (b) (c) (d) Hình 2.7 Các dạng ảnh màu và các mẫu Gaus tương ứng. 2.1.4.2. Kết quả mô phỏng trên CSDL ảnh màu CMU-PIE Để làm rõ sự hiệu quả của phương pháp SDWTL, luận án đã tiến hành thực nghiệm trên CSDL ảnh màu CMU-PIE. Kết quả của SDWTL cũng được so sánh với các phương pháp trước như ASVD, ASVDW [81]. Để tiến hành so sánh, luận án sử dụng các phương pháp khác nhau cho trích xuất đặc trưng khuôn mặt để tiến hành nhận dạng như Eigenface [17], Gradientface [92] và Weberface [80], [84]. Chúng ta chọn ngẫu nhiên lấy 45 ảnh chụp trực diện của cùng một người trong CSDL, mỗi ảnh có độ sáng khác nhau được chụp bởi máy ảnh trung tâm (c27), bao gồm hai điều kiện "tắt đèn" và "bật đèn". Loại "tắt đèn" bao gồm 11 độ sáng từ f02 đến f22, trong khi loại "bật đèn" bao gồm 16 độ sáng từ f00 đến f23 như trong Hình 55 2.8. Khuôn mặt người được trích xuất và chuẩn hóa dưới cùng một kích thước 96×132. Lần lượt từng phương pháp ASVD, ASVDW và SDWTL được áp dụng để thu được các ảnh từ ảnh màu mặt người gốc để tiến hành nhận dạng. Các hình dưới đây biểu diễn các ảnh gốc và kết quả của của các phương pháp. Hình 2.8 biểu diễn 45 ảnh dưới 45 độ sáng khác nhau, trong cả điều kiện “tắt đèn” và “bật đèn” của một người trong CSDL CMU-PIE. Hình 2.9 biểu diễn kết quả thu được sau khi áp dụng phương pháp ASVD và kết quả của phương pháp ASVDW được biểu diễn trong Hình 2.10. Kết quả cho thấy, ảnh ASVD không quá khác biệt so với ảnh gốc và giữa các ảnh vẫn có sự khác biệt rất lớn về cường độ sáng, thể hiện qua các khuôn mặt bị che khuất và bị hiện tượng ảnh bị quá sáng. Hình 2.10 biểu diễn ảnh thu được khi áp dụng phương pháp ASVDW như được trình bày trong [81]. Kết quả cho thấy, ASVDW tuy đã đưa được các hình ảnh về có cùng độ sáng, nhưng nhưng chưa xử lý được tác động của điều kiện “tắt đèn” và “bật đèn”. Hình 2.8 Các ảnh gốc của một người trong CSDL CMU-PIE. 56 Hình 2.9 Kết quả biến đổi ASVD của các ảnh gốc trong Hình 2.8. Hình 2.10 Kết quả biến đổi ASVDW của các ảnh gốc trong Hình 2.8. 57 Hình 2.11 Kết quả biến đổi SDWTL của các ảnh gốc trong Hình 2.8. Kết quả của phương pháp SDWTL đề xuất được biểu diễn trong Hình 2.11 cho thấy, tất cả các ảnh đã rõ nét hơn, đặc biệt là các ảnh bị che khuất và tái tạo được làn da gốc của người với màu sắc được phân bố cân bằng hơn. Tổng thể, các ảnh có màu sắc giống nhau như được chụp cùng một thời điểm trong điều kiện “bật đèn”. Hình 2.12 Tỉ lệ nhận dạng bằng phương pháp Eigenface tương ứng với số thành phần huấn luyện và kiểm tra trên CSDL CMU-PIE bằng các phương pháp ASVD, ASVDW và SDWTL. 58 Hình 2.13 Tỉ lệ nhận dạng bằng phương pháp Eigenface tương ứng với các đối tượng nhận dạng trên CSDL CMU-PIE bằng các phương pháp ASVD, ASVDW và SDWTL. Để đánh giá ảnh hưởng của các kết quả xử lý bù sáng lên hiệu quả chung của hệ thống nhận dạng khuôn mặt, các ảnh thu được sau xử lý ASVD, ASVDW và SDWTL ở trên được sử dụng như là các ảnh đầu vào cho phương pháp Eigenface [17] nhằm thực thi nhận dạng khuôn mặt. Phương pháp Eigenface sẽ áp dụng thuật toán PCA [53] để thực hiện các phép chiếu tuyến tính từ không gian ảnh sang một không gian đặc trưng với kích thước chiều không gian thấp hơn. PCA sử dụng k thành phần chính (là các eigenvector tương ứng với k giá trị eigenvalue cao nhất) làm các đặc trưng và sau đó tìm lân cận gần nhất giữa các hình được chiếu để huấn luyện với hình được chiếu để nhận dạng. Ở bước này, các tỉ lệ nhận dạng tương ứng với các phương pháp bù sáng khác nhau ASVD, ASVDW và SDWTL sẽ được so sánh với nhau. Tổng cộng có 15 ảnh huấn luyện được lựa chọn (6 ảnh từ f17 đến f22 cho điều kiện “tắt đèn” và 9 ảnh từ f15 đến f24 cho điều kiện “bật đèn” trong phòng) và 30 ảnh còn lại được lựa chọn để kiểm tra nhận dạng. Các ảnh huấn luyện được chụp trong các điều kiện chiếu sáng bình thường. Sau khi trích xuất phân vùng ảnh hình chữ nhật chứa khuôn mặt RFOI (The Rectangular Face of Interest) và đưa về cùng kích thước 128x128 điểm ảnh, các phương pháp ASVD, ASVDW và SDWTL được 59 sử dụng để xử lý tình trạng cường độ chiếu sáng thay đổi của các ảnh này. Hình 2.12 minh họa các tỉ lệ nhận dạng trung bình với các thành phần huấn luyện và kiểm tra khác nhau. Hình 2.13 thể hiện các tỉ lệ nhận dạng trung bình cho 68 đối tượng từ CSDL CMU-PIE với tất cả các thành phần chính cho huấn luyện và kiểm tra. Qua quan sát bằng mắt, chúng ta có thể thấy mặc dù các ảnh sau xử lý bù sáng bởi phương pháp ASVDW có vẻ có độ sáng tốt hơn và đều hơn (Hình 2.10) nhưng lại chịu ảnh hưởng biến đổi cường độ sáng tại các vùng biên theo 04 phân vùng ảnh nên cho kết quả nhận dạng tương ứng lại thấp hơn so với các ảnh sau xử lý bù sáng bằng phương pháp SDWTL (Hình 2.11). Bảng 2.1 Kết quả nhận dạng mặt người trên CSDL CMU-PIE bằng Eigenface. CSDL ảnh đầu vào Độ chính xác (%) Ảnh gốc ASVD ASVDW SDWTL CMU-PIE 89,95 92,45 98,28 99,76 Hình

Các file đính kèm theo tài liệu này:

luan_an_nghien_cuu_giai_phap_loc_so_dung_bien_doi_wavelet_na.pdf
ThongTin KetLuanMoi LuanAn NCS NguyenNamPhuc.doc.docx
TomTat LuanAn NCS NguyenNamPhuc_TiengAnh.pdf
TomTat LuanAn NCS NguyenNamPhuc_TiengViet.pdf
TrichYeu LuanAn NCS NguyenNamPhuc.doc