MỤC LỤC
LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT . . . . . . . . . . . . . vi
DANH MỤC CÁC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ . . . . . . . . . . . . . . . . . . . . . . . . . x
MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Chương 1. NGHIÊN CỨU TỔNG QUAN . . . . . . . . . . . . . . . . . . . . . 12
1.1. Trích chọn đặc trưng hình ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2. Mạng nơ-ron tích chập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3. Mạng Nơ-ron hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.4. Bài toán tái định danh người . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.4.1. Định nghĩa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.4.2. Một số nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.4.3. Độ đo khoảng cách và độ đo tương tự . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.4.4. Độ đo đánh giá kết quả tái định danh. . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.5. Nén mạng học sâu và triển khai trên FGPA . . . . . . . . . . . . . . . . . . . . . . . . 44
1.6. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Chương 2. TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG
TÁI ĐỊNH DANH NGƯỜI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2. Các đề xuất cho trích chọn đặc trưng mức ảnh trong tái định danh 49
2.2.1. Đề xuất 1: Trích đặc trưng cục bộ cho ảnh với mạng RestNet50 49
2.2.2. Đề xuất 2: Kết hợp các đặc trưng theo chiến lược kết hợp muộn 51
2.2.3. Đề xuất 3: Tính khoảng cách giữa hai tập đặc trưng cục bộ bằng độ
đo EMD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.3. Thử nghiệm và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.3.1. Cơ sở dữ liệu cho bài toán tái định danh . . . . . . . . . . . . . . . . . . . . . . . 55
2.3.2. Kết quả thử nghiệm của đề xuất 1 - Trích đặc trưng cục bộ cho ảnh
RestNet50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.3.3. Kết quả thử nghiệm đề xuất 2 - Chiến lược kết hợp muộn đặc trưng
59
2.3.4. Kết quả thử nghiệm của đề xuất 3- So sánh đặc trưng cục bộ với
khoảng cách EMD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.4. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Chương 3. KHAI THÁC ĐẶC TRƯNG VIDEO DỰA TRÊN MẠNG
NƠ-RON HỒI QUY TÁI ĐỊNH DANH NGƯỜI . . . . . . . . . . . . . . . 67
3.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2. Một số kiến trúc mạng Nơ-ron hồi quy phổ biến . . . . . . . . . . . . . . . . . . . 69
3.2.1. Recurrent Neural Network (RNN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2.2. Long Short-term Memory (LSTM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.2.3. Long Short-term Memory với cặp cổng (LSTMC) . . . . . . . . . . . . . . 71
3.2.4. Long Short-term Memory với kết nối Peephole (LSTMP). . . . . . . 72
3.2.5. Gated Recurrent Unit (GRU) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.3. Đánh giá hiệu quả của các mạng Nơ-ron hồi quy cho bài toán tái định
danh sử dụng chuỗi hình ảnh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.3.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.3.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.4. Đề xuất cải thiện đặc trưng mức chuỗi ảnh với mạng VGG16 và kiến trúc
GRU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.4.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.4.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.5. Đề xuất nâng cao hiệu quả mô hình bằng đặc trưng thủ công (GOG) kết
hợp sử dụng thuật toán học độ đo khoảng cách . . . . . . . . . . . . . . . . . . . . . . . . 80
3.5.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.5.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.6. Triển khai và đánh giá một hệ thống tái định danh . . . . . . . . . . . . . . . . 84
3.6.1. Mô tả hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.6.2. Xây dựng cơ sở dữ liệu FAPR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.6.3. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.7. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Chương 4. NÉN MẠNG HỌC SÂU ĐỊNH HƯỚNG TRIỂN KHAI
TRÊN PHẦN CỨNG - FPGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.2. Kỹ thuật nén mạng học sâu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2.1. Cắt tỉa mạng (pruning) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2.2. Lượng tử hóa (quantization) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.3. Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.3.1. Nhị phân hóa giá trị trọng số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.3.2. Lượng tử hóa các giá trị trọng số và giá trị kích hoạt tương ứng với
lớp mạng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.3.3. Hàm kích hoạt Clamping Rectified Linear Unit - CReLU. . . . . . 101
4.3.4. Kiến trúc luồng của bộ tăng tốc mạng tích chập . . . . . . . . . . . . . . 103
4.3.5. Tính toán tài nguyên phần cứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.4. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.4.1. Mạng học sâu VGG16-SSD và bài toán phát hiện đối tượng trên ảnh
104
4.4.2. Cơ sở dữ liệu CIFAR-10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.4.3. Cơ sở dữ liệu PASCAL VOC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.4.4. Nén mạng VGG16 với bài toán phân lớp ảnh trên CSDL CIFAR-10.
107
4.4.5. Nén mạng VGG16-SSD với bài toán phát hiện đối tượng trên ảnh
hướng tới triển khai trên FPGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.5. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
KẾT LUẬN VÀ KIẾN NGHỊ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ . . . . . . . . . . . 115
TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
140 trang |
Chia sẻ: vietdoc2 | Ngày: 27/11/2023 | Lượt xem: 413 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ã tiến hành tối ưu hóa tỷ lệ
nén bằng cách giảm cả kích thước các giá trị trọng số và kích thước các giá trị
kích hoạt. Nhị phân hóa mạng Nơ-ron [70] và XNOR-Net [71] là hai ví dụ điển
hình về việc nhị phân hóa hầu hết các tham số giúp giảm kích thước bộ nhớ
(xấp xỉ 32 lần), giảm số lần truy xuất bộ nhớ và thay thế hầu hết các phép toán
số học bằng các phép toán trên bit, dẫn đến giảm đáng kể mức tiêu thụ năng
lượng.
Các phương pháp lượng tử hóa này mang lại tỷ lệ nén cao, nhưng lại mang
45
đến sự mất mát đáng kể về độ chính xác của mô hình mạng. Để bù đắp cho
việc giảm độ chính xác, các nghiên cứu [72, 73, 74] đề xuất thêm vào các phần
mở rộng mạng theo chiều rộng. Mặc dù các phương pháp này cho phép giữ lại
độ chính xác tiệm cận với mô hình ban đầu trước khi nén, nhưng với cách ước
tính các trọng số chính xác đầy đủ bằng sự kết hợp tuyến tính dựa trên nhiều
trọng số nhị phân đã làm tăng trở lại kích thước mạng lên nhiều lần. Ví dụ: [73]
kết hợp 5 cơ sở trọng số nhị phân, điều này dẫn đến yêu cầu về bộ nhớ tăng
gấp năm lần so với khi nén mạng theo kiểu nhị phân hóa. Như vậy sẽ dẫn đến
việc mở rộng bộ nhớ trên chip đáng kể khi triển khai trên phần cứng. Có một
số nghiên cứu đã thực hiện thành công các mạng quy mô lớn như VGG16-SSD
thành FPGA [75, 76, 77]. Tuy nhiên, thiết kế trong nghiên cứu [75] có độ chính
xác giảm không đáng kể do sử dụng 8-16 bit để lượng hóa cả trọng số và các giá
trị kích hoạt, như vậy dẫn đến yêu cầu về bộ nhớ ngoài và chiếm một lượng lớn
tài nguyên phần cứng. Tác giả Kang và các cộng sự trong nghiên cứu [77] đã áp
dụng phương pháp cắt tỉa mạng với tỷ lệ cắt tỉa lên đến 87.5% và độ chính xác
(mAP) của mô hình sau khi nén là 78.13%. Tuy nhiên, mô hình yêu cầu một số
lượng đáng kể các khối DSP để tính toán bit cao. Nghiên cứu [76] đạt được tỷ
lệ nén cao nhưng nó bị giảm đáng kể về độ chính xác của mô hình (giảm 14,7%
so với mô hình gốc).
1.6. Kết luận chương
Trích chọn đặc trưng đối tượng trên ảnh dựa trên học sâu không chỉ dừng lại
ở việc sử dụng một mô hình học sâu nhằm sinh ra đặc trưng cho ảnh đầu vào
tương ứng mà còn rất nhiều vấn đề liên quan cần phải được giải quyết. Trong
đó có một số vấn đề chính là:
− Cải tiến các kiến trúc mạng, các giải thuật huấn luyện mạng nhằm thu được
đặc trưng tốt nhất cho dữ liệu ảnh người cho tái định danh.
− Các mạng Nơ-ron hồi quy ban đầu được nghiên cứu chủ yếu cho các bài toán
xử lý ngôn ngữ tự nhiên và chuỗi thời gian. Cần có các nghiên cứu để có thể
vận dựng cải tiến mô hình tái định danh người sử dụng chuỗi hình ảnh.
− Các mạng học sâu thường có kích thước rất lớn. Khi muốn triển khai trên
phần cứng hoặc các thiết bị biên cần có các phương pháp nén mạng phù hợp
nhằm thu được các mô hình mạng đủ nhỏ nhưng vẫn duy trì được độ chính
xác cần thiết.
46
Chương 2
TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG
TÁI ĐỊNH DANH NGƯỜI
Nội dung chương này của luận án trình bày đề xuất trích chọn đặc trưng
ảnh cho bài toán tái định danh. Trong đó, đề xuất thứ nhất nhằm khai thác
các đặc trưng cục bộ của ảnh người. Đề xuất này được thực hiện dựa trên cơ
sở thay đổi cấu trúc của mạng học sâu ResNet-50 [19] nhằm trích xuất đặc
trưng cho từng vùng ảnh (đặc trưng cục bộ). Trong đề xuất 2, tiến hành kết
hợp các đặc trưng cục bộ đã đề xuất và đặc trưng tự thiết kế của các nghiên
cứu trước nhằm nâng cao hiệu quả của phương pháp tái định danh. Đề xuất 3,
áp dụng phương pháp tính khoảng cách giữa hai tập đặc trưng cục bộ dựa trên
độ đo EMD. Hiệu quả của đề xuất sẽ được thử nghiệm và đánh giá trên các
CSDL dùng chung như VIPeR, PRID-2011, iLIDS-VID, Market1501-Partial và
DukeMTMCReID-Partial [78].
2.1. Đặt vấn đề
Trong nghiên cứu, các mô hình cho bài toán tái định danh làm việc với hai
tập hình ảnh người là tập thăm dò hay còn được gọi là tập truy vấn (probe)
và tập tìm kiếm (gallery). Hai tập này tương ứng được thu nhận từ hai camera
giám sát không có sự chồng lấn nhau về trường quan sát. Mô hình chung cho bài
toán này được mô tả như sơ đồ Hình 2.1. Mô hình này có thể được áp dụng cho
cả hai trường hợp của bài toán tái định danh: 1)Tái định danh sử dụng đơn hình
ảnh trong đó chỉ sử dụng một hình ảnh ứng với mỗi người; 2)Tái định danh sử
dụng đa hình ảnh trong đó mỗi người sẽ được đại diện bởi một chuỗi các hình
ảnh.
Quan sát hình ta thấy, mô hình được tạo nên bởi hai phần chính là: Phần
trích chọn đặc trưng và phần đối sánh hay so khớp đặc trưng. Đối với phần trích
chọn đặc trưng, đầu tiên, các ảnh trong tập truy vấn và tập tìm kiếm được cho
qua bộ trích đặc trưng mức ảnh để thu được các đặc trưng mức hình ảnh
(Image-level features). Các đặc trưng này có thể là các đặc trưng thủ công hoặc
đặc trưng được trích chọn bằng cách sử dụng một mạng học Nơ-ron sâu. Trường
hợp tái định danh sử dụng đa hình ảnh, các đặc trưng mức ảnh của cùng một
người sẽ được cho qua một bộ tổng hợp nhằm tạo ra đặc trưng của chuỗi các
hình ảnh (sequence-level feature hay video-level feature) trước khi chuyển sang
phần đối sánh. Bước này được thể hiện bằng khối trích đặc trưng mức chuỗi
47
Tập truy vấn
Tập tìm kiếm
Đơn ảnh
Chuỗi ảnh
Đơn ảnh
Chuỗi ảnh
Trính đặc
trưng mức
ảnh
Trích đặc
trưng mức
chuỗi ảnh
Trính đặc
trưng mức
ảnh
Trích đặc
trưng mức
chuỗi ảnh
Học độ đo Kết hợp
muộn
So khớp
và xếp
hạng
Kết quả
truy vấn
Phần trích chọn đặc trưng Phần đối sánh
Hình 2.1: Mô hình chung cho bài toán tái định danh.
ảnh trong Hình 2.1. Ngược lại, trường hợp tái định danh sử dụng đơn hình
ảnh thì khối này được bỏ qua. Nội dung chương này tập chung chủ yếu vào đặc
trưng mức hình ảnh. Các vấn đề liên quan đến đặc trưng mức chuỗi hình ảnh
sẽ được nghiên cứu sinh trình bày trong nội dung chương sau. Do đó, trong các
thử nghiệm về tái định danh đa hình ảnh, đặc trưng của người được xác định
dựa trên trung bình của đặc trưng của tất cả hình ảnh của người đó.
Đầu ra của phần trích chọn đặc trưng là các véc-tơ đặc trưng tương ứng với
các hình ảnh đầu vào. Phần đối sánh sẽ có nhiệm vụ so sánh các cặp đặc trưng
thu được từ 1 ảnh truy vấn và 1 ảnh tìm kiếm nhằm xác định độ tương đồng
giữa hai ảnh tương ứng. Độ tương đồng sẽ được đánh giá bới một độ đo khoảng
cách giữa các cặp đặc trưng ảnh. Một giải thuật học độ đo khoảng cách hoặc độ
tương tự có thể được thực hiện nhằm nâng cao hiệu quả so khớp các vec-tơ đặc
trưng, hoặc một cách đơn giản hơn ta có thể dùng các độ đo cố định như độ đo
khoảng cách Euclide hoặc độ đo sự tương đồng Cosine. Bước tiếp theo trong mô
hình, một trong các chiến lược kết hợp muộn (Query-adaptive late fusion) cũng
có thể được áp dụng trong trường hợp sử dụng nhiều hơn một loại đặc trưng.
Ngược lại khối này có thể được bỏ qua nếu chỉ dùng một loại đặc trưng. Việc
kết hợp muộn các đặc trưng có thể được thực hiện theo nhiều cách khác nhau
dựa trên các quy tắc kết hợp, ví dụ như quy tắc nhân (product-rule) và quy tắc
cộng (sum-rule) [79]. Cuối cùng, khối so khớp và xếp hạng có nhiệm vụ đưa ra
kết quả dự đoán. Các kết quả dự đoán này được thể hiện bằng bảng xếp hạng
hoặc đường cong CMC trên biểu đồ.
Trở lại với khối trích chọn đặc trưng mức ảnh trong mô hình tái định danh
48
thể hiện trên Hình 2.1. Không chỉ riêng bài toán tái định danh mà nhiều bài toán
khác, các nghiên cứu trên cơ sở áp dụng các mạng học sâu trước đây thường có
xu hướng sử dụng mạng tích chập (CNN) để sinh ra một đặc trưng duy nhất
tương ứng với một ảnh. Tuy nhiên, các mạng tích chập thường hướng tới việc
trích chọn một đặc trưng toàn cục cho toàn bộ ảnh mà không quan tâm đến
việc phân bố các phần của đối tượng trong ảnh. Cụ thể là, một hình ảnh sau
khi cho qua một mạng CNN sẽ thu được một bản đồ đặc trưng (Feature map)
có kích thước C ×H ×W (trong đó C thể hiện số kênh hay chiều sâu và H ×W
thể hiện kích thước của bản đồ đặc trưng). Bản đồ đặc trưng này tiếp theo cho
qua lớp gộp (Pool) sẽ thu được một véc-tơ đặc trưng toàn cục với kích thước C.
Tuy nhiên, thực tế cho thấy, các hình ảnh người được sử dụng trong bài toán
tái định danh và nhiều bài toán khác thường là ảnh người đi bộ. Khi đó các bộ
phận của một người được phân bố theo chiều dọc ảnh như: Đầu, cổ, vai, thân
trên,... (Hình 2.2). Trong khi việc lấy giá trị trung bình (hoặc giá trị lớn nhất)
của bản đồ đặc trưng tại tầng gộp của mạng tích chập để thu được đặc trưng
toàn cục có thể làm mất đi các đặc trưng mang tính cục bộ của từng vùng ảnh
cơ thể người.
Hình 2.2: Phân bố các bộ phận trong hình ảnh người theo chiều dọc
2.2. Các đề xuất cho trích chọn đặc trưng mức ảnh trong tái
định danh
2.2.1. Đề xuất 1: Trích đặc trưng cục bộ cho ảnh với mạng
RestNet50
Với mục đích giữ lại các đặc trưng có tính cục bộ của ảnh người, luận án đề
xuất một thay đổi tại lớp gộp cuối cùng (avg-pooling) của mạng ResNet-50 [19].
Trong đó kích thước cửa sổ H ×W của bộ gộp được thay thế bới một cửa sổ
mới có kích thước 1 ×W . Với sự thay đổi này, đặc trưng của từng vùng riêng
biệt (stripe) phân bố theo chiều dọc ảnh đều được giữa lại. Tức là thay vì chỉ
nhận một véc-tơ đặc trưng toàn cục kích thước C nếu sử dụng kiến trúc mạng
49
góc, ta sẽ thu được H véc-tơ kích thước C ứng với H vùng ảnh theo chiều dọc.
Điều này phù hợp với sự phân bố các bộ phận trên cơ thể người. Trước đó, trong
nghiên cứu [56], nhóm tác giả đã đề xuất kết hợp đặc trưng học sâu được trích
chọn trên ba vùng không chồng lấn của một ảnh đầu vào. Tuy nhiên việc thực
hiện trích đặc trưng học sâu lần lượt cho 3 phần độc lập như vậy gây tốn kém
về mặt tài nguyên xử lý nhất là khi số lượng vùng được tăng lên. Do đó việc
trích đặc trưng của các vùng riêng biệt từ bản đồ đặc trưng sẽ tiết kiệm được
rất nhiều tài nguyên tính toán so với việc phân chia ảnh thành các vùng ngay
từ đầu vào. Đầu tiên H vec-tơ đặc trưng cục bộ này sẽ được nối với nhau để tạo
ra một véc-tơ đặc trưng duy nhất. Đề xuất này được mô tả cụ thể như trong
Hình 2.3.
B
lo
ck
1
64x112x112 256x56x56 512x28x28 1024x14x14 2048x7x7
AVG
pool
(1,7)B
lo
ck
2
B
lo
ck
3
B
lo
ck
4
B
lo
ck
5
2048x7x1
Hình 2.3: Trích đặc trưng sử dụng mạng ResNet-50 áp dụng chiến lược chia 7 vùng ảnh
Trong trường hợp này, mạng ResNet-50 nhận ảnh đầu vào có kích thước mặc
định là 224×224, bản đồ đặc trưng thu được sẽ có kích thước 7×7×2048. Trường
hợp muốn thay đổi kích thước của bản đồ đặc trưng, một phương pháp đơn giản
là thay đổi kích thước của ảnh đầu vào. Bằng cách này, số đặc trưng cục bộ
của các vùng theo chiều dọc ảnh có thể được tùy biến. Bản đồ đặc trưng sau
đó được cho qua lớp gộp (pool) với cửa sổ kích thước 1x7 sẽ tổng hợp bản đồ
đặc trưng thành 7 véc-tơ đặc trưng có kích thước 2048 riêng biệt cho mỗi vùng
ảnh theo chiều dọc. Đây được gọi là tập các đặc trưng cục bộ tương ứng với
các vùng trên ảnh. Tập các đặc trưng cục bộ này có thể đơn giản chỉ được chất
đống (ghép lại) thành một véc-tơ đặc trưng duy nhất đại diện cho ảnh tương
ứng. Hiệu quả của đặc trưng thu được theo cách này sẽ được đánh giá bằng các
thử nghiệm trong cả hai trường hợp: Sử dụng độc lập và kết hợp với các loại
đặc trưng khác với các chiến lược kết hợp muộn. Tuy nhiên, việc nối các đặc
trưng cục bộ của từng vùng ảnh làm cho việc đối sánh đặc trưng của hai ảnh
trở nên không rõ ràng khi chưa làm rõ được vùng ảnh nào của ảnh truy vấn sẽ
thực sự khớp với một vùng của ảnh tìm kiếm. Do đó luận án cũng đề xuất sử
dụng độ đo khoảng cách EMD [80] cho việc tính khoảng cách của hai tập đặc
trưng cục bộ. Các đề xuất này sẽ được đánh giá trên mô hình bài toán tái định
danh người sử dụng hình ảnh.
50
2.2.2. Đề xuất 2: Kết hợp các đặc trưng theo chiến lược kết
hợp muộn
Mỗi loại đặc trưng có ưu nhược điểm riêng, một bộ mô tả có thể hiệu quả
trên một cơ sở dữ liệu này nhưng lại không hiệu quả trên một cơ sở dữ liệu khác.
Một câu hỏi đặt ra là, liệu đặc trưng ảnh như vậy đã đủ tốt hay chưa? Liệu có
thể kết hợp nó với các đặc trưng khác để cải thiện mô hình tái định danh hay
không? Trong phần này, luận án sẽ trình bày các nghiên cứu liên quan đến việc
kết hợp đặc trưng thu được theo đề xuất 1 với các đặc trưng tự thiết kế khác.
Cụ thể là 2 loại đặc trưng GOG và LOMO. Các đặc trưng này đã được trình
bày trong chương Nghiên cứu liên quan của luận án.
Kết hợp các đặc trưng là một trong những phương pháp được lựa chọn cho
bài toán nhận dạng nói chung và bài toán tái định danh nói riêng. Mục đích
của việc kết hợp đặc trưng là khai thác thế mạnh có khả năng phân biệt của
mỗi đặc trưng cho bài toán biểu diễn ảnh. Việc kết hợp các đặc trưng được thực
hiện theo hai cách thức: kết hợp sớm hoặc kết hợp muộn. Với phương pháp kết
hợp sớm, còn được gọi là kết hợp ở mức đặc trưng (feature-level), các đặc trưng
sẽ được kết hợp với nhau trước khi đưa vào các giải thuật học máy. Trong khi
đó, kết hợp muộn, còn được gọi là kết hợp ở mức điểm số (score), các đặc trưng
được kết hợp sau bước so khớp (matching). Một số nghiên cứu trước đã chứng
minh chiến lược kết hợp muộn đạt được kết quả tốt hơn so với hướng kết hợp
sớm. Tuy nhiên, đa phần các nghiên cứu hiện tại theo hướng tiếp cận kết hợp
muộn tập trung vào việc tìm các trọng số phù hợp phản ánh vai trò của mỗi
đặc trưng trong sơ đồ kết hợp. Sau đó, các trọng số này được tích hợp trong các
hàm tính toán độ tương tự truyền thống, ví dụ như hàm khoảng cách Cosine
[79] hoặc hàm khoảng cách Euclidean.
Trong nghiên cứu này, hai chiến lược kết hợp đặc trưng dựa trên quy tắc nhân
(product-rule-based late fusion) và quy tắc cộng (sum-rule-based late fusion)
được đề xuất sử dụng. Theo các quy tắc này, điểm số cuối cùng có được thông
qua các phép toán nhân hoặc phép toán cộng. Các chiến lược kết hợp này được
mô tả như trong các phương trình (2.1) và (2.2).
Kết hợp muộn dựa trên quy tắc nhân
Similarity(Q, Ij) =
N∏
i=1
(
sim
(i)
Q,Ij
)ω(i)Q
, trong đó
N∑
i=1
ω
(i)
Q = 1. (2.1)
Kết hợp muộn dựa trên quy tắc cộng
Similarity(Q, Ij) =
N∑
i=1
(
sim
(i)
Q,Ij
× ω(i)Q
)
, trong đó
N∑
i=1
ω
(i)
Q = 1. (2.2)
Similarity(Q, Ij) là độ đo tương tự giữ người cần truy vấn Q và một người
51
trong tập tìm kiếm Ij, sim(i)
Q,Ij
là độ đo giữa hai người ứng với mỗi đặc trưng i,
N = 3 là số đặc trưng đang xét, và w(i)Q là trọng số của đặc trưng i tương ứng
với người truy vấn Q. Một điều cần chú ý đó là sim(i)
Q,Ij
= 1− d(i)
(Q,Ij)
, d(i)
(Q,Ij)
được
tính thông qua giải thuật XQDA theo phương trình. (1.7) và được chuẩn hóa
thành các giá trị nằm trong dải (0, 1).
Để đánh giá hiệu năng của phương pháp đề xuất với các chiến lược kết hợp
đặc trưng khác nhau, trong nghiên cứu này, w(i)Q được xác định theo hai cách.
Cách thứ nhất, các đặc trưng được gán các trọng số bằng nhau, có nghĩa là
w
(i)
Q = 1/N . Cách thứ hai, w
(i)
Q được xác định thích nghi theo ảnh truy vấn đầu
vào. Phương pháp tính trọng số thích nghi lần đầu tiên được giới thiệu trong
nghiên cứu của Zheng và cộng sự [79]. Theo cách xác định này, với mỗi ảnh truy
vấn đầu vào, đặc trưng được coi là hiệu quả hơn sẽ được gán bởi trọng số lớn
hơn.
Hình 2.4 đưa ra một ví dụ về tính hiệu quả của đặc trưng GOG và đặc trưng
ResNet với các ảnh truy vấn khác nhau. Trong hàng thứ nhất của hình vẽ, đặc
trưng GOG tỏ ra hiệu quả hơn so với đặc trưng ResNet. Điều này được thể
hiện bởi các đường cong điểm số (score curves) của các đặc trưng (bên phải của
hình vẽ). Đường cong điểm số tương ứng với đặc trưng GOG có hình dạng chữ
"L" với hệ số góc lớn hơn, dốc hơn so với đường cong điểm số của đặc trưng
ResNet. Ngược lại, trong hàng thứ hai, đặc trưng ResNet lại tỏ ra tốt hơn so
với đặc trưng GOG khi ảnh truy vấn đầu vào là người khác. Phương pháp xác
định trọng số thích nghi này [79] được trình bày chi tiết như sau.
GOG
feature
`
`
ResNet
feature
Rank
1 2 3 4 5
Query person
`
GOG_score
ResNet_score
Rank
Rank
20 40 60 80 100
(a)
GOG
feature
`
`
ResNet
feature
Rank
1 2 3 4 5
Query person
`
GOG_score
ResNet_score
Rank
Rank
20 40 60 80 100
(b)
Hình 2.4: Một ví dụ về tính hiệu quả của đặc trưng GOG và đặc trưng ResNet.
Trong nghiên cứu [79], các tác giả đưa ra một ý tưởng đó là một đặc trưng
52
được gọi là hiệu quả (good feature) nếu đường cong điểm số của nó có dạng hình
chữ "L". Ngược lại, một đặc trưng không hiệu quả (bad feature) nếu đường cong
điểm số của nó thoai thoải, có độ dốc nhỏ. Nói một cách khác, một đặc trưng
tốt nếu nó có khả năng phân biệt một cách rõ ràng kết quả trả về ở xếp hạng
đầu tiên và các xếp hạng tiếp theo. Trên cơ sở đó, các trọng số thích nghi đối
với mỗi đặc trưng được tính toán dựa trên diện tích của đường cong được chuẩn
hóa (normalized score curves).
Quá trình tính toán các trọng số thích nghi gồm các bước như sau. Trước
hết, các đường cong tham chiếu được sinh ra từ một cơ sở dữ liệu đủ lớn. Trong
nghiên cứu này, tác giả đề xuất sử dụng cơ sở dữ liệu PRID-2011 với hai mục
đích: (1) tạo nên đường cong tham chiếu và (2) học độ đo trong pha huấn luyện.
Các đường cong tham chiếu được định nghĩa là đường cong trung bình của tất
cả các đường cong điểm số được tính từ tập huấn luyện. Thứ hai, mỗi đường
cong điểm số tương ứng với mỗi ảnh truy vấn được chuẩn hóa theo các đường
cong tham chiếu. Cuối cùng, trọng số thích nghi được tính dựa trên phần diện
tích dưới đường cong, được thể hiện như ở phương trình (2.3) dưới đây.
ω
(i)
Q =
1
Ai
N∑
n=1
1
An
, (2.3)
trong đó, Ai là phần diện tích dưới đường cong và N = 3 là số đặc trưng được
sử dụng trong phương pháp đề xuất.
2.2.3. Đề xuất 3: Tính khoảng cách giữa hai tập đặc trưng cục
bộ bằng độ đo EMD
Đề xuất 1 thực hiện biến đổi mạng cơ sở ResNet-50 nhằm khai các đặc trưng
mang tính cục bộ trong biểu diễn người cho bài toán tái định danh. Tuy nhiên,
việc nối các đặc trưng cục bộ của từng vùng ảnh làm cho việc đối sánh đặc trưng
của hai ảnh trở nên không rõ ràng khi chưa làm rõ được vùng ảnh nào của ảnh
truy vấn sẽ thực sự khớp với vùng ảnh nào của ảnh tìm kiếm. Nhằm nâng cao
chất lượng cho mô hình tái định danh, nghiên cứu sinh đề xuất sử dụng độ đo
EMD (Earth Mover’s Distance) [80] cho phép tính toán khoảng cách giữa hai
tập đặc trưng cục bộ trích chọn dựa trên đề xuất 1. Sau đó, đề xuất này được
tích hợp vào trong mô hình đề xuất ở [81], nhằm kết hợp thêm giữa thông tin
toàn cục và cục bộ. Khung làm việc được đề xuất như Hình 2.5 bao gồm 3 phần
chính: 1) Phần trích chọn đặc trưng; 2) Phần tính toán khoảng cách cho đặc
trưng cục bộ và toàn cục; 3) Phần tính toán giá trị mất mát.
Đầu tiên, vùng hình ảnh của người được chuẩn hóa về kích thước 256 × 128
sau đó cho qua phần trích đặc trưng. Kích thước này phù hợp hơn đối với hình
53
12
3
N
Nhánh toàn cục
CxH
Nhánh cục bộ
Softmax loss
Đặc trưng toàn cục
Đặc trưng cục bộ
khoảng cách
EMD
Khoảng cách
Euclide
Triplet loss
CxH
CxH
CxH
Cx1
CxHxW 1
Trích đặc trưng
CxHxW 2
CxHxW 3
CxHxW N
Hình 2.5: Khai thác thông tin cục bộ ảnh cùng khoảng cách EMD cho mô hình bài toán tái định danh
ảnh người đi bộ. Bản đồ đặc trưng thu được sau đó được cho đi qua hai nhánh
được gọi là nhánh cục bộ và nhánh toàn cục tương ứng để trích đặc trưng cục bộ
và toàn cục. Khoảng cách giữa hai véc-tơ đặc trưng toàn cục của hai ảnh được
tính toán dựa trên khoảng cách Euclide thông thường. Giả sử fQ và fI là hai
véc-tơ đặc trưng toàn cục của hai ảnh Q và I, khoảng cách dg(Q, I) giữa chúng
được tính toán theo công thức sau:
dg(Q, I) =
∥∥fQ − fI∥∥2 (2.4)
Tuy nhiên, đối với khoảng cách cục bộ, thay vì sử dụng khoảng cách DMLI như
như trong mô hình cơ sở [81], nghiên cứu sinh đề suất sử dụng khoảng cách
EMD [80] để tính khoảng cách giữa hai tập véc-tơ đặc trưng cục bộ của hai ảnh.
Khoảng cách dl giữa chúng được mô tả như Hình 2.6 và công thức sau:
dl(Q, I) =
∑m
i=1
∑n
j=1 f
∗
ijdij∑m
i=1
∑n
j=1 f
∗
ij
(2.5)
Trong đó f∗ij được xác định dựa trên bài toán tối ưu [80]:
min
F
m∑
i=1
n∑
j=1
fijdij (2.6)
với các ràng buộc:
fij ≥ 0, 1 ≤ i ≤ m, 1 ≤ j ≤ n.∑n
j=1 fij ≤ wpi , 1 ≤ i ≤ m∑m
i=1 fij ≤ wqj , 1 ≤ j ≤ n∑m
i=1
∑n
j=1 fij = min
(∑m
i=1wpi ,
∑n
j=1wqj
) (2.7)
trong đó dij là khoảng cách Euclide được chuẩn hóa về [0..1] giữa đặc trưng
cục bộ thứ i của ảnh Q với đặc trưng cục bộ thứ j của ảnh I. fij là đại lượng
được xác định qua quá trình tối ưu. Cuối cùng hai hàm mất mất softmax và
54
Hình 2.6: Một ví dụ về việc tính toán khoảng cách EMD giữa hai tập đặc trưng cục bộ của hai ảnh
người
triplet được sử dụng để huấn luyện mạng. Cụ thể, giá trị mất mát L được tính
toán theo công thức
L = LID + L
g
T + L
l
T , (2.8)
trong đó, LID là giá trị mất mát theo định danh (ID) của đối tượng sử dụng
hàm mất mát softmax, LgT , L
l
T là hai giá trị mất mát theo hàm mất mát triplet
tương ứng với hai nhánh cục bộ và toàn cục của mạng.
2.3. Thử nghiệm và đánh giá kết quả
2.3.1. Cơ sở dữ liệu cho bài toán tái định danh
Hiện nay có khá nhiều CSDL được sử dụng để đánh giá chất lượng các phương
pháp cho bài toán tái định danh. Một số CSDL phổ biến sẽ được sử dụng trong
Luận án: PRID-2011 [4], iLIDS-VID [5], và VIPeR [3]. Trong đó, hai cơ sở dữ
liệu PRID-2011 và iLIDS-VID thường được áp dụng cho bài toán tái định danh
sử dụng đa hình ảnh. CSDL VIPeR được áp dụng cho bài toán tái định danh sử
dụng đơn hình ảnh. Tất cả các vùng ảnh chứa người trong các CSDL này được
khoanh vùng một cách thủ công.
Cơ sở dữ liệu VIPeR
Cơ sở dữ liệu VIPeR có tất cả 1,264 ảnh của 632 người được thu thập bởi
hai camera không có sự chồng lấn về vùng quan sát. Mỗi người chỉ có duy nhất
một ảnh trên mỗi camera. Các ảnh trong tập cơ sở dữ liệu này được chuẩn hóa
về kích thước 128× 48 điểm ảnh. Một số hình ảnh trong bộ CSDL này được thể
hiện như Hình 2.7. Các hình ảnh thu được có sự biến đổi lớn về ánh sáng, tư
55
thế của người và góc quan sát. Điều này làm cho bộ dữ liệu VIPeR trở thành
một trong những bộ dữ liệu thách thức nhất cho bài toán tái định danh.
Hình 2.7: Một số hình ảnh trong cơ sở dữ liệu VIPER.
Bộ dữ liệu PRID-2011
Hình ảnh của cơ sở dữ liệu PRID-2011 được quan sát bởi hai camera có vùng
quan sát không chồng lấn, được gọi là camA và camB. Có 385 người xuất hiện
trong vùng quan sát của camA và 749 người xuất hiện trong vùng quan sát của
camB. Tuy nhiên, chỉ có 200 người xuất hiện trên cả hai vùng quan sát của hai
camera. Một số hình ảnh của CSDL này được thể hiện trong Hình 2.8. Sau khi
loại bỏ những người có chuỗi ảnh ít hơn 21 khung hình, cơ sở dữ liệu chỉ còn
178 người. Kích thước của hình ảnh trong cơ sở dữ liệu PRID-2011 được chuẩn
hóa thành 128× 64 điểm ảnh.
Hình 2.8: Một số hình ảnh trong cơ sở dữ liệu PRID2011 và iLID-VID.
Bộ dữ liệu iLIDS-VID
Cơ sở dữ liệu iLIDS-VID thu nhận tại sảnh sân bay thông qua mạng camera
giám sát CCTV. Cơ sở dữ liệu này gồm 300 người đi bộ với 600 chuỗi ảnh (mỗi
56
người 2 chuỗi). Kích thước của hình ảnh trong iLIDS-VID cũng được chuẩn hóa
là 128× 64 điểm ảnh. Một số hình ảnh của CSDL này được thể hiện trong Hình
2.8. So với PRID-2011, cơ sở dữ liệu iLIDS-VID được đánh giá có nhiều thách
thức hơn do bối cảnh phức tạp và người thường xuất hiện trong đám đông.
D. Loss functions
In this work, two loss functions that are identity loss
(softmax loss) and triplet loss used in the training phase.
If identity loss is trained for global features, triplet loss is
employed for both global and local branches. While identity
loss treats person ReID as classification problem and based
on cross-entropy, triplet loss solves person ReID as retrieval
ranking problem in which the distance between the positive
pair should be smaller than the negative pair by a pre-defined
margin [1]. For the triplet loss training, the hard triplets
including the most dissimilar positive pair of the same identity
and the most similar negative pair belonging to two different
identities are chosen. The total loss is defined as in Equation
(5):
L = LID + L
g
T + L
l
T , (5)
where, LID is the identity loss and L
g
T , L
l
T denotes the triplet
loss for the global and local branch, respectively.
IV. EXPERIMENT AND RESULTS
A. Datasets and evaluation measurement
1) Datasets: To evaluate the effectiveness of the proposed
method, three datasets that are VIPeR, Market1501-Partial,
DukeMTMCReID-Partial are used in our experiments. VIPeR
dataset [17] is one of the most challenging dataset for single-
shot person ReID due to the variations in illumination, human
pose, viewpoints, etc. This dataset is captured by two outdoor
static cameras (A and B) at the resolution of 128 × 48
pixels. The low resolution also makes this dataset be more
challenging. There are total 1264 images of 632 people, each
person has two images, one on camera A and the other on
camera B.
Two partial person ReID datasets Market1501-Partial and
DukeMTMCReID-Partial are introduced in the baseline
method [8]. These two partial datasets are generated from
Market1501 [18] and DukeMTMCReID [19] by randomly
removing from 10% to 40% (mainly vertical direction)
of the detected bounding boxes to simulate the inaccurate
detection results. Market1501-Partial contains 32