Luận án Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người

MỤC LỤC

LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT . . . . . . . . . . . . . vi

DANH MỤC CÁC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ . . . . . . . . . . . . . . . . . . . . . . . . . x

MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Chương 1. NGHIÊN CỨU TỔNG QUAN . . . . . . . . . . . . . . . . . . . . . 12

1.1. Trích chọn đặc trưng hình ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2. Mạng nơ-ron tích chập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.3. Mạng Nơ-ron hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.4. Bài toán tái định danh người . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1.4.1. Định nghĩa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1.4.2. Một số nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.4.3. Độ đo khoảng cách và độ đo tương tự . . . . . . . . . . . . . . . . . . . . . . . . . . 42

1.4.4. Độ đo đánh giá kết quả tái định danh. . . . . . . . . . . . . . . . . . . . . . . . . . 43

1.5. Nén mạng học sâu và triển khai trên FGPA . . . . . . . . . . . . . . . . . . . . . . . . 44

1.6. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Chương 2. TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG

TÁI ĐỊNH DANH NGƯỜI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.2. Các đề xuất cho trích chọn đặc trưng mức ảnh trong tái định danh 49

2.2.1. Đề xuất 1: Trích đặc trưng cục bộ cho ảnh với mạng RestNet50 49

2.2.2. Đề xuất 2: Kết hợp các đặc trưng theo chiến lược kết hợp muộn 51

2.2.3. Đề xuất 3: Tính khoảng cách giữa hai tập đặc trưng cục bộ bằng độ

đo EMD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.3. Thử nghiệm và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.3.1. Cơ sở dữ liệu cho bài toán tái định danh . . . . . . . . . . . . . . . . . . . . . . . 55

2.3.2. Kết quả thử nghiệm của đề xuất 1 - Trích đặc trưng cục bộ cho ảnh

RestNet50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

2.3.3. Kết quả thử nghiệm đề xuất 2 - Chiến lược kết hợp muộn đặc trưng

2.3.4. Kết quả thử nghiệm của đề xuất 3- So sánh đặc trưng cục bộ với

khoảng cách EMD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.4. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Chương 3. KHAI THÁC ĐẶC TRƯNG VIDEO DỰA TRÊN MẠNG

NƠ-RON HỒI QUY TÁI ĐỊNH DANH NGƯỜI . . . . . . . . . . . . . . . 67

3.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.2. Một số kiến trúc mạng Nơ-ron hồi quy phổ biến . . . . . . . . . . . . . . . . . . . 69

3.2.1. Recurrent Neural Network (RNN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.2.2. Long Short-term Memory (LSTM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.2.3. Long Short-term Memory với cặp cổng (LSTMC) . . . . . . . . . . . . . . 71

3.2.4. Long Short-term Memory với kết nối Peephole (LSTMP). . . . . . . 72

3.2.5. Gated Recurrent Unit (GRU) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.3. Đánh giá hiệu quả của các mạng Nơ-ron hồi quy cho bài toán tái định

danh sử dụng chuỗi hình ảnh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.3.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.3.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

3.4. Đề xuất cải thiện đặc trưng mức chuỗi ảnh với mạng VGG16 và kiến trúc

GRU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.4.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.4.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

3.5. Đề xuất nâng cao hiệu quả mô hình bằng đặc trưng thủ công (GOG) kết

hợp sử dụng thuật toán học độ đo khoảng cách . . . . . . . . . . . . . . . . . . . . . . . . 80

3.5.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.5.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3.6. Triển khai và đánh giá một hệ thống tái định danh . . . . . . . . . . . . . . . . 84

3.6.1. Mô tả hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.6.2. Xây dựng cơ sở dữ liệu FAPR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.6.3. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.7. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

Chương 4. NÉN MẠNG HỌC SÂU ĐỊNH HƯỚNG TRIỂN KHAI

TRÊN PHẦN CỨNG - FPGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.2. Kỹ thuật nén mạng học sâu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.2.1. Cắt tỉa mạng (pruning) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.2.2. Lượng tử hóa (quantization) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

4.3. Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4.3.1. Nhị phân hóa giá trị trọng số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4.3.2. Lượng tử hóa các giá trị trọng số và giá trị kích hoạt tương ứng với

lớp mạng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4.3.3. Hàm kích hoạt Clamping Rectified Linear Unit - CReLU. . . . . . 101

4.3.4. Kiến trúc luồng của bộ tăng tốc mạng tích chập . . . . . . . . . . . . . . 103

4.3.5. Tính toán tài nguyên phần cứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.4. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

4.4.1. Mạng học sâu VGG16-SSD và bài toán phát hiện đối tượng trên ảnh

104

4.4.2. Cơ sở dữ liệu CIFAR-10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4.4.3. Cơ sở dữ liệu PASCAL VOC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4.4.4. Nén mạng VGG16 với bài toán phân lớp ảnh trên CSDL CIFAR-10.

107

4.4.5. Nén mạng VGG16-SSD với bài toán phát hiện đối tượng trên ảnh

hướng tới triển khai trên FPGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

4.5. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

KẾT LUẬN VÀ KIẾN NGHỊ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ . . . . . . . . . . . 115

TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

140 trang | Chia sẻ: vietdoc2 | Ngày: 27/11/2023 | Lượt xem: 199 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ã tiến hành tối ưu hóa tỷ lệ nén bằng cách giảm cả kích thước các giá trị trọng số và kích thước các giá trị kích hoạt. Nhị phân hóa mạng Nơ-ron [70] và XNOR-Net [71] là hai ví dụ điển hình về việc nhị phân hóa hầu hết các tham số giúp giảm kích thước bộ nhớ (xấp xỉ 32 lần), giảm số lần truy xuất bộ nhớ và thay thế hầu hết các phép toán số học bằng các phép toán trên bit, dẫn đến giảm đáng kể mức tiêu thụ năng lượng. Các phương pháp lượng tử hóa này mang lại tỷ lệ nén cao, nhưng lại mang 45 đến sự mất mát đáng kể về độ chính xác của mô hình mạng. Để bù đắp cho việc giảm độ chính xác, các nghiên cứu [72, 73, 74] đề xuất thêm vào các phần mở rộng mạng theo chiều rộng. Mặc dù các phương pháp này cho phép giữ lại độ chính xác tiệm cận với mô hình ban đầu trước khi nén, nhưng với cách ước tính các trọng số chính xác đầy đủ bằng sự kết hợp tuyến tính dựa trên nhiều trọng số nhị phân đã làm tăng trở lại kích thước mạng lên nhiều lần. Ví dụ: [73] kết hợp 5 cơ sở trọng số nhị phân, điều này dẫn đến yêu cầu về bộ nhớ tăng gấp năm lần so với khi nén mạng theo kiểu nhị phân hóa. Như vậy sẽ dẫn đến việc mở rộng bộ nhớ trên chip đáng kể khi triển khai trên phần cứng. Có một số nghiên cứu đã thực hiện thành công các mạng quy mô lớn như VGG16-SSD thành FPGA [75, 76, 77]. Tuy nhiên, thiết kế trong nghiên cứu [75] có độ chính xác giảm không đáng kể do sử dụng 8-16 bit để lượng hóa cả trọng số và các giá trị kích hoạt, như vậy dẫn đến yêu cầu về bộ nhớ ngoài và chiếm một lượng lớn tài nguyên phần cứng. Tác giả Kang và các cộng sự trong nghiên cứu [77] đã áp dụng phương pháp cắt tỉa mạng với tỷ lệ cắt tỉa lên đến 87.5% và độ chính xác (mAP) của mô hình sau khi nén là 78.13%. Tuy nhiên, mô hình yêu cầu một số lượng đáng kể các khối DSP để tính toán bit cao. Nghiên cứu [76] đạt được tỷ lệ nén cao nhưng nó bị giảm đáng kể về độ chính xác của mô hình (giảm 14,7% so với mô hình gốc). 1.6. Kết luận chương Trích chọn đặc trưng đối tượng trên ảnh dựa trên học sâu không chỉ dừng lại ở việc sử dụng một mô hình học sâu nhằm sinh ra đặc trưng cho ảnh đầu vào tương ứng mà còn rất nhiều vấn đề liên quan cần phải được giải quyết. Trong đó có một số vấn đề chính là: − Cải tiến các kiến trúc mạng, các giải thuật huấn luyện mạng nhằm thu được đặc trưng tốt nhất cho dữ liệu ảnh người cho tái định danh. − Các mạng Nơ-ron hồi quy ban đầu được nghiên cứu chủ yếu cho các bài toán xử lý ngôn ngữ tự nhiên và chuỗi thời gian. Cần có các nghiên cứu để có thể vận dựng cải tiến mô hình tái định danh người sử dụng chuỗi hình ảnh. − Các mạng học sâu thường có kích thước rất lớn. Khi muốn triển khai trên phần cứng hoặc các thiết bị biên cần có các phương pháp nén mạng phù hợp nhằm thu được các mô hình mạng đủ nhỏ nhưng vẫn duy trì được độ chính xác cần thiết. 46 Chương 2 TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG TÁI ĐỊNH DANH NGƯỜI Nội dung chương này của luận án trình bày đề xuất trích chọn đặc trưng ảnh cho bài toán tái định danh. Trong đó, đề xuất thứ nhất nhằm khai thác các đặc trưng cục bộ của ảnh người. Đề xuất này được thực hiện dựa trên cơ sở thay đổi cấu trúc của mạng học sâu ResNet-50 [19] nhằm trích xuất đặc trưng cho từng vùng ảnh (đặc trưng cục bộ). Trong đề xuất 2, tiến hành kết hợp các đặc trưng cục bộ đã đề xuất và đặc trưng tự thiết kế của các nghiên cứu trước nhằm nâng cao hiệu quả của phương pháp tái định danh. Đề xuất 3, áp dụng phương pháp tính khoảng cách giữa hai tập đặc trưng cục bộ dựa trên độ đo EMD. Hiệu quả của đề xuất sẽ được thử nghiệm và đánh giá trên các CSDL dùng chung như VIPeR, PRID-2011, iLIDS-VID, Market1501-Partial và DukeMTMCReID-Partial [78]. 2.1. Đặt vấn đề Trong nghiên cứu, các mô hình cho bài toán tái định danh làm việc với hai tập hình ảnh người là tập thăm dò hay còn được gọi là tập truy vấn (probe) và tập tìm kiếm (gallery). Hai tập này tương ứng được thu nhận từ hai camera giám sát không có sự chồng lấn nhau về trường quan sát. Mô hình chung cho bài toán này được mô tả như sơ đồ Hình 2.1. Mô hình này có thể được áp dụng cho cả hai trường hợp của bài toán tái định danh: 1)Tái định danh sử dụng đơn hình ảnh trong đó chỉ sử dụng một hình ảnh ứng với mỗi người; 2)Tái định danh sử dụng đa hình ảnh trong đó mỗi người sẽ được đại diện bởi một chuỗi các hình ảnh. Quan sát hình ta thấy, mô hình được tạo nên bởi hai phần chính là: Phần trích chọn đặc trưng và phần đối sánh hay so khớp đặc trưng. Đối với phần trích chọn đặc trưng, đầu tiên, các ảnh trong tập truy vấn và tập tìm kiếm được cho qua bộ trích đặc trưng mức ảnh để thu được các đặc trưng mức hình ảnh (Image-level features). Các đặc trưng này có thể là các đặc trưng thủ công hoặc đặc trưng được trích chọn bằng cách sử dụng một mạng học Nơ-ron sâu. Trường hợp tái định danh sử dụng đa hình ảnh, các đặc trưng mức ảnh của cùng một người sẽ được cho qua một bộ tổng hợp nhằm tạo ra đặc trưng của chuỗi các hình ảnh (sequence-level feature hay video-level feature) trước khi chuyển sang phần đối sánh. Bước này được thể hiện bằng khối trích đặc trưng mức chuỗi 47 Tập truy vấn Tập tìm kiếm Đơn ảnh Chuỗi ảnh Đơn ảnh Chuỗi ảnh Trính đặc trưng mức ảnh Trích đặc trưng mức chuỗi ảnh Trính đặc trưng mức ảnh Trích đặc trưng mức chuỗi ảnh Học độ đo Kết hợp muộn So khớp và xếp hạng Kết quả truy vấn Phần trích chọn đặc trưng Phần đối sánh Hình 2.1: Mô hình chung cho bài toán tái định danh. ảnh trong Hình 2.1. Ngược lại, trường hợp tái định danh sử dụng đơn hình ảnh thì khối này được bỏ qua. Nội dung chương này tập chung chủ yếu vào đặc trưng mức hình ảnh. Các vấn đề liên quan đến đặc trưng mức chuỗi hình ảnh sẽ được nghiên cứu sinh trình bày trong nội dung chương sau. Do đó, trong các thử nghiệm về tái định danh đa hình ảnh, đặc trưng của người được xác định dựa trên trung bình của đặc trưng của tất cả hình ảnh của người đó. Đầu ra của phần trích chọn đặc trưng là các véc-tơ đặc trưng tương ứng với các hình ảnh đầu vào. Phần đối sánh sẽ có nhiệm vụ so sánh các cặp đặc trưng thu được từ 1 ảnh truy vấn và 1 ảnh tìm kiếm nhằm xác định độ tương đồng giữa hai ảnh tương ứng. Độ tương đồng sẽ được đánh giá bới một độ đo khoảng cách giữa các cặp đặc trưng ảnh. Một giải thuật học độ đo khoảng cách hoặc độ tương tự có thể được thực hiện nhằm nâng cao hiệu quả so khớp các vec-tơ đặc trưng, hoặc một cách đơn giản hơn ta có thể dùng các độ đo cố định như độ đo khoảng cách Euclide hoặc độ đo sự tương đồng Cosine. Bước tiếp theo trong mô hình, một trong các chiến lược kết hợp muộn (Query-adaptive late fusion) cũng có thể được áp dụng trong trường hợp sử dụng nhiều hơn một loại đặc trưng. Ngược lại khối này có thể được bỏ qua nếu chỉ dùng một loại đặc trưng. Việc kết hợp muộn các đặc trưng có thể được thực hiện theo nhiều cách khác nhau dựa trên các quy tắc kết hợp, ví dụ như quy tắc nhân (product-rule) và quy tắc cộng (sum-rule) [79]. Cuối cùng, khối so khớp và xếp hạng có nhiệm vụ đưa ra kết quả dự đoán. Các kết quả dự đoán này được thể hiện bằng bảng xếp hạng hoặc đường cong CMC trên biểu đồ. Trở lại với khối trích chọn đặc trưng mức ảnh trong mô hình tái định danh 48 thể hiện trên Hình 2.1. Không chỉ riêng bài toán tái định danh mà nhiều bài toán khác, các nghiên cứu trên cơ sở áp dụng các mạng học sâu trước đây thường có xu hướng sử dụng mạng tích chập (CNN) để sinh ra một đặc trưng duy nhất tương ứng với một ảnh. Tuy nhiên, các mạng tích chập thường hướng tới việc trích chọn một đặc trưng toàn cục cho toàn bộ ảnh mà không quan tâm đến việc phân bố các phần của đối tượng trong ảnh. Cụ thể là, một hình ảnh sau khi cho qua một mạng CNN sẽ thu được một bản đồ đặc trưng (Feature map) có kích thước C ×H ×W (trong đó C thể hiện số kênh hay chiều sâu và H ×W thể hiện kích thước của bản đồ đặc trưng). Bản đồ đặc trưng này tiếp theo cho qua lớp gộp (Pool) sẽ thu được một véc-tơ đặc trưng toàn cục với kích thước C. Tuy nhiên, thực tế cho thấy, các hình ảnh người được sử dụng trong bài toán tái định danh và nhiều bài toán khác thường là ảnh người đi bộ. Khi đó các bộ phận của một người được phân bố theo chiều dọc ảnh như: Đầu, cổ, vai, thân trên,... (Hình 2.2). Trong khi việc lấy giá trị trung bình (hoặc giá trị lớn nhất) của bản đồ đặc trưng tại tầng gộp của mạng tích chập để thu được đặc trưng toàn cục có thể làm mất đi các đặc trưng mang tính cục bộ của từng vùng ảnh cơ thể người. Hình 2.2: Phân bố các bộ phận trong hình ảnh người theo chiều dọc 2.2. Các đề xuất cho trích chọn đặc trưng mức ảnh trong tái định danh 2.2.1. Đề xuất 1: Trích đặc trưng cục bộ cho ảnh với mạng RestNet50 Với mục đích giữ lại các đặc trưng có tính cục bộ của ảnh người, luận án đề xuất một thay đổi tại lớp gộp cuối cùng (avg-pooling) của mạng ResNet-50 [19]. Trong đó kích thước cửa sổ H ×W của bộ gộp được thay thế bới một cửa sổ mới có kích thước 1 ×W . Với sự thay đổi này, đặc trưng của từng vùng riêng biệt (stripe) phân bố theo chiều dọc ảnh đều được giữa lại. Tức là thay vì chỉ nhận một véc-tơ đặc trưng toàn cục kích thước C nếu sử dụng kiến trúc mạng 49 góc, ta sẽ thu được H véc-tơ kích thước C ứng với H vùng ảnh theo chiều dọc. Điều này phù hợp với sự phân bố các bộ phận trên cơ thể người. Trước đó, trong nghiên cứu [56], nhóm tác giả đã đề xuất kết hợp đặc trưng học sâu được trích chọn trên ba vùng không chồng lấn của một ảnh đầu vào. Tuy nhiên việc thực hiện trích đặc trưng học sâu lần lượt cho 3 phần độc lập như vậy gây tốn kém về mặt tài nguyên xử lý nhất là khi số lượng vùng được tăng lên. Do đó việc trích đặc trưng của các vùng riêng biệt từ bản đồ đặc trưng sẽ tiết kiệm được rất nhiều tài nguyên tính toán so với việc phân chia ảnh thành các vùng ngay từ đầu vào. Đầu tiên H vec-tơ đặc trưng cục bộ này sẽ được nối với nhau để tạo ra một véc-tơ đặc trưng duy nhất. Đề xuất này được mô tả cụ thể như trong Hình 2.3. B lo ck 1 64x112x112 256x56x56 512x28x28 1024x14x14 2048x7x7 AVG pool (1,7)B lo ck 2 B lo ck 3 B lo ck 4 B lo ck 5 2048x7x1 Hình 2.3: Trích đặc trưng sử dụng mạng ResNet-50 áp dụng chiến lược chia 7 vùng ảnh Trong trường hợp này, mạng ResNet-50 nhận ảnh đầu vào có kích thước mặc định là 224×224, bản đồ đặc trưng thu được sẽ có kích thước 7×7×2048. Trường hợp muốn thay đổi kích thước của bản đồ đặc trưng, một phương pháp đơn giản là thay đổi kích thước của ảnh đầu vào. Bằng cách này, số đặc trưng cục bộ của các vùng theo chiều dọc ảnh có thể được tùy biến. Bản đồ đặc trưng sau đó được cho qua lớp gộp (pool) với cửa sổ kích thước 1x7 sẽ tổng hợp bản đồ đặc trưng thành 7 véc-tơ đặc trưng có kích thước 2048 riêng biệt cho mỗi vùng ảnh theo chiều dọc. Đây được gọi là tập các đặc trưng cục bộ tương ứng với các vùng trên ảnh. Tập các đặc trưng cục bộ này có thể đơn giản chỉ được chất đống (ghép lại) thành một véc-tơ đặc trưng duy nhất đại diện cho ảnh tương ứng. Hiệu quả của đặc trưng thu được theo cách này sẽ được đánh giá bằng các thử nghiệm trong cả hai trường hợp: Sử dụng độc lập và kết hợp với các loại đặc trưng khác với các chiến lược kết hợp muộn. Tuy nhiên, việc nối các đặc trưng cục bộ của từng vùng ảnh làm cho việc đối sánh đặc trưng của hai ảnh trở nên không rõ ràng khi chưa làm rõ được vùng ảnh nào của ảnh truy vấn sẽ thực sự khớp với một vùng của ảnh tìm kiếm. Do đó luận án cũng đề xuất sử dụng độ đo khoảng cách EMD [80] cho việc tính khoảng cách của hai tập đặc trưng cục bộ. Các đề xuất này sẽ được đánh giá trên mô hình bài toán tái định danh người sử dụng hình ảnh. 50 2.2.2. Đề xuất 2: Kết hợp các đặc trưng theo chiến lược kết hợp muộn Mỗi loại đặc trưng có ưu nhược điểm riêng, một bộ mô tả có thể hiệu quả trên một cơ sở dữ liệu này nhưng lại không hiệu quả trên một cơ sở dữ liệu khác. Một câu hỏi đặt ra là, liệu đặc trưng ảnh như vậy đã đủ tốt hay chưa? Liệu có thể kết hợp nó với các đặc trưng khác để cải thiện mô hình tái định danh hay không? Trong phần này, luận án sẽ trình bày các nghiên cứu liên quan đến việc kết hợp đặc trưng thu được theo đề xuất 1 với các đặc trưng tự thiết kế khác. Cụ thể là 2 loại đặc trưng GOG và LOMO. Các đặc trưng này đã được trình bày trong chương Nghiên cứu liên quan của luận án. Kết hợp các đặc trưng là một trong những phương pháp được lựa chọn cho bài toán nhận dạng nói chung và bài toán tái định danh nói riêng. Mục đích của việc kết hợp đặc trưng là khai thác thế mạnh có khả năng phân biệt của mỗi đặc trưng cho bài toán biểu diễn ảnh. Việc kết hợp các đặc trưng được thực hiện theo hai cách thức: kết hợp sớm hoặc kết hợp muộn. Với phương pháp kết hợp sớm, còn được gọi là kết hợp ở mức đặc trưng (feature-level), các đặc trưng sẽ được kết hợp với nhau trước khi đưa vào các giải thuật học máy. Trong khi đó, kết hợp muộn, còn được gọi là kết hợp ở mức điểm số (score), các đặc trưng được kết hợp sau bước so khớp (matching). Một số nghiên cứu trước đã chứng minh chiến lược kết hợp muộn đạt được kết quả tốt hơn so với hướng kết hợp sớm. Tuy nhiên, đa phần các nghiên cứu hiện tại theo hướng tiếp cận kết hợp muộn tập trung vào việc tìm các trọng số phù hợp phản ánh vai trò của mỗi đặc trưng trong sơ đồ kết hợp. Sau đó, các trọng số này được tích hợp trong các hàm tính toán độ tương tự truyền thống, ví dụ như hàm khoảng cách Cosine [79] hoặc hàm khoảng cách Euclidean. Trong nghiên cứu này, hai chiến lược kết hợp đặc trưng dựa trên quy tắc nhân (product-rule-based late fusion) và quy tắc cộng (sum-rule-based late fusion) được đề xuất sử dụng. Theo các quy tắc này, điểm số cuối cùng có được thông qua các phép toán nhân hoặc phép toán cộng. Các chiến lược kết hợp này được mô tả như trong các phương trình (2.1) và (2.2). Kết hợp muộn dựa trên quy tắc nhân Similarity(Q, Ij) = N∏ i=1 ( sim (i) Q,Ij )ω(i)Q , trong đó N∑ i=1 ω (i) Q = 1. (2.1) Kết hợp muộn dựa trên quy tắc cộng Similarity(Q, Ij) = N∑ i=1 ( sim (i) Q,Ij × ω(i)Q ) , trong đó N∑ i=1 ω (i) Q = 1. (2.2) Similarity(Q, Ij) là độ đo tương tự giữ người cần truy vấn Q và một người 51 trong tập tìm kiếm Ij, sim(i) Q,Ij là độ đo giữa hai người ứng với mỗi đặc trưng i, N = 3 là số đặc trưng đang xét, và w(i)Q là trọng số của đặc trưng i tương ứng với người truy vấn Q. Một điều cần chú ý đó là sim(i) Q,Ij = 1− d(i) (Q,Ij) , d(i) (Q,Ij) được tính thông qua giải thuật XQDA theo phương trình. (1.7) và được chuẩn hóa thành các giá trị nằm trong dải (0, 1). Để đánh giá hiệu năng của phương pháp đề xuất với các chiến lược kết hợp đặc trưng khác nhau, trong nghiên cứu này, w(i)Q được xác định theo hai cách. Cách thứ nhất, các đặc trưng được gán các trọng số bằng nhau, có nghĩa là w (i) Q = 1/N . Cách thứ hai, w (i) Q được xác định thích nghi theo ảnh truy vấn đầu vào. Phương pháp tính trọng số thích nghi lần đầu tiên được giới thiệu trong nghiên cứu của Zheng và cộng sự [79]. Theo cách xác định này, với mỗi ảnh truy vấn đầu vào, đặc trưng được coi là hiệu quả hơn sẽ được gán bởi trọng số lớn hơn. Hình 2.4 đưa ra một ví dụ về tính hiệu quả của đặc trưng GOG và đặc trưng ResNet với các ảnh truy vấn khác nhau. Trong hàng thứ nhất của hình vẽ, đặc trưng GOG tỏ ra hiệu quả hơn so với đặc trưng ResNet. Điều này được thể hiện bởi các đường cong điểm số (score curves) của các đặc trưng (bên phải của hình vẽ). Đường cong điểm số tương ứng với đặc trưng GOG có hình dạng chữ "L" với hệ số góc lớn hơn, dốc hơn so với đường cong điểm số của đặc trưng ResNet. Ngược lại, trong hàng thứ hai, đặc trưng ResNet lại tỏ ra tốt hơn so với đặc trưng GOG khi ảnh truy vấn đầu vào là người khác. Phương pháp xác định trọng số thích nghi này [79] được trình bày chi tiết như sau. GOG feature ` ` ResNet feature Rank 1 2 3 4 5 Query person ` GOG_score ResNet_score Rank Rank 20 40 60 80 100 (a) GOG feature ` ` ResNet feature Rank 1 2 3 4 5 Query person ` GOG_score ResNet_score Rank Rank 20 40 60 80 100 (b) Hình 2.4: Một ví dụ về tính hiệu quả của đặc trưng GOG và đặc trưng ResNet. Trong nghiên cứu [79], các tác giả đưa ra một ý tưởng đó là một đặc trưng 52 được gọi là hiệu quả (good feature) nếu đường cong điểm số của nó có dạng hình chữ "L". Ngược lại, một đặc trưng không hiệu quả (bad feature) nếu đường cong điểm số của nó thoai thoải, có độ dốc nhỏ. Nói một cách khác, một đặc trưng tốt nếu nó có khả năng phân biệt một cách rõ ràng kết quả trả về ở xếp hạng đầu tiên và các xếp hạng tiếp theo. Trên cơ sở đó, các trọng số thích nghi đối với mỗi đặc trưng được tính toán dựa trên diện tích của đường cong được chuẩn hóa (normalized score curves). Quá trình tính toán các trọng số thích nghi gồm các bước như sau. Trước hết, các đường cong tham chiếu được sinh ra từ một cơ sở dữ liệu đủ lớn. Trong nghiên cứu này, tác giả đề xuất sử dụng cơ sở dữ liệu PRID-2011 với hai mục đích: (1) tạo nên đường cong tham chiếu và (2) học độ đo trong pha huấn luyện. Các đường cong tham chiếu được định nghĩa là đường cong trung bình của tất cả các đường cong điểm số được tính từ tập huấn luyện. Thứ hai, mỗi đường cong điểm số tương ứng với mỗi ảnh truy vấn được chuẩn hóa theo các đường cong tham chiếu. Cuối cùng, trọng số thích nghi được tính dựa trên phần diện tích dưới đường cong, được thể hiện như ở phương trình (2.3) dưới đây. ω (i) Q = 1 Ai N∑ n=1 1 An , (2.3) trong đó, Ai là phần diện tích dưới đường cong và N = 3 là số đặc trưng được sử dụng trong phương pháp đề xuất. 2.2.3. Đề xuất 3: Tính khoảng cách giữa hai tập đặc trưng cục bộ bằng độ đo EMD Đề xuất 1 thực hiện biến đổi mạng cơ sở ResNet-50 nhằm khai các đặc trưng mang tính cục bộ trong biểu diễn người cho bài toán tái định danh. Tuy nhiên, việc nối các đặc trưng cục bộ của từng vùng ảnh làm cho việc đối sánh đặc trưng của hai ảnh trở nên không rõ ràng khi chưa làm rõ được vùng ảnh nào của ảnh truy vấn sẽ thực sự khớp với vùng ảnh nào của ảnh tìm kiếm. Nhằm nâng cao chất lượng cho mô hình tái định danh, nghiên cứu sinh đề xuất sử dụng độ đo EMD (Earth Mover’s Distance) [80] cho phép tính toán khoảng cách giữa hai tập đặc trưng cục bộ trích chọn dựa trên đề xuất 1. Sau đó, đề xuất này được tích hợp vào trong mô hình đề xuất ở [81], nhằm kết hợp thêm giữa thông tin toàn cục và cục bộ. Khung làm việc được đề xuất như Hình 2.5 bao gồm 3 phần chính: 1) Phần trích chọn đặc trưng; 2) Phần tính toán khoảng cách cho đặc trưng cục bộ và toàn cục; 3) Phần tính toán giá trị mất mát. Đầu tiên, vùng hình ảnh của người được chuẩn hóa về kích thước 256 × 128 sau đó cho qua phần trích đặc trưng. Kích thước này phù hợp hơn đối với hình 53 12 3 N Nhánh toàn cục CxH Nhánh cục bộ Softmax loss Đặc trưng toàn cục Đặc trưng cục bộ khoảng cách EMD Khoảng cách Euclide Triplet loss CxH CxH CxH Cx1 CxHxW 1 Trích đặc trưng CxHxW 2 CxHxW 3 CxHxW N Hình 2.5: Khai thác thông tin cục bộ ảnh cùng khoảng cách EMD cho mô hình bài toán tái định danh ảnh người đi bộ. Bản đồ đặc trưng thu được sau đó được cho đi qua hai nhánh được gọi là nhánh cục bộ và nhánh toàn cục tương ứng để trích đặc trưng cục bộ và toàn cục. Khoảng cách giữa hai véc-tơ đặc trưng toàn cục của hai ảnh được tính toán dựa trên khoảng cách Euclide thông thường. Giả sử fQ và fI là hai véc-tơ đặc trưng toàn cục của hai ảnh Q và I, khoảng cách dg(Q, I) giữa chúng được tính toán theo công thức sau: dg(Q, I) = ∥∥fQ − fI∥∥2 (2.4) Tuy nhiên, đối với khoảng cách cục bộ, thay vì sử dụng khoảng cách DMLI như như trong mô hình cơ sở [81], nghiên cứu sinh đề suất sử dụng khoảng cách EMD [80] để tính khoảng cách giữa hai tập véc-tơ đặc trưng cục bộ của hai ảnh. Khoảng cách dl giữa chúng được mô tả như Hình 2.6 và công thức sau: dl(Q, I) = ∑m i=1 ∑n j=1 f ∗ ijdij∑m i=1 ∑n j=1 f ∗ ij (2.5) Trong đó f∗ij được xác định dựa trên bài toán tối ưu [80]: min F m∑ i=1 n∑ j=1 fijdij (2.6) với các ràng buộc: fij ≥ 0, 1 ≤ i ≤ m, 1 ≤ j ≤ n.∑n j=1 fij ≤ wpi , 1 ≤ i ≤ m∑m i=1 fij ≤ wqj , 1 ≤ j ≤ n∑m i=1 ∑n j=1 fij = min (∑m i=1wpi , ∑n j=1wqj ) (2.7) trong đó dij là khoảng cách Euclide được chuẩn hóa về [0..1] giữa đặc trưng cục bộ thứ i của ảnh Q với đặc trưng cục bộ thứ j của ảnh I. fij là đại lượng được xác định qua quá trình tối ưu. Cuối cùng hai hàm mất mất softmax và 54 Hình 2.6: Một ví dụ về việc tính toán khoảng cách EMD giữa hai tập đặc trưng cục bộ của hai ảnh người triplet được sử dụng để huấn luyện mạng. Cụ thể, giá trị mất mát L được tính toán theo công thức L = LID + L g T + L l T , (2.8) trong đó, LID là giá trị mất mát theo định danh (ID) của đối tượng sử dụng hàm mất mát softmax, LgT , L l T là hai giá trị mất mát theo hàm mất mát triplet tương ứng với hai nhánh cục bộ và toàn cục của mạng. 2.3. Thử nghiệm và đánh giá kết quả 2.3.1. Cơ sở dữ liệu cho bài toán tái định danh Hiện nay có khá nhiều CSDL được sử dụng để đánh giá chất lượng các phương pháp cho bài toán tái định danh. Một số CSDL phổ biến sẽ được sử dụng trong Luận án: PRID-2011 [4], iLIDS-VID [5], và VIPeR [3]. Trong đó, hai cơ sở dữ liệu PRID-2011 và iLIDS-VID thường được áp dụng cho bài toán tái định danh sử dụng đa hình ảnh. CSDL VIPeR được áp dụng cho bài toán tái định danh sử dụng đơn hình ảnh. Tất cả các vùng ảnh chứa người trong các CSDL này được khoanh vùng một cách thủ công. Cơ sở dữ liệu VIPeR Cơ sở dữ liệu VIPeR có tất cả 1,264 ảnh của 632 người được thu thập bởi hai camera không có sự chồng lấn về vùng quan sát. Mỗi người chỉ có duy nhất một ảnh trên mỗi camera. Các ảnh trong tập cơ sở dữ liệu này được chuẩn hóa về kích thước 128× 48 điểm ảnh. Một số hình ảnh trong bộ CSDL này được thể hiện như Hình 2.7. Các hình ảnh thu được có sự biến đổi lớn về ánh sáng, tư 55 thế của người và góc quan sát. Điều này làm cho bộ dữ liệu VIPeR trở thành một trong những bộ dữ liệu thách thức nhất cho bài toán tái định danh. Hình 2.7: Một số hình ảnh trong cơ sở dữ liệu VIPER. Bộ dữ liệu PRID-2011 Hình ảnh của cơ sở dữ liệu PRID-2011 được quan sát bởi hai camera có vùng quan sát không chồng lấn, được gọi là camA và camB. Có 385 người xuất hiện trong vùng quan sát của camA và 749 người xuất hiện trong vùng quan sát của camB. Tuy nhiên, chỉ có 200 người xuất hiện trên cả hai vùng quan sát của hai camera. Một số hình ảnh của CSDL này được thể hiện trong Hình 2.8. Sau khi loại bỏ những người có chuỗi ảnh ít hơn 21 khung hình, cơ sở dữ liệu chỉ còn 178 người. Kích thước của hình ảnh trong cơ sở dữ liệu PRID-2011 được chuẩn hóa thành 128× 64 điểm ảnh. Hình 2.8: Một số hình ảnh trong cơ sở dữ liệu PRID2011 và iLID-VID. Bộ dữ liệu iLIDS-VID Cơ sở dữ liệu iLIDS-VID thu nhận tại sảnh sân bay thông qua mạng camera giám sát CCTV. Cơ sở dữ liệu này gồm 300 người đi bộ với 600 chuỗi ảnh (mỗi 56 người 2 chuỗi). Kích thước của hình ảnh trong iLIDS-VID cũng được chuẩn hóa là 128× 64 điểm ảnh. Một số hình ảnh của CSDL này được thể hiện trong Hình 2.8. So với PRID-2011, cơ sở dữ liệu iLIDS-VID được đánh giá có nhiều thách thức hơn do bối cảnh phức tạp và người thường xuất hiện trong đám đông. D. Loss functions In this work, two loss functions that are identity loss (softmax loss) and triplet loss used in the training phase. If identity loss is trained for global features, triplet loss is employed for both global and local branches. While identity loss treats person ReID as classification problem and based on cross-entropy, triplet loss solves person ReID as retrieval ranking problem in which the distance between the positive pair should be smaller than the negative pair by a pre-defined margin [1]. For the triplet loss training, the hard triplets including the most dissimilar positive pair of the same identity and the most similar negative pair belonging to two different identities are chosen. The total loss is defined as in Equation (5): L = LID + L g T + L l T , (5) where, LID is the identity loss and L g T , L l T denotes the triplet loss for the global and local branch, respectively. IV. EXPERIMENT AND RESULTS A. Datasets and evaluation measurement 1) Datasets: To evaluate the effectiveness of the proposed method, three datasets that are VIPeR, Market1501-Partial, DukeMTMCReID-Partial are used in our experiments. VIPeR dataset [17] is one of the most challenging dataset for single- shot person ReID due to the variations in illumination, human pose, viewpoints, etc. This dataset is captured by two outdoor static cameras (A and B) at the resolution of 128 × 48 pixels. The low resolution also makes this dataset be more challenging. There are total 1264 images of 632 people, each person has two images, one on camera A and the other on camera B. Two partial person ReID datasets Market1501-Partial and DukeMTMCReID-Partial are introduced in the baseline method [8]. These two partial datasets are generated from Market1501 [18] and DukeMTMCReID [19] by randomly removing from 10% to 40% (mainly vertical direction) of the detected bounding boxes to simulate the inaccurate detection results. Market1501-Partial contains 32

Các file đính kèm theo tài liệu này:

luan_an_nghien_cuu_va_phat_trien_phuong_phap_trich_chon_dac.pdf
02_TomTatLuanAn.pdf
03_TrichYeu_LA.docx
03_TrichYeu_LA.pdf
04_TomTat_TinhMoi_Web_vi.docx
04_TomTat_TinhMoi_Web_vi.pdf
05_TomTat_TinhMoi_Web_en.docx
05_TomTat_TinhMoi_Web_en.pdf