Khóa luận Phát hiện, phân loại và theo dõi đối tượng chuyển động trong hệ thống giám sát thông minh

MỤC LỤC

LỜI CẢM ƠN i

TÓM TẮT iii

MỤC LỤC iv

DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU viii

LỜI NÓI ĐẦU 1

CHƯƠNG 1 4

TỔNG QUAN VỀ BÀI TOÁN GIÁM SÁT THÔNG MINH 4

1.1. Giới thiệu 4

1.1.1. Giới thiệu hệ thống theo dõi giám sát thông minh 4

1.1.2. Các bài toán cần giải quyết 4

1.2. Khái quát các bài toán cần giải quyết 5

CHƯƠNG 2 8

MỘT SỐ KỸ THUẬT CHO BÀI TOÁN PHÁT HIỆN, PHÂN LOẠI VÀ THEO DÕI ĐỐI TƯỢNG CHUYỂN ĐỘNG 8

2.1. Tổng quan bài toán phát hiện, phân loại, theo dõi đối tượng chuyển động 8

2.1.1. Bài toán phát hiện đối tượng chuyển động 8

2.1.1.1. Các khái niệm cơ bản về video 8

2.1.1.1.1 Color 9

2.1.1.1.2. Texture 10

2.1.1.1.3. Shape 10

2.1.1.1.4. Motion 10

2.1.1.2. Phát hiện đối tương chuyển động là gì? 11

2.1.1.2.1. Phát hiện các vùng ảnh nổi 11

2.1.1.2.2. Xử lý các vùng ảnh nổi 12

2.1.1.3. Các vấn đề phải giải quyết 13

2.1.1.3.1. Phát hiện các vùng ảnh nổi 13

2.1.1.3.1.1. Các phương pháp trừ ảnh nền (Background subtraction) 13

2.1.1.3.1.2. Các phương pháp thông kê (Statistical Methods) 14

2.1.1.3.1.3. Phương pháp chênh lệch tạm thời (Temporal Differencing) 15

2.1.1.3.2. Xử lý các vùng ảnh nổi 16

2.1.2. Bài toán phân loại đối tượng 18

2.1.2.1 Phân loại đối tượng là gì? 18

2.1.2.1.1. Phân loại dựa trên hình dạng( Shape- based Classification) 18

2.1.2.1.2. Phân loại dựa trên chuyển động( Motion- based Classification) 19

2.1.2.2. Một số phương pháp phân loại phổ biến. 20

2.1.2.2.1. Phương pháp dựa trên hình dạng( Shape- based) 20

2.1.2.2.1.1. Cấu trúc tổng quát của phương pháp 21

2.1.2.2.1.2. Phân loại đối tượng 22

2.1.2.2.1.3. Nhất quán thời gian( Temporal Consistency). 23

2.1.2.2.1.4. Độ đo phân loại. 23

2.1.2.2.1.5. Phân loại mục tiêu 25

2.1.2.2.2. Phương pháp phân loại dựa trên chuyển động. 26

2.1.2.2.3. Phương pháp phân loại kết hợp các đặc trưng dựa trên bề ngoài và chuyển động. 28

2.1.3. Bài toán theo vết đối tượng 29

2.1.3.1. Theo vết đối tượng là gì? 29

2.1.3.1.1. Chính xác hoá đối tượng tương ứng( Object matching) 30

2.1.3.1.2. Xử lý nhập nhằng – Occlusion 31

2.1.3.1.3. Dự đoán chuyển động 32

2.1.3.2. Các vấn đề phải giải quyết 34

2.1.3.2.1. Chính xác hoá đối tượng tương ứng – Object matching 34

2.1.3.2.2. Dự đoán chuyển động của đối tượng 35

2.1.3.2.2.1. Kalman Filtering 35

2.1.3.2.2.2. Mean – shift tracking 36

2.2. Đề xuất phương pháp giải quyết 38

CHƯƠNG 3 40

CÁC GIẢI PHÁP LỰA CHỌN CHO VẤN ĐỀ ĐẶT RA 40

3.1. Bài toán phát hiện đối tượng chuyển động 40

3.1.1. Thiết kế các khối xử lý 41

3.1.1.1. Khối phát hiện các vùng ảnh nổi 42

3.1.1.1.1. Mô hình trừ ảnh nền thích hợp 43

3.1.1.1.2. Mô hình của Stauffer và Grimson 44

3.1.1.1.3. Mô hình chênh lệch tạm thời 47

3.1.1.2. Khối xử lý các vùng ảnh nổi 48

3.1.1.2.1. Tiền xử lý mức điểm ảnh 49

3.1.1.2.2. Phát hiện các sự liên kết giữa các khối 53

3.1.1.2.3. Tiền xử lý ở mức khối ảnh nổi 54

3.1.1.2.4. Đưa ra tính chất của các đối tượng được phát hiện 55

3.1.2. Kết luận 56

3.2. Bài toán phân loại đối tượng 56

3.2.1. Phân loại dựa trên các mẫu hình chiếu 57

3.2.1.1. Trích rút hình chiếu của đối tượng 58

3.2.1.2. Cơ sở dữ liệu mẫu các hình chiếu 58

3.2.1.3. Độ đo phân loại 61

3.2.1.4. Sự nhất quán thời gian 63

3.3. Bài toán theo vết đối tượng chuyển động 65

3.3.1. Khối chính xác hoá đối tượng tương ứng 66

3.3.2. Khối xử lý nhập nhằng giữa các đối tượng 70

3.3.2.1. Phát hiện đối tượng kết hợp 70

3.3.2.2. Phát hiện các đối tượng tách nhau ra 71

3.3.2.3. Xác định nhập nhằng dựa vào biểu đồ màu 71

3.3.3. Khối dự đoán chuyển động của đối tượng 73

3.3.3.1. Áp dụng thuật toán Kalman Filter, Mean – shift, SSD vào bài toán dự đoán chuyển động của đối tượng 73

3.3.3.1.1. Dự đoán các tham số chuyển động của đối tượng trong mô hình SSD – MS 75

3.3.3.1.2. Độ lớn tỉ lệ 77

3.3.3.1.3. Cập nhật mô hình mục tiêu 78

3.3.3.1.4. Tổng kết thuật toán SSD - MS 78

3.4. Kết chương 79

CHƯƠNG 4 80

THỰC NGHIỆM 80

4.1. Môi trường thực nghiệm 80

4.2. Dữ liệu thực nghiệm 80

4.2.1. Dữ liệu thực nghiệm cho module phát hiện đối tượng chuyển động 81

4.2.1.1 Các dữ liệu trong điều kiện quan sát ít nhiễu 81

4.2.1.2. Các dữ liệu trong điều kiện quan sát nhiều nhiễu 83

4.2.2. Dữ liệu thực nghiệm cho module theo dõi đối tượng chuyển động 83

4.2.2.1. Dữ liệu thực nghiệm chính xác hóa đối tượng chuyển động 83

4.2.2.2. Dữ liệu thực nghiệm về sự nhập nhằng trong chuyển động của nhiều đối tượng 84

4.2.2.3. Dữ liệu thực nghiệm vẽ đường chuyển động của đối tượng 84

4.3. Cài đặt và thực nghiệm 85

4.3.1. Cài đặt chương trình 85

4.3.2. Giao diện chương trình 86

4.3.3. Kết quả thực nghiệm 88

4.3.2.1. Thực nghiệm 1: Phát hiện đối tượng chuyển động 88

4.3.2.1.1. Với dữ liệu trong điều kiện quan sát ít nhiễu 88

4.3.2.1.2. Với dữ liệu trong điều kiện quan sát nhiều nhiễu 90

4.3.2.2. Thực nghiệm 2: Theo dõi đối tượng chuyển động 90

4.3.2.2.1. Chính xác hóa đối tượng 90

4.3.2.2.2. Các vấn đề về chuyển động chồng chéo, nhập nhằng 92

4.3.2.2.3. Vẽ đường chuyển động của đối tượng 93

4.4. Đánh giá kết quả thực nghiệm 93

4.4.1. Thực nghiệm phát hiện đối tượng chuyển động 93

4.4.1.1. Các dữ liệu ít nhiễu 93

4.4.1.2. Các dữ liệu nhiều nhiễu 94

4.4.2. Thực nghiệm theo dõi đối tượng chuyển động 95

KẾT LUẬN 96

Các kết quả đã đạt được 96

Hạn chế 96

Hướng phát triển trong tương lai 97

TÀI LIỆU THAM KHẢO 98

111 trang | Chia sẻ: lethao | Lượt xem: 5566 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Khóa luận Phát hiện, phân loại và theo dõi đối tượng chuyển động trong hệ thống giám sát thông minh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

theo nguyên tắc cho mỗi khung hình, nhưng bởi vì thực thi trong thời gian thực nên nó được hoạt động mỗi lần 8 khung hình. Điều này có nghĩa là cho mỗi phân loại thực hiện trong tầng thứ hai có ba kết quả phân loại ở tầng thứ nhất. Cho mỗi lớp chúng ta tính phân số liên quan p của các ứng viên V thu được cho lớp này ở cấp phân loại đầu tiên, đặt p(k) = V(k)/T, k= 1….N, trong đó T là tổng số các phân loại ở cấp độ thứ nhất của mục tiêu này. Có thể suy ra thành phần k-th của vector đặc trưng chỉ ra rằng mục tiêu thuộc về lớp k-th. Các thành phần từ tới của vectơ đặc trưng được gán cho các đặc trưng chuyển động. Vectơ đặc trưng xây dựng theo cách này được sử dụng như một đầu vào của bộ lọc SVM tầng thứ hai. Như kết quả thực nghiệm thu được, kết quả phân loại đạt được bởi bộ phân loại lai ghép tốt hơn đáng kể kết quả đạt được bởi mỗi bộ lọc cơ sở riêng rẽ. Bộ lọc tổng hợp cũng chứng tỏ hiệu quả hơn trong các điều kiện phân đoạn mục tiêu bị nhiễu. Để giúp cho việc phân loại hiệu quả cho sự chồng chéo và các nguồn gốc của việc phân loại sai chúng tôi sử dụng một cách tiếp cận đa giả thuyết. Tất cả các mục tiêu tiềm năng được phân loại theo giản đồ được mô tả trong hình 2-14(c) và kết quả được ghi lại như một giả thuyết phân loại X(k) cho mỗi mục tiêu. Mỗi 24 khung hình giả thuyết này sẽ cập nhật. Chúng ta tính toán thống kê cho các mục tiêu qua một khoảng thời gian ( 3 giây) bằng cách xây dựng một lưu đồ phân loại cho mỗi đối tượng chuyển động. Một quyết định được tạo tại cuối mỗi khoảng dựa trên lưu đồ này. 2.1.3. Bài toán theo vết đối tượng Đầu vào của bài toán theo vết đối tượng chuyển động là các vết đối tượng, các đặc trưng của đối tượng đã được phát hiện thông qua khối xử lý phát hiện đối tượng, đồng thời vết đối tượng đó đã được phân loại thuộc các lớp đối tượng cụ thể( lớp đối tượng người, xe cộ, đồ vật…) được thực hiện qua khối xử lý phân loại đối tượng. Như vậy nhiệm vụ của vấn đề theo vết đối tượng là chính xác hoá sự tương ứng của các vết đối tượng trong các khung hình liên tiếp từ đó dự đoán đường đi, vận tốc, hướng chuyển động của các đối tượng. 2.1.3.1. Theo vết đối tượng là gì? Theo vết đối tượng là quá trình chính xác hóa đối tượng trong các khung hình liên tiếp để từ đó đưa ra các thông tin về chuyển động của đối tượng như đường đi, tốc độ và huớng chuyển động. [4] Như đã đề cập ở phần trên, theo vết đối tượng là bước cuối cùng của bài toán phát hiện, phân loại, theo vết đối tượng trong hệ thống giám sát thông minh. Quá trình này thực chất là quá trình xử lý các vết đối tượng được phát hiện ở các khung hình liên tiếp nhau, từ đó theo dõi các đối tượng đó. Quy trình theo vết đối tượng được mô hình hoá bởi hình vẽ sau: DỰ ĐOÁN CHUYỂN ĐỘNG CỦA ĐỐI TƯỢNG XỬ LÝ NHẬP NHẰNG PHÁT HIỆN ĐỐI TƯỢNG RỜI KHỎI CẢNH VÊT ĐỐI TƯỢNG & ĐẶC TRƯNG CỦA ĐỐI TƯỢNG CHÍNH XÁC HOÁ ĐỐI TƯỢNG TƯƠNG ỨNG THÔNG TIN ĐƯỜNG ĐI CỦA ĐỐI TƯỢNG VÊT ĐỐI TƯỢNG & ĐẶC TRƯNG CỦA ĐỐI TƯỢNG ĐƯỜNG ĐI CỦA ĐỐI TƯỢNG ĐÃ ĐƯỢC DỰ ĐOÁN Đối tượng mới & đặc trưng Đồ thị đối tượng phù hợp tương ứng Cập nhật đồ thị đối tượng phù hợp tương ứng Hình 2-15: Tổng quan các khối xử lý trong bài toán theo vết đối tượng 2.1.3.1.1. Chính xác hoá đối tượng tương ứng( Object matching) Chính xác hoá đối tượng tương ứng là module đầu tiên trong bài toán theo vết đối tượng chuyển động qua các khung hình video. Module này đóng vai trò xử lý việc xác định chính xác đối tượng tương ứng của một đối tượng trong các khung hình liên tiếp. Do đó từ vết đối tương đã được phát hiện ra, cần xác định sự tương ứng của các vết đối tượng này trong các khung hình liên tiếp để suy ra đó có phải là vết của cùng một đối tượng hay không. Để minh hoạ cho chức năng này module có thể minh hoạ bởi hình sau: Hình 2-16: Minh hoạ sự chính xác hoá đối tượng 2.1.3.1.2. Xử lý nhập nhằng – Occlusion Tuy với đầu vào là các vết đối tượng đã được phát hiện, vấn đề theo vết đối tương sẽ gặp phải khó khăn khi xảy ra nhập nhằng giữa các vết đối tượng này. Một số ví dụ cụ thể: Khi đối tượng A và đối tượng B kết hợp với nhau tạo thành một đối tượng(hình a) Hay khi một đối tượng tượng tách nhau ra thành hai đối tượng A và B(hình b). Cả hai trường hợp này đều làm cho việc theo vết đối tượng gặp khó khăn do có sự nhập nhằng giữa các đối tượng. Hình 2-17. Một ví dụ theo vết có sự nhập nhằng Ví dụ trên đã bộc lộ một số khó khăn mà hệ thống theo vết đối tượng trong các ứng dụng giám sát thông minh gặp phải khi xác định được chính xác phải theo vết đối tượng nào khi có sự nhập nhằng. Bài toán theo vết ứng dụng trong hệ thống video giám sát thông minh còn gặp nhiều khó khăn hơn do một số nguyên nhân sau đây: Ảnh nền lộn xộn: Do sự có mặt của nhiều đối tượng khác Ảnh nền động: Do máy quay di chuyển Cường độ chiếu sáng thay đổi: Thay đổi hướng và cường độ chiếu sáng Thay đổi điểm nhìn: thay đổi vị trí của máy quay hoặc vị trí của đối tượng Nhập nhằng: đối tượng cần theo dõi có thể biến mất hoặc bị che bởi một đối tượng khác Vì vậy việc xử lý nhập nhằng giữa các vết đối tượng có vai trò quan trọng trong theo vết đối tượng cũng như trong hệ thống giám sát thông minh. 2.1.3.1.3. Dự đoán chuyển động Hơn thế nữa mục đích của hệ thống giám sát thông minh là dự đoán chuyển động của đối tượng được giám sát dựa vào các trạng thái trước đó và quan sát hiện tại để đưa ra các thông tin dự đoán tạm thời như đường đi, vận tốc, góc quay, hướng chuyển động. Có thể nói đây là module quan trọng nhất trong bài toán theo vết đối tượng. Nếu giải quyết bài toán theo vết đối tượng đạt hiệu quả và độ tin cậy cao, có thể ứng dụng trong rất nhiều lĩnh vực [16], cụ thể theo vết đối tượng áp dụng trong các lĩnh vực: Các ứng dụng của hệ thống giám sát: Surveillance Phân tích hoạt động của con người hay của các đối tượng, như phân tích điệu bộ, cử chỉ, .. Trong sự kiện gán đích và đạt đích trong thể thao: Sports event interpretation và archival Trong lĩnh vực nắm bắt hành vi: Motion capture Trong lĩnh vực ghi nhận chuyển động: Recognition from motion Một số hình ảnh về các ứng dụng của theo vết đối tượng. (a) (b) (c) Hình 2-18: Theo vết đối tượng ứng dụng trong hệ thống giám sát 2.1.3.2. Các vấn đề phải giải quyết Trong một đối tượng có rất nhiều đặc trưng: đặc trưng về mô hình, đặc trưng về cấu trúc, đặc trưng về màu sắc. Vì vậy cũng có rất nhiều phương pháp theo vết đối tượng khác nhau như theo vết đối tượng theo hướng hình học, theo đặc trưng của đối tượng. Sau đây là một số phương pháp theo vết đối tượng thường gặp: Theo vết dựa vào mô hình: Hệ thống theo vết dựa vào mô hình 2D hay 3D đã được tìm hiểu trước đây[18]. Mô hình này áp dụng hiệu quả trong việc tìm ra đường đi của các mô hình yêu cầu độ chính xác cao mà số lượng các đối tượng theo dõi là ít. Các mô hình 2D được giới thiệu để khắc phục những nhược điểm trong mô hình 3D do mô hình hình học 3D quá chi tiết. Theo vết đối tượng dựa vào miền: Ý tưởng là nhận dạng những miền liên kết với nhau trong ảnh, khối mà có liên kết với mục tiêu được theo dõi. Dựa vào độ đo cross-correlation để theo dõi đối tượng. Xem them trong [19] . Theo vết đối tượng dựa vào đường bao động(Active Contour): Là ý tưởng biểu diễn đường viền bao đối tượng được theo dõi, và liên tục cập nhật tự động đối tượng đó[20]. Hạn chế chính của cách tiếp cận là xử lý thế nào với trường hợp nhập nhằng. Theo vết đối tượng dựa vào đặc trưng : Cách tiếp cận các đặc trưng như tâm, màu sắc của đối tượng. Cách tiếp cận này sử dụng mô hình Kalman đã được phát triển trong giao tiếp giám sát bằng máy tính. 2.1.3.2.1. Chính xác hoá đối tượng tương ứng – Object matching Tiến trình chính xác hoá đối tượng tương ứng là công đoạn đầu tiên trong quá trình theo vết đối tượng. Vậy chính xác hoá đối tượng là gì ? - Object matching - Đó là việc xác định chính xác đối tượng phù hợp tương ứng của một đối tượng giữa các khung hình liên tiếp[4]. Vấn đề chính xác hoá đối tượng tương ứng có hai cách tiếp cận chính: Cách tiếp cận dựa vào đặc trưng: Chuyển động của các đối tượng được biểu diễn bởi một số điểm đặc trưng: vị trí, màu sắc, tâm của đối tượng. Cách tiếp cận dựa vào khoảng cách: Cách tiếp cận khác dựa vào khoảng cách giữa vị trí hiện tại và vị trí được dự đoán thông qua quá trình dự đoán và quá trình phân đoạn đối tượng. Từ đó chính xác hoá đối tượng tương ứng với một đối tượng trong các khung hình liên tiếp. Cách tiếp cận dựa vào khoảng cách thực hiện đơn giản nhưng lại rất hiệu quả trong vấn đề chính xác hoá đối tượng tương ứng. Do đó chúng tôi áp dụng phương pháp dựa vào khoảng cách để giải quyết module này 2.1.3.2.2. Dự đoán chuyển động của đối tượng Module dự đoán chuyển động của đối tượng trong hệ thống giám sát video thông minh có vai trò rất quan trọng. Nhiệm vụ của quá trình này là đưa ra các thông tin về đối tượng được theo dõi như đường đi của đối tượng, tốc độ hay hướng chuyển động của đối tượng. Đầu vào của quá trình này là các vị trí và đặc trưng của đối tượng ở những thời điểm trong quá khứ để từ đó đưa ra vị trí tiếp theo của đối tượng. Sau đây sẽ trình bày về một số thuật toán áp dụng trong dự đoán chuyển động của đối tượng. 2.1.3.2.2.1. Kalman Filtering Kalman Filter[21] là một tập các biểu thức toán học đưa ra cách tính hiệu quả của phương pháp least-square. Mô hình của đối tượng là tập các thuộc tính: - Đặc điểm hình dạng về hình học - Đặc điểm về diện mạo (màu sắc, độ mạnh, …) Theo vết là dự đoán vector trạng thái chứa những thuộc tính này là một hàm theo thời gian: Trong đó là vector dữ liệu thu được từ vector trạng thái quan sát được và là vector trạng thái của đối tượng mà chúng ta muốn dự đoán để thu được những tham số liên quan đến chuyển động của đối tượng như: vị trí, vận tốc, .. Chúng ta muốn làm cực đại hóa xác suất trạng thái có điều kiện của tất cả dữ liệu quan sát được(trạng thái sau – state posterior). (2.10) Hiệu quả của việc làm mịn tạm thời: Quyết định giá trị trạng thái phụ thuộc vào quan sát trong quá khứ. Quan sát chưa chính xác Thời gian Hình 2-19: Dự đoán trạng thái hiện tại dựa vào Kalman Filter Ưu điểm của thuật toán Kalman Filter: - Tương thích với rất nhiều dạng xuất hiện của đối tượng - Giải quyết được những một số trường hợp mất dấu theo vết đột ngột - Giải quyết được sự nhập nhằng, thay đổi cách chiếu sáng - Thay đổi hướng quan sát 2.1.3.2.2.2. Mean – shift tracking Thuật toán Mean – shift tìm ra giá trị lớn nhất trong một khoảng nào đó của hàm mật độ: (2.11) Trong đó K là hàm Kernel. Gaussian kernel Hình 2-20: Biểu đồ xác định giá trị lớn nhất của hàm mật độ trong một khoảng nào đó Một giá trị lớn nhất trong khoảng nào đó sẽ được tìm ra bằng cách thay đổi y liên tục đến một giá trị trọng số trung bình của đã tính với đạo hàm Kernel K’: (2.12) Hình 2-21: Biểu đồ xác định giá trị lớn nhất của hàm mật độ trong khoảng nào đó bằng cách thay đổi y Ưu điểm của thuật toán Mean-shift: Thuật toán Mean – shift tỏ ra rất hiệu quả trong những tình huống mà sự hình dạng của đối tượng thay đổi do máy quay chuyển động, có sự nhập nhằng, ảnh nền lộn xộn hay mục tiêu thay đổi tỉ lệ. Từ ưu điểm của các thuật toán trên, chúng tôi sử dụng đặc trưng màu sắc của đối tượng và áp dụng thuật toán Kalman Filter, Mean – shift, SSD để giải quyết bài toán dự đoán chuyển động của đối tượng trong các hệ thống giám sát. 2.2. Đề xuất phương pháp giải quyết Trên thế giới đã có nhiều hướng tiếp cận để giải quyết bài toán phát hiện, phân loại, theo dõi đối tượng chuyển động [3][6]. Như trình bày ở trên, bài toán phát hiện, phân loại, theo dõi đối tượng chuyển động đã được phân tích và thiết kế thành các khối xử lý rõ ràng cùng với các thuật toán xử lý cho các khối. Song một điều ta có thể thấy: các thuật toán này phù hợp với những điều kiện, hoàn cảnh quan sát khác nhau. Do đó để có thể thiết kế một hệ thống giám sát phù hợp với nhiều điều kiện quan sát khác nhau. Chúng ta sẽ thiết kế một hệ thống với các module xử lý linh hoạt, có thể tùy biến khi điều kiện quan sát thay đổi. Dưới đây chúng tôi sẽ trình bày một hệ thống phát hiện đối tượng chuyển động trên cở sở tích hợp các phương pháp khác nhau để từ đó bằng thực nghiệm chúng tôi rút ra các nhận xét, đánh giá cho các phương pháp giải quyết bài toán trong từng điều kiện, hoàn cảnh nhất định. Chương tiếp theo là phần trình bày hướng giải quyết bài toán của chúng tôi. CHƯƠNG 3 CÁC GIẢI PHÁP LỰA CHỌN CHO VẤN ĐỀ ĐẶT RA Với mỗi bài toán đã đề cập ở trên sẽ có các phương pháp giải quyết khác nhau, trong chương này chúng tôi sẽ áp dụng phương pháp phù hợp cho từng bài toán tương ứng. 3.1. Bài toán phát hiện đối tượng chuyển động Như đã trình bày các phương pháp được sử dụng trong module xử lý phát hiện vùng ảnh nổi có các ưu nhược điểm khác nhau [3] [4], mỗi phương pháp cho hiệu quả nhất định trong từng điều kiện quan sát. Do đó để đạt hiệu quả cao và tăng tính linh động cho khối phát hiện đối tượng chuyển động, chúng tôi sẽ thiết kế một khối xử lý tích hợp bao gồm các phương pháp xử lý khác nhau. Bài toán phát hiện đối tượng chuyển động sẽ được phân thành hai module xử lý tuần tự : Module phát hiện các vùng ảnh nổi và module xử lý các vùng ảnh nổi (Như hình vẽ ). PHÁT HIỆN CÁC VÙNG ẢNH NỔI (FOREGROUND DETECTION) XỬ LÝ CÁC VÙNG ẢNH NỔI (FOREGROUND PROCESSING) Các đối tượng chuyển động, các tính chất của chúng Các khung hình video Các phương pháp trừ ảnh nền Các phương pháp thống kê Các phương pháp chênh lệch tạm thời Hình 3-1: Phương pháp tích hợp giải quyết bài toán 3.1.1. Thiết kế các khối xử lý Mô hình tổng quan khối xử lý cho cả bài toán phát hiện đối tượng chuyển độngVết của đối tượng và các tính chất của chúng TIỀN XỬ LÝ MỨC ĐIỂM ẢNH (Loại nhiễu, Phát hiện bóng vật thể, Phát hiện ánh sáng thay đổi đột ngột) PHÂN TÍCH SỰ LIÊN KẾT CÁC KHỐI TIỀN XỬ LÝ MỨC VÙNG ẢNH NỔI (Kết hợp các vùng ảnh liên kết với nhau, Loại bỏ các vùng nhỏ không liên quan) ĐƯA RA TÍNH CHẤT CỦA ĐỐI TƯỢNG (Diện tích đối tượng, Tâm của khổi, Biểu đồ màu, Viền của dổi tượng) Vùng điểm ảnh nổi đã làm sạch Các khối đã được đánh dấu Các khối đã được lọc, làm sạch MÔ HÌNH ẢNH NỀN (Mô hình trừ ảnh nền, Mô hình chênh lệch tạm thời, Mô hình Gause) PHÁT HIỆN ĐIỂM ẢNH NỔI Các khung hình Video Khởi tạo và cập nhật Cập nhật Ảnh nền Biểu đồ điểm ảnh nổi và khung ảnh hiện tại 1 2 Hình 3-2: Mô hình chi tiết các khối xử lý 3.1.1.1. Khối phát hiện các vùng ảnh nổi Trong phần thiết kế xử lý cho khối phát hiện vùng ảnh nổi ta sử dụng một mô hình ảnh nền (Background Model) nhằm tích hợp các phương pháp trừ ảnh nền, mô hình chênh lệch tạm thời và mô hình thống kê Gausse nhằm giải quyết vấn đề phát hiện các vùng ảnh nổi. B. MÔ HÌNH ẢNH NỀN (Mô hình trừ ảnh nền, Mô hình chênh lệch tạm thời, Mô hình Gause) A. PHÁT HIỆN ĐIỂM ẢNH NỔI Các khung hình Video Khởi tạo và cập nhật Cập nhật Ảnh nền Biểu đồ điểm ảnh nổi và khung ảnh hiện tại Hình 3-3: Khối phát hiện vùng ảnh nổi Sơ đồ trên chỉ ra các khối xử lý nhằm phát hiện các vùng ảnh nổi. Trong đó mô hình trừ ảnh nền với các phương thức khởi tạo và cập nhật các khung hình ảnh nền nhằm đưa đầu vào: các ảnh nền cho quá trình xử lý phát hiện điểm ảnh nổi. Sau khi đã có các ảnh nền, thao tác xử lý bên trong khối phát hiện điểm ảnh nổi đơn giản chỉ là thực hiện việc trừ ảnh, lấy khung hình hiện tại so sánh với ảnh nền để đưa ra một biểu đồ các điểm ảnh nổi lên từ ảnh hiện tại. Biểu đồ điểm ảnh này với khung ảnh hiện tại sẽ là đầu vào của quá trình xử lý tiếp theo Trong sơ đồ xử lý này, khối xử lý mô hình ảnh nền được coi là khối xử lý quan trọng nhất. Khối này sẽ thực hiện tích hợp các phương pháp xử lý khác nhau như đã trình bày ở trên nhằm đưa ra một mô hình ảnh nền phục vụ cho bước xử lý tiếp theo. Cụ thể các mô hình được sử dụng trong khối xử lý này là: Tương hợp mô hình trừ ảnh nền Tương hợp mô hình pha trộn Gausse Mô hình chênh lệch tạm thời Các mô hình này sẽ được thực hiện đưới dạng các thư viện xử lý, tích hợp vào trong hệ thống. Khi gặp các điều kiện quan sát khác nhau, hệ thống có thể linh động sử dụng các thư viện xử lý này để đưa ra hiệu quả cao nhất. Dưới đây là một số cơ sở lý thuyết về các mô hình được đề cập ở trên. 3.1.1.1.1. Mô hình trừ ảnh nền thích hợp Thuật toán trừ ảnh nền thích hợp được thực hiện như sau: Gọi là cường độ của điểm ảnh tại vị trí x và tại thời điểm khung hình thứ n trong chuỗi các khung hình video . Gọi là giá trị cường độ của ảnh nền tương ứng cho vị trí x được ước lượng qua chuỗi hình ảnh từ đến . Theo phương pháp trừ ành thì điểm ảnh tại vị trí x trong khung hình video hiện tại thuộc lớp ảnh nổi khi nó thõa mãn : (3.1) Trong công thức này biểu diễn một ngưỡng được ước lượng qua các khung hình từ đến . Công thức trên được sử dụng để tạo ra bản đồ các vùng ảnh nổi lên. Biểu diễn các điểm ảnh bởi một ma trận trong đó các điểm ảnh nổi lên sẽ có giá trị là một và các điểm ảnh nền sẽ có giá trị là 0 cho mỗi điểm ảnh. Điểm ảnh nền ban đầu được khởi tạo với khung hình đầu tiên là . Do sự thay đổi của khung cảnh thu được nên khung ảnh nền và ngưỡng liên tục được cập nhật theo công thức sau: (3.2) (3.3) Trong đó ký hiệu BG là vùng ảnh nền và FG là vùng ảnh nổi lên trên.và thuộc khoảng [0.0, 1.0], là số điểm ảnh khác nhau từ khung hình được so sánh với ảnh nền. Ma trận minh họa cho thao tác trừ ảnh. một đại diện cho điểm ảnh nổi, 0 đại diện cho điểm ảnh nền Hình minh họa dưới đây mô tả cho kết quả thuật toán trừ ảnh này: Hình 3-4: Minh họa thuật toán trừ ảnh a là ảnh nền được lấy từ khung hình đầu tiên b là ảnh hiện tại và c là kết quả phép trừ ảnh nền 3.1.1.1.2. Mô hình của Stauffer và Grimson Stauffer và Grimson đã đưa ra phương pháp trộn các mô hình nền lại để giải quyết vấn đề ánh sáng thay đổi, các hành động lặp lại, sự lộn xộn từ khung cảnh thực tế. Mục đích của họ là chứng minh: một mô hình ảnh nền hợp nhất thì không thể xử lý được khi các khung hình liên tục trong một thời gian. Do đó, họ sử dụng phương pháp pha trộn phân tán Gauss để biểu diễn mỗi điểm ảnh trên một mô hình. Theo luận điểm đó, chúng ta thực hiện và tích hợp phương pháp này vào trong hệ thông giám sát. Trong mô hình này, giá trị của một điểm ảnh cá biệt( độ sáng của điểm ảnh hay màu của điểm ảnh) sẽ được coi là một “pixel process” và điểm ảnh trước đó, , được mô hình hoá bởi phương pháp pha trộn phân tán Gausian. Xác xuất của điểm ảnh hiện tại đang quan sát được tính bởi công thức: (3.4) Trong đó : Ước lượng trọng số thức tại thời gian t i,t là giá trị của : Là ma trận kết hợp của và là hàm mật độ xác xuất được xác định bởi công thức : (3.5) K phụ thuộc vào bộ nhớ và khả năng xử lý của máy tính do đó ma trận kết hợp được đưa ra để chỉ ra ảnh hưởng của khả năng tính toán: (3.6) Với giả thiết các màu red, green, blue là các thành phần độc lập cùng biến đổi. Thủ tục phát hiện các điểm ảnh nổi (Foreground pixel) Trước tiên các phân phối K Gause cho một điểm ảnh được khởi tạo với các giá trị có nghĩa, có trọng số thấp như các công thức ở trên: Khi có một diểm ảnh mới trong chuỗi khung hình được quan sát, để xác định kiểu của nó, vector RGB được kiểm tra lại với K Gause cho đến khi một truờng hợp đúng được tìm ra. Một trường hợp đúng được xác định như một giá trị của điểm ảnh với y (=2.5) là một chuẩn phân phối. Bước tiếp theo, xét các phân phối k tại thời điểm t: được cập nhật theo công thức: (3.7) Với là tỉ lệ học (learning rate) =1 khi đó là phân phối Gause và =0 khi nó là các phân phối khác. Sau khi bước trên kết thúc, các trọng số phân tán được chuẩn hóa và các tham số nhằm chính xác hoá Gause sẽ được cập nhật với các quan sát tiếp theo: (3.8) Trong đó: (3.9) Nếu không trường hợp nào đúng thì phân phối Gauss với xác suất thấp nhất sẽ được thay thế bởi xác xuất phân bố mới với giá trị là giá trị điểm ảnh mới được thêm vào. Trong bài toán phát hiện ra loại điểm ảnh ( Là điểm ảnh nổi – foreground pixel hay điểm ảnh nền – background pixel). Phân phối K Gauss được sắp xếp bởi giá trị /. Theo danh sách này các điểm ảnh thuộc ảnh nền sẽ tương ứng với xác xuất phân phối có trọng số lớn và ít biến đổi. Từ đó phân phối B sẽ được chọn như là một mô hình xác định ảnh nền theo công thức: (3.10) Trong đó: T là giá trị nhỏ nhất được tìm trong mô hình ảnh nền. 3.1.1.1.3. Mô hình chênh lệch tạm thời Phương pháp chênh lệch sử dụng sự so sánh mức điểm ảnh giữa hai hoặc ba khung hình liên tiếp trong một chuỗi các khung hình video liên tiếp để đưa ra vùng chuyển động của đối tượng. Phương pháp này là cách tiếp cận phù hợp với những khung cảnh hay thay đổi. Tuy nhiên, phương pháp này gặp thất bại trong việc liên kết các điểm ảnh nổi lên khi đối tượng chuyển động chậm hoặc ít thay đổi. Khi vùng điểm ảnh nổi lên ngừng chuyển động thì phương pháp chênh lệch tạm thời sẽ hoàn toàn thất bại và lúc đó đối tượng đó sẽ biến mất. Thực hiện phương pháp này với hai khung hình liên tiếp được chỉ ra dưới đây: Gọi là giá trị cường độ sáng của điểm ảnh tại vị trí (x) tại khung hình thứ n trong chuỗi các khung hình video liên tiếp I, n thuộc trong khoảng [0, 255]. Dựa vào sự chênh lệch tạm thời giữa hai khung hình một điểm ảnh được coi là chuyển động nếu thỏa mãn công thức sau | − | > (3.11) Do đó nếu một đối tượng có màu đồng nhất thì theo công thức trên phương pháp này sẽ bị thất bại khi xác định vùng đối tượng chuyển động. Ngưỡng được định nghĩa trước theo công thức dưới đây: (3.12) Trong đó BG là vùng ảnh nền, và FG là vùng ảnh nổi lên. thuộc khoảng [0,1] là tham số được đưa vào. 3.1.1.2. Khối xử lý các vùng ảnh nổi Đầu vào của khối xử lý này là đầu ra của khối xử lý thứ nhất: Phát hiện vùng ảnh nổi Đầu ra của khối xử lý này cũng là đầu ra của bài toán phát hiện đối tượng, đó là đưa ra được hình dạng các đối tượng chuyển động và các tính chất của chúng như vị trí, diện tích, hình bao, màu, … Hình sau đây minh họa cho đầu vào, đầu ra của quá trình xử lý các vùng ảnh nổi Hình 3-5: Minh họa quá trình xử lý các vùng ảnh nổi Là khung ảnh nền Là khung hình hiện tại Là đầu ra của quá trình phát hiện các vùng ảnh nổi Là đầu ra của quá trình xử lý các vùng ảnh nổi (làm sạch, loại bỏ nhiễu, đưa ra tính chất của đối tượng) Như đã trình bày ở trên, các vùng ảnh nổi chứa các đối tượng chuyển động bao gồm rất nhiều nhiễu, các vùng vật thể không liên quan đến đối tượng chuyển động. Nhiệm vụ chính của khối xử lý này là làm sạch, loại bỏ các nhiễu, các vùng không liên quan đến đối tượng chuyển động. Các bước xử lý được thể hiện ở sơ đồ dưới đây. Biểu đồ các vùng ảnh nổi và khung hình hiện tại TIỀN XỬ LÝ MỨC ĐIỂM ẢNH (Loại nhiễu, Phát hiện bóng vật thể, Phát hiện ánh sáng thay đổi đột ngột) Vết của đối tượng và các tính chất của chúng Các khối đã được lọc, làm sạch Các khối đã được đánh dấu Vùng điểm ảnh nổi đã làm sạch ĐƯA RA TÍNH CHẤT CỦA ĐỐI TƯỢNG (Diện tích đối tượng, Tâm của khổi, Biểu đồ màu, Viền của dổi tượng) TIỀN XỬ LÝ MỨC VÙNG ẢNH NỔI (Kết hợp các vùng ảnh liên kết với nhau, Loại bỏ các vùng nhỏ không liên quan) PHÂN TÍCH SỰ LIÊN KẾT CÁC KHỐI Hình 3-6: Chi tiết khối xử lý vùng ảnh nổi 3.1.1.2.1. Tiền xử lý mức điểm ảnh Như đã trình bày ở trên có nhiều yếu tố gây ra nhiễu. Áp dụng các phương pháp ăn mòn, giãn nở vào các biểu đồ các điểm ảnh nổi lên trên nhằm loại bỏ các nhiễu, chính là bước xử lý đầu tiên trong quá trình này. Mục đích của chúng ta đó là loại bỏ đi các điểm ảnh nổi được coi là nhiễu không phù hợp với các vùng ảnh nổi thực sự (NFN – non-foreground noise) và loại bỏ đi các điểm nhiễu nền (non-background noise, NBN) gần với vùng vật thể vùng thực sự là các điểm ảnh nổi. Thực hiện phương pháp ăn mòn bằng cách bào đi các điểm ảnh trên một đường biên bao quanh vùng điểm ảnh nổi còn ngược lại thực hiện giãn nở là thực hiện mở rộng đương biên của các vùng ảnh nổi bằng các điểm ảnh nổi mới. Các vấn đề liên quan đến bóng và loại bỏ nhiễu khi ánh sáng thay đổi Hầu hết các thuật toán phát hiện vùng ảnh nổi đều bị ảnh hưởng bởi cả hai yếu tố bóng của đối tượng và sự thay đổi ánh sáng [4]. Đó là những nguyên nhân gây ra nhập nhằng trong việc phân đoạn các đối tượng là các vùng ảnh nổi. Bước xử lý này có ảnh hưởng lớn đến các bài toán tiếp theo như phân loại đối tượng và theo vết đối tượng nên bước xử lý bóng của vật thể. Nhiễu do thay đổi ánh sáng được đánh giá là rất quan trọng trong hệ thống xử lý và theo dõi đối tượng thông minh. Trong phần này ta sử dụng một phương pháp xử lý phát hiện bóng dựa trên một nguyên lý là các điểm ảnh trong vùng là bóng của vật thể sẽ có vector màu RGB cùng hướng với vector màu của các điểm ảnh nền tương ứng với độ chênh lệch rất nhỏ, độ sáng của điểm ảnh là bóng luôn nhỏ hơn độ sáng của điểm ảnh nền tương ứng. Giả sử biểu diễn màu của điểm ảnh ở khung hinh tại vị trí x, và biểu diện màu RGB của điểm ảnh nền tương ứng. là vector có gốc là 0(0,0,0) trong hệ tọa độ màu RGB và là vector tương ứng cho điểm ảnh Gọi dx được tính theo công thức : (3.13) Điểm ảnh được coi là bóng của đối tượng khi nó thỏa mãn công thức sau: (3.14) Và (3.15) Ở đây là một ngưỡng được xác định trước. dx được sử dụng để kiểm tra liệu và có cùng hướng hay không. Nếu dx thỏa mãn công thức trên thì khi đó ta sẽ suy ra chúng cùng một hướng với sự ch

Các file đính kèm theo tài liệu này:

NguyenthiLanHuong_K47CA_CNPM.doc