Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC THUẬT NGỮ VIẾT TẮT vii

DANH MỤC CÁC KÝ HIỆU ix

DANH MỤC CÁC HÌNH VẼ x

DANH MỤC CÁC BẢNG xii

MỞ ĐẦU 1

1. Yêu cầu kiểm soát lưu lượng mạng Internet 1

2. Lưu lượng mạng bất thường và nhu cầu phát hiện 3

a. Khái niệm về lưu lượng mạng bất thường 3

b. Nguyên nhân gây ra lưu lượng mạng bất thường 4

c. Vấn đề phân tích và phát hiện lưu lượng mạng bất thường 6

d. Phạm vi luận án 7

3. Những đóng góp chính của luận án 8

4. Cấu trúc của luận án 10

CHƢƠNG 1 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 11

1.1. Thu thập lưu lượng mạng Internet 11

1.1.1. Các đặc tính của lưu lượng mạng 11

1.1.2. Các phương pháp thu thập lưu lượng Internet 14

1.1.2.1. Thu thập mức gói tin 14

1.1.2.2. Thu thập mức luồng tin 15

1.2. Tổng quan về các phương pháp, mô hình phân tích và phát hiện lưu lượng bất

thường 15

1.2.1. Nhóm dựa vào thống kê 15

1.2.2. Nhóm dựa vào khai phá dữ liệu và học máy 17

1.2.3. Nhóm dựa vào tri thức 20

1.2.4. Tóm tắt ưu nhược điểm của các nhóm phương pháp 20

1.3. Phương pháp phân tích và phát hiện lưu lượng bất thường dựa trên PCA 22

1.3.1. Cơ sở của phương pháp PCA 22

144 trang | Chia sẻ: honganh20 | Lượt xem: 814 | Lượt tải: 3Free

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

cách với tất cả các thành phần chính (từ 1 đến p). Để tính khoảng cách có thể không cần toàn bộ PC (ví dụ: chỉ cần dùng PC thứ yếu). Vì vậy công thức (2.12) trở thành: q c i i i r d w y   (2.13) 49 Trong đó: 1 ≤ r ≤ q ≤ p Công thức (2.13) là thuật toán tính khoảng cách tổng quát được đề xuất trong luận án. r và q được chọn một cách linh hoạt tùy vào trường hợp trong dPCA: - Nếu tính khoảng cách với tất cả PC, ta có r=1 và q=p như công thức (2.12). - Nếu tính cho m PC đầu (PC chủ yếu), công thức (2.13) trở thành: 1 q c i i i d w y   (2.14) Trong đó: q= m < p - Nếu tính cho k PC cuối (PC thứ yếu), công thức (2.13) trở thành: p c i i i r d w y   (2.15) Trong đó: 1< r <p ; q=p ; k=( p-r+1) - Bên cạnh đó i, r, q có thể thay đổi với bất kỳ PC nào trong khoảng 1 đến p, ví dụ tính khoảng cách từ r đến q cho các PC nằm giữa 1 đến p. Trong trường hợp muốn phát hiện bất thường trên một PC đơn lẻ, ta có i=r=q. Công thức tổng quát nêu trên được xây dựng từ công thức Minkowski đã được luận án bổ sung thêm trọng số wi. Trong miền con PCA, nếu chọn tham số thích hợp, ta sẽ thu được những công thức tính khoảng cách Euclidean, Euclidean trọng số, Mahalanobis. Ngoài ra, với những tham số khác, luận án sẽ chứng tỏ rằng có thể áp dụng để phát hiện bất thường trong miền con PCA với hiệu quả tương đương. Trong phần sau đây, luận án sẽ chỉ ra các công thức tính khoảng cách với phương pháp PCA trong nhiều công trình nghiên cứu trước đây là các trường hợp riêng của công thức tính khoảng cách (2.13). 2.4.1. So sánh cách tính khoảng cách trong các phương pháp PCA điển hình trước đây với công thức đề xuất Trong phần này, luận án so sánh cách tính khoảng cách của các phương pháp PCA của những công trình điển hình đã có bao gồm: phương pháp phân tích phần dư, phương pháp dựa trên thống kê T2. 2.4.1.1. hương pháp ph n tích phần dư 50 Như đã trình bày trong chương 1 (mục 1.3.2.1), phương pháp phân tích phần dư của Lakhina trong các công trình điển hình [33, 36] tập trung vào việc phân tích độ lớn của ||z(A)|| 2 để phát hiện bất thường. Theo Wang [72, 73], thực chất của phương pháp này là tính bình phương khoảng cách Eulidean giữa z và z(N) như sau: 2 ( ) ( ) ( )( ) ( ) T A N Nd z z z z z    Theo [55] khi chuyển sang miền con PCA, công thức trên trở thành: ) 2 2 ( A p i i r yd z    Do đó, xét trong miền con PCA, thực chất khoảng cách của phương pháp phân tích phần dư của những nghiên cứu đã có là phép tính bình phương khoảng cách Euclidean áp dụng với các PC thứ yếu. Như vậy công thức sử dụng trong phương pháp phân tích phần dư của các công trình này tương đương với trường hợp riêng của công thức (2.13) do luận án đề xuất áp dụng c=2 và wi=1. Điểm khác biệt là thay vì chuyển đổi ngược các PC của vùng bình thường S(N) để thu được z(N) và thực hiện tính d, luận án tính trực tiếp d trong miền con PCA. 2.4.1.2. hương pháp sử dụng thống kê T2 Như đã trình bày trong chương 1 (mục 1.3.2.2), công thức tính thống kê T2 trong các nghiên cứu của Lakhina và Shyu [34, 36, 58] cũng là công thức tính khoảng cách Mahalanobis. Trong miền con PCA, công thức tính khoảng cách được áp dụng là: 22 2 2 1 2 1 1 2 ... p pi i i p yy y y d          (2.16) Như vậy công thức sử dụng tính thống kê T2 trong các công trình đã khảo sát là trường hợp riêng của công thức (2.13) do luận án đề xuất áp dụng với tham số c=2, wi=1/λi. 2.5. Phƣơng pháp dPCA [CT7, CT8] Luận án đề xuất phương pháp dPCA (Distance-based anomaly detection method in PCA subspace) là phương pháp phân tích và phát hiện bất thường dựa trên khoảng 51 cách trong miền con PCA. Phương pháp dPCA sử dụng công thức tính khoảng cách (2.13) đã được trình bày ở trên. Việc áp dụng các tham số nào trong dPCA được trình bày ở phần tiếp theo. 2.5.1. Lựa chọn các tham số để tính khoảng cách trong dPCA Bằng cách thay đổi các trọng số wi và tham số c, ta có thể thiết lập linh hoạt các tham số cho công thức tính khoảng cách (2.13). Chọn trọng số thích hợp có thể làm giảm sự khác biệt về mức độ biến thiên theo phương sai của mỗi PC trong khoảng cách d. Về lý thuyết có thể thiết lập những tham số khác nhau trong công thức (2.13). Nhưng hiện tại nghiên cứu sinh mới chỉ có thể áp dụng c=2 và c=1 cùng với trọng số wi tương ứng. Những khoảng cách đề xuất với c=1 là đóng góp mới của luận án trong dPCA. Trị riêng i đóng vai trò là phương sai tương ứng với PC thứ i trong miền con PCA. Giá trị của các yi sẽ quyết định quan sát đó là bất thường hay không. Giá trị yi của một PC với trị riêng nhỏ có thể coi là bất thường tại PC đó nhưng cũng có thể chỉ hơn hoặc bằng giá trị yj bình thường (không phải bất thường) của PC có j lớn hơn. Khi lấy tổng của |yi| và |yj| trong công thức tính khoảng cách, giá trị bất thường trong yi bị mất đi. Vì vậy có thể dùng wi tính theo i để làm giảm sự khác biệt về độ lớn giữa các yi tại những PC có sự chênh lệch đáng kể về trị riêng. Ngoài ra, có thể phân tích giá trị của từng yi để phát hiện bất thường trong mỗi PC đơn lẻ (trường hợp này khoảng cách chỉ tính cho một PC). Khi thay đổi wi trong công thức (2.13), các khoảng cách với wi=1 được gọi là khoảng cách không trọng số. Khi wi 1 là khoảng cách có trọng số.  Đặt c=2, công thức (2.13) trở thành: 2 q i i i r d w y   (2.17) - Đặt wi=1, công thức (2.17) trở thành 52 2 2 2 2 1 ... q i r r q i r d y y y y       (2.18) Đây chính là công thức tính bình phương khoảng cách Euclidean trong miền con PCA với (q-r+1) PC. Công thức này tương đương với công thức được áp dụng trong phương pháp phân tích phần dư của các nghiên cứu đã khảo sát trong chương 1 (mục 1.3.2.1). - Trường hợp trọng số wi 1: Về lý thuyết có thể chọn nhiều giá trị wi khác nhau nhưng cách thường dùng là chuẩn hóa theo phương sai. Do trị riêng λi đóng vai trò là phương sai trong miền con PCA nên có thể đặt wi=1/λi . Như vậy: 22 2 2 2 2 ... q qi r i r i r q yy y y d          (2.19) Đây chính là công thức tính bình phương khoảng cách Euclidean trọng số và đồng thời là bình phương khoảng cách Mahalanobis trong miền con PCA. Điều này bởi vì PCA đã làm mất đi tính tương quan giữa các thành phần chính. Công thức (2.19) là công thức đã được áp dụng trong các nghiên cứu đã khảo sát trong chương 1 (mục 1.3.2.2).  Đặt c=1, công thức (2.13) trở thành: q i i i r d w y   (2.20) Những công thức với c=1 là đóng góp mới của luận án so với những công trình dựa trên phương pháp PCA đã có. - Nếu wi =1 công thức (2.20) trở thành: 1 ... q i r r q i r d y y y y       (2.21) Đây chính là công thức tính khoảng cách Manhattan trong miền con PCA. - Trường hợp trọng số wi 1: 53 Do trị riêng đóng vai trò là phương sai trong miền con PCA nên có thể đặt trọng số của |yi| bằng căn bậc hai của trị riêng tương ứng. Như vậy đặt 1/i iw  , công thức (2.20) trở thành: 2 2 ... q qi r i r i r q yy y y d          (2.22)  Nhận xét: - wi=1 phù hợp khi tính d với các thành phần chính khi sự chênh lệch giữa các trị riêng không lớn, đặc biệt là những PC thứ yếu. - wi 1 phù hợp khi tính d với các thành phần chính khi có sự chênh lệch đáng kể giữa các trị riêng. Sự chênh lệch thường nằm ở những PC chủ yếu hoặc khi dùng tất cả PC để tính khoảng cách. - Độ phức tạp của thuật toán tính khoảng cách: o Khi c=2 độ phức tạp là O(kn2) với k là số C được sử dụng, n là số lượng quan sát được tính khoảng cách. o Khi c=1 độ phức tạp là O(kn). o Như vậy, khi c=1, độ phức tạp của thuật toán tính khoảng cách giảm đi so với c=2. Do đó có thể sử dụng c=1 để giảm độ phức tạp trong tính khoảng cách của dPCA so với cách tính trong các công trình nghiên cứu điển hình dựa trên CA trước đ y. Phần tiếp theo đề xuất phương pháp dPCA hoạt động chế độ phân cấp. 2.5.2. Sự phân cấp của dPCA Hình 2.3 mô tả chế độ hoạt động của phương pháp dPCA. Trong đó dPCA hoạt động theo 2 cấp:  Cấp 1: dPCA sử dụng PC thứ yếu để tính khoảng cách. Trong trường hợp cần thiết có thể sử dụng tất cả PC và bỏ qua cấp 2. Phương pháp này cần 1 mức ngưỡng cho khoảng cách được gọi là dPCA1T (dPCA with 1 threshold). Khi sử dụng tất cả PC để tính khoảng cách d, có thể phát hiện được bất thường có đột biến xuất hiện ở những PC khác nhau. Tuy nhiên sử dụng tất cả PC để tính 54 khoảng cách với dPCA1T chỉ được áp dụng khi số thuộc tính p ban đầu không quá lớn vì sẽ tốn nhiều tài nguyên của hệ thống và nên đặt trọng số wi 1. Cấp 2 dPCA PC chủ yếu Cấp 1 Tất cả PC Chế độ hoạt động PC thứ yếu Phân tích từng PC Hình 2.3. Phân cấp trong phương pháp dPCA  Cấp 2: Cấp 2 có các chế độ hoạt động - Hoạt động song song với cấp 1: Chế độ song song sử dụng PC chủ yếu để tính khoảng cách đồng thời với khoảng cách dùng PC thứ yếu tại cấp 1. - Hoạt động dự phòng cho cấp 1: Chế độ dự phòng chỉ sử dụng PC chủ yếu để tính khoảng cách với những dữ liệu đã được phát hiện là bình thường tại cấp 1 để tìm những bất thường mà cấp 1 có thể bỏ sót. Ưu điểm của phương pháp này là không cần tính đồng thời tất cả dữ liệu với cả 2 cấp do đó giảm được số lượng dữ liệu mà cấp 2 cần xử lý. Nhược điểm là phải chờ sau khi cấp 1 xử lý xong, dữ liệu coi là bình thường mới chuyển đến cấp 2. - Xét từng PC để phát hiện bất thường nếu cần thiết: phương pháp này khó phân tích đồng thời nhiều PC và phải thiết lập mức ngưỡng cho từng PC. Khi sử dụng cả PC thứ yếu và PC chủ yếu để tính khoảng cách, mỗi khoảng cách cần có một mức ngưỡng riêng nên phương pháp này được luận án đặt tên là dPCA2T (dPCA with 2 thresholds). dPCA2T có thể phát hiện thêm bất thường với khoảng cách sử dụng PC chủ yếu nhưng đồng thời cũng làm tăng tỷ lệ cảnh báo sai.  Số lượng PC sử dụng trong khoảng cách tại cấp 1 và cấp 2: Qua những nghiên cứu đã khảo sát cùng với sự đánh giá dựa trên dữ liệu thực tế, nghiên cứu sinh thấy rằng số lượng các PC chủ yếu và thứ yếu thường được xác định theo thực nghiệm. Thử nghiệm cho thấy PC thứ yếu tại cấp 1 có kết quả phát hiện tốt 55 nếu tổng trị riêng các PC này trong khoảng 5% đến 15% của tổng tất cả trị riêng (ứng với k =3 đến k=5 PC cuối cùng). Cấp 2 có thể linh hoạt lựa chọn số lượng PC tùy theo điều kiện thực tế. Trong luận án số PC chủ yếu tại cấp 2 được lựa chọn trong khoảng 50% tổng tất cả trị riêng (theo 58, 59]) tương ứng với k ≤ 4 PC đầu tiên. Khi cần thiết phát hiện bất thường với nhiều PC hơn thì tăng số PC chủ yếu lên. Luận án đánh giá một đặc điểm sau đây của phương pháp 2 mức ngưỡng trong đó sử dụng cả khoảng cách của PC chủ yếu và thứ yếu mà những công trình trước đó 58, 34, 36, 14, 54, 10] chưa đề cập đến: Do phát hiện c ng l c bất thường ở cả C chủ yếu v thứ yếu, phương pháp n y cho kết quả phát hiện bất thường (T R) cao hơn một chút so với chỉ sử dụng PC thứ yếu. Tuy nhiên phương pháp 2 mức ngưỡng thường cũng trả giá bằng t lệ cảnh báo sai (F R) cao hơn v tốn nhiều t i nguyên hơn. Trong những hệ thống thực tế, thông thường số lượng dữ liệu bình thường chiếm đa số so với bất thường. Vì vậy nếu tỷ lệ cảnh báo sai (FPR) tăng lên một chút cũng làm cho số lượng dữ liệu bình thường phát hiện sai là bất thường tăng lên nhiều. Ví dụ: dữ liệu bình thường chiếm 90%, bất thường chiếm 10%, như vậy chỉ 1% dữ liệu bình thường phát hiện nhầm là bất thường cũng gây ra số lượng lớn cảnh báo sai. Do đó tính khoảng cách với cả PC chủ yếu và thứ yếu liên tục như trong các công trình đã khảo sát có thể vừa tốn năng lực xử lý, tài nguyên của hệ thống vừa làm tăng FPR không cần thiết. Khi trạng thái bình thường trong profile thiết lập tốt, phần lớn những bất thường trong PC chủ yếu đã được phát hiện với PC thứ yếu tại cấp 1. Trong trường hợp số lượng bất thường phát hiện được với cấp 2 không hiệu quả vì cấp 1 đã hoạt động tốt thì tùy theo điều kiện thực tế có thể giảm tần suất kiểm tra tại cấp 2 hoặc tắt h n cấp 2 nhằm giảm tỷ lệ cảnh báo sai (FPR) trong điều kiện dữ liệu bình thường chiếm đa số và giảm mức độ tính toán. 2.5.3. Thiết lập mức ngưỡng Thiết lập mức ngưỡng là một vấn đề khó trong các phương pháp phát hiện lưu lượng bất thường nói chung. Mức ngưỡng là tham số rất “nhạy cảm” giữa tỷ lệ phát 56 hiện bất thường chính xác (đúng) và tỷ lệ cảnh báo sai (phát hiện nhầm dữ liệu bình thường là bất thường). Một phương pháp là giả định mô hình tuân theo phân bố thống kê biết trước và ước lượng tỷ lệ sai số α từ đó tìm mức ngưỡng từ xác suất của (1- α). Một số phân bố thống kê có mức ngưỡng tra được ở dạng bảng (ví dụ: phân bố F, phân bố Chi-square 2) [58, 34, 36]. Trong lĩnh vực phát hiện bất thường, α đóng vai trò là tỷ lệ cảnh báo sai ước lượng. Phương pháp thứ hai là ước lượng mức ngưỡng dựa trên thực nghiệm. Trong luận án, việc thiết lập mức ngưỡng dựa trên hàm phân bố tích lũy thực nghiệm của d. Trong xác suất thống kê, hàm phân bố tích luỹ (Cumulative distribution function - CDF) được định nghĩa như sau [66]: F(t) = P(d ≤ dN) (2.23) nghĩa là xác suất để khoảng cách d nhỏ hơn hoặc bằng mức ngưỡng dN. Hàm phân bố tích lũy thực nghiệm (Empirical cumulative distribution function - ECDF) là hàm ước tính dựa trên dữ liệu thực nghiệm của hàm phân bố tích luỹ [67]: 1 1 ( ) ( ) n n i N i F t I d d n    (2.24) Trong đó: n là tổng số quan sát trong tập dữ liệu, I là hàm chỉ thị, di là khoảng cách của quan sát thứ i: 1, khi ( ) 0,khi i N i N i N d d I d d d d         (2.25) ECDF không tra bảng như phân bố thống kê F hoặc 2 mà xác định dựa trên thực nghiệm. Từ α là tỷ lệ cảnh báo sai ước lượng, ta có thể tính khoảng cách với mức ngưỡng dN tương ứng với (1- α) của hàm phân bố tích lũy thực nghiệm. Ví dụ: với α = 5%, mức ngưỡng lựa chọn tương ứng với 95% của ECDF. Tùy thuộc áp dụng dPCA1T hoặc dPCA2T, sẽ cần thiết lập một hoặc hai mức ngưỡng với ECDF. 2.5.4. Quá trình tạo profile và phát hiện bất thường trong dPCA 57 Để tính được khoảng cách d cần thiết phải tạo profile từ tập dữ liệu mẫu (gọi tắt là tập mẫu) dựa trên điều kiện bình thường của lưu lượng mạng. Từ tập hợp các giá trị của d được với tập dữ liệu mẫu sạch (không chứa bất thường) sẽ thiết lập được giá trị ngưỡng dN để phát hiện bất thường.  Tạo profile Hình 2.4 mô tả quá trình tạo profile trong phương pháp dPCA. Quá trình tạo profile được thực hiện như sau: - Lựa chọn p thuộc tính đầu vào phù hợp: X1, X2, Xp. Các thuộc tính của n điểm (vector) tạo thành ma trận X (n hàng, p cột). - Tạo tập dữ liệu mẫu: Tập dữ liệu mẫu được tạo dựa trên trạng thái bình thường của lưu lượng mạng. Vì vậy tập dữ liệu mẫu cần sạch hay không chứa bất thường (hay ngoại lai). Việc làm sạch mẫu (khử ngoại lai) được trình bày trong chương 3 của luận án. - Chuẩn hóa dữ liệu đầu vào: Chuẩn hóa thống kê với giá trị trung bình và độ lệch chuẩn của mỗi cột trong X. - Tính ma trận tương quan, từ đó tính các cặp vectơ riêng, trị riêng, các thành phần chính. Cũng có thể áp dụng phương pháp SVD để thực hiện bước này. - Sắp xếp các thành phần chính theo thứ tự giảm dần của trị riêng. - Tính khoảng cách của mỗi điểm theo dPCA1T hoặc dPCA2T. - Xây dựng hàm phân bố tích lũy thực nghiệm dựa trên khoảng cách tính được và xác suất. Lựa chọn mức ngưỡng theo sai số hoặc tỷ lệ cảnh báo sai ước lượng. Cũng có thể áp dụng phân bố thống kê T2 hoặc 2 để tính mức ngưỡng trong một số trường hợp. 58 Tập mẫuập ẫu PCA Profile Vectơ riêng Trị riêng Trung bình Độ lệch chuẩn Mức ngưỡng rofile ectơ riêng rị riêng rung bình ộ lệch chuẩn ức ngưỡng Chuẩn hóahuẩn hóa Tính khoảng cáchính khoảng cách Hình 2.4. Tạo profile trong dPCA  Phát hiện bất thường Sau khi xây dựng được profile, những quan sát mới được chuyển vào miền con PCA và tính khoảng cách để phát hiện bất thường. Quá trình này mô tả trên hình 2.5 và được thực hiện như sau: - Chuẩn hóa dữ liệu mỗi điểm dữ liệu mới với giá trị trung bình và độ lệch chuẩn lấy từ profile. - Tính giá trị thành phần chính theo các vectơ riêng trong profile. - Tính khoảng cách theo dPCA1T hoặc dPCA2T. So sánh giá trị khoảng cách tính được với giá trị ngưỡng. 59 Quan sát mớiuan sát ớiProfile Vectơ riêng Trị riêng Trung bình Độ lệch chuẩn Mức ngưỡng rofile ectơ riêng rị riêng rung bình ộ lệch chuẩn ức ngưỡng Tính thành phần chính ính thành phần chính Tính khoảng cáchính khoảng cách So sánh ngƣỡngSo sánh ng ỡng Phát hiện, cảnh báohát hiện, cảnh báo Chuẩn hóahuẩn hóa Hình 2.5. Phát hiện bất thường trong dPCA Với dPCA1T: Một điểm dữ liệu hoặc quan sát được coi là bất thường nếu: p c i i i r Ndwd y    (2.26) Trong đó: (1 ≤ r ≤ p) Ngược lại điểm đó được coi là bình thường. Với dPCA2T: Một điểm dữ liệu được coi là bất thường nếu: 1 1 1 2 2OR ( ) ( ) pm c c i i N i r Ni i i d d d dw y w y        với m < r (2.27) Ngược lại để một điểm dữ liệu là bình thường thì: 1 1 1 2 2AN( ) (D ) pm c c i i i i i r N N i d d d dw y w y        (2.28) 60 Trong đó: d1 và d2 là khoảng cách tương ứng tính với PC chủ yếu và thứ yếu; dN1 và dN2 là mức ngưỡng tương ứng của d1 và d2; OR và AND là các phép tính logic. 2.6. Thử nghiệm, đánh giá kết quả Quá trình thử nghiệm có mục tiêu đánh giá khả năng phát hiện của phương pháp dPCA. Các thông số đánh giá được trình bày trong phần tiếp theo. Quá trình thử nghiệm được thực hiện trên phần mềm Matlab. Như đã trình bày trong những phần trên, để mô hình hóa trạng thái bình thường của hệ thống cần có tập dữ liệu mẫu và tạo được profile; từ đó so sánh những quan sát mới với mức ngưỡng để phát hiện bất thường. Phần này đánh giá hiệu quả của phương pháp dPCA với các tham số khác nhau, so sánh với phương pháp đã có. Công thức được áp dụng tính khoảng cách là (2.13) với các bộ tham số khác nhau. Trường hợp c=2, wi=1, phương pháp dPCA1T tương tự phương pháp phân tích phần dư đã có. Trường hợp c=2, wi = 1/i, phương pháp dPCA1T tương tự công thức đã được sử dụng trong các công trình đã có sử dụng khoảng cách Mahalanobis. Các công trình này sử dụng 2 mức ngưỡng tính khoảng cách với cả thành phần chính chủ yếu và thứ yếu (2 mức ngưỡng). Điểm khác biệt của luận án với những công trình này là luận án đánh giá cả trường hợp chỉ sử dụng các thành phần chính thứ yếu trong tính khoảng cách (dPCA1T) với c=2, wi = 1/i nhưng vẫn đạt kết quả phát hiện chấp nhận được [CT5, CT6, CT7]. Trường hợp áp dụng cả thành phần chính chủ yếu và thứ yếu (dPCA2T) để phát hiện bất thường luận án có thể sử dụng các tham số linh hoạt hơn thay vì luôn sử dụng c=2. Trường hợp c=1 cùng với trọng số wi là đề xuất mới của dPCA. Theo phân tích ở mục 2.5.1, trọng số wi được lựa chọn là wi=1 hoặc 1/i iw  . 2.6.1. Các sự kiện và thông số đánh giá độ chính xác Độ chính xác là thông số quan trọng nhất của hệ thống phát hiện bất thường. Độ chính xác được tính dựa trên tỷ lệ phát hiện đúng và sai của dữ liệu được kiểm tra. Khi hệ thống phát hiện một quan sát là bất thường sẽ đưa ra cảnh báo, ngược lại là bình thường sẽ không cảnh báo. Các sự kiện và thông số đánh giá độ chính xác bao gồm: 61  Cảnh báo đúng (True Positive - TP): Số lượng quan sát bất thường được phát hiện chính xác.  Cảnh báo sai (False Positive - FP): Số lượng quan sát bị phát hiện nhầm là bất thường nhưng thực tế lại là bình thường.  Không cảnh báo đúng (True Negative - TN): Số lượng quan sát bình thường được phát hiện chính xác.  Không cảnh báo sai (False Negative - FN): Số lượng quan sát được phát hiện là bình thường nhưng thực tế lại là bất thường.  TPR (True Positive Rate), còn gọi là Recall: Tỷ lệ giữa số quan sát bất thường phát hiện chính xác và tổng số quan sát bất thường thử nghiệm. TP TPR TP FN   (2.29) Trong đó: Tổng số quan sát bất thường thực tế = TP + FN. TPR t lệ thuận với TP theo công thức (2.29) vì số lượng quan sát bất thường phát hiện đ ng c ng nhiều thì TPR càng cao.  FPR (False Positive Rate): Tỷ lệ giữa số quan sát bình thường bị phát hiện sai là bất thường và tổng số quan sát bình thường thử nghiệm. FP FPR TN FP   (2.30) Trong đó: Tổng số quan sát bình thường thực tế = TN + FP. FPR t lệ nghịch với TN theo công thức (2.30) vì số lượng quan sát bình thường phát hiện đ ng c ng nhiều thì t lệ cảnh báo sai FPR càng giảm. Những thông số thường dùng để đánh giá độ chính xác là TPR, FPR [5, 58, 72]. Ngoài ra, trong một số phần thử nghiệm, luận án sử dụng thêm biểu đồ biểu thị số lượng quan sát bất thường phát hiện đúng (TP ) và số lượng quan sát bình thường phát hiện đúng (TN) để minh họa, làm rõ thêm cho tỷ lệ TPR và FPR trình bày ở dạng bảng. 2.6.2. Đồ thị ROC 62 Đồ thị ROC (Receiver Operating Curve) (hình 2.6) [5] dùng để biểu diễn khoảng cách theo mối quan hệ giữa tỷ lệ TPR và FPR. ROC hay được sử dụng để đánh giá khả năng phát hiện bất thường của phương pháp đề xuất [5, 6, 30, 58, 59, 77, 72, 73]. Hình dạng của đường cong ROC sẽ cho biết dự đoán trong trường hợp khảo sát có khả năng đạt hiệu quả tốt hay không. Hình 2.6. Đồ thị ROC - Đường cong càng đi dọc theo biên trái trục tung và rồi đi dọc theo biên phía trên nằm ngang của không gian vẽ đồ thị chứng tỏ kết quả dự đoán càng chính xác. Ví dụ trên hình 2.6 biểu diễn đồ thị của 3 đường cong thì đường cong tốt nhất là C rồi đến B và A. Độ chính xác tối ưu (Perfect accuracy) đạt được nếu TPR=100% và FPR=0%. - Đường cong càng tiến tới thành đường chéo 45 độ (đường nét đứt) thì độ chính xác của dự đoán càng kém. 2.6.3. Lựa chọn tập dữ liệu thử nghiệm Trong thử nghiệm, việc tổng hợp dữ liệu lưu lượng bắt được từ những công cụ như tcpdump, flowdump thành các thuộc tính cho từng kết nối, kiểm tra và đánh nhãn mỗi kết nối là bình thường hay bất thường là rất khó. Một số nghiên cứu tự tạo ra tập dữ liệu 63 mô phỏng thường không được đánh nhãn và số lượng hoặc tỷ lệ giữa các loại kết nối (connection) hoặc luồng (flow) bình thường và bất thường quá chênh lệch nên rất khó đánh giá hiệu suất phát hiện của phương pháp đề xuất. Mặc khác không có gì chắc chắn là tập dữ liệu mô phỏng tạo ra được đánh giá cao hơn tập dữ liệu được chấp nhận và sử dụng rộng rãi như tập dữ liệu KDD [69]. Vì vậy giải pháp thường được sử dụng trong hầu hết các công trình nghiên cứu tới nay là đánh giá phương pháp và mô hình thử nghiệm trên tập dữ liệu có sẵn. Cụ thể là các tập dữ liệu KDDCUP99 [69] và đặc biệt là tập Kyoto Honeypot [60, 61]. Kyoto Honeypot là tập dữ liệu thật thu được từ mạng Internet, có một lượng dữ liệu khá lớn thu trong một vài năm. Việc lựa chọn một tập dữ liệu đã đánh nhãn và biết đến rộng rãi trong khoa học là cần thiết. Với những lý do trên, luận án lựa chọn giải pháp sử dụng tập dữ liệu có sẵn khi thử nghiệm. Tập dữ liệu Kyoto Honeypot là tập dữ liệu thực tế thu được tại hệ thống “bẫy” tổ ong (Honeypot) của đại học Kyoto (Nhật Bản) [60, 61]. Honeypot được sử dụng với mục đích đánh lừa tin tặc tấn công vào hệ thống này để thu thập dữ liệu cho việc phân tích dấu vết. Lưu lượng thu được từ hệ thống Honeypot có điểm đặc biệt là phần lớn các bất thường có nguồn gốc từ Internet. Các thuộc tính chủ yếu là những thuộc tính lưu lượng của lớp mạng (network layer) và lớp giao vận (transport layer). Những thuộc tính này tương tự như những thuộc tính lưu lượng trong KDDCUP99. Số thuộc tính tương đương với KDDCUP 99 là 14. Ngoài ra, Honeypot bổ sung thêm các thuộc tính từ các ứng dụng (như chương trình phát hiện mã độc) để có thể phát hiện bất thường tại lớp ứng dụng. Chi tiết về các thuộc tính của Kyoto Honeypot được mô tả trong [60]. Kyoto Honeypot có ưu điểm là tập dữ liệu thực nên không giống như những tập dữ liệu được tạo ra trong môi trường mô phỏng (synthetic dataset), dữ liệu trong Kyoto Honeypot phản ánh được tính khách quan của các sự kiện bất thường của lưu lượng mạng Internet thu được. Kyoto Honeypot được tổ chức theo cơ sở dữ liệu. ỗi d ng hoặc bản ghi l một kết nối (connection) chứa các thuộc tính tương ứng với một quan sát. Bảng 2.1 liệt kê các thuộc tính của tập dữ liệu Kyoto Honeypot được sử dụng trong phần thử nghiệm. Với phạm vi luận án là phát hiện bất thường trên lưu lượng 64 mạng, những thuộc tính được lựa chọn chủ yếu liên quan đến lớp mạng và lớp giao vận. Bảng 2.1. Thuộc tính dùng trong thử nghiệm của tập dữ liệu Kyoto Honeypot Thuộc tính Ý nghĩa duration Thời gian của kết nối service Mã của loại dịch vụ src_bytes Số lượng byte gửi từ nguồn đến đích dst_bytes Số lượng byte gửi từ đích về nguồn count Số lượng kết nối đến cùng địa chỉ đích đang xét trong 2s same_srv_rate Số lượng kết nối trong count có cùng kiểu dịch vụ serror_rate % số kết nối có lỗi đồng bộ SYN srv_serror_rate % số kết nối có lỗi đồng bộ SYN và cùng kiểu dịch v

Các file đính kèm theo tài liệu này:

luan_an_nghien_cuu_de_xuat_phuong_phap_phan_tich_va_phat_hie.pdf