Tóm tắt Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet

K-means là thuật toán phân cụm phổ biến được áp dụng trong

nhiều lĩnh vực. K-means sử dụng giá trị trung bình (mean) của các

đối tượng trong cụm làm tâm của cụm đó và phân nhóm các đối

tượng đã có vào K cụm (K cần được xác định trước) sao cho khoảng

cách giữa các đối tượng đến tâm cụm (centroid ) là nhỏ nhất.

Phương pháp để phát hiện ngoại lai bằng K-means như sau: Để

phát hiện ngoại lai cần thiết lập cụm bình thường normal cluster và

cụm chứa ngoại lai outlier cluster . Trong trường hợp K=2, chỉ có

một cụm là bình thường và cụm còn lại chứa ngoại lai. Cụm chứa

ngoại lai được coi là cụm có số lượng điểm nhỏ hơn so với cụm bình

thường. Do vậy, kết quả phân cụm sẽ chọn cụm có số lượng điểm

nhỏ hơn là cụm chứa ngoại lai. Một điểm xi được coi là ngoại lai nếu:

- xi nằm gần tâm của cụm chứa ngoại lai hơn cụm bình thường.

- xi nằm ngoài phạm vi giới hạn bởi khoảng cách ngưỡng đến tâm

cụm bình thường.

Những điểm phát hiện là ngoại lai sẽ bị loại bỏ tập dữ liệu mẫu

của dPCA

pdf26 trang | Chia sẻ: honganh20 | Ngày: 07/03/2022 | Lượt xem: 251 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
nh giá như sau:  Vẫn chưa có một công thức bao quát cho tính khoảng cách để từ đó tìm ra các tham số phù hợp với mục tiêu giảm độ phức tạp tính toán song vẫn đạt hiệu quả. 4  Vấn đề sử dụng những thành phần chính nào hiệu quả và giảm được số chiều dữ liệu khi xét đến độ phức tạp của thuật toán.  Đối với các phương pháp PCA sử dụng tập dữ liệu mẫu, ngoại lai có thể xuất hiện trong tập dữ liệu mẫu làm sai lệch profile. Vì vậy việc làm sạch tập dữ liệu mẫu trước khi tạo profile là điều cần thiết. Các nghiên cứu dựa trên PCA tới nay chưa có đề xuất cụ thể nào về phương pháp loại bỏ ngoại lai trong tập dữ liệu mẫu mà thường giả thiết tập mẫu không chứa ngoại lai khi thử nghiệm.  Việc lựa chọn vị trí thu thập, lựa chọn các thuộc tính lưu lượng cần thu thập c ng góp phần quan trọng vào nâng cao hiệu quả phát hiện bất thường. 1.5. Kết luận chƣơng 1 Chương 1 đã trình bày tổng quan về cơ sở lý thuyết và các nghiên cứu liên quan đến đề tài luận án trong đó có nhận xét đánh giá về vấn đề phân tích và phát hiện lưu lượng bất thường với phương pháp PCA, những vấn đề nghiên cứu còn mở làm cơ sở cho những nghiên cứu và đề xuất ở các chương tiếp theo. CHƢƠNG 2: PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG 2.1. Mở đầu Chương 2 trình bày về mô hình chung hệ thống phân tích và phát hiện lưu lượng bất thường với dựa trên PCA, đề xuất phương pháp dPCA và thử nghiệm, đánh giá phương pháp đề xuất. 2.2. Mô hình hệ thống dựa trên phƣơng pháp PCA Hệ thống hoạt động theo hai pha: Pha tạo profile: Hệ thống cần tạo trước profile với dữ liệu sạch (dữ liệu không chứa bất thường . Pha này hoạt động ngoại tuyến (offline). 5 Pha phát hiện: Pha này hoạt động trực tuyến online . ỗi quan sát mới chứa các thuộc tính dữ liệu cần chuyển sang miền con của PCA từ áp dụng phương pháp phân tích, phát hiện bất thường. Mô hình chung của hệ thống phân tích, phát hiện lưu lượng bất thường dựa trên PCA bao gồm những thành phần sau:  Thu thập, tiền xử l dữ liệu, tách thuộc tính  Bộ biến đổi PCA: Dữ liệu sau quá trình chuẩn hóa được biến đổi để chuyển sang miền dữ liệu của PCA.  Module phân tích và phát hiện bất thường: thực hiện việc phân tích những thành phần chính nào sử dụng để phát hiện bất thường, tính khoảng cách, thiết lập mức ngưỡng, tạo tập tham số trạng thái bình thường (profile). Từ profile đã tạo sẽ so sánh với những dữ liệu cần kiểm tra để phát hiện bất thường.  Cảnh báo: Kết quả phát hiện được đưa ra cảnh báo. 2.3. Công thức tính khoảng cách thống kê trong phân tích và phát hiện lƣu lƣợng bất thƣờng. Việc xác định hệ thống ở trạng thái bình thường hay bất thường phụ thuộc vào độ lệch hay khoảng cách thống kê (gọi tắt là khoảng cách) của điểm đang xét từ trạng thái bình thường. Các phương pháp tính khoảng cách phổ biến là khoảng cách Euclidean, bình phương Euclidean, Mahalanobis. Những phương pháp khác như khoảng cách Mahattan (hay City Block), khoảng cách Minkowski, khoảng cách Canberra chủ yếu chỉ được sử dụng trong các bài toán thống kê. Luận án đề xuất áp dụng công thức Minkowski bổ sung trọng số trong miền con PCA như sau: Khi chuyển sang miền con PCA, khoảng cách Minkowski từ mỗi quan sát đến tâm (gốc tọa độ của miền con PCA) sẽ là: 1 p c i i d y   (2.11) 6 Tuy nhiên, mỗi biến có thể có độ biến thiên hoặc đơn vị khác nhau. Đồng thời, trong miền con PCA, không cần thiết phải tính khoảng cách cho tất cả p thành phần chính. Vì vậy, luận án bổ sung trọng số wi phù hợp với mỗi biến để làm giảm sự sai lệch trong công thức tính khoảng cách như sau: q c i i i r d w y   (2.13) Trong đó:d là khoảng cách hình thành từ các thành phần chính yi và trọng số wi tương ứng. wi là trọng số cho thành phần chính yi c là số m của| yi| và là hằng số. p là số thuộc tính ban đầu và là số biến đầu vào 1 r q p   Trong miền con PCA, nếu chọn tham số thích hợp, ta sẽ thu được những công thức tính khoảng cách để phát hiện bất thường với hiệu quả tương đương với phương pháp đã có. 2.4. Phƣơng pháp PCA Phương pháp dPCA (Distance-based anomaly detection method in PCA subspace là phương pháp phân tích và phát hiện bất thường trong miền con PCA và sử dụng công thức tính khoảng cách (2.13). 2.4.1. Lựa chọn các tham số để tính khoảng cách trong dPCA Bằng cách thay đổi các trọng số wi và tham số c, ta có thể thiết lập linh hoạt các tham số cho công thức tính khoảng cách (2.13).  Khi c=2, wi=1, công thức (2.13) trở thành: 2 2 2 21 . . . q i r r q i r y y y yd       (2.18) Công thức này tương đương với công thức được áp dụng trong phương pháp phân tích phần dư của các nghiên cứu đã khảo sát.  Khi c=2, wi ≠ 1: 7 Về lý thuyết có thể chọn nhiều giá trị wi khác nhau nhưng cách thường dùng là chuẩn hóa theo phương sai. Do trị riêng λi đóng vai trò là phương sai trong miền con PCA nên có thể chuẩn hóa với λi. 22 2 2 2 2 ... q qi r i r i r q yy y y d          (2.19) Công thức 2.19 tương đương với công thức của phương pháp PCA trong các nghiên cứu đã khảo sát áp dụng thống kê T2.  Khi c=1, wi =1 công thức (2.13) trở thành khoảng cách Manhattan trong miền con PCA: 1 ... q i r r q i r d y y y y       (2.21)  Khi c=1, wi ≠ 1: Do trị riêng đóng vai trò là phương sai trong miền con PCA nên có thể chuẩn hóa các giá trị |yi| với căn bậc hai của trị riêng. 2 2 ... q qi r i r i r q yy y y d          (2.22)  Nhận xét: - wi=1 phù hợp khi tính d với các thành phần chính khi sự chênh lệch giữa các trị riêng không lớn, đặc biệt là những PC thứ yếu. - wi ≠ 1 phù hợp khi tính d với các thành phần chính khi có sự chênh lệch đáng kể giữa các trị riêng. Sự chênh lệch thường nằm ở những PC chủ yếu hoặc khi dùng tất cả PC để tính khoảng cách. - Độ phức tạp của thuật toán tính khoảng cách: 8 o Khi c=2 độ phức tạp là O(kn2) với k là số PC được sử dụng, n là số lượng quan sát được tính khoảng cách o Khi c=1 độ phức tạp là O(kn). Do đó có thể sử dụng c=1 để giảm độ phức tạp tạp trong tính khoảng cách của dPCA so với các công trình nghiên cứu điển hình dựa trên PCA trước đây. 2.4.2. Sự phân cấp của dPCA Hình 2.3 mô tả chế độ hoạt động của phương pháp dPCA. Cấp 2 dPCA PC chủ yếu Cấp 1 Tất cả PC Chế độ hoạt động PC thứ yếu Phân tích từng PC Hình 2.1. Phân cấp trong phương pháp dPCA Trong đó dPCA hoạt động theo 2 cấp:  Cấp 1: dPCA sử dụng PC thứ yếu để tính khoảng cách. Trong trường hợp cần thiết có thể sử dụng tất cả PC và bỏ qua cấp 2. Phương pháp này cần 1 mức ngưỡng cho khoảng cách được gọi là dPCA1T (dPCA with 1 threshold). Khi sử dụng tất cả PC để tính khoảng cách d, có thể phát hiện được bất thường có đột biến xuất hiện ở những PC khác nhau. Tuy nhiên sử dụng tất cả PC để tính khoảng cách với dPCA1T chỉ được áp dụng khi số thuộc tính p ban đầu không quá lớn vì sẽ tốn nhiều tài nguyên của hệ thống và nên đặt trọng số wi ≠ 1.  Cấp 2: Cấp 2 có các chế độ hoạt động 9 - Hoạt động song song với cấp 1: Chế độ song song sử dụng PC chủ yếu để tính khoảng cách đồng thời với khoảng cách dùng PC thứ yếu tại cấp 1. - Hoạt động dự phòng cho cấp 1: Chế độ dự phòng chỉ sử dụng PC chủ yếu để tính khoảng cách với những dữ liệu đã được phát hiện là bình thường tại cấp 1 để tìm những bất thường mà cấp 1 có thể bỏ sót. Ưu điểm của phương pháp này là không cần tính đồng thời tất cả dữ liệu với cả 2 cấp do đó giảm được số lượng dữ liệu mà cấp 2 cần xử l . Nhược điểm là phải chờ sau khi cấp 1 xử lý xong, dữ liệu coi là bình thường mới chuyển đến cấp 2. - Xét từng PC để phát hiện bất thường nếu cần thiết: phương pháp này khó phân tích đồng thời nhiều PC và phải thiết lập mức ngưỡng cho từng PC. dPCA1T chỉ sử dụng một mức ngưỡng cho khoảng cách. Khoảng cách được tính theo công thức (2.13) dùng PC thứ yếu hoặc dùng tất cả PC. Khi sử dụng cả PC thứ yếu và PC chủ yếu để tính khoảng cách, mỗi khoảng cách cần có một mức ngưỡng riêng nên phương pháp này được luận án đặt tên là dPCA2T (dPCA with 2 thresholds). dPCA2T có thể phát hiện thêm bất thường với khoảng cách sử dụng PC chủ yếu nhưng đồng thời c ng làm tăng tỷ lệ cảnh báo sai. Do phát hiện c ng lúc bất thường ở cả PC chủ yếu và thứ yếu, phương pháp này cho kết quả phát hiện bất thường TPR cao hơn một chút so với chỉ sử dụng PC thứ yếu. Tuy nhiên phương pháp 2 mức ngưỡng thường c ng trả giá bằng tỷ lệ cảnh báo sai cao hơn và tốn nhiều tài nguyên hơn. Trong những hệ thống thực tế, thông thường số lượng dữ liệu bình thường chiếm đa số so với bất thường. Vì vậy nếu tỷ lệ cảnh báo sai tăng lên một chút c ng làm cho số lượng dữ liệu bình thường phát hiện sai là bất thường tăng lên nhiều. 10 Ví dụ: dữ liệu bình thường chiếm 90%, bất thường chiếm 10%, như vậy chỉ 1% dữ liệu bình thường phát hiện nhầm là bất thường c ng gây ra số lượng lớn cảnh báo sai. Do đó tính khoảng cách với cả PC chủ yếu và thứ yếu liên tục có thể vừa tốn năng lực xử lý, tài nguyên của hệ thống vừa làm tăng cảnh báo sai không cần thiết. Khi trạng thái bình thường trong profile thiết lập tốt, phần lớn những bất thường trong PC chủ yếu đã được phát hiện với PC thứ yếu tại cấp 1. Trong trường hợp số lượng bất thường phát hiện được với cấp 2 không hiệu quả vì cấp 1 đã hoạt động tốt thì t y theo điều kiện thực tế có thể giảm tần suất kiểm tra tại cấp 2 hoặc tắt hẳn cấp 2 nhằm giảm tỷ lệ cảnh báo sai trong điều kiện dữ liệu bình thường chiếm đa số và giảm mức độ tính toán. 2.4.3. Thiết lập mức ngưỡng Thiết lập mức ngưỡng là một vấn đề khó trong các phương pháp phát hiện lưu lượng bất thường nói chung. Mức ngưỡng là tham số rất nhạy cảm giữa tỷ lệ phát hiện bất thường chính xác đúng và tỷ lệ cảnh báo sai (phát hiện nhầm dữ liệu bình thường là bất thường). Trong luận án, mức ngưỡng được tính dựa trên hàm phân bố tích l y thực nghiệm (Empirical cumulative distribution function - ECDF). Đây là hàm ước tính dựa trên dữ liệu thực nghiệm của hàm phân bố tích lu . Từ α là tỷ lệ cảnh báo sai ước lượng, ta có thể tính khoảng cách với mức ngưỡng dN tương ứng với (1- α) của hàm phân bố tích l y thực nghiệm. Ví dụ: với α = 5%, mức ngưỡng lựa chọn tương ứng với 95% của ECDF. Tùy thuộc áp dụng dPCA1T hoặc dPCA2T, sẽ cần thiết lập một hoặc hai mức ngưỡng với ECDF 2.5. Mô phỏng, thử nghiệm Việc thử nghiệm nhằm mục đích đánh giá độ chính xác của phương pháp luận án đề xuất và so sánh với những phương pháp đã có. Tập dữ liệu thử nghiệm dựa trên tập dữ liệu đã được cộng đồng nghiên cứu chấp nhận) là Kyoto Honeypot,. Mỗi quan sát là một kết 11 nối có tổng cộng 14 thuộc tính. Các thông số đánh giá độ chính xác dựa trên các thông số phổ biến của những nghiên cứu đã có bao gồm: - TPR (True Positive Rate): Tỷ lệ giữa số quan sát bất thường phát hiện đúng và tổng số quan sát bất thường thử nghiệm - FPR (False Positive Rate): Tỷ lệ giữa số quan sát bình thường bị phát hiện sai là bất thường và tổng số quan sát bình thường. Để so sánh với các kết quả của những nghiên cứu điển hình đã có, biểu đồ và các bảng thể hiện các nhóm tham số như sau: - Nhóm 1: nhóm sử dụng công thức (2.13) với c=2 và wi=1 tương đương phương pháp phân tích phần dư của những nghiên cứu đã có. Trên biểu đồ ký hiệu tham số (c=2, w=1). - Nhóm 2: nhóm sử dụng công thức (2.13) với c=1, wi=1/ tương đương phương pháp sử dụng thống kê T2 của những nghiên cứu đã có. Trên biểu đồ dạng cột nhóm này có ký hiệu tham số (c=2, w1). - Nhóm 3: nhóm sử dụng công thức (2.13) với c=1,wi=1. Trên biểu đồ nhóm này có ký hiệu tham số (c=1, w=1). - Nhóm 4: nhóm sử dụng công thức (2.13) với c=1, wi =1/ i . Trên biểu đồ nhóm này có ký hiệu tham số ( c=1, w1). k là số thành phần chính được sử dụng để tính khoảng cách. TP là số kết nối phát hiện đúng Kết quả thử nghiệm thể hiện trên hình 2.3, bảng 2.3 và bảng 2.6. Nhận xét: Khi k=3, dPCA1T (nhóm 3 và nhóm 4) cho kết quả TP và TPR cao hơn nhóm 1, xấp xỉ nhóm 2. Tỷ lệ cảnh báo sai FPR của nhóm 3 và nhóm 4 nhỏ hơn nhóm 1 và xấp xỉ nhóm 2. Khi tăng số lượng PC lên k=5, dPCA1T (nhóm 3 và nhóm 4) cho kết quả TP và TPR cao hơn nhóm 1và nhóm 2. Tỷ lệ FPR của nhóm 3 và nhóm 4 nhỏ hơn nhóm 1 và xấp xỉ nhóm 2. Khi k=14 (tất cả PC), dPCA1T nhóm 3 kém hơn nhóm 1 và 2, song dPCA1T nhóm 4 cho kết quả tốt 12 Hình 2.3. Số kết nối bất thường phát hiện đúng Bảng 2.3. Thử nghiệm dPCA1T Mức ngƣỡng: 95% c wi k TPR (%) FPR (%) 2 1 3 92.4 4.7 2 1 5 91.8 5.2 2 1 14 94.4 5.3 2 1/ i 3 94.6 4.9 2 1/ i 5 91.9 5.6 2 1/ i 14 93.8 5.0 1 1 3 94.3 4.8 1 1 5 91.3 5.2 1 1 14 92.1 5.4 1 1/ i 3 94.1 4.3 1 1/ i 5 98.1 4.7 1 1/ i 14 94.4 4.3 Các nhóm khoảng cách 13 hơn nhóm 2, xấp xỉ nhóm 1. FPR nhóm 3 và 4 c ng ngang bằng hoặc xấp xỉ nhóm 1, 2.Như vậy khi tăng số PC của dPCA1T (k=5), TPR không thay đổi nhiều. Sử dụng từ 3 đến 5 PC không khác biệt với sử dụng tất cả PC. Vì vậy, trong trường hợp này, số PC thứ yếu chỉ cần lựa chọn là k=3. Áp dụng c=1 trong nhóm 3 và nhóm 4 (trường hợp riêng đề xuất của luận án) có kết quả phát hiện tương đương với áp dụng c=2 của nhóm 1 và 2 (của những nghiên cứu đã có) nhưng độ phức tạp tính toán của việc tính d giảm đi. Bảng 2.4. Thử nghiệm dPCA2T PC ch ếu, PC thứ ếu, c wi k c wi k TPR (%) FPR (%) 2 1/ i 4 2 1 3 99.6 6.3 2 1/ i 4 2 1 5 92.2 6.9 2 1/ i 4 1 1 3 99.9 7.2 1 1/ i 4 1 1 3 100 8.1 1 1/ i 4 1 1 5 97.7 6.9 2 1/ i 4 2 1/ i 3 99.9 8.2 2 1/ i 4 2 1/ i 5 92.2 8.0 1 1/ i 4 1 1/ i 3 99.9 7.1 1 1/ i 4 1 1/ i 5 99.6 7.3 dPCA2T thường cho kết quả TPR cao hơn dPCA1T nhưng không nhiều. Hơn nữa FPR của dPCA2T c ng tăng lên, mức độ tính toán nhiều hơn. So với d ng c=2 các kết quả TPR và FPR của dPCA2T với c=1 c ng gần tương đương. Do vậy có thể sử dụng c=1 trong công thức tính khoảng cách với phương pháp dPCA2T hoặc kết hợp linh hoạt với c=2 trong PC chủ yếu hoặc thứ yếu để giảm độ phức tạp. PC thứ yếu có thể phát hiện những biến đổi nhỏ hơn mà những 14 PC chủ yếu không phát hiện được nên PC thứ yếu thường phát hiện được nhiều bất thường hơn. Để phát hiện nhanh chỉ cần dùng dPCA1T thứ yếu. dPCA2T có thể d ng để quét với tần suất thấp hơn để phát hiện thêm bất thường tại PC chủ yếu. 2.6. Kết luận chƣơng 2 Chương 2 đã đề xuất đề xuất công thức tính khoảng cách mới dựa trên công thức inkowski và phương pháp dPCA. So sánh phương pháp PCA đã có, dPCA được đề xuất hoạt động phân cấp để có thể phát hiện nhanh với PC thứ yếu. Cấp 2 có thể phát hiện bất thường dùng dPCA1T với tất cả PC và dPCA2T. dPCA2T cho phép lựa chọn linh hoạt các tham số hơn các phương pháp đã có trước đây. CHƢƠNG 3: PHƢƠNG PHÁP KHỬ NGOẠI LAI TRONG TẬP DỮ LIỆU MẪU 3.1. Vấn đề khử ngoại lai trong tập dữ liệu mẫu Ngoại lai trong tập dữ liệu mẫu ảnh hưởng đến profile của trạng thái bình thường và làm sai lệch kết quả phát hiện. Chương 3 đề xuất phương pháp khử ngoại lai trong tập dữ liệu mẫu là udPCA và K- means. Đây là đóng góp mới của luận án mà qua khảo sát các công trình dựa trên phương pháp PCA hiện nay chưa thực hiện. 3.2. Phƣơng pháp phát hiện và khử ngoại lai bằng udPCA Phương pháp udPCA Unclean dPCA d ng để phát hiện ngoại lai trực tiếp trên tập dữ liệu thuộc tính đầu vào. uá trình tạo profile và phát hiện ngoại lai của udPCA được mô tả trong hình 3.2. Trong đó, tập dữ liệu mẫu cần khử ngoại lai được chuẩn hóa, qua biến đổi PCA và tính khoảng cách. Khoảng cách được so sánh với mức ngưỡng để phát hiện ngoại lai. Những dữ liệu bị phát hiện là ngoại lai sẽ bị loại bỏ khỏi tập dữ liệu mẫu. Tập dữ liệu mẫu đã làm sạch sau đó có thể d ng cho phương pháp dPCA. Thực 15 chất udPCA vẫn cần tạo một profile tạm thời để từ đó so sánh mức ngưỡng với các điểm hoặc quan sát. Dữ liệu đầu vào để tạo tập mẫu liệu đầu vào để tạo tập ẫu PCA Mức ngƣỡngc ng ỡng Chuẩn hóahuẩn hóa So ánh hoảng cách và mức ngƣỡng So ánh hoảng cách và c ng ỡng Phát hiện ngoại laihát hiện ngoại lai Tính hoảng cáchính hoảng cách Hình 3.2. Quá trình phát hiện ngoại lai của udPCA Profile của udPCA không dựa trên tập mẫu mà tạo trực tiếp với dữ liệu thuộc tính đầu vào. udPCA sử dụng tất cả các PC để phát hiện ngoại lai. Lý do là vì khi phát hiện ngoại lai trực tiếp trong tập mẫu, trạng thái bình thường trong profile không ổn định nên ngoại lai có thể xuất hiện ở PC bất kỳ. Vì vậy, udPCA sử dụng phương pháp 1 ngưỡng với đầy đủ các PC để có thể phát hiện được ngoại lai có mức biến thiên lớn ở những PC khác nhau. Để khử được nhiều ngoại lai cần thiết lập ngưỡng ở mức thấp hơn so với phương pháp sử dụng tập dữ liệu mẫu vì nếu đặt mức ngưỡng cao sẽ bỏ qua nhiều ngoại lai. Điều này phải trả giá bằng việc tăng tỷ lệ FPR hay số lượng dữ liệu bình thường bị phát hiện sai tăng lên. 16 Khi khử ngoại lai, không chỉ ngoại lai vượt quá mức ngưỡng bị loại bỏ mà ngay cả những dữ liệu bình thường này c ng bị loại bỏ khỏi tập dữ liệu mẫu. Đây là những dữ liệu bình thường tạo nên khoảng cách lớn hơn những dữ liệu bình thường khác nên sẽ ảnh hưởng đến các tham số trong profile. Sự ảnh hưởng này liên quan đến dữ liệu bình thường có khoảng cách lớn nên những dữ liệu này sẽ có thể bị phát hiện sai là bất thường trong dPCA. Nói cách khác việc loại bỏ những dữ liệu bình thường có khoảng cách lớn sẽ làm cho tỷ lệ cảnh báo sai FPR của dPCA tăng lên. ột k thuật để khắc phục vấn đề này là ngay sau khi thiết lập mức ngưỡng trong profile của dPCA, có thể chỉnh mức ngưỡng lên một khoảng nhất định. 3.3. Phƣơng pháp phát hiện và khử ngoại lai bằng K-Means K-means là thuật toán phân cụm phổ biến được áp dụng trong nhiều lĩnh vực. K-means sử dụng giá trị trung bình (mean) của các đối tượng trong cụm làm tâm của cụm đó và phân nhóm các đối tượng đã có vào K cụm (K cần được xác định trước) sao cho khoảng cách giữa các đối tượng đến tâm cụm (centroid ) là nhỏ nhất. Phương pháp để phát hiện ngoại lai bằng K-means như sau: Để phát hiện ngoại lai cần thiết lập cụm bình thường normal cluster và cụm chứa ngoại lai outlier cluster . Trong trường hợp K=2, chỉ có một cụm là bình thường và cụm còn lại chứa ngoại lai. Cụm chứa ngoại lai được coi là cụm có số lượng điểm nhỏ hơn so với cụm bình thường. Do vậy, kết quả phân cụm sẽ chọn cụm có số lượng điểm nhỏ hơn là cụm chứa ngoại lai. Một điểm xi được coi là ngoại lai nếu: - xi nằm gần tâm của cụm chứa ngoại lai hơn cụm bình thường. - xi nằm ngoài phạm vi giới hạn bởi khoảng cách ngưỡng đến tâm cụm bình thường. Những điểm phát hiện là ngoại lai sẽ bị loại bỏ tập dữ liệu mẫu của dPCA. 3.4. Thử nghiệm phát hiện và khử ngoại lai 17 Quá trình thử nghiệm c ng được thực hiện trên dữ liệu Kyoto Honeypot. Việc thử nghiệm nhằm mục đích: đánh giả ảnh hưởng của ngoại lai đến khả năng phát hiện bất thường, khả năng phát hiện ngoại lai của udPCA, khả năng phát hiện ngoại lai của K-means, hiệu quả của việc khử ngoại lai trong tập dữ liệu mẫu. Tập dữ liệu mẫu gồm có 10% là ngoại lai, 90% còn lại là kết nối bình thường. Mức ngưỡng của d được đặt bằng 75% đến 80% của ECDF. Bảng 3.2 trình bày kết quả phát hiện ngoại lai của udPCA, trong đó: - Tỷ lệ phát hiện đúng ngoại lai: là tỷ lệ số lượng ngoại lai phát hiện chính xác trên tổng số ngoại lai trong thử nghiệm. Thông số này thực chất chính là TPR. Tỷ lệ này càng cao chứng tỏ khả năng phát hiện ngoại lai càng cao. - Tỷ lệ phát hiện sai ngoại lai: là tỷ lệ số lượng dữ liệu bình thường phát hiện sai là ngoại lai trên tổng số dữ liệu bình thường thử nghiệm. Thông số này thực chất chính là FPR. Bảng 3.2. Kết quả phát hiện ngoại lai bằng udPCA c wi k T lệ phát hiện đúng ngoại lai ) T lệ phát hiện ai ngoại lai ) 2 1/ i 14 99.8 16.7 1 1/ i 14 99.4 16.7 2 1/ i 14 100 16.6 1 1/ i 14 99.2 16.7 2 1/ i 14 97.7 17.0 1 1/ i 14 98.8 22.3 Bảng 3.3 là kết quả phát hiện ngoại lai bằng K-means. ức ngưỡng khoảng cách Euclidean dùng trong K-means được xác định tương ứng với 75% đến 80% của hàm phân bố tích l y thực nghiệm. Kết quả cho thấy K-means c ng có thể phát hiện ngoại lai với hiệu quả tương đương với udPCA. 18 Bảng 3.3. Kết quả phát hiện ngoại lai bằng K-Means T lệ phát hiện đúng ngoại lai ) T lệ phát hiện ai ngoại lai (%) 100 15.2 100 24.1 99.7 21.8 99.3 18.0 Bảng 3.4 biểu diễn kết quả phát hiện của dPCA1T chương 2 trước khi khử ngoại lai cho tập dữ liệu mẫu. Ngoại lai làm ảnh hưởng đến khả năng phát hiện bất thường, cụ thể là làm tỷ lệ TPR suy giảm. Bảng 3.4. Kết quả dPCA1T trước khi loại bỏ ngoại lai Mức ngƣỡng 5 c wi k TPR (%) FPR (%) 2 1 3 42.4 1.4 2 1/ i 3 41.5 1.1 2 1/ i 14 27.8 2.3 1 1/ i 3 29.3 2.2 1 1/ i 14 28.3 2.8 1 1 3 26.4 2.5 Bảng 3.5 biểu diễn kết quả phát hiện của dPCA một mức ngưỡng (dPCA1T) sau khi khử ngoại lai cho tập dữ liệu mẫu. Bảng 3.5. Kết quả dPCA1T sau khi loại bỏ ngoại lai Mức ngƣỡng 95% Mức ngƣỡng 99% c wi k TPR (%) FPR (%) TPR (%) FPR (%) 2 1 3 99.9 15.9 99.9 6.7 19 2 1/ i 3 100 19.6 100 7.6 2 1/ i 14 100 20.8 100 6.6 1 1/ i 3 100 19.6 100 6.7 1 1/ i 14 100 20.8 100 6.1 1 1 3 100 17.1 98.9 6.7 ức ngưỡng 95% là mức ngưỡng giống như đã d ng cho dPCA chương 2; ức ngưỡng 99% là mức ngưỡng được nâng lên để b vào lượng dữ liệu bình thường đã bị loại bỏ trong quá trình khử ngoại lai cho tập mẫu. Nhận xét: Việc khử ngoại lai trong tập dữ liệu mẫu làm tăng tỷ lệ TPR của dPCA so với dPCA trước khi khử ngoại lai bảng 3.4 . Tuy nhiên, ngoài ngoại lai, một số dữ liệu bình thường có khoảng cách lớn c ng bị loại bỏ khỏi tập mẫu. Điều này ảnh hưởng đến chất lượng tập mẫu và các tham số trong profile. Kết quả là tỷ lệ cảnh báo sai FPR tăng lên đáng kể. Việc chỉnh mức ngưỡng sau khi khử ngoại lai giảm tác động của những dữ liệu bình thường bị mất. Do vậy tỷ lệ FPR giảm đi so với giữ nguyên mức ngưỡng. 3.5. Kết luận chƣơng 3 Các kết quả thử nghiệm cho thấy udPCA và K-means là những phương pháp hiệu quả để khử ngoại lai. Sau khi khử ngoại lai, tỷ lệ phát hiện bất thường TPR của dPCA tăng lên r rệt. Hạn chế của việc khử ngoại lai là làm tăng tỷ lệ cảnh báo sai FPR. Để khắc phục vấn đề này, luận án đã đề xuất một k thuật chỉnh mức ngưỡng để b lại sự hao hụt những dữ liệu bình thường đã bị khử với udPCA và K- means, do đó cải thiện được tỷ lệ FPR. Tỷ lệ FPR cao hơn của dPCA sau khi khử ngoại lai là chấp nhận được vì một số dữ liệu bình thường gây đột biến về lưu lượng c ng được coi là bất thường. Thực tế đó có thể là do người d ng có những hành động hợp lệ nhưng vượt ngoài mức bình thường. Việc phát hiện những luồng gây ra đột biến như vậy c ng là cần thiết và coi như một dạng bất thường. 20 CHƢƠNG 4: HỆ THỐNG GIÁM SÁT VỚI PHƢƠNG PHÁP PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG 4.1. Mở đầu Trong chương này, luận án đề xuất việc ứng dụng phương pháp dPCA vào một hệ thống giám sát có thể triển khai trong thực tế cho một mạng nội bộ của một tổ chức, doanh nghiệp có kết nối Internet 4.2. Kiến trúc hệ thống giám sát Một hệ thống giám sát điển hình thường gồm 2 phần chính: Các máy trinh sát và phần trung tâm phân tích xử lý hay còn gọi là trung tâm giám sát. Máy trinh sát (sensor): Thu thập thông tin và các sự kiện trên mạng chuyển về trung tâm giám sát để xử lý, phân tích. Ngoài ra, trên máy trinh sát có thể có thêm chức năng phân tích, phát hiện sơ bộ để có cảnh báo nhanh gửi về trung tâm giám sát. Sensor là phần căn bản nhất cho chức năng thu thập thông tin và có thể thực hiện thêm chức năng phân tích, phát hiện (do sự cố mạng, tắc nghẽn, hoặc tấn công mạng để có cảnh báo nhanh gửi về trung tâm giám sát. dPCA được đề xuất tích hợp như một tiện ích vào phần mềm của sensor, thực hiện chức năng phân tích, phát hiện lưu lượng bất thường đi qua mỗi điểm trinh sát. Mặt khác, dPCA có thể cài đặt tại trung tâm giám sát để thực hiện chức năng phân tích, phát hiện lưu lượng bất thường trên toàn bộ phân đoạn mạng. Để thu thập dữ liệu lưu lượng cho dPCA tại sensor, có thể sử dụng các phần mềm công cụ như Ntop, Fprobe để thu lưu lượng trên phân đoạn mạng có kết nối Internet. Dữ liệu thuộc tính được tổng hợp từ kết nối hoặc luồng tin. Tập dữ liệu thuộc tính sau đó được lưu tạm thời tại máy trinh sát và chuyển về cơ sở dữ liệu tại trung tâm giám sát. Trung tâm giám sát gồm 04 thành phần chính: 1) Thu thập thông tin từ các máy trinh sát và xử lý dữ liệu sơ bộ; 2 Cơ sở dữ liệu; 3) 21 Xử lý, phân tích, phát hiện bất thường; 4) Quản trị hệ thống, hiển thị cảnh báo. 4.3. Nhận ạng, phân loại ất thƣờng và hả n ng ết hợp phát hiện lƣu lƣợng bất thƣờng với phát hiện tấn công mạng. Sau khi phát hiện cần xác định nguyên nhân, phân loại bất thường. ột số công trình nghiên cứu sử dụng phân lớp, phân cụm để phân loại các bất thường vào các

Các file đính kèm theo tài liệu này:

  • pdftom_tat_luan_an_nghien_cuu_de_xuat_phuong_phap_phan_tich_va.pdf