K-means là thuật toán phân cụm phổ biến được áp dụng trong
nhiều lĩnh vực. K-means sử dụng giá trị trung bình (mean) của các
đối tượng trong cụm làm tâm của cụm đó và phân nhóm các đối
tượng đã có vào K cụm (K cần được xác định trước) sao cho khoảng
cách giữa các đối tượng đến tâm cụm (centroid ) là nhỏ nhất.
Phương pháp để phát hiện ngoại lai bằng K-means như sau: Để
phát hiện ngoại lai cần thiết lập cụm bình thường normal cluster và
cụm chứa ngoại lai outlier cluster . Trong trường hợp K=2, chỉ có
một cụm là bình thường và cụm còn lại chứa ngoại lai. Cụm chứa
ngoại lai được coi là cụm có số lượng điểm nhỏ hơn so với cụm bình
thường. Do vậy, kết quả phân cụm sẽ chọn cụm có số lượng điểm
nhỏ hơn là cụm chứa ngoại lai. Một điểm xi được coi là ngoại lai nếu:
- xi nằm gần tâm của cụm chứa ngoại lai hơn cụm bình thường.
- xi nằm ngoài phạm vi giới hạn bởi khoảng cách ngưỡng đến tâm
cụm bình thường.
Những điểm phát hiện là ngoại lai sẽ bị loại bỏ tập dữ liệu mẫu
của dPCA
26 trang |
Chia sẻ: honganh20 | Ngày: 07/03/2022 | Lượt xem: 329 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
nh giá như sau:
Vẫn chưa có một công thức bao quát cho tính khoảng cách để từ
đó tìm ra các tham số phù hợp với mục tiêu giảm độ phức tạp tính
toán song vẫn đạt hiệu quả.
4
Vấn đề sử dụng những thành phần chính nào hiệu quả và giảm
được số chiều dữ liệu khi xét đến độ phức tạp của thuật toán.
Đối với các phương pháp PCA sử dụng tập dữ liệu mẫu, ngoại lai
có thể xuất hiện trong tập dữ liệu mẫu làm sai lệch profile. Vì vậy
việc làm sạch tập dữ liệu mẫu trước khi tạo profile là điều cần thiết.
Các nghiên cứu dựa trên PCA tới nay chưa có đề xuất cụ thể nào về
phương pháp loại bỏ ngoại lai trong tập dữ liệu mẫu mà thường giả
thiết tập mẫu không chứa ngoại lai khi thử nghiệm.
Việc lựa chọn vị trí thu thập, lựa chọn các thuộc tính lưu lượng
cần thu thập c ng góp phần quan trọng vào nâng cao hiệu quả phát
hiện bất thường.
1.5. Kết luận chƣơng 1
Chương 1 đã trình bày tổng quan về cơ sở lý thuyết và các nghiên
cứu liên quan đến đề tài luận án trong đó có nhận xét đánh giá về vấn
đề phân tích và phát hiện lưu lượng bất thường với phương pháp
PCA, những vấn đề nghiên cứu còn mở làm cơ sở cho những nghiên
cứu và đề xuất ở các chương tiếp theo.
CHƢƠNG 2: PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN
LƢU LƢỢNG BẤT THƢỜNG
2.1. Mở đầu
Chương 2 trình bày về mô hình chung hệ thống phân tích và phát
hiện lưu lượng bất thường với dựa trên PCA, đề xuất phương pháp
dPCA và thử nghiệm, đánh giá phương pháp đề xuất.
2.2. Mô hình hệ thống dựa trên phƣơng pháp PCA
Hệ thống hoạt động theo hai pha:
Pha tạo profile: Hệ thống cần tạo trước profile với dữ liệu sạch
(dữ liệu không chứa bất thường . Pha này hoạt động ngoại tuyến
(offline).
5
Pha phát hiện: Pha này hoạt động trực tuyến online . ỗi quan
sát mới chứa các thuộc tính dữ liệu cần chuyển sang miền con của
PCA từ áp dụng phương pháp phân tích, phát hiện bất thường.
Mô hình chung của hệ thống phân tích, phát hiện lưu lượng bất
thường dựa trên PCA bao gồm những thành phần sau:
Thu thập, tiền xử l dữ liệu, tách thuộc tính
Bộ biến đổi PCA: Dữ liệu sau quá trình chuẩn hóa được biến đổi
để chuyển sang miền dữ liệu của PCA.
Module phân tích và phát hiện bất thường: thực hiện việc phân
tích những thành phần chính nào sử dụng để phát hiện bất thường,
tính khoảng cách, thiết lập mức ngưỡng, tạo tập tham số trạng
thái bình thường (profile). Từ profile đã tạo sẽ so sánh với những
dữ liệu cần kiểm tra để phát hiện bất thường.
Cảnh báo: Kết quả phát hiện được đưa ra cảnh báo.
2.3. Công thức tính khoảng cách thống kê trong phân tích và
phát hiện lƣu lƣợng bất thƣờng.
Việc xác định hệ thống ở trạng thái bình thường hay bất thường
phụ thuộc vào độ lệch hay khoảng cách thống kê (gọi tắt là khoảng
cách) của điểm đang xét từ trạng thái bình thường. Các phương pháp
tính khoảng cách phổ biến là khoảng cách Euclidean, bình phương
Euclidean, Mahalanobis. Những phương pháp khác như khoảng cách
Mahattan (hay City Block), khoảng cách Minkowski, khoảng cách
Canberra chủ yếu chỉ được sử dụng trong các bài toán thống kê.
Luận án đề xuất áp dụng công thức Minkowski bổ sung trọng số
trong miền con PCA như sau:
Khi chuyển sang miền con PCA, khoảng cách Minkowski từ mỗi
quan sát đến tâm (gốc tọa độ của miền con PCA) sẽ là:
1
p
c
i
i
d y
(2.11)
6
Tuy nhiên, mỗi biến có thể có độ biến thiên hoặc đơn vị khác
nhau. Đồng thời, trong miền con PCA, không cần thiết phải tính
khoảng cách cho tất cả p thành phần chính. Vì vậy, luận án bổ sung
trọng số wi phù hợp với mỗi biến để làm giảm sự sai lệch trong công
thức tính khoảng cách như sau:
q
c
i i
i r
d w y
(2.13)
Trong đó:d là khoảng cách hình thành từ các thành phần chính yi
và trọng số wi tương ứng.
wi là trọng số cho thành phần chính yi
c là số m của| yi| và là hằng số.
p là số thuộc tính ban đầu và là số biến đầu vào
1 r q p
Trong miền con PCA, nếu chọn tham số thích hợp, ta sẽ thu được
những công thức tính khoảng cách để phát hiện bất thường với hiệu
quả tương đương với phương pháp đã có.
2.4. Phƣơng pháp PCA
Phương pháp dPCA (Distance-based anomaly detection method
in PCA subspace là phương pháp phân tích và phát hiện bất thường
trong miền con PCA và sử dụng công thức tính khoảng cách (2.13).
2.4.1. Lựa chọn các tham số để tính khoảng cách trong dPCA
Bằng cách thay đổi các trọng số wi và tham số c, ta có thể thiết lập
linh hoạt các tham số cho công thức tính khoảng cách (2.13).
Khi c=2, wi=1, công thức (2.13) trở thành:
2 2 2 21 . . .
q
i r r q
i r
y y y yd
(2.18)
Công thức này tương đương với công thức được áp dụng trong
phương pháp phân tích phần dư của các nghiên cứu đã khảo sát.
Khi c=2, wi ≠ 1:
7
Về lý thuyết có thể chọn nhiều giá trị wi khác nhau nhưng cách
thường dùng là chuẩn hóa theo phương sai. Do trị riêng λi đóng vai
trò là phương sai trong miền con PCA nên có thể chuẩn hóa với λi.
22 2 2
2
2
...
q
qi r
i r i r q
yy y y
d
(2.19)
Công thức 2.19 tương đương với công thức của phương pháp
PCA trong các nghiên cứu đã khảo sát áp dụng thống kê T2.
Khi c=1, wi =1 công thức (2.13) trở thành khoảng cách Manhattan
trong miền con PCA:
1 ...
q
i r r q
i r
d y y y y
(2.21)
Khi c=1, wi ≠ 1:
Do trị riêng đóng vai trò là phương sai trong miền con PCA nên
có thể chuẩn hóa các giá trị |yi| với căn bậc hai của trị riêng.
2
2
...
q
qi r
i r i r q
yy y y
d
(2.22)
Nhận xét:
- wi=1 phù hợp khi tính d với các thành phần chính khi sự
chênh lệch giữa các trị riêng không lớn, đặc biệt là
những PC thứ yếu.
- wi ≠ 1 phù hợp khi tính d với các thành phần chính khi
có sự chênh lệch đáng kể giữa các trị riêng. Sự chênh
lệch thường nằm ở những PC chủ yếu hoặc khi dùng tất
cả PC để tính khoảng cách.
- Độ phức tạp của thuật toán tính khoảng cách:
8
o Khi c=2 độ phức tạp là O(kn2) với k là số PC được sử dụng,
n là số lượng quan sát được tính khoảng cách
o Khi c=1 độ phức tạp là O(kn). Do đó có thể sử dụng c=1 để
giảm độ phức tạp tạp trong tính khoảng cách của dPCA so với
các công trình nghiên cứu điển hình dựa trên PCA trước đây.
2.4.2. Sự phân cấp của dPCA
Hình 2.3 mô tả chế độ hoạt động của phương pháp dPCA.
Cấp 2
dPCA
PC chủ yếu
Cấp 1
Tất cả PC
Chế độ
hoạt động
PC thứ yếu
Phân tích từng PC
Hình 2.1. Phân cấp trong phương pháp dPCA
Trong đó dPCA hoạt động theo 2 cấp:
Cấp 1: dPCA sử dụng PC thứ yếu để tính khoảng cách. Trong
trường hợp cần thiết có thể sử dụng tất cả PC và bỏ qua cấp 2.
Phương pháp này cần 1 mức ngưỡng cho khoảng cách được gọi là
dPCA1T (dPCA with 1 threshold). Khi sử dụng tất cả PC để tính
khoảng cách d, có thể phát hiện được bất thường có đột biến xuất
hiện ở những PC khác nhau. Tuy nhiên sử dụng tất cả PC để tính
khoảng cách với dPCA1T chỉ được áp dụng khi số thuộc tính p
ban đầu không quá lớn vì sẽ tốn nhiều tài nguyên của hệ thống và
nên đặt trọng số wi ≠ 1.
Cấp 2: Cấp 2 có các chế độ hoạt động
9
- Hoạt động song song với cấp 1: Chế độ song song sử dụng PC
chủ yếu để tính khoảng cách đồng thời với khoảng cách dùng PC
thứ yếu tại cấp 1.
- Hoạt động dự phòng cho cấp 1: Chế độ dự phòng chỉ sử dụng PC
chủ yếu để tính khoảng cách với những dữ liệu đã được phát hiện
là bình thường tại cấp 1 để tìm những bất thường mà cấp 1 có thể
bỏ sót. Ưu điểm của phương pháp này là không cần tính đồng thời
tất cả dữ liệu với cả 2 cấp do đó giảm được số lượng dữ liệu mà
cấp 2 cần xử l . Nhược điểm là phải chờ sau khi cấp 1 xử lý
xong, dữ liệu coi là bình thường mới chuyển đến cấp 2.
- Xét từng PC để phát hiện bất thường nếu cần thiết: phương pháp
này khó phân tích đồng thời nhiều PC và phải thiết lập mức
ngưỡng cho từng PC.
dPCA1T chỉ sử dụng một mức ngưỡng cho khoảng cách. Khoảng
cách được tính theo công thức (2.13) dùng PC thứ yếu hoặc dùng tất
cả PC.
Khi sử dụng cả PC thứ yếu và PC chủ yếu để tính khoảng cách,
mỗi khoảng cách cần có một mức ngưỡng riêng nên phương pháp
này được luận án đặt tên là dPCA2T (dPCA with 2 thresholds).
dPCA2T có thể phát hiện thêm bất thường với khoảng cách sử dụng
PC chủ yếu nhưng đồng thời c ng làm tăng tỷ lệ cảnh báo sai.
Do phát hiện c ng lúc bất thường ở cả PC chủ yếu và thứ yếu,
phương pháp này cho kết quả phát hiện bất thường TPR cao hơn
một chút so với chỉ sử dụng PC thứ yếu. Tuy nhiên phương pháp 2
mức ngưỡng thường c ng trả giá bằng tỷ lệ cảnh báo sai cao hơn và
tốn nhiều tài nguyên hơn. Trong những hệ thống thực tế, thông
thường số lượng dữ liệu bình thường chiếm đa số so với bất thường.
Vì vậy nếu tỷ lệ cảnh báo sai tăng lên một chút c ng làm cho số
lượng dữ liệu bình thường phát hiện sai là bất thường tăng lên nhiều.
10
Ví dụ: dữ liệu bình thường chiếm 90%, bất thường chiếm 10%, như
vậy chỉ 1% dữ liệu bình thường phát hiện nhầm là bất thường c ng
gây ra số lượng lớn cảnh báo sai. Do đó tính khoảng cách với cả PC
chủ yếu và thứ yếu liên tục có thể vừa tốn năng lực xử lý, tài nguyên
của hệ thống vừa làm tăng cảnh báo sai không cần thiết.
Khi trạng thái bình thường trong profile thiết lập tốt, phần lớn
những bất thường trong PC chủ yếu đã được phát hiện với PC thứ
yếu tại cấp 1. Trong trường hợp số lượng bất thường phát hiện được
với cấp 2 không hiệu quả vì cấp 1 đã hoạt động tốt thì t y theo điều
kiện thực tế có thể giảm tần suất kiểm tra tại cấp 2 hoặc tắt hẳn cấp 2
nhằm giảm tỷ lệ cảnh báo sai trong điều kiện dữ liệu bình thường
chiếm đa số và giảm mức độ tính toán.
2.4.3. Thiết lập mức ngưỡng
Thiết lập mức ngưỡng là một vấn đề khó trong các phương pháp
phát hiện lưu lượng bất thường nói chung. Mức ngưỡng là tham số
rất nhạy cảm giữa tỷ lệ phát hiện bất thường chính xác đúng và tỷ
lệ cảnh báo sai (phát hiện nhầm dữ liệu bình thường là bất thường).
Trong luận án, mức ngưỡng được tính dựa trên hàm phân bố tích
l y thực nghiệm (Empirical cumulative distribution function -
ECDF). Đây là hàm ước tính dựa trên dữ liệu thực nghiệm của hàm
phân bố tích lu . Từ α là tỷ lệ cảnh báo sai ước lượng, ta có thể tính
khoảng cách với mức ngưỡng dN tương ứng với (1- α) của hàm phân
bố tích l y thực nghiệm. Ví dụ: với α = 5%, mức ngưỡng lựa chọn
tương ứng với 95% của ECDF. Tùy thuộc áp dụng dPCA1T hoặc
dPCA2T, sẽ cần thiết lập một hoặc hai mức ngưỡng với ECDF
2.5. Mô phỏng, thử nghiệm
Việc thử nghiệm nhằm mục đích đánh giá độ chính xác của
phương pháp luận án đề xuất và so sánh với những phương pháp đã
có. Tập dữ liệu thử nghiệm dựa trên tập dữ liệu đã được cộng đồng
nghiên cứu chấp nhận) là Kyoto Honeypot,. Mỗi quan sát là một kết
11
nối có tổng cộng 14 thuộc tính. Các thông số đánh giá độ chính xác
dựa trên các thông số phổ biến của những nghiên cứu đã có bao gồm:
- TPR (True Positive Rate): Tỷ lệ giữa số quan sát bất thường phát
hiện đúng và tổng số quan sát bất thường thử nghiệm
- FPR (False Positive Rate): Tỷ lệ giữa số quan sát bình thường bị
phát hiện sai là bất thường và tổng số quan sát bình thường.
Để so sánh với các kết quả của những nghiên cứu điển hình đã có,
biểu đồ và các bảng thể hiện các nhóm tham số như sau:
- Nhóm 1: nhóm sử dụng công thức (2.13) với c=2 và wi=1 tương
đương phương pháp phân tích phần dư của những nghiên cứu đã có.
Trên biểu đồ ký hiệu tham số (c=2, w=1).
- Nhóm 2: nhóm sử dụng công thức (2.13) với c=1, wi=1/ tương
đương phương pháp sử dụng thống kê T2 của những nghiên cứu đã
có. Trên biểu đồ dạng cột nhóm này có ký hiệu tham số (c=2, w1).
- Nhóm 3: nhóm sử dụng công thức (2.13) với c=1,wi=1. Trên biểu
đồ nhóm này có ký hiệu tham số (c=1, w=1).
- Nhóm 4: nhóm sử dụng công thức (2.13) với c=1, wi =1/ i .
Trên biểu đồ nhóm này có ký hiệu tham số ( c=1, w1).
k là số thành phần chính được sử dụng để tính khoảng cách.
TP là số kết nối phát hiện đúng
Kết quả thử nghiệm thể hiện trên hình 2.3, bảng 2.3 và bảng 2.6.
Nhận xét: Khi k=3, dPCA1T (nhóm 3 và nhóm 4) cho kết quả TP
và TPR cao hơn nhóm 1, xấp xỉ nhóm 2. Tỷ lệ cảnh báo sai FPR của
nhóm 3 và nhóm 4 nhỏ hơn nhóm 1 và xấp xỉ nhóm 2. Khi tăng số
lượng PC lên k=5, dPCA1T (nhóm 3 và nhóm 4) cho kết quả TP và
TPR cao hơn nhóm 1và nhóm 2. Tỷ lệ FPR của nhóm 3 và nhóm 4
nhỏ hơn nhóm 1 và xấp xỉ nhóm 2. Khi k=14 (tất cả PC), dPCA1T
nhóm 3 kém hơn nhóm 1 và 2, song dPCA1T nhóm 4 cho kết quả tốt
12
Hình 2.3. Số kết nối bất thường phát hiện đúng
Bảng 2.3. Thử nghiệm dPCA1T
Mức ngƣỡng: 95%
c wi k TPR (%) FPR (%)
2 1 3 92.4 4.7
2 1 5 91.8 5.2
2 1 14 94.4 5.3
2 1/ i 3 94.6 4.9
2 1/ i 5 91.9 5.6
2 1/ i 14 93.8 5.0
1 1 3 94.3 4.8
1 1 5 91.3 5.2
1 1 14 92.1 5.4
1 1/ i 3 94.1 4.3
1 1/ i 5 98.1 4.7
1 1/ i 14 94.4 4.3
Các nhóm khoảng cách
13
hơn nhóm 2, xấp xỉ nhóm 1. FPR nhóm 3 và 4 c ng ngang bằng hoặc
xấp xỉ nhóm 1, 2.Như vậy khi tăng số PC của dPCA1T (k=5), TPR
không thay đổi nhiều. Sử dụng từ 3 đến 5 PC không khác biệt với sử
dụng tất cả PC. Vì vậy, trong trường hợp này, số PC thứ yếu chỉ cần
lựa chọn là k=3. Áp dụng c=1 trong nhóm 3 và nhóm 4 (trường hợp
riêng đề xuất của luận án) có kết quả phát hiện tương đương với áp
dụng c=2 của nhóm 1 và 2 (của những nghiên cứu đã có) nhưng độ
phức tạp tính toán của việc tính d giảm đi.
Bảng 2.4. Thử nghiệm dPCA2T
PC ch ếu, PC thứ ếu,
c wi k c wi k
TPR
(%)
FPR
(%)
2 1/ i 4 2 1 3 99.6 6.3
2 1/ i 4 2 1 5 92.2 6.9
2 1/ i 4 1 1 3 99.9 7.2
1 1/ i 4 1 1 3 100 8.1
1 1/ i 4 1 1 5 97.7 6.9
2 1/ i 4 2 1/ i 3 99.9 8.2
2 1/ i 4 2 1/ i 5 92.2 8.0
1 1/ i 4 1 1/ i 3 99.9 7.1
1 1/ i 4 1 1/ i 5 99.6 7.3
dPCA2T thường cho kết quả TPR cao hơn dPCA1T nhưng không
nhiều. Hơn nữa FPR của dPCA2T c ng tăng lên, mức độ tính toán
nhiều hơn. So với d ng c=2 các kết quả TPR và FPR của dPCA2T
với c=1 c ng gần tương đương. Do vậy có thể sử dụng c=1 trong
công thức tính khoảng cách với phương pháp dPCA2T hoặc kết hợp
linh hoạt với c=2 trong PC chủ yếu hoặc thứ yếu để giảm độ phức
tạp. PC thứ yếu có thể phát hiện những biến đổi nhỏ hơn mà những
14
PC chủ yếu không phát hiện được nên PC thứ yếu thường phát hiện
được nhiều bất thường hơn. Để phát hiện nhanh chỉ cần dùng
dPCA1T thứ yếu. dPCA2T có thể d ng để quét với tần suất thấp
hơn để phát hiện thêm bất thường tại PC chủ yếu.
2.6. Kết luận chƣơng 2
Chương 2 đã đề xuất đề xuất công thức tính khoảng cách mới dựa
trên công thức inkowski và phương pháp dPCA. So sánh phương
pháp PCA đã có, dPCA được đề xuất hoạt động phân cấp để có thể
phát hiện nhanh với PC thứ yếu. Cấp 2 có thể phát hiện bất thường
dùng dPCA1T với tất cả PC và dPCA2T. dPCA2T cho phép lựa
chọn linh hoạt các tham số hơn các phương pháp đã có trước đây.
CHƢƠNG 3: PHƢƠNG PHÁP KHỬ NGOẠI LAI TRONG TẬP
DỮ LIỆU MẪU
3.1. Vấn đề khử ngoại lai trong tập dữ liệu mẫu
Ngoại lai trong tập dữ liệu mẫu ảnh hưởng đến profile của trạng
thái bình thường và làm sai lệch kết quả phát hiện. Chương 3 đề xuất
phương pháp khử ngoại lai trong tập dữ liệu mẫu là udPCA và K-
means. Đây là đóng góp mới của luận án mà qua khảo sát các công
trình dựa trên phương pháp PCA hiện nay chưa thực hiện.
3.2. Phƣơng pháp phát hiện và khử ngoại lai bằng udPCA
Phương pháp udPCA Unclean dPCA d ng để phát hiện ngoại
lai trực tiếp trên tập dữ liệu thuộc tính đầu vào.
uá trình tạo profile và phát hiện ngoại lai của udPCA được mô
tả trong hình 3.2. Trong đó, tập dữ liệu mẫu cần khử ngoại lai được
chuẩn hóa, qua biến đổi PCA và tính khoảng cách. Khoảng cách
được so sánh với mức ngưỡng để phát hiện ngoại lai. Những dữ liệu
bị phát hiện là ngoại lai sẽ bị loại bỏ khỏi tập dữ liệu mẫu. Tập dữ liệu
mẫu đã làm sạch sau đó có thể d ng cho phương pháp dPCA. Thực
15
chất udPCA vẫn cần tạo một profile tạm thời để từ đó so sánh mức
ngưỡng với các điểm hoặc quan sát.
Dữ liệu đầu vào để tạo tập mẫu liệu đầu vào để tạo tập ẫu
PCA
Mức ngƣỡngc ng ỡng
Chuẩn hóahuẩn hóa
So ánh hoảng cách và
mức ngƣỡng
So ánh hoảng cách và
c ng ỡng
Phát hiện ngoại laihát hiện ngoại lai
Tính hoảng cáchính hoảng cách
Hình 3.2. Quá trình phát hiện ngoại lai của udPCA
Profile của udPCA không dựa trên tập mẫu mà tạo trực tiếp với
dữ liệu thuộc tính đầu vào. udPCA sử dụng tất cả các PC để phát
hiện ngoại lai. Lý do là vì khi phát hiện ngoại lai trực tiếp trong tập
mẫu, trạng thái bình thường trong profile không ổn định nên ngoại
lai có thể xuất hiện ở PC bất kỳ. Vì vậy, udPCA sử dụng phương
pháp 1 ngưỡng với đầy đủ các PC để có thể phát hiện được ngoại lai
có mức biến thiên lớn ở những PC khác nhau.
Để khử được nhiều ngoại lai cần thiết lập ngưỡng ở mức thấp hơn
so với phương pháp sử dụng tập dữ liệu mẫu vì nếu đặt mức ngưỡng
cao sẽ bỏ qua nhiều ngoại lai. Điều này phải trả giá bằng việc tăng tỷ
lệ FPR hay số lượng dữ liệu bình thường bị phát hiện sai tăng lên.
16
Khi khử ngoại lai, không chỉ ngoại lai vượt quá mức ngưỡng bị
loại bỏ mà ngay cả những dữ liệu bình thường này c ng bị loại bỏ
khỏi tập dữ liệu mẫu. Đây là những dữ liệu bình thường tạo nên
khoảng cách lớn hơn những dữ liệu bình thường khác nên sẽ ảnh
hưởng đến các tham số trong profile. Sự ảnh hưởng này liên quan
đến dữ liệu bình thường có khoảng cách lớn nên những dữ liệu này
sẽ có thể bị phát hiện sai là bất thường trong dPCA. Nói cách khác
việc loại bỏ những dữ liệu bình thường có khoảng cách lớn sẽ làm
cho tỷ lệ cảnh báo sai FPR của dPCA tăng lên. ột k thuật để khắc
phục vấn đề này là ngay sau khi thiết lập mức ngưỡng trong profile
của dPCA, có thể chỉnh mức ngưỡng lên một khoảng nhất định.
3.3. Phƣơng pháp phát hiện và khử ngoại lai bằng K-Means
K-means là thuật toán phân cụm phổ biến được áp dụng trong
nhiều lĩnh vực. K-means sử dụng giá trị trung bình (mean) của các
đối tượng trong cụm làm tâm của cụm đó và phân nhóm các đối
tượng đã có vào K cụm (K cần được xác định trước) sao cho khoảng
cách giữa các đối tượng đến tâm cụm (centroid ) là nhỏ nhất.
Phương pháp để phát hiện ngoại lai bằng K-means như sau: Để
phát hiện ngoại lai cần thiết lập cụm bình thường normal cluster và
cụm chứa ngoại lai outlier cluster . Trong trường hợp K=2, chỉ có
một cụm là bình thường và cụm còn lại chứa ngoại lai. Cụm chứa
ngoại lai được coi là cụm có số lượng điểm nhỏ hơn so với cụm bình
thường. Do vậy, kết quả phân cụm sẽ chọn cụm có số lượng điểm
nhỏ hơn là cụm chứa ngoại lai. Một điểm xi được coi là ngoại lai nếu:
- xi nằm gần tâm của cụm chứa ngoại lai hơn cụm bình thường.
- xi nằm ngoài phạm vi giới hạn bởi khoảng cách ngưỡng đến tâm
cụm bình thường.
Những điểm phát hiện là ngoại lai sẽ bị loại bỏ tập dữ liệu mẫu
của dPCA.
3.4. Thử nghiệm phát hiện và khử ngoại lai
17
Quá trình thử nghiệm c ng được thực hiện trên dữ liệu Kyoto
Honeypot. Việc thử nghiệm nhằm mục đích: đánh giả ảnh hưởng của
ngoại lai đến khả năng phát hiện bất thường, khả năng phát hiện
ngoại lai của udPCA, khả năng phát hiện ngoại lai của K-means, hiệu
quả của việc khử ngoại lai trong tập dữ liệu mẫu. Tập dữ liệu mẫu
gồm có 10% là ngoại lai, 90% còn lại là kết nối bình thường. Mức
ngưỡng của d được đặt bằng 75% đến 80% của ECDF. Bảng 3.2
trình bày kết quả phát hiện ngoại lai của udPCA, trong đó:
- Tỷ lệ phát hiện đúng ngoại lai: là tỷ lệ số lượng ngoại lai phát
hiện chính xác trên tổng số ngoại lai trong thử nghiệm. Thông số này
thực chất chính là TPR. Tỷ lệ này càng cao chứng tỏ khả năng phát
hiện ngoại lai càng cao.
- Tỷ lệ phát hiện sai ngoại lai: là tỷ lệ số lượng dữ liệu bình thường
phát hiện sai là ngoại lai trên tổng số dữ liệu bình thường thử
nghiệm. Thông số này thực chất chính là FPR.
Bảng 3.2. Kết quả phát hiện ngoại lai bằng udPCA
c wi k
T lệ phát hiện đúng
ngoại lai )
T lệ phát hiện
ai ngoại lai )
2 1/ i 14 99.8 16.7
1 1/ i 14 99.4 16.7
2 1/ i 14 100 16.6
1 1/ i 14 99.2 16.7
2 1/ i 14 97.7 17.0
1 1/ i 14 98.8 22.3
Bảng 3.3 là kết quả phát hiện ngoại lai bằng K-means. ức
ngưỡng khoảng cách Euclidean dùng trong K-means được xác định
tương ứng với 75% đến 80% của hàm phân bố tích l y thực nghiệm.
Kết quả cho thấy K-means c ng có thể phát hiện ngoại lai với hiệu
quả tương đương với udPCA.
18
Bảng 3.3. Kết quả phát hiện ngoại lai bằng K-Means
T lệ phát hiện đúng
ngoại lai )
T lệ phát hiện ai
ngoại lai (%)
100 15.2
100 24.1
99.7 21.8
99.3 18.0
Bảng 3.4 biểu diễn kết quả phát hiện của dPCA1T chương 2
trước khi khử ngoại lai cho tập dữ liệu mẫu. Ngoại lai làm ảnh hưởng
đến khả năng phát hiện bất thường, cụ thể là làm tỷ lệ TPR suy giảm.
Bảng 3.4. Kết quả dPCA1T trước khi loại bỏ ngoại lai
Mức ngƣỡng 5
c wi k TPR (%) FPR (%)
2 1 3 42.4 1.4
2 1/ i 3 41.5 1.1
2 1/ i 14 27.8 2.3
1 1/ i 3 29.3 2.2
1 1/ i 14 28.3 2.8
1 1 3 26.4 2.5
Bảng 3.5 biểu diễn kết quả phát hiện của dPCA một mức
ngưỡng (dPCA1T) sau khi khử ngoại lai cho tập dữ liệu mẫu.
Bảng 3.5. Kết quả dPCA1T sau khi loại bỏ ngoại lai
Mức ngƣỡng
95%
Mức ngƣỡng
99%
c wi k
TPR
(%)
FPR
(%)
TPR
(%)
FPR
(%)
2 1 3 99.9 15.9 99.9 6.7
19
2 1/ i 3 100 19.6 100 7.6
2 1/ i 14 100 20.8 100 6.6
1 1/ i 3 100 19.6 100 6.7
1 1/ i 14 100 20.8 100 6.1
1 1 3 100 17.1 98.9 6.7
ức ngưỡng 95% là mức ngưỡng giống như đã d ng cho dPCA
chương 2; ức ngưỡng 99% là mức ngưỡng được nâng lên để b
vào lượng dữ liệu bình thường đã bị loại bỏ trong quá trình khử
ngoại lai cho tập mẫu. Nhận xét: Việc khử ngoại lai trong tập dữ liệu
mẫu làm tăng tỷ lệ TPR của dPCA so với dPCA trước khi khử ngoại
lai bảng 3.4 . Tuy nhiên, ngoài ngoại lai, một số dữ liệu bình thường
có khoảng cách lớn c ng bị loại bỏ khỏi tập mẫu. Điều này ảnh
hưởng đến chất lượng tập mẫu và các tham số trong profile. Kết quả
là tỷ lệ cảnh báo sai FPR tăng lên đáng kể. Việc chỉnh mức ngưỡng
sau khi khử ngoại lai giảm tác động của những dữ liệu bình thường
bị mất. Do vậy tỷ lệ FPR giảm đi so với giữ nguyên mức ngưỡng.
3.5. Kết luận chƣơng 3
Các kết quả thử nghiệm cho thấy udPCA và K-means là những
phương pháp hiệu quả để khử ngoại lai. Sau khi khử ngoại lai, tỷ lệ
phát hiện bất thường TPR của dPCA tăng lên r rệt. Hạn chế của
việc khử ngoại lai là làm tăng tỷ lệ cảnh báo sai FPR. Để khắc phục
vấn đề này, luận án đã đề xuất một k thuật chỉnh mức ngưỡng để b
lại sự hao hụt những dữ liệu bình thường đã bị khử với udPCA và K-
means, do đó cải thiện được tỷ lệ FPR. Tỷ lệ FPR cao hơn của dPCA
sau khi khử ngoại lai là chấp nhận được vì một số dữ liệu bình
thường gây đột biến về lưu lượng c ng được coi là bất thường. Thực
tế đó có thể là do người d ng có những hành động hợp lệ nhưng vượt
ngoài mức bình thường. Việc phát hiện những luồng gây ra đột biến
như vậy c ng là cần thiết và coi như một dạng bất thường.
20
CHƢƠNG 4: HỆ THỐNG GIÁM SÁT VỚI PHƢƠNG PHÁP
PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG
4.1. Mở đầu
Trong chương này, luận án đề xuất việc ứng dụng phương pháp
dPCA vào một hệ thống giám sát có thể triển khai trong thực tế cho
một mạng nội bộ của một tổ chức, doanh nghiệp có kết nối Internet
4.2. Kiến trúc hệ thống giám sát
Một hệ thống giám sát điển hình thường gồm 2 phần chính: Các
máy trinh sát và phần trung tâm phân tích xử lý hay còn gọi là trung
tâm giám sát.
Máy trinh sát (sensor): Thu thập thông tin và các sự kiện trên
mạng chuyển về trung tâm giám sát để xử lý, phân tích. Ngoài ra,
trên máy trinh sát có thể có thêm chức năng phân tích, phát hiện sơ
bộ để có cảnh báo nhanh gửi về trung tâm giám sát. Sensor là phần
căn bản nhất cho chức năng thu thập thông tin và có thể thực hiện
thêm chức năng phân tích, phát hiện (do sự cố mạng, tắc nghẽn, hoặc
tấn công mạng để có cảnh báo nhanh gửi về trung tâm giám sát.
dPCA được đề xuất tích hợp như một tiện ích vào phần mềm của
sensor, thực hiện chức năng phân tích, phát hiện lưu lượng bất
thường đi qua mỗi điểm trinh sát. Mặt khác, dPCA có thể cài đặt tại
trung tâm giám sát để thực hiện chức năng phân tích, phát hiện lưu
lượng bất thường trên toàn bộ phân đoạn mạng. Để thu thập dữ liệu
lưu lượng cho dPCA tại sensor, có thể sử dụng các phần mềm công
cụ như Ntop, Fprobe để thu lưu lượng trên phân đoạn mạng có kết
nối Internet. Dữ liệu thuộc tính được tổng hợp từ kết nối hoặc luồng
tin. Tập dữ liệu thuộc tính sau đó được lưu tạm thời tại máy trinh sát
và chuyển về cơ sở dữ liệu tại trung tâm giám sát.
Trung tâm giám sát gồm 04 thành phần chính: 1) Thu thập thông
tin từ các máy trinh sát và xử lý dữ liệu sơ bộ; 2 Cơ sở dữ liệu; 3)
21
Xử lý, phân tích, phát hiện bất thường; 4) Quản trị hệ thống, hiển thị
cảnh báo.
4.3. Nhận ạng, phân loại ất thƣờng và hả n ng ết hợp phát
hiện lƣu lƣợng bất thƣờng với phát hiện tấn công mạng.
Sau khi phát hiện cần xác định nguyên nhân, phân loại bất
thường. ột số công trình nghiên cứu sử dụng phân lớp, phân cụm
để phân loại các bất thường vào các
Các file đính kèm theo tài liệu này:
- tom_tat_luan_an_nghien_cuu_de_xuat_phuong_phap_phan_tich_va.pdf