Tóm tắt Luận án Cải tiến một số thuật toán trong miễn dịch nhân tạo cho phát hiện xâm nhập mạng

K‚t qu£ trong thß nghi»m 1 cho th§y PSA2 cho hi»u su§t tŁt nh§t khi chúng tôi

thi‚t l“p gi¡ bº trị (10, 5, 7, 8, 9) cho c¡c tham sŁ quintuple (r, t1, t2, t3, t4), trong đó t¿

l» lØi là 1.46% và t¿ l» ch‰nh x¡c đ⁄t cao đ‚n 98.79%. Hơn nœa, t¿ l» ph¡t hi»n đưæc x‚p

thø hai với 99.76%. BBNN và SVM có t¿ l» ph¡t hi»n cao nh§t nhưng t¿ l» lØi cıa chúng

không th” so s¡nh với PSA2. Có th” th§y r‹ng, k‚t qu£ tł thß nghi»m 2 cho th§y PSA2

nhanh hơn so với bŁn thu“t to¡n đưæc đ• xu§t bởi Jadidi (2013) v• ba sŁ li»u DR, ACC

và FAR. PSA2 không th” hu§n luy»n dœ li»u không có nh¢n n¶n chúng tôi ch¿ sß dụng

10% t“p dœ li»u đ¢ đưæc g¡n nh¢n gồm 5998 t§n công và 595 flow lo⁄i thường cho giai

đo⁄n hu§n luy»n trong thß nghi»m 3. Trong khi đó, c¡c thu“t to¡n kh¡c sß dụng 100%

dœ li»u hu§n luy»n đ” hu§n luy»n, trong đó 90% dœ li»u không g¡n nh¢n đưæc sß dụng

cho S4VM. K‚t qu£ tł thß nghi»m có th” khflng định t‰nh hi»u qu£ cıa PSA2 so với c¡c

phương ph¡p đ¢ đưæc đ• xu§t trong Jadidi (2015). Trong t§t c£ c¡c thß nghi»m, t¿ l» lØi

cıa PSA2 luôn luôn nhỏ hơn c¡c thu“t to¡n kh¡c. K‚t qu£ này phƒn nào chøng minh sự

phù hæp cıa PSA2 cho NIDS

26 trang | Chia sẻ: honganh20 | Lượt xem: 518 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Cải tiến một số thuật toán trong miễn dịch nhân tạo cho phát hiện xâm nhập mạng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

cho bộ dò được sinh ra ngẫu nhiên rồi thực hiện khớp với các mẫu dữ liệu self từ tập S (biểu diễn các thành phần của hệ thống). Ứng cử viên nào khớp với ít nhất một phần tử của S thì bị loại bỏ, số còn lại được lưu trong tập bộ dò D. Trong giai đoạn phát hiện, tập các bộ dò được sử dụng để phân biệt self (thành phần hệ thống) với nonself (ngoại lai, bất thường). Nếu một đối tượng khớp với bất kì một phần tử nào đó của tập bộ dò D, thì nó được coi là nonself. 1.2.2 Thuật toán chọn lọc dương tính Thuật toán chọn lọc dương tính (PSA) cổ điển cũng gồm hai giai đoạn: sinh tập bộ dò và phát hiện. Trong giai đoạn sinh, các ứng cử cho bộ dò được sinh ra ngẫu nhiên rồi 4thực hiện khớp với các mẫu dữ liệu self từ tập S. Ứng cử viên nào không khớp với bất kỳ phần tử của S thì bị loại bỏ, số còn lại được lưu trong tập bộ dò D. Trong giai đoạn phát hiện, tập các bộ dò được sử dụng để phân biệt self với nonself. Nếu một đối tượng khớp với bất kì một phần tử nào đó của tập bộ dò D, thì nó được coi là self. 1.3 Thuật ngữ và định nghĩa cơ bản 1.3.1 Xâu, xâu con và ngôn ngữ Bảng chữ cái Σ là tập hữu hạn, khác rỗng các kí hiệu. Một xâu s ∈ Σ∗ là một chuỗi các kí hiệu thuộc Σ, độ dài của nó được kí hiệu là |s|. Một xâu được gọi là rỗng nếu nó có độ dài là 0. Cho trước chỉ số i ∈ {1, . . . , |s|}, thì s[i] là kí hiệu tại ví trí i trong s. Cho trước hai chỉ số i và j, nếu j ≥ i, thì s[i . . . j] là xâu con của s có độ dài j − i+ 1. Nếu j < i, thì s[i . . . j] là xâu rỗng. Một xâu s′ là tiền tố của s nếu s′ = s[1 . . . j], 1 ≤ j ≤ |s|. Một tập xâu S ⊆ Σ∗ được gọi là ngôn ngữ. Với hai chỉ số i và j, ta định nghĩa S[i . . . j] = {s[i . . . j]|s ∈ S}. 1.3.2 Cây tiền tố, DAG tiền tố Một cây tiền tố T là một cây có gốc với nhãn của cạnh thuộc Σ, mỗi nút trong cây có nhiều nhất một cạnh đi ra có nhãn là σ, σ ∈ Σ. Với một xâu s, ta viết s ∈ T nếu có một đường từ gốc của T tới một lá sao cho s dãy các kí tự trong s là nhãn của đường này. Cấu trúc cây tiền tố được sử dụng trong thuật toán sinh tập bộ dò rcbvl. Một tiền tố DAG G là một đồ thị có hướng không chu trình với cung có nhãn từ tập Σ. Mỗi nút có nhiều nhất một cung đi ra có nhãn là σ, σ ∈ Σ. Với một xâu s, ta viết s ∈ G nếu có một đường từ gốc của G tới một lá sao cho s dãy các kí tự trong s là nhãn của đường này. Ta kí hiệu L(G) = ⋃ n is root of G L(G, n). Chú ý là mỗi đồ thị tiền tố G có thể được chuyển về dạng otomat. 1.3.3 Bộ dò Cho trước bảng chữ cái Σ khác rỗng, gồm các kí hiệu, bộ dò dương tính và bộ dò âm tính r-chunk, bộ dò r-liên tục và bộ dò rcbvl được định nghĩa như sau: Định nghĩa 1.1 (Bộ dò dương tính r-chunk). Cho trước tập self S, một bộ (d, i) gồm xâu d ∈ Σr, r ≤ `, và một số nguyên i ∈ {1...`−r+1} được gọi là bộ dò dương tính r-chunk nếu tồn tại xâu s ∈ S thỏa mãn d khớp với s[i . . . i+ r − 1]. Định nghĩa 1.2 (Bộ dò âm tính r-chunk). Cho trước tập self S, một bộ (d, i) gồm xâu 5d ∈ Σr, r ≤ `, và một số nguyên i ∈ {1...`− r + 1} được gọi là bộ dò âm tính r-chunk nếu d không khớp được với bất kỳ s[i . . . i+ r − 1], s ∈ S. Mặc dù cách tiếp cận được đề xuất trong các chương sau có thể cài đặt với bất kỳ bảng chữ cái hữu hạn nào, nhưng để tiện theo dõi trong các ví dụ tôi chỉ sử dụng chữ cái nhị phân, Σ = {0, 1}. Định nghĩa 1.3 (Phát hiện dựa trên chọn lọc âm tính). Nếu một phần tử so khớp được với `− r + 1 bộ dò dương tính r-chunk: (dij , i), i = 1, . . . , `− r + 1, thì nó là self, ngược lại nó là non-self. Định lý 1.1. Khả năng phát hiện của tập bộ dò dương tính và tập bộ dò âm tính là như nhau. L(CHUNKp(S, r)) = L(CHUNK(S, r)) Định nghĩa 1.4 (Bộ dò rcbvl). Cho trước số nguyên dương r, một tập S các xâu self độ dài `. Bộ (d, i, j) gồm một xâu d ∈ Σk, 1 ≤ k ≤ `, một số nguyên i ∈ {1, ..., ` − r + 1} và một số nguyên j ∈ {i, ..., `− r + 1} được gọi là bộ dò rcbvl nếu d không xuất hiện trong s, s ∈ S. Nói cách khác, (d, i, j) là bộ dò rcbvl nếu tồn tại (j − i + 1) bộ dò r-chunk (d1, i),..., (dj−i+1, j) thỏa mã điều kiện dk[2..r] = dk+1[1..r − 1], k = 1, ..., j − i. 1.3.4 Biểu diễn dạng vòng của dữ liệu Phần lớn các ứng dụng dựa trên AIS dùng hai loại biểu diễn dữ liệu: xâu và vectơ giá trị thực. Cả hai loại này được biểu diễn bởi cấu trúc tuyến tính của các ký hiệu hoặc số. Điều này dẫn đến có thể bỏ sót thông tin biên (đầu và cuối) của những cấu trúc này. Do vậy, ta có thể sử dụng cấu trúc vòng tròn thay vì tuyến tính để đạt độ chính xác phân lớp cao hơn. Một cách làm đơn giản để xây dựng cấu trúc vòng đối với xâu là lấy phần đầu xâu kết nối vào cuối xâu. Cho trước tập các xâu S ⊂ Σ`, kí hiệu Sr ⊂ Σ`+r−1 gồm tất cả các biểu diễn vòng tròn của mọi xâu trong S. 1.3.5 Cây tần suất Cho tập D gồm các xâu có độ dài bằng nhau, một cây T trên D ký hiệu TD là một cây có hướng bắt đầu từ gốc với các cạnh có nhãn trong tập Σ. Mỗi nút có ít nhất một cung ra có nhãn là σ. Với một xâu s, chúng tôi coi s ∈ T nếu tồn tại một đường đi từ gốc của T đến một lá sao cho s chứa các nhãn trên đường đi này. Mỗi lá được kết hợp với một số nguyên đó là tần số của xâu s ∈ D và s là dãy nhãn trên đường đi kết thúc bởi lá này. 61.4 Tập dữ liệu Trong luận án, tôi chỉ tập trung nghiên cứu dữ liệu dạng flow bởi các lý do: 1 - Cho phép phát hiện một số tấn công đặc biệt, như DDoS hay RDP Brute Force, một cách hiệu quả và nhanh hơn cách tiếp cận dựa trên gói tin vì chỉ cần phân tích lượng thông tin ít hơn so với phân tích gói tin. 2 - Cách phương pháp phát hiện bất thường dựa trên flow chỉ xử lý header của các gói tin và vì vậy giảm được dữ liệu và thời gian xử lý, phù hợp với phát hiện tốc độ cao trong các mạng cỡ lớn. Nó giải được vấn đề cân bằng tải trong điều kiện gia tăng sử dụng mạng. Tập dữ liệu DARPA-Lincoln: Tập dữ liệu này được thu thập bởi phòng thí nghiệm Lincoln (MIT), với mục đích dùng cho đánh giá hiệu suất của các công nghệ phát hiện xâm nhập khác nhau. Tập dữ liệu UT: Tập dữ liệu này được thu thập thông qua kiểm soát máy chủ dạng honeypot đặt tại trường Đại học Twente (Hà Lan). Cơ sở dữ liệu này bao gồm các loại như lưu lượng nguy hiểm, lưu lượng chưa biết và lưu lượng hiệu ứng phụ. Mỗi flow trong cơ sở dữ liệu có 12 trường: Source IP, Destination IP, Source Port, Destination Port, Packets, Octets, Start Time, End Time, Flags, and Proto. Tập dữ liệu Netflow: Cơ sở dữ liệu này thuộc về một địa chỉ IP và cổng cụ thể nhận nhiều tấn công nhất. Nó chứa 129,571 lưu lượng (gồm cả các tấn công) đến và tới các nạn nhân. Mỗi flow trong cơ sở dữ liệu có 10 trường: Source IP, Destination IP, Source Port, Destination Port, Packets, Octets, Start Time, End Time, Flags, and Proto. 7Chương 2 KẾT HỢP CHỌN LỌC ÂM TÍNH VÀ CHỌN LỌC DƯƠNG TÍNH 2.1 Thuật toán chọn lọc âm tính mới Đầu tiên, chúng tôi xây dựng ` − r + 1 cây nhị phân (gọi là cây dương tính) tương ứng với `− r+ 1 tập bộ dò dương tính r-chunk Dpi, i = 1, . . . , `− r+ 1. Sau đó, tất các các cây con đầy đủ của các cây trên sẽ được loại bỏ để tìm ra được tập bộ dò tối thiểu cho bộ dò dương tính r-chunk mà vẫn giữ nguyên được khả năng phát hiện. Cuối cùng, với mỗi cây dương tính thứ i, chúng tôi quyết định xem có nên chuyển đổi sang cây âm tính hay không, với cây âm tính là tập bộ dò r-chunk Dni. Quyết định này phụ thuộc vào cây nào là nhỏ gọn hơn. Khi quá trình thực hiện này kết thúc, chúng ta sẽ có `− r+ 1 cây nhị phân nhỏ nhất trong đó một số cây thuộc loại dương tính và số khác thuộc loại âm tính. Phương pháp so khớp r-chunk trên cây nhị phân được tiến hành như sau: xâu s cho trước sẽ được so khớp với cây nhị phân dương tính (âm tính) thứ i khi s[i . . . i+ k] là một đường đi từ gốc đến lá i = 1, . . . , ` − r + 1, k < r. Giai đoạn phát hiện có thể được thực hiện bằng cách duyệt các cây nhị phân nhỏ gọn nhất từng bước một: một xâu s được kết luận là nonself nếu nó khớp được với một cây nhị phân âm tính hoặc không khớp với tất cả các cây nhị phân dương tính, và s được kết luận là self trong trường hợp ngược lại. Từ mô tả của thuật toán PNSA, nó sẽ mất |S|(`− r + 1).r bước để xây dựng ra tất các các cây cần thiết và trong trường hợp tồi nhất cần (`− r+ 1).r bước để so khớp 1 xâu và kết luận nó là self hay nonself. Độ phức tạp thời gian này tương đương với độ phức tạp của các thuật toán NSA (PSA) phổ biến. Định lý 2.1 (Độ phức tạp bộ nhớ PNSA). Cho một tập self S và một số nguyên `, thủ 8Algorithm 2.1 Thuật toán chọn lọc dương tính-âm tính 1: procedure PNSA(S, `, r, D) 2: for i = 1, ..., `− r + 1 do 3: Create an empty prefix tree Ti 4: for s ∈ S do 5: insert every s[i . . . i+ r − 1] into Ti 6: for internal node n ∈ Ti do 7: if n is root of complete binary subtree then 8: delete this subtree 9: if (number of leaves of Ti) > (number of nodes of Ti that have only one child) then 10: for every internal node ∈ Ti do 11: if it has only one child then 12: if the child is a leaf then 13: delete the child 14: create the other child for it 15: Mark Ti as a negative tree 16: flag = true 17: i = 1 18: while (i ≤ `− r + 1) and (flag = true) do 19: if (Ti is positive tree) and (s ∗ does not match Ti) then 20: flag = false; 21: if (Ti is negative tree) and (s ∗ matches Ti) then 22: flag = false 23: i=i+1 24: if flag = false then 25: output “s∗ is non-self” 26: else 27: output “s∗ is self” 9tục PNSA xây dựng cây bộ dò (cây nhị phân) giảm được nhiều nhất là (`− r+ 1).2r−2 nút so với cây bộ dò được tạo bởi chỉ một thuật toán PSA hay NSA, r ∈ {2, . . . , `− r + 1}. 2.2 Thử nghiệm Tiếp theo, chúng tôi thử nghiệm các tác động có thể có của việc giảm độ phức tạp quản lý bộ dò trong PNSA trên thực tế phát hiện (trung bình) thời gian phức tạp trong so sánh với NSA (PSA). Bảng 2.1 cho thấy kết quả bộ nhớ lưu trữ và thời gian thực hiện của PNSA so với NSA trên một số bộ S, ` và r. Bảng 2.1: So sánh mức độ giảm về thời gian và bộ nhớ. S ` r Bộ nhớ (%) Thời gian (%) 1000 50 12 0 0 2000 30 15 2.5 5 2000 40 17 25.9 42.7 2000 50 20 36.3 50 Chúng tôi tiến hành một thử nghiệm khác bằng cách chọn ` = 40, |S| = 20,000 (S là tập các xâu nhị phân được sinh ngẫu nhiên độ dài `) và giá trị r khác nhau (15 đến 40). Sau đó, `− r + 1 cây được tạo sử dụng NSA và `− r + 1 cây khác được tạo bằng PNSA. Tiếp theo cả hai tập bộ dò được sử dụng để phát hiện mọi xâu s ∈ S. Thử nghiệm này được xây dựng trên bộ dữ liệu Netflow. Tỉ lệ các nút được giảm thể hiện ở cột cuối cùng. Bảng 2.2: So sánh nút giảm trên dữ liệu Netflow. r NSA PNSA Giảm(%) 5 727 706 2.89 10 33,461 31,609 5.53 15 1,342,517 1,154,427 14.01 20 9,428,132 6,157,766 34.68 25 18,997,102 11,298,739 40.52 30 29,668,240 17,080,784 42.42 35 42,596,987 24,072,401 43.48 40 58,546,497 32,841,794 43.90 45 79,034,135 44,194,012 44.08 10 Chương 3 SINH TẬP BỘ DÒ THU GỌN 3.1 Thuật toán NSA mới Cho một tập khác rỗng S gồm các xâu self độ dài ` và một số nguyên r ∈ {1, . . . , `− r + 1}, trong phần này trình bày một thuật toán NSA mới dựa trên luật so khớp rcbvl. Một số cây tiền tố được sử dụng đầu tiên để tạo ra các bộ dò hoàn hảo từ tập S và sau đó tập này được sử dụng để phân biệt nếu một mẫu mới là self hoặc non-self. Thuật toán 2 đã tóm tắt bước đầu tiên của thuật toán NSA. Từ mô tả của thuật toán cho thấy cần |S|.(`− r + 1).r bước để tạo (`− r + 1) cây tiền tố và |D|.(`− r + 1).2r bước để tạo tập bộ dò D. Ví dụ 3.1. Cho ` = 5, r = 3 và tập self S = {s1 = 010101, s2 = 111010, s3 = 101101, s4 = 100011, s5 = 010111}. Từ các bước trong thuật toán 2 xây dựng một tập bộ dò đầy đủ (0001,1,2), (00100,1,4), (100,4,4), (011110,1,4), (11000,1,3) như sau: Bước đầu tập D được tạo như sau: (00,1,1), (011,1,1), (110,1,1). Sau mỗi bước lặp (dòng 13-29) tính lại tập D và D1 như sau: Vòng lặp i=2: D = {(0001,1,2); (0010,1,2); (0111,1,2); (1100,1,2)} và D1 = ∅. Vòng lặp i=3: D = {(00100,1,3); (01111,1,3); (11000,1,3)} và D1 = {(0001,1,2)}. Vòng lặp i=4: D = {(00100,1,4); (011110,1,4)} và D1 = {(0001,1,2); (11000,1,3); (100,4,4)}. Và bước cuối cùng D = D ⋃ D1 trong dòng 30, cuối cùng tập bộ dò đầy đủ là {(0001,1,2), (00100,1,4), (100,4,4), (011110,1,4), (11000,1,3)} Để phát hiện mỗi xâu s là self hay nonself, chúng tôi chỉ đơn giản là kiểm tra quá trình khớp theo luận rcbvl giữa xâu s với mỗi bộ dò trong tập D. Nếu khớp thì s là nonself, ngược lại thì s được kết luận là self. 11 Algorithm 3.1 Thuật toán sinh tập bộ dò rcbvl 1: procedure GenerationDetectors(S, `, r, D) 2: for i = 1, ..., `− r + 1 do Create an empty prefix tree Ti 3: for all s ∈ S do 4: for i = 1, ..., `− r + 1 do 5: insert every s[i . . . i+ r − 1] into Ti 6: for i = 1, ..., `− r + 1 do 7: for all non-leaf node n ∈ Ti and all σ ∈ Σ do 8: if no edge with label σ starts at n then 9: create a new leaf n′ and an edge (n, n′) labeled with σ. 10: delete every node n ∈ Ti from which none of the newly created leaves is reachable. 11: D1 = ∅ 12: D = { (s, 1, 1)|s ∈ T1 } 13: for i = 2, ..., `− r + 1 do 14: D2 = ∅ 15: for all (s, k, j) ∈ D do 16: if there exists a s′ ∈ Ti where s[i− k + 1...|s|] is prefix of it then 17: D2 = D2 ⋃{(s+ s′[|s| − j + k...|s′|], k, i)} 18: delete every node n ∈ Ti from which only nodes in the s′ is reachable 19: for all s′ ∈ Ti where s[i− k + 1...|s|] is prefix of it do 20: if |s| − i+ k < r then 21: D2 = D2 ⋃{(s[|s|] + s′, i− 1, i)} 22: else 23: D2 = D2 ⋃{(s′, i, i)} 24: delete every node n ∈ Ti from which only nodes in the s′ is reachable 25: else 26: D1 = D1 ⋃{(s, k, j)} 27: for all s′ ∈ Ti do 28: D2 = D2 ⋃{(s′, i, i)} 29: D = D2 30: D = D ⋃ D1 12 3.2 Thử nghiệm CSDL NetFlow được sử dụng trong thử nghiệm 1, trong đó một bộ dữ liệu ngẫu nhiên được sử dụng trong thử nghiệm 2. Dữ liệu NetFlow được chuyển sang xâu nhị phân thông qua hai bước. Bước một là ánh xạ mỗi thuộc tính sang dạng nhị phân. Sau bước này, tất cả các thuộc tính dạng xâu được xây dựng cho dữ liệu cả loại bình thường và bất thường. Bước 2 là nối các thuộc tính này lại. Sau bước này, tập dữ liệu chứa các xâu nhị phân có độ dài 49. Quá trình phân chia tập dữ liệu huấn luyện và kiểm tra cũng như giá trị r, ` cho 4 thử nghiệm được mô tả như trong bảng 3.1. Bảng 3.1: Phân bố của dữ liệu, tham số cho thử nghiệm cùng các kết quả. ` r Huấn luyện Kiểm tra Kích thước (bit) Thời gian (phút) r-chunk rcbvl r-chunk rcbvl Case 1 49 10 119,571 10,000 206,810 42,704 1 0.2 49 8 79,571 50,000 31,672 8,096 0.8 0.18 Case 2 30 12 25,000 25,000 367,092 79,222 4.1 0.75 30 14 40,000 10,000 2,324,056 392,815 8.65 1.4 Kết quả trong bảng 3.1 cho thấy thuật toán chúng tôi đề xuất giảm cả về kích thước của tập bộ dò và thời gian phân lớp dữ liệu so sánh với thuật toán tốt nhất đã công bố. 13 Chương 4 THUẬT TOÁN CHỌN LỌC NHANH 4.1 Thuật toán chọn lọc âm tính nhanh dựa trên bộ dò loại r-chunk Bảng 4.1 trình bày kết quả so sánh thu giữa thuật toán đề xuất với các thuật toán dựa trên bộ dò loại r-chunk đã công bố về mặt thời gian. Mọi thử nghiệm được tiến hành trên dữ liệu nhị phân. Tham số K = min{|S[i..i + r − 1]|, i = 1, . . . , ` − r + 1}. Tham số |D|, số lượng bộ dò mong muốn, chỉ thích hợp với các thuật toán sinh bộ dò tường minh. Thuật toán của chúng tôi và thuật toán đưa ra bởi Textor đạt được kết quả tương ứng với trường hợp sinh lượng bộ dò tối đa. Chúng tôi đề xuất thuật toán NSA cho phép cải thiện hiệu xuất đáng kể trong giai đoạn huấn luyện so với thuật toán hiệu quả đưa ra bởi Textor. Chúng tôi sử dụng các kí hiệu sau: Một mảng Q, với Q[s][c] là một con trỏ được sử dụng để tạo nút mới trong cây, s ∈ Σr−1, và c ∈ Σ; Một mảng P với P[i] là một cấu trúc gồm hai trường, 1 con trỏ P[i].end và 1 xâu P[i].str ∈ Σr−1. Bảng 4.1: So sánh thời gian chạy của các thuật toán đề xuất với các thuật toán đã công bố. Luật so khớp Thuật toán Huấn luyện Phát hiện r-chunk Stibor et al. (2004) (2r + |S|)(`− r + 1) |D|` Elberfeld, Textor (2009) r2|S|(`− r) |S|`2r Elberfeld, Textor (2011) |S|`r ` Luận án này |S|` ` r-contiguous D’haeseleer et al. (1996) (linear) (2r + |S|)(`− r) |D|` D’haeseleer et al. (1996) (greedy) 2r|S|(`− r) |D|` Wierzchon´ (2000) 2r(|D|(`− r) + |S|) |D|` Elberfeld, Textor 2009) |S|3`3r3 |S|2`3r3 Elberfeld, Textor (2011) |S|`r ` Luận án này |S|`+ (2r −K).`) `r Ví dụ 4.1. Đặt ` = 5, r = 3. Tập self S gồm 7 xâu như sau S = {s1 = 01111, s2 = 00111, 14 Algorithm 4.1 Thuật toán sinh tập bộ dò dương tính r-chunk 1: procedure GenerationPositiveDetectors(S, `, r, G) 2: Construct T1, P and Q initially 3: for i = r + 1, ..., ` do 4: for j = 1, ..., n do 5: if Q[P [j].str][sj[i]] = NULL then 6: Q[P [j].str][sj[i] = new() . create new end node pointed by Q[P [j].str][sj[i] 7: for j = 1, ..., n do 8: p = P [j].end . p and P [j].end point to the same end node of the tree 9: for c ∈ σ do 10: if (Q[P [j].str][c]! = NULL)&&(edge starts from p with label c does not exist) then 11: Create the edge starts from p with label c 12: P[j].end=the end note of the edge starts from p with label sj[i] 13: for j = 1, ..., n do 14: for c ∈ Σ do 15: Q[P [j].str][c] = NULL 16: P [j].str = P [j].str[2...r − 1] + sj[i] s3 = 10000, s4 = 10001, s5 = 10010, s6 = 10110, s7 = 11111} Algorithm 4.2 Thuật toán sinh tập bộ dò âm tính r-chunk 1: procedure GenerationNegativeDetectors(S, `, r, G) 2: GenerationPositiveDetectors(S, `, r, G) . create an acyclic directed graph G on prefix trees 3: Create a special node . this node is considered an accept state in corresponding automaton 4: for every node n ∈ G do 5: if n is a root of a complete sub tree then 6: delete the tree root n, except for n 7: else 8: create new edge from n to the special node Thuật toán 4.3 là tóm tắt thuật toán đề xuất Chunk-NSA. Trong thuật toán này, chúng tôi sử dụng một tập self S, một số nguyên r ∈ {1, . . . , ` − r + 1}, mỗi xâu s∗ được phát hiện bởi một mô hình tiền tố DAG G. Chunk-NSA sẽ phát hiện s∗ là self hay nonself. Định lý 4.1. Cho S ⊆ Σ` và r ∈ {1, . . . , `}, thuật toán Chunk-NSA xây dựng cây tiền tố DAG G với L(G) ⊆ S trong thời gian O(|S|.`.|Σ|) và kiểm tra s∗ ∈ L(G) trong thời gian O(`). 4.2 Thuật toán chọn lọc âm tính nhanh dựa trên bộ dò loại r-contiguous 15 Algorithm 4.3 Thuật toán chọn lọc âm tính nhanh 1: procedure Chunk-NSA(s∗, S, `, r, G) 2: GenerationNegativeDetectors(S, `, r, G) . create an acyclic directed graph G presenting a NSA 3: if s∗ ∈ L(G) then 4: output ”s∗ is self” 5: else 6: output ”s∗ is nonself” Hai mảng P và Q được sử dụng với ý nghĩa tương tự như trong phần trước. Ngoài ra, chúng tôi sử dụng hai tập hợp con trỏ P1 và P2 cho bộ dò r- chunk. Chúng sẽ hoán đổi vai trò lẫn nhau ở cuối mỗi bước lặp. Định lý 4.2. Tồn tại một thuật toán mà cho trước tập S ⊆ Σ` và r ∈ {1, . . . , `}, xây dựng otomat hữu hạn M với L(M) ∩ Σ` = CONT (S, r) trong thời gian O(|S|.`.|Σ|+ (Σr −K).`), với K= min{|S[i..i+ r − 1]|, i = 1, . . . , `− r + 1}. 4.3 Thử nghiệm Tôi tôi sử dụng cơ sở dữ liệu NetFlow và một bộ dữ liệu ngẫu nhiên để dùng trong thử nghiệm 1 và thử nghiệm 2 tương ứng. Trong Bảng 4.2, thời gian chạy của NSA đề xuất bởi Textor (2011) trong thử nghiệm 1 và thử nghiệm 2 tương ứng trong các cột b và d. Thời gian chạy của thuật toán đề xuất Chunk-NSA trong thử nghiệm 1 và thử nghiệm 2 tương ứng trong cột c và e. Kết quả thời gian huấn luyện cho thấy thuật toán đề xuất có thời gian huấn luyện gần như không phụ thuộc vào giá trị ngưỡng so khớp r. Ngoài ra, tỉ lệ thời gian so khớp giữa thuật toán của Textor và thuật toán đề xuất tăng dần và tiệm cận với r. 16 Algorithm 4.4 Thuật toán sinh tập bộ dò loại r-contiguous 1: procedure Cont-NSA(S, r, G) Input: A set of self strings S ⊆ Σ`, a matching threshold r ∈ {1, . . . , `}. Output: An automaton G presenting negative r-contiguous detectors set. 2: G = P1 = ∅ 3: for s ∈ Σr \ S[1 . . . r] do 4: insert s into G and create p.end that points to the leaf node in path s 5: p.str = s[2 . . . r] 6: P1 = P1 ∪ {p} 7: for i = r + 1, ..., ` do 8: for j = 1, ..., |S| do 9: if Q[P [j].str][sj[i]] = NULL then 10: Q[P [j].str][sj[i]] = new() 11: P2 = ∅ 12: for each p ∈ P1 do 13: for c ∈ Σ do 14: if (Q[p.str][c] = NULL) then 15: Q[p.str][c] = new() 16: p.str = p.str[2...r − 1] + c 17: p.end = Q[p.str][c] 18: P2 = P2 ∪ {p} 19: else 20: if Q[p.str][c] is newly created in this inner for loop then 21: p.str = p.str[2...r − 1] + c 22: p.end = Q[p.str][c] 23: P2 = P2 ∪ {p} 24: for j = 1, ..., |S| do 25: Q[P [j].str][sj[i]] = NULL 26: P [j].str = P [j].str[2...r − 1] + sj[i] 27: for each p ∈ P1 do 28: for c ∈ Σ do 29: Q[p.str][c] = NULL 30: P1 = P2 31: for each node n ∈ G do 32: if n is not reachable to a leaf node ∈ P1 then 33: delete n 34: turn G into an automaton 17 Bảng 4.2: So sánh Chunk-NSA với NSA bởi Textor. r Thử nghiệm 1 Thử nghiệm 2 a b c b/c d e d/e 10 1330 454 2.9 1490 482 3.1 11 1395 439 3.2 1633 472 3.5 12 1564 454 3.4 637 360 4.5 13 1767 435 4.1 2134 453 4.7 14 1771 418 4.2 2276 451 5.0 15 2092 486 4.3 2793 450 6.2 16 1985 437 4.5 3086 365 8.5 17 2071 391 5.3 4079 427 9.6 18 2249 410 5.5 4509 422 10.7 19 2345 375 6.3 5312 470 11.3 20 2859 359 7.0 6796 437 15.6 18 Chương 5 HỆ MIỄN DỊCH NHÂN TẠO LAI CHO AN NINH MẠNG 5.1 Thuật toán lai chọn lọc dương tính bộ dò r-chunk Cho trước `, r, và tập dữ liệu bình thường N ⊂ Σ`, tập dữ liệu bất thường A ⊂ Σ`. Thuật toán 5.1 và 5.3 tạo ra các cây self và cây nonself tương ứng. Một đối tượng dữ liệu mới s ∈ Σ` được phát hiện là self hay nonself bởi thuật toán 5.3.. Algorithm 5.1 Thuật toán sinh các cây self 1: procedure SelfTreesGeneration(N , `, r) 2: for i = 1, ..., ` do 3: Create an empty tree TNi 4: for all s ∈ Nr do 5: for i = 1, ..., ` do 6: insert every s[i . . . i+ r − 1] into TNi Algorithm 5.2 Thuật toán sinh các cây nonself 1: procedure NonselfTreesGeneration(A, `, r) 2: for i = 1, ..., ` do 3: Create an empty tree TAi 4: for all s ∈ Ar do 5: for i = 1, ..., ` do 6: insert every s[i . . . i+ r − 1] into TAi Trong thuật toán 5.3, Leaf(s, T ) là hàm trả về tần suất tương ứng với xâu s ∈ Σr, giá trị này nằm ở lá của cây trên đường đi s. Các tham số d1 và d2 tương ứng tính tổng tần suất của s trong cây self N và trong cây nonself A. Bốn tham số t1, t2, t3, t4 được sử dụng trong thuật toán PSA2 nhằm điều chỉnh hiệu suất phát hiện. 19 Algorithm 5.3 Thuật toán PSA2 phát hiện s ∈ Σ` là self hay nonself 1: procedure Detection(N , A, s, `, r) 2: SelfTreesGeneration(N , `, r) 3: NonselfTreesGeneration(A, `, r) 4: d1 = d2 = d3 = 0 5: Create a string sr as ring representation of s 6: for i = 1, ..., ` do 7: s′ = sr[i . . . i+ r − 1] 8: if s′ /∈ TNi then 9: d1 = d1 + 1 10: if s′ /∈ TAi then 11: d2 = d2 + 1 12: if Leaf(s′, TNi) < Leaf(s ′, TAi).t1 then 13: d3 = d3 + 1 14: if d1 > t2 then output s is nonself 15: else if d2 > t3 then output s is self 16: else if d3.t4 > ` then output s is nonself 17: else output s is self 5.2 Thử nghiệm 5.2.1 Cơ sở dữ liệu Chúng tôi sử dụng hai bộ dữ liệu thử nghiệm là NetFlow và TU. Tương tự như các công bố trước, chúng tôi sử dụng 4 đặc trưng của NetFlow cho thử nghiệm 1, 5, 6, và 7; 7 đặc đặc trưng của NetFlow cho thử nghiệm 2 và 3; 4 đặc trưng của UT cho thử nghiệm 4. Bảng 5.1: Các đặc trưng cho NIDS. Thử nghiệm Cơ sở dữ liệu Đặc trưng 1 NetFlow Packets, Octets, Duration, Flags 2, 3 NetFlow Packets, Octets, Duration, Scr_port, Dst_port, Flags, IP protocol 4 UT Packets, Octets, Duration, Flags 5, 6, 7 NetFlow Packets, Octets, Duration, Flags 5.2.2 Tiền xử lý dữ liệu Phương pháp tiền xử lý cho các tính năng của tập dữ liệu huấn luyện bao gồm hai bước. Bước đầu tiên là chuyển đổi tất cả các thuộc tính thành chuỗi nhị phân. Sau bước này, tất cả các thuộc tính của cả dữ liệu bình thường và bất thường đều ở dạng nhị phân. Bước thứ hai là để ghép những các chuỗi nhị phân biểu diễn các thuộc tính lại với nhau. Sau bước này, tập dữ liệu huấn luyện chứa các xâu nhị phân độ dài như nhau. Trong giai đoạn phát hiện, mỗi thuộc tính trong dữ liệu cần phát hiện sẽ được chuyển đổi thành 20 một chuỗi nhị phân sử dụng ánh xạ của dữ liệu huấn luyện. Nếu một giá trị thuộc tính không có trong phạm vi tương ứng với miền giá trị của dữ liệu huấn luyện, thì dạng biểu diễn nhị phân của nó sẽ được chọn ngẫu nhiên. Ví dụ 5.1. Cho tập dữ liệu huấn luyện gồm các flow hai thuộc tính là S = {N,A}, với N = {n1 = (1; 8);n2 = (0.5; 6)} và A = {a1 = (1; 9); a2 = (1; 6), a3 = (0.5; 9)}. Phạm vi của thuộc tính đầu tiên và thứ hai tương ứng là {0.5; 1} và {6; 8;9}. Do đó, chúng ta sử dụng một bit (hai bit) để mã hóa thuộc tính đầu tiên (thứ hai). Một ánh xạ các dãy số {0.5;1} và {6; 8; 9} được chuyển đổi tương ứng thành xâu nhị phân {0; 1} và {00; 01; 10}. Cuối cùng, tập huấn luyện chứa các xâu có độ dài 3. S = {N,A}, với N = {n1 = 101;n2 = 000} và A = {a1 = 110; a2 = 100, a3 = 010}. Giả sử một flow s = (2; 8) là một bộ dữ liệu test. Thuộc tính thứ nhất (2 /∈ {0.5; 1}) được mã hóa một cách ngẫu nhiên một trong hai giá trị 0 hoặc 1. Trong khi đó, thuộc tính thứ hai (8 ∈ {6; 8; 9}) nên được mã hóa thành 01. Cuối cùng, dạng nhị phâ

Các file đính kèm theo tài liệu này:

tom_tat_luan_an_cai_tien_mot_so_thuat_toan_trong_mien_dich_n.pdf