Luận án Tiếp cận máy học và hệ chuyên gia để nhận dạng, phát hiện virus máy tính

MỤC LỤC

DANH MỤC BẢNG BIỂU. vi

DANH MỤC HÌNH ẢNH. vii

KÝ HIỆU VÀ VIẾT TẮT. ix

CHƯƠNG 1 - MỞ ĐẦU.1

1.1. Giới thiệu đềtài .1

1.1.1. Lý do chọn đềtài .1

1.1.2. Mục tiêu của đềtài.2

1.1.3. Các giai đoạn thực hiện đềtài.2

1.2. Đối tượng, phạm vi nghiên cứu của đềtài.3

1.2.1. Virus máy tính và các hệthống đích .3

1.2.2. Các hệhọc và khám phá tri thức .3

1.2.3. Các hệchuyên gia .4

1.3. Ý nghĩa khoa học và thực tiễn của đềtài .4

1.4. Cấu trúc của luận án.5

CHƯƠNG 2 – CÁC CƠCHẾCHẨN ĐOÁN VIRUS MÁY TÍNH VÀ MỘT

SỐVẤN ĐỀLIÊN QUAN.7

2.1. Khảo sát virus máy tính .7

2.2. Các cơchếchẩn đoán virus máy tính .9

2.2.1. Phát hiện virus dựa vào chuỗi nhận dạng .11

2.2.2. Phát hiện virus dựa vào hành vi.11

2.2.3. Phát hiện virus dựa vào ý định .12

2.3. Các hệphòng chống virus máy tính.12

2.3.1. Các sản phẩm trong nước .12

2.3.2. Các sản phẩm nước ngoài .13

2.4. Tình hình nghiên cứu virus máy tính.13

2.4.1. Tình hình nghiên cứu, ứng dụng trong nước .14

2.4.2. Tình hình nghiên cứu, ứng dụng ởnước ngoài .15

2.4.3. Các vấn đềmởcủa công nghệanti-virus.15

2.5. Hướng giải quyết của đềtài .16

2.5.1. Các luận điểm của đềtài .17

2.5.2. Giải pháp của đềtài .18

2.6. Các hệcơsởtri thức .19

2.6.1. Các Hệchuyên gia .19

2.6.1.1. Cơsởtri thức.20

2.6.1.2. Động cơsuy diễn .20

2.6.2. Các hệKhám phá tri thức từcơsởdữliệu .20

2.6.2.1. Giới thiệu.20

2.6.2.2. Tiến trình khám phá tri thức .21

2.6.3. Các Hệhọc.22

2.6.3.1. Học giám sát.23

2.6.3.2. Học không giám sát.23

2.6.3.3. Các hình thức học.24

2.6.4. Các nghiên cứu máy học nhận dạng virus máy tính.25

2.6.5. Các nghiên cứu hệchuyên gia nhận dạng virus máy tính .27

2.7. Tổng kết chương .29

CHƯƠNG 3 – CƠCHẾMÁY HỌC CHẨN ĐOÁN VIRUS MÁY TÍNH.30

3.1. Phân hoạch bài toán chẩn đoán virus máy tính.30

3.2. Các độ đo chất lượng chẩn đoán.31

3.3. Cơchếmáy học chẩn đoán virus máy tính .31

3.3.1. Bài toán 1: Chẩn đoán lớp virus C-class .31

3.3.1.1. Phát biểu bài toán .31

3.3.1.2. Tổchức cơsởdữliệu và trích chọn đặc trưng.32

3.3.1.3. Thuật toán chẩn đoán lớp C-class .32

3.3.1.4. Phân tích, đánh giá thuật toán chẩn đoán lớp C-class.33

3.3.2. Bài toán 2: Chẩn đoán lớp virus D-class .34

3.3.2.1. Phát biểu bài toán .34

3.3.2.2. Tổchức cơsởdữliệu.35

3.3.2.3. Tổchức không gian tìm kiếm .36

3.3.2.4. Trích chọn đặc trưng .37

3.3.2.5. Luật nhận dạng virus lớp D-class.37

3.3.2.6. Thực nghiệm bài toán chẩn đoán lớp D-class.38

3.3.3. Bài toán 3: Chẩn đoán lớp virus B-class .39

3.3.3.1. Phát biểu bài toán .39

3.3.3.2. Tạo lập cơsởtri thức .40

3.3.3.3. Tổchức cơsởdữliệu.41

3.3.3.4. Trích chọn đặc trưng .41

3.3.3.5. Xây dựng không gian trạng thái.42

3.3.3.6. Cơchếphân tích.43

3.3.3.7. Đánh giá độphức tạp và kết quảthực nghiệm.44

3.3.4. Bài toán 4: Chẩn đoán lớp virus E-class.45

3.3.4.1. Phát biểu bài toán .45

3.3.4.2. Tổchức cơsởdữliệu virus, trích chọn đặc trưng .45

3.3.4.3. Xây dựng cơsởtri thức.46

3.3.4.4. Tổchức cơsởdữliệu thông tin hệthống .46

3.3.4.5. Thiết kế động cơsuy diễn .47

3.3.4.6. Giải thích thuật toán SID .47

3.3.4.7. Các tác tửhoạt động.49

3.3.4.8. Kết quảthực nghiệm .50

3.3.4.9. Đánh giá phương pháp chẩn đoán lớp virus E-class.51

3.3.5. Bài toán 5: Chẩn đoán lớp virus A-class .52

3.3.5.1. Lược sửvấn đềnhận dạng mã độc.52

3.3.5.2. Phát biểu bài toán .54

3.3.5.3. Tổchức cơsởdữliệu virus.54

3.3.5.4. Biểu diễn dữliệu virus bằng mô hình không gian vectơ.55

3.3.5.5. Rút trích đặc trưng .55

3.3.5.6. Ước lượng tỷlệmã độc.56

3.3.5.7. Ví dụminh họa bài toán A-class .57

3.3.5.8. Kết quảthực nghiệm .59

3.3.5.9. Bàn luận vềphương pháp chẩn đoán lớp A-class .59

3.4. Tổng kết chương .60

CHƯƠNG 4 – THIẾT KẾXÂY DỰNG HỆTHỐNG VÀ THỰC NGHIỆM.62

4.1. Mô hình tổng quát của hệ.62

4.2. Tổchức cơsởtri thức .62

4.2.1. Mô tả đối tượng .62

4.2.2. Luật nhận dạng virus .64

4.3. Giai đoạn Học dữliệu .65

4.3.1. Trích chọn dữliệu.65

4.3.2. Phân cụm dữliệu .65

4.3.2.1. Tổchức cấu trúc dữliệu.66

4.3.2.2. Thuật toán ACV gom cụm trên V-Tree .67

4.3.2.3. Đánh giá thuật toán ACV.71

4.3.3. Rút luật phân bốtrịthuộc tính .73

4.3.3.1. Rút luật phân cụm trên V-Tree .73

4.3.3.2. Rút luật phân cụm trên ma trận dữliệu.74

4.4. Giai đoạn Xửlý dữliệu .76

4.4.1. Phân loại dữliệu chẩn đoán.79

4.4.1.1. Phân loại đối tượng .79

4.4.1.2. So khớp luật phân nhóm .82

4.4.2. Chẩn đoán virus bằng kỹthuật hợp nhất dữliệu .83

4.4.2.1. Tinh chếdữliệu trong tiến trình khám phá tri thức .83

4.4.2.2. Tinh chếdữliệu NULL bằng kỹthuật hợp nhất dữliệu.83

4.4.2.3. Virus lạvà dữliệu NULL .84

4.4.2.4. Dựbáo virus lạbằng kỹthuật hợp nhất dữliệu .86

4.4.2.5. Kết quảthực nghiệm .88

4.4.2.6. Bàn luận vềkỹthuật DF2RV .90

4.5. Kết quảthực nghiệm .90

4.5.1. Đánh giá hiệu quảnhận dạng virus của MAV.91

4.5.2. Đánh giá tốc độthực thi của MAV.92

4.6. Tổng kết chương .94

CHƯƠNG 5 - KẾT LUẬN.95

5.1. Những đóng góp mới của đềtài.96

5.2. Hạn chếcủa đềtài, cách khắc phục .97

5.3. Hướng phát triển tương lai.98

5.4. Đềnghịvềcác nghiên cứu tiếp theo.99

CÔNG TRÌNH ĐÃ CÔNG BỐ.100

TÀI LIỆU THAM KHẢO.102

6 trang | Chia sẻ: maiphuongdc | Lượt xem: 1831 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Luận án Tiếp cận máy học và hệ chuyên gia để nhận dạng, phát hiện virus máy tính, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Mở đầu 1.1. Giới thiệu đề tài 1.1.1. Lý do chọn đề tài Ngày nay công nghệ thông tin trở thành một lĩnh vực mũi nhọn trong công cuộc phát triển kinh tế xã hội. Cùng với công nghệ sinh học và năng lượng mới, công nghệ thông tin (CNTT) vừa là công cụ, vừa là động lực thúc đẩy quá trình công nghiệp hóa, hiện đại hóa đất nước. Trong giai đoạn hội nhập quốc tế, CNTT giữ vai trò đặc biệt quan trọng trong việc xử lý tính toán dữ liệu, kết nối thông tin liên lạc của các đơn vị tổ chức trong và ngoài nước. Bảo vệ an toàn dữ liệu cho các hệ thống tính toán, giữ vững an ninh mạng, đảm bảo liên lạc thông suốt, duy trì chất lượng phục vụ luôn là vấn đề quan tâm hàng đầu của các nhà quản trị hệ thống. Sự phát triển của Internet tạo điều kiện cho các loại hình xâm nhập luận lý trái phép vào các hệ thống CNTT cả chiều rộng (lây lan trên quy mô toàn thế giới) và chiều sâu (can thiệp vào hạt nhân hệ thống đích). Mỗi ngày các hệ thống mạng phải đối phó với hàng loạt đợt tấn công bằng mã độc (malicious, harmful code) của tin tặc, khiến nhiều hệ thống bị đình trệ, tắc nghẽn và tê liệt; gây thiệt hại không nhỏ. Dự án nghiên cứu về sự phát triển toàn cầu của Viện Hàn lâm Công nghệ Quốc gia Mỹ (National Academy of Engineering, USA - 2008) nhận định vấn đề an ninh thông tin và virus máy tính là một trong 14 thách thức công nghệ lớn nhất của thế kỷ 21 mà nếu giải quyết được, cuộc sống con người sẽ được cải thiện đáng kể [92]. Virus máy tính (từ đây gọi tắt là virus, phân biệt với từ “virút” trong y học) thực sự trở thành mối đe dọa thường xuyên và cấp bách của các hệ thống CNTT hiện nay. Chương 1 - 2 - Trong bối cảnh đó, đề tài “Tiếp cận Máy học và Hệ chuyên gia để nhận dạng, phát hiện virus máy tính” được tiến hành nhằm góp phần giải quyết vấn đề bảo vệ an toàn dữ liệu cho các hệ thống CNTT ở Việt Nam. 1.1.2. Mục tiêu của đề tài Để phòng chống virus máy tính, các hệ thống CNTT sử dụng các phần mềm chống virus (anti-virus, gọi tắt là AV). Qua khảo sát, phần lớn các AV chỉ phát huy tác dụng trên các mẫu virus xác định, khả năng dự đoán virus mới còn hạn chế nên thường bị động khi có dịch virus bùng phát. Trên cơ sở xác định loại hình nghiên cứu của đề tài là nghiên cứu ứng dụng, mục tiêu của đề tài là tìm giải pháp cho bài toán nhận dạng virus máy tính và lựa chọn mô hình thích hợp để xây dựng Hệ Phòng chống virus máy tính hướng tiếp cận Máy học và Hệ chuyên gia MAVES - Machine Learning Approach to Anti- Virus Expert System (gọi tắt là MAV) với các chỉ tiêu cơ bản: - Nhận dạng nhanh, phát hiện chính xác các trường hợp lây nhiễm, tiềm ẩn của các virus đã biết trên hệ thống đích. - Có khả năng dự báo biến thể virus; ngăn chận kịp thời, chủ động phòng tránh các tình huống lây nhiễm khi hệ thống chưa cập nhật mẫu virus mới. 1.1.3. Các giai đoạn thực hiện đề tài Quá trình nghiên cứu đề tài được tiến hành qua các bước như sau: • Giai đoạn 1 - Thu thập dữ liệu: Khảo sát tình hình thực tiễn, thu thập dữ liệu (mẫu virus, các phần mềm diệt virus trong nước và nước ngoài, các bài viết, tài liệu liên quan…). Nghiên cứu tài liệu, tìm hiểu các phương pháp, tiếp cận đã biết, tham khảo các anti-virus đang sử dụng phổ biến. Phác họa bức tranh tổng thể, tìm hiểu các công nghệ nhận dạng virus máy tính qua các thời kỳ. • Giai đoạn 2 - Phân loại dữ liệu: Sắp xếp, phân loại, tìm hiểu đặc điểm dữ liệu, cơ chế lây nhiễm của từng loại virus trên vật chủ tương ứng. Sàng lọc, loại bỏ dữ liệu dư thừa (các mẫu virus “chết” hoặc không phù hợp với môi - 3 - trường, điều kiện nghiên cứu…). Bổ sung, làm giàu dữ liệu từ nhiều nguồn khác nhau (dữ liệu mẫu của các lớp vật chủ, tập chỉ thị thi hành…). • Giai đoạn 3 - Xử lý dữ liệu: Dựa vào các lớp dữ liệu đã phân loại, lựa chọn, sắp xếp dữ liệu, xây dựng các mô hình, công cụ xử lý thích hợp trên cơ sở lý thuyết máy học. Phân tích, nhận xét, đánh giá hiệu quả của từng mô hình. • Giai đoạn 4 - Tổng kết: Khái quát hóa và rút ra kết luận chung cho đề tài. Viết báo cáo, công bố kết quả nghiên cứu đề tài. 1.2. Đối tượng, phạm vi nghiên cứu của đề tài 1.2.1. Virus máy tính và các hệ thống đích Có ba vấn đề cân nhắc khi nghiên cứu virus máy tính là môi trường (hệ điều hành, kiến trúc máy), phương tiện (vật chứa tin, cơ chế lan tỏa) và cơ hội (cộng đồng sử dụng, tần suất kích hoạt, kỹ thuật lây lan…). Mặc dù có nhiều loại virus máy tính lây nhiễm trên nhiều hệ thống và môi trường khác nhau, nhưng do tính phổ biến của Windows nên virus máy tính trên hệ điều hành này cũng nhiều hơn. Để đáp ứng nhu cầu thực tế bức thiết, đề tài tập trung nghiên cứu các loại virus máy tính hoạt động trên các hệ điều hành (HĐH) Windows 9x/Me và Windows NT/2000/XP dành cho máy tính IBM-PC (máy vi tính cá nhân để bàn hoặc xách tay, sử dụng kiến trúc vi xử lý x86/Pentium hoặc tương thích). Mặc dù vậy, đề tài cũng được định hướng nghiên cứu để có thể mở rộng kết quả nghiên cứu cho các hệ anti-virus sử dụng các HĐH khác Windows. 1.2.2. Các hệ học và khám phá tri thức Con người đã tốn rất nhiều công sức để giải quyết bài toán nhận dạng virus máy tính. Tuy nhiên, các anti-virus vẫn chưa làm chủ được tình hình. Virus máy tính vẫn liên tục quấy nhiễu, thâm nhập mạng, đánh cắp thông tin, làm sai lệch dữ liệu nhiều hệ thống CNTT trên thế giới. Virus máy tính là sản phẩm của con người. Cuộc chiến giữa AV và virus máy tính là cuộc đấu trí giữa chuyên gia hệ thống và tin tặc, là trò chơi trí tuệ của con người. Xuất phát từ nhận định này, đề tài chọn cách phối hợp tiếp cận dựa trên - 4 - tri thức (knowledge based) và tiếp cận học (machine learning) để tìm lời giải cho bài toán nhận dạng virus máy tính. Để kiểm tra và đánh giá kết quả, một phần mềm thực nghiệm sẽ được thiết kế trên mô hình các hệ khám phá tri thức nhằm phát hiện các quy luật hình thành virus mới từ cơ sở dữ liệu (CSDL) virus đã biết. 1.2.3. Các hệ chuyên gia Các hệ chuyên gia là một loại hệ cơ sở tri thức (CSTT) được thiết kế để phần mềm máy tính hoạt động như một chuyên gia (human expert) thực thụ trong một lĩnh vực cụ thể. Dựa trên tri thức, hệ chuyên gia cho phép mô hình hóa tri thức của chuyên gia (kiến thức, kinh nghiệm, lời khuyên…) để giải quyết các vấn đề phức tạp trong từng lĩnh vực. Trong y học, bác sĩ cần khám bệnh để biết nguyên nhân (người bệnh nhiễm loại virút gây bệnh nào, đặc điểm ra sao), chẩn đoán bệnh (dựa vào triệu chứng, xác định bệnh), xét các điều kiện ràng buộc (sức khoẻ bệnh nhân, trang thiết bị y tế, chi phí cho phép…) và lựa chọn phương pháp chữa trị (phác đồ điều trị, công nghệ xử lý bệnh…). Trong tin học, virus máy tính là tác nhân gây bệnh và các anti-virus là “thuốc” chữa bệnh cho máy tính. Do “bệnh nhân” (máy tính nhiễm virus) không thể đến “bệnh viện” (phòng nghiên cứu phần mềm) để được các “bác sĩ” (chuyên gia anti-virus) khám chữa trị bệnh, giải pháp của đề tài là xây dựng một hệ cơ sở tri thức về virus máy tính nhằm tư vấn chữa bệnh cho máy dựa trên kinh nghiệm của chuyên gia anti-virus đã tích hợp trong hệ thống. 1.3. Ý nghĩa khoa học và thực tiễn của đề tài Giống như trong công tác vệ sinh dịch tễ, trong lĩnh vực phòng chống virus máy tính, phòng bệnh vẫn là chủ yếu với các hoạt động cơ bản: nhận dạng bệnh cũ và dự báo bệnh mới. Các hoạt động này đều dựa vào các kỹ thuật chủ đạo của lớp bài toán nhận dạng. Giải quyết vấn đề an toàn dữ liệu, đề tài nhận dạng virus máy tính hướng tiếp cận máy học còn làm phong phú thêm tập lời giải cho các bài toán nhận dạng cùng loại và có thể mở rộng để nhận dạng các đối tượng biến đổi. - 5 - Ở nước ta mặc dù đã có nhiều đề tài nghiên cứu về virus máy tính, nhưng chưa có công trình nào đề cập và giải quyết bài toán nhận dạng biến thể virus máy tính một cách khoa học và toàn diện. Không chỉ dừng lại ở việc nghiên cứu lý thuyết, đề tài cũng đặt ra mục tiêu thực tiễn là xây dựng một hệ phần mềm thông minh chống virus máy tính, đáp ứng kịp thời nhu cầu bức xúc của xã hội, từng bước giải quyết nạn virus máy tính, góp phần làm trong sạch môi trường CNTT hiện nay. 1.4. Cấu trúc của luận án Luận án gồm năm chương. Chương 1 dẫn nhập và giới thiệu chung về đề tài. Chương 2 trình bày các cơ chế chẩn đoán virus máy tính và một số vấn đề liên quan. Trước tiên, Chương 2 sẽ giới thiệu các chiến lược nhận dạng virus; khảo sát các hoạt động nghiên cứu ứng dụng phòng chống virus trong và ngoài nước; phân tích các vấn đề mở của công nghệ anti-virus; đánh giá tình hình và đề xuất hướng tiếp cận, phương pháp giải quyết vấn đề. Kế tiếp, Chương 2 trình bày cơ sở lý thuyết của các hệ khám phá tri thức từ CSDL, các hệ học và hệ chuyên gia. Phần cuối Chương 2 trình bày quá trình tìm hiểu, phân tích các nghiên cứu hướng tiếp cận máy học và hệ chuyên gia trong lĩnh vực nhận dạng mã độc. Các Chương 3 và Chương 4 chứa nội dung nghiên cứu chính của đề tài. Chương 3 trình bày các cơ chế máy học chẩn đoán virus máy tính. Bằng chiến lược “chia để trị”, bài toán nhận dạng virus máy tính được phân hoạch thành năm bài toán con. Mỗi bài toán được xây dựng dựa vào các kỹ thuật học từ đơn giản đến phức tạp: học vẹt (lớp text virus), học tương tự (lớp macro virus), học chỉ dẫn (lớp boot virus), học tình huống (lớp file virus) và học quy nạp (lớp mã độc, sâu trình và trojan horse). Chương 4 trình bày phương pháp thiết kế hệ thống MAV, hệ phần mềm thực nghiệm xây dựng trên cơ sở các nghiên cứu lý thuyết của đề tài. Phần đầu Chương 4 mô tả mô hình cơ sở tri thức và mô hình tổng quát của hệ. Áp dụng tiếp cận máy học và hệ chuyên gia, MAV sẽ được triển khai qua ba giai đoạn. Giai đoạn Học dữ liệu - mức chuyên gia, giai đoạn Xử lý dữ liệu - thành phần cốt lõi (kernel) và giai đoạn Tổng kết - mức người dùng. Triển khai trên hệ thống mạng theo mô hình - 6 - client-server, MAV được thiết kế gồm hai gói cài đặt chạy trên máy chủ (dành cho chuyên gia) và các máy trạm (dành cho người dùng). Mỗi gói có chức năng, cấu trúc dữ liệu sử dụng các thuật giải học phân cụm, phân lớp dữ liệu khác nhau. Phần cuối Chương 4 trình bày các kết quả thực nghiệm của đề tài. Chương 5 tổng kết các đóng góp về mặt lý thuyết, đánh giá ý nghĩa thực tiễn, phân tích hạn chế, đề xuất các biện pháp khắc phục và dự kiến hướng phát triển tương lai của đề tài. Phần tài liệu tham khảo gồm (i) các công trình đã công bố trong các tạp chí chuyên ngành, kỷ yếu hội nghị khoa học trong nước - quốc tế và (ii) các tài liệu tham khảo sử dụng trong quá trình nghiên cứu đề tài. Cuối cùng, phần phụ lục nhằm làm rõ các vấn đề liên quan đến đề tài gồm Phụ lục 1: Khảo sát virus máy tính; Phụ lục 2: Các định dạng dữ liệu nhiễm virus máy tính; Phụ lục 3: Các tác tử hoạt động và thuật toán SID Tìm kiếm – Suy luận – Chẩn đoán; Phụ lục 4: Phân tích hệ thống phần mềm MAV; Phụ lục 5: Phân hệ máy chủ MAVSR và Phụ lục 6: Phân hệ máy trạm MAVCL.

Các file đính kèm theo tài liệu này:

4.pdf
0.pdf
1.pdf
2.pdf
3.pdf
5.pdf
6.pdf
7.pdf
8.pdf
9.pdf
10.pdf