LỜI CAM ĐOAN . i
LỜI CẢM ƠN . ii
MỤC LỤC .iii
DANH MỤC CÁC KÝ HIỆU VIẾT TẮT. iv
DANH MỤC CÁC BẢNG BIỂU . v
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ . vi
MỞ ĐẦU . 1
CHƯƠNG 1. TỔNG QUAN . 4
1.1. NGHIÊN CỨU LIÊN QUAN . 4
1.2. GIỚI THIỆU VỀ NỀN TẢNG ANDROID. 5
1.2.1. Lịch sử hình thành và phát triển . 5
1.2.2. Một số phương pháp lây nhiễn mã độc trên nền tảng Android . 8
1.3. PHÂN TÍCH MÃ ĐỘC . 9
1.3.1. Các phương pháp phân tích mã độc trên Android. 10
1.3.2. Ưu và Nhược điểm của phân tích tĩnh và phân tích động . 16
1.4. GIỚI THIỆU VỀ HỌC MÁY . 17
1.4.1. Phân loại các thuật toán học máy. 19
1.4.2. Giới thiệu một số thuật toán học máy hiệu quả với bài toán. 20
CHƯƠNG 2. ỨNG DỤNG MÔ HÌNH HỌC MÁY TRONG PHÁT HIỆN
NGUY CƠ MÃ ĐỘC TRÊN NỀN TẢNG ANDROID . 25
2.1. PHƯƠNG PHÁP THU THẬP DỮ LIỆU THÔ . 25
2.1.1. Thu thập dữ liệu . 25
2.1.2. Giải thích cấu tạo file APK. 25
2.1.3. Thực hiện dịch ngược file APK để lấy thuộc tính với apktool 28
2.1.4. Trích xuất feature từ dữ liệu thô được dịch ngược từ apktool. 30
2.2. PHƯƠNG PHÁP CHUẨN HÓA TẬP THUỘC TÍNH . 31
2.2.1. Tập thuộc tính. 31
2.2.2. Chuyển dữ liệu sang không gian vector. 34
CHƯƠNG 3. ĐỀ XUẤT MÔ HÌNH, ĐÁNH GIÁ . 37
CHƯƠNG 4. KẾT LUẬN. 45
TÀI LIỆU THAM KHẢO . 46
55 trang |
Chia sẻ: honganh20 | Ngày: 05/03/2022 | Lượt xem: 627 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Ứng dụng mô hình học máy trong phát hiện nguy cơ mã độc trên nền tảng android, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ích tĩnh:
Đặc điểm của phương pháp phân tích tĩnh này là sẽ kiểm tra, phân
tích Malware mà không thực thi mã độc. Cơ bản của việc phân tích tĩnh
bao gồm các bước kiểm tra các file thức thi mà không cần các hướng dẫn
thực tế. Qua bước phân tích tĩnh sẽ xác nhận cho chúng ta liệu file đó có
phải là mã độc hay không, cung cấp thông tin về chức năng của chúng,
đôi khi những thông tin này sẽ cung cấp cho người dùng những dấu hiệu
nhận dạng các loại Malware.
Là phương pháp đơn giản và có thể thực hiện một cách nhanh
chóng. Tuy nhiên phương pháp này lại không có hiệu quả trong việc phân
tích những loại Malware phức tạp và do đó chúng ta có thể bỏ qua những
hành vi quan trọng mà Malware gây ra.
Trong mức này chúng ta chưa quan tâm tới việc thực thi File
Malware, trong phần này tôi sẽ tập trung vào việc phân tích mã, cấu trúc,
header của chương trình để xác định các chức năng:
- Sử dụng Hash để xác định Malware.
- Xác định các thông tin từ string, header, function của file
Mỗi kỹ thuật sẽ cung cấp các thông tin khác nhau tùy thuộc mục
đích nghiên cứu. Tôi sẽ sử dụng một vài kỹ thuật sao cho thu thập được
càng nhiều thông tin càng tốt[10].
Sử dụng Hash để xác định Malware
Hashing là phương pháp phổ biến để nhận diện và xác định phần
mềm độc hại. Khi Malware được chạy qua một phần mềm hash sẽ tạo ra
13
một chuỗi ký tự (chuỗi ký tự này được coi như là vân tay của Malware).
Mỗi chuỗi hash xác định ra các Malware duy nhất[11], có thể chia sẻ các
mẫu hash này để giúp cho những người phân tích xác định Malware.
Sử dụng việc tìm kiếm chuỗi
Một chương trình thường chứa các chuỗi nếu nó in ra một message,
kết nối tới một đường dẫn URL hoặc copy một file đến một vị trí xác
định.
Nghiên cứu các chuỗi cũng là một phương pháp đơn giản để chúng
ta có thêm những thông tin về chức năng của chương trình. Ví dụ, chương
trình này thường in xuất ra màn hình để cung cấp cho người dùng một
cập nhật trạng thái, hoặc để cho biết rằng một lỗi đã xảy ra. Những chuỗi
trạng thái và chuỗi lỗi kết thúc có thể nhúng trong tập tin thực thi của
chương trình và có thể vô cùng hữu ích trong việc phân tích phần mềm
độc hại.
Việc bóc tách các chuỗi có trong các phần mềm độc hại được thực
hiện bằng các công cụ như Hex Editor, PeiD[12]. Cho dù sử dụng bất kỳ
công cụ gì để bóc tách các String thì các string có thể được thể hiện dưới
dạng mã ASCII hoặc Unicode. Nhưng việc phân tích chuỗi cần phải hết
sức cẩn thận vì có thể chuỗi đó được người viết Malware cố tình chèn
vào để đánh lừa người phân tích.
Việc thực hiện phân tích chuỗi có thể giúp chúng ta phát hiện ra
một số loại Malware được lưu dưới một định dạng khác để đánh lửa người
dùng như ví dụ sau: Malware netcat là một file thực thi, nhưng chúng
được lưu lại dưới định dạng là một file nén để lừa người dùng có dạng là
nc.rar.
Mỗi loại file có các byte định dạng riêng. Kiểm tra các byte định
dạng để xác định file đó là loại file gì. Chẳng hạn những file thực thi luôn
14
có các byte định dạng là MZ (được thể hiện dưới dạng hex: 4D 5A), các
file nén có định dạng là PK (được thể hiện dưới dạng hex: 50 4B).
Để kiểm tra xem file này có thật sự là một file nén hay là một file
thực thi được lưu dưới dạng của một file nén[13], chúng ta có thể sử dụng
các công cụ như Hex Editor hay PEiD để kiểm tra vấn đề này.
Trình soạn thảo cho phép bạn tìm kiếm chuỗi byte cụ thể trong bản
thân file. Nó sẽ cho bạn biết liệu Malware download về như trong hình
minh hoạ ở trên có thực sự là file winzip hay không. Người dùng không
cần lo lắng liệu mình có vô tình khiến Malware này phát huy tác dụng
hiệu quả của nó ngay bây giờ. Đơn giản là vì trong trình soạn thảo Hex,
chúng ta chỉ có thể xem được nội dung mà không thể kích hoạt file thực
thi.
1.3.1.2. Phương pháp phân tích động:
Đặc điểm của phương pháp phân tích động này là sẽ kiểm tra, phân
tích Malware bằng việc thực thi mã độc:
- Basic dynamic analysis: là phương pháp thực thi mã độc và giám
sát các hành vi của chúng trên hệ thống để tìm cách loại bỏ chúng, tìm ra
các dấu hiệu để nhận biết Malware. Tuy nhiên, chúng ta cần phải xây
dựng môi trường an toàn để cho phép chạy và nghiên cứu Malware mà
không gây tổn hại đến hệ thống hoặc môi trường mạng. Cũng giống với
basic static analysis thì phương pháp basic dynamic analysis thường được
sử dụng kể cả với những người không am hiểu về kiến thức lập trình. Và
phương pháp này cũng không hiệu quả trong việc phân tích các loại
Malware phức tạp[14].
- Advanced dymanic analysis: đây là phương pháp sử dụng chương
trình gỡ lỗi để kiểm tra các trạng thái ngầm của mã độc khi thực thi nó.
15
Phương pháp này sẽ cung cấp cho chúng ta những thông tin chi tiết khi
thực thi mã độc. Phương pháp này sẽ giúp chúng ta thu thập thông tin khi
các thông tin đó khó có thể lấy được từ những phương pháp phân tích
khác[15].
Dynamic analysis giám sát quá trình thực hiện của Malware sau khi
đã chạy, thực thi mã độc. Kỹ thuật dynamic analysis[16] là bước thứ hai
trong tiến trình phân tích Malware, thường thì dynamic analysis sẽ được
thực hiện sau bước basic analysis Malware kết thúc.
Nếu như static analysis phân tích Malware qua việc phân tích chuỗi,
phân tích dựa trên hash, phân tích các byte định dạng, đóng gói Malware
và không thực thi Malware thì Dynamic analysis sẽ phân tích Malware
dựa trên việc thực thi Malware. Dynamic analysis là phương pháp hiệu
quả trong việc xác định các chức năng của Malware.Ví dụ nếu mã độc
của bạn là một keylogger thì dynamic analysis sẽ cho phép bạn xác định
các file log của keylogger trên hệ thống, giúp bạn khám phá ra những bản
ghi mà keylogger nắm giữu, giải mã ra thông tin mà Keylogger gửi đi.
Những điều này rất khó có thể thực hiện được nếu sử dụng kỹ thuật basic
static analysis.
Mặc dù dynamic analysis là một kỹ thuật mạnh mẽ và hữu ích trong
việc phân tích Malware nhưng chúng ta chỉ nên thực hiện dynamic
analysis sau khi thực hiện static analysis[17] vì phương pháp này sẽ đặt
hệ thống của chúng ta trong tình trạng nguy hiểm. Bên cạnh việc trực
quan, dễ nhận thấy những tác động trực tiếp của Malware tới hệ thống thì
phương pháp này vẫn còn có những hạn chế nhất định bởi không phải tất
cả các đường dẫn, các mã lệnh đều được thực hiện khi Malware mới chỉ
chạy có một phần. Trong trường hợp command của Malware yêu cầu các
tham số, mỗi tham số có thể thực hiện chức năng chương trình khác nhau,
16
và nếu không biết lựa chọn sẽ không thể tự động kiểm tra tất cả các chức
năng của Malware
1.3.2. Ưu và Nhược điểm của phân tích tĩnh và phân tích động
Để so sánh cụ thể hơn, ta xây dựng bảng so sánh sau:
Bảng 1.1. Ưu và nhược điểm của phân tích tĩnh, phân tích động
Phân tích tĩnh Phân tích động
Chế độ
phân tích
Phân tích ứng dụng khi ứng dụng
đó không thực thi.
Phân tích ứng dụng khi
ứng dụng đang ở chế độ
thực thi.
Phân tích
mã độc
- Sử dụng các công cụ dịch
ngược để lấy mã nguồn của ứng
dụng từ tệp tin APK(dex2jar,
APKtool,...).
- Kiểm tra quyền của ứng
dụng thông qua tệp tin
AndroidManifest.xml.
- Phân tích dựa trên các đặc
điểm nghi ngờ bởi các họ nhất
định.
- Các lời gọi hệ thống thông
qua API được phân tích nhằm
phát hiện hành vi nguy hiểm của
ứng dụng.
- Phân tích dựa trên
các tính năng, hành vi của
các ứng dụng khi chạy các
ứng dụng.
- Phân tích dựa trên
việc kiểm tra các cuộc gọi
hệ thống và đường dẫn
thực thi.
- Thông tin bị rò rỉ
trong quá trình phân tích
và tiêu hao tài nguyên để
phát hiện hành vi nguy
hiểm của các ứng dụng.
17
Hạn chế - Trong trường hợp mã
nguồn bị làm rối sẽ giảm hiệu quả
của phân tích.
- Mã nguồn không thể được
phân tích trong trường hợp phân
tích bytecode.
- Không thể phát hiện ra mẫu
mã độc quá mới.
- Cần nhiều thời gian
và công sức để phân tích
ứng dụng trong các khoảng
thời gian chạy khác nhau.
1.4. GIỚI THIỆU VỀ HỌC MÁY
Ngày nay, trí tuệ nhân tạo[18] (AI-Artifical Intelligent) nói chung
và học máy (Machine Learning) nói riêng đang vô cùng được quan tâm
nghiên cứu và phát triển như một cơ hội cho cuộc cách mạng công nghiệp
lần thứ tư. Trí tuệ nhân tạo xuất hiện xung quanh ta ngày càng nhiều và
trong mọi lĩnh vực đời sống như hệ thống trợ lý ảo Siri, alexa, Google
Assitant; các dòng xe tự lái của Tesla, Google; hệ thống gợi ý phù hợp
với từng khách hàng của Amazon, Netflix, ...
Học máy là một phần của Trí tuệ nhân tạo. Theo định nghĩa trên
Wikipedia: “Học máy là một lĩnh vực nhỏ của khoa học máy tính, nó có
khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không cần lập trình cụ
thể”.
Ý tưởng cơ bản của học máy là dựa trên một số thuật toán xây dựng
mô hình để giải quyết vấn đề cụ thể như phân lớp, phân loại, hồi quy...
Giai đoạn huấn luyện của học máy sử dụng dữ liệu đầu vào và mô hình
được xây dựng để dự đoán đầu ra. Quá trình học máy cơ bản như sau:
18
Hình 2.1. Sơ đồ quy trình học máy cơ bản
Quá trình để xây dựng hệ thống học máy gồm các giai đoạn sau:
- Thu thập dữ liệu (gathering data): Quá trình thu thập dữ liệu tùy
thuộc vào kiểu bài toán ta cần xử lý. Dữ liệu có thể được thu thập từ nhiều
nguồn khác nhau như một cơ sở dữ liệu, cảm biến, tệp tin,...
- Tiền xử lý dữ liệu (data pre-processing): Tiền xử lý dữ liệu là giai
đoạn quan trọng, giúp xây dựng mô hình học máy hiệu quả. Đây là giai
đoạn chuyển hóa dữ liêu thô, dữ liệu từ nhiều nguồn khác nhau trong thế
giới thực thành dữ liệu sạch (dữ liệu thô có một số đặc điểm như thiếu
xót, nhiễu, không nhất quán).
- Xây dựng mô hình phù hợp (researching model): Đây là giai đoạn
ta dựa trên các thuật toán phân lớp, phân loại để xây dựng mô hình cho
kết quả tốt nhất.
- Huấn luyện, kiểm thử đối với mô hình (training and testing
model): Ta chia dữ liệu thành 03 phần gồm dữ liệu huấn luyện (trainning
data) để huấn luyện bộ phân lớp, dữ liệu xác nhận (validation data) để
tinh chỉnh bộ phân lớp, dữ liệu kiểm thử (testing data) để kiểm tra hiệu
19
suất bộ phân lớp. Chú ý rằng, bộ dữ liệu kiểm thử không được dùng để
huấn luyện do làm sai lệch đánh giá hiệu quả[19].
- Đánh giá (evaluation): Đây là giai đoạn ta đánh giá mô hình, giúp
lựa chọn mô hình phù hợp nhất đối với bộ dữ liệu và mô hình sẽ hoạt
động hiệu quả như thế nào.
1.4.1. Phân loại các thuật toán học máy
Hiện nay, có hai cách thông dụng để phân loại thuật toán học máy
là dựa vào phương thức học (learning style)[20] và dựa vào chức năng
(funtion) của thuật toán. Khi phân loại theo phương thức học thì các thuật
toán chia làm 04 loại gồm: học có giám sát (Supervise learning), học
không giám sát (Unsupervise learning), học bán giám sát (Semi-supervise
learning), học tăng cường (Reinforcement Learning)[21]. Cụ thể như sau:
- Học có giám sát: Dự đoán đầu ra cho dữ liệu mới dựa trên các cặp
dữ liệu đã biết từ trước[22]. Các cặp dữ liệu này thường được gọi là dữ
liệu và nhãn. Đây là thuật toán phổ biến nhất trong học máy. Bài toán học
có giám sát cũng được chia thành 02 loại sau:
+ Bài toán phân loại (Classification): Đây là bài toán khi các nhãn
của dữ liệu đầu vào được có hạn như bài toán phân loại phần mềm dính
mã độc hay không, phân loại email rác hay không, phân loại hoa,...
+ Bài toán hồi quy (Regression): Khi nhãn không được chia thành
các loại mà mang một giá trị như một căn nhà rộng a mét, chia thành b
phòng, cách c kilomet so với trung tâm thành phố thì giá bao nhiêu?
- Học không giám sát: Bài toán chỉ có dữ liệu đầu vào, còn đầu ra
ta hoàn toàn chưa biết. Tùy thuộc vào cấu trúc của dữ liệu mà bài toán
học không giám sát sẽ có thể phân nhóm (clustering) hoặc giảm số chiều
20
(dimension reduction)[23] để thuận tiện lưu trữ và tính toán. Bài toán học
không giám sát cũng được chia thành 02 loại sau:
+ Phân nhóm (clustering): Bài toán phân nhóm toàn bộ dữ liệu
thành nhiều nhóm nhỏ mà dữ liệu trong các nhóm đó có liên quan đến
nhau. Ví dụ: Phân nhóm động vật dựa trên cấu tạo cơ thể, Phân nhóm
khách hàng dựa trên hành vi...
+ Kết hợp (association): Đây là bài toán khi ta tìm ra quy luật từ
nhiều dữ liệu cho trước. Ví dụ: Khách hàng nam mua vest thường mua
thêm áo sơmi; khách hàng mua vợt bóng bàn thường mua thêm hộp quả
bóng,...
- Học bán giám sát (semi-supervised learning): Đây là bài toán dữ
liệu biết trước không đầy đủ như khi ta có một lượng lớn dữ liệu nhưng
chỉ có một số nhất định được gán nhãn. Bài toàn thuộc loại này là loại
nằm giữa hai loại trên.
Khi phân loại theo chức năng của thuật toán, ta có: thuật toán hồi
quy như Logistic Regression, Stepwise Regression[24], Linear
Regression; thuật toán phân loại như SVM, Linear Classifier, kernel
SVM[25]; thuật toán phân cụm như: K-mean clustering, K-Medians,
EM,...
1.4.2. Giới thiệu một số thuật toán học máy hiệu quả với bài
toán
Trong luận văn này, mục tiêu của ta là đề xuất một cơ sở để đánh
giá ứng dụng an toàn hay không. Điều này giúp đưa bài toàn thành dạng
mô hình phân lớp nhị phân với hai nhãn là Malware (mã độc) và Benign
(lành tính). Đối với loại mô hình này, hai thuật toán thường được ưu tiên
sử dụng là Logistic Regression (LR) và Support Vector Machine (SVM).
21
Hồi quy Logistic mô tả mối quan hệ giữa biến phụ thuộc và biến độc lập.
Đối với bài toán phân loại mã độc, biến phụ thuộc là xác suất phát hiện
mã độc và biến độc lập là những thuộc tính mà một ứng dụng có. Đối với
SVM, các điểm dữ liệu sẽ được ánh xạ lên không gian đa chiều và phân
loại thông qua siêu mặt phẳng. Trong hình dưới đây, 2 khoảng dữ liệu
được phân định bằng phương pháp này. Trong đó, các điểm đỏ là tập
Malware và xanh là tập Begin.
Hình 2.2. Mô hình phân lớp nhị phân của SVM
1.4.2.1. Thuật toán Logistic Regression
Kỹ thuật học máy giám sát có nhiều thuật toán phân lớp. Trong đó,
thuật toán Hồi quy Logistic (LR) được sử dụng nhiều trong bài toán phân
lớp dữ liệu. LR tỏ ra đặc biệt tốt đối với tập dữ liệu được phân tách tuyến
tính, dễ thực hiện, diễn giải và rất hiệu quả để huấn luyện.
22
Thuật toán Học máy LR mượn từ xác suất thống kê, nó được sử
dụng để tính khả năng phân loại [0,1] với đầu vào dữ liệu cụ thể, trong
đó thuật toán được biểu diễn dựa trên hàm Logistic Funtion[26] (hàm
sigmoid của logarit tự nhiên).
Sau đây là những điểm mạnh và yếu của thuật toán Hồi quy
Logistic:
- Ưu điểm:
+ Hồi quy Logistic thực hiện tốt đối với tập dữ liệu được phân tách
tuyến tính.
+ Hồi quy Logistic ít khi bị Over-fitting, nhưng nó có thể bị trong
những bộ dữ liệu nhiều chiều.
+ Thuật toán không chỉ đưa ra một thước đo về mức độ tốt của dự
đoán mà còn bao gồm cả phân loại (âm tính hay dương tính).
- Nhược điểm:
+ Giới hạn chính của hồi quy logistic là giả định về tuyến tính giữa
biến phụ thuộc và biến độc lập. Trong thế giới thực, dữ liệu hiếm khi
được phân tách tuyến tính. Hầu hết dữ liệu thời gian sẽ là một mớ hỗn
độn.
+ Hồi quy logistic chỉ có thể được sử dụng để dự đoán các hàm rời
rạc. Do đó, biến phụ thuộc của Hồi quy logistic bị giới hạn ở tập số rời
rạc. Hạn chế này là vấn đề vì nó hạn chế dự đoán dữ liệu liên tục.
1.4.2.2. Giới thiệu về thuật toán Support Vector Machine
SVM (support vector machine) là khái niệm trong thống kê và khoa
học máy tính đối với một tập hợp các phương pháp học có giám sát liên
quan đến nhau để phân loại và phân tích hồi quy. SVM dạng chuẩn nhận
dữ liệu đầu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là
23
một thuật toán phân loại nhị phân. Với một bộ các mẫu huấn luyện thuộc
hai loại cho trước, thuật toán huấn luyện SVM xây dựng một mô hình
SVM để phân loại các dữ liệu khác vào hai loại đó. Một mô hình SVM là
một cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa
hai loại sao cho khoảng cách từ các mẫu huấn luyện tới ranh giới là xa
nhất có thể. Các dữ liệu mới cũng được biểu diễn trong cùng một không
gian và được thuật toán dự đoán thuộc một trong hai loại tùy vào ví dụ
đó nằm ở phía bên nào của ranh giới.
SVM xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng
trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng
cho phân loại, hồi quy, hoặc các nhiệm vụ khác. Một cách trực giác, để
phân loại tốt nhất thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của
tất cả các lớp (gọi là hàm lề) càng tốt, vì nói chung lề càng lớn thì sai số
tổng quát hóa của thuật toán phân loại càng bé.
Trong nhiều trường hợp, không thể phân chia các lớp dữ liệu một
cách tuyến tính trong một không gian ban đầu được dùng để mô tả một
vấn đề. Vì vậy, nhiều khi cần phải ánh xạ các điểm dữ liệu trong không
gian ban đầu vào một không gian mới nhiều chiều hơn, để việc phân tách
chúng trở nên dễ dàng hơn trong không gian mới. Để việc tính toán được
hiệu quả, ánh xạ sử dụng trong thuật toán SVM chỉ đòi hỏi tích vô hướng
của các vector dữ liệu trong không gian mới có thể được tính dễ dàng từ
các tọa độ trong không gian cũ. Tích vô hướng này được xác định bằng
một hàm hạt nhân K(x,y) phù hợp. Một siêu phẳng trong không gian mới
được định nghĩa là tập hợp các điểm có tích vô hướng với một vectơ cố
định trong không gian đó là một hằng số. Vector xác định một siêu phẳng
sử dụng trong SVM là một tổ hợp tuyến tính của các vector dữ liệu luyện
tập trong không gian mới với các hệ số αi. Với siêu phẳng lựa chọn như
24
trên, các điểm x trong không gian đặc trưng được ánh xạ vào một siêu
mặt phẳng là các điểm thỏa mãn: Σi αi K(xi,x) = hằng số.
Ghi chú rằng nếu K(x,y) nhận giá trị ngày càng nhỏ khi y xa dần
khỏi x thì mỗi số hạng của tổng trên được dùng để đo độ tương tự giữa x
với điểm tương ứng trong dữ liệu luyện tập. Như vậy, tác dụng của tổng
trên chính là so sánh khoảng cách giữa điểm cần dự đoán với các điểm
dữ liệu đã biết. Lưu ý là tập hợp các điểm x được ánh xạ vào một siêu
phẳng có thể có độ phức tạp tùy ý trong không gian ban đầu, nên có thể
phân tách các tập hợp thậm chí không lồi trong không gian ban đầu.
Phân loại thống kê là một nhiệm vụ phổ biến trong học máy. Trong
mô hình học có giám sát, thuật toán được cho trước một số điểm dữ liệu
cùng với nhãn của chúng thuộc một trong hai lớp cho trước. Mục tiêu của
thuật toán là xác định xem một điểm dữ liệu mới sẽ được thuộc về lớp
nào. Mỗi điểm dữ liệu được biểu diễn dưới dạng một vector p chiều và ta
muốn biết liệu có thể chia tách hai lớp dữ liệu bằng một siêu phẳng p − 1
chiều, đây gọi là phân loại tuyến tính. Có nhiều siêu phẳng có thể phân
loại được dữ liệu. Một lựa chọn hợp lý trong chúng là siêu phẳng có lề
lớn nhất giữa hai lớp.
25
CHƯƠNG 2. ỨNG DỤNG MÔ HÌNH HỌC MÁY TRONG PHÁT
HIỆN NGUY CƠ MÃ ĐỘC TRÊN NỀN TẢNG ANDROID
2.1. PHƯƠNG PHÁP THU THẬP DỮ LIỆU THÔ
2.1.1. Thu thập dữ liệu
Dữ liệu ban đầu gồm các file apk được tổng hợp từ nhiều nguồn.
Trong đó, các mẫu Malware (có mã độc) thuộc về đề tài “Drebin” của
trường Đại học Gottingen, Đức[27]; các mẫu Benign (không có mã độc)
tổng hợp từ kho ứng dụng CH play (được đề xuất của Biên tập viên). Từ
tập dữ liệu tổng hợp, hai bộ dữ liệu train và test được chia ra. Trong đó,
tỷ lệ Malware – Benign trong mỗi tập và được đảm bảo độc lập nhau,
không trùng lặp. Số lượng cụ thể như sau:
- Bộ dữ liệu học (train) gồm 82.682 mẫu. Trong đó: Malware có
3.669 mẫu; Benign có 79.013 mẫu.
- Bộ dữ liệu kiểm tra (test) gồm 6.340 mẫu. Trong đó: Malware có
3.120 mẫu; Bengin có 3.220 mẫu.
2.1.2. Giải thích cấu tạo file APK
Android Package Kit (APK) là định dạng file nén được sử dụng bởi
hệ điều hành Android để phân phối và cài đặt các ứng dụng, trò chơi và
phần mềm trung gian.
APK tương tự như các gói phần mềm như APPX trong Microsoft
Windows hoặc Debian package trong hệ điều hành dựa trên Debian. Để
tạo một file APK, một chương trình của Android đầu tiên được dịch bằng
Android Studio, sau đó tất cả các phần của gói sẽ đóng thành một file
nén. Một file APK bao gồm tất cả các chương trình (như file *.dex),
26
resources, assets, certificates, và file manifest. Với trường hợp có nhiều
định dạng, file APK có thể có bất cứ tên nào cần thiết, nhưng chỉ yêu cầu
tên file kết thúc bằng đuôi “.apk” để được định dạng.
Hệ thống Android cho phép người sử dụng cài đặt file APK thủ
công sau khi bật cài đặt “nguồn không xác định” (Unknown Sources)[28],
cho phép cài đặt các nguồn tin cậy khác ngoài Google Play. Mọi người
có thể làm như vậy vì nhiều lý do như cài đặt các ứng dụng không tìm
thấy trên Store, hoặc cài đặt một phiên bản cũ hơn. Mặc dù người dùng
có thể hạ cấp một ứng dụng bằng cách gỡ bỏ phiên bản mới trước, nhưng
nếu thực hiện thông qua Android Debug Bridge[29] sẽ tốt hơn vì nó cho
phép giữ lại dữ liệu.
Một file APK thường có cấu trúc như sau:
- classes.dex:
Bao gồm các mã code đã được biên dịch, dưới dạng Dex (Dalvik
Executable) bytecode. Có thể nhìn thấy nhiều file DEX trong 1 file APK.
Từ Android 5.0 trở lên, với việc giới thiệu ART runtime, chúng được biên
dịch dưới dạng OTA file.
- res/:
Folder này chứa toàn bộ các file XML (layout), và file ảnh (PNG,
JPEG) trong các folder đặc trưng, như là -mdpi và -hdpi cho densities, -
sw600dp hoặc -large cho kích cỡ màn hình, -en, -de, -pl cho ngôn ngữ.
Bất kỳ file XML nào trong res/ đều đã được biên dịch lại. Do đó không
thể đọc trực tiếp chúng bằng các text editor được.
- resource.arsc:
Một vài resource và file định danh (identifiers) được biên dịch và
chứa lại trong file này. Bình thường nó sẽ không được nén lại và được
chứa trong file APK, giúp cho việc truy xuất dữ liệu nhanh hơn. Việc nén
27
lại file này bằng cách thủ công có thể là giải pháp đơn giản để giảm dụng
lượng file.
- AndroidManifest.xml:
Tương tự như các file XML khác, file Manifest của ứng dụng sẽ
được biên dịch lại thành mã máy. Google Play Store sử dụng các thông
tin trong file này để xác định file APK có thể cài đặt được trên thiết bị
hay không dựa vào kiểm tra loại phần cứng, màn hình, độ phân giải của
các thiết bị.
- libs/:
Tất cả các thư viện native (*.so files) sẽ được đặt trong các folder
con (cấu trúc CPU , e.g. x86, x86_64, armeabi-v7a) của folder libs/. Bình
thường nó sẽ được copy từ APK vào folder /data trong quá trình cài đặt.
- assets/:
Folder này chứa các file mà không được sử dụng như các file đặc
trưng của Android. Các file phổ biến nhất là font chữ và data của game,
hoặc bất kỳ loại data nào muốn sử dụng trực tiếp như là file stream.
- META-INF/:
Folder này được chứa trong các file APK đã được ký (signed APK),
bao gồm danh sách tất cả các file có trong APK và chữ ký của chúng.
Cách xác thực chữ ký hiện tại trong Android là việc xác thực từng chữ ký
với nội dung của từng file chưa được nén.
28
Hình 3.1. Cách đóng gói file APK
2.1.3. Thực hiện dịch ngược file APK để lấy thuộc tính với
apktool
Apktool là công cụ dựa trên Java có tính năng dịch ngược, chỉnh
sửa và biên dịch file APK trên Windows, Linux, MacOS.
Sau khi chuẩn bị file APK cần dịch ngược, mở ứng dụng Terminal
emulator hoặc Command prompt tại thư mục chứa file APK. Dịch ngược
file APK khá đơn giản, chỉ cần dùng một lệnh theo mẫu sau:
apktool d
Apktool sẽ tạo một thư mục cùng tên với file APK và đặt tất cả dữ
liệu của ứng dụng trong đó. Thư mục mới sẽ có cấu trúc tương tự như
sau:
29
Hình 3.2. Thư mục chứa dữ liệu giải nén từ file APK
Thư mục res chứa mọi thứ liên quan đến bản dịch và bố cục giao
diện người dùng.
Thư mục smali chứa mã nguồn ứng dụng ở dạng smali. Smali là
một loại ngôn ngữ tương tự như Assembly.
Thư mục unknown chứa mọi thứ khác được đóng gói trong file
APK mà không tuân thủ theo hướng dẫn của Google về đóng gói APK.
Cuối cùng, AndroidManifest.xml là file Manifest. File này chứa
thông tin như tên và đặc điểm ứng dụng, chỉ mục và quyền nó sử dụng.
30
2.1.4. Trích xuất feature từ dữ liệu thô được dịch ngược từ
apktool
Để trích xuất feature từ dữ liệu thô để phục vụ cho quá trình học
máy để phát hiện nguy cơ mã độc, tôi đã sử dụng các tập lệnh từ DREBIN.
Thành phần chính được sử dụng để trích xuất các tính năng từ một
ứng dụng là FeatureExtractor.jar.
Để thực thi file FeatureExtractor.jar ta sử dụng lệnh:
java -jar FeatureExtractor.jar [inputDir] [outputDir]
với [inputDir] [outputDir] là thư mục và inputDir chứa nội dung
ứng dụng.
Phương cách trích xuất:
Đầu tiên, file apicalls_suspicious.txt và jellybean_allmappings.txt
được tải và lưu trữ trong cấu trúc dữ liệu. Chương trình duyệt qua tất cả
file trong inputDir và xử lý chúng tuần tự. Mỗi file sẽ được giải nén và
dịch ngược thông qua apktool.jar. Khi giải nén, mỗi file sẽ tạo một thư
mục để chứa ứng dụng giải nén. Thư mục này sẽ bị xét sau khi phân tích
kết thúc. Nếu quá trình giải nén tốn hơn 30 giây, quy trình giải nén sẽ bị
hủy bỏ và bỏ qua ứng dụng (tránh trường hợp 01 file bị hỏng làm ngăn
cản việc phân
Các file đính kèm theo tài liệu này:
- luan_van_ung_dung_mo_hinh_hoc_may_trong_phat_hien_nguy_co_ma.pdf