LỜI CAM ĐOAN. 1
LỜI CẢM ƠN. 2
MỤC LỤC . 3
DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT . 5
DANH MỤC CÁC BẢNG . 7
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ. 8
MỞ ĐẦU . 10
CHƯƠNG 1. GIỚI THIỆU . 12
1.1. Thực trạng đáng báo động của các trang web lừa đảo . 12
1.2. Các giải pháp đã có nhằm ngăn chặn trang web lừa đảo. 15
1.2.1. Giải pháp dựa vào cộng đồng . 15
1.2.2. Giải pháp dựa vào học máy . 18
1.3. Tiếp cận của chúng tôi. 22
1.4. Kết quả đạt được và khả năng ứng dụng . 23
CHƯƠNG 2. THIẾT KẾ KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ
NGĂN CHẶN TRANG WEB LỪA ĐẢO. 24
2.1. Tổng quan . 24
2.2. Tầng một và tầng hai . 26
2.2.1. Nhiệm vụ sàng lọc . 26
2.2.2. Phương pháp phát hiện dựa vào học máy. 27
2.2.3. Kiểm soát tỉ lệ dương tính giả . 35
2.3. Tầng ba và tầng bốn. 35
2.3.1. Nhiệm vụ chuẩn đoán. 35
2.3.2. Tự động cập nhật Blacklist. 37
2.3.3. Tham vấn dịch vụ PhishTank . 38
2.3.4. Tham vấn dịch vụ Google Safe Browsing. 40
CHƯƠNG 3. CÀI ĐẶT THỬ NGHIỆM . 42
3.1. Cài đặt. 42
3.1.1. Kỹ thuật xây dựng chương trình. 42
3.1.2. Tầng một và tầng hai . 43
3.1.3. Tầng ba . 51
3.1.4. Tầng bốn. 52
3.2. Đánh giá. 53
63 trang |
Chia sẻ: honganh20 | Lượt xem: 406 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ệu trang web lừa đảo, yt là lớp tương ứng
của dữ liệu thứ t trong tập dữ liệu 𝜎(𝑤𝑇𝑥 + 𝑏).
1.2.2.2. Cây quyết định (Decision Tree - DT)
Cây quyết định là một dạng đặc biệt của cấu trúc cây được xây dựng để trợ
giúp việc ra quyết định dựa trên các câu hỏi. Kỹ thuật học máy sử dụng việc xây
dựng cây quyết định trên tập dữ liệu được gọi là học bằng cây quyết định hay
đơn giản chỉ là cây quyết định. Mỗi nút bên trong của cây tương ứng với một
19
đặc trưng, các nút lá đại diện cho các phân loại và các cành đại diện cho các kết
hợp của các đặc trưng dẫn tới phân loại đó. Các cành được phân tách dựa trên
giá trị của các đặc trưng.
Quá trình học cây quyết định gồm 3 giai đoạn:
1- Tạo cây: Sử dụng thuật toán phân lớp để phân chia dữ liệu sao cho mọi
nút lá đều có cùng một giá trị trên thuộc tính quyết định. Việc lựa chọn đặc
trưng cho mỗi nút được dựa trên độ lợi thông tin của các đặc trưng trên bộ huấn
luyện. Có rất nhiều thuật toán phân lớp dựa trên cây quyết định như: C4.5 [8],
CART [9], ...
2 - Cắt tỉa cây: Là việc làm nhằm khắc phục những khuyết điểm của cây
như loại bỏ nhánh không phù hợp (nhánh lỗi).
3 - Kiểm định kết quả: Đánh giá độ chính xác trước khi sử dụng.
1.2.2.3. Naive Bayes (NB)
Naive Bayes là một thuật toán dựa trên định lý Bayes về lý thuyết xác suất
để đưa ra các phán đoán cũng như phân loại dữ liệu. Naive Bayes giả định rằng
tất cả các đặc trưng của x là độc lập với nhau. P(x|y) biểu thị xác suất có điều
kiện của véc-tơ đặc trưng cho một lớp, giả định độc lập ngụ ý rằng 𝑃(𝑥|𝑦) =
∏𝑖=1
𝑑 𝑃(𝑥𝑖|𝑦) với d là số lượng đặc trưng. Bằng cách áp dụng lý thuyết Bayes, ta
có thể tính xác suất để một véc-tơ đặc trưng x là một trang lừa đảo bằng cách:
𝑃(𝑦 = 1|𝑥) =
𝑃(𝑥|𝑦 = 1)
𝑃(𝑥|𝑦 = 1) + 𝑃(𝑥|𝑦 = −1)
(3)
Thuật toán Naive Bayes phân loại dễ dàng nhất bằng cách tính xác suất có
điều kiện P(xi|y) từ ước lượng hợp lý cực đại (Maximum Likehood Estimation)
[10].
1.2.2.4. Máy vector hỗ trợ (Support Vector Machine - SVM)
Máy vector hỗ trợ (SVM) là một thuật toán học máy có giám sát phổ biến
dùng để phân chia dữ liệu thành các nhóm riêng biệt. Thuật toán sẽ tìm một
đường thẳng (trong không hai chiều) hoặc mặt phẳng (trong không gian đa
chiều) cũng được gọi là siêu phẳng sẽ phân tách hiệu quả nhất hai lớp. Siêu
20
phẳng này sau đó được dùng để phân lớp cho các dữ liệu chưa biết cần tiên
đoán.
Hình 1.4. Mô phỏng siêu phẳng trong không gian hai chiều và ba chiều
Siêu phẳng tối ưu là siêu phẳng có khoảng cách với hai điểm dữ liệu gần
nhất tương ứng với hai lớp là lớn nhất. Phương trình chứa các điểm dữ liệu này
gọi là các lề (margin). Do đó, siêu phẳng tối ưu là siêu phẳng có khoảng cách
giữa nó và lề là xa nhất.
Siêu phẳng trong không gian d chiều được biểu diễn bằng công thức:
WTx + b = 0
Khi đó khoảng cách được tính bằng công thức:
ℎ =
|𝑊𝑇𝑥0 + 𝑏|
√∑ 𝑤𝑖
2𝑑
𝑖=1
(4)
SVM luôn cố gắng cực đại hoá khoảng cách này, từ đó thu được một siêu
phẳng tạo khoảng cách xa nhất. Bài toán tối ưu là bài toán tìm w và b sao cho:
(𝑤, 𝑏) ← 𝑎𝑟𝑔𝑤,𝑏𝑚𝑖𝑛
1
𝑇
∑ max(0,1 − 𝑦𝑡(𝑤. 𝑥𝑡 + 𝑏)) + 𝜆||𝑤||2
2
𝑇
𝑡=1
(5)
Nhờ đó mà SVM có thể giảm thiểu việc phân lớp sai đối với dữ liệu mới
đưa vào.
1.2.2.5. Rừng ngẫu nhiên (Random Forest - RF)
Rừng ngẫu nhiên [11] tạo ra một tập hợp các cây quyết định không cắt
nhánh, mỗi cây được xây dựng dựa trên tập mẫu ngẫu nhiên có hoàn lại
21
(bootstrap). Các thuộc tính tại mỗi nút con được chọn ngẫu nhiên từ không gian
thuộc tính ban đầu.
Thủ tục xây dựng rừng ngẫu nhiên gồm ba pha: Tạo dữ liệu (tạo vector
ngẫu nhiên); Xây dựng các cây cơ sở; Kết hợp các cây cơ sở theo phương thức
bỏ phiếu.
Hình 1.5. Sơ đồ giải thuật rừng ngẫu nhiên
Thuật toán xây dựng rừng ngẫu nhiên:
Đầu ra của hệ cho đối tượng x sẽ là:
- Đối với bài toán hồi quy: 𝐶(𝑥) =
1
𝐿
∑ 𝐶𝑘(𝑥)
𝐿
𝑘=1
- Đối với bài toán phân lớp: 𝐶(𝑥) = [
1
𝐿
∑ 𝐶𝑘(𝑥)
𝐿
𝑘=1 ]
22
1.3. Tiếp cận của chúng tôi
Hiện nay, trên thế giới có nhiều giải pháp khác nhau trong cách thức tiếp
cận cho phát hiện, ngăn chặn trang web lừa đảo và đã được công bố trên phương
diện nghiên cứu khoa học và đã được triển khai thực nghiệm. Điển hình trong số
đó là hai nhóm giải pháp: Phát hiện trang web lừa đảo dựa vào cộng đồng và
phát hiện bằng phương pháp học máy.
Tuy nhiên, ở mỗi nhóm giải pháp, bên cạnh những ưu điểm đã đạt được thì
vẫn còn tồn tại những hạn chế nhất định. Cụ thể, ưu/nhược điểm của hai phương
pháp được tóm tắt trong bảng sau:
Bảng 1.2. Bảng mô tả ưu/ nhược điểm các giải pháp đã có cho phát hiện trang
web lừa đảo
Giải
pháp
Ưu/
Nhược
điểm
Dựa vào cộng đồng Dựa vào phương pháp học máy
Ưu điểm
- Phát hiện chính xác
trang web lừa đảo.
- Dễ dàng sử dụng và có
thể tích hợp vào những
công cụ được phát triển
riêng biệt bởi các tổ
chức và cá nhân.
- Là một phương pháp tiếp cận hiện đại
dựa trên nền tảng của trí tuệ nhân tạo.
- Có thể dễ dàng tuỳ biến các thuật toán
học máy trong quá trình nghiên cứu và
mở rộng.
- Có thể phát hiện những trang web lừa
đảo mới được tạo ra.
Nhược
điểm
- Khả năng cập nhật cơ
sở dữ liệu chậm.
- Không thể phát hiện
những trang web lừa
đảo mới được tạo ra.
- Khó tiếp cận đối những người mới
nghiên cứu phương pháp học máy.
- Kết quả phát hiện có tỉ lệ sai sót
(dương tính giả và âm tính giả) nhất
định
Xuất phát từ những ưu và nhược điểm của hai nhóm giải pháp đã nêu ở
trên, chúng tôi tiến hành kết hợp những ưu điểm của cả hai giải pháp; đồng thời,
đề xuất tạo nên kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa
đảo. Kiến trúc mà chúng tôi đề xuất được chia thành bốn tầng. Cụ thể:
23
- Tầng một và tầng hai: Cài đặt mô hình học máy đã được thiên vị hoá,
thực hiện nhiệm vụ sàng lọc nhanh trang web lừa đảo.
- Tầng ba và tầng bốn: Thực hiện tham vấn dịch vụ blacklist và hỏi
chuyên gia nhằm tiến hành chuẩn đoán trang web lừa đảo.
1.4. Kết quả đạt được và khả năng ứng dụng
- Sử dụng thuật toán học máy trên tầng một và tầng hai của kiến trúc đề
xuất, thiên vị hóa thuật toán học máy nhằm đảm bảo tỉ lệ dương tính giả rất thấp
(gần như bằng 0) giúp cho việc sàng lọc chính xác.
- Xây dựng kho blacklist chứa URL của các trang web lừa đảo, cung cấp
giải pháp website cho người dùng tại Việt Nam có thể dễ dàng tra cứu và sử
dụng trong phát hiện, ngăn chặn trang web lừa đảo.
- Kết nối thành công, sử dụng API (Application Programming Interface)
của các hệ chuyên gia PhishTank và Google Safe Browsing, được thực hiện trên
tầng bốn của kiến trúc.
- Đánh giá và so sánh kết quả thử nghiệm của nghiên cứu.
- Sử dụng kết quả của nghiên cứu, tiến hành cài đặt, tích hợp thành công
công cụ phát hiện và ngăn chặn trang web lừa đảo vào trình duyệt web của
người dùng.
24
CHƯƠNG 2. THIẾT KẾ KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN
VÀ NGĂN CHẶN TRANG WEB LỪA ĐẢO
2.1. Tổng quan
Việc xây dựng kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web
lừa đảo nhằm phân tách nhiệm vụ cụ thể trên mỗi tầng khác nhau, giúp giảm
thiểu quá trình xử lý dữ liệu, tăng hiệu xuất cho phát hiện trang web lừa đảo.
Trong đó, tầng một và tầng hai có nhiệm vụ sàng lọc những dấu hiệu lừa đảo
dựa vào các đặc trưng được trích xuất từ URL và Content của trang web. Tầng
ba và tầng bốn có nhiệm vụ chuẩn đoán thông qua kỹ thuật sử dụng Blacklist và
tham vấn dịch vụ từ các chuyên gia PhishTank và Safe Browsing của Google.
Hình 2.1. Mô hình kiến trúc đa tầng cho phát hiện và ngăn chặn
trang web lừa đảo
Quy trình hoạt động của kiến trúc nhiều tầng cho phát hiện và ngăn chặn
trang web lừa đảo được tích hợp vào một Plug-in trên phần mềm trình duyệt,
25
hay còn được biết đến là một extension. Trong đó, tầng một và tầng hai được
hoạt động như sau:
Khi người dùng truy cập tới một URL của trang web bất kỳ, extension sẽ
trích xuất các đặc trưng có trên URL, kết quả sau khi trích xuất được tập hợp
thành một vector đặc trưng. Tiếp theo, extension gửi vector đặc trưng lên máy
chủ PhishSer. Ngay khi nhận được dữ liệu cần xử lý, máy chủ PhishSer sẽ đưa
qua mô hình phát hiện đã được huấn luyện bằng thuật toán Random Forest
(được tùy biến) trên tập dữ liệu (dataset) gồm 11.055 bản ghi dữ liệu từ nguồn
UCI[12][13][14][15]. Kết quả của quá trình phát hiện sẽ được trả về, xác định
URL đó có hay không lừa đảo; nếu đó là URL lừa đảo, extension trên trình
duyệt của người dùng sẽ kích hoạt chức năng ngăn chặn không cho người dùng
truy cập tới nó và hiển thị thông báo cho người dùng biết. Đồng thời, cập nhật
URL lừa đảo này vào Blacklist (danh sách đen). Trong giai đoạn này, tầng một
và tầng hai của kiến trúc cơ chế hoạt động là như nhau. Điểm khác biệt giữa hai
tầng trong kiến trúc mà chúng tôi đề xuất là nhóm đặc trưng được trích xuất dựa
vào giá trị của URL tồn tại trên thanh địa chỉ của trình duyệt (Address bar) là 8
được thực hiện trên tầng một và nhóm đặc trưng dựa trên sự bất thường của mã
HTML, JavaScript (gọi là đặc trưng dựa trên Content) là 9 (cụ thể sẽ được đặc tả
trong mục 2.2 của chương này) được thực hiện trên tầng hai. Ngược lại, nếu
không phát hiện được URL là lừa đảo sẽ chuyển tiếp URL sang tầng ba và tầng
bốn để kiểm tra.
Trong tầng ba, với URL cần kiểm tra, máy chủ PhishSer sẽ thực hiện tham
chiếu trong cơ sở dữ liệu PhishSer blacklist (kho dữ liệu chứa các URL lừa đảo
được chúng tôi xây dựng bằng công nghệ PHP và MySQL). Máy chủ web trả về
kết quả, nếu URL này đã tồn tại trong Blacklist, extension sẽ tiến hành chặn
URL này và thông báo tới người dùng như trên tầng một và tầng hai. Ngược lại,
tiếp tục chuyển tiếp URL sang tầng bốn để kiểm tra.
Tại tầng bốn, URL sẽ được tham vấn với các dịch vụ của của các hệ
chuyên gia PhishTank và Google Safe Browsing. Hai dịch vụ này đều cung cấp
cho người dùng tập thư viện hàm API (Application Programming Interface) có
thể tham vấn nhanh và dễ dàng bằng nhiều ngôn ngữ lập trình khác nhau. Kết
quả ngay sau khi hệ chuyên gia trả về sẽ được kiểm tra, nếu URL là lừa đảo,
extension sẽ chặn URL này và thông báo tới người dùng và cập nhật URL này
26
vào PhishSer blacklist. Ngược lại, nếu không xác định được URL là lừa đảo, sẽ
cho phép người dùng truy cập tới URL mà họ mong muốn.
2.2. Tầng một và tầng hai
2.2.1. Nhiệm vụ sàng lọc
Được thực hiện trên tầng một và tầng hai, nhiệm vụ sàng lọc là hoạt động
giúp hệ thống có thể phát hiện nhanh và chính xác một số trang web lừa đảo.
Chức năng sàng lọc được phép “bỏ sót” các trang lừa đảo nhưng không được
“bắt nhầm” các trang lành tính. Nói cách khác, một trang web đã bị phát hiện ở
tầng một và tầng hai chắc chắn là trang lừa đảo, trong khi trang web không được
phát hiện ở tầng một và tầng hai có thể là trang lừa đảo hoặc lành tính. Những
trang lừa đảo đã được phát hiện ở tầng một và tầng hai sẽ không phải xử lý thêm
ở các tầng ba, tầng bốn mất nhiều thời gian, do vậy hiệu năng của tổng thể hệ
thống được nâng lên. Những trang lừa đảo không bị phát hiện ở tầng một và
tầng hai sẽ được xử lý tiếp và phát hiện ở tầng ba và tầng bốn.
Quá trình sàng lọc được chia làm hai pha: Pha huấn luyện thực hiện trên
tập dữ liệu (dataset) được tải về từ kho dữ liệu học máy UCI để xây dựng mô
hình phát hiện và pha phát hiện được tích hợp trên một Plug-in (extension) của
trình duyệt người dùng.
Tại pha huấn luyện, luận văn thực hiện các công việc sau:
- Lựa chọn các đặc trưng phù hợp trên tập dữ liệu được tải từ UCI để xây
dựng mô hình phát hiện.
- Sử dụng ngôn ngữ Python huấn luyện dữ liệu bằng thuật toán Random
Forest tiến hành xây dựng mô hình phát hiện.
- Kiểm soát tỉ lệ dương tính giả (trang web là lành tính nhưng phát hiện là
lừa đảo) để đưa ra giá trị ngưỡng làm căn cứ cho việc phát hiện lừa đảo.
- Lưu trữ mô hình phát hiện trên máy chủ PhishSer phục vụ việc đối chiếu
và so sánh khi có yêu cầu từ extension trên máy người dùng.
Tại pha phát hiện trên extension của trình duyệt:
27
- Sử dụng ngôn ngữ JavaScript trích xuất các đặc trưng có trên URL và từ
mã HTML, mã JavaScript của trang web cần kiểm tra. Tập hợp kết quả thành
một vector đặc trưng gửi lên máy chủ PhishSer.
- Máy chủ PhishSer tiến hành đưa vector đặc trưng qua mô hình phát hiện
đã được huấn luyện tại pha trước.
- Thực hiện so sánh kết quả trả về từ mô hình phát hiện với giá trị ngưỡng
được sinh ra trên mô hình phát hiện, nếu vượt quá ngưỡng cho phép thì kết luận
trang web đó là lừa đảo, đồng thời kích extenstion kích hoạt tính năng ngăn chặn
và cảnh báo tới người dùng. Ngược lại, chuyển tiếp để phát hiện trên các tầng
tiếp theo.
2.2.2. Phương pháp phát hiện dựa vào học máy
2.2.2.1. Trích chọn đặc trưng
Hoạt động trích chọn đặc trưng tiến hành trên URL và Content căn cứ theo
30 đặc trưng của tập dữ liệu (dataset) được tải từ kho lưu trữ UCI . Tập dữ liệu
từ UCI gồm 11.055 bản ghi dữ liệu, trong đó có 7.262 bản ghi dữ liệu được gán
nhãn lừa đảo và 3.793 bản ghi dữ liệu gán nhãn lành tính. Số lượng đặc trưng
được chúng tôi đề xuất trong luận văn sau khi trích chọn lại là 17, đây là các đặc
trưng chắc chắn sẽ trích xuất được từ trình duyệt web. Mỗi đặc trưng được thử
nghiệm trên trình duyệt để có thể trích xuất nó mà không cần sử dụng bất kỳ
dịch vụ web từ bên ngoài hoặc từ bên thứ ba nào. Tuy nhiên, số lượng đặc trưng
càng nhiều sẽ làm tăng độ chính xác trong việc phát hiện. Ngược lại, sẽ làm
chậm quá trình xử lý do số lượng đặc trưng cần trích chọn là nhiều hơn.
Các đặc trưng cần trích chọn được phân loại thành hai nhóm: Đặc trưng có
trong giá trị của URL tồn tại trên thanh địa chỉ (Address bar), đặc trưng bất
thường có trong mã HTML và mã JavaScript của trang web. Dưới đây là danh
sách các đặc trưng được trích chọn:
Bảng 2.1.Các đặc trưng được trích chọn sử dụng để xây dựng mô hình
TT
Đặc trưng được trích chọn
từ Dataset
Mô tả tóm tắt
Nhóm đặc
trưng
1 Having_IP_Address Có địa chỉ IP trong URL Address
bar 2 URL_Length URL có độ dài bài bất
28
thường
3 Shortining_Service
Sử dụng dịch vụ rút gọn
URL
4 Having_At_Symbol Có biểu tượng “@”
5 Double_Slash_Redirecting Điều hướng với kí tự “//”
6 Prefix_Suffix
Có kí tự “-” trong tên
miền
7 Having_Sub_Domain
Vượt quá số lượng sub
domain theo quy định
8 HTTPS_token
Thêm HTTPS vào domain
của URL
9 Favicon
Favicon được liên kết từ
domain khác
Bất thường
trong mã
HTML và
JavaScript
10 Request_URL
Hình ảnh, video được tải
từ domain khác
11 URL_of_Anchor
Có nhiều liên kết bằng thẻ
tới domain khác hoặc
không có giá trị của thuộc
tính href
12 Links_in_tags
Sử dụng nguồn trong các
thẻ , ,
từ domain khác
13 SFH (Server Form Handler)
Thuộc tính action trong
các có giá trị rỗng
14 Submitting_to_email
Có chức năng gửi email
trên trang web (mailto)
15 On_mouseover
Tắt tính năng trên thanh
trạng thái trình duyệt khi
đưa chuột qua liên kết
16 RightClick
Tắt tính năng kích chuột
phải
17 Iframe
Sử dụng Iframe thu thập
dữ liệu
29
Với mỗi đặc trưng được trích chọn trong Bảng 2.1, chúng tôi sẽ sử dụng
chúng cho việc đề xuất quy tắc tương ứng được sử dụng trong giai đoạn thử
nghiệm. Các đặc trưng [16] trong tập dữ liệu của UCI được mô tả cụ thể như sau
(với tất cả các quy tắc có thể quy ước thành: Lừa đảo là 1; Lành tính là -1; Nghi
ngờ là 0):
- Địa chỉ IP: Địa chỉ IP là một mã định danh duy nhất được gắn với một
thiết bị hoạt động trên môi trường mạng. Đối tượng lừa đảo sử dụng địa chỉ IP
thay vì tên miền để lừa người dùng web. Bất kỳ URL hợp pháp nào cũng được
hình thành bằng cách sử dụng tên máy chủ (host name) và tên đường dẫn (path
name) nhưng không sử dụng địa chỉ IP.
Quy tắc: Nếu {
IP tồn tại trong URL → 1
Không tồn tại → −1
- Độ dài của URL: URL là một chuỗi ký tự chữ và số được sử dụng để
truy cập tài nguyên mạng trên World Wide Web (WWW). URL là sự kết hợp
của giao thức mạng, tên máy chủ và đường dẫn. Độ dài của URL là một trong
những tính năng chính được trích xuất trong khi phát hiện các URL lừa đảo. Đối
tượng lừa đảo lợi dụng độ dài của URL để che dấu những nội dung nghi ngờ mà
người dùng web khó có thể phát hiện.
Quy tắc: Nếu {
Độ 𝑑à𝑖 𝑈𝑅𝐿 < 54 → −1
𝑁𝑔ượ𝑐 𝑙ạ𝑖 𝑛ế𝑢 Độ 𝑑à𝑖 𝑈𝑅𝐿 ≥ 54 𝑣à ≤ 75 → 0
𝑁𝑔ượ𝑐 𝑙ạ𝑖 → 1
- Sử dụng dịch vụ rút gọn URL “TinyURL”: Rút gọn URL là một
phương pháp trên Web World Wide Web, trong đó một URL có thể được làm
gọn hơn đáng kể về chiều dài và vẫn dẫn đến trang web bắt buộc. Phương pháp
này được thực hiện bằng “HTTP Redirect” trên một tên miền ngắn, liên kết đến
trang web có URL dài. Ví dụ: URL là có thể rút ngắn
thành bit.ly/19DXSk4.
Quy tắc: Nếu {
TinyURL → 1
Ngược lại → −1
- Biểu tượng “@”: Biểu tượng “@” được sử dụng bởi những kẻ tấn công
để làm cho trình duyệt web bỏ qua mọi thứ trước nó và chuyển hướng người
dùng đến liên kết được nhập sau nó.
30
Quy tắc: Nếu {
Url có kí tự @ → 1
Ngược lại → −1
- Ký tự “//”: Sự tồn tại của ký tự “//” trong URL có nghĩa là người dùng sẽ
được chuyển hướng đến một trang web khác. Một ví dụ về URL như vậy là:
Chúng tôi kiểm tra vị trí
xuất hiện của “//” và thấy rằng nếu URL bắt đầu với HTTP, điều này có nghĩa là
“//” sẽ xuất hiện ở vị trí thứ sáu. Tuy nhiên, nếu URL sử dụng HTTPS thì “//” sẽ
xuất hiện ở vị trí thứ bảy.
Quy tắc: Nếu {
Vị trí cuối cùng xuất hiện “//”trong URL > 7 → 1
Ngược lại → −1
- Ký tự “-”: Kí tự dấu “-” thường không được sử dụng trong các URL hợp
pháp. Những đối tượng lừa đảo có xu hướng thêm tiền tố hoặc hậu tố được phân
tách bằng (-) vào tên miền để người dùng nhầm tưởng họ đang xử lý một trang
web hợp pháp. Ví dụ:
Quy tắc: Nếu {
Trong tên miền chứa kí tự (−) → 1
Ngược lại → −1
-Số lượng tên miền phụ vượt quá quy định: Giả sử có liên kết sau:
“https://www.bidv.com.vn/doanh-nghiep”. Một tên miền có thể bao gồm các tên
miền cấp cao nhất theo mã quốc gia (ccTLD - country-code Top-level
Domains), trong liên kết trên là “vn”. Phần “com” giúp xác định tổ chức hoặc cá
nhân hoạt động trong lĩnh vực thương mại, sự kết hợp của “.com.vn” được gọi là
tên miền cấp hai (SLD - Second Level Domain); “bidv” là tên thực tế của tên
miền. Để tạo quy tắc trích xuất tính năng này, trước tiên chúng ta phải bỏ qua
(www.) Từ URL thực tế là một tên miền phụ (Sub domain); sau đó, chúng ta
phải loại bỏ (ccTLD) nếu nó tồn tại; cuối cùng, chúng tôi đếm các chấm “.” còn
lại.
Quy tắc: Nếu {
Dấu (. ) trong phần tên miền = 1 → −1
Dấu (. ) trong phần tên miền = 2 → 0
Dấu (. ) trong phần tên miền > 2 → 1
- HTTPS token: Đối tượng lừa đảo có thể thêm giao thức HTTPS vào
phần tên miền của URL để lừa người dùng. Ví dụ: “
webapps-mpp-home.soft-hair.com/”.
31
Quy tắc: Nếu {
Sử dụng HTTPS trong tên miền của URL → 1
Ngược lại → −1
- Favicon: Favicon là một hình ảnh đồ hoạ được kết hợp với một trang web
cụ thể. Hay favicon còn gọi là biểu tượng của trang web, là một hình icon được
hiển thị phía góc trên cùng của tab trình duyệt. Khi người dùng truy cập vào
trang web bất kỳ sẽ nhìn thấy biểu tượng này như một logo đại diện cho chính
trang web đó. Do đó, nếu favicon được tải từ tên miền khác với tên miền được
hiển thị trên thanh địa chỉ thì có thể xác định là lừa đảo.
Quy tắc: Nếu {
Favicon được tải từ tên miền khác → 1
Ngược lại → −1
- Request URL: Đối với hầu hết các trang web hợp pháp thường sử dụng
các đối tượng hình ảnh, âm thanh và video được liên kết từ bên ngoài trang. Tuy
nhiên, những đối tượng liên kết ngoài này luôn đảm bảo được nằm trên cùng
một tên miền. Từ tính chất này của Request URL, có thể sử dụng đặc trưng này
để phân loại các trang web.
Quy tắc: Nếu {
Tỉ lệ yêu cầu liên kết tới tên miền khác < 22% → −1
Tỉ lệ % ≥ 22% và ≤ 61% → 0
Ngược lại tỉ lệ % > 61% → 1
- Anchor (neo) trong thẻ : Thẻ trong HTML giúp tạo ra các liên
kết giữa các trang trong cùng website. Do đó, nếu:
Giá trị của thuộc tính “href” trong thẻ khác với tên miền của website
thì trường hợp này cũng giống như đặc trưng Request URL;
Neo không liên kết đến bất kỳ trang web nào. Ví dụ: hoặc <a
href=“#content”> hoặc hoặc
Quy tắc: Nếu {
Tỉ lệ % Anchor < 31% → −1
Tỉ lệ % Anchor ≥ 31% và ≤ 67% → 0
Ngược lại → 1
- Sử dụng tài nguyên , , từ tên miền khác: Với
trang web hợp pháp, sử dụng thẻ để cung cấp siêu dữ liệu (metadata)
cho trang web, thẻ để tạo tập lệnh JavaScript phía máy khách hoặc liên
kết tới tập tin script, thẻ để liên kết tới tập tin “.css” trong cùng tên miền.
32
Quy tắc:
Nếu
{
Tỉ lệ % của liên kết trong(, 𝑣à ) < 17% → −1
Tỉ lệ % của liên kết trong(, 𝑣à ) ≥ 17% và ≤ 81% → 0
Ngược lại → 1
- SFH (Server Form Handler): Thẻ giúp tạo ra một biểu mẫu
cung cấp cho người dùng web không gian nhập thông tin để gửi về máy chủ
web. Trong thẻ có thuộc tính “action” nhằm xác định trang web đích mà
dữ liệu của người dùng sẽ được gửi tới. Với trang web hợp pháp trang web đích
sẽ nằm trong cùng tên miền. Tuy nhiên, với trang web lừa đảo các đối tượng đã
thay đổi giá trị của thuộc tính “action” là một chuỗi rỗng hoặc “about:blank”
hoặc trang đích là từ một tên miền khác.
Quy tắc: Nếu {
SFH là “about: blank” hoặc Is Empty → 1
SFH tham chiếu đến một tên miền khác → 0
Ngoài ra → −1
- Gửi thông tin qua email (mailto): Biểu mẫu (form) trong trang web cho
phép người dùng gửi thông tin cá nhân tới một máy chủ để xử lý. Tuy nhiên, đối
tượng lừa đảo có thể chuyển hướng thông tin của người dùng tới địa chỉ email
cá nhân của chúng bằng phương pháp sử dụng chức năng “mailto:” trong trang
web và sử dụng hàm mail() ở phía máy chủ để kích hoạt chức năng gửi mail.
Quy tắc: Nếu {
Sử dụng “mail()”hoặc“mailto:”để gửi thông tin → 1
Ngoài ra → −1
- Tắt sự kiện onMouseOver: Đối tượng lừa đảo có thể sử dụng JavaScript
để hiển thị URL giả mạo trong thanh trạng thái cho người dùng. Để trích xuất
đặc trưng này chúng ta khai thác trong mã nguồn của trang web, đặc biệt là sự
kiện onMouseOver và kiểm tra xem nó có thực hiện bất kỳ thay đổi nào trong
thanh trạng thái hay không.
Quy tắc: Nếu {
Sự kiện onMouseOver thay đổi thanh trạng thái → 1
Không thay đổi thanh trạng thái → −1
- Vô hiệu hoá chức năng chuột phải: Nhằm che dấu hành động kiểm tra
mã nguồn của người dùng, đối tượng lừa đảo tiến hành vô hiệu hoá tính năng
33
kích chuột phải trên trang web thông qua bằng sự kiện onMouseOver để ẩn liên
kết hoặc thêm sự kiện “event.button==2” vào mã nguồn của trang web.
Quy tắc: Nếu {
Tính năng chuột phải bị vô hiệu hoá → 1
Ngoài ra → −1
- Sử dụng IFrame thu thập dữ liệu: IFrame là một thẻ trong HTML,
được sử dụng để hiển thị một trang web bổ sung vào trong trang web hiện tại.
Đối tượng lừa đảo sử dụng IFrame với tùy biến khung viền
Các file đính kèm theo tài liệu này:
- luan_van_kien_truc_nhieu_tang_cho_phat_hien_va_ngan_chan_tra.pdf