Lời cam đoan i
Lời cảm ơn ii
Danh sách hình vẽ vii
Danh mục các từ viết tắt ix
MỞ ĐẦU 1
Chương 1. Tổng quan về các bài toán lan truyền thông tin 6
1.1. Giới thiệu về mạng xã hội . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1. Những đặc điểm chung của MXHTT . . . . . . . . . . . . . . . . . . 7
1.1.2. Lợi ích của MXHTT . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.3. Những tác hại của MXHTT . . . . . . . . . . . . . . . . . . . . . . . 8
1.2. Các mô hình phát tán thông tin trên MXHTT . . . . . . . . . . . . . . . . . 9
1.2.1. Mô hình phát tán thông tin rời rạc . . . . . . . . . . . . . . . . . . . . 10
1.2.2. Mô hình Ngưỡng tuyến tính (LT) . . . . . . . . . . . . . . . . . . . . 11
1.2.3. Mô hình Bậc độc lập (IC) . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.4. Mô hình cạnh trực tuyến (live-edge) . . . . . . . . . . . . . . . . . . . 14
1.3. Một số bài toán lan truyền thông tin trên MXHTT . . . . . . . . . . . . . . 17
1.3.1. Tối đa ảnh hưởng (IM) . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.1.1. Các thuật toán cho bài toán IM . . . . . . . . . . . . . . . . . 18
1.3.1.2. Một số biến thể của bài toán cực đại ảnh hưởng . . . . . . . . 22
1.3.2. Ngăn chặn ảnh hưởng (IB) . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3.2.1. Loại bỏ tập người dùng và liên kết . . . . . . . . . . . . . . . 25
1.3.2.2. Tẩy nhiễm thông tin . . . . . . . . . . . . . . . . . . . . . . . 26
1.4. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Chương 2. Bài toán tối ưu tổ hợp và một số phương pháp giải các bài toán tối
ưu tổ hợp 29
2.1. Bài toán TƯTH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2. Phân loại các lớp bài toán trong TƯTH . . . . . . . . . . . . . . . . . . . . 29
2.3. Một số phương pháp giải bài toán TƯTH . . . . . . . . . . . . . . . . . . . 34
2.3.1. Thuật toán xấp xỉ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.2. Phương pháp Mote-Carlo . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.2.1. Bài toán tìm giá trị cực đại . . . . . . . . . . . . . . . . . . . . 38
2.3.2.2. Bài toán uớc lượng kỳ vọng của một biến ngẫu nhiên . . . . . 39
172 trang |
Chia sẻ: honganh20 | Lượt xem: 391 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Luận án Một số bài toán tối ưu trên mạng xã hội, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
án tính bằng công thức sau:
TimeSPBA = max{TimePBA(L,G,,δ), T imePBA(U,G,,δ)}+ Timetính Iˆ (3.61)
= O(nk1
−2 ln(
(
n
kmax
)
/δ)M) + Time
tính Iˆ (3.62)
3.3. Thực nghiệm và kết quả
Luận án so sánh Thuật toán SPBA với các thuật toán khác trên nhiều bộ dữ liệu
khác nhau để đánh giá hiệu quả của SPBA đối với bài toán BCIM. Các thuật toán được so
sánh bao gồm:
- Thuật toán BCT [76]: là thuật toán cho tỷ lệ xấp xỉ (1− 1√
e
− ) đối với bài toán IM
có xét chi phí mỗi đỉnh là khác nhau và tổng chi phí (ngân sách) là giới hạn. Lý do
luận án sử dụng BCT để so sánh vì BCIM là một biến thể của IM có sự tương đồng
với biến thể mà BCT giải quyết. Với mỗi đỉnh có chi phí khác nhau, các thuật toán
xử lý được ràng buộc này đối với IM thì BCT đang là thuật toán tốt nhất.
- Degree: chọn lần lượt các đỉnh có bậc cao nhất tới khi đạt đến chi phí giới hạn L.
- Random: Chọn ngẫu nhiên các đỉnh cho đến khi đạt đến ngân sách giới hạn L.
Các thuật toán Degree và Random là các thuật toán cơ sở (baseline). Lý do chọn chúng
trong thực nghiệm là do chúng được sử dụng rộng rãi trong các bài toán lan truyền thông
tin [43, 19, 39, 95, 11].
3.3.1. Dữ liệu và tham số
a. Dữ liệu. Luận án sử dụng 6 bộ dữ liệu về các mạng bao gồm: Gnutella, Enron,
Epinions, Email-Eu, DBLP và Wiki. Các dữ liệu này đã được thu tập và có sẵn tại
Stanford Network Analysis Project 1. Dữ liệu này được sử dụng rộng rãi trong các nghiên
cứu liên quan về các bài toán lan truyền thông tin [75, 76]. Thông tin về các bộ dữ liệu
này được biểu diễn trong Bảng 3.2.
Gnutella. Là một hệ thống mạng ngang hàng trong đó các nút đại diện cho các
máy chủ trong cấu trúc liên kết mạng Gnutella và các cạnh thể hiện các kết nối giữa các
máy chủ Gnutella.
1https://snap.stanford.edu/data/
67
Bảng 3.2: Dữ liệu được sử dụng trong thực nghiệm
Tên mạng Số đỉnh Số cạnh Loại mạng Bậc trung bình
Gnutella[56] 6,301 20,777 Có hướng 3.29
Enron[58] 36.692 183,831 Vô hướng 5.01
Epinions[82] 75,879 508,837 Có hướng 6.7
Email-Eu[56] 265,214 420,045 Có hướng 1.58
DBLP[107] 317,080 1,049,866 Vô hướng 5.01
Wiki-vote [108] 1,791,489 28,511,807 Có hướng 6.7
Eron.Mạng lưới liên lạc email Enron bao gồm tất cả các giao tiếp email trong một
bộ dữ liệu khoảng nửa triệu email với các địa chỉ email của Enron.
Epinions. Đây là một mạng xã hội trực tuyến đánh giá sự tin cậy của người tiêu
dùng Epinions.com. Các thành viên của trang web có thể quyết định có nên “tin tưởng”
lẫn nhau hay không. Tất cả các mối quan hệ tin cậy tương tác sau đó được kết hợp với
xếp hạng đánh giá để xác định đánh giá nào được hiển thị cho người dùng.
Email-Eu.Mạng được tạo bằng dữ liệu email từ một tổ chức nghiên cứu lớn ở châu
Âu.
DBLP. Là một mạng lưới đồng tác giả, nơi hai tác giả được kết nối nếu họ xuất bản
ít nhất một bài báo cùng nhau. Trong mạng này, các tác giả có thể ảnh hưởng lẫn nhau
thông qua mối liên hệ đồng tác giả.
Wiki-vote. Là một bách khoa toàn thư miễn phí được viết bởi các tình nguyện viên
trên khắp thế giới. Một phần nhỏ những người đóng góp Wikipedia là quản trị viên, là
người dùng có quyền truy cập vào các tính năng kỹ thuật bổ sung hỗ trợ bảo trì.
Trong các dữ liệu trên, các mạng Eron, Epinions, Email-Eu, DPLB, và Wiki-vote
là các mạng xã hội hoặc có những tính năng như mạng xã hội. Mục đích thực nghiệm
trên các bộ dữ liệu còn lại đánh giá khả năng áp dụng của bài toán BCIM trên các loại
mạng khác nhau.
b. Tham số. Các tham số của SPBA được thiết lập như trong Bảng 3.3. Cách thiết
lập giống với các nghiên cứu trước đó đối với IM [18, 22, 76, 75, 95, 94]. Ngoài ra, tập
SB được chọn ngẫu nhiên 10% số đỉnh đối với mỗi mạng. Chi phí của mỗi đỉnh c(u)
được chọn ngẫu nhiên trong khoảng [1, 3] theo nghiên cứu trước đối với bài toán IM có
xét chi phí [72, 60].
c. Độ đo. Luận án sử dụng thuật toán điều kiện dừng trong [27] để tính Iˆ theo
68
Bảng 3.3: Bảng tham số thí nghiệm cho BCIM
Tham số δ ′ δ′ w(u, v) L τ
Giá trị 0.1 1n 0.01 0.01
1
din(v)
100 3, 4, 5
(, δ)-xấp xỉ và so sánh giá trị của ước lượng Iˆ đối với mỗi thuật toán.
d. Môi trường. Các thuật toán được viết bằng C++ với trình biên dịch GCC 4.7
trên hệ điều hành Linux với máy cấu hình như sau: 2 x Intel(R) Xeon(R) CPU E5-2697
v4 @ 2.30GHz 8 x 16 GB DIMM ECC DDR4 @ 2400MHz.
Tiêu chí đánh giá. Luận án đánh giá sự hiệu quả của các thuật toán thông qua hai
tiêu chí: (1) chất lượng lời giải (hàm mục tiêu) và (2) thời gian chạy của các thuật toán.
3.3.2. Kết quả thực nghiệm
Để đánh giá toàn diện về kết quả các thuật toán, luận án tiến hành đánh giá các
thuật toán theo hai trường hợp: (1) chi phí tổng quát (mỗi đỉnh có chi phí khác nhau
được chọn trong khoảng [1, 3]) và (2) chi phí đồng nhất (các đỉnh có chi phí giống nhau
bằng 1).
3.3.2.1. Trường hợp chi phí tổng quát
Trong kịch bản này, tham số τ = 5, ngân sách L thay đổi từ 0 to 100. Hình 3.6 biểu
diễn hiệu quả của các thuật toán theo hàm ảnh hưởng I(SA) trên các bộ dữ liệu Gnutella,
Enron, Epinions, Email-Eu, DBLP và Wiki. Trong hình này, trục tung biểu diễn giá trị
của hàm mục tiêu I(SA) (ảnh hưởng của tập hạt giống SA), trục hoành biểu diễn các giá
trị của ngân sách L.
Thuật toán SPBA luôn cho kết quả tốt nhất. Cụ thể SPBA tốt hơn từ 10% đến 30%
so với BCT. Lý do cho kết quả này là BCT chỉ xem xét ảnh hưởng của tập hạt giống SA
nhưng không xem xét tác động của SB. Thêm vào đó BCT cũng bỏ qua ảnh hưởng của
τ . Trong khi đó SPBA có xét các yếu tố về ràng buộc thời gian trong việc ước lượng các
hàm xấp xỉ trên và dưới. SPBA gồm ba thành phần và việc chọn lời giải cuối cùng dựa
trên kết quả tốt nhất. Kết quả này cũng khẳng định thuật toán cho CTVM và IM (bài toán
gần nhất với BCIM) có hiệu quả không cao với BCIM. Degree chỉ hoạt động tốt với bộ dữ
liệu Enron nhưng không tốt với các bộ dữ liệu còn lại. SPBA tốt hơn tới 7.7 lần so với
Degree. Degree là thuật toán heuristic đơn giản chỉ xét bậc của đỉnh trong quá trình ảnh
hưởng cạnh tranh nên cho kết quả không tốt.
69
20 40 60 80 100
Budget(L)
0
1000
2000
3000
4000
5000
In
flu
en
ce
sp
re
ad
GNUTELLA
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
5000
10000
15000
20000
In
flu
en
ce
sp
re
ad
ENRON
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
5000
10000
15000
20000
In
flu
en
ce
sp
re
ad
EPINIONS
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
5000
10000
15000
20000
In
flu
en
ce
sp
re
ad
EMAIL-Eu
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
20000
40000
60000
80000
100000
120000
In
flu
en
ce
sp
re
ad
DBLP
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
50000
100000
150000
200000
250000
In
flu
en
ce
sp
re
ad
Wiki
Ramdom
Degree
SPBA
BCT
Hình 3.6: So sánh các thuật toán trong trường hợp chi phí tổng quát với τ = 5.
3.3.2.2. Trường hợp chi phí đồng nhất
Để chỉ rõ hơn hiệu quả của các thuật toán, luận án so sánh các thuật toán trong
trường hợp chi phí bằng nhau và bằng 1 trên các bộ dữ liệu Gnutella, Enron, Epinions
and Email-Eu. Hình 3.7 biểu diễn kết quả của các thuật toán trong trường hợp này. SPBA
vẫn cho kết quả tốt nhất. Cụ thể, SPBA tốt hơn 1.06 tới 1.76 so với BCT và tốt hơn 1.2 tới
17.2 lần so với Degree. Kết quả này phù hợp với trường hợp trước và khẳng định kết quả
nổi trội của thuật toán SPBA.
3.3.2.3. So sánh thời gian chạy
Hình 3.8 biểu diễn thời gian chạy của các thuật toán trên 6 bộ dữ liệu với trục tung
biểu diễn thời gian chạy, trục hoành biểu diễn các giả trị của ngân sách L.
SPBA cho thời gian chạy lâu nhất. Điều này là do thuật toán này gồm ba thành
70
20 40 60 80 100
Budget(L)
0
2000
4000
6000
8000
In
flu
en
ce
sp
re
ad
GNUTELLA
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
5000
10000
15000
20000
In
flu
en
ce
sp
re
ad
ENRON
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
5000
10000
15000
20000
In
flu
en
ce
sp
re
ad
EPINIONS
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
5000
10000
15000
20000
25000
In
flu
en
ce
sp
re
ad
EMAIL-Eu
Ramdom
Degree
SPBA
BCT
Hình 3.7: So sánh các thuật toán trong trường hợp chi phí đồng nhất
phần chính là: PBA(L, G, L, , δ), PBA(U, G, L, , δ) và tính toán ước lượng Iˆ(·). Random
và Degree là các thuật toán đơn giản nên thời gian chạy rất ngắn. Mặc dù BCT cũng là
thuật toán xấp xỉ ngẫu nhiên, tuy nhiên thời gian chạy khá nhanh do có cấu trúc đơn giản
hơn so với SPBA. Tuy vậy, SPBA cho thấy thời gian chạy tương đối nhanh với các bộ dữ
liệu. Đặc biệt, với mạng Wiki (với 1.79 triệu đỉnh và 28.5 triệu cạnh) SPBA có thể hoàn
thành trong 90 giây.
3.3.2.4. Ảnh hưởng của bước thời gian τ
Luận án đánh giá ảnh hưởng của τ đối với các thuật toán trong đó τ được thay đổi
từ 3 đến 5, ngân sách được cố định L = 50. Các kết quả được biểu diễn trong Hình 3.9 với
trục tung biểu diễn hàm mục tiêu và trục hoành biểu diễn các mốc thời gian τ . SPBA vẫn
cho kết quả tốt nhất, nó tốt hơn từ 1.01 đến 1.23 lần so với BCT và 2.5 lần so với Degree.
Kết quả này cho thấy hiệu quả của SPBA so với các bước thời gian τ . Khi τ càng lớn, ảnh
các thuật toán cho kết quả càng cao, điều này cũng cho thấy việc xem xét ảnh hưởng của
bước thời gian trong chiến lược cạnh tranh. Trong trường hợp này, thuật toán SPBA cũng
cho thấy sự tăng đáng kể nhất với các thuật toán còn lại. Điều này khẳng định thêm tầm
quan trọng của ràng buộc thời gian và thuật toán đề xuất.
71
20 40 60 80 100
Budget(L)
0.00
0.25
0.50
0.75
1.00
1.25
1.50
Ru
nn
in
g
tim
e(
s)
GNUTELLA
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
10
20
30
40
Ru
nn
in
g
tim
e(
s)
ENRON
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
10
20
30
40
Ru
nn
in
g
tim
e(
s)
ENRON
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
5
10
15
20
25
30
Ru
nn
in
g
tim
e(
s)
EMAIL-Eu
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
10
20
30
40
Ru
nn
in
g
tim
e(
s)
DBLP
Ramdom
Degree
SPBA
BCT
20 40 60 80 100
Budget(L)
0
20
40
60
80
Ru
nn
in
g
tim
e(
s)
WIKI
Ramdom
Degree
SPBA
BCT
Hình 3.8: So sánh thời gian thực hiện của các thuật toán
3.4. Bài toán tối đa ảnh hưởng cạnh tranh trên mô hình cạnh tranh ngưỡng
tuyến tính xác định
Trong mục này, luận án mở rộng các kết quả nghiên cứu cho bài toán CIM trên mô
hình Cạnh tranh ngưỡng tuyến tính xác định DCLT (Deterministic Competitive Linear
Threshold). Mô hình này được tác giả đề xuất dựa trên việc mở rộng mô hình ngưỡng
tuyến tính xác định DLT [68] và mô hình CLT [19]. Khác với mô hình LT, trên mô hình
này các ngưỡng kích hoạt của các đỉnh được cho trước với giả thuyết rằng các ngưỡng
này có thể đánh giá được thông qua các phương pháp khai thác dữ liệu hoặc khảo sát.
Một số biến thể của mô hình này như Mô hình bỏ phiếu [118], mô hình phát tán giới hạn
cục bộ (Locally Bounded Diffusion Model) [28].
72
3 4 5
0
1000
2000
3000
4000
In
flu
en
ce
sp
re
ad
GNUTELLA
Ramdom
Degree
SPBA
BCT
3 4 5
0
2000
4000
6000
8000
10000
12000
In
flu
en
ce
sp
re
ad
EPINIONS
Ramdom
Degree
SPBA
BCT
3 4 5
0
2000
4000
6000
8000
10000
12000
14000
In
flu
en
ce
sp
re
ad
EMAIL-Eu
Ramdom
Degree
SPBA
BCT
3 4 5
0
10000
20000
30000
40000
50000
60000
In
flu
en
ce
sp
re
ad
DBLP
Ramdom
Degree
SPBA
BCT
Hình 3.9: So sánh các thuật toán khi τ thay đổi và L cố định
Việc sử dụng loại mô mình này và các biến thể làm giảm bớt thời gian tính toán
hàm ảnh hưởng cạnh tranh. Trên mô hình này, hàm ảnh hưởng cạnh tranh có thể tính
toán được trong thời gian đa thức.
3.4.1. Mô hình và định nghĩa bài toán
Trong mô hình này, mỗi cạnh (u, v) cũng có hai trọng số wA(u, v) và wB(u, v) biểu
diễn ảnh hưởng của A và B trên cạnh (u, v). Sự khác nhau giữa mô hình CLT với mô
hình DCLT là: mỗi đỉnh v có hai ngưỡng kích hoạt θA(v) và θB(v) được cho trước, và (ii)
bước lan truyền giới hạn là (steps) d. Quá trình lan truyền diễn ra theo các bước rời rạc
t = 1, . . . , d như sau: Tại bước t = 0, A0 = A, B0 = B. Tại bước t ≥ 1, mỗi đỉnh v sẽ bị
kích hoạt bởi A nếu thõa mãn điều kiện sau:
∑
u∈Nin(v)wA(u, v) ≥ θA(v)∑
u∈Nin(v)wB(u, v) < θB(v)
(3.63)
hoặc
∑
u∈Nin(v)
wA(u, v) ≥
∑
u∈Nin(v)
wB(u, v) + αA (3.64)
73
Tương tự, đỉnh v bị kích hoạt bở B nếu:
∑
u∈Nin(v)wA(u, v) < θA(v)∑
u∈Nin(v)wB(u, v) ≥ θB(v)
(3.65)
hoặc
∑
u∈Nin(v)
wB(u, v) ≥
∑
u∈Nin(v)
wA(u, v) + αB (3.66)
Trong đó αA, αB được gọi hệ số kiềm chế của A với B và B với A. αA giải thích rằng v bị
ảnh hưởng bởi A khi tổng trọng số ảnh hưởng của A lớn hơn đáng kể so với tổng trọng
số ảnh hưởng của B. Quá trình lan truyền dừng lại tại bước lan truyền d.
Với tập SA ⊆ V chúng ta có thể tính toán ảnh hưởng IA(SA) trong thời gianO(m+n)
bằng việc sử dụng thuật toán BFS. Trong trường hợp này bài toán CIM được định nghĩa
cụ thể như sau:
Định nghĩa 3.6. (Tối đa ảnh hưởng cạnh tranh -CIM trên DCLT)
• Input: Cho một MXHTT G = (V,E) dưới một mô hình ảnh hưởng cạnh tranh
DCLT. Có hai đối thủ cạnh tranh là A và B, cho trước SB, thời gian giới hạn là d,
ngân sách k2.
• Output: Tìm tập hạt giống của A là SA với SA ∈ V \ SB, |SA| ≤ k sao cho số
người dùng bị ảnh hưởng bởi SA là lớn nhất.
Độ phức tạp của bài toán CIM trên mô hình DCLT được phát biểu qua định lý sau:
Định lý 3.7. CIM là bài toán NP-Khó và không thể xấp xỉ được trong thời gian đa thức
với tỷ lệ n1− trên mô hình DCLT với giả thuyết P 6= NP.
Chứng minh. Ta chứng minh rằng nếu có thuật toán đa thức P có thể xấp xỉ CIM với tỷ
lệ n1−, thì tồn tại thuật toán xấp xỉ bài toán Tập phủ (SC) trong thời gian đa thức. Xét
phiên bản quyết định của SC được định nghĩa như sau:
Tập phủ (SC) Cho số nguyên dương t, tập vũ trụ U = {e1, e2, ..., eM} và bộ sưu tập các
tập con S = {S1, S2, ..., SN}, với t < M < N . Có hay không tập con gồm t phần tử của S
sao cho hợp của chúng bằng U?
Cho một thể hiện ISC = (U , t, S) ta xây dựng phép dẫn đa thức tới thể hiện ICIM =
(G,SB, k) như sau:
Phép dẫn. Với mỗi tập Si ∈ S, tạo đỉnh ui; với mỗi ej , tạo một đỉnh vj , đặt X =
2sử dụng trong trường hợp chi phí các đỉnh đồng nhất và số đỉnh chọn là k
74
{ui|i = 1 . . . n}, Y = {vj |j = 1 . . .m}. Thêm các cạnh (ui, vj) vào E nếu ej ∈ Si, với
i = 1 . . . n, j = 1, . . . ,m, ta đặt SA = X và SB = ∅. Đặt các trọng số wA(ui, vj) =
1
|Nin(vj)| , wB(ui, vj) = 0, với (ui, vj) ∈ E, θA(ui) = 1|Nin(ui)| , θB(vj) = 1|Nin(vj)| , αA =
αB = 0, t = k. Với mỗi đỉnh vj ∈ Y ta thêm một tập Z = {z1, z2, . . . , zQ} gồm Q
đỉnh với Q > max{N, 13e
ln(6N)
}. Thêm Q cạnh (vj , zl), l = 1 . . . Q, với các trọng số
wA(vj , zl) = 1, wB(vj , zl) = 0, l = 1 . . . Q. Dễ thấy phép dẫn có thể thực hiện được trong
thời gian đa thức. Ta xét hai trường hợp sau:
Trường hợp 1: Nếu ISC không có lời giải dễ thấy có ít nhất một đỉnh v ∈ Y không bị
kích hoạt bởi tập SA được chọn bất kỳ. Điều này dẫn tới tập Z không bị ảnh hưởng bởi
A. Do đó OPT < k +M < 2N .
Trường hợp 2: Nếu ISC có lời giải S′, ta chọn SA = {ui|Si ∈ S′} là lời giải của CIM.
Bằng phép dẫn ở trên, ta thấy rằng các đỉnh trong Y đều bị kích hoạt bởi A. Xét các đỉnh
zl ∈ Z, ta có
∑
v∈Nin(zl) = 1 = θA(zl). Bởi vậy σ(SA) = t+ |Y |+ |Z| = k+M+Q = OPT.
Trong trường hợp này, vì thuật toán P có thể xấp xỉ CIM với tỷ lệ n1− (n = N +M +Q),
nên nó có thể tìm S′A thỏa mãn:
σ(S′A) ≥
1
n1−
OPT =
k +M +Q
(N +M +Q)1−
(3.67)
>
Q
(3Q)1−
=
(3Q)
3
(do Q > N > M) (3.68)
> 2N (do Q > 13e
ln(6N)
) (3.69)
Điều này chứng tỏ ISC có lời giải t nếu và chỉ nếu σ(S′A) < 2N . Do vậy ta có thể dùng P
để tìm lời giải cho SC. Điều này trái với việc SC là bài toán thuộc lớp NP-đầy đủ.
3.4.2. Các thuật toán cho CIM trên mô hình DCLT
Trong phần này, tác giả đề xuất hai thuật toán cho bài toán CIM bao gồm Thuật
toán tham lam (Greedy) và Thuật toán tham lam nâng cao (Greedy+ +). Vì hàm mục tiêu
không có tính chất submodular nên hai thuật toán này không cho tỷ lệ xấp xỉ.
Thuật toán tham lam phỏng theo ý tưởng của thuật toán tham lam đối với IM của
Kempe [43]. Tại mỗi bước nó chọn đỉnh u có hàm đo lợi ích lớn nhất
δ(SA, u) = σA(SA + {u})− σA(SA). (3.70)
đến khi lựa chọn được k đỉnh. Các bước chi tiết được mô tả trong Thuật toán 14. Độ
phức tạp của thuật toán này là O(kn(m + n)). Thuật toán Greedy + + là một phiên bản
cải tiến của thuật toán tham lam trong đó cải tiến kỹ thuật “lazy evaluation" trong [57].
Các bước chi tiết được trình bày trong Thuật toán 15. Thuật toán này dựa trên giả sử hàm
75
mục tiêu vẫn là submodular với ý tưởng chính không xem xét các đỉnh có lợi ích thấp
trong các vòng lặp sau.
Algorithm 14: Thuật toán tham lam (Greedy)
Data: Graph G = (V,E), SB, propagation hop d, budget k
Result: SA
1 begin
2 SA ←− ∅
3 for i = 1 to k do do
4 δmax ←− 0
5 foreach u ∈ V \ {SA ∪ SB} do
6 if δ(A ∪ u) > δmax then
7 δmax ←− δ(A ∪ u), umax ←− u;
8 end
9 end
10 If δmax = 0 then return SA else A←− A ∪ {umax}
11 end
12 return SA;
13 end
Algorithm 15: Thuật toán Greedy + +
Input: Graph G = (V,E, θ), SB, d, k, p
Output: SA
1 begin
2 A←− ∅; Priority queue Q←− ∅;
3 iteration←− 1;
4 foreach u ∈ V \ {B} do
5 u.value←− δ(u) u.iteration←− 1
6 insert u into Q with u.value as the key;
7 end
8 choose p top elements of queue Q;
9 while iteration ≤ k do
10 extract top element u of Q;
11 if u.iteration = iteration then
12 SA ←− SA ∪ {u};
13 iteration+ +
14 pop element u of Q;
15 else
16 u.value←− σA(SA ∪ u)− σA(SA);
17 u.iteration←− iteration
18 re-insert u into Q
19 end
20 end
21 return SA;
22 end
Thuật toán sử dụng một hàng đợi Q để lưu p đỉnh ứng viên. Trong đó mỗi đỉnh u
có hai trường: u.value chỉ giá trị δ(SA, u) ở vòng lặp hiện tại và u.iteration chỉ vòng lặp
hiện tại mà đỉnh u đang được xem xét. Để hạn chế thời gian tính toán, thuật toán chọn
p đỉnh ứng viên có giá trị lợi ích lớn nhất trong Q (dòng 7). Trong mỗi vòng lặp, thuật
toán chọn đỉnh u có giá trị u.value lớn nhất, kiểm tra vòng lặp của đỉnh này, nếu giá trị
này được xét ở vòng lặp hiện tại thì thêm vào tập lời giải SA (dòng 11-14). Nếu không
76
cập nhật lại giá trị của đỉnh này và vị trí của nó trong Q (dòng 16-18).
Độ phức tạp của thuật toán Greedy+ + vẫn là O(kn(m+n)), tuy nhiên thực nghiệm
chỉ ra nó có thời gian chạy nhanh hơn Greedy nhiều lần.
3.4.3. Thực nghiệm
Luận án tiến hành thực nghiệm so sánh thuật toán Greedy,Greedy + + với hai thuật
toán cơ sở là: Random và Degree.
a. Dữ liệu và tham số. Dữ liệu thực nghiệm được mô tả trong Bảng 3.4 3.
Bảng 3.4: Dữ liệu được sử dụng trong thực nghiệm
Mạng Số đỉnh Số cạnh Loại Bậc trung bình Nguồn
email-EU 1005 25571 có hướng 25.44 [56]
Gnutella#1 6,301 20,777 có hướng 3.30 [56]
Gnutella#2 36682 88328 có hướng 2.41 [56]
Epinions 75879 508837 có hướng 6.71 [82]
Trọng số được chọn theo các nghiên cứu trước đối với IM [43, 75, 22, 18]. SB được
chọn ngẫu nhiên với số đỉnh là 50 và 100 tùy theo kích cỡ mạng. Các tham số được trình
bày trong Bảng 3.5.
Bảng 3.5: Bảng tham số thí nghiệm cho CIM
Tham số θA(v), θB(v) w(u, v) k d p (Greedy + +)
Giá trị ngẫu nhiên trong [0, 1] 1
din(v)
50 3, 4, 5 1000
Các thí nghiệm được thực hiện trên máy tính có cấu hình Intel (R) Core i7-4510U
CPUs with 2.00GHz, 8GB RAM với ngôn ngữ C++. Thời gian giới hạn cho các thuật
toán là 12h.
b. Kết quả thực nghiệm.
Các kết quả thực nghiệm được biểu diễn trong các Hình 3.10 và Hình 3.11. Greedy
cho kết quả tốt nhất nhưng không áp dụng được với các mạng Gnutella-2 và Epinion vì
vượt quá thời gian giới hạn là 12h. Thuật toán Greedy + + cho kết quả xấp xỉ với Greedy
3Phần mô tả các loại mạng được trình bày trong thực nghiệm trước nên luận án không trình bày ở các
mục sau.
77
nhưng có thời gian chạy nhanh hơn từ 17.5 đến 103 lần. Lý do là thuật tham lam phải
0
50
100
150
200
250
300
350
400
0 5 10 15 20
nu
m
be
r o
f i
nf
lu
en
ce
d
no
de
s
by
A
k
email-EU, d = 5, B = 50 nodes
Greedy
Greedy++
Max Degree
Random
0
200
400
600
800
1000
1200
0 5 10 15 20
ru
nt
im
e
(s
ec
on
ds
)
k
email-EU, d = 5, B = 50 nodes
Greedy
Greedy++
Max Degree
Random
0
500
1000
1500
2000
2500
3000
0 10 20 30 40 50
nu
m
be
r o
f i
nf
lu
en
ce
d
no
de
s
by
A
k
gnutella#1, d = 5, B = 100 nodes
Greedy
Greedy++
Max Degree
Random
0
5000
10000
15000
20000
25000
30000
35000
40000
0 10 20 30 40 50
ru
nt
im
e
(s
ec
on
ds
)
k
gnutella#1, d = 5, B = 100 nodes
Greedy
Greedy++
Max Degree
Random
0
1000
2000
3000
4000
5000
6000
7000
0 10 20 30 40 50
nu
m
be
r o
f i
nf
lu
en
ce
d
no
de
s
by
A
k
gnutella#2, d = 5, B = 100 nodes
Greedy++
Max Degree
Random
0
200
400
600
800
1000
0 10 20 30 40 50
ru
nt
im
e
(s
ec
on
ds
)
k
gnutella#2, d = 5, B = 100 nodes
Greedy++
Max Degree
Random
0
2000
4000
6000
8000
10000
12000
0 10 20 30 40 50
nu
m
be
r o
f i
nf
lu
en
ce
d
no
de
s
by
A
k
epinion, d = 5, B = 100 nodes
Greedy++
Max Degree
Random
0
10000
20000
30000
40000
50000
60000
70000
0 10 20 30 40 50
ru
nt
im
e
(s
ec
on
ds
)
k
epinion, d = 5, B = 100 nodes
Greedy++
Max Degree
Random
Hình 3.10: So sánh các thuật toán khi k thay đổi
0
500
1000
1500
2000
2500
3000
0 1 2 3 4 5
nu
m
be
r o
f i
nf
lu
en
ce
d
no
de
s
by
A
d
gnutella#1, k = 50, B = 315 nodes
Greedy++
Max Degree
Random
0
200
400
600
800
1000
0 1 2 3 4 5
ru
nt
im
e
(s
ec
on
ds
)
d
gnutella#1, k = 50, B = 315 nodes
Greedy++
Max Degree
Random
0
1000
2000
3000
4000
5000
6000
7000
0 1 2 3 4 5
nu
m
be
r o
f i
nf
lu
en
ce
d
no
de
s
by
A
d
gnutella#2, k = 50, B = 100 nodes
Greedy++
Max Degree
Random
0
200
400
600
800
1000
0 1 2 3 4 5
ru
nt
im
e
(s
ec
on
ds
)
d
gnutella#2, k = 50, B = 100 nodes
Greedy++
Max Degree
Random
Hình 3.11: So sánh các thuật toán khi d thay đổi
tính lại hàm lợi ích của tất cả các đỉnh ở mỗi vòng lặp còn Greedy++ đã rút ngắn được
thời gian chạy do chỉ xét các đỉnh có lợi ích cao nhất và cập nhật lại thay vì tính giá trị
này đối với tất cả các đỉnh. Về chất lượng lời giải, Greedy++ cho kết quả tương tự Greedy
chứng tỏ hiệu quả của chỉ chọn p = 1000 đỉnh có lợi ích lớn nhất cũng đảm bảo chất
lượng lời giải. Các thuật toán cơ sở cho kết quả không tốt, Greedy + + và Greedy cho kết
quả hơn Degree tới 1.65 lần. Điều này chứng tỏ hiệu quả của việc lựa chọn các đỉnh dựa
trên hàm lợi ích đối với Greedy và Greedy + +.
Luận án cũng thực nghiệm trường hợp khi k cố định và d thay đổi bằng 3, 4, 5.
Thuật toán Greedy + + vẫn hoạt động tốt và cho giá trị tăng dần khi d tăng.
3.5. Kết luận chương
Trong chương này, luận án trình bày kết quả nghiên cứu bài toán tối đa ảnh hưởng
cạnh tranh tổng quát với thời gian và ngân sách hạn chế BCIM trên các MXHTT.
Luận án đề xuất thuật xấp xỉ SPBA cho BCIM trên mô hình TCLT. Các thực nghiệm
được tiến hành trên các bộ dữ liệu chuẩn được công bố chỉ ra thuật toán đề xuất cho hiệu
quả nổi trội so với các thuật toán hiện dùng bao gồm: Kết quả cũng chỉ ra SPBA có thể
78
áp dụng với các mạng lớn hàng triệu đỉnh và cạnh (bộ dữ liệu Wiki bao gồm gần 1,8
triệu đỉnh và 28,5 triệu cạnh).
Luận án cũng đề xuất nghiên cứu bài toán CIM trên mô hình ngưỡng tuyến tính
cạnh tranh xác định DCLT. Trên mô hình này, luận án chỉ ra có thể tính toán hàm mục
tiêu trong thời gian đa thức và đề xuất hai thuật toán hiệu quả là Greedy và Greedy + +.
Thực nghiệm cũng được tiến hành để chỉ ra hiệu quả của 2 thuật toán đề xuất.
Tuy vậy, một nhược điểm khi áp dụng giải pháp giải pháp này trong thực tiễn cần
có nhưng giải pháp thu thập dữ liệu một cách hiệu quả cho các MXHTT, tiền xử lý các
tham số cho mô hình để đáp ứng các yêu cầu đầu vào của bài toán BCIM. Ngoài ra cần “
làm mịn” thêm mô hình để phù hợp hơn với thực tiễn.
Trong tương lai, tác giả sẽ tiếp tục cải tiến thêm thuật toán SPBA về thời gian chạy
và đề xuất thuật toán heuristic tốt hơn đối với thuật toán CIM trên mô hình DCLT. Ngoài
ra tác giả mở rộng các nghiên cứu theo khắc phục các nhược điểm trên để phù hợp hơn
với thực tiễn.
79
CHƯƠNG 4
NGĂN CHẶN THÔNG TIN SAI LỆCH VỚI RÀNG BUỘC VỀ NGÂN SÁCH VÀ
THỜI GIAN
Việc ngăn chặn thông tin sai lệch (TTSL) được quan tâm nghiên cứu nhiều trong
những năm gần đây do những tác hại lớn của TTSL gây ra. Tuy nhiên, những nghiên cứu
trước đó thường bỏ qua hai yếu tố quan trọng trong việc giảm thiểu thiệt hai do TTSL
gây là: ngân sách cho việc phòng ngừa và thời gian ngăn chặn sự phát tán. Trong chương
này, luận án nghiên cứu bài toán hạn chế thông tin sai lệch với ràng buộc về ngân sách
và thời gian (MMR) trên mô hình LT. Luận án đưa ra một số kết quả lý thuyết về độ khó
của bài toán và đề xuất một số thuật toán hiệu quả cho bài toán. Các thuật
Các file đính kèm theo tài liệu này:
- luan_an_mot_so_bai_toan_toi_uu_tren_mang_xa_hoi.pdf