MỤC LỤC . I
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT . VI
DANH MỤC BẢNG . VIII
DANH MỤC HÌNH . IX
MỞ ĐẦU . 1
CHƯƠNG 1. TỔNG QUAN . 7
1.1. Mức độ quan trọng hàm ý thống kê . 7
1.1.1. Định nghĩa mức độ quan trọng hàm ý thống kê . 7
1.1.2. Mức độ quan trọng hàm ý thống kê cho dữ liệu nhị phân . 8
1.1.2.1. Mối quan hệ hàm ý thống kê trên dữ liệu nhị phân . 8
1.1.2.2. Chỉ số hàm ý và cường độ hàm ý . 10
1.1.2.3. Cường độ hàm ý có entropy . 12
1.1.2.4. Chỉ số gắn kết . 13
1.1.2.5. Chỉ số đóng góp . 13
1.1.2.6. Chỉ số tiêu biểu . 14
1.1.3. Mức độ quan trọng hàm ý thống kê cho dữ liệu phi nhị phân . 14
1.1.3.1. Mối quan hệ hàm ý thống kê trên dữ liệu phi nhị phân . 15
1.1.3.2. Mức độ quan trọng hàm ý thống kê cho dữ liệu phi nhị phân . 15
1.2. Mức độ quan trọng xếp hạng hàm ý thống kê . 17
1.3. Hệ tư vấn và các hướng nghiên cứu . 18
1.3.1. Hệ tư vấn. 18
1.3.2. Phân loại hệ tư vấn . 21
1.3.2.1. Hệ tư vấn thuộc nhóm cá thể . 22
1.3.2.2. Hệ tư vấn thuộc nhóm cộng tác/cộng đồng . 22
1.3.2.3. Hệ tư vấn thuộc nhóm chuyên gia . 23
1.3.2.4. Hệ tư vấn thuộc nhóm lai ghép . 24
192 trang |
Chia sẻ: honganh20 | Ngày: 21/02/2022 | Lượt xem: 367 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
IIntens.Contr.RS và hệ tư vấn ARConfidence RS cần các ngưỡng
hỗ trợ 𝑠, tin cậy 𝑐, độ dài tối đa của một luật 𝑙. Các ngưỡng này đã được xác định ở
Mục 2.3.3.1: s=0,01, c=0,1 và l=7.
67
- Hệ tư vấn IBCFJaccard RS cần số láng giềng gần nhất 𝑘. 𝑘 cũng đã được xác
định ở Mục 2.3.3.1: k=135.
Hình 2.13 hiển thị các đường cong ROC và Precision - Recall trung bình của 6
lần thực thi phương pháp đánh giá chéo k tập con (times=6) của bốn hệ tư vấn khi
given=7.
Hình 2.13: Đường cong Precision - Recall và đường cong ROC
của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=6, given=7.
Hình 2.13.a cho thấy đường cong ROC của hệ tư vấn sử dụng mô hình đề xuất
SIR là vượt trội hơn ba hệ tư vấn sử dụng mô hình dựa theo luật (ARConfidence RS),
mô hình dựa trên những mục dữ liệu phổ biến (Popular RS) và mô hình lọc cộng tác
dựa trên mục (IBCFJaccard RS) khi given≥2.
Hình 2.14.a và Hình 2.14.b hiển thị đường cong Precision - Recall của bốn hệ
tư vấn khi (times, given) là (4, 3) và (2,2) tương ứng. Hình 2.13.b và Hình 2.14 cho
thấy độ chính xác và độ bao phủ của hệ tư vấn sử dụng mô hình SIR là cao hơn so
với của ba hệ tư vấn còn lại cho các given=2, 3 và 7. Khi thay đổi giá trị given
(given=4, 5, 6) và số lần thực thi times, ta cũng nhận được kết quả tương tự như các
hình này.
(a)
Số Vroot được gợi ý
cho người dùng
(times, given) = (6, 7) (b)
68
Hình 2.14: Đường cong Precision - Recall của bốn hệ tư vấn
trên tập MSWeb(875x135) khi (times, given) là (4, 3) và (2, 2).
Hình 2.15: Đường cong Precision - Recall và đường cong ROC
của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=2, given=1.
Tuy nhiên, khi given=1, hệ tư vấn sử dụng mô hình SIR có hiệu quả cao hơn
của các hệ tư vấn Popular RS và IBCFJaccard RS nhưng không cao hơn của hệ tư
vấn ARConfidence RS (Hình 2.15). Mặc dù vậy, sự chênh lệch giữa giá trị chính xác,
Số Vroot được gợi ý
cho người dùng
(a): (times, given) = (4, 3) (b): (times, given) = (2, 2)
(a)
Số Vroot được gợi ý
cho người dùng
(times, given) = (2, 1) (b)
69
giá trị bao phủ và tỷ lệ cảnh báo sai của ARConfidence RS và EIIntens.Contr.RS là
không cao.
Kết luận
Từ kết quả thực nghiệm trên tập dữ liệu nhị phân MSWeb(875x135), ta nhận
thấy mô hình đề xuất SIR kết hợp cường độ hàm ý có entropy và chỉ số đóng góp cho
hiệu quả cao hơn các mô hình tư vấn cũng dựa trên mục dữ liệu (AR, POPULAR,
IBCF), đặc biệt khi số xếp hạng biết trước của người cần tư vấn không quá thấp
given≥2 (nghĩa là khi người cần tư vấn không phải là người dùng mới).
2.3.3.5. Mô hình tư vấn SIR trong gợi ý đăng ký học phần
Mục đích của kịch bản này là ứng dụng mô hình tư vấn theo mức độ quan trọng
hàm ý thống kê trên luật SIR để gợi ý các học phần mà sinh viên nên đăng ký.
Giả sử một sinh viên đã đăng ký được 2 học phần Cấu trúc dữ liệu (CT103), Tư
tưởng Hồ Chí Minh (ML006) và muốn được tư vấn thêm 3 học phần nữa. Hệ tư vấn
sử dụng mô hình SIR dùng chỉ số gắn kết sẽ đưa ra gợi ý gồm các học phần: Kiến
trúc máy tính (CT173), Toán rời rạc (CT172) và Vi tích phân A2 (TN002). Đây là
những học phần có độ tin cậy và chỉ số gắn kết cao với 2 học phần mà sinh viên đã
đăng ký.
Tương tự như vậy, khi sinh viên thay đổi các học phần đăng ký và muốn được
tư vấn thêm các học phần khác, hệ tư vấn sẽ gợi ý cho sinh viên danh sách các học
phần có mối quan hệ gắn kết cao nhất với những học phần mà sinh viên đã đăng ký.
2.3.4. Hiệu quả tư vấn của mô hình SIR trên dữ liệu phi nhị phân
Các kịch bản thực nghiệm trên tập dữ liệu phi nhị phân MovieLens(565x136)
gồm:
- Đánh giá hiệu quả tư vấn qua so sánh nội. Kịch bản này tương tự như kịch bản
cùng tên đã thực hiện trên dữ liệu nhị phân (Mục 2.3.3.3). Hiệu quả tư vấn của cùng
mô hình đề xuất SIR nhưng sử dụng các mức độ quan trọng hàm ý thống kê khác
nhau được so sánh với nhau. Kết quả thực nghiệm cũng sẽ cho biết mức độ quan
trọng hàm ý thống kê nào nên được sử dụng trong mô hình SIR trên dữ liệu phi nhị
phân.
70
- Đánh giá hiệu quả tư vấn qua so sánh ngoại. Hiệu quả tư vấn của mô hình tư
vấn SIR trên dữ liệu phi nhị phân được so sánh với hiệu quả tư vấn của mô hình
POPULAR trong gói recommenderlab. Các mô hình AR và IBCF không được so
sánh (như kịch bản cùng loại ở Mục 2.3.3.4) vì AR chỉ hoạt động trên dữ liệu nhị
phân và IBCF hỗ trợ kém khi đánh giá tính chính xác của gợi ý trên dữ liệu phi nhị
phân.
2.3.4.1. Tính chính xác của gợi ý qua so sánh nội trên dữ liệu phi nhị phân
Tương tự như kịch bản ở Mục 2.3.3.3, bốn hệ tư vấn được xây dựng là
IIntens.RS, IIntens.Contr.RS, EIIntens.Contr.RS và Cohe.Contr.RS.
Hình 2.16: Đường cong Precision - Recall của bốn hệ tư vấn
trên tập MovieLens(565x336) khi (times, given) là (2, 1) và (1, 6).
Việc xác định các ngưỡng ngưỡng hỗ trợ 𝑠, ngưỡng tin cậy 𝑐 và độ dài tối đa
của luật 𝑙 trên tập dữ liệu MovieLens(565x336) được thực hiện tương tự như Mục
2.3.3.1. Tuy nhiên, do hạn chế về tài nguyên máy tính được dùng trong thực nghiệm,
các ngưỡng 𝑠, 𝑐 và 𝑙 được xét từ 0,1, 0,1 và 2 tương ứng. Kết quả, s=0,1, c=0,3 và
l=3 được sử dụng trong so sánh hiệu quả tư vấn của bốn hệ thống vừa nêu.
Hình 2.16 và Hình 2.17 hiển thị đường cong Precision - Recall của bốn hệ tư
vấn khi (times, given) là (2, 1), (1, 6), (5, 12) và (3, 17) tương ứng và số phim cần gợi
ý cho mỗi người xem là 1, 5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90 và 100.
Số phim được gợi ý
cho người dùng
(a): (times, given) = (2, 1) (b): (times, given) = (1, 6)
71
Hình 2.17: Đường cong Precision - Recall của bốn hệ tư vấn
trên tập MovieLens(565x336) khi (times, given) là (5, 12) và (3, 17).
Hình 2.18 hiển thị đường cong ROC của bốn hệ tư vấn khi (times, given) là (2,
2), (4, 17) tương ứng.
Hình 2.18: Đường cong ROC của bốn hệ tư vấn
trên tập MovieLens(565x336) khi (times, given) là (2, 2) và (4, 17).
Số phim được gợi ý
cho người dùng
(a): (times, given) = (5, 12) (b): (times, given) = (3, 17)
Số phim được gợi ý
cho người dùng
(a): (times, given) = (2, 2) (b): (times, given) = (4, 17)
72
Kết quả thực nghiệm trong các Hình 2.16, Hình 2.17 và Hình 2.18 cho thấy hệ
tư vấn không kết hợp với chỉ số đóng góp IIntens.RS cho hiệu quả thấp nhất (giá trị
chính xác và giá trị bao phủ thấp nhất và tỷ lệ cảnh báo sai cao nhất) khi so với các
hệ thống còn lại.
Hình 2.19 và Hình 2.20 là biểu đồ chênh lệch giá trị chuẩn xác Accuracy và giá
trị F1 tương ứng của IIntens.Contr.RS, EIIntens. Contr.RS và Cohe.Contr.RS so với
của IIntens.Contr.RS trên các given (1, 2, 4, 6, 10, 14, 17) khi times=2 và số phim
cần gợi ý cho mỗi người dùng là (1, 10, 20, 40, 60, 80, 100).
Hình 2.19: Sự chênh lệch giá trị Accuracy của
ba hệ tư vấn trên tập MovieLens(565x336) khi times=2.
Hình 2.20: Sự chênh lệch giá trị F1 của
ba hệ tư vấn trên tập MovieLens(565x336) khi times=2.
Kết quả thực nghiệm trong Hình 2.19 và Hình 2.20 cho thấy:
-0.006
-0.004
-0.002
0
0.002
0.004
1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0
given=1 given=2 given=4 given=6 given=10 given=14 given=17
Ch
ên
h
lệ
ch
g
iá
tr
ị A
cc
ur
ac
y
Biểu đồ chênh lệch giá trị Accuracy của 3 hệ tư vấn khi times=2
IIntens.Contr. RS EIIntens.Contr. RS Cohe.Contr. RS
-0.015
-0.01
-0.005
0
0.005
0.01
1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0 1 10 20 40 60 80 10
0
given=1 given=2 given=4 given=6 given=10 given=14 given=17
Ch
ên
h
lệ
ch
g
iá
tr
ị F
1
Biểu đồ chênh lệch giá trị F1 của 3 hệ tư vấn khi times=2
IIntens.Contr. RS EIIntens.Contr. RS Cohe.Contr. RS
73
- Hệ tư vấn EIIntens.Contr.RS có giá trị F1 và giá trị chuẩn xác Accuracy cao
hơn hai hệ thống còn lại khi given là 1 hoặc 2. Ngoài ra, EIIntens.Contr.RS còn có
giá trị chuẩn xác cao hơn trên phân đoạn từ 1 đến 20 phim với mọi given được xét.
- Các hệ tư vấn IIntens.Contr.RS và Cohe.Contr.RS có hiệu quả cao hơn hệ
thống EIIntens.Contr.RS khi given>2 và trên phân đoạn từ 20 đến 100 phim. Phân
đoạn này sẽ tăng khi given tăng.
Kết luận
Như vậy, khi sử dụng mô hình đề xuất SIR trên dữ liệu phi nhị phân, ta nên:
- Kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi người cần tư vấn
là người dùng mới (số xếp hạng biết trước của người này given≤2).
- Kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi cần gợi ý ít mục
dữ liệu cho người cần tư vấn và quan tâm đến giá trị chuẩn xác hơn giá trị điều hòa
F1.
- Kết hợp cường độ hàm ý/chỉ số gắn kết với chỉ số đóng góp trong trường hợp
ngược lại.
2.3.4.2. Tính chính xác của gợi ý qua so sánh ngoại trên dữ liệu phi nhị phân
Trên tập dữ liệu MovieLens(565x336), hai hệ tư vấn EIIntens/Cohe.Contr.RS
và Popular RS được xây dựng. Hai hệ thống này cần gợi ý cho mỗi người xem là 1,
5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90 và 100 phim. EIIntens/Cohe.Contr.RS sử
dụng mô hình SIR kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi số
phim cần gợi ý từ 1 đến 20 và kết hợp chỉ số gắn kết với chỉ số đóng góp khi số phim
cần gợi ý từ 25 đến 100.
Hình 2.21 hiển thị đường cong ROC và Precision - Recall của hai hệ tư vấn khi
(times, given) là (3, 6). Khi thay đổi số lần thực thi phương pháp đánh giá chéo k tập
con và số xếp hạng biết trước của người cần tư vấn (given từ 1 đến 18), ta đều nhận
được kết quả tương tự như Hình 2.21.
74
Hình 2.21: Đường cong ROC và Precision - Recall của
hai hệ tư vấn trên tập MovieLens(565x336) khi times=3 và given=6.
Gọi F1Popular và F1EIIntens/Cohe.Contr.RS là giá trị F1 của hệ thống Popular RS và
EIIntens/Cohe.Contr.RS tương ứng. Hình 2.22 là biểu đồ chênh lệch giá trị
F1EIIntens/Cohe.Contr.RS – F1Popular của hai hệ thống này khi times=1 và given=1, 2, 6, 10,
14 và 18.
Hình 2.22: Sự chênh lệch giá trị F1 của
hai hệ tư vấn trên tập MovieLens(565x336) khi times=1.
1 phim
5 phim
10 phim
15 phim
20 phim
25 phim
30 phim
40 phim
50 phim
60 phim
70 phim
80 phim
90 phim
100 phim
-0.01
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
Ch
ên
h
lệ
ch
g
iá
tr
ị F
1
Số phim gợi ý cho người xem
Biểu đồ chênh lệch giá trị F1 của EIIntens/Cohe.Contr. RS và
Popular RS
given=1 given=2 given=6
given=10 given=14 given=18
Số phim được gợi ý
cho người dùng
(a) (b) (times, given) = (3, 6)
75
Biểu đồ cho thấy giá trị F1 của EIIntens/Cohe.Contr.RS trên các given từ thấp
nhất (given=1) đến cao nhất (given=18) luôn cao hơn của Popular RS.
Kết luận
Các kết quả thực nghiệm này cho thấy hệ thống sử dụng mô hình đề xuất SIR
cho hiệu quả tư vấn cao hơn hệ thống sử dụng mô hình tư vấn dựa trên các mục dữ
liệu phổ biến nhất.
2.4. Kết luận chương 2
Chương 2 đề xuất một mô hình tư vấn theo mức độ quan trọng hàm ý thống kê
trên luật SIR cho cả dữ liệu nhị phân và phi nhị phân và thực hiện cải tiến mô hình
đề xuất nhằm giảm thời gian tư vấn. Tập luật được biểu diễn theo quan điểm phân
tích hàm ý thống kê có thể được xây dựng và lưu trữ trước (ngoại tuyến), sau đó được
sử dụng trực tuyến khi có người cần tư vấn. Mô hình tư vấn đề xuất SIR có thể sử
dụng nhiều mức độ quan trọng hàm ý thống kê khác nhau như cường độ hàm ý có
hay không có entropy, chỉ số gắn kết, chỉ số đóng góp để tăng hiệu quả tư vấn và có
thể mở rộng cho nhiều độ đo hấp dẫn khách quan khác. Mô hình SIR được cài đặt và
tích hợp trong công cụ Interestingnesslab. Hiệu quả tư vấn của mô hình đề xuất được
đánh giá qua: Đường cong ROC, đường cong Precision - Recall và giá trị F1 (thuộc
nhóm độ đo đánh giá tính chính xác của gợi ý); trên hai nhóm dữ liệu: Nhị phân
(MSWeb, DKHP) và phi nhị phân (MovieLens); theo hai nhóm kịch bản: So sánh nội
(cùng mô hình SIR nhưng khác mức độ quan trọng hàm ý thống kê) và so sánh ngoại
(mô hình SIR và một số mô hình tư vấn hiện có trong gói recommenderlab: AR,
POPULAR, IBCF). Kết quả thực nghiệm trên dữ liệu nhị phân cho thấy: Trong các
mức độ quan trọng hàm ý thống kê, mô hình SIR có hiệu quả tư vấn cao nhất khi kết
hợp cường độ hàm ý có entropy với chỉ số đóng góp; trong các mô hình tư vấn được
so sánh, mô hình SIR cho hiệu quả cao nhất khi người cần tư vấn không phải là người
dùng mới. Trong trường hợp người dùng mới (số xếp hạng đã biết của người này là
1), mô hình SIR cho hiệu quả tư vấn thấp hơn mô hình AR nhưng sự chênh lệch là
không cao. Kết quả thực nghiệm trên dữ liệu phi nhị phân cho thấy: Trong trường
76
hợp số mục dữ liệu cần gợi ý cho người dùng không nhiều, mô hình SIR có hiệu quả
tư vấn cao nhất khi kết hợp cường độ hàm ý có entropy với chỉ số đóng góp; trong
trường hợp ngược lại, mô hình SIR có hiệu quả tư vấn cao nhất khi kết hợp cường độ
hàm ý/chỉ số gắn kết với chỉ số đóng góp. Tuy nhiên, thực tế, việc gợi ý quá nhiều
mục dữ liệu sẽ làm người cần tư vấn bối rối. Vì vậy, mô hình tư vấn theo mức độ
quan trọng hàm ý thống kê trên luật SIR nên: (1) kết hợp cường độ hàm ý có entropy
với chỉ số đóng góp để xây dựng gợi ý; (2) được sử dụng để xây dựng hệ tư vấn vì nó
cho hiệu quả cao hơn các mô hình được so sánh, đặc biệt trong tình huống số xếp
hạng của người cần tư vấn không quá thấp.
77
3. CHƯƠNG 3. TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG
XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN NGƯỜI DÙNG
Mô hình tư vấn SIR ở Chương 2 và các mô hình tư vấn cũng dựa trên phân tích
hàm ý thống kê [55][60] đều sử dụng luật kết hợp trong xây dựng các gợi ý cho người
dùng. Để không bỏ sót các luật có chất lượng, ngưỡng hỗ trợ và ngưỡng tin cậy
thường được gán các giá trị thấp; từ đó dẫn đến số lượng luật được sinh ra cao. Khi
số luật là quá lớn, các mô hình tư vấn dựa trên luật có thể gặp phải một số nhược
điểm: Thời gian xây dựng kết quả gợi ý (gọi chung là thời gian tư vấn) trực tuyến lâu;
máy tính có thể bị quá tải trong quá trình tính toán. Do đó, ta có thể sử dụng kỹ thuật
tư vấn khác để tránh nhược điểm vừa nêu. Bên cạnh đó, giá trị xếp hạng cho sản phẩm
𝑖 của người cần tư vấn 𝑢 có thể gần giống như giá trị xếp hạng cho sản phẩm 𝑖 của
những người có cùng sở thích với 𝑢 (gọi chung là các láng giềng gần nhất 𝑢). Vì
vậy, kỹ thuật tư vấn lọc cộng tác dựa trên người dùng có thể được sử dụng. Trong đó,
việc tìm những láng giềng gần nhất có thể dựa trên cường độ hàm ý giữa hai người
dùng; việc dự đoán xếp hạng sản phẩm 𝑖 của 𝑢 được dựa trên các giá trị xếp hạng
cho sản phẩm 𝑖 của những láng giềng gần nhất với 𝑢. Không những thế, mỗi sản
phẩm đều có ảnh hưởng nhất định trong việc hình thành mối quan hệ giữa người dùng
𝑢 và láng giềng 𝑢; cùng một sản phẩm 𝑖 nhưng nó ảnh hưởng khác nhau lên mối
quan hệ giữa 𝑢 và các láng giềng. Do vậy, ta có thể kết hợp các đặc điểm vừa nêu
để cải thiện tính chính xác của kết quả gợi ý. Chương 3 của luận án tập trung vào: (1)
đề xuất một mức độ quan trọng hàm ý thống kê mới 𝐾𝑛𝑛𝑈𝐼𝑅 (K nearest
neighbors/users based implicative rating) để dự đoán xếp hạng của người dùng; (2)
đề xuất một mô hình tư vấn mới 𝑈𝐼𝑅 (user implicative rating based model) sử dụng
kỹ thuật tư vấn lọc cộng tác dựa trên láng giềng và mức độ quan trọng 𝐾𝑛𝑛𝑈𝐼𝑅; (3)
đánh giá hiệu quả tư vấn của mô hình UIR qua nhóm độ đo: Tính chính xác của gợi
ý trên dữ liệu nhị phân, tính chính xác của xếp hạng được dự đoán trên dữ liệu phi
nhị phân và tính chính xác của gợi ý được sắp thứ tự trên cả dữ liệu nhị phân và phi
nhị phân.
78
Một số kết quả nghiên cứu của Chương 3 được công bố tại Hội nghị Quốc gia
lần thứ XX về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT) năm 2017
và trên Tạp chí International Journal of Advanced Computer Science and
Applications (IJACSA), Vol. 8, Iss.11, năm 2017.
3.1. Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê trên người
dùng
Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 𝐾𝑛𝑛𝑈𝐼𝑅 là một
độ đo được dùng để dự đoán xếp hạng của người cần tư vấn 𝑢 cho các mục dữ liệu
𝑖 ∈ 𝐼. Mục đích của việc đề xuất độ đo này là nhằm tăng cường hiệu quả tư vấn.
Như đã trình bày trong phần giới thiệu chương, giá trị xếp hạng của người dùng
𝑢 cho mục dữ liệu 𝑖 có thể bị ảnh hưởng không những bởi các láng giềng 𝑢 gần
nhất mà còn bởi chính mục dữ liệu 𝑖 lên mối quan hệ giữa 𝑢 và 𝑢. Mức độ quan
trọng xếp hạng hàm ý thống kê trên người dùng 𝐾𝑛𝑛𝑈𝐼𝑅 được phát triển từ hai mức
độ quan trọng cơ sở: Cường độ hàm ý và chỉ số tiêu biểu. Tuy nhiên, khác với cách
tiếp cận ở Chương 2, cường độ hàm ý sẽ đo sức mạnh của mối quan hệ giữa hai người
dùng thay vì giữa các mục dữ liệu; chỉ số tiêu biểu sẽ đo sự ảnh hưởng của một mục
dữ liệu đối với sự hình thành mối quan hệ giữa hai người dùng thay vì của người dùng
đối sự hình thành mối quan hệ giữa các mục.
Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 𝐾𝑛𝑛𝑈𝐼𝑅 dự đoán
xếp hạng của người cần tư vấn 𝑢 cho mục dữ liệu 𝑖 được dựa trên: (1) số láng giềng
gần nhất của 𝑢 - những người có mối quan hệ hàm ý mạnh nhất với 𝑢 thông qua
cường độ hàm ý; (2) các xếp hạng cho mục dữ liệu 𝑖 của những láng giềng 𝑢 gần
nhất với 𝑢; (3) tính tiêu biểu của 𝑖 trong sự hình thành mối quan hệ giữa 𝑢 và 𝑢.
Luận án tập trung vào trường hợp số mục dữ liệu đã được xếp hạng của người cần tư
vấn 𝑢 là không nhiều. Vì vậy, số xếp hạng đã biết của 𝑢 thường ít hơn số xếp hạng
đã biết của các láng giềng 𝑢. Khi đó, số phản ví dụ 𝑛௨ೌ௨ഥೕ của mối quan hệ (𝑢 , 𝑢)
nhỏ hơn số phản ví dụ 𝑛௨ೕ௨ഥೌ của mối quan hệ (𝑢 , 𝑢). Dựa trên đặc điểm của phân
tích hàm ý thống kê, mối quan hệ (𝑢 , 𝑢) sẽ được sử dụng trong xây dựng 𝐾𝑛𝑛𝑈𝐼𝑅.
𝐾𝑛𝑛𝑈𝐼𝑅 được định nghĩa trong công thức (3.1).
79
𝐾𝑛𝑛𝑈𝐼𝑅(𝑢 , 𝑖) = 𝑟௨ೕ ∗ 𝛾(𝑖, 𝑢 → 𝑢)
ୀଵ
(3.1)
Với:
- 𝑘𝑛𝑛 là số láng giềng gần nhất với 𝑢. Việc xác định các láng giềng 𝑢 gần nhất
với 𝑢 được dựa trên giá trị cường độ hàm ý 𝜑(𝑢 , 𝑢). Công thức tính 𝜑 đã được
trình bày ở Bảng 1.4.
- 𝑟௨ೕ là xếp hạng của người dùng 𝑢 cho mục dữ liệu 𝑖.
- 𝛾(𝑖, 𝑢 → 𝑢) là chỉ số tiêu biểu của mục dữ liệu 𝑖 đối với sự hình thành mối
quan hệ (𝑢 , 𝑢). Công thức tính 𝛾 cũng đã được trình bày ở Bảng 1.4. 𝛾 được xem
là trọng số giúp tăng/giảm ảnh hưởng của 𝑟௨ೕ - giá trị xếp hạng cho mục dữ liệu 𝑖
của từng láng giềng gần nhất 𝑢 - trong việc dự đoán giá trị xếp hạng cho mục dữ liệu
𝑖 của người cần tư vấn 𝑢. Nếu 𝑢ଵ và 𝑢ଶ là hai láng giềng gần của 𝑢, cả 𝑢ଵ và 𝑢ଶ
đều xếp hạng mục dữ liệu 𝑖 và 𝜑(𝑢 , 𝑢ଵ) > 𝜑(𝑢 , 𝑢ଶ) (nghĩa là 𝑢ଵ gần 𝑢 hơn 𝑢ଶ)
thì theo công thức tính 𝛾, 𝛾(𝑖, 𝑢 → 𝑢ଵ)> 𝛾(𝑖, 𝑢 → 𝑢ଶ) (nghĩa là tính tiêu biểu của
𝑖 đối với (𝑢 , 𝑢ଵ) sẽ cao hơn của 𝑖 đối với (𝑢 , 𝑢ଶ)). Như vậy, láng giềng 𝑢ଵ gần
𝑢 hơn láng giềng 𝑢ଶ sẽ có trọng số cao hơn khi dự đoán xếp hạng cho 𝑢.
Công thức (3.1) cho thấy nếu dữ liệu ở dạng nhị phân, giá trị xếp hạng hàm ý
thống kê 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢 , 𝑖) của người dùng 𝑢 cho mục dữ liệu 𝑖 là tổng của tất cả các
chỉ số tiêu biểu của 𝑖 đối với sự hình thành mối quan hệ giữa 𝑢 và 𝑘𝑛𝑛 láng giềng
gần nhất 𝑢 với điều kiện 𝑢 đã thích 𝑖 (𝑟௨ೕ = 1).
Giá trị xếp hạng 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢 , 𝑖) phải được quy đổi về cùng thang đo khoảng [0,
1] như các xếp hạng đã biết bằng cách thực hiện phép chia 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢 , 𝑖)/
𝑚𝑎𝑥∈ூ𝐾𝑛𝑛𝑈𝐼𝑅(𝑢 , 𝑙). Trong đó, 𝑚𝑎𝑥∈ூ𝐾𝑛𝑛𝑈𝐼𝑅(𝑢 , 𝑙) là giá trị lớn nhất trong tập
giá trị dự đoán xếp hạng của người dùng 𝑢 cho các mục dữ liệu.
3.2. Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê
trên người dùng UIR
Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người
dùng UIR được thể hiện tổng quát như Hình 3.1 và minh họa như Hình 3.2. Mô hình
tư vấn UIR có các thành phần tương tự như mô hình SIR ở Mục 2.1.
80
- Một tập hữu hạn những người dùng 𝑈 = {𝑢ଵ, 𝑢ଶ, , 𝑢}.
- Một tập hữu hạn các mục 𝐼 = {𝑖ଵ, 𝑖ଶ, , 𝑖}.
- Một ma trận xếp hạng 𝑅 = (𝑟)୶ với 𝑗 = 1, 𝑛തതതതത và 𝑘 = 1, 𝑚തതതതതത lưu trữ thông
tin phản hồi của người dùng về các mục dữ liệu.
- Một tập 𝑅௨ೌlưu các xếp hạng đã biết của người cần tư vấn 𝑢.
- Một tập 𝑅௨ೌᇱ lưu các xếp hạng dự đoán của người cần tư vấn 𝑢 cho các mục
dữ liệu.
- Một tập 𝑅𝑒𝑐𝑙𝑖𝑠𝑡 lưu 𝑇𝑜𝑝𝑁 mục được gợi ý cho người cần tư vấn 𝑢.
Hình 3.1: Mô hình tư vấn theo
mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR.
Gọi 𝑓: 𝑈 × 𝐼 → 𝑅 là một hàm ánh xạ từ những kết hợp của người dùng và
các mục dữ liệu vào các xếp hạng 𝑟. Mục tiêu của mô hình đề xuất UIR là tìm một
hàm 𝑓′: 𝑈 × 𝐼 → 𝑅′ sao cho hàm 𝜉(𝑟, 𝑟′) đạt được hiệu quả tốt hơn qua nhóm độ
đo đánh giá tính chính xác của xếp hạng được dự đoán (Mục 1.5.3). Bên cạnh đó, mô
hình UIR cũng mong muốn đạt được hiệu quả tốt hơn qua nhóm độ đo đánh giá tính
chính xác của danh sách gợi ý (Mục 1.5.2, Mục 1.5.4) khi so sánh với một số mô hình
tư vấn khác.
(𝑢, I, 𝑅௨ೌ) (U, I, R)
Cường độ hàm ý
𝑢 x U {𝜑(𝑢, 𝑢), 𝑗 = 1, 𝑘𝑛𝑛തതതതതതതത}
Xếp hạng hàm ý trên người dùng KnnUIR
𝑢 x I 𝑅௨ೌᇱ 𝑅𝑒𝑐𝑙𝑖𝑠𝑡 = {𝑖 |𝑖 ∈ 𝐼, 𝑟௨ೌ
ᇱ ∈ 𝑇𝑜𝑝𝑁}
81
Hình 3.2: Minh họa của mô hình tư vấn theo
mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR.
Mô hình tư vấn đề xuất UIR sử dụng các mức độ quan trọng hàm ý thống kê
sau đây:
- Cường độ hàm ý 𝜑(𝑢 , 𝑢) được dùng để tìm các láng giềng gần nhất của
người cần tư vấn 𝑢 và là một thành phần để tính chỉ số tiêu biểu. Cường độ hàm ý
trong chương này đo chất lượng mối quan hệ giữa hai người dùng.
- Chỉ số tiêu biểu 𝛾(𝑖, 𝑢 → 𝑢) đo giá trị tiêu biểu của một mục dữ liệu đối với
sự hình thành mối quan hệ hàm ý giữa hai người dùng.
- Xếp hạng hàm ý thống kê trên người dùng 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢 , 𝑖) được sử dụng để
dự đoán xếp hạng của người cần tư vấn cho một mục dữ liệu.
3.3. Hoạt động của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm
ý thống kê trên người dùng
Hoạt động của mô hình tư vấn UIR gồm sáu bước được chia thành ba giai đoạn:
Tiền xử lý dữ liệu, chuẩn bị cho việc tính giá trị KnnUIR và thực hiện tư vấn (Hình
3.3).
Cường độ
hàm ý 𝜑
i1 i2 im
u1 r11 NA r1m
u2 NA r22 r2m
un rn1 NA NA
ua
knn=3
u2
u11
u9
.
.
.
.
.
.
.
u1 u15
un
Ma trận đánh giá/xếp hạng
Thông tin của người cần tư vấn
Các xếp hạng được dự đoán
i1 i2 im
ua r’a1 r’a2 r’am
Danh sách TopN mục
ua {i1, i13, , im-2}
Xếp hạng hàm ý thống kê
trên người dùng KnnUIR
i1 i2 im-1 im
ua NA ra2 ram-1 NA
82
Hình 3.3: Hoạt động của mô hình tư vấn theo
mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR.
Biểu diễn mối quan hệ giữa ua và uj với
ujU theo phân tích hàm ý thống kê và
tính cường độ hàm ý của (ua, uj)
Thông tin của người cần tư vấn
i1 i2 im
u1 r11 NA r1m
u2 NA r22 r2m
un rn1 rn2 NA
Tiền xử lý dữ liệu
Ma trận xếp hạng
Danh sách TopN mục được xếp hạng cao nhất
ua {i1, i13, im-2}
Các xếp hạng dự đoán
i1 i2 im
ua r’a1 r’i2 r’am
Tính giá trị tiêu biểu của mục i đối với
sự hình thành mối quan hệ (ua, uj)
Dự đoán các xếp hạng của người dùng
ua cho các mục iI
Gợi ý các mục được xếp hạng cao cho
người dùng ua
i1 i2 im-1 im
ua NA ra2 ram-1 NA
Tìm knn láng giềng gần nhất của ua
Có gợi ý?
Không
Có
Chuẩn bị
cho việc
tính giá
trị
KnnUIR
Thực hiện
tư vấn
Dữ liệu
đầu vào
Dữ liệu
đầu ra
83
Các bước của quá trình hoạt động được mô tả như dưới đây. Trong đó, các bước
2, 3 và 4 được sử dụng bởi giai đoạn thứ hai; các bước 5 và 6 được sử dụng bởi giai
đoạn thứ ba.
- Tiền xử lý dữ liệu. Bước này hoạt động tương tự như bước đầu tiên của mô
hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật.
- Biểu diễn mối quan hệ giữa hai người dùng theo quan điểm phân tích hàm ý
thống kê và tính cường độ hàm ý của mối quan hệ. Bước này gồm các công việc: (1)
mô tả mối quan hệ giữa người cần được tư vấn 𝑢 với từng người dùng trong tập dữ
liệu đã được tiền xử lý 𝑢 ∈ 𝑈 bằng một bộ các giá trị 𝑛, 𝑛 , 𝑛 và 𝑛ത ; (2) tính giá
trị cường độ hàm ý của mối quan hệ 𝑢 với từng người dùng 𝑢 ∈ 𝑈. Trong đó, công
việc (1) tương tự như bước thứ hai của mô hình tư vấn theo mức độ quan trọng hàm
ý thống kê trên luật SIR nhưng xét trên từng cặp người dùng thay vì từng cặp mục
- Tìm 𝑘𝑛𝑛 láng giềng gần nhất của người cần tư vấn 𝑢. Bước này sắp xếp các
giá trị cường độ hàm ý của 𝑢 với từng người dùng 𝑢 ∈ 𝑈 để lọc ra 𝑘𝑛𝑛 người dùng
có cường độ hàm ý cao nhất.
- Tính chỉ số tiêu biểu của từng mục dữ liệu 𝑖 ∈ 𝐼 đối với sự hình thành mới
quan hệ (𝑢 , 𝑢) với 𝑢 là một trong 𝑘𝑛𝑛 láng giềng gần nhất của 𝑢.
- Dự đoán các xếp hạng bị thiếu của người dùng 𝑢 cho từng mục dữ liệu 𝑖 dựa
trên mức độ quan trọng xếp hạng hàm ý 𝐾𝑛𝑛𝑈𝐼𝑅 vừa đư
Các file đính kèm theo tài liệu này:
- luan_an_he_tu_van_dua_tren_muc_do_quan_trong_ham_y_thong_ke.pdf