Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê

MỤC LỤC . I

DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT . VI

DANH MỤC BẢNG . VIII

DANH MỤC HÌNH . IX

MỞ ĐẦU . 1

CHƯƠNG 1. TỔNG QUAN . 7

1.1. Mức độ quan trọng hàm ý thống kê . 7

1.1.1. Định nghĩa mức độ quan trọng hàm ý thống kê . 7

1.1.2. Mức độ quan trọng hàm ý thống kê cho dữ liệu nhị phân . 8

1.1.2.1. Mối quan hệ hàm ý thống kê trên dữ liệu nhị phân . 8

1.1.2.2. Chỉ số hàm ý và cường độ hàm ý . 10

1.1.2.3. Cường độ hàm ý có entropy . 12

1.1.2.4. Chỉ số gắn kết . 13

1.1.2.5. Chỉ số đóng góp . 13

1.1.2.6. Chỉ số tiêu biểu . 14

1.1.3. Mức độ quan trọng hàm ý thống kê cho dữ liệu phi nhị phân . 14

1.1.3.1. Mối quan hệ hàm ý thống kê trên dữ liệu phi nhị phân . 15

1.1.3.2. Mức độ quan trọng hàm ý thống kê cho dữ liệu phi nhị phân . 15

1.2. Mức độ quan trọng xếp hạng hàm ý thống kê . 17

1.3. Hệ tư vấn và các hướng nghiên cứu . 18

1.3.1. Hệ tư vấn. 18

1.3.2. Phân loại hệ tư vấn . 21

1.3.2.1. Hệ tư vấn thuộc nhóm cá thể . 22

1.3.2.2. Hệ tư vấn thuộc nhóm cộng tác/cộng đồng . 22

1.3.2.3. Hệ tư vấn thuộc nhóm chuyên gia . 23

1.3.2.4. Hệ tư vấn thuộc nhóm lai ghép . 24

192 trang | Chia sẻ: honganh20 | Lượt xem: 672 | Lượt tải: 1Free

Bạn đang xem trước 20 trang tài liệu Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

IIntens.Contr.RS và hệ tư vấn ARConfidence RS cần các ngưỡng hỗ trợ 𝑠, tin cậy 𝑐, độ dài tối đa của một luật 𝑙. Các ngưỡng này đã được xác định ở Mục 2.3.3.1: s=0,01, c=0,1 và l=7. 67 - Hệ tư vấn IBCFJaccard RS cần số láng giềng gần nhất 𝑘. 𝑘 cũng đã được xác định ở Mục 2.3.3.1: k=135. Hình 2.13 hiển thị các đường cong ROC và Precision - Recall trung bình của 6 lần thực thi phương pháp đánh giá chéo k tập con (times=6) của bốn hệ tư vấn khi given=7. Hình 2.13: Đường cong Precision - Recall và đường cong ROC của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=6, given=7. Hình 2.13.a cho thấy đường cong ROC của hệ tư vấn sử dụng mô hình đề xuất SIR là vượt trội hơn ba hệ tư vấn sử dụng mô hình dựa theo luật (ARConfidence RS), mô hình dựa trên những mục dữ liệu phổ biến (Popular RS) và mô hình lọc cộng tác dựa trên mục (IBCFJaccard RS) khi given≥2. Hình 2.14.a và Hình 2.14.b hiển thị đường cong Precision - Recall của bốn hệ tư vấn khi (times, given) là (4, 3) và (2,2) tương ứng. Hình 2.13.b và Hình 2.14 cho thấy độ chính xác và độ bao phủ của hệ tư vấn sử dụng mô hình SIR là cao hơn so với của ba hệ tư vấn còn lại cho các given=2, 3 và 7. Khi thay đổi giá trị given (given=4, 5, 6) và số lần thực thi times, ta cũng nhận được kết quả tương tự như các hình này. (a) Số Vroot được gợi ý cho người dùng (times, given) = (6, 7) (b) 68 Hình 2.14: Đường cong Precision - Recall của bốn hệ tư vấn trên tập MSWeb(875x135) khi (times, given) là (4, 3) và (2, 2). Hình 2.15: Đường cong Precision - Recall và đường cong ROC của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=2, given=1. Tuy nhiên, khi given=1, hệ tư vấn sử dụng mô hình SIR có hiệu quả cao hơn của các hệ tư vấn Popular RS và IBCFJaccard RS nhưng không cao hơn của hệ tư vấn ARConfidence RS (Hình 2.15). Mặc dù vậy, sự chênh lệch giữa giá trị chính xác, Số Vroot được gợi ý cho người dùng (a): (times, given) = (4, 3) (b): (times, given) = (2, 2) (a) Số Vroot được gợi ý cho người dùng (times, given) = (2, 1) (b) 69 giá trị bao phủ và tỷ lệ cảnh báo sai của ARConfidence RS và EIIntens.Contr.RS là không cao. Kết luận Từ kết quả thực nghiệm trên tập dữ liệu nhị phân MSWeb(875x135), ta nhận thấy mô hình đề xuất SIR kết hợp cường độ hàm ý có entropy và chỉ số đóng góp cho hiệu quả cao hơn các mô hình tư vấn cũng dựa trên mục dữ liệu (AR, POPULAR, IBCF), đặc biệt khi số xếp hạng biết trước của người cần tư vấn không quá thấp given≥2 (nghĩa là khi người cần tư vấn không phải là người dùng mới). 2.3.3.5. Mô hình tư vấn SIR trong gợi ý đăng ký học phần Mục đích của kịch bản này là ứng dụng mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR để gợi ý các học phần mà sinh viên nên đăng ký. Giả sử một sinh viên đã đăng ký được 2 học phần Cấu trúc dữ liệu (CT103), Tư tưởng Hồ Chí Minh (ML006) và muốn được tư vấn thêm 3 học phần nữa. Hệ tư vấn sử dụng mô hình SIR dùng chỉ số gắn kết sẽ đưa ra gợi ý gồm các học phần: Kiến trúc máy tính (CT173), Toán rời rạc (CT172) và Vi tích phân A2 (TN002). Đây là những học phần có độ tin cậy và chỉ số gắn kết cao với 2 học phần mà sinh viên đã đăng ký. Tương tự như vậy, khi sinh viên thay đổi các học phần đăng ký và muốn được tư vấn thêm các học phần khác, hệ tư vấn sẽ gợi ý cho sinh viên danh sách các học phần có mối quan hệ gắn kết cao nhất với những học phần mà sinh viên đã đăng ký. 2.3.4. Hiệu quả tư vấn của mô hình SIR trên dữ liệu phi nhị phân Các kịch bản thực nghiệm trên tập dữ liệu phi nhị phân MovieLens(565x136) gồm: - Đánh giá hiệu quả tư vấn qua so sánh nội. Kịch bản này tương tự như kịch bản cùng tên đã thực hiện trên dữ liệu nhị phân (Mục 2.3.3.3). Hiệu quả tư vấn của cùng mô hình đề xuất SIR nhưng sử dụng các mức độ quan trọng hàm ý thống kê khác nhau được so sánh với nhau. Kết quả thực nghiệm cũng sẽ cho biết mức độ quan trọng hàm ý thống kê nào nên được sử dụng trong mô hình SIR trên dữ liệu phi nhị phân. 70 - Đánh giá hiệu quả tư vấn qua so sánh ngoại. Hiệu quả tư vấn của mô hình tư vấn SIR trên dữ liệu phi nhị phân được so sánh với hiệu quả tư vấn của mô hình POPULAR trong gói recommenderlab. Các mô hình AR và IBCF không được so sánh (như kịch bản cùng loại ở Mục 2.3.3.4) vì AR chỉ hoạt động trên dữ liệu nhị phân và IBCF hỗ trợ kém khi đánh giá tính chính xác của gợi ý trên dữ liệu phi nhị phân. 2.3.4.1. Tính chính xác của gợi ý qua so sánh nội trên dữ liệu phi nhị phân Tương tự như kịch bản ở Mục 2.3.3.3, bốn hệ tư vấn được xây dựng là IIntens.RS, IIntens.Contr.RS, EIIntens.Contr.RS và Cohe.Contr.RS. Hình 2.16: Đường cong Precision - Recall của bốn hệ tư vấn trên tập MovieLens(565x336) khi (times, given) là (2, 1) và (1, 6). Việc xác định các ngưỡng ngưỡng hỗ trợ 𝑠, ngưỡng tin cậy 𝑐 và độ dài tối đa của luật 𝑙 trên tập dữ liệu MovieLens(565x336) được thực hiện tương tự như Mục 2.3.3.1. Tuy nhiên, do hạn chế về tài nguyên máy tính được dùng trong thực nghiệm, các ngưỡng 𝑠, 𝑐 và 𝑙 được xét từ 0,1, 0,1 và 2 tương ứng. Kết quả, s=0,1, c=0,3 và l=3 được sử dụng trong so sánh hiệu quả tư vấn của bốn hệ thống vừa nêu. Hình 2.16 và Hình 2.17 hiển thị đường cong Precision - Recall của bốn hệ tư vấn khi (times, given) là (2, 1), (1, 6), (5, 12) và (3, 17) tương ứng và số phim cần gợi ý cho mỗi người xem là 1, 5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90 và 100. Số phim được gợi ý cho người dùng (a): (times, given) = (2, 1) (b): (times, given) = (1, 6) 71 Hình 2.17: Đường cong Precision - Recall của bốn hệ tư vấn trên tập MovieLens(565x336) khi (times, given) là (5, 12) và (3, 17). Hình 2.18 hiển thị đường cong ROC của bốn hệ tư vấn khi (times, given) là (2, 2), (4, 17) tương ứng. Hình 2.18: Đường cong ROC của bốn hệ tư vấn trên tập MovieLens(565x336) khi (times, given) là (2, 2) và (4, 17). Số phim được gợi ý cho người dùng (a): (times, given) = (5, 12) (b): (times, given) = (3, 17) Số phim được gợi ý cho người dùng (a): (times, given) = (2, 2) (b): (times, given) = (4, 17) 72 Kết quả thực nghiệm trong các Hình 2.16, Hình 2.17 và Hình 2.18 cho thấy hệ tư vấn không kết hợp với chỉ số đóng góp IIntens.RS cho hiệu quả thấp nhất (giá trị chính xác và giá trị bao phủ thấp nhất và tỷ lệ cảnh báo sai cao nhất) khi so với các hệ thống còn lại. Hình 2.19 và Hình 2.20 là biểu đồ chênh lệch giá trị chuẩn xác Accuracy và giá trị F1 tương ứng của IIntens.Contr.RS, EIIntens. Contr.RS và Cohe.Contr.RS so với của IIntens.Contr.RS trên các given (1, 2, 4, 6, 10, 14, 17) khi times=2 và số phim cần gợi ý cho mỗi người dùng là (1, 10, 20, 40, 60, 80, 100). Hình 2.19: Sự chênh lệch giá trị Accuracy của ba hệ tư vấn trên tập MovieLens(565x336) khi times=2. Hình 2.20: Sự chênh lệch giá trị F1 của ba hệ tư vấn trên tập MovieLens(565x336) khi times=2. Kết quả thực nghiệm trong Hình 2.19 và Hình 2.20 cho thấy: -0.006 -0.004 -0.002 0 0.002 0.004 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 given=1 given=2 given=4 given=6 given=10 given=14 given=17 Ch ên h lệ ch g iá tr ị A cc ur ac y Biểu đồ chênh lệch giá trị Accuracy của 3 hệ tư vấn khi times=2 IIntens.Contr. RS EIIntens.Contr. RS Cohe.Contr. RS -0.015 -0.01 -0.005 0 0.005 0.01 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 1 10 20 40 60 80 10 0 given=1 given=2 given=4 given=6 given=10 given=14 given=17 Ch ên h lệ ch g iá tr ị F 1 Biểu đồ chênh lệch giá trị F1 của 3 hệ tư vấn khi times=2 IIntens.Contr. RS EIIntens.Contr. RS Cohe.Contr. RS 73 - Hệ tư vấn EIIntens.Contr.RS có giá trị F1 và giá trị chuẩn xác Accuracy cao hơn hai hệ thống còn lại khi given là 1 hoặc 2. Ngoài ra, EIIntens.Contr.RS còn có giá trị chuẩn xác cao hơn trên phân đoạn từ 1 đến 20 phim với mọi given được xét. - Các hệ tư vấn IIntens.Contr.RS và Cohe.Contr.RS có hiệu quả cao hơn hệ thống EIIntens.Contr.RS khi given>2 và trên phân đoạn từ 20 đến 100 phim. Phân đoạn này sẽ tăng khi given tăng. Kết luận Như vậy, khi sử dụng mô hình đề xuất SIR trên dữ liệu phi nhị phân, ta nên: - Kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi người cần tư vấn là người dùng mới (số xếp hạng biết trước của người này given≤2). - Kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi cần gợi ý ít mục dữ liệu cho người cần tư vấn và quan tâm đến giá trị chuẩn xác hơn giá trị điều hòa F1. - Kết hợp cường độ hàm ý/chỉ số gắn kết với chỉ số đóng góp trong trường hợp ngược lại. 2.3.4.2. Tính chính xác của gợi ý qua so sánh ngoại trên dữ liệu phi nhị phân Trên tập dữ liệu MovieLens(565x336), hai hệ tư vấn EIIntens/Cohe.Contr.RS và Popular RS được xây dựng. Hai hệ thống này cần gợi ý cho mỗi người xem là 1, 5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90 và 100 phim. EIIntens/Cohe.Contr.RS sử dụng mô hình SIR kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi số phim cần gợi ý từ 1 đến 20 và kết hợp chỉ số gắn kết với chỉ số đóng góp khi số phim cần gợi ý từ 25 đến 100. Hình 2.21 hiển thị đường cong ROC và Precision - Recall của hai hệ tư vấn khi (times, given) là (3, 6). Khi thay đổi số lần thực thi phương pháp đánh giá chéo k tập con và số xếp hạng biết trước của người cần tư vấn (given từ 1 đến 18), ta đều nhận được kết quả tương tự như Hình 2.21. 74 Hình 2.21: Đường cong ROC và Precision - Recall của hai hệ tư vấn trên tập MovieLens(565x336) khi times=3 và given=6. Gọi F1Popular và F1EIIntens/Cohe.Contr.RS là giá trị F1 của hệ thống Popular RS và EIIntens/Cohe.Contr.RS tương ứng. Hình 2.22 là biểu đồ chênh lệch giá trị F1EIIntens/Cohe.Contr.RS – F1Popular của hai hệ thống này khi times=1 và given=1, 2, 6, 10, 14 và 18. Hình 2.22: Sự chênh lệch giá trị F1 của hai hệ tư vấn trên tập MovieLens(565x336) khi times=1. 1 phim 5 phim 10 phim 15 phim 20 phim 25 phim 30 phim 40 phim 50 phim 60 phim 70 phim 80 phim 90 phim 100 phim -0.01 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 Ch ên h lệ ch g iá tr ị F 1 Số phim gợi ý cho người xem Biểu đồ chênh lệch giá trị F1 của EIIntens/Cohe.Contr. RS và Popular RS given=1 given=2 given=6 given=10 given=14 given=18 Số phim được gợi ý cho người dùng (a) (b) (times, given) = (3, 6) 75 Biểu đồ cho thấy giá trị F1 của EIIntens/Cohe.Contr.RS trên các given từ thấp nhất (given=1) đến cao nhất (given=18) luôn cao hơn của Popular RS. Kết luận Các kết quả thực nghiệm này cho thấy hệ thống sử dụng mô hình đề xuất SIR cho hiệu quả tư vấn cao hơn hệ thống sử dụng mô hình tư vấn dựa trên các mục dữ liệu phổ biến nhất. 2.4. Kết luận chương 2 Chương 2 đề xuất một mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR cho cả dữ liệu nhị phân và phi nhị phân và thực hiện cải tiến mô hình đề xuất nhằm giảm thời gian tư vấn. Tập luật được biểu diễn theo quan điểm phân tích hàm ý thống kê có thể được xây dựng và lưu trữ trước (ngoại tuyến), sau đó được sử dụng trực tuyến khi có người cần tư vấn. Mô hình tư vấn đề xuất SIR có thể sử dụng nhiều mức độ quan trọng hàm ý thống kê khác nhau như cường độ hàm ý có hay không có entropy, chỉ số gắn kết, chỉ số đóng góp để tăng hiệu quả tư vấn và có thể mở rộng cho nhiều độ đo hấp dẫn khách quan khác. Mô hình SIR được cài đặt và tích hợp trong công cụ Interestingnesslab. Hiệu quả tư vấn của mô hình đề xuất được đánh giá qua: Đường cong ROC, đường cong Precision - Recall và giá trị F1 (thuộc nhóm độ đo đánh giá tính chính xác của gợi ý); trên hai nhóm dữ liệu: Nhị phân (MSWeb, DKHP) và phi nhị phân (MovieLens); theo hai nhóm kịch bản: So sánh nội (cùng mô hình SIR nhưng khác mức độ quan trọng hàm ý thống kê) và so sánh ngoại (mô hình SIR và một số mô hình tư vấn hiện có trong gói recommenderlab: AR, POPULAR, IBCF). Kết quả thực nghiệm trên dữ liệu nhị phân cho thấy: Trong các mức độ quan trọng hàm ý thống kê, mô hình SIR có hiệu quả tư vấn cao nhất khi kết hợp cường độ hàm ý có entropy với chỉ số đóng góp; trong các mô hình tư vấn được so sánh, mô hình SIR cho hiệu quả cao nhất khi người cần tư vấn không phải là người dùng mới. Trong trường hợp người dùng mới (số xếp hạng đã biết của người này là 1), mô hình SIR cho hiệu quả tư vấn thấp hơn mô hình AR nhưng sự chênh lệch là không cao. Kết quả thực nghiệm trên dữ liệu phi nhị phân cho thấy: Trong trường 76 hợp số mục dữ liệu cần gợi ý cho người dùng không nhiều, mô hình SIR có hiệu quả tư vấn cao nhất khi kết hợp cường độ hàm ý có entropy với chỉ số đóng góp; trong trường hợp ngược lại, mô hình SIR có hiệu quả tư vấn cao nhất khi kết hợp cường độ hàm ý/chỉ số gắn kết với chỉ số đóng góp. Tuy nhiên, thực tế, việc gợi ý quá nhiều mục dữ liệu sẽ làm người cần tư vấn bối rối. Vì vậy, mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR nên: (1) kết hợp cường độ hàm ý có entropy với chỉ số đóng góp để xây dựng gợi ý; (2) được sử dụng để xây dựng hệ tư vấn vì nó cho hiệu quả cao hơn các mô hình được so sánh, đặc biệt trong tình huống số xếp hạng của người cần tư vấn không quá thấp. 77 3. CHƯƠNG 3. TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN NGƯỜI DÙNG Mô hình tư vấn SIR ở Chương 2 và các mô hình tư vấn cũng dựa trên phân tích hàm ý thống kê [55][60] đều sử dụng luật kết hợp trong xây dựng các gợi ý cho người dùng. Để không bỏ sót các luật có chất lượng, ngưỡng hỗ trợ và ngưỡng tin cậy thường được gán các giá trị thấp; từ đó dẫn đến số lượng luật được sinh ra cao. Khi số luật là quá lớn, các mô hình tư vấn dựa trên luật có thể gặp phải một số nhược điểm: Thời gian xây dựng kết quả gợi ý (gọi chung là thời gian tư vấn) trực tuyến lâu; máy tính có thể bị quá tải trong quá trình tính toán. Do đó, ta có thể sử dụng kỹ thuật tư vấn khác để tránh nhược điểm vừa nêu. Bên cạnh đó, giá trị xếp hạng cho sản phẩm 𝑖 của người cần tư vấn 𝑢௔ có thể gần giống như giá trị xếp hạng cho sản phẩm 𝑖 của những người có cùng sở thích với 𝑢௔ (gọi chung là các láng giềng gần nhất 𝑢௝). Vì vậy, kỹ thuật tư vấn lọc cộng tác dựa trên người dùng có thể được sử dụng. Trong đó, việc tìm những láng giềng gần nhất có thể dựa trên cường độ hàm ý giữa hai người dùng; việc dự đoán xếp hạng sản phẩm 𝑖 của 𝑢௔ được dựa trên các giá trị xếp hạng cho sản phẩm 𝑖 của những láng giềng gần nhất với 𝑢௔. Không những thế, mỗi sản phẩm đều có ảnh hưởng nhất định trong việc hình thành mối quan hệ giữa người dùng 𝑢௔ và láng giềng 𝑢௝; cùng một sản phẩm 𝑖 nhưng nó ảnh hưởng khác nhau lên mối quan hệ giữa 𝑢௔ và các láng giềng. Do vậy, ta có thể kết hợp các đặc điểm vừa nêu để cải thiện tính chính xác của kết quả gợi ý. Chương 3 của luận án tập trung vào: (1) đề xuất một mức độ quan trọng hàm ý thống kê mới 𝐾𝑛𝑛𝑈𝐼𝑅 (K nearest neighbors/users based implicative rating) để dự đoán xếp hạng của người dùng; (2) đề xuất một mô hình tư vấn mới 𝑈𝐼𝑅 (user implicative rating based model) sử dụng kỹ thuật tư vấn lọc cộng tác dựa trên láng giềng và mức độ quan trọng 𝐾𝑛𝑛𝑈𝐼𝑅; (3) đánh giá hiệu quả tư vấn của mô hình UIR qua nhóm độ đo: Tính chính xác của gợi ý trên dữ liệu nhị phân, tính chính xác của xếp hạng được dự đoán trên dữ liệu phi nhị phân và tính chính xác của gợi ý được sắp thứ tự trên cả dữ liệu nhị phân và phi nhị phân. 78 Một số kết quả nghiên cứu của Chương 3 được công bố tại Hội nghị Quốc gia lần thứ XX về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT) năm 2017 và trên Tạp chí International Journal of Advanced Computer Science and Applications (IJACSA), Vol. 8, Iss.11, năm 2017. 3.1. Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 𝐾𝑛𝑛𝑈𝐼𝑅 là một độ đo được dùng để dự đoán xếp hạng của người cần tư vấn 𝑢௔ cho các mục dữ liệu 𝑖 ∈ 𝐼. Mục đích của việc đề xuất độ đo này là nhằm tăng cường hiệu quả tư vấn. Như đã trình bày trong phần giới thiệu chương, giá trị xếp hạng của người dùng 𝑢௔ cho mục dữ liệu 𝑖 có thể bị ảnh hưởng không những bởi các láng giềng 𝑢௝ gần nhất mà còn bởi chính mục dữ liệu 𝑖 lên mối quan hệ giữa 𝑢௔ và 𝑢௝. Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 𝐾𝑛𝑛𝑈𝐼𝑅 được phát triển từ hai mức độ quan trọng cơ sở: Cường độ hàm ý và chỉ số tiêu biểu. Tuy nhiên, khác với cách tiếp cận ở Chương 2, cường độ hàm ý sẽ đo sức mạnh của mối quan hệ giữa hai người dùng thay vì giữa các mục dữ liệu; chỉ số tiêu biểu sẽ đo sự ảnh hưởng của một mục dữ liệu đối với sự hình thành mối quan hệ giữa hai người dùng thay vì của người dùng đối sự hình thành mối quan hệ giữa các mục. Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 𝐾𝑛𝑛𝑈𝐼𝑅 dự đoán xếp hạng của người cần tư vấn 𝑢௔ cho mục dữ liệu 𝑖 được dựa trên: (1) số láng giềng gần nhất của 𝑢௔ - những người có mối quan hệ hàm ý mạnh nhất với 𝑢௔ thông qua cường độ hàm ý; (2) các xếp hạng cho mục dữ liệu 𝑖 của những láng giềng 𝑢௝ gần nhất với 𝑢௔; (3) tính tiêu biểu của 𝑖 trong sự hình thành mối quan hệ giữa 𝑢௔ và 𝑢௝. Luận án tập trung vào trường hợp số mục dữ liệu đã được xếp hạng của người cần tư vấn 𝑢௔ là không nhiều. Vì vậy, số xếp hạng đã biết của 𝑢௔ thường ít hơn số xếp hạng đã biết của các láng giềng 𝑢௝. Khi đó, số phản ví dụ 𝑛௨ೌ௨ഥೕ của mối quan hệ (𝑢௔ , 𝑢௝) nhỏ hơn số phản ví dụ 𝑛௨ೕ௨ഥೌ của mối quan hệ (𝑢௝ , 𝑢௔). Dựa trên đặc điểm của phân tích hàm ý thống kê, mối quan hệ (𝑢௔ , 𝑢௝) sẽ được sử dụng trong xây dựng 𝐾𝑛𝑛𝑈𝐼𝑅. 𝐾𝑛𝑛𝑈𝐼𝑅 được định nghĩa trong công thức (3.1). 79 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢௔ , 𝑖) = ෍ 𝑟௨ೕ௜ ∗ 𝛾(𝑖, 𝑢௔ → 𝑢௝) ௞௡௡ ௝ୀଵ (3.1) Với: - 𝑘𝑛𝑛 là số láng giềng gần nhất với 𝑢௔. Việc xác định các láng giềng 𝑢௝ gần nhất với 𝑢௔ được dựa trên giá trị cường độ hàm ý 𝜑(𝑢௔ , 𝑢௝). Công thức tính 𝜑 đã được trình bày ở Bảng 1.4. - 𝑟௨ೕ௜ là xếp hạng của người dùng 𝑢௝ cho mục dữ liệu 𝑖. - 𝛾(𝑖, 𝑢௔ → 𝑢௝) là chỉ số tiêu biểu của mục dữ liệu 𝑖 đối với sự hình thành mối quan hệ (𝑢௔ , 𝑢௝). Công thức tính 𝛾 cũng đã được trình bày ở Bảng 1.4. 𝛾 được xem là trọng số giúp tăng/giảm ảnh hưởng của 𝑟௨ೕ௜ - giá trị xếp hạng cho mục dữ liệu 𝑖 của từng láng giềng gần nhất 𝑢௝ - trong việc dự đoán giá trị xếp hạng cho mục dữ liệu 𝑖 của người cần tư vấn 𝑢௔. Nếu 𝑢௝ଵ và 𝑢௝ଶ là hai láng giềng gần của 𝑢௔, cả 𝑢௝ଵ và 𝑢௝ଶ đều xếp hạng mục dữ liệu 𝑖 và 𝜑(𝑢௔ , 𝑢௝ଵ) > 𝜑(𝑢௔ , 𝑢௝ଶ) (nghĩa là 𝑢௝ଵ gần 𝑢௔ hơn 𝑢௝ଶ) thì theo công thức tính 𝛾, 𝛾(𝑖, 𝑢௔ → 𝑢௝ଵ)> 𝛾(𝑖, 𝑢௔ → 𝑢௝ଶ) (nghĩa là tính tiêu biểu của 𝑖 đối với (𝑢௔ , 𝑢௝ଵ) sẽ cao hơn của 𝑖 đối với (𝑢௔ , 𝑢௝ଶ)). Như vậy, láng giềng 𝑢௝ଵ gần 𝑢௔ hơn láng giềng 𝑢௝ଶ sẽ có trọng số cao hơn khi dự đoán xếp hạng cho 𝑢௔. Công thức (3.1) cho thấy nếu dữ liệu ở dạng nhị phân, giá trị xếp hạng hàm ý thống kê 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢௔ , 𝑖) của người dùng 𝑢௔ cho mục dữ liệu 𝑖 là tổng của tất cả các chỉ số tiêu biểu của 𝑖 đối với sự hình thành mối quan hệ giữa 𝑢௔ và 𝑘𝑛𝑛 láng giềng gần nhất 𝑢௝ với điều kiện 𝑢௝ đã thích 𝑖 (𝑟௨ೕ௜ = 1). Giá trị xếp hạng 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢௔ , 𝑖) phải được quy đổi về cùng thang đo khoảng [0, 1] như các xếp hạng đã biết bằng cách thực hiện phép chia 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢௔ , 𝑖)/ 𝑚𝑎𝑥௟∈ூ𝐾𝑛𝑛𝑈𝐼𝑅(𝑢௔ , 𝑙). Trong đó, 𝑚𝑎𝑥௟∈ூ𝐾𝑛𝑛𝑈𝐼𝑅(𝑢௔ , 𝑙) là giá trị lớn nhất trong tập giá trị dự đoán xếp hạng của người dùng 𝑢௔ cho các mục dữ liệu. 3.2. Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR được thể hiện tổng quát như Hình 3.1 và minh họa như Hình 3.2. Mô hình tư vấn UIR có các thành phần tương tự như mô hình SIR ở Mục 2.1. 80 - Một tập hữu hạn những người dùng 𝑈 = {𝑢ଵ, 𝑢ଶ, , 𝑢௡}. - Một tập hữu hạn các mục 𝐼 = {𝑖ଵ, 𝑖ଶ, , 𝑖௠}. - Một ma trận xếp hạng 𝑅 = (𝑟௝௞)௡୶௠ với 𝑗 = 1, 𝑛തതതതത và 𝑘 = 1, 𝑚തതതതതത lưu trữ thông tin phản hồi của người dùng về các mục dữ liệu. - Một tập 𝑅௨ೌlưu các xếp hạng đã biết của người cần tư vấn 𝑢௔. - Một tập 𝑅௨ೌᇱ lưu các xếp hạng dự đoán của người cần tư vấn 𝑢௔ cho các mục dữ liệu. - Một tập 𝑅𝑒𝑐𝑙𝑖𝑠𝑡 lưu 𝑇𝑜𝑝𝑁 mục được gợi ý cho người cần tư vấn 𝑢௔. Hình 3.1: Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR. Gọi 𝑓: 𝑈 × 𝐼 → 𝑅 là một hàm ánh xạ từ những kết hợp của người dùng và các mục dữ liệu vào các xếp hạng 𝑟. Mục tiêu của mô hình đề xuất UIR là tìm một hàm 𝑓′: 𝑈 × 𝐼 → 𝑅′ sao cho hàm 𝜉(𝑟, 𝑟′) đạt được hiệu quả tốt hơn qua nhóm độ đo đánh giá tính chính xác của xếp hạng được dự đoán (Mục 1.5.3). Bên cạnh đó, mô hình UIR cũng mong muốn đạt được hiệu quả tốt hơn qua nhóm độ đo đánh giá tính chính xác của danh sách gợi ý (Mục 1.5.2, Mục 1.5.4) khi so sánh với một số mô hình tư vấn khác. (𝑢௔, I, 𝑅௨ೌ) (U, I, R) Cường độ hàm ý 𝑢௔ x U  {𝜑(𝑢௔, 𝑢௝), 𝑗 = 1, 𝑘𝑛𝑛തതതതതതതത} Xếp hạng hàm ý trên người dùng KnnUIR 𝑢௔ x I  𝑅௨ೌᇱ 𝑅𝑒𝑐𝑙𝑖𝑠𝑡 = {𝑖 |𝑖 ∈ 𝐼, 𝑟௨ೌ௜ ᇱ ∈ 𝑇𝑜𝑝𝑁} 81 Hình 3.2: Minh họa của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR. Mô hình tư vấn đề xuất UIR sử dụng các mức độ quan trọng hàm ý thống kê sau đây: - Cường độ hàm ý 𝜑(𝑢௔ , 𝑢௝) được dùng để tìm các láng giềng gần nhất của người cần tư vấn 𝑢௔ và là một thành phần để tính chỉ số tiêu biểu. Cường độ hàm ý trong chương này đo chất lượng mối quan hệ giữa hai người dùng. - Chỉ số tiêu biểu 𝛾(𝑖, 𝑢௔ → 𝑢௝) đo giá trị tiêu biểu của một mục dữ liệu đối với sự hình thành mối quan hệ hàm ý giữa hai người dùng. - Xếp hạng hàm ý thống kê trên người dùng 𝐾𝑛𝑛𝑈𝐼𝑅(𝑢௔ , 𝑖) được sử dụng để dự đoán xếp hạng của người cần tư vấn cho một mục dữ liệu. 3.3. Hoạt động của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng Hoạt động của mô hình tư vấn UIR gồm sáu bước được chia thành ba giai đoạn: Tiền xử lý dữ liệu, chuẩn bị cho việc tính giá trị KnnUIR và thực hiện tư vấn (Hình 3.3). Cường độ hàm ý 𝜑 i1 i2 im u1 r11 NA r1m u2 NA r22 r2m un rn1 NA NA ua knn=3 u2 u11 u9 . . . . . . . u1 u15 un Ma trận đánh giá/xếp hạng Thông tin của người cần tư vấn Các xếp hạng được dự đoán i1 i2 im ua r’a1 r’a2 r’am Danh sách TopN mục ua {i1, i13, , im-2} Xếp hạng hàm ý thống kê trên người dùng KnnUIR i1 i2 im-1 im ua NA ra2 ram-1 NA 82 Hình 3.3: Hoạt động của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR. Biểu diễn mối quan hệ giữa ua và uj với ujU theo phân tích hàm ý thống kê và tính cường độ hàm ý của (ua, uj) Thông tin của người cần tư vấn i1 i2 im u1 r11 NA r1m u2 NA r22 r2m un rn1 rn2 NA Tiền xử lý dữ liệu Ma trận xếp hạng Danh sách TopN mục được xếp hạng cao nhất ua {i1, i13, im-2} Các xếp hạng dự đoán i1 i2 im ua r’a1 r’i2 r’am Tính giá trị tiêu biểu của mục i đối với sự hình thành mối quan hệ (ua, uj) Dự đoán các xếp hạng của người dùng ua cho các mục iI Gợi ý các mục được xếp hạng cao cho người dùng ua i1 i2 im-1 im ua NA ra2 ram-1 NA Tìm knn láng giềng gần nhất của ua Có gợi ý? Không Có Chuẩn bị cho việc tính giá trị KnnUIR Thực hiện tư vấn Dữ liệu đầu vào Dữ liệu đầu ra 83 Các bước của quá trình hoạt động được mô tả như dưới đây. Trong đó, các bước 2, 3 và 4 được sử dụng bởi giai đoạn thứ hai; các bước 5 và 6 được sử dụng bởi giai đoạn thứ ba. - Tiền xử lý dữ liệu. Bước này hoạt động tương tự như bước đầu tiên của mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật. - Biểu diễn mối quan hệ giữa hai người dùng theo quan điểm phân tích hàm ý thống kê và tính cường độ hàm ý của mối quan hệ. Bước này gồm các công việc: (1) mô tả mối quan hệ giữa người cần được tư vấn 𝑢௔ với từng người dùng trong tập dữ liệu đã được tiền xử lý 𝑢௝ ∈ 𝑈 bằng một bộ các giá trị 𝑛, 𝑛௔ , 𝑛௕ và 𝑛௔௕ത ; (2) tính giá trị cường độ hàm ý của mối quan hệ 𝑢௔ với từng người dùng 𝑢௝ ∈ 𝑈. Trong đó, công việc (1) tương tự như bước thứ hai của mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR nhưng xét trên từng cặp người dùng thay vì từng cặp mục - Tìm 𝑘𝑛𝑛 láng giềng gần nhất của người cần tư vấn 𝑢௔. Bước này sắp xếp các giá trị cường độ hàm ý của 𝑢௔ với từng người dùng 𝑢௝ ∈ 𝑈 để lọc ra 𝑘𝑛𝑛 người dùng có cường độ hàm ý cao nhất. - Tính chỉ số tiêu biểu của từng mục dữ liệu 𝑖 ∈ 𝐼 đối với sự hình thành mới quan hệ (𝑢௔ , 𝑢௝) với 𝑢௝ là một trong 𝑘𝑛𝑛 láng giềng gần nhất của 𝑢௔. - Dự đoán các xếp hạng bị thiếu của người dùng 𝑢௔ cho từng mục dữ liệu 𝑖 dựa trên mức độ quan trọng xếp hạng hàm ý 𝐾𝑛𝑛𝑈𝐼𝑅 vừa đư

Các file đính kèm theo tài liệu này:

luan_an_he_tu_van_dua_tren_muc_do_quan_trong_ham_y_thong_ke.pdf