Luận văn Nghiên cứu xây dựng đặc trưng cộng đồng trong các hệ thống tư vấn thông tin

MỤC LỤC

DANH MỤC HÌNH . . 4

DANH MỤC BẢNG . 5

DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT . . 6

MỞ ĐẦU . 7

CHƯƠNG 1. TỔNG QUAN . 9

1.1 Đặt vấn đề . . . 9

1.2 Mục tiêu của đề tài . . 12

1.3 Nội dung nghiên cứu . 12

1.4 Những đóng góp của luận văn . . . 13

CHƯƠNG 2. TƯ VẤN THÔNG TIN DỰA TRÊN LỌC CỘNG TÁC . 14

2.1 Tư vấn thông tin dựa trên lọc cộng tác. . 14

2.1.1 Cách tiếp cận dựa trên người dùng (User-based approaches) . 15

2.1.2 Cách tiếp cận dựa trên tài nguyên (Item-based approaches) . 17

2.1.3 Cách tiếp cận dựa trên mô hình (Model-based approaches) . 18

2.1.4 Các độ đo tương tự (Similarity Measures) . 19

2.2 Tạo lập cộng đồng . . . 20

2.2.1 Mô hình phân nhóm (clustering model) . 20

2.2.1.1 Phương pháp phân nhóm hàng xóm gần nhất (nearest neighbor clustering) . 21

2.2.1.2 Phương pháp phân nhóm khoảng cách tâm (k-mean clustering) . 22

2.2.2 Tạo lập cộng đồng dựa trên mô hình cộng đồng đa tiêu chí. 22

2.3 Định vị người dùng mới vào cộng đồng . 24

2.3.1 Khai thác thông tin thăm dò . 24

2.3.2 Cung cấp profile mẫu . 24

2.3.3 Phương pháp suy diễn cộng đồng . 25

2.3.4 Định vị dựa trên CP . 25

2.3.4.1 Phương pháp 1 - POP (Porpularly Rated) . . 27

2.3.4.2 Phương pháp 2 – HR20 (High Ratings 20) . 28

2.3.4.3 Phương pháp 3 – avgMatch . 29

2.4 Quan điểm xây dựng CP như giải bài toán ra quyết định đa tiêu chí . 32

CHƯƠNG 3. CÁC PHƯƠNG PHÁP PROMETHEE HỖ TRỢ QUYẾT

ĐỊNH ĐA TI ÊU CHÍ . 35

3.1 Bài toán ra quyết định đa tiêu chí. 35

3.1.1 Giới thiệu . 35

3.1.2 Một s ố phương pháp hỗ trợ ra quyết định đa tiêu chí . 41

3.1.2.1 Phương pháp thứ tự . 42

3.1.2.2 Phương pháp Lexicographic . 43

3.1.2.3 Phương pháp Borda . 43

3.1.2.4 Phương pháp Condorcet . 44

3.1.3 Phương pháp trọng số (Weighted methods) . 44

3.1.3.1 Phương pháp tổng trọng số (Weighted sum method) . 44

3.1.3.2 Phương pháp tích trọng số (Weighted product method) . 45

3.2 Các Phương pháp PROMETHEE . . 46

3.2.1 Lịch sử . . 46

3.2.2 Mô hình thích hơn PROMETHEE . 46

3.2.2.1 Thông tin giữa các tiêu chí . 47

3.2.2.2 Thông tin trong các tiêu chí . 47

3.2.3 Xếp hạng PROMETHEE I và PROMETHEE II . 51

3.2.3.1 Các chỉ số thích hơn tích hợp (Aggregated Preference Indices) . 52

3.2.3.2 Các dòng hơn cấp (Outranking Flows) . 53

3.2.3.3 PROMETHEE I – th ứ tự bộ phận . 54

3.2.3.4 PROMETHEE II – thứ tự toàn phần . 55

3.2.3.5 Profile của các lựa chọn . 56

CHƯƠNG 4. XÂY DỰNG CP BẰNG PHƯƠNG PHÁP

PROMETHEEMATCH . 58

4.1 Cách tiếp cận chính của PrometheeMatch . . 58

4.2 Những cải tiến của PrometheeMatch . 59

4.2.1 Cải tiến 1 – Sử dụng PROMETHEE II để xếp hạng các tài nguyên trong

cộng đồng . 61

4.2.2 Cải tiến 2 – Sử dụng ngưỡng trùng lắp . 64

4.2.3 Cải tiến 3 – Giảm sự phụ thuộc vào thứ tự duyệt cộng đồng . 67

4.3 Thuật toán và sơ đồ khối . 71

4.4 Nhận xét . 74

CHƯƠNG 5. THỬ NGHIỆM và PHÂN TÍCH KẾT QUẢ . 76

5.1 Dữ liệu thực nghiệm . 76

5.2 Các tiêu chí đánh giá . 77

5.2.1 Tiêu chí popRank (Popularity Rank) – TC1 . 77

5.2.2 Tiêu chí avgRating (average Rating) – TC2 . 78

5.2.3 Tiêu chí uniqueness – TC3. 79

5.3 Cách thức tiến hành thực nghiệm . 80

5.4 Phân tích kết quả . 81

5.4.1 Phương pháp 1, 2, và 3. . 81

5.4.2 Phương pháp 4 – PrometheeMatch . 82

5.4.2.1 Sự ảnh hưởng trọng số lên các tiêu chí: . 83

5.4.2.2 So sánh với 3 ph ương pháp hiện có . 88

5.5 Tổng kết . 92

CHƯƠNG 6. KẾT LUẬN và HƯỚNG PHÁT TRIỂN . 93

6.1 Kết luận . 93

6.2 Đề xuất hướng phát triển . 93

TÀI LIỆU THAM KHẢO . . 95

pdf5 trang | Chia sẻ: maiphuongdc | Lượt xem: 2141 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Luận văn Nghiên cứu xây dựng đặc trưng cộng đồng trong các hệ thống tư vấn thông tin, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
9 CHƯƠNG 1. TỔNG QUAN 1.1 Đặt vấn đề Người ta nhận thấy có một sự quan tâm gia tăng về các hệ thống tư vấn (Recommender System) trong hai thập kỷ qua [20], [2], kể từ khi xuất hiện bài báo đầu tiên về chủ đề này vào giữa thập niên 1990 [3]. Mục tiêu của những hệ thống như vậy là trợ giúp người dùng tìm ra những tài nguyên phù hợp với họ từ một kho tài nguyên rộng lớn. Các tài nguyên có thể là bất kỳ kiểu gì, như phim, âm nhạc, sách, trang web, tin tức trực tuyến, truyện cười, nhà hàng, thậm chí là phong cách sống ... Các hệ thống tư vấn hỗ trợ người dùng tìm thấy đúng tài nguyên mà họ quan tâm dựa trên các thông tin cá nhân của họ, hoặc những đánh giá phản hồi (feedbacks) được thu thập theo hình thức tường minh (explicit) – yêu cầu người dùng khai báo - hoặc không tường minh (implicit) – hệ thống tự động suy luận dựa trên sự tương tác của người dùng với hệ thống. Có hai cách tiếp cận chính trong các hệ thống tư vấn:  Lọc dựa trên nội dung (content-based filtering - CB)  Lọc cộng tác (collaborative filtering - CF) Các hệ thống CB thực hiện việc tư vấn một tài nguyên đến người dùng dựa trên việc so sánh độ tương đồng giữa nội dung tài nguyên và các đặc trưng của người dùng, những tài nguyên có độ tương đồng cao sẽ được chọn để tư vấn. Ví dụ, một người thích phim khoa học viễn tưởng thì những phim có nội dung liên quan đến khoa học viễn tưởng sẽ được tư vấn đến người dùng đó. Các hệ thống CF thực hiện việc tư vấn một tài nguyên đến một người dùng dựa trên sở thích của những người dùng tương đồng với người dùng đó. Nếu phần lớn những người dùng tương đồng với người dùng u thích tài nguyên i thì i cũng sẽ được tư vấn đến u. Tập hợp những người dùng tương đồng nhau tạo thành cộng 10 đồng người dùng. Khi đa số thành viên trong cộng đồng thích một tài nguyên thì tài nguyên đó sẽ được tư vấn đến những người còn lại. Ví dụ hình 1.1, trong ứng dụng tư vấn phim, giả sử người dùng u thuộc về cộng đồng C – bao gồm những người thích phim khoa học viễn tưởng – nếu đa số thành viên trong C thích phim a (Star War) khi đó phim a sẽ được tư vấn cho người dùng u Hình 1.1: Tư vấn lọc cộng tác Cộng đồng là một yếu tố cơ bản trong hệ thống CF, chất lượng tư vấn cũng như sự thỏa mãn của người dùng phụ thuộc chủ yếu vào cộng đồng. Có hai vấn đề quan trọng liên quan đến cộng đồng là tạo lập cộng đồng và định vị người dùng mới vào cộng đồng. Ở đây luận văn quan tâm đến vấn đề định vị người dùng mới vào cộng đồng. Khi một người dùng mới đăng ký vào hệ thống, làm sao để xếp họ vào một cộng đồng phù hợp? Có hai cách tiếp cận để giải quyết vấn đề này là định vị tự động bởi hệ thống và người dùng tự định vị. Trong định vị tự động [21], [24], hệ thống sẽ yêu cầu người dùng mới cung cấp thông tin về đặc trưng cá nhân hay là phải đánh giá một số lượng tài nguyên nhất định, và dựa trên những đánh giá này mà hệ thống sẽ tự động xếp người dùng vào một cộng đồng phù hợp. Cách tiếp cận này bộc lộ khuyết điểm “hộp đen”, nghĩa là người dùng không hiểu biết gì về cộng đồng mà mình tham gia, cũng như 11 không hiểu vì sao mình được xếp vào một cộng đồng nào đó vì mọi việc đều do hệ thống tự quyết định. Để tránh vấn đề “hộp đen”, cách tiếp cận người dùng tự định vị được đưa ra, theo cách này người dùng sẽ chủ động việc chọn cộng đồng để tham gia. Điều quan trọng là hệ thống phải có cách nào đó để giúp người dùng có thể hiểu được các cộng đồng đang tồn tại từ đó chọn ra một cộng đồng phù hợp với họ. Harper và cộng sự đã đưa ra cách tiếp cận xây dựng đặc trưng cộng đồng [9]. Do tất cả người dùng đều thể hiện sở thích cá nhân qua việc đánh giá các tài nguyên, nên hệ thống có thể chọn ra những tài nguyên được cộng đồng ưa thích nhất làm đặc trưng cho cộng đồng đó. Những tài nguyên này đại diện cho sở thích chung của một cộng đồng do đó có thể dùng để mô tả tóm tắt một cộng đồng và được gọi là đặc trưng cộng đồng (community representatives - CP). Như vậy thông qua các CP người dùng có thể hiểu một cách cơ bản về các cộng đồng trong hệ thống và đánh giá được phần nào sự phù hợp của cộng đồng với cá nhân họ. Việc sử dụng CP có ý nghĩa không chỉ đối với việc định vị người dùng mới mà còn trong việc tái định vị người dùng - người dùng đã thuộc về một cộng đồng nhưng muốn chuyển sang một cộng đồng khác. Bằng cách xem xét các CP, người dùng có thể xác định được mức độ tương đồng của họ đối với mỗi cộng đồng và từ đó người dùng mới có thể chọn một cộng đồng phù hợp để tham gia và người dùng cũ có thể rời bỏ cộng đồng hiện tại để tham gia vào một cộng đồng khác phù hợp hơn. Hơn nữa, với CP, người dùng mới không cần phải thực hiện việc đánh giá một số lượng tài nguyên ban đầu. 12 Hình 1.2: Định vị người dùng mới bằng đặc trưng cộng đồng 1.2 Mục tiêu của đề tài Hiện tại có nhiều phương pháp xây dựng CP [1], [9], mỗi phương pháp đều có những ưu nhược điểm riêng và đa số chỉ tập trung vào một tiêu chí nhất định. Do đó, khi có nhu cầu xây dựng CP đáp ứng đồng thời nhiều tiêu chí, các phương pháp hiện tại hầu như không đáp ứng được. Xuất phát từ thực tế này, luận văn hướng đến việc xây dựng một phương pháp tìm CP có thể thỏa hiệp đồng thời nhiều tiêu chí với nhau một cách linh hoạt và hiệu quả. 1.3 Nội dung nghiên cứu Nhằm đạt được mục tiêu trên, luận văn tiến hành nghiên cứu những chủ đề chính sau:  Hiện trạng các phương pháp xây dựng CP, phân tích ưu khuyết điểm của những phương pháp hiện có từ đó chọn ra phương pháp tiềm năng để cải tiến.  Vì bản chất đa tiêu chí của bài toán xây dựng CP nên luận văn tìm hiểu bài toán quyết định đa tiêu chí (Multi-Criteria Decision Making) cùng với các 13 phương pháp hỗ trợ quyết định đa tiêu chí (Multi-Criteria Decision Aiding), đặc biệt là phương pháp PROMETHEE.  Ứng dụng và cải tiến phương pháp PROMETHEE II để cho ra một phương pháp xây dựng CP đáp ứng mục tiêu của đề tài.  Tiến hành thực nghiệm trên MovieLens – một cơ sở dữ liệu được sử dụng phổ biến trong các công trình nghiên cứu CF trên thế giới - nhằm đánh giá phương pháp đề xuất. 1.4 Những đóng góp của luận văn Bằng cách ứng dụng và cải tiến phương pháp PROMETHE II luận văn đã đề xuất một phương pháp mới và gọi là PrometheeMatch. Phương pháp cải tiến này cho ra tập CP thỏa hiệp tốt nhất 3 tiêu chí tính phổ biến, chất lượng, và tính duy nhất của tài nguyên – đây là 3 tiêu chí cơ bản của CP trong các hệ thống CF. Phương pháp mới này còn cho phép ấn định mức độ quan trọng tương đối của các tiêu chí với nhau theo các yêu cầu khác nhau của từng hệ thống. Với sự hỗ trợ của công cụ GAIA đi kèm với phương pháp PROMETHEE, phương pháp mới cho phép biểu diễn tài nguyên cùng với mối liên hệ của chúng một cách trực quan sinh động, giúp người thiết kế hệ thống có thể hiểu rõ hơn về các cộng đồng trong hệ thống. Luận văn đã thử nghiệm phương pháp cải tiến cùng với các phương pháp xây dựng CP hiện có trên tập dữ liệu MovieLens, trình bày và phân tích kết quả ở những khía cạnh khác nhau, đồng thời so sánh các phương pháp với nhau để làm rõ những ưu khuyết điểm của từng phương pháp, cũng như ngữ cảnh ứng dụng của chúng.

Các file đính kèm theo tài liệu này:

  • pdf4.pdf
  • pdf0_2.pdf
  • pdf1_2.pdf
  • pdf2_2.pdf
  • pdf3.pdf
  • pdf5_2.pdf
  • pdf6_4.pdf
  • pdf7.pdf
  • pdf8.pdf
  • pdf9.pdf
  • pdf10_3.pdf
Tài liệu liên quan