Mục lục
Mở đầu . 1
Chương 1. Khái quát về các hệ thống tư vấn . 3
1.1. Bài toán tư vấn . 3
1.2. Các kĩ thuật tư vấn . 5
1.2.1. Kĩ thuật tư vấn dựa trên nội dung . . 5
1.2.2. Kĩ thuật tư vấn cộng tác . . 8
1.2.3. Kĩ thuật tư vấn lai. 11
1.3. Sơ lược về hệ thống tư vấn tin tức của khóa luận . 13
1.3.1. Đặc trưng của tư vấn tin tức. . . . 13
1.3.2. Hướng tiếp cận của khóa luận . 14
Chương 2. Mô hình hóa sở thích người dùng cho các hệ tư vấn dựa trên nội dung. . 16
2.1. Tiến trình mô hình sở thích người dùng . 16
2.2. Thu thập thông tin về người dùng . 17
2.2.1. Phương pháp định danh người dùng . 17
2.2.2. Các phương pháp thu thập thông tin . 18
2.3. Xây dựng mô hình sở thích người dùng . 21
2.3.1. Phương pháp dựa trên từ khóa có trọng số. 21
2.3.2. Phương pháp dựa trên mạng ngữ nghĩa . 22
2.3.3. Phương pháp dựa trên cây phân cấp khái niệm . 23
Chương 3. Mô hình . 24
3.1. Cơ sở lý thuy ết . 25
3.1.1. Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA. . 25
3.1.2. Nhận dạng các thực thể trong tài liệu dựa trên từ điển . 27
3.2. Phân tích sở thích người dùng . 28
3.2.1. Thông tin trong phiên duy ệt web người dùng . . 28
3.2.2. Mô hình sở thích người dùng . 29
3.3. Áp dụng mô hình môi quan tâm người dùng vào tư vấn tin tức . 30
3.3.1. Pha phân tích dữ liệu tư vấn . . 30
3.3.2. Pha tư vấn trực tuyến . 33
3.4. Đánh giá kết quả tư vấn. . . 36
Chương 4: Thực nghiệm và đánh giá . 37
iv
4.1. Môi trường thực nghiệm . . 37
4.2. Dữ liệu và công cụ . 37
4.2.1. Dữ liệu . . 37
4.2.2. Công cụ . . . 38
4.3. Thực nghiệm . 39
4.3.1. Ví dụ về phân tích tin tức . 39
4.3.2. Ví dụ phân tích sở thích người dùng . 40
4.3.3. Tư vấn tin tức . 42
4.4. Kết quả thực nghiệm và đánh giá . . . 43
Kết luận . 46
Tài liệu tham khảo . . 48
59 trang |
Chia sẻ: netpro | Lượt xem: 1815 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Khóa luận Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt web người dùng nhằm nâng cao chất lượng tư vấn trong hệ thống tư vấn tin tức, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
i thức (knowledge-based) như case-based reasoning. Ví dụ, hệ
thống Entrée dùng những tri thức về nhà hàng, thực phẩm (như: đồ biển không phải là
thức ăn chay).. để gợi ý nhà hàng thích hợp cho người dùng. Hạn chế chính của hệ thống
dạng này là nó cần phải thu thập đủ tri thức, đây cũng là nút thắt cổ chai (bottle- neck)
của rất nhiều hệ thống trí tuệ nhân tạo khác. Tuy nhiên, các hệ thống tư vấn dựa trên tri
thức hiện đang được phát triển trên các lĩnh vực mà miền tri thức của nó có thể biểu diễn
ở dạng mà máy tính đọc được (như ontology). Ví dụ, hệ thống Quickstep và Foxtrot sử
dụng ontology về chủ đề của các bài báo khoa học để gợi ý những bài báo phù hợp cho
người dùng.
1.3. Sơ lược về hệ thống tư vấn tin tức của khóa luận
Mô hình hệ tư vấn do khóa luận đề xuất không được triển khai một cách độc lập mà
tích hợp vào hệ thống cung cấp tin tức. Với việc phân tích những đặc trưng của đối tượng
tư vấn này, khóa luận đề xuất ý tưởng ban đầu cho giải pháp tư vấn được triển khai.
1.3.1. Đặc trưng của tư vấn tin tức.
Tư vấn tin tức là một lĩnh vực giàu tiềm năng bởi số lượng các sản phẩm tư vấn, số
lượng người dùng và số lượt sử dụng cao hơn nhiều so với các đối tượng tư vấn khác. Tuy
nhiên, đi kèm theo đó là các thử thách về các đặc trưng riêng có của miền đối tượng tin
tức cũng như các đặc trưng chung của người sử dụng tư vấn.
Tin tức là một đối tượng tư vấn đặc biệt, các đặc trưng sau của tin tức giúp đưa ra
các giải pháp hữu hiệu hơn trong xây dựng giải pháp tư vấn:
Tính không đồng nhất giá trị: Giá trị của tin tức chỉ có thể được xác định bằng
cách kết hợp các yếu tố: nội dung thông tin của bản tin, nguồn tin, thời điểm xuất
bản, nhà xuất bản, tác giả, người nhận tin,…
Tính dễ sinh ra: một số lượng lớn tin tức có thể nảy sinh xung quanh một sự
kiện, hiện tượng.
Tính dễ tàn lụi: hiện tượng tin tức đánh mất giá trị khi vấn đề nó đề cập không
còn tính thời sự.
14
Khi xem xét đến yếu tố phù hợp giữa đối tượng tư vấn và mối quan tâm người dùng,
các đặc trưng về mối quan tâm của người dùng cũng cần được xem xét.
Tính đa quan tâm: Tại một thời điểm, người dùng có thể có nhiều mối quan
tâm khác nhau. Ví dụ: họ có thể quan tâm đến cả các thông tin về cả thể thao và
chính trị.
Tính thay mới: Mối quan tâm của họ có thể phân chia thành 3 loại chính: các
mối quan tâm dài hạn, các mối quan tâm trung hạn và các mối quan tâm ngắn
hạn. Tính thay mới có thể diễn ra ở cả ba loại mối quan tâm này, tuy nhiên tốc độ
thay mới của các mối quan ngắn hạn là nhanh nhất và nó cũng có ưu thế hơn khi
dùng để tư vấn các tin tức, vốn liên tục được sinh ra.
1.3.2. Hướng tiếp cận của khóa luận
Để vượt qua các thử thách này, chúng tôi tập trung vào các tiếp cận lọc dựa trên nội
dung với thông tin về mối quan tâm ngắn hạn thông qua các chủ đề ẩn. Các lý do có thể
được nêu ra là:
Thứ nhất: Lọc dựa trên nội dung không gặp phải các vấn đề rất khó giải quyết
của lọc cộng tác trên miền đối tượng tin tức: (i) vấn đề những đánh giá đầu: các
tin tức liên tục được sinh ra và cần dễ dàng tiếp cận trong khi quá trình lọc cộng
tác không thể tạo ra các sản phẩm chưa từng được đánh giá bởi người dùng khác
hoặc những người dùng chưa từng đánh giá một sản phẩm nào; (ii) vấn đề ma
trận thưa: Khó tìm ra được các sản phẩm đã được đánh giá bởi một lượng đủ
người dùng vì số lượng quá lớn các tin tức mới và đặt gánh nặng cung cấp thông
tin đánh giá lên người dùng [11].
Thứ hai: Biểu diễn thông tin ở mức chủ đề có mô tả rõ ràng hơn tập hợp các
mối quan tâm hay sở thích của người dùng. Sử dụng phương pháp này còn có thể
khắc phục được hạn chế tư vấn các sản phẩm quá giống các sản phẩm đã được
ưa thích trước đó (ví dụ như vấn đề trùng lặp tin tức).
Thứ ba: Các dữ liệu thu thập dựa trên những tin tức được truy cập gần nhất cho
phép mô tả chính xác hơn đặc tính thay mới mối quan tâm.
15
Theo đó, hệ thống đề xuất giải quyết hai vấn đề cơ bản của tiến trình tư vấn:
Đầu tiên là dựa trên khảo sát về các phương pháp xây dựng mô hình hóa sở thích
người dùng dựa trên các dữ liệu văn bản thường được áp dụng cho hướng tiếp
cận lọc nội dung, đề xuất giải pháp mô hình sở thích người dùng dựa trên phân
tích chủ đề ẩn phiên duyệt web người dùng (ngữ cảnh đọc tin tức).
Sau đó, dựa trên mô hình sở thích này của người dùng, những tin tức liên quan
được thực hiện thông qua đối chiếu chủ đề và thực thể của chúng với những chủ
đề và thực thể người dùng từng quan tâm.
16
Chương 2. Mô hình hóa sở thích người dùng cho các hệ tư
vấn dựa trên nội dung.
Trong chương một, khóa luận đã trình bày sơ bộ về các khái niệm liên quan đến hệ
tư vấn. Qua đó, chúng ta biết rằng chất lượng của những tư vấn cá nhân phụ thuộc vào
khả năng học sở thích người dùng của hệ tư vấn (hay xây dựng hồ sơ sở thích ngươi
dùng). Hồ sơ sở thích người dùng càng phản ảnh đúng mối quan tâm của họ, thì càng có
nhiều khả năng có được những tư vấn tốt.
Các kĩ thuật tư vấn dựa trên nội dung thường dựa trên các hồ sơ sở thích được xây
dựng thông qua một quá trình phân tích các tài liệu dạng văn bản.
Trong chương này, khóa luận trình bày sâu hơn về các khái niệm và kĩ thuật liên
quan đến quá trình mô hình hóa sở thích người dùng nói chung và cho các hệ tư vấn dựa
trên nội dung nói riêng.
2.1. Tiến trình mô hình sở thích người dùng
Theo Gauch và các cộng sự [14], một tiến trình mô hình hóa sở thích người dùng
cho các ứng dụng hướng cá nhân (như các hệ tư vấn hướng cá nhân, các hệ thống web
thích nghi, …) bao gồm 2 pha cơ bản như minh họa sau.
Hình 2. Tiến trình mô hình hóa sở thích người dùng.
Trong pha đầu tiên, một tiến trình thu thập thông tin được sử dụng để thu thập các
dữ liệu từ người dùng, có thể chia các dữ liệu này thành hai loại cơ bản: các thông tin
người dùng hiện (hay thông tin người dùng rõ) và các thông tin người dùng ẩn. Những
thông tin này sau đó được tổng hợp để xây dựng mô hình sở thích người dùng trong pha
còn lại, pha xây dựng hồ sơ người dùng.
17
2.2. Thu thập thông tin về người dùng
Bước đầu tiên trong kĩ thuật học sở thích người dùng là thu thập các thông tin về
người dùng cá nhân. Trong đó, một yêu cầu cơ bản là hệ thống cần phải xác định duy nhất
người dùng. Nhiệm vụ này sẽ được trình bày trong phần 2.2.1. Các thông tin người dùng
được có thể được thu thập hiện qua việc nhập trực tiếp bởi người dùng hay thu thập ẩn
thông qua một các tử phần mềm. Nó có thể thu thập từ máy khách của người dùng hay thu
thập từ chính máy chủ ứng dụng. Phụ thuộc vào cách thức thu thập dữ liệu này mà những
dạng dữ liệu khác nhau về người dùng có thể được thu thập. Một số lựa chọn và ảnh
hưởng của các lựa chọn được trình bày ở mục 2.2.2. Nhìn chung, các hệ thống thu thập
thông tin ẩn và thu thập thông tin từ máy chủ được ưa thích hơn do đặt ít hơn gánh nặng
cung cấp thông tin về phía người dùng và hạn chế được phiền hà vì yêu cầu cài đặt thêm
phần mềm [14].
2.2.1. Phương pháp định danh người dùng
Định danh người dùng là tiêu chí quan trọng giúp hệ thống phân biệt, và xây dựng
hồ sơ khác nhau cho những người dùng khác nhau. Gauch và cộng sự [14] liệt kê ra 5
cách tiếp cận cơ bản trong định danh người dùng: các tử phần mềm (software agent), đăng
nhập (login), proxy server, cookie và phiên duyệt web(session). Mỗi phương pháp đều có
những ưu, nhược điểm riêng và ảnh hưởng các dữ liệu người dùng có thể thu thập được.
Ba phương pháp đầu tiên chính xác hơn, nhưng chúng yêu cầu sự tham gia của
người dùng. Các tử phần mềm là một phần mềm nhỏ được đặt trên máy người dùng, thu
thập thông tin về họ và chia sẻ chúng với máy chủ thông qua một vài giao thức. Giải pháp
này có độ tin cậy cao nhất vì có nhiều hơn sự điều khiển khi triển khai ứng dụng và các
giao thức. Nó cũng có khả năng thu thập được nhiều thông tin nhất vì có quyền truy cập
tới nhiều hơn các nguồn thông tin người dùng. Tuy nhiên, nó yêu cầu sự tham gia của
người dùng để cài đặt phần mềm, đó là một cản trở không dễ chịu. Giải pháp có độ tin cậy
thứ hai là dựa trên việc đăng nhập. Bởi vì người dùng định danh chính họ thông qua đăng
nhập, cách định danh này thường chính xác và có thể sử dụng để xác định người dùng
dùng nhiều máy khách khác nhau. Mặt trở ngại của phương pháp này là người dùng cần
thực hiện một tiến trình đăng kí và thực hiện đăng nhập và đăng xuất cho mỗi lần sử dụng.
Ở giải pháp thứ ba, một proxy server sẽ làm nhiệm vụ thu thập thông tin người dùng,
phương pháp này hữu ích khi cần thu thập thông tin về một nhóm người dùng hoặc một
18
người dùng sử dụng nhiều máy tính, tương tự như hai giải pháp trên, nó yêu cầu người
dùng tham gia bằng cách đăng kí cùng một địa chỉ proxy cho tất cả các máy họ sử dụng.
Hai phương pháp sau, cookie và phiên duyệt web không yêu cầu bất cứ sự tham gia
nào từ phía người dùng. Trong lần đầu tiên trình duyệt máy khách truy cập vào hệ thống ,
một userid được tạo ra, id này sẽ được lưu trong cookie máy người dùng. Một người dùng
truy cập vào cùng một trang web được xác định là duy nhất nếu cùng một userid được sử
dụng. Tuy nhiên, nếu người dùng sử dụng nhiều hơn một máy tính, hay một loại trình
duyệt, sẽ có những cookie khác nhau, và tương ứng là những hồ sơ người dùng khác
nhau. Hơn nữa, giải pháp này cũng gặp vấn đề khi có nhiều hơn một người dùng cho một
máy, hoặc trường hợp người dùng xóa, hay tắt cookie. Đối với phiên duyệt web, trở ngại
cũng tương tự khi có nhiều hơn một người dùng cho một máy hay có sử dụng nhiều hơn
một máy, một trình duyệt, nhưng nó không lưu trữ userid giữa những lần duyệt. Một
người dùng bắt đầu với một phiên duyệt web mới, thông tin trong phiên duyệt web lưu lại
vết các hành vi người dùng tương tác với hệ thống trong một lần duyệt web của họ ví dụ
danh sách các pageview, thời gian giành cho mỗi pageview, địa chỉ IP,…
Ưu điểm quan trọng của giải pháp định danh dựa trên phiên duyệt web là nó không
đặt bất cứ gánh nặng nào về phía người dùng, không gặp những nghi ngại về tính riêng tư
(tức là không lưu lại bất cứ thông tin nào về người dùng) và cũng không yêu cầu bật
cookie ở trình duyệt.
2.2.2. Các phương pháp thu thập thông tin
Thông thường, các kĩ thuật thu thập thông tin được phân theo tính chất của dữ liệu
thu thập được. Theo đó, tương ứng với hai kiểu thông tin người dùng ẩn và hiện, có hai
phương pháp thu thập thông tin người dùng.
2.2.2.1. Phương pháp thu thập thông tin người dùng hiện
Phương pháp thu thập thông tin người dùng hiện (hay thông tin phản hồi hiện) thu
thập những thông tin được nhập trực tiếp bởi người dùng, thông thường qua các HTML
Form. Dữ liệu thu thập có thể là các là các thông tin như ngày sinh, tình trạng hôn nhân,
nghề nghiệp, sở thích,…
Một trong các hệ tư vấn sớm nhất Syskill & Webert [23] tư vấn các trang web dựa
vào các phản hồi hiện. Nếu người dùng đánh giá cao một vài liên kết từ một trang, Syskill
19
& Webert sẽ tư vấn các trang liên kết khác. Thêm vào đó, hệ thống còn có thể tạo một
truy vấn tới máy tìm kiếm Lycos1 để trích xuất các trang web có thể người dùng sẽ ưa
thích.
Một vấn đề với các thông tin phản hồi hiện đó là nó đặt gánh nặng cung cấp thông
tin về phía người dùng. Vì vậy, nếu người dùng không muốn phải cung cấp các thông tin
riêng tư, họ sẽ không tham gia hoặc không cung cấp thông tin chính xác. Hơn nữa, vì các
hồ sơ được duy trì tĩnh trong khi tồn tại các đặc điểm có thể thay đổi như sở thích, thói
quen,…khiến cho những hồ sơ này có thể trở nên không chính xác nữa theo thời gian.
Một lý lẽ cho những hệ thống sử dụng thông tin phản hồi hiện là trong một vài trường hợp
người dùng thích cung cấp, chia sẻ thông tin của họ.
2.2.2.2. Phương pháp thu thập thông tin người dùng ẩn
Hồ sơ người dùng trong phương pháp này được xây dựng dựa trên các thông tin
phản hồi ẩn. Ưu điểm của phương pháp này là không yêu cầu bất cứ sự xen vào nào của
người dùng trong suốt tiến trình xây dựng và duy trì các hồ sơ người dùng. Công trình của
Kelly và Teevan [20] cung cấp một cái nhìn tổng quát về các kĩ thuật phổ biến để thu thập
thông tin phản hồi ẩn và các thông tin về người dùng có thể suy diễn từ hành vi của họ.
Theo đó, Gauch và các cộng sự [14] thống kê tóm tắt các cách tiếp cận của kĩ thuật
thu thập thông tin phản hồi ẩn.
1
Hình 3. Các hệ thống tư vấn dựa trên thông tin phản hồi hiện.
20
Bảng 2. Các kĩ thuật thu thập thông tin ẩn [14].
Kĩ thuật Thông tin thu thập
Bề rộng
thông tin Ưu và Nhược Ví dụ
Browser Cache Lịch sử duyệt web
Bất cứ
trang
web nào
Ưu: Người dùng không cần cài đặt bất cứ
thứ gì.
Nhược: Người dùng phải upload cache
định kì.
OBIWAN
[24]
Proxy Servers Hành vi duyệt web
Bất cứ
trang
web nào
Ưu: Người dùng có thể sử dụng nhiều
trình duyệt.
Nhược: Người dùng phải sử dụng proxy
server.
OBIWAN
[24]
Browser Agents Hành vi duyệt web
Bất cứ
ứng
dụng
hướng
cá nhân
nào
Ưu: Các tử có thể thu thập tất cả các hành
vi web.
Nhược: Cài đặt và sử dụng ứng dụng mới
khi đang duyệt web.
WebMate
[12]
Desktop Agents
Tất cả hành
vi người
dùng
Bất cứ
ứng
dụng
hướng
cá nhân
nào
Ưu: Tất cả các tập tin và hành vi của
người dùng.
Nhược: Yêu cầu cài đặt phần mềm.
Google
Desktop
Web Logs Hành vi duyệt web
Các
trang
web có
log
Ưu: Thông tin về nhiều người dùng.
Nhược: Có thể có ít thông tin vì chỉ từ một
trang web.
Mobasher
[7]
Search Logs
Truy vấn
và Url
được click
Các
trang tìm
kiếm
Ưu: Thu thập và sử dụng thông tin từ
nhiều trang
Nhược:Cookies phải được bật và/hoặc yêu
cầu đăng nhập.
Nhược: Có thể có rất ít thông tin.
Misearch
Dựa trên nguồn gốc các thông tin ẩn này, có thể chia các thông tin phản hồi ẩn thành
hai loại: thông tin ẩn phía máy khách (client log) thu được từ bốn cách tiếp cận đầu và
thông tin ẩn phía máy chủ (server log) thu được từ hai cách tiếp cận còn lại.
Trong khi các kĩ thuật thu thập thông tin phía máy khách đặt gánh nặng về phía
người dùng để thu thập và chia sẻ log các hành vi của họ. Các kĩ thuật thu thập thông tin
phía máy chủ (như search log và web log) thu thập chỉ những thông tin trong quá trình
21
tương tác của người dùng và hệ thống. Điều này làm cho các thông tin có thể thu thập từ
máy chủ ít hơn nhưng có ưu thế hơn về độ phức tạp của dữ liệu thu thập được cũng như
tránh được các nghi ngại về tính riêng tư của người dùng.
2.3. Xây dựng mô hình sở thích người dùng
Thông thường dựa trên các đặc trưng của dữ liệu thu thập được, có những cách tiếp
cận khác nhau để xây dựng mô hình sở thích người dùng. Dữ liệu thu thập từ người dùng
có thể được chia làm hai loại chính là dữ liệu có cấu trúc và không cấu trúc. Các dữ liệu
có cấu trúc như các đánh giá theo điểm, nghề nghiệp, tuổi tác, … Các dữ liệu không cấu
trúc là các dữ liệu dạng văn bản như nội dung của các tin tức đã xem, mô tả của các bộ
phim đã xem, hay các lời nhận xét dưới dạng ngôn ngữ tự nhiên …
Gauch và cộng sự trong [14] mô tả khá chi tiết ba phương pháp xây dựng mô hình
sở thích người dùng dựa trên các dữ liệu dạng văn bản là phương pháp dựa từ khóa khóa
có trọng số, phương pháp dựa trên các mạng ngữ nghĩa và phương pháp dựa trên cây phân
cấp khái niệm. Đây là các giải pháp mô hình sở thích người dùng thường được sử dụng
cho các hệ thống tư vấn dựa trên nội dung.
2.3.1. Phương pháp dựa trên từ khóa có trọng số
Mối quan tâm được mô tả bằng tập các từ khóa có trọng số. Trong đó, từ khóa được
trích xuất từ tập các dữ liệu người dùng với trọng số thường được đánh giá thông qua mô
hình trọng số tf*idf. Đây là giải pháp được đưa ra sớm nhất và dễ dàng cài đặt nhất, tuy
nhiên vấp phải các trở ngại về vấn đề nhập nhằng ngữ nghĩa và kích thước không gian từ
khóa. Ví dụ điển hình của phương pháp tiếp cận này là WebMate [12], hồ sơ người dùng
chứa một vector từ khóa cho mỗi lĩnh vực quan tâm của người dùng, và một ý tưởng mở
rộng của WebMate[12], Alipes [31] sử dụng ba vector từ khóa cho mỗi mối quan tâm
người sử dụng bao gồm: một vector mô tả tính dài hạn, hai vector mô tả tính ngắn hạn:
một tích cực và một tiêu cực.
22
Hình 4. Mô hình mối quan tâm người dùng dựa trên từ khóa.
2.3.2. Phương pháp dựa trên mạng ngữ nghĩa
Mối quan tâm được mô tả bằng tập các node (từ khóa hoặc khái niệm) và các cạnh
liên kết. Đầu tiên, các từ khóa cũng được trích xuất từ dữ liệu người dùng. Khái niệm có
thể bao gồm một hoặc nhiều từ khóa liên kết với nhau ( ví dụ như: quan hệ đồng nghĩa
suy diễn từ WordNet ). Trọng số giữa cạnh được xác định dựa trên sự xuất hiện đồng thời
của hai node hoặc các từ khóa thuộc vào hai node trong cùng một văn bản. Điển hình cho
mô hình này là hệ thống InfoWeb [15], mỗi hồ sơ người dùng được biểu diễn bởi một
mạng ngữ nghĩa các khái niệm. Ban đầu, mạng ngữ nghĩa chứa một tập các node khái
niệm không liên kết gọi là các node hành tinh với một trọng số. Càng nhiều thông tin thu
thập được, hồ sơ về người dùng càng được làm giàu thông qua các từ khóa có trọng số
liên kết với các khái niệm. Các từ khóa được biểu diễn như các node vệ tinh xung quanh
các khái niệm chính, trọng số liên kết giữa các khái niệm tương ứng cũng được thêm vào.
Hình 5. Mô hình mối quan tâm người dùng dựa trên mạng ngữ nghĩa[15].
23
2.3.3. Phương pháp dựa trên cây phân cấp khái niệm
Mối quan tâm người dùng được mô tả tập các khái niệm có trọng số. Ban đầu, các
khái niệm không trích ra từ văn bản mà được định nghĩa trước từ cây phân cấp các mục
mở ODP (The Open Directory Project)[30]. Dữ liệu người dùng được phân lớp vào một
trong các nhánh của cấu trúc phân cấp này. Vấn đề của phương pháp này là mức độ chi
tiết của mục có thể làm mất thông tin về các mối quan tâm chung và sự phụ thuộc vào độ
chính xác của các cây phân cấp khái niệm. Một trong các dự án đầu tiên sử dụng phương
pháp này là OBIWAN [24]. Ban đầu, họ dùng cấu trúc phân cấp khái niệm từ 3 mức đầu
tiên của ODP[30]. Dữ liệu người dùng được tự động phân lớp để tìm ra các các khái niệm
phù hợp nhất, các trọng số khái niệm tương ứng được tăng lên.
Hình 6. Mô hình mối quan tâm người dùng dựa trên mạng khái niệm [24].
24
Chương 3. Mô hình
Đối với người dùng trong các hệ thống tư vấn, các yếu tố thuộc về ngữ cảnh sử dụng
hiện tại của người dùng ảnh hưởng lớn tới các lựa chọn trong tương lai của họ.
Các tin tức trong phiên duyệt web hiện phản ánh chính xác hơn những chủ đề hay
các thực thể người dùng muốn tìm hiểu thêm thông tin. Do vậy, phân tích thông tin từ các
tin tức này là một giải pháp tiềm năng để mở rộng thông tin ngữ cảnh so với phương pháp
chỉ phân tích trang tin hiện tại.
Trong khi các kĩ thuật biểu diễn sở thích người dùng hiện còn tồn tại các trở ngại
như trình bày trong chương 2. Có thể có một cách tiếp cận mới cho các vấn đề này dựa
trên phỏng đoán rằng một người dùng A có thể ưa thích một tin tức X nếu như A đã xem
các tin tức cùng chủ đề với X và X liên quan đến nhiều hơn các thực thể định danh mà A
quan tâm (ví dụ như tên một câu lạc bộ bóng đá như: ManU, hay tên một nhân vật nổi
tiếng như tổng thống Mỹ Obama).
Như vậy, một hồ sơ người dùng có thể được mô tả hình thức như sau:
Bảng 3. Ví dụ về một hồ sơ sở thích người dùng.
Người dùng Chủ đề quan tâm Thực thể quan tâm
An
“Bóng đá”, “Du
lịch”,…
ManU, Chealsea, Đà
Lạt, Hội An,…
Các tin tức có thể được gán nhãn chủ đề bằng tay, tuy nhiên đó là một giải pháp
không khả thi do đòi hỏi chi phí lớn, đặc biệt khi có quá nhiều tin tức nảy sinh hay trong
các hệ thống tư động thu thập tin tức như RSSReader. Một hướng tiếp cận tiềm năng là sử
dụng phân tích chủ đề ẩn. Trong đó, ý tưởng cơ bản là xem các văn bản là một phân phối
xác suất theo chủ đề và mỗi chủ đề lại có phân phối xác suất trên các từ. Đã có nhiều
nghiên cứu khẳng định được tính ứng dụng của phân tích chủ đề ẩn như mô hình phân
lớp, phâm cụm dữ liệu [22], bài toán xác định độ phù hợp giữa nội dung một trang web và
các thông điệp quảng cáo[21],…
Trong các mục sau, khóa luận trình bày một giải pháp xác định các sở thích người
dùng theo cách tiếp cận mới này.
25
3.1. Cơ sở lý thuyết
3.1.1. Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA.
Phân tích chủ đề cho văn bản nói chung và cho dữ liệu Web nói riêng có vai trò
quan trọng trong việc “hiểu” và định hướng thông tin trên Web. Khi ta hiểu một trang
Web có chứa những chủ đề hay thông tin gì thì dễ dàng hơn cho việc xếp loại, sắp xếp, và
tóm tắt nội dung của trang Web đó. Trong phân lớp văn bản, mỗi văn bản thường được
xếp vào một lớp cụ thể nào đó. Trong phân tích chủ đề, chúng ta giả sử mỗi văn bản đề
cập đến nhiều hơn một chủ đề (K chủ đề) và mức độ liên quan đến chủ đề được biểu diễn
bằng phân phối xác suất của của tài liệu đó trên các chủ đề.
Hình 7. Tài liệu với K chủ đề ẩn.
Có rất nhiều phương pháp phân tích thông tin chủ đề từ văn bản, điển hình là mô
hình LDA [13]. LDA là một mô hình sinh (generative model) và thực hiện phân tích chủ
đề từ các tập dữ liệu văn bản hoàn toàn phi giám sát (fully unsupervised). Về mục tiêu,
tương tự với LSA, LDA đưa ra một kĩ thuật mô tả thu gọn các tập dữ liệu rời rạc (như tập
văn bản). Về mặt trực quan, LDA tìm những cấu trúc chủ đề (topics) và khái niệm
(concepts) trong tập văn bản dựa trên thông tin về đồng xuất hiện (co-occurrence) của các
từ khóa trong văn bản, và cho phép mô hình hóa các khái niệm đồng nghĩa (synonymy) và
đa nghĩa (polysemy). Về mặt mô hình hóa, LDA hoạt động tương đối giống với pLSA
(probabilistic LSA) [19]. Tuy vậy, LDA ưu việt hơn pLSA ở một vài điểm như tính đầy
đủ và tính khái quát cao hơn [13][17].
26
Hình 8. Biểu diễn đồ họa LDA[13].
Ước lượng giá trị tham số cho mô hình LDA.
Hình 9. Ước lượng tham số tập dữ liệu văn bản.
Ước lượng tham số cho mô hình LDA bằng phương pháp cực đại hóa hàm
likelihood trực tiếp và một cách chính xác có độ phức tạp thời gian rất cao và không khả
thi trong thực tế. Người ta thường sử dụng các phương pháp xấp xỉ như Variational
Methods [13] và Gibbs Sampling [17]. Gibbs Sampling được xem là một thuật toán
nhanh, đơn giản, và hiệu quả để huấn luyện LDA.
27
Sử dụng mô hình LDA để suy diễn chủ đề.
Theo Nguyễn Cẩm Tú [22], với một mô hình chủ đề đã được huấn luyện tốt dựa trên
tập dữ liệu toàn thể (Universial Dataset) bao phủ miền ứng dụng, ta có thể thực hiện một
tiến trình quá trình suy diễn chủ đề cho các tài liệu mới tương tự như quá trình ước lượng
tham số (tức là xác định được phân phối trên các chủ đề của tài liệu qua tham số theta).
Tác giả cũng chỉ ra rằng sử dụng dữ liệu từ VnExpress1 huấn luyện được các mô hình có
ưu thế hơn trong các phân tích chủ đề trên dữ liệu tin tức, trong khi các mô hình được
huấn luyện bởi dữ liệu từ Wiki2 tốt hơn trong phân tích chủ đề các tài liệu mang tính học
thuật.
Dựa trên những nghiên cứu đó, chúng tôi lựa chọn mô hình được chủ đề được huấn
luyện bởi tập dữ liệu toàn thể thu thập từ trang Vnexpress cho phân tích chủ đề. Một tiến
trình phân tích chủ đề tổng quát được minh họa như sau:
Hình 10. Suy diễn chủ đề sử dụng tập dữ liệu VnExpress[22].
3.1.2. Nhận dạng các thực thể trong tài liệu dựa trên từ điển
Đối với một đối tượng văn bản, nội dung của nó liên quan nhiều đến các thực thể
chứa trong văn bản đó. Đối tượng thực thể có thể là tên người, tên một địa điểm hoăc một
tổ chức,…Phương pháp nhận dạng các thực thể dựa trên từ điển đơn giản chỉ xem xét đến
sự hiện diện của các thực thể thuộc vào một tập từ điển thực thể trong văn bản đang tiến
1 www.vnexpress.net
2 www.wikipedia.org
28
hành phân tích. Thuật toán đối sánh xâu Aho-Corasick [3] là phương pháp nhận dạng thực
thể dựa trên từ điển điển hình. Ý tưởng cơ bản của phương pháp này khá đơn giản này,
các thực thể trong từ điển được xem là các mẫu, một ôtômát hữu hạn trạng thái xây dựng
từ các mẫu này sẽ được sử dụng để xác định sự hiện diện của các mẫu trong văn bản.
3.2. Phân tích sở thích người dùng
3.2.1. Thông tin trong phiên duyệt web người dùng
Một phiên duyệt web là một chuỗi các pageview của một người dùng đơn trong một
lần duyệt đơn [7]. Trong đó, các pageview là tập hợp các đối tượng web hiển thị tới người
dùng. Mỗi pageview có thể được xem như một tập hợp các đối tượng web hay các tài
nguyên biểu diễn cho một hành vi người dùng cụ thể như đọc một trang tin tức, xem
thông tin một sản phẩm hoặc thêm một sản phẩm vào giỏ hàng,…Mô hình sử dụng phiên
duyệt web là danh sách các url tương ứng với các trang web người dùng truy cập vào hệ
thống.
Bảng 4. Thông tin trong phiên duyệt web.
Session ID (Profile ID) Url
1 www.bestnews4u.com?newsid=102
1 www.bestnews4u.com?newsid=82
1 www.bestnews4u.com?newsid=11
1 www.bestnews4u.com?newsid=1021
2 www.bestnews4u.com?newsid=102
2 www.bestnews4u.com?newsid=144
29
3.2.2. Mô hình sở thích người dùng
Trong mô hình này, sở thích của người dùng được biểu diễn bởi hai
Các file đính kèm theo tài liệu này:
- Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt web người dùng nhằm nâng cao chất lượng tư vấn trong hệ thống tư vấn tin tức.pdf