Trang phụ bìa
Lời cam đoan i
Lời cảm ơn ii
Mục lục iii
Danh mục các ký hiệu, các chữ viết tắt v
Danh mục các bảng vii
Danh mục các hình vẽ, đồ thị viii
MỞ ĐẦU 01
CHƯƠNG 1: TỔNG QUAN
1.1. Bài toán tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn 05
1.2. Các nghiên cứu liên quan đến tìm kiếm thực thể dựa trên ngữ nghĩa ẩn 07
1.2.1. Lý thuyết ánh xạ cấu trúc (Structure Mapping Theory – SMT) 07
1.2.2. Mô hình không gian vector (Vector Space Model - VSM) 08
1.2.3. Phân tích quan hệ tiềm ẩn (Latent Relational Analysis - LRA) 09
1.2.4. Ánh xạ quan hệ tiềm ẩn (Latent Relational Mapping Engine - LRME) 09
1.2.5. Quan hệ ngữ nghĩa tiềm ẩn (Latent Semantic Relation – LSR) 11
1.2.6. Tương đồng quan hệ dựa trên Wordnet 11
1.2.7. Mô hình học biểu diễn vector từ Word2Vec 12
1.3. Phương pháp tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn với các nghiên cứu
liên quan 14
1.4. Bài toán gợi ý truy vấn hướng ngữ cảnh 14
1.5. Các nghiên cứu liên quan đến gợi ý truy vấn 15
1.5.1. Kỹ thuật gợi ý truy vấn dựa trên phiên (Session-based) 15
1.5.2. Kỹ thuật gợi ý truy vấn dựa trên cụm (Cluster-based) 18
1.6. Phương pháp gợi ý truy vấn dựa trên hướng ngữ cảnh với các nghiên cứu liên
quan 22
1.7. Các kết quả đạt được của luận án 24
CHƯƠNG 2: TÌM KIẾM THỰC THỂ DỰA TRÊN QUAN HỆ NGỮ NGHĨA ẨN
2.1. Bài toán 25
2.2. Phương pháp tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn 27
117 trang |
Chia sẻ: honganh20 | Ngày: 04/03/2022 | Lượt xem: 375 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận án Một số kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn và gợi ý truy vấn hướng ngữ cảnh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ính toán:
Giải thuật gồm 2 vòng lặp for lồng nhau, trong thân vòng lặp có câu lệnh so
sánh. Vì vậy, đánh giá cận trên độ phức tạp tính toán của giải thuật là O(n2), với n là
số lần đồng hiện của wi và pj trong cùng một câu context f(wi, pj), như công thức
(2.21) đã nêu.
Tuy nhiên, như đã phân tích trong giải thuật Filter-Entities lượng context đồng
hiện với cặp (A, B) đã biết bị giới hạn bởi hằng số, như vậy, n là hằng số và rất nhỏ
so với kích thước toàn bộ data-set. Nói cách khác, thời gian tính của giải thuật Rank-
Entities là hằng số, tăng chậm khi kích thước dữ liệu mẫu (corpus) tăng. Giải thuật
Rank-Entities đảm bảo được tốc độ tính toán RelSim, phân hạng kết quả Di là danh
sách câu trả lời tức thời cho truy vấn mà người dùng muốn tìm.
2.3. Kết quả thực nghiệm - Đánh giá
Mục đích kiểm thử, đánh giá để tìm ra giá trị phù hợp của các tham số như:
Ngưỡng θ1 trong giải thuật Phân cụm, ngưỡng α trong giải thuật Rank_Entities.
Từ tập dữ liệu mẫu trong thực nghiệm, luận án xây dựng dataset, tập mẫu này
gồm các thực thể và kiểu quan hệ ngữ nghĩa trong cặp thực thể. Áp dụng các độ đo
Precision, Recall, F-Score trên train-set và test-set để điều chỉnh tham số, nhằm tìm
ra giá trị tối ưu cho θ1 và α.
Để so sánh, đánh giá giữa tần suất (số lần đồng hiện) và độ tương hỗ PMI trong
44
tính toán độ tương đồng ngữ nghĩa của 2 context, luận án sử dụng độ đo MRR (Mean
Reciprocal Rank), độ đo MRR được biết là độ đo phản ánh cả đặc tính recall và
precision, thường dùng cho các kỹ thuật tìm kiếm có độ chính xác cao [68].
2.3.1. Dataset
Tập dataset được xây dựng từ tập dữ liệu mẫu trong thực nghiệm, dựa vào 4
phân lớp thực thể có tên: PER; ORG; LOC và TIME; Các phân lớp này thường được
sử dụng để đánh giá trong các hệ thống trích xuất quan hệ [69], [70], các thuật giải
đo lường độ tương đồng quan hệ [71], [72], các hệ tìm kiếm quan hệ ẩn [19]. Mỗi
phân lớp gồm 50 truy vấn, theo [73], [74] một bộ 50 truy vấn được coi là đủ lớn để
đánh giá một hệ thống truy xuất thông tin. Các truy vấn được rút trích ngẫu nhiên, có
dạng q={(Trung Quốc:Đôn Hoàng),(Nara:?)}. Các truy vấn có thể duy nhất 1 câu trả
lời chính xác, ví dụ q={(Vietnam:2/9):(Hong Kong:?)}, cũng có thể có nhiều câu trả
lời chính xác, ví dụ với context=“văn hào”, thực thể có tên “Hemingway” có thể ghép
cặp với nhiều thực thể khác như: “Chuông nguyện hồn ai”, “Ông già và biển cả”,
“Giã từ vũ khí”, .v.v.
Các phân lớp này và các cặp thực thể gắn context tương ứng với mỗi phân lớp
được minh họa trong Bảng 2.2:
Bảng 2.2: Các phân lớp NER (Location, Organization, Personal, Time)
Stt Phân
lớp
NER
Context Entity-pair Example
1
LOC
bích họa
Phật
giáo
Đôn Hoàng:Trung
Quốc
Bích họa Phật giáo Đôn Hoàng ở
Trung Quốc.
Nara:Nhật Bản Bích họa Phật giáo Nara tại Nhật
Bản.
2 ORG đặt trụ
sở tại
WHO:Geneva WHO đặt trụ sở tại Geneva.
Unesco:Paris Unesco đặt trụ sở tại Paris.
3
PER
tác
phẩm
kinh
điển
Don Quixote
:
Cervantes
Don Quixote là tác phẩm kinh
điển của Cervantes.
Oliver Twist
:
Oliver Twist là tác phẩm kinh
điển của Charles Dickens.
45
Charles Dickens
4
TIME
Ngày
Quốc
khánh
Hong Kong:1/7 Ngày Quốc khánh Hong Kong là
1/7.
Macedonia:8/9 Ngày Quốc khánh Macedonia là
8/9.
2.3.2. Kiểm thử - Điều chỉnh tham số
Để đánh giá hiệu quả của thuật toán phân cụm và thuật toán xếp hạng ứng viên
Rank_Entities, Chương 2 thực hiện thay đổi các giá trị θ1 và α, sau đó đo độ Precision,
Recall, F-Score tương ứng với mỗi giá trị thay đổi của θ1.
Precision(Q) =
Số truy vấn có ít nhất 1 câu trả lời đúng
Tổng số truy vấn
(2.30)
Recall(Q) =
Số truy vấn có ít nhất 1 câu trả lời đúng
Tổng số truy vấn có ít nhất một câu trả lời
(2.31)
F-Score(Q) = 2⨉
Precision(Q)⨉Recall(Q)
Precision(Q)+Recall(Q)
(2.32)
Kết quả thực nghiệm tại Hình 2.3 cho thấy tại α = 0.5, θ1 = 0.4, điểm F-Score
đạt giá trị cao nhất.
Hình 2.3: Giá trị F-Score tương ứng với mỗi giá trị thay đổi của α, θ1.
Giải thuật Rank_Entities dòng 22 (if (RelSim ≥ α) return RelSim) cho
thấy, khi α quá nhỏ thì số lượng ứng viên tăng, có thể có nhiễu, đồng thời thời gian
xử lý real-time tốn chi phí thời gian do hệ thống xử lý nhiều truy vấn ứng viên. Ngược
46
lại khi α lớn thì giá trị Recall rất nhỏ, kéo theo F-Score giảm đáng kể.
2.3.3. Đánh giá với độ đo MRR (Mean Reciprocal Rank)
Đối với bộ truy vấn Q, nếu thứ hạng câu trả lời đúng đầu tiên trong truy vấn q
∈ Q là rq, thì độ đo MRR của bộ truy vấn Q được tính:
MRR(Q) =
1
|𝑄|
∑
1
𝑟𝑞
𝑞∈𝑄 (2.33)
Trong thực nghiệm, với mục đích so sánh, giải thuật Rank_Entities (dòng lệnh
03, 16) tính tích vô hướng của f(s,p)·f(c,p) và tích vô hướng của PMI(s,p)·PMI(c,p).
Với 4 phân lớp thực thể: PER; ORG; LOC và TIME; phương pháp dựa trên tần suất
đồng hiện (f) đạt giá trị trung bình MRR(f) ≈ 0.69; trong khi đó, phương pháp dựa
trên PMI đạt MRR(PMI) ≈ 0,86. Điều này cho thấy PMI giúp cải thiện độ chính xác
tốt hơn tần suất đồng hiện.
.
Hình 2.4: So sánh PMI với f: tần suất (số lần đồng hiện) dựa trên MRR.
2.3.4. Hệ thống thực nghiệm
Tập dữ liệu mẫu trong thực nghiệm được download từ các nguồn Viwiki (7877
files) và Vn-news (35440 files). Mục đích chọn nguồn Viwiki và Vn-news vì các
dataset này gồm các mẫu chứa các thực thể có tên (Named Entity). Tiến trình đọc,
lấy nội dung file, tách đoạn, tách câu (main-sentences, sub-sentences), thu được
1572616 câu.
Việc phân lớp các thực thể có tên NER (Named Entity Recognition), thực
nghiệm chọn phân lớp ở mức tổng quát, với 9 nhãn: B-LOC; B-MISC; B-ORG; B-
47
PER; I-LOC; I-MISC; I-ORG; I-PER và O, trong đó tiếp đầu ngữ B- Begin và I- Inner
tương ứng vị trí bắt đầu và bên trong tên thực thể.
Các nhãn tổng quát của NER: PER: Tên người; ORG: Tên tổ chức; LOC: Địa
danh; TIME: Kiểu thời gian; NUM: Kiểu số; CUR: Kiểu tiền tệ; PCT: Kiểu phần
trăm; MISC: Kiểu thực thể khác; O: Không phải thực thể.
Giải thuật rút trích patterns lưu vào database, sau khi thực hiện các bước xử lý
và các điều kiện giới hạn, Database còn lại 404507 câu context. Từ tập context này,
giải thuật gom cụm các quan hệ ngữ nghĩa gom được 124805 cụm.
Theo hiện biết, với tiếng Việt, chưa có một mô hình tìm kiếm thực thể dựa trên
quan hệ ngữ nghĩa ẩn. Do đó, luận án chưa có điều kiện để so sánh, kiểm thử với các
phương pháp khác.
Hình 2.5: Thực nghiệm IRS với nhãn thực thể B-PER.
Hình 2.6: Thực nghiệm IRS với thực thể kiểu thời gian.
Để đánh giá độ chính xác, thực nghiệm thực hiện 500 queries để kiểm thử, kết
quả cho thấy độ chính xác đạt khoảng 92%.
48
Bảng 2.3: Các ví dụ kết quả thực nghiệm với input q = {A, B, C} và output D
ID A B C D
..
German
Angela
Merkel
Israel Benjamin Netanyahu
.. Harry Kane Tottenham Messi Barca
.. Chí Anh Khánh Thi Khắc Việt Tuấn Hưng
..
.. Hà Nội Kim Quy Hoàn
Kiếm
Gươm Thần Kim Quy
(Magical sword – Golden
Turtle)
.. Hoàng Công
Lương
Hòa Bình Thiên Sơn RO
Một vài ngoại lệ cần giải quyết trong phạm vi nghiên cứu, khi người dùng đưa
vào câu truy vấn ngẫu nhiên, tùy ý, không theo motive q = {(A, B), (C, ?)}. Trong
câu truy vấn, mối quan hệ ngữ nghĩa của cặp thực thể đầu vào (A, B) bằng 0, nói cách
khác trong corpus không tồn tại quan hệ ngữ nghĩa (A, B) hoặc thậm chí không tồn
tại cặp thực thể (A, B), mô hình IRS sẽ biến đổi thành cơ chế tìm kiếm theo từ khóa
và áp dụng hướng ngữ cảnh.
Trong trường hợp, câu truy vấn theo motive: q = {(A, B), (C, ?)}, nhưng thực
tế quan hệ của cặp thực thể (A, B) không chỉ là đơn nghĩa mà có thể là đa nghĩa, lúc
này sẽ có nhiều quan hệ ngữ nghĩa khác nhau trong cùng một cặp thực thể. Ví dụ cặp
thực thể (Notre Dame:Paris) sẽ có các quan hệ ngữ nghĩa như “vụ cháy”, “biểu
tượng”, “tác phẩm văn học”, “chuyện tình thằng gù”, “vương miện gai”, .v.v. Với
ràng buộc là thực thể C đã biết, giải thuật Rank-Entities tìm kiếm các cụm ứng viên,
trả về kết quả là danh sách các thực thể {Di} được tối đa hóa tương đồng với ngữ
nghĩa của cặp quan hệ (A, B).
Nói cách khác, về bản chất, IRS dựa vào tương đồng ngữ nghĩa cặp thực thể
(A, B) + thực thể ràng buộc C. Nếu ngữ nghĩa trong truy vấn (A, B) là đa nghĩa
(A, B) thuộc nhiều cụm (ngữ nghĩa) khác nhau kết quả trả về có tính đa dạng, phủ
các khía cạnh ngữ nghĩa khác nhau (với điều kiện thỏa ràng buộc C).
49
Ngoài ra, để tường minh về mặt ngữ nghĩa trong danh sách kết quả này, câu
context gắn kèm Di được kết xuất dưới dạng snippet.
2.4. Kết luận chương
Khả năng suy ra thông tin/tri thức không xác định bằng suy diễn tương tự là
một trong những khả năng tự nhiên của con người. Chương 2 trình bày mô hình tìm
kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn (IRS) nhằm mô phỏng khả năng trên.
Mô hình IRS tìm kiếm thông tin/tri thức từ một miền không quen thuộc và không cần
biết trước từ khóa, bằng cách sử dụng ví dụ tương tự (quan hệ tương đồng) từ một
miền quen thuộc. Đóng góp chính của Chương 2: Xây dựng kỹ thuật tìm kiếm thực
thể dựa trên quan hệ ngữ nghĩa ẩn sử dụng phương pháp phân cụm nhằm nâng cao
hiệu quả tìm kiếm. Đồng thời, luận án đề xuất độ đo tương đồng kết hợp - theo terms
và theo giả thuyết phân phối; Từ độ đo đề xuất, đồng thời áp dụng heuristic vào giải
thuật gom cụm để cải thiện chất lượng cụm.
Bên cạnh khả năng tìm kiếm thông tin/tri thức bằng cách sử dụng quan hệ
tương đồng, mô hình IRS còn có khả năng ánh xạ cơ sở tri thức từ miền ngữ nghĩa
quen thuộc vào một miền ngữ nghĩa không quen thuộc để khai phá và thu thập tri
thức.
Hướng phát triển của đề tài, một mặt - xét thêm các loại ánh xạ quan hệ, thêm
yếu tố thời gian để kết quả tìm kiếm được cập nhật và chính xác. Mặt khác, có thể
mở rộng tìm kiếm thực thể với truy vấn đầu vào chỉ gồm một thực thể, ví dụ: “Sông
nào dài nhất Trung Quốc?”, mô hình tìm kiếm thực thể dựa trên ngữ nghĩa ẩn sẽ đưa
ra được câu trả lời chính xác: “Trường Giang”, dù Corpus chỉ có câu gốc “Trường
Giang là sông lớn nhất Trung Quốc”.
50
CHƯƠNG 3: GỢI Ý TRUY VẤN HƯỚNG NGỮ CẢNH
Khắc phục các vấn đề còn tồn tại trong các nghiên cứu liên quan về gợi ý truy
vấn, chương này trình bày hướng nghiên cứu về phương pháp hướng ngữ cảnh trong
gợi ý truy vấn. Phân tích các ưu nhược điểm của phương pháp hướng ngữ cảnh, đưa
ra các đề xuất kỹ thuật khắc phục nhược điểm, đề xuất phương pháp cải tiến và công
thức tổ hợp mới. Thực nghiệm trên một máy tìm kiếm tiếng Việt chuyên ngành hàng
không. Cải thiện tiến trình hậu xử lý (nghiên cứu, hiện thực cấu trúc Dàn khái niệm
để phân lớp kết quả tìm kiếm.). Thực hiện tích hợp tổng hợp, nhận dạng tiếng nói như
một tùy chọn trong máy tìm kiếm hướng ngữ cảnh. So sánh đánh giá, kết quả thực
nghiệm, hướng phát triển được trình bày ở cuối chương.
3.1. Bài toán
Trong lĩnh vực gợi ý truy vấn (query suggestion), các tiếp cận truyền thống
như session-based, document-click based, .v.v. thực hiện khai phá tập truy vấn trong
quá khứ (Query Logs) để kết xuất gợi ý. Cách tiếp cận truyền thống thường áp dụng
các kỹ thuật như gom cụm, đo độ tương đồng, .v.v. của truy vấn [9], [10]. Tuy nhiên,
các tiếp cận truyền thống có ba nhược điểm: Thứ nhất, chỉ đưa ra được các gợi ý
tương tự hoặc có liên quan với truy vấn vừa nhập - mà chất lượng chưa chắc đã tốt
hơn truy vấn vừa nhập. Thứ hai, không đưa ra được xu hướng mà tri thức số đông
thường hỏi sau truy vấn hiện hành. Thứ ba, những cách tiếp cận này không xét chuỗi
truy vấn liên tiếp từ người sử dụng như một ngữ cảnh tìm kiếm, trong khi việc nắm
bắt ngữ cảnh tìm kiếm phản ánh việc nắm bắt ý đồ tìm kiếm của người sử dụng.
Cách tiếp cận “Gợi ý truy vấn hướng ngữ cảnh bởi khai phá dữ liệu phiên và
các tài liệu chọn đọc” (gọi ngắn gọn: “cách tiếp cận hướng ngữ cảnh” của Huanhuan
Cao cùng cộng sự [9], [10]) là một hướng đi mới - hướng này xét các truy vấn đứng
ngay trước truy vấn vừa đưa vào (truy vấn hiện hành) như một ngữ cảnh tìm kiếm,
để “nắm bắt” ý định tìm kiếm của người dùng, nhằm đưa ra các gợi ý xác đáng hơn.
Rõ ràng, lớp truy vấn đứng ngay trước có mối liên hệ ngữ nghĩa với truy vấn hiện
hành. Kế tiếp, thực hiện khai phá các truy vấn đứng ngay sau truy vấn hiện hành -
như một danh sách gợi ý. Có thể nói, đây là ưu điểm riêng của cách tiếp cận này so
với cách tiếp cận chỉ gợi ý những truy vấn tương tự với truy vấn hiện hành. Lớp truy
51
vấn đứng ngay sau truy vấn hiện hành, một cách hình thức, phản ánh những vấn đề
mà người dùng thường hỏi sau câu truy vấn hiện hành. Đồng thời, lớp truy vấn ngay
sau truy vấn hiện hành thường gồm những câu truy vấn tốt hơn, phản ánh rõ hơn ý
đồ tìm kiếm. Rõ ràng, nắm bắt được ngữ cảnh tìm kiếm, sẽ hiểu được ý định tìm
kiếm, cô gọn được tập kết quả trả về, hiển thị những kết quả thích đáng với mối quan
tâm tìm kiếm của người sử dụng.
Tuy nhiên, cách tiếp cận hướng ngữ cảnh cũng có một vài nhược điểm: khi
người sử dụng đưa vào một hoặc một chuỗi truy vấn mà không thuộc bất cứ một ngữ
cảnh tìm kiếm nào đã có trong quá khứ, phương pháp này không đưa ra được gợi ý.
Kỹ thuật gom cụm trong tiếp cận hướng ngữ cảnh chỉ đơn thuần dựa trên các URLs
click (các tài liệu người dùng chọn đọc) mà không xét đến tính tương đồng của từ,
cụm từ (terms) trong các câu truy vấn mà người dùng đưa vào. Đây là vấn đề ảnh
hưởng đến chất lượng khi gom cụm, chất lượng cụm không tốt sẽ ảnh hưởng đến chất
lượng câu gợi ý không tốt, đặc biệt với những ngôn ngữ bản địa như tiếng Việt. Một
vấn đề khác: Khi kích thước dữ liệu tăng cao, việc tổ chức, lưu trữ trên cây hậu tố sao
cho đáp ứng tức thời việc gợi ý truy vấn. Mỗi câu truy vấn đa nghĩa chỉ thuộc duy
nhất một cụm cũng không thực sự chính xác.
Do đó, Chương 3 đặt mục đích nghiên cứu và ứng dụng phương pháp hướng
ngữ cảnh, xác định các ưu nhược điểm, nêu các đề xuất cải thiện kỹ thuật, cũng như
bước đầu đưa ra các phân tích, chứng minh bằng thực nghiệm. Đặt trọng tâm vào
phương pháp hướng ngữ cảnh nên các kỹ thuật chỉnh sửa, viết lại truy vấn không
được đề cập trong khuôn khổ luận án.
Bên cạnh phương pháp hướng ngữ cảnh, Chương 3 nghiên cứu các phương
pháp thống kê ứng dụng trong nhận dạng và tổng hợp tiếng nói để tương tác với người
sử dụng qua ngôn ngữ tự nhiên, qua tiếng nói. Như một tùy chọn cho máy tìm kiếm,
luận án trình bày quá trình tích hợp kỹ thuật nhận dạng và tổng hợp tiếng nói tiếng
Việt vào máy tìm kiếm [75], [76], tạo thành một máy tìm kiếm có tương tác giọng
nói. Với mục đích tương tác hai chiều với người dùng, chức năng nhận dạng (Speech
To Text) cung cấp khả năng truy vấn bằng tiếng nói, chức năng tổng hợp (Text To
Speech) trả lời bằng giọng nói với độ chính xác cao.
Đóng góp chính của chương 3 bao gồm:
1) Ứng dụng kỹ thuật hướng ngữ cảnh, xây dựng máy tìm kiếm chuyên
52
sâu áp dụng hướng ngữ cảnh trong miền cơ sở tri thức riêng (dữ liệu hàng
không).
2) Đề xuất độ đo tương đồng tổ hợp trong bài toán gợi ý truy vấn theo
ngữ cảnh nhằm nâng cao chất lượng gợi ý.
Ngoài ra, chương 3 cũng có các đóng góp bổ sung trong thực nghiệm: i) Tích
hợp nhận dạng và tổng hợp tiếng nói tiếng Việt như một tùy chọn vào máy tìm kiếm
để tạo thành một hệ tìm kiếm có tương tác tiếng nói. ii) Áp dụng cấu trúc dàn khái
niệm để phân lớp tập kết quả trả về.
Bố cục chương 3 gồm: Phần 3.1 đặt vấn đề. Phần 3.2 trình bày phương pháp
gợi ý truy vấn hướng ngữ cảnh. Nêu các ưu nhược điểm của phương pháp hướng ngữ
cảnh, các đề xuất kỹ thuật khắc phục nhược điểm, thực nghiệm trên một máy tìm
kiếm tiếng Việt, đề xuất tiến trình hậu xử lý (phân nhóm kết quả sau tìm kiếm), giới
thiệu phương pháp cải thiện và công thức tổ hợp mới. Thực hiện tích hợp tổng hợp,
nhận dạng tiếng nói như một tùy chọn trong máy tìm kiếm hướng ngữ cảnh. Nghiên
cứu, hiện thực cấu trúc Dàn khái niệm để phân lớp kết quả tìm kiếm. Phần 3.3 thực
nghiệm, đánh giá trên một máy tìm kiếm tiếng Việt phụ thuộc lĩnh vực (hàng không).
Kết luận và hướng đi kế tiếp trình bày trong phần 3.4.
3.2. Phương pháp hướng ngữ cảnh
3.2.1. Định nghĩa – Thuật ngữ
Phiên tìm kiếm: Là chuỗi liên tục các câu truy vấn. Chuỗi truy vấn được biểu
diễn với thứ tự thời gian. Mỗi phiên tương ứng với một người dùng.
Cấu trúc phiên tổng quát: {sessionID; queryText; queryTime; URL_clicked}
trong đó:
- Session ID: Định danh của phiên tìm kiếm (mã tự sinh từ Web-server);
- queryTime: Nhãn thời gian (thời gian khi truy vấn được gửi đi);
- queryText: câu truy vấn;
- URL_clicked: ID của các URL được nhấn từ người sử dụng;
Ngoài ra, phiên có thể có thêm các thuộc tính khác như: Result-List (tập kết
quả mà SE đáp ứng q), Location, Regions, Search device, User_ID, .v.v.
53
Bảng 3.2: Cấu trúc (dạng rút gọn) của phiên tìm kiếm
sessionID queryText queryTime URL_clicked
User 1 khủng bố 2011-05-15 10:47 1491|
User 2 Vietnam Airlines 2011-05-15 10:48 2096|19730
User 1 Bin Laden bị tiêu diệt 2011-05-15 10:50 58896|337
Ý đồ tìm kiếm: Là chuỗi con của phiên. Các truy vấn trong một ý đồ sẽ liên
tiếp về thời gian, liên quan về ý nghĩa, được phát ra từ cùng một người dùng.
Xét trong tầm vực Gợi ý truy vấn hướng ngữ cảnh, ý đồ tìm kiếm được phản
ánh bởi một hoặc một nhóm các truy vấn đại diện.
Ngữ cảnh (context): Thuật ngữ ngữ cảnh đặc tả chuỗi lân cận trước truy vấn
hiện hành. Trong phiên tìm kiếm của một người dùng, ngữ cảnh là chuỗi truy
vấn đứng ngay trước truy vấn vừa nhập.
Lớp queries trước của qcurrent ↔ ngữ cảnh) .. qcurrent .. (Lớp queries sau)
Hình 3.1: Ngữ cảnh truy vấn.
Khái niệm (concept): Khi gom cụm, mỗi cụm là một nhóm các truy vấn tương
tự nhau. Trong tiếp cận gợi ý truy vấn hướng ngữ cảnh, mỗi cụm được thuật
ngữ hóa bởi khái niệm.
Timeout: Ngưỡng thời gian phân biệt giữa hai phiên tìm kiếm. Ngưỡng là một
tham số được sử dụng trong tiến trình khai phá Query Logs, được đặc tả trong
mã nguồn, thời gian mặc định bằng 30 phút.
3.2.2. Đề dẫn - Ví dụ minh họa
Ví dụ 1: Xét truy vấn đầu vào: “gladiator”, rất khó để đưa ra gợi ý với câu truy
vấn này (Lịch sử đấu sĩ? Một đấu sĩ nổi tiếng? Tiêu đề một bộ phim?). Nếu
tìm được truy vấn ngay trước đó: “beautiful mind”, thì gần như chắc chắn
người sử dụng đang tìm kiếm một bộ phim, dẫn đến việc gợi ý truy vấn hiệu
quả hơn.
54
Hình 3.2: Ví dụ minh họa với truy vấn “gladiator”.
Ví dụ 2: Với truy vấn: “tiger”, ý đồ tìm kiếm trong trường hợp này sẽ là: Một
loài động vật? Một hãng hàng không? Một vận động viên? Một hệ điều hành?
Việc không xác định được ngữ cảnh tìm kiếm sẽ gây khó khăn khi đưa ra gợi
ý xác đáng. Nếu biết truy vấn ngay trước đó là “Woods” hoặc “golf”, thì gần
như chắc chắn người sử dụng đang tìm kiếm thông tin về một vận động viên.
Tương tự với truy vấn “Jordan”, nếu biết lớp truy vấn ngay trước là “NBA”
hoặc “basketball”, một cách tự nhiên, ta biết ý định tìm kiếm của người sử
dụng về “Michel Jordan”. Do đó dưới góc nhìn của hệ thống, ý đồ tìm kiếm
đã hiển thị rõ ràng hơn.
Hình 3.3: Ví dụ minh họa với truy vấn “tiger”.
Trên đây là hai ví dụ dẫn để minh họa cho tiếp cận hướng ngữ cảnh, trong thực
tế có rất nhiều ví dụ tương tự. Phần tiếp theo, luận án trình bày motivation, mô hình
và chi tiết của tiếp cận hướng ngữ cảnh.
55
3.2.3. Kiến trúc – Mô hình
Phương pháp hướng ngữ cảnh dựa trên hai phases: online và offline, khái quát:
Hình 3.4: Mô hình của tiếp cận gợi ý truy vấn hướng ngữ cảnh.
Trong một phiên tìm kiếm (online phase), tiếp cận gợi ý truy vấn hướng ngữ
cảnh đón câu truy vấn hiện hành và xét chuỗi truy vấn đứng ngay trước truy vấn hiện
hành như một ngữ cảnh. Chính xác hơn, diễn dịch chuỗi truy vấn đứng trước current
query thành chuỗi khái niệm - chuỗi khái niệm này biểu đạt ý định tìm kiếm của người
sử dụng.
Khi có được ngữ cảnh tìm kiếm, hệ thống thực hiện so khớp với tập ngữ cảnh
dựng sẵn (phase offline, tập ngữ cảnh dựng sẵn được xử lý tính toán sẵn trên tập truy
vấn trong quá khứ - Query Logs. Về cấu trúc dữ liệu và lưu trữ, tập ngữ cảnh dựng
sẵn được lưu trên cấu trúc dữ liệu cây hậu tố). Tiến trình so khớp (maximum
matching) kết xuất danh sách ứng viên, danh sách này gồm các vấn đề mà đa số người
dùng thường hỏi sau truy vấn vừa nhập. Sau bước ranking, danh sách ứng viên trở
thành danh sách gợi ý.
3.2.4. Phase Offline
Pha offline có mục đích xây dựng cây hậu tố từ tập dữ liệu mẫu (Query Logs,
ký hiệu Q). Pha offline thực hiện tuần tự các bước: Xây dựng đồ thị 2 phía (bipartite
graph); Gom cụm trên đồ thị 2 phía; Xây dựng tập chuỗi khái niệm, rút trích tập chuỗi
56
khái niệm thành tập chuỗi khái niệm thường xuyên (ngắn gọn: chuỗi thường xuyên);
Dựng cây hậu tố. Trong đó gom cụm và dựng cây hậu tố là hai thành phần quan trọng
nhất của pha offline.
a) Đồ thị 2 phía – Gom cụm trên đồ thị 2 phía
Theo lý thuyết đồ thị, một đồ thị vô hướng G:=(V, E) được gọi là 2 phía nếu
tồn tại một phân hoạch của tập đỉnh V=V1∪V2 sao cho V1 và V2 là các tập độc lập
(không giao nhau, thỏa điều kiện không có cạnh nối giữa 2 đỉnh bất kỳ thuộc cùng
một tập). Nếu |V1|=|V2| thì G là đồ thị 2 phía cân bằng.
Một đồ thị 2 phía đầy đủ (biclique) là một đồ thị 2 phía đặc biệt, trong đó mỗi
đỉnh của tập thứ nhất nối với mọi đỉnh của tập thứ hai.
Như đã biết, khi người dùng đưa ra câu truy vấn, máy tìm kiếm sẽ đáp ứng
bằng một tập các URLs kết quả. Trong đó URLs click là những urls mà người dùng
click chọn đọc trên tập kết quả trả về, URLs click phản ánh mối quan tâm của người
dùng trên một tài liệu cụ thể.
Tham chiếu với lý thuyết, đồ thị 2 phía trong tiếp cận hướng ngữ cảnh được
xây dựng với Q và U là 2 tập đỉnh, E là tập cạnh. Cụ thể, mỗi node truy vấn trong tập
đỉnh Q tương ứng với một query, mỗi node URL trong tập đỉnh U tương ứng một url
được click. Cạnh eij nối qi với uj nếu uj được click bởi qi. Trọng số trên cạnh eij (ký
hiệu wij) là tổng số lần uj được click bởi qi, trọng số này được tính trên toàn Query
Logs.
Xuất phát từ ý tưởng căn bản: Trong Query Logs Q, nếu 2 truy vấn chia sẻ
chung các URLs click (thuộc tập U) thì 2 truy vấn đó được xét là tương đồng [63],
[64]. Một cách hình thức, 2 truy vấn – đặc biệt là 2 truy vấn tương đồng về ngữ nghĩa
có thể không có term(s) chung, nhưng chúng chia sẻ chung các thuật ngữ trong các
tài liệu (URLs click) mà người tìm kiếm chọn đọc.
Hình 3.5: Đồ thị 2 phía (tập đỉnh Q – tập đỉnh U)
57
Trên đồ thị 2 phía, mỗi query q có thể nối với một hoặc nhiều urlClicks, ngược
lại, mỗi urlClick có thể nối với một hoặc một vài queries. Khi tiến hành gom
cụm, mỗi query qi (qi ∈ Q) được xét như một vector, mỗi chiều của vector qi
tương ứng với một url uj trên tập U (uj ∈ U, U là tập các urlClicks). Theo [77],
chiều thứ j của qi được tính bởi công thức:
𝑞𝑖⃗⃗⃗ ⃗[j] = norm(wij) =
wij
√∑ wij′
2
uj′∈U
2
(3.1)
trong đó:
- wij: tổng số lần uj được click bởi qi;
- uj’: các urls khác uj, được click bởi qi. (các chiều còn lại của vector qi)
Khoảng cách giữa 2 truy vấn qi và qj được đo bằng khoảng cách Euclide (theo
urlClicks) giữa 2 vector qi, qj:
distance(qi, qj) = √∑ (𝑞𝑖⃗⃗⃗ ⃗[k] − 𝑞𝑗⃗⃗⃗⃗ [k])2𝑢𝑘∈𝑈
2
(3.2)
Mỗi cụm C gồm một tập các câu truy vấn, tâm cụm được vector hóa:
C⃗⃗ = norm(
∑ qi⃗⃗⃗⃗⃗qi∈C
|C|
) (3.3)
với |C| là số queries chứa trong C.
Theo (3.2), ta có khoảng cách giữa truy vấn q và tâm cụm C:
distance(q, C) = √∑ (�⃑�[k] − 𝐶[k])2𝑢𝑘∈𝑈
2
(3.4)
Đường kính (D, diameter) của một cụm được tính bởi công thức:
D = √
∑ ∑ (�⃗⃑�[i] − �⃑⃗�[j])2
|𝐶|
𝑗=1
|𝐶|
𝑖=1
|𝐶|(|𝐶|−1)
2
(3.5)
Giải thuật gom cụm sử dụng tham số Dmax như một ngưỡng để kiểm soát, sao
cho với mỗi cụm có đường kính D, D luôn nhỏ hơn hoặc bằng Dmax.
b) Giải thuật Gom cụm
Ý tưởng của giải thuật gom cụm: Giải thuật quét toàn bộ các queries trong
Query Logs một lần, các cụm sẽ được tạo ra trong tiến trình quét. Ban đầu, mỗi cụm
được khởi tạo bằng một truy vấn, rồi mở rộng dần bởi các truy vấn tương tự. Quá
trình mở rộng dừng khi đường kính cụm vượt ngưỡng Dmax. Do mỗi cụm (cluster)
58
được xem như một khái niệm (concept), nên tập cụm là tập khái niệm.
Đầu vào:
- Tập Query Logs Q, ngưỡng Dmax;
Đầu ra:
- Tập cụm Cset;
Giải thuật:
program Context_Aware_Clustering_alg
// Khởi tạo mảng dim_array[d] = Ø, ∀d (d: click-document).
// Mảng dim_array chứa số chiều các vectors.
// Giải thuật Context_Aware_Clustering_alg thực hiện thêm dần
// các query trong QLogs vào tập cụm Cset;
01. for each query qi ∈ Q do
02. θ = Ø;
03. for each nonZeroDimension d of 𝑞𝑖⃗⃗⃗⃗ do {
04. θ ∪= dim_array[d];
}
05. C = arg-minC’∈θdistance(qi, C’);
06. if (diameter(C ∪ {qi}) ≤ Dmax) {
07. C ∪= qi; cập nhật lại đường kính và tâm cụm C;
}
08. else {
C = new cluster({qi}); Cset ∪= C;
}
09. for each nonZeroDimension d of 𝑞𝑖⃗⃗⃗⃗ do {
10. if (C ∉ dim_array[d])
dim_array[d] ∪= C;
}
end for
11. return Cset;
end.
Diễn giải giải thuật:
Với mỗi truy vấn qi
Các file đính kèm theo tài liệu này:
- luan_an_mot_so_ky_thuat_tim_kiem_thuc_the_dua_tren_quan_he_n.pdf