Tóm tắt Luận án Một số kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn và gợi ý truy vấn hướng ngữ cảnh

Áp dụng mô hình không gian vector, Turney [13] đưa ra khái niệm mỗi vector được tạo thành bởi mẫu

(pattern) chứa cặp thực thể (A, B) và tần suất xuất hiện của mẫu. VSM thực hiện phép đo độ tương đồng quan hệ như sau: Các mẫu được tạo thủ công, query đến Search Engine (SE), số kết quả trả về từ SE là tần suất xuất hiện của mẫu. Từ đó, độ tương đồng quan hệ của 2 cặp thực thể được tính bởi Cosine giữa 2 vector

27 trang | Chia sẻ: honganh20 | Lượt xem: 636 | Lượt tải: 1Free

Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Một số kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn và gợi ý truy vấn hướng ngữ cảnh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

cụm (Cluster)  K-means;  Hierarchical;  DB-SCAN; Hình 1.9: Các phương pháp phân cụm [54]. Gợi ý truy vấn hướng ngữ cảnh (Context-aware Query Suggestion) là một nét mới, Context-aware xét các truy vấn đứng ngay trước truy vấn hiện hành như một ngữ cảnh tìm kiếm, nhằm “nắm bắt” ý định tìm kiếm của người dùng. Kế tiếp, khai phá các truy vấn đứng ngay sau truy vấn hiện hành - như danh sách gợi ý. Đây là ưu điểm riêng của cách tiếp cận này - so với cách tiếp cận chỉ gợi ý những truy vấn tương tự. Lớp truy vấn đứng ngay sau truy vấn hiện hành, một cách hình thức, phản ánh những vấn đề mà người dùng thường hỏi sau truy vấn hiện 8 hành. Đồng thời, lớp truy vấn ngay sau truy vấn hiện hành thường gồm những câu truy vấn (chuỗi truy vấn) tốt hơn, phản ánh rõ hơn ý đồ tìm kiếm. CHƯƠNG 2: TÌM KIẾM THỰC THỂ DỰA TRÊN QUAN HỆ NGỮ NGHĨA ẨN 2.1. Bài toán Trong tự nhiên, tồn tại mối quan hệ giữa 2 thực thể, như: Khuê Văn các – Văn miếu; Stephen Hawking – Nhà vật lý; Thích Ca – phái Đại thừa; Apple – iPhone; ... Trong thế giới thực, tồn tại những câu hỏi dạng: “biết Fansipan là ngọn núi cao nhất Việt Nam thì ngọn núi nào cao nhất Ấn Độ?”, “nếu Biden là tổng thống đắc cử Hoa Kỳ thì ai là người quyền lực nhất Thụy Điển?”, Trong cơ chế tìm kiếm theo từ khóa, theo thống kê, các truy vấn thường ngắn, mơ hồ và đa nghĩa [1-6]. Cũng theo thống kê, xấp xỉ 71% câu tìm kiếm trên web có chứa tên thực thể [7], [8]. Nếu người sử dụng nhập vào các thực thể: “Việt Nam”, “Hà Nội”, “Pháp” thì máy tìm kiếm chỉ đưa ra được kết quả là những tài liệu có chứa các từ khóa trên chứ không đưa ngay được câu trả lời “Paris”. Do chỉ tìm thực thể, các kỹ thuật mở rộng, viết lại câu truy vấn không áp dụng với dạng quan hệ có ngữ nghĩa ẩn trong cặp thực thể. Từ đó, một hình thái tìm kiếm mới được nghiên cứu, motive của câu truy vấn tìm kiếm có dạng: {(A, B), (C, ?)}, trong đó (A, B) là cặp thực thể nguồn, (C, ?) là cặp thực thể đích. Đồng thời, hai cặp (A, B), (C, ?) có quan hệ tương đồng về ngữ nghĩa. Nói cách khác, khi người sử dụng nhập vào truy vấn {(A, B), (C, ?)}, máy tìm kiếm có nhiệm vụ liệt kê danh sách các thực thể D, mỗi thực thể D thỏa điều kiện có quan hệ ngữ nghĩa với C, đồng thời cặp (C, D) có quan hệ tương đồng với cặp (A, B). Với đầu vào chỉ gồm 3 thực thể: “Việt Nam”, “Hà Nội”, “Pháp”, quan hệ ngữ nghĩa “là thủ đô” không được chỉ ra trong câu truy vấn. 2.2. Phương pháp tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn 2.2.1. Kiến trúc – Mô hình Khái niệm tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn là phân biệt rõ nhất đối với cơ chế tìm kiếm theo từ khóa. Hình 2.1 mô phỏng câu truy vấn chỉ gồm 3 thực thể, query = {(Việt Nam, Mê Kông), (Trung Quốc, ?)}, viết quy ước: q = {(A, B), (C, ?)}. Trong đó (Việt Nam, Mê Kông) là cặp thực thể nguồn, (Trung Quốc, ?) là cặp thực thể đích. Máy tìm kiếm có nhiệm vụ tìm ra thực thể (“?”) có quan hệ ngữ nghĩa với thực thể “Trung Quốc”, đồng thời cặp thực thể (Trung Quốc, ?) phải tương đồng quan hệ với cặp thực thể (Việt Nam, Mê Kông). Lưu ý rằng câu truy vấn trên không chứa một cách tường minh quan hệ ngữ nghĩa giữa 2 thực thể. Việc không tường minh quan hệ ngữ nghĩa bởi trên thực tế - quan hệ ngữ nghĩa được biểu đạt dưới nhiều cách khác nhau xung quanh cặp thực thể (Việt Nam, Mê Kông), ví dụ như “sông dài nhất”, “sông lớn nhất”, “lưu vực rộng nhất” Hình 2.1: Tìm kiếm dựa trên quan hệ ngữ nghĩa với đầu vào gồm 3 thực thể. 9 Do câu truy vấn chỉ gồm 3 thực thể không bao gồm quan hệ ngữ nghĩa, nên mô hình được gọi là mô hình tìm kiếm thực thể dựa trên ngữ nghĩa ẩn. Máy tìm kiếm có nhiệm vụ tìm ra thực thể (“?”) có quan hệ ngữ nghĩa với thực thể “Trung Quốc”, đồng thời cặp thực thể (Trung Quốc, ?) phải tương đồng quan hệ với cặp thực thể (Việt Nam, Mê Kông). Lưu ý rằng câu truy vấn trên không chứa một cách tường minh quan hệ ngữ nghĩa giữa 2 thực thể. Việc không tường minh quan hệ ngữ nghĩa bởi trên thực tế - quan hệ ngữ nghĩa được biểu đạt dưới nhiều cách khác nhau xung quanh cặp thực thể (Việt Nam, Mê Kông), ví dụ như “sông dài nhất”, “sông lớn nhất”, “lưu vực rộng nhất”: Do o câu truy vấn chỉ gồm 3 thực thể không bao gồm quan hệ ngữ nghĩa, nên mô hình được gọi là mô hình tìm kiếm thực thể dựa trên ngữ nghĩa ẩn. Mô hình tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn (IRS) gồm 3 thành phần chính: Thành phần rút trích quan hệ ngữ nghĩa: Từ corpus, rút trích các mẫu (câu gốc chứa cặp thực thể và context), như: A sông dài nhất B, với A, B là 2 tên thực thể (Named Entity). Tập mẫu thu được gồm: các mẫu thực sự khác nhau, các mẫu giống nhau, các mẫu có độ dài và terms khác nhau nhưng biểu đạt cùng ngữ nghĩa, chẳng hạn: A là sông lớn nhất của B, A là sông thuộc B có lưu vực rộng nhất, hay B có sông dài nhất là A, .v.v. Thành phần gom cụm các quan hệ ngữ nghĩa: Từ tập mẫu thu được, thực hiện gom cụm để xác định các cụm chứa các mẫu (context), trong đó mỗi context thuộc cùng cụm có quan hệ tương đồng về ngữ nghĩa. Lập chỉ mục các mẫu và cặp thực thể tương ứng. Thành phần tính toán quan hệ tương đồng giữa 2 cặp thực thể: Thuộc phase online của mô hình IRS. Đón truy vấn q = {(A, B), (C, ?)}, IRS tìm kiếm trong bảng chỉ mục cặp thực thể (A, B) và tập quan hệ ngữ nghĩa (mẫu) tương ứng. Từ tập quan hệ ngữ nghĩa thu được, thực hiện tìm các cặp thực thể (C, Di) gắn với quan hệ. Áp dụng độ đo Cosine tính toán, xếp hạng mức tương đồng giữa (A, B) và (C, Di), đưa ra danh sách các thực thể Di đã xếp hạng để trả lời truy vấn. Xét truy vấn q = {(Việt Nam, Mê Kông), (Trung Quốc, ?)}, IRS tìm được cụm chứa cặp thực thể (Việt Nam, Mê Kông) và quan hệ ngữ nghĩa tương ứng: “sông dài nhất” (từ câu gốc: “Mê Kông là sông dài nhất Việt Nam”). Cụm này đồng thời chứa một quan hệ ngữ nghĩa tương tự: “sông lớn nhất”, trong đó quan hệ “sông lớn nhất” gắn với gặp thực thể (Trung Quốc, Trường Giang) (từ câu gốc: “Trường Giang là sông lớn nhất Trung Quốc”). IRS sẽ đưa “Trường Giang” vào danh sách ứng viên, xếp hạng quan hệ ngữ nghĩa theo phép đo độ tương đồng, trả kết quả về người tìm kiếm. Hình 2.2: Kiến trúc tổng quát mô hình tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa. Cặp thực thể - Quan hệ ngữ nghĩa Corpus Chỉ mục đảo Inverted Index for IRS Rút trích quan hệ ngữ nghĩa Gom cụm quan hệ ngữ nghĩa Tính độ tương đồng quan hệ (RelSim) Tập kết quả ứng viên Tập kết quả trả về được phân hạng Q u er y : { (V iệ t N am , M ê K ô n g ), ( T ru n g Q u ố c, ? )} 10 2.2.2. Thành phần rút trích quan hệ ngữ nghĩa Nhận truy vấn q = {(A, B), (C, ?}, kiến trúc tổng quát của IRS được mô hình hóa:  Hàm Filter-Entities (Fe) lọc/tìm tập ứng viên S chứa các cặp thực thể (C, Di); trong đó (C, Di) quan hệ tương đồng với cặp thực thể đầu vào (A, B): Fe(q, D) = Fe({(A, B), (C, ?)}, D) = { 1, 𝑖𝑓⁡𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡(𝑞, 𝐷) 0, 𝑒𝑙𝑠𝑒 (2.1)  Hàm Rank-Entities (Re) tính RelSim, xếp hạng các thực thể Di, Dj trong tập ứng viên S theo phép đo RelSim (Relational Similarity), thực thể nào có RelSim cao hơn được xếp thứ tự thấp hơn (theo nghĩa gần top hơn, hay rank cao hơn): ∀ Di, Dj ∊ S, nếu: RelSim((A, B),(C, Di)) > RelSim((A, B),(C, Dj)) : Re(q, Di) < Re(q, Dj) (2.2) 2.2.3. Thành phần gom cụm các quan hệ ngữ nghĩa Tiến trình gom cụm thực hiện gom các phần tử “tương tự” nhau vào thành cụm. Trong mô hình tìm kiếm thực thể dựa trên ngữ nghĩa, các phần tử trong cụm là các câu context tương đồng về ngữ nghĩa. Độ tương đồng là một đại lượng dùng để so sánh 2 hay nhiều phần tử với nhau, phản ánh mối tương quan giữa 2 phần tử. Do đó, luận án khái quát các phép đo độ tương đồng về terms, độ tương đồng dựa trên không gian vector, độ tương đồng ngữ nghĩa – của 2 context. a) Các phép đo độ tương đồng giữa 2 context  Độ tương đồng về terms Hàm Zaro: Winkler4. Khoảng cách Zaro tính độ tương đồng giữa 2 xâu ký tự a, b: SimZaro(a,b) = { 0,⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑖𝑓⁡𝑚 = 0 1 3 ( 𝑚 |𝑎| + 𝑚 |𝑏| + 𝑚−𝑠𝑘𝑖𝑝 𝑚 ) ⁡⁡⁡⁡⁡⁡𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 (2.6) Constrast model: Do Tversky đề xuất (“Features of similarity”, Psychological Review, 1977)5, áp dụng mô hình tương phản để tính độ tương đồng giữa 2 câu a, b: Sim(a, b)⁡=⁡α*f(a∩b) − 𝛽*f(a-b) − γ*f(b−a) (2.8) Khoảng cách Jaccard: Sim(a, b) = |𝑎∩𝑏| |𝑎∪𝑏| (2.9)  Độ tương đồng dựa trên không gian vector: Euclidean, Manhattan, Cosine.  Độ tương đồng ngữ nghĩa Theo Giả thuyết phân phối [17]: Các từ xảy ra trong cùng ngữ cảnh thì có xu hướng tương đồng ngữ nghĩa. Do tiếng Việt chưa có hệ thống Vietwordnet để tính toán độ tương đồng ngữ nghĩa giữa 2 terms, luận án sử dụng độ tương hỗ PMI để đo, đánh giá độ tương đồng ngữ nghĩa giữa 2 câu (context). Phương pháp PMI (Pointwise Mutual Information): Được đề xuất bởi Church and Hanks [1990]. Dựa vào xác suất đồng xảy ra giữa 2 terms t1, t2 trong kho ngữ liệu, độ tương hỗ t1, t2 được tính theo công thức: PMI(t1, t2) = log2( 𝑷(𝒕𝟏,𝒕𝟐) 𝑷(𝒕𝟏).𝑷(𝒕𝟐) ) (2.16) 4 https://en.wikipedia.org/wiki/Jaro-Winkler_distance 5 11 b) Thành phần gom cụm các quan hệ ngữ nghĩa  Áp dụng PMI cải tiến độ đo tương đồng theo giả thuyết phân phối: SimDH(p,q) = Cosine(PMI(p, q)) =⁡ ∑ (𝑃𝑀𝐼(𝑤𝑖,𝑝)∙𝑃𝑀𝐼(𝑤𝑖,𝑞))𝑖 ||𝑃𝑀𝐼(𝑤𝑖,𝑝)||||𝑃𝑀𝐼(𝑤𝑖,𝑞)|| (2.25)  Độ tương đồng theo terms của 2 context p, q: Simterm(p, q) = ⁡ ∑ (weighti(p)∙weighti(q)) n i=1 ||weight(p)||⁡||weight(q)|| (2.26)  Độ đo tương đồng kết hợp: Sim(p,q) = Max(SimDH(p, q),Simterm(p, q)) (2.27) c) Giải thuật gom cụm: - Đầu vào: Tập P = {p1, p2, , pn}; Ngưỡng phân cụm θ1, ngưỡng heuristic θ2; Dmax: Đường kính cụm; Sim_cp: Kết quả hàm đo độ tương đồng kết hợp, áp dụng theo công thức (2.27). - Đầu ra: Tập cụm Cset (ClusterID, context, trọng số mỗi context. cặp thực thể tương ứng). Program Clustering_algorithm 01. Cset = {}; iCount=0; 02. for each context pi ∈ P do 03. Dmax = 0; c* = NULL; 04. for each cluster cj ∈ Cset do 05. Sim_cp=Sim(pi,Centroid(cj)) 06. if (Sim_cp > Dmax) then 07. Dmax = Sim_cp; c* ← cj; 08. end if 09. end for 10. if (Dmax > θ1) then 11. c*.append(pi) 12. else 13. Cset ∪= new cluster{c*} 14. end if 15. if (iCount > θ2) then 16. iCount++; 17. exit Current_Proc_Cluster_Alg(); 18. end if 19. end for 20. Return Cset; @CallMerge_Cset_from_OtherNodes() 2.2.4. Thành phần tính toán độ tương đồng giữa 2 cặp thực thể Thành phần tính toán độ tương đồng quan hệ giữa 2 cặp thực thể thực hiện 2 tác vụ: Lọc (tìm) và Phân hạng. Nhận vào q={(A, B), (C, ?)}, thông qua chỉ mục inverted index, IRS gọi hàm Filter-Entities Fe đặt lọc (tìm) tập ứng viên chứa các cặp thực thể (C, Di) và quan hệ ngữ nghĩa (context) tương ứng, với điều kiện (C, Di) tương đồng với (A, B). Kế tiếp, gọi hàm Rank-Entities Re để xếp hạng các thực thể Di, Dj trong tập ứng viên theo phép đo RelSim (Relational Similarity), trả về danh sách các {Di} đã xếp hạng. Giải thuật Filter-Entities: Lọc tìm tập ứng viên chứa câu trả lời: Đầu vào: Query q = (A, B)(C, ?) Đầu ra: Tập ứng viên S (gồm các thực thể Di và context tương ứng); Program Filter_Entities 12 01. S = {}; 02. P(w) = EntPair_from_Cset.Context(); 03. for each context pi ∈ P(w) do 04. W(p) = Context(pi).EntPairs(); 05. If (W(p) contains (C:Di)) then S ∪= W(p); 06. end for 07. retufn S Sau thực thi Filter-Entities, thu được tập con gồm các thực thể Di và context tương ứng. Tiến trình RelSim chỉ thực hiện xử lý, tính toán trên tập con này, đồng thời áp dụng ngưỡng α để loại các thực thể Di có giá trị RelSim thấp. Với: Fe(q,D) = Fe({(A, B),(C,?)}, D): 𝐹𝑒(𝑞, 𝐷𝑖) = { 1, 𝑖𝑓⁡𝑅𝑒𝑙𝑆𝑖𝑚((𝐴, 𝐵), (𝐶, 𝐷𝑖)) > α 0, 𝑒𝑙𝑠𝑒 (2.29) Giải thuật Rank-Entities: Giải thuật Rank-Entities có nhiệm vụ tính RelSim: Đầu vào gồm: Tập ứng viên S và: - Cặp thực thể nguồn (A, B), ký hiệu s; Các thực thể ứng viên (C, Di), ký hiệu c; - Các context tương ứng với s, c; Tập cụm thu được: Cset; - Các thực thể A, B, C đã biết  tập cụm tương ứng chứa A, B, C được xác định; - Ngưỡng α (so giá trị RelSim); Ngưỡng α xác định trong kiểm thử chương trình. - Khởi tạo tích vô hướng (β); tập used-context (γ); Đầu ra: Danh sách câu trả lời (danh sách thực thể được xếp hạng) Di; Ký hiệu: - P(s), P(c) được nêu trong công thức (2.19), (2.20); - f(s, pi), f(c, pi), ɸ(s), ɸ(c) nêu trong (2.21), (2.22); - γ: Biến (dạng tập hợp) giữ các context đã xét; - q: Biến trung gian (Context); - Ω: Cụm; Program Rank_Entities 01. for each context pi ∈ P(c) do 02. if (pi ∈ P(s)) then 03. β ← β + f(s, pi)·f(c, pi) 04. γ ← γ ∪ {p} 05. else 06. Ω ← cluster contains pi 07. max_co-occurs = 0; 08. q← NULL; 09. for each context pj ∈ (P(s)\P(c)\γ) do 10. if (pj ∈ Ω) & (f(s, pj) > max_co-occurs) 11. max_co-occurs ← f(s, pj); 12. q ← pj; 13. end if 14. end for 15. if (max_co-occurs > 0) then 16. β ← β + f(s, q)·f(c, pi) 13 17. γ ← γ ∪ {q} 18. end if 19. end if 20. end for 21. RelSim ← β/L2-norm(ɸ(s), ɸ(c)) 22. if (RelSim ≥ α) then return RelSim Diễn giải giải thuật: Trường hợp 2 cặp thực thể nguồn và đích cùng một quan hệ ngữ nghĩa (cùng chia sẻ chung một context, câu lệnh 1-2): pi ∊ P(s) ∩ P(c), tính tích vô hướng tương tự như công thức Cosine tính độ tương đồng. Trường hợp pi ∊ P(c) nhưng pi ∉ P(s), giải thuật tìm context pj (hay biến trung gian q, dòng 12), trong đó pi, pj thuộc cùng một cụm đã biết. Thân vòng lặp (từ lệnh 10-13) chọn ra context pj có số lần đồng hiện (co-occurs) với s lớn nhất. Theo giả thuyết phân phối, 2 context pi, pj đồng hiện trong càng nhiều cặp thực thể, độ tương đồng Cosine giữa 2 vector càng cao. Khi giá trị Cosine càng cao, pi, pj càng tương tự. Nói cách khác, cặp (C, Di) càng chính xác và nhất quán ngữ nghĩa với cặp thực thể nguồn (A, B). Dãy câu lệnh từ 15-18 tính tích vô hướng. Các câu lệnh 21-22 tính giá trị RelSim. Từ tập RelSim thu được, sắp xếp để thực thể Di nào có RelSim cao hơn được xếp thứ tự thấp hơn (theo nghĩa gần top hơn, hay rank cao hơn). Tập kết quả Di là danh sách câu trả lời cho truy vấn mà người dùng muốn tìm. 2.3. Kết quả thực nghiệm – Đánh giá 2.3.1. Dataset Tập dataset được xây dựng từ tập dữ liệu mẫu trong thực nghiệm, dựa vào 4 phân lớp thực thể có tên: PER; ORG; LOC và TIME; 2.3.2. Kiểm thử - Điều chỉnh tham số Để đánh giá hiệu quả của thuật toán phân cụm và thuật toán xếp hạng ứng viên Rank_Entities, Chương 2 thực hiện thay đổi các giá trị θ1 và α, sau đó tính các độ đo Precision, Recall, F-Score tương ứng với mỗi giá trị thay đổi của α, θ1. Hình 2.3 cho thấy tại α = 0.5, θ1 = 0.4, điểm F-Score đạt giá trị cao nhất. Hình 2.3: Giá trị F-Score tương ứng với mỗi giá trị thay đổi của α, θ1. Giải thuật Rank_Entities dòng 22 (if (RelSim ≥ α) return RelSim) cũng cho thấy, khi α nhỏ thì số lượng ứng viên tăng, có thể có nhiễu, đồng thời thời gian xử lý real-time tốn chi phí thời gian, do hệ thống xử lý nhiều truy vấn ứng viên. Ngược lại khi α lớn thì giá trị Recall nhỏ, kéo theo F-Score giảm đáng kể. 2.3.3. Đánh giá với độ đo MRR (Mean Reciprocal Rank) Đối với bộ truy vấn Q, nếu thứ hạng câu trả lời đúng đầu tiên trong truy vấn q ∈ Q là rq, thì độ đo MRR của Q được tính: MRR(Q) = 1 |𝑄| ∑ 1 𝑟𝑞 𝑞∈𝑄 (2.33) Với 4 phân lớp thực thể: PER; ORG; LOC và TIME; phương pháp dựa trên tần suất đồng hiện (f) đạt giá trị trung bình MRR ≈ 0.69; trong khi đó, phương pháp dựa trên PMI đạt 0,86. Điều này cho thấy PMI giúp cải thiện độ chính xác về tương đồng ngữ nghĩa tốt hơn tần suất đồng hiện của context-cặp thực thể. 14 Hình 2.4: So sánh PMI với f: tần suất (số lần đồng hiện) dựa trên MRR. 2.3.4. Hệ thống thực nghiệm Tập dữ liệu mẫu trong thực nghiệm được download từ các nguồn Viwiki (7877 files) và Vn-news (35440 files). Mục đích chọn nguồn Viwiki và Vn-news vì các dataset này chứa các mẫu gồm các thực thể có tên (Named Entity). Tiến trình đọc, lấy nội dung file, tách đoạn, tách câu (main-sentences, sub-sentences), thu được 1572616 câu. Các nhãn tổng quát của NER (Named Entity Recognition) gồm: PER: Tên người; ORG: Tên tổ chức; LOC: Địa danh; TIME: Kiểu thời gian; NUM: Kiểu số; CUR: Kiểu tiền tệ; PCT: Kiểu phần trăm; MISC: Kiểu thực thể khác; O: Không phải thực thể. Giải thuật rút trích patterns lưu vào database, sau khi thực hiện các bước xử lý và các điều kiện giới hạn, Database còn lại 404507 câu context. Từ tập context này, giải thuật gom cụm các quan hệ ngữ nghĩa gom được 124805 cụm. Hình 2.5: Thực nghiệm IRS với nhãn thực thể B-PER. Để đánh giá độ chính xác, thực nghiệm thực hiện 500 queries để kiểm thử, kết quả cho thấy độ chính xác đạt khoảng 92%. Bảng 2.3: Các ví dụ kết quả thực nghiệm với input q = {A, B, C} và output D ID A B C D .. German Angela Merkel Israel Benjamin Netanyahu .. Harry Kane Tottenham Messi Barca 15 .. Hoàng Công Lương Hòa Bình Thiên Sơn RO 2.4. Kết luận chương Khả năng suy ra thông tin/tri thức không xác định bằng suy diễn tương tự là một trong những khả năng tự nhiên của con người. Chương 2 trình bày mô hình tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn (IRS) nhằm mô phỏng khả năng trên. Mô hình IRS tìm kiếm thông tin/tri thức từ một miền không quen thuộc và không cần biết trước từ khóa, bằng cách sử dụng ví dụ tương tự (quan hệ tương đồng) từ một miền quen thuộc. Đóng góp chính của Chương 2: Xây dựng kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn sử dụng phương pháp phân cụm nhằm nâng cao hiệu quả tìm kiếm. Đồng thời, luận án đề xuất độ đo tương đồng kết hợp - theo terms và theo giả thuyết phân phối; Từ độ đo đề xuất, đồng thời áp dụng heuristic vào giải thuật gom cụm để cải thiện chất lượng cụm. CHƯƠNG 3: GỢI Ý TRUY VẤN HƯỚNG NGỮ CẢNH 3.1. Bài toán Trong lĩnh vực gợi ý truy vấn (query suggestion), các tiếp cận truyền thống như session-based, document- click based, .v.v. thực hiện khai phá tập truy vấn trong quá khứ (Query Logs) để kết xuất gợi ý. Cách tiếp cận “Gợi ý truy vấn hướng ngữ cảnh bởi khai phá dữ liệu phiên và các tài liệu chọn đọc” (gọi ngắn gọn: “cách tiếp cận hướng ngữ cảnh” của Huanhuan Cao cùng cộng sự [9], [10]) là một hướng đi mới - hướng này xét các truy vấn đứng ngay trước truy vấn vừa đưa vào (truy vấn hiện hành) như một ngữ cảnh tìm kiếm, nhằm “nắm bắt” ý định tìm kiếm của người dùng, nhằm đưa ra các gợi ý xác đáng hơn. Rõ ràng, lớp truy vấn đứng ngay trước có mối liên hệ ngữ nghĩa với truy vấn hiện hành. Kế tiếp, thực hiện khai phá các truy vấn đứng ngay sau truy vấn hiện hành - như một danh sách gợi ý. Phương pháp này tận dụng được “tri thức” của cộng đồng, vì lớp truy vấn đứng ngay sau truy vấn hiện hành phản ánh những vấn đề mà người dùng thường hỏi sau truy vấn hiện hành. Đóng góp chính của chương 3 gồm: 1) Ứng dụng kỹ thuật hướng ngữ cảnh, xây dựng máy tìm kiếm chuyên sâu áp dụng hướng ngữ cảnh trong miền cơ sở tri thức riêng (dữ liệu hàng không). 2) Đề xuất độ đo tương đồng tổ hợp trong bài toán gợi ý truy vấn theo ngữ cảnh nhằm nâng cao chất lượng gợi ý. Ngoài ra, chương 3 cũng có các đóng góp bổ sung trong thực nghiệm: i) Tích hợp nhận dạng và tổng hợp tiếng nói tiếng Việt như một tùy chọn vào máy tìm kiếm để tạo thành một hệ tìm kiếm có tương tác tiếng nói. ii) Áp dụng cấu trúc dàn khái niệm để phân lớp tập kết quả trả về. 3.2. Phương pháp hướng ngữ cảnh 3.2.1. Định nghĩa – Thuật ngữ  Phiên tìm kiếm: Là chuỗi liên tục các câu truy vấn. Chuỗi truy vấn được biểu diễn với thứ tự thời gian. Mỗi phiên tương ứng với một người dùng.  Cấu trúc phiên tổng quát: {sessionID; queryText; queryTime; URL_clicked}  Ngữ cảnh: đặc tả chuỗi lân cận trước truy vấn hiện hành. Trong phiên tìm kiếm của một người dùng, ngữ cảnh là chuỗi truy vấn đứng ngay trước truy vấn vừa nhập. Lớp queries trước của qcurrent ↔ ngữ cảnh) .. qcurrent .. (Lớp queries sau) 16 3.2.2. Kiến trúc – Mô hình Phương pháp hướng ngữ cảnh dựa trên 2 phases: online và offline, khái quát: Trong 1 phiên tìm kiếm (online phase), tiếp cận gợi ý truy vấn hướng ngữ cảnh đón câu truy vấn hiện hành và xét chuỗi truy vấn đứng ngay trước truy vấn hiện hành như một ngữ cảnh. Chính xác hơn, diễn dịch chuỗi truy vấn đứng trước current query thành chuỗi khái niệm - chuỗi khái niệm này biểu đạt ý định tìm kiếm của người sử dụng. Hình 3.4: Mô hình Gợi ý truy vấn hướng ngữ cảnh. Khi có được ngữ cảnh tìm kiếm, hệ thống thực hiện so khớp với tập ngữ cảnh dựng sẵn (phase offline, tập ngữ cảnh dựng sẵn được xử lý tính toán sẵn trên tập truy vấn trong quá khứ - Query Logs. Về cấu trúc dữ liệu và lưu trữ, tập ngữ cảnh dựng sẵn được lưu trên cấu trúc dữ liệu cây hậu tố). Tiến trình so khớp (maximum matching) kết xuất danh sách ứng viên, danh sách này gồm các vấn đề mà đa số người dùng thường hỏi sau truy vấn vừa nhập. Sau bước ranking, danh sách ứng viên trở thành danh sách gợi ý. 3.2.4. Phase Offline - Giải thuật Gom cụm Ý tưởng của giải thuật gom cụm: Giải thuật quét toàn bộ các queries trong Query Logs một lần, các cụm sẽ được tạo ra trong tiến trình quét. Ban đầu, mỗi cụm được khởi tạo bằng một truy vấn, rồi mở rộng dần bởi các truy vấn tương tự. Quá trình mở rộng dừng khi đường kính cụm vượt ngưỡng Dmax. Do mỗi cụm (cluster) được xem như một khái niệm (concept), nên tập cụm là tập khái niệm. Đầu vào: Tập Query Logs Q, ngưỡng Dmax; Đầu ra: Tập cụm Cset; program Context_Aware_Clustering_alg // Khởi tạo mảng dim_array[d] = Ø, ∀d (d: document được click) // Mảng dim_array chứa số chiều các vectors. 01. for each query qi ∈ Q do 02. θ = Ø; 03. for each nonZeroDimension d of 𝑞𝑖⃗⃗⃗ do 04. θ ∪= dim_array[d]; C = arg minC’∈C-Setdistance(qi, C’); 05. if (diameter(C∪{qi}) ≤ Dmax) 06. C ∪= qi; cập nhật lại đường kính và tâm cụm C; 07. else C = new cluster({qi}); Cset ∪= C; 08. for each nonZeroDimension d of 𝑞𝑖⃗⃗⃗ do 09. if (C ∉ dim_array[d]) dim_array[d] ∪= C; end for 10. return Cset; 3.3.6. Phân tích ưu nhược điểm 17 Ưu điểm: - Với bài toán gợi ý truy vấn - đây là cách tiếp cận mới. Thực hiện gợi ý truy vấn, các tiếp cận kinh điển cũ thường lấy các truy vấn đã có trong Query Logs để đề xuất. Các đề xuất này chỉ tương tự hoặc có liên quan với truy vấn hiện hành, chứ không đưa ra được xu hướng mà tri thức số đông thường hỏi sau câu truy vấn hiện hành. Cũng như vậy, chưa có một tiếp cận nào đặt chuỗi truy vấn ngay trước truy vấn hiện hành vào một ngữ cảnh tìm kiếm - như một thể hiện liền mạch ý đồ tìm kiếm của người sử dụng. Kỹ thuật hướng ngữ cảnh, trên hết là ý tưởng gợi ý bằng những vấn đề mà người dùng thường hỏi sau truy vấn hiện hành, là một điểm độc đáo, hiệu quả, là “nét thông minh” trong lĩnh vực gợi ý truy vấn. Nhược điểm: - Khi người dùng đưa vào truy vấn đầu tiên hay một vài truy vấn là mới (mới so với các truy vấn trong quá khứ) hoặc thậm chí không mới - theo nghĩa không có mặt trong chuỗi khái niệm thường xuyên (chẳng hạn, trong tập dữ liệu mẫu, với 2 chuỗi khái niệm c2c3 và c1c2c3, giải thuật xác định chuỗi thường xuyên thu được là c2c3, trong trường hợp này - người sử dụng đưa vào c1). Tiếp cận hướng ngữ cảnh không đưa ra được gợi ý dù c1 đã có trong quá khứ (đã tồn tại trong QLogs). - Mỗi cụm (khái niệm) gồm một nhóm các truy vấn tương đồng. Độ đo tương đồng chỉ dựa trên URL click mà không dựa trên tương đồng về term, điều này có thể ảnh hưởng không nhỏ đến chất lượng của kỹ thuật gom cụm. - Ràng buộc mỗi truy vấn chỉ thuộc một cụm (khái niệm): quan điểm này không hợp lý và không tự nhiên đối với câu truy vấn đa nghĩa như “tiger” hoặc “gladitor”, hay rất nhiều từ đa nghĩa khác trong tiếng Việt, .v.v. - Chỉ xét đến gợi ý truy vấn (query suggestion) mà không xét đến gợi ý tài liệu (gợi ý URL - URL recommendation). Đồng thời, định hướng “click-through” nhưng không sử dụng các thông tin clicked Urls trong ngữ cảnh tìm kiếm (khi tìm kiếm trên cây hậu tố, Concept sequence đầu vào chỉ gồm các queries). - Trên đồ thị 2 phía, phía tập đỉnh Q các vector khá thưa (số chiều thấp), phía tập đỉnh URLs click cũng gặp phải vấn đề dữ liệu thưa (URL click thưa), khi các vectors thưa, chất lượng gom cụm sẽ bị ảnh hưởng. - Trong thuật giải gom cụm, khi Query Logs lớn, hoặc số chiều của mỗi vector lớn, mảng dim_array[d] sẽ có kích thước rất lớn, đòi hỏi cấp phát một lượng bộ nhớ lớn khi thực thi. Thực tế, trong một phiên tìm kiếm bất kỳ, người sử dụng nhập vào một hoặc khá nhiều truy vấn, cũng như vậy, người sử dụng có thể không hoặc click rất nhiều URL kết quả, trong đó mặc nhiên có những URL click không như ý, được xem như nhiễu (noise). Phương pháp hướng ngữ cảnh cần có chuỗi truy vấn liên tiếp mới hình thành ngữ cảnh không phản ảnh thực tế, khi người dùng chỉ nhập vào 1 truy vấn. Tuy nhiên, việc phụ thuộc vào URL click và khôn

Các file đính kèm theo tài liệu này:

tom_tat_luan_an_mot_so_ky_thuat_tim_kiem_thuc_the_dua_tren_q.pdf