Luận án Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

MỤC LỤC

MỤC LỤC . i

DANH MỤC CÁC BẢNG . iii

DANH MỤC CÁC HÌNH . v

DANH MỤC CÁC GIẢI THUẬT . vii

DANH MỤC CÁC TỪVIẾT TẮT . viii

Chương 1 GIỚI THIỆU . 1

1.1 Động cơnghiên cứu . 1

1.2 Mục tiêu và phạm vi nghiên cứu . 5

1.3 Đóng góp chính của luận án . 8

1.4 Cấu trúc của luận án . 10

1.5 Các quy ước . 13

1.6 Tóm tắt nội dung luận án . 13

Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN . 14

2.1 Giới thiệu . 14

2.2 Các nghiên cứu liên quan trong nước . 15

2.3 Các nghiên cứu vềontology . 19

2.4 Các nghiên cứu vềmởrộng truy vấn . 23

2.5 Khai thác dữliệu từWordNet . 39

2.6 Tóm lược . 44

Chương 3 XÂY DỰNG NỀN TẢNG HỆTHỐNG . 46

3.1 Giới thiệu . 46

3.2 Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mởrộng truy vấn . 46

3.3 Các mô hình cho bài toán mởrộng truy vấn . 60

3.4 Mẫu nhận dạng cụm danh từ. 65

3.5 Phương pháp thực nghiệm và ñánh giá . 70

3.6 Nguồn dữliệu thực nghiệm . 74

3.7 Tóm lược . 88

Chương 4 XÂY DỰNG ONTOLOGY OOMP. 90

4.1 Giới thiệu . 90

4.2 Xây dựng ontology OOMP. 90

4.3 Phương pháp huấn luyện dựa trên kho ngữliệu . 95

4.4 Phương pháp huấn luyện dựa trên WordNet . 100

4.5 Cơchếtựhuấn luyện của ontology OOMP. 107

4.6 Các ứng dụng của ontology và quan hệ. 109

4.7 Tóm lược . 110

Chương 5 HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN. 112

5.1 Giới thiệu . 112

5.2 Hoàn chỉnh và rút gọn truy vấn . 113

5.3 Kiểm tra cụm danh từhoàn chỉnh . 114

5.4 Tạo cụm danh từhoàn chỉnh . 121

5.5 Tạo cụm danh từrút gọn . 122

5.6 Hoàn chỉnh cụm danh từ. 123

5.7 Giải thuật rút gọn thành phần cụm danh từ. 135

5.8 Tóm lược . 140

Chương 6 MỞRỘNG TRUY VẤN . 142

6.1 Mởrộng truy vấn cho ñộng cơtìm kiếm trên Web . 142

6.2 Mởrộng truy vấn cho hệthống truy xuất thông tin có sẵn . 153

6.3 Tóm lược . 165

Chương 7 KẾT LUẬN . 167

7.1 Các kết quả ñạt ñược . 167

7.2 Hướng phát triển . 171

7.3 Lời kết . 172

CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ. 174

TÀI LIỆU THAM KHẢO . 177

Phụlục A. Tóm lược vềWordNet . a

Phụlục B. Cấu trúc cụm danh từtiếng Anh . c

Phụlục C. Danh mục từloại tiếng Anh . g

Phụlục D. Danh mục luật sinh dạng cụm danh từcủa văn phạm tiếng Anh xây

dựng dựa trên TreeBank . i

Phụlục E. Tính chất ảnh-tạo ảnh trong toán học . o

Phụlục F. Cấu trúc ñịnh dạng tài liệu TREC . p

Phụlục G. Tổchức cơsởdữliệu của thực nghiệm trong luận án .

223 trang | Chia sẻ: maiphuongdc | Lượt xem: 1692 | Lượt tải: 5

Bạn đang xem trước 20 trang tài liệu Luận án Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

nh phần này còn xác ñịnh vị trí của từ ñó trong danh mục từ của cơ sở dữ liệu. Dữ liệu phục vụ việc huấn luyện ontology OOMP Tập TRAINING_DATA có số lượng 247.988 cụm danh từ thuộc chín dạng mẫu (ñã trình bày trong bảng 3.11) ñược trình bày trong hình 3.17 sau. 18810 46751 47710 95738 20632 6453 8463 2857 574 0 20000 40000 60000 80000 100000 120000 M3 M178 M184 M186 M192 M195 M196 M204 M209 Số lư ợn g Dạng mẫu Hình 3.17. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu 87 Dữ liệu dùng ñể thử nghiệm cho các giải thuật Tập dữ liệu TEST_DATA gồm 12.282 cụm danh từ ñược chọn lọc ñể kiểm tra thử nghiệm trong các giải thuật trong chương 5 và 6 của luận án. Trong ñó, các cụm danh từ này ñược chia theo các nhóm mẫu (như hình 3.18) phân bổ cho các trường hợp liên quan ñến cụm từ chưa hoàn chỉnh. 305 2592 276 712 186 189 154 1463 143 584 1048 431 314 201 159 542 592 1027 331 192 211 165 155 162 148 0 500 1000 1500 2000 2500 3000 M3 M60 M71 M81 M85 M87 M89 M99 M102 M103 M116 M125 M142 M149 M150 M178 M184 M186 M192 M195 M196 M203 M204 M205 M209 Số lượng D ạn g m ẫu Hình 3.18. Phân bổ cụm danh từ trong tập TEST_DATA theo các nhóm mẫu Dữ liệu ñược dùng ñể phân tích ñánh giá kết quả của các giải thuật Từ tập dữ liệu thử nghiệm TEST_DATA nêu trên, tác giả sử dụng hệ thống ISE thực hiện việc tìm kiếm chính xác cho mỗi cụm danh từ trong tập TEST_DATA 88 trong những nguồn dữ liệu ở bảng 3.6. Kết quả của mỗi lần tìm kiếm này ñược lưu vào một bộ dữ liệu kết quả chứa các thành phần gồm <Nguồn dữ liệu, Tài liệu tìm thấy, Cụm danh từ tìm kiếm, Điểm số từ Lucene> trong bảng Search_Data_Result của cơ sở dữ liệu thực nghiệm. Quá trình tìm kiếm này thu ñược 438.482 bộ dữ liệu kết quả, ñây chính là các số liệu cơ bản ñóng vai trò quan trọng trong việc phục vụ việc phân tích ñánh giá so sánh kết quả của những giải thuật trong chương 5 và 6 của luận án. 3.7 Tóm lược Chương 3 là chương mà tác giả ñã tập trung trình bày cơ sở lý thuyết ñể làm nền tảng cho các bước nghiên cứu tiếp theo của luận án . Mô hình 1 và 3 ( OBIRMQE +− , OB IRMQE + + ) ñược tác giả ñề xuất, ñã áp dụng các phương pháp tiên tiến ñể mở rộng truy vấn. Các phương pháp này ñã ñược công bố trên thế giới. Mô hình 1 và 3 xác ñịnh trúc và các thành phần của hệ thống mở rộng truy vấn. Mô hình 2 và 4 ( POBIRMQE ++− , POBIRMQE +++ ) ñược tác giả phát triển từ mô hình 1 và 3 bằng sự kết hợp phương pháp mở rộng truy vấn dựa trên ontology và phương pháp xác suất thống kê. Mô hình POBIRMQE ++− sẽ ñược trình bày chi tiết trong chương 6 cho giải pháp hoàn chỉnh và mở rộng truy vấn. Cònmô hình POBIRMQE +++ sẽ ñược trình bày trong bài toán Hybrid Search ở phần cuối của chương 6. Các quan hệ ngữ nghĩa ñược ñề xuất trong chương 3 ñã cung cấp cơ sở lý thuyết cho việc phát triển ontology OOMP (Ontology of Object-Member-Property) (ñược trình bày trong chương 4). OOMP ñóng vai trò vô cùng quan trọng cho phương pháp tiếp cận chủ ñạo của hướng nghiên cứu của luận án. Trong phương pháp này, tác giả ñã xây dựng các giải thuật sau: − Kiểm tra tính hoàn chỉnh của cụm danh từ (Complete Noun Phrase Verification, CNPV). − Hoàn chỉnh thành phần cụm danh từ (Noun Phrase Completion, NPC). − Rút gọn thành phần cụm danh từ (Noun Phrase Member Reduction, NPRM). 89 − Mở rộng cụm danh từ tương ñương (Similar Noun Phrase Expansion, SNPE). Các giải thuật trên sẽ ñược trình bày trong các chương 5 và 6. Việc ñề xuất mẫu xác ñịnh cụm danh từ trong phần cuối chương 3 ñã góp phần hỗ trợ việc huấn luyện dữ liệu cho ontology OOMP (ñược trình bày ở chương 4) và phân tích truy vấn ban ñầu của người dùng, ñể tạo dữ liệu ñầu vào cho các giải thuật nêu trên. Cuối chương này, các phương pháp ñánh giá kết quả thực nghiệm, môi trường và công cụ hỗ trợ thực nghiệm, dữ liệu sử dụng trong thực nghiệm hiện ñại, cũng như nguồn dữ liệu sử dụng trong thực nghiệm của các giải thuật của luận án ñã ñược trình bày chi tiết. Qua các phương pháp ñánh giá ñã cho thấy ưu, nhược ñiểm của các giải thuật mà tác giả ñã ñề xuất trong quá trình nghiên cứu của luận án. Việc khai thác nguồn dữ liệu từ TREC ñể xây dựng tập các chỉ mục cho hệ thống ISE cũng như phương pháp rút trích các cụm danh từ ñể xây dựng tập dữ liệu TEST_DATA và TRAINING_DATA ñã ñược trình bày khá ñầy ñủ trong chương này. 90 Chương 4 XÂY DỰNG ONTOLOGY OOMP 4.1 Giới thiệu Với những ưu ñiểm và lợi ích khi ứng dụng ontology vào việc mở rộng truy vấn và truy xuất thông tin (trình bày trong phần 2.2, chương 2), việc phát triển một ontology nhằm phục vụ bài toán mở rộng truy vấn của luận án ñóng vai trò quan trọng. Hơn nữa, do các bài toán xử lý trong luận án liên quan ñến khái niệm cụm danh từ hoàn chỉnh với những quan hệ ngữ nghĩa như ROMP, Rm và Rp, nhưng WordNet chưa ñáp ứng ñầy ñủ các yêu cầu cần thiết, ñồng thời giải pháp mở rộng WordNet ñể bổ sung các dạng quan hệ nêu trên ñòi hỏi nhiều thời gian, công sức ... không hoàn toàn khả thi cho luận án. Vì vậy, việc xây dựng riêng biệt ontology OOMP phục vụ cho nghiên cứu của luận án là vấn ñề cần thiết nhằm kiến tạo nhóm các mạng ngữ nghĩa tương ứng cho các quan hệ ngữ nghĩa này. Dựa trên cơ sở lý thuyết ñề xuất ở chương 3, trong chương 4 các vấn ñề lần lượt ñược trình bày liên quan ñến việc giải quyết Bài toán 1 của luận án về phát triển ontology OOMP (Ontology of Object–Member–Property) như xác ñịnh cấu trúc tổ chức, phương pháp huấn luyện, thực nghiệm.. Một phần nội dung của chương này ñã công bố trong công trình [v] và [ix]. 4.2 Xây dựng ontology OOMP Việc xây dựng ontology OOMP ñược tiến hành từ góc ñộ thiết kế kiến trúc hệ thống, tổ chức dạng mạng ngữ nghĩa và huấn luyện ñể tạo nguồn dữ liệu cho ontology. 91 4.2.1 Kin trúc ontology OOMP So với các ontology khác, ñặc trưng nổi bật nhất của ontology OOMP chính là tổ chức phân cấp các khái niệm ngữ nghĩa dựa theo quan hệ OMPR (xem phần 3.2.5). Theo dạng quan hệ này thì một phần tử trong thực thể Object (tập O) có thể liên kết với nhiều phần tử trong thực thể Member (tập M) và ngược lại. Tương tự, cũng tồn tại mối liên kết nhiều-nhiều tương ứng giữa phần tử trong thực thể Member (tập M) và phần tử trong thực thể Property (tập P). Tùy theo chiến lược phát triển mà ontology OOMP sẽ ñược triển khai trong thực tế ở dạng cơ sở dữ liệu quan hệ hay dạng luận lý mô tả tài nguyên. Ở góc ñộ thiết kế cơ sở dữ liệu quan hệ, cấu trúc của ontology OOMP ñược trình bày chi tiết trong hình 4.1. Hình 4.1. Cấu trúc mức luận lý của ontology OOMP Cấu trúc này ñược thể hiện chi tiết trong hình 4. 2 với các thành phần dữ liệu tương ứng cho từng thực thể, thông qua ñó chúng ta có thể hiện thực bằng một mô hình cơ sở dữ liệu trong thực tế. Hình 4.2. Cấu trúc ontology OOMP về tổ chức cơ sở dữ liệu quan hệ Với tổ chức dữ liệu này, mỗi phần tử của một thực thể ñều ñược thể hiện thông qua một số thuộc tính dữ liệu trong cấu trúc như sau: − Mã số của phần tử, ñóng vai trò khóa chính (primary key), dùng ñể phân biệt với các phần tử khác. Mã số ñó ñược lưu trong thuộc tính có tên ID (như oID, mID, pID) trong thực thể tương ứng. Object Property Member Rm Rp Object oID oValue oType Rm oID mID Dep Member mID mValue mType mPriority mProbability Rp mID pID Dep Property pID pValue pType pPriority pProbability 92 − Thuộc tính Value thể hiện nội dung của phần tử. − Thuộc tính Type thể hiện thông tin về kiểu tương ứng của phần tử. − Thuộc tính Probability lưu trữ xác suất ℘(mj) (hay ℘(pk)) liên kết giữa phần tử thuộc Object với phần tử thuộc Member (hay tương tự giữa Member và Property). − Thuộc tính Priority thể hiện mức ñộ ưu tiên (trội) của phần tử ñó so với các phần tử khác cùng ñiều kiện, ñược xác ñịnh dựa theo quan hệ mR f hay pR f . − Thuộc tính Dep thể hiện mức ñộ phụ thuộc giữa phần tử thuộc Member với phần tử thuộc Object (hay tương tự giữa Property và Member). Với ñặc tả luận lý, ontology OOMP còn ñược thể hiện dưới dạng cấu trúc trong ñó là tổ hợp các thành phần ñược thể hiện ở hình 4.3. tên ñối tượng kiểu [ tên thành phần ñộ ưu tiên trị xác suất kiểu [ tên thuộc tính ñộ ưu tiên trị xác suất kiểu …] ...] Hình 4.3. Đặc tả luận lý cho cấu trúc ontology OOMP Cấu trúc này có thể ñược hiện thực theo nhiều dạng thức khác nhau, từ XML [164] ñến OWL [155] hay RDF [159]. Tuy nhiên, trong thực tế, việc hiện thực các dạng thể hiện nêu trên ñều có những ưu nhược ñiểm. Khi triển khai chúng trong một 93 hệ quản trị cơ sở dữ liệu quan hệ bất kỳ (như Microsoft SQL Server [153] hay Oracle [154]), sức mạnh về tốc ñộ xử lý, khả năng lưu trữ dung lượng dữ liệu lớn, các dịch vụ hỗ trợ, ngôn ngữ truy vấn T-SQL (SQL-92) là những ưu ñiểm mang lại lợi thế rất lớn cho hoạt ñộng của ontology OOMP và các chương trình liên quan. Tuy nhiên, do bản chất của cơ sở dữ liệu quan hệ, nên những hệ thống ñó thường hướng ñến vấn ñề phân rã dữ liệu khi lưu trữ hơn là biểu diễn dữ liệu tổ hợp, nên ñó cũng là ñiểm hạn chế khi ontology OOMP có dữ liệu tổ hợp phức tạp. Nếu sử dụng các công cụ chuyên biệt về ontology, ví dụ như Protégé [158], ñể hiện thực ontology OOMP thì chúng sẽ giúp khắc phục ñược những hạn chế vừa nêu của hệ quản trị cơ sở dữ liệu. Tuy nhiên, một vấn ñề cần cân nhắc chính là sức mạnh và tốc ñộ xử lý của những công cụ này. Do vậy, trong thực nghiệm của luận án, tác giả ñề xuất triển khai ontology OOMP thông qua dạng cơ sở dữ liệu quan hệ trong hệ thống MS SQL Server 2005u . 4.2.2 Phơng pháp tip cn trong hun luyn ontology Khi ứng dụng ontology OOMP cùng các quan hệ ñịnh nghĩa ở phần 3.2 vào lĩnh vực Xử lý ngôn ngữ tự nhiên và Truy xuất thông tin, việc huấn luyện nhằm giúp ontology có ñầy ñủ lượng thông tin có chất lượng cao là vấn ñề quan trọng mà luận án luôn quan tâm. Phương pháp huấn luyện ontology gồm các bước: − Bước 1: Xác ñịnh các cụm danh từ dự tuyển (ñược chọn lọc từ các cụm danh từ của những tài liệu trong kho ngữ liệu TREC) trước khi tiến hành huấn luyện. Khó khăn ảnh hưởng ñến việc hiện thực bước này chính là tính chất phức tạp hay ñơn giản, hệ thống quy tắc và bất quy tắc và tính ña dạng của mỗi ngôn ngữ. Điều này ảnh hưởng ñến cách xác ñịnh các cụm danh từ và những từ thành phần mà qua ñó sẽ quyết ñịnh cụm dự tuyển cần chọn lựa. Tuy nhiên, việc sử dụng mẫu ñể hỗ trợ việc nhận dạng cụm từ là phương án khả thi giúp tác vụ này có thể ñạt ñược yêu cầu như mong muốn. Các mẫu u Tham khảo Phụ lục G về tổ chức cơ sở dữ liệu thực nghiệm của luận án. 94 (trong Bảng 3.5) là kết quả có ñược từ quá trình xây dựng tập luật sinh của văn phạm thuộc ngôn ngữ tương ứng. − Bước 2: Chọn lọc các thành phần ñặc trưng hay tính chất ñặc trưng trong mỗi cụm danh từ thu ñược ở bước 1, từ ñó xác ñịnh ñược các quan hệ trội tương ứng. Bước này có thể áp dụng chung cho các ngôn ngữ, ñược xử lý bởi việc sử dụng kết hợp kho ngữ liệu ñể hỗ trợ việc xác ñịnh các tần xuất xuất hiện của thành phần ñặc trưng hay tính chất ñặc trưng. 4.2.3 Hun luyn ontology OOMP Việc huấn luyện ontoloy OOMP ñược giải quyết bằng hai cách sau: − Cách thứ nhất: hướng ñến việc khai thác các thông tin trong kho ngữ liệu cho trước thông qua việc sử dụng các mẫu (trong mục 3.4 chương 3) ñể tìm các thành phần dự tuyển nhằm xác ñịnh các giá trị phù hợp cho việc lưu trữ. Cách tiếp cận này có ưu, nhược ñiểm sau: o Ưu ñiểm: chúng ta có thể áp dụng cách này cho một ngôn ngữ tự nhiên tùy chọn nếu xây dựng ñược danh sách mẫu cần thiết. o Nhược ñiểm: việc thực hiện phân tích và rút trích dữ liệu trong kho ngữ liệu có thể dẫn ñến các chi phí về thời gian thực thi cùng ñộ phức tạp cao trong trường hợp kho ngữ liệu có kích thước lớn, cũng như mức ñộ chính xác của dữ liệu ñược chọn trong quá trình xử lý. − Cách thứ hai: hướng ñến việc khai thác các thông tin ngữ nghĩa ñã có sẵn trong WordNet. Cách này có ưu, nhược ñiểm như sau: o Ưu ñiểm: ñộ chính xác cao của dữ liệu chọn lọc ñược và chi phí thực hiện thấp do tính ổn ñịnh của WordNet, các quan hệ ngữ nghĩa ñược khai thác có thể phục vụ hữu ích cho quá trình xử lý hoàn chỉnh và mở rộng truy vấn. o Nhược ñiểm: hiện tại WordNet chỉ mới ñược triển khai phát triển cho tiếng Anh và một số ngôn ngữ tự nhiên thông dụng, nên việc áp dụng giải pháp này cho các ngôn ngữ tự nhiên khác (như tiếng Việt) sẽ gặp rất nhiều khó khăn nếu chưa có một hệ thống tương tự. 95 − Cách thứ ba: sử dụng kết quả từ hai cách trên ñể tự huấn luyện nhằm tạo thêm các quan hệ giữa các nhóm dữ liệu trong ontology. Các phương pháp huấn luyện này ñược minh họa trong hình 4.4 sau. Hình 4.4. Các phương pháp huấn luyện ontology OOMP 4.3 Phương pháp huấn luyện dựa trên kho ngữ liệu 4.3.1 Phơng pháp thc hin Dựa trên các mẫu ñã xác ñịnh trong Bảng 3.5 (mục 3.4 chương 3), phương pháp huấn luyện này sẽ sử dụng các tiện ích của công cụ GATE [147] ñể thực hiện việc phân tích tài liệu trong kho ngữ liệu nhằm tìm ñược các thành phần dự tuyển cùng với các thông tin liên quan như từ loại, trị từ vựng … ñể từ ñó tính toán các giá trị xác suất và lựa chọn các quan hệ ngữ nghĩa phù hợp. Các bước trong quy trình huấn luyện này ñược minh họa trong hình 4.5. Hình 4.5. Phương pháp huấn luyện dựa trên kho ngữ liệu Giả sử di là tài liệu thứ i trong kho ngữ liệu, D = {di} là kho ngữ liệu, pi là cụm danh từ, C là danh sách cụm từ dự tuyển, KBc = {Oc, Mc, Pc} là ontology (cơ sở tri thức) dự tuyển, ontology (cơ sở tri thức) OOMP={O, M, P} là. Phương pháp này ñược trình bày trong nội dung giải thuật CB-KBT. 96 Giải thuật 4.1. Huấn luyện ontology dựa trên kho ngữ liệu (Corpus-Based Knowledge Base Training, CB-KBT) Nhập: ontology OOMP, kho ngữ liệu D. Xuất: ontology OOMP ñã ñược huấn luyện và các thông tin liên quan. Phương pháp: 01. If (D=∅) ∨ (∀di ∈ D, di ñã ñược xử lý): Dừng chương trình; 02. For each di∈D: 03. Phân tách di thành tập câu {sj} (j=1..ni); 04. Rút trích tập cụm {pk} dựa theo mẫu trong bảng 3.11; 05. Xác ñịnh các từ loại tương ứng cho mỗi phần tử trong cụm; 06. Lưu vào C; 07. End for; 08. If (C=∅ ) ∨ (∀ pi∈ C: pi ñã ñược xử lý): Dừng chương trình; 09. For each pi∈ C: 10. Xác ñịnh phần tử dự tuyển của pi (bảng 3.5, cột 4a-b-c); 11. If (∃ mc) ∧ (∃ oc) trong cột 4b-4a: 12. If ∃ (Dep(mc, oc) > θ1) ∨ (Member(mc, oc) > 0): KBc(M, O)(mc, oc); 13. Else if (∃ pc ) ∧ (∃ mc) trong cột 4c-4b: 14. If ∃ (Dep(pc, mc) > θ2) ∨ (Pro(pc, mc) > 0) : KBc(P, M) (pc, mc); 15. End if; 16. End for; 17. For each oi∈ Oc: mj’ ),(),( )max(arg ijij omSimomDep jm ∧ (∀mj∈ Mc); OOMP(M, O) (mj’, oi); 18. For each mi∈ Mc: pj’ ),(),( )max(arg jkjk mpSimmpDep kp ∧ (∀pj∈Pc); OOMP (P, M) (pk’, mj’); 19. Return OOMP={O , M, P}; /* chứa dữ liệu và quan hệ trội ñã ñược cập nhật */ 20. Khi có một tài liệu mới di’ ñược thêm vào D, thực hiện lại bước 02 ñến bước 18 cho di’, nếu khi ñó tìm ñược tần xuất thỏa ñiều kiện quan hệ trội nhất, thì các quan hệ trội nhất trước ñó sẽ trở thành quan hệ trội ít hơn; 97 Trong giải thuật này θ1 và θ2 là giá trị ngưỡng phục vụ việc xác lập ñộ phụ thuộc cho mỗi dạng quan hệ. Giải thuật CB-KBT có ñộ phức tạp O(n2) tại bước 02, 17, 18 và O(n) hay O(1) cho các bước còn lại, trong ñó n thể hiện kích thước dữ liệu của tập C, là tập các cụm từ rút trích ñược. Do ñó O(n2) là ñộ phức tạp của giải thuật này. 4.3.2 Vn ñ x lý nhp nh!ng trong gii thut CB-KBT Những trường hợp nhập nhằng trong giải thuật này bao gồm: * Trường hợp 1: Khả năng một từ có thể có nhiều nhãn từ loại, dẫn ñến khó khăn trong chọn lựa nhãn từ loại thích hợp. Trường hợp này xảy ra tại bước 04 của giải thuật. Phương án giải quyết cho trường hợp này là xác ñịnh nhãn từ loại thích hợp nhất trong ngữ cảnh kết hợp nhiều thành phần trong cụm danh từ ban ñầu. * Trường hợp 2: Khả năng chọn ñược nhiều dạng phần tử oi, mj, pk khác nhau phụ thuộc theo mẫu nhận dạng cụm danh từ trong trường hợp nhiều mẫu nhận dạng cùng thỏa mãn và bao phủ nhau. Trường hợp này xảy ra tại bước 10 của giải thuật. Phương án giải quyết cho trường hợp này là chọn mẫu có số ñộ dài lớn nhất ñể có thể khai thác ñược lượng thông tin nhiều nhất. Ngoài hai trường hợp nêu trên, vấn ñề từ ña nghĩa là một trường hợp cần ñược quan tâm, tuy nhiên ñây không phải là vấn ñề xử lý trong phương pháp huấn luyện này cũng như trong phạm vi luận án, vì luận án chỉ tập trung xử lý truy vấn ngắn (ba thành phần) nên không ñủ thông tin ngữ cảnh ñể xử lý các trường hợp ña nghĩa phức tạp. Vấn ñề ña nghĩa của cụm từ và câu phụ thuộc vào ngữ cảnh, là vấn ñề nằm ngoài lĩnh vực nghiên cứu của luận án. Tuy nhiên, trong phạm vi luận án, dựa trên ñịnh nghĩa 3.6 và 3.8 (mục 3.2.1 trong chương 3) về các quan hệ trội mR f và pR f , ñộ phụ thuộc và ñộ ưu tiên giữa các phần tử của những quan hệ ñó ñược xác ñịnh trong quá trình huấn luyện và ñược lưu lại trong ontology OOMP (như trình bày trong phần 4.2.1), có thể giúp xác ñịnh ñược các ứng viên phù hợp nhất trong 98 quá trình chọn kết quả phù hợp cho truy vấn mở rộng, từ ñó góp phần giải quyết vấn ñề nhập nhằng về nghĩa. Như vậy, việc hiện thực các chương trình con hỗ trợ giải quyết những nhập nhằng nêu trên sẽ giúp giải thuật này chọn ñược các phần tử dự tuyển hợp lý nhất. 4.3.3 Thc nghim gii thut CB-KBT Việc huấn luyện ontology OOMP trong trường hợp này ñược thực hiện dựa trên nguồn dữ liệu trong bảng 3.6 với số lượng 247.988 cụm danh từ ñược lưu trong tập TRAINING_DATA theo chín dạng mẫu nhận dạng cụm danh từ (như tóm tắt trình bày trong bảng 3.11 và hình 3.17). Các cụm danh từ này ñược chia theo các nhóm mẫu ở bảng 4.1 sau. Bảng 4.1. Thống kê số lượng cụm danh từ theo dạng mẫu Dạng mẫu Số lượng Tỉ lệ (%) M3 18.810 7,59 M178 46.751 18,85 M184 47.710 19,24 M186 95.738 38,61 M192 20.632 8,32 M195 6.453 2,60 M196 8.463 3,41 M204 2.857 1,15 M209 574 0,23 Trong ñó, vì các mẫu M184, M186, M192, M195, M196, M204 và M209 cho phép xác ñịnh ñầy ñủ các phần tử o, m, p tương ứng trong một cụm danh từ, nên chúng ñược chọn ñể phục vụ việc huấn luyện của giải thuật CB-KBT. Tương tự, trường hợp mẫu M3 và M178 cũng ñược chọn ñể hỗ trợ nhận dạng các phần tử m và p trong cụm danh từ. Từ những dữ liệu có số lượng theo phân loại vừa nêu trên, việc thực thi giải thuật CB-KBT mang lại số lượng lớn các kết quả dự tuyển, ñể từ ñó chúng ñược 99 chọn lọc lại nhằm rút ra những kết quả chính xác hơn. Những kết quả dự tuyển loại Object, Member, Property, liên kết Rm (giữa Object và Member), liên kết Rp (giữa Member và Property) này ñược lưu trữ lần lượt vào các bảng Onto_trainO, Onto_trainM, Onto_trainP, Onto_trainOM, Onto_trainMP. Bảng 4.2 tóm lược các kết quả dự tuyển và kết quả chính xác chọn ñược theo từng loại liên quan, và bảng 4.3 trình bày một số dữ liệu thống kê khác ñược xác ñịnh từ thực nghiệm này. Bảng 4.2. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT STT Tập dữ liệu Số lượng 1 Onto_trainO 11.396 2 Onto_trainM 9.210 3 Onto_trainP 16.515 4 Onto_trainOM 85.687 5 Onto_trainMP 104.001 Tiếp theo, các dữ liệu dự tuyển này ñược chọn lọc ñể cập nhật vào ontology OOMP. Các dữ liệu chọn lọc này ñược thống kê trong bảng 4.3. Bảng 4.3. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT STT Loại Số lượng dự tuyển Số lượng chọn lọc Tỉ lệ (%) 1 Object 11.396 11.378 99,84 2 Member 9.210 9.173 99,60 3 Property 16.515 16.188 98,02 4 Quan hệ Rm (OM) 85.687 85.428 99,70 5 Quan hệ Rp (MP) 104.001 70.110 67,41 Ở ñây, các tiêu chí chọn lọc dữ liệu bao gồm: − Với phần tử loại Object, Member, Property: o Điều kiện chọn lọc là tần xuất xuất hiện dương. o Tần xuất xuất hiện của mỗi phần tử ñó bằng tổng số tần xuất của tất cả quả tìm kiếm tương ứng trong các nguồn dữ liệu ở bảng 3.6. 100 − Với phần tử loại OM, MP: o Điều kiện chọn lọc là ñộ phụ thuộc dương. o Tương tự, ñộ phụ thuộc mỗi phần tử loại này (tương ứng một cặp phần tử trong Onto_trainOM hay Onto_trainMP) ñược tính theo công thức (3.2) trong ñịnh nghĩa 3.2 (chương 3), thông qua các giá trị tần xuất thành phần liên quan. Ngoài ra, các số liệu thống kê khác liên quan ñến quá trình huấn luyện của phương pháp CB-KBT ñược trình bày trong bảng 4.4. Bảng 4.4. Các thống kê cho dữ liệu huấn luyện STT Loại dữ liệu thống kê Số lượng 1 Số lượng trung bình các liên kết từ một phần tử loại Object ñến những phần tử loại Member. 0,708957986 2 Số lượng trung bình các liên kết từ một phần tử loại Member ñến những phần tử loại Object. 1,41052082 3 Số lượng trung bình các liên kết từ một phần tử loại Member ñến những phần tử loại Property. 1,027996682 4 Số lượng trung bình các liên kết từ một phần tử loại Property ñến những phần tử loại Member. 0,972765786 5 Độ phụ thuộc giữa phần tử trong Member ñối với phần tử trong Object. 0,0002111932 (min) 1,00 (max) 6 Độ phụ thuộc giữa phần tử trong Property ñối với phần tử trong Member. 0,0002111932 (min) 1,00 (max) 4.4 Phương pháp huấn luyện dựa trên WordNet 4.4.1 Phơng pháp thc hin Việc rút trích dữ liệu với các quan hệ ngữ nghĩa sẵn có trong WordNet góp phần giải quyết bài toán huấn luyện và phát triển ontology OOMP. Từ những dạng quan hệ trong WordNet như holonymy, meronymy, attribute, similar, việc rút trích các dữ liệu và quan hệ ngữ nghĩa này ñược tiến hành theo heuristic thể hiện lần lượt 101 trong các hình 4.6 – 4.11. Theo ñó, các quan hệ mới liên quan ñến những phần tử thuộc O, M, P trong ontology OOMP sẽ ñược tạo thành từ mỗi quan hệ này trong WordNet cùng những thành phần liên quan. Hình 4.6. Quan hệ Rm ñược xây dựng từ quan hệ holonymy trong WordNet Hình 4.7. Quan hệ Rm ñược xây dựng từ quan hệ meronymy trong WordNet Hình 4.8. Quan hệ Rp ñược xây dựng từ quan hệ attribute trong WordNet o1 (wi) m1 m2 m3 o1 m1 o1 m2 o1 m3 o2 (sk.word) o2 m1 o2 m2 o2 m3 m1 p1 m2 p1 m3 p2 p1 p2 wi sj sksense similar Hình 4.9. Quan hệ Rm ñược xây dựng từ quan hệ similar trong WordNet 102 o1 m1 (wi) m2 (sk.word) o1 m1 o2 m1 o3 m1 m1 p1 m1 p2 p1 p2 o2 o3 o1 m2 o2 m2 o3 m2 m2 p1 m2 p2 wi sj sksense similar Hình 4.10. Quan hệ Rm và Rp ñược xây dựng từ quan hệ similar trong WordNet o1 m1 o1 m1 o2 m2 m1 p1 m2 p1 p1 (wi) p2 (sk.word) o2 m3 p1 m2 m3 o2 m3 m1 p2 m2 p2 m3 p2 wi sj sksense similar Hình 4.11. Quan hệ Rp ñược xây dựng từ quan hệ similar trong WordNet 103 Từ heuristic này, giải thuật huấn luyện ontology OOMP trên cơ sở khai thác WordNet ñược trình bày như sau, với ontology OOMP ={O, M, P}: Giải thuật 4.2. Huấn luyện ontology dựa trên WordNet (WordNet-based Knowledge Base Training, WB-KBT) Nhập: Ontology OOMP, cơ sở tri thức WordNet Xuất: Ontology OOMP ñã ñược huấn luyện từ dữ liệu ngữ nghĩa trong WordNet Phương pháp: 01. For each wi (word): 02. For each sj (synset): ∃ sense(wi, sj): ∃ sk (k ≠ j): 03. Xảy ra quan hệ holonym(sj, sk): 04. OOMP(O, M) ; OOMP(OM) holynymy(sj, sk); 05. Xảy ra quan hệ meronymy(sj, sk): 06. OOMP(O, M) ; OOMP(OM) meronymy(sj, sk); 07. Xảy ra quan hệ attribute(sj, sk): 08. OOMP(M, P) ; OOMP(MP) attribute(sj, sk); 09. Xảy ra quan hệ similar(sj, sk): 10. If wi ∈ OOMP(O): Sao chép các cây liên kết con của wi sang sk.word; Lưu các cây con sao chép ñược vào OOMP; 11. If wi ∈ OOMP(M): Sao chép các cây liên kết con và cha của wi sang sk.word; Lưu các cây con sao chép ñược vào OOMP; 12. If wi ∈ OOMP(P): Sao chép các cây liên kết cha của wi sang sk.word; Lưu các cây con sao chép ñược vào OOMP; 13. End for; 14. End for; 15. Return OOMP={O, M, P}; /* ñã ñược cập nhật dữ liệu và các quan hệ */ 104 Giải thuật WB-KBT có ñộ phức tạp O(n2) tại bước 1, 2 và các bước con, O(n) hay O(1) cho các bước khác, với n thể hiện giá trị lớn nhất của kích thước tập từ vựng và tập synset của Wordnet. Do ñó O(n2) là ñộ phức tạp của giải thuật này. 4.4.2 Thc nghim gii thut Hun luyn ontology da trên WordNet (WB-KBT) Hiện nay nhiều phiên bản khác nhau của WordNet ñược sử dụng trên thế giới, trong ñó tổ chức dữ liệu ñược hiện thực ở những dạng thức khác nhau. Nguồn WordNet từ ñịa chỉ [166] cung cấp một phiên bản WordNet 3.0 ñược thể hiện ở dạng cơ sở dữ liệu quan hệ, trong ñó tổ chức dữ liệu của phiên bản WordNet này ñược trình bày trong hình 4.12 và những thành phần dữ liệu ñược thống kê trong hình 4.13. Phiên bản này ñược sử dụng trong thực nghiệm của luận án. wn3_casedword wn3_categorydef wn3_framedef wn3_frameref wn3_legacy2021 wn3_legacy2030wn3_legacy2130 wn3_legacysensekey2021 wn3_legacysensekey2030wn3_legacysensekey2130 wn3_lexlinkref wn3_linkdef wn3_morphdef wn3_morphref wn3_sampl

Các file đính kèm theo tài liệu này:

LATS_CB_BVNN_NCThanh.pdf