MỤC LỤC
MỤC LỤC . i
DANH MỤC CÁC BẢNG . iii
DANH MỤC CÁC HÌNH . v
DANH MỤC CÁC GIẢI THUẬT . vii
DANH MỤC CÁC TỪVIẾT TẮT . viii
Chương 1 GIỚI THIỆU . 1
1.1 Động cơnghiên cứu . 1
1.2 Mục tiêu và phạm vi nghiên cứu . 5
1.3 Đóng góp chính của luận án . 8
1.4 Cấu trúc của luận án . 10
1.5 Các quy ước . 13
1.6 Tóm tắt nội dung luận án . 13
Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN . 14
2.1 Giới thiệu . 14
2.2 Các nghiên cứu liên quan trong nước . 15
2.3 Các nghiên cứu vềontology . 19
2.4 Các nghiên cứu vềmởrộng truy vấn . 23
2.5 Khai thác dữliệu từWordNet . 39
2.6 Tóm lược . 44
Chương 3 XÂY DỰNG NỀN TẢNG HỆTHỐNG . 46
3.1 Giới thiệu . 46
3.2 Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mởrộng truy vấn . 46
3.3 Các mô hình cho bài toán mởrộng truy vấn . 60
3.4 Mẫu nhận dạng cụm danh từ. 65
3.5 Phương pháp thực nghiệm và ñánh giá . 70
3.6 Nguồn dữliệu thực nghiệm . 74
3.7 Tóm lược . 88
Chương 4 XÂY DỰNG ONTOLOGY OOMP. 90
4.1 Giới thiệu . 90
4.2 Xây dựng ontology OOMP. 90
4.3 Phương pháp huấn luyện dựa trên kho ngữliệu . 95
4.4 Phương pháp huấn luyện dựa trên WordNet . 100
4.5 Cơchếtựhuấn luyện của ontology OOMP. 107
4.6 Các ứng dụng của ontology và quan hệ. 109
4.7 Tóm lược . 110
Chương 5 HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN. 112
5.1 Giới thiệu . 112
5.2 Hoàn chỉnh và rút gọn truy vấn . 113
5.3 Kiểm tra cụm danh từhoàn chỉnh . 114
5.4 Tạo cụm danh từhoàn chỉnh . 121
5.5 Tạo cụm danh từrút gọn . 122
5.6 Hoàn chỉnh cụm danh từ. 123
5.7 Giải thuật rút gọn thành phần cụm danh từ. 135
5.8 Tóm lược . 140
Chương 6 MỞRỘNG TRUY VẤN . 142
6.1 Mởrộng truy vấn cho ñộng cơtìm kiếm trên Web . 142
6.2 Mởrộng truy vấn cho hệthống truy xuất thông tin có sẵn . 153
6.3 Tóm lược . 165
Chương 7 KẾT LUẬN . 167
7.1 Các kết quả ñạt ñược . 167
7.2 Hướng phát triển . 171
7.3 Lời kết . 172
CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ. 174
TÀI LIỆU THAM KHẢO . 177
Phụlục A. Tóm lược vềWordNet . a
Phụlục B. Cấu trúc cụm danh từtiếng Anh . c
Phụlục C. Danh mục từloại tiếng Anh . g
Phụlục D. Danh mục luật sinh dạng cụm danh từcủa văn phạm tiếng Anh xây
dựng dựa trên TreeBank . i
Phụlục E. Tính chất ảnh-tạo ảnh trong toán học . o
Phụlục F. Cấu trúc ñịnh dạng tài liệu TREC . p
Phụlục G. Tổchức cơsởdữliệu của thực nghiệm trong luận án .
223 trang |
Chia sẻ: maiphuongdc | Lượt xem: 1807 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Luận án Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
nh phần này
còn xác ñịnh vị trí của từ ñó trong danh mục từ của cơ sở dữ liệu.
Dữ liệu phục vụ việc huấn luyện ontology OOMP
Tập TRAINING_DATA có số lượng 247.988 cụm danh từ thuộc chín dạng
mẫu (ñã trình bày trong bảng 3.11) ñược trình bày trong hình 3.17 sau.
18810
46751 47710
95738
20632
6453 8463 2857 574
0
20000
40000
60000
80000
100000
120000
M3 M178 M184 M186 M192 M195 M196 M204 M209
Số
lư
ợn
g
Dạng mẫu
Hình 3.17. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu
87
Dữ liệu dùng ñể thử nghiệm cho các giải thuật
Tập dữ liệu TEST_DATA gồm 12.282 cụm danh từ ñược chọn lọc ñể kiểm tra
thử nghiệm trong các giải thuật trong chương 5 và 6 của luận án. Trong ñó, các cụm
danh từ này ñược chia theo các nhóm mẫu (như hình 3.18) phân bổ cho các trường
hợp liên quan ñến cụm từ chưa hoàn chỉnh.
305
2592
276
712
186
189
154
1463
143
584
1048
431
314
201
159
542
592
1027
331
192
211
165
155
162
148
0 500 1000 1500 2000 2500 3000
M3
M60
M71
M81
M85
M87
M89
M99
M102
M103
M116
M125
M142
M149
M150
M178
M184
M186
M192
M195
M196
M203
M204
M205
M209
Số lượng
D
ạn
g
m
ẫu
Hình 3.18. Phân bổ cụm danh từ trong tập TEST_DATA theo các nhóm mẫu
Dữ liệu ñược dùng ñể phân tích ñánh giá kết quả của các giải thuật
Từ tập dữ liệu thử nghiệm TEST_DATA nêu trên, tác giả sử dụng hệ thống
ISE thực hiện việc tìm kiếm chính xác cho mỗi cụm danh từ trong tập TEST_DATA
88
trong những nguồn dữ liệu ở bảng 3.6. Kết quả của mỗi lần tìm kiếm này ñược lưu
vào một bộ dữ liệu kết quả chứa các thành phần gồm <Nguồn dữ liệu, Tài liệu tìm
thấy, Cụm danh từ tìm kiếm, Điểm số từ Lucene> trong bảng Search_Data_Result
của cơ sở dữ liệu thực nghiệm. Quá trình tìm kiếm này thu ñược 438.482 bộ dữ liệu
kết quả, ñây chính là các số liệu cơ bản ñóng vai trò quan trọng trong việc phục vụ
việc phân tích ñánh giá so sánh kết quả của những giải thuật trong chương 5 và 6
của luận án.
3.7 Tóm lược
Chương 3 là chương mà tác giả ñã tập trung trình bày cơ sở lý thuyết ñể làm
nền tảng cho các bước nghiên cứu tiếp theo của luận án . Mô hình 1 và 3 ( OBIRMQE +− ,
OB
IRMQE
+
+ ) ñược tác giả ñề xuất, ñã áp dụng các phương pháp tiên tiến ñể mở rộng
truy vấn. Các phương pháp này ñã ñược công bố trên thế giới. Mô hình 1 và 3 xác
ñịnh trúc và các thành phần của hệ thống mở rộng truy vấn. Mô hình 2 và 4
( POBIRMQE ++− , POBIRMQE +++ ) ñược tác giả phát triển từ mô hình 1 và 3 bằng sự kết hợp
phương pháp mở rộng truy vấn dựa trên ontology và phương pháp xác suất thống
kê. Mô hình POBIRMQE ++− sẽ ñược trình bày chi tiết trong chương 6 cho giải pháp
hoàn chỉnh và mở rộng truy vấn. Cònmô hình POBIRMQE +++ sẽ ñược trình bày trong
bài toán Hybrid Search ở phần cuối của chương 6.
Các quan hệ ngữ nghĩa ñược ñề xuất trong chương 3 ñã cung cấp cơ sở lý
thuyết cho việc phát triển ontology OOMP (Ontology of Object-Member-Property)
(ñược trình bày trong chương 4). OOMP ñóng vai trò vô cùng quan trọng cho
phương pháp tiếp cận chủ ñạo của hướng nghiên cứu của luận án. Trong phương
pháp này, tác giả ñã xây dựng các giải thuật sau:
− Kiểm tra tính hoàn chỉnh của cụm danh từ (Complete Noun Phrase
Verification, CNPV).
− Hoàn chỉnh thành phần cụm danh từ (Noun Phrase Completion, NPC).
− Rút gọn thành phần cụm danh từ (Noun Phrase Member Reduction, NPRM).
89
− Mở rộng cụm danh từ tương ñương (Similar Noun Phrase Expansion,
SNPE).
Các giải thuật trên sẽ ñược trình bày trong các chương 5 và 6. Việc ñề xuất mẫu xác
ñịnh cụm danh từ trong phần cuối chương 3 ñã góp phần hỗ trợ việc huấn luyện dữ
liệu cho ontology OOMP (ñược trình bày ở chương 4) và phân tích truy vấn ban ñầu
của người dùng, ñể tạo dữ liệu ñầu vào cho các giải thuật nêu trên.
Cuối chương này, các phương pháp ñánh giá kết quả thực nghiệm, môi
trường và công cụ hỗ trợ thực nghiệm, dữ liệu sử dụng trong thực nghiệm hiện ñại,
cũng như nguồn dữ liệu sử dụng trong thực nghiệm của các giải thuật của luận án ñã
ñược trình bày chi tiết. Qua các phương pháp ñánh giá ñã cho thấy ưu, nhược ñiểm
của các giải thuật mà tác giả ñã ñề xuất trong quá trình nghiên cứu của luận án. Việc
khai thác nguồn dữ liệu từ TREC ñể xây dựng tập các chỉ mục cho hệ thống ISE
cũng như phương pháp rút trích các cụm danh từ ñể xây dựng tập dữ liệu
TEST_DATA và TRAINING_DATA ñã ñược trình bày khá ñầy ñủ trong chương này.
90
Chương 4
XÂY DỰNG ONTOLOGY OOMP
4.1 Giới thiệu
Với những ưu ñiểm và lợi ích khi ứng dụng ontology vào việc mở rộng truy
vấn và truy xuất thông tin (trình bày trong phần 2.2, chương 2), việc phát triển một
ontology nhằm phục vụ bài toán mở rộng truy vấn của luận án ñóng vai trò quan
trọng. Hơn nữa, do các bài toán xử lý trong luận án liên quan ñến khái niệm cụm
danh từ hoàn chỉnh với những quan hệ ngữ nghĩa như ROMP, Rm và Rp, nhưng
WordNet chưa ñáp ứng ñầy ñủ các yêu cầu cần thiết, ñồng thời giải pháp mở rộng
WordNet ñể bổ sung các dạng quan hệ nêu trên ñòi hỏi nhiều thời gian, công sức ...
không hoàn toàn khả thi cho luận án. Vì vậy, việc xây dựng riêng biệt ontology
OOMP phục vụ cho nghiên cứu của luận án là vấn ñề cần thiết nhằm kiến tạo nhóm
các mạng ngữ nghĩa tương ứng cho các quan hệ ngữ nghĩa này.
Dựa trên cơ sở lý thuyết ñề xuất ở chương 3, trong chương 4 các vấn ñề lần
lượt ñược trình bày liên quan ñến việc giải quyết Bài toán 1 của luận án về phát
triển ontology OOMP (Ontology of Object–Member–Property) như xác ñịnh cấu
trúc tổ chức, phương pháp huấn luyện, thực nghiệm.. Một phần nội dung của
chương này ñã công bố trong công trình [v] và [ix].
4.2 Xây dựng ontology OOMP
Việc xây dựng ontology OOMP ñược tiến hành từ góc ñộ thiết kế kiến trúc
hệ thống, tổ chức dạng mạng ngữ nghĩa và huấn luyện ñể tạo nguồn dữ liệu cho
ontology.
91
4.2.1 Kin trúc ontology OOMP
So với các ontology khác, ñặc trưng nổi bật nhất của ontology OOMP chính
là tổ chức phân cấp các khái niệm ngữ nghĩa dựa theo quan hệ OMPR (xem phần
3.2.5). Theo dạng quan hệ này thì một phần tử trong thực thể Object (tập O) có thể
liên kết với nhiều phần tử trong thực thể Member (tập M) và ngược lại. Tương tự,
cũng tồn tại mối liên kết nhiều-nhiều tương ứng giữa phần tử trong thực thể
Member (tập M) và phần tử trong thực thể Property (tập P). Tùy theo chiến lược
phát triển mà ontology OOMP sẽ ñược triển khai trong thực tế ở dạng cơ sở dữ liệu
quan hệ hay dạng luận lý mô tả tài nguyên.
Ở góc ñộ thiết kế cơ sở dữ liệu quan hệ, cấu trúc của ontology OOMP ñược
trình bày chi tiết trong hình 4.1.
Hình 4.1. Cấu trúc mức luận lý của ontology OOMP
Cấu trúc này ñược thể hiện chi tiết trong hình 4. 2 với các thành phần dữ liệu
tương ứng cho từng thực thể, thông qua ñó chúng ta có thể hiện thực bằng một mô
hình cơ sở dữ liệu trong thực tế.
Hình 4.2. Cấu trúc ontology OOMP về tổ chức cơ sở dữ liệu quan hệ
Với tổ chức dữ liệu này, mỗi phần tử của một thực thể ñều ñược thể hiện
thông qua một số thuộc tính dữ liệu trong cấu trúc như sau:
− Mã số của phần tử, ñóng vai trò khóa chính (primary key), dùng ñể phân biệt
với các phần tử khác. Mã số ñó ñược lưu trong thuộc tính có tên ID (như
oID, mID, pID) trong thực thể tương ứng.
Object Property Member Rm Rp
Object
oID
oValue
oType
Rm
oID
mID
Dep
Member
mID
mValue
mType
mPriority
mProbability
Rp
mID
pID
Dep
Property
pID
pValue
pType
pPriority
pProbability
92
− Thuộc tính Value thể hiện nội dung của phần tử.
− Thuộc tính Type thể hiện thông tin về kiểu tương ứng của phần tử.
− Thuộc tính Probability lưu trữ xác suất ℘(mj) (hay ℘(pk)) liên kết giữa phần
tử thuộc Object với phần tử thuộc Member (hay tương tự giữa Member và
Property).
− Thuộc tính Priority thể hiện mức ñộ ưu tiên (trội) của phần tử ñó so với các
phần tử khác cùng ñiều kiện, ñược xác ñịnh dựa theo quan hệ mR
f
hay pR
f
.
− Thuộc tính Dep thể hiện mức ñộ phụ thuộc giữa phần tử thuộc Member với
phần tử thuộc Object (hay tương tự giữa Property và Member).
Với ñặc tả luận lý, ontology OOMP còn ñược thể hiện dưới dạng cấu trúc
trong ñó là tổ hợp các thành phần ñược thể hiện ở hình 4.3.
tên ñối tượng
kiểu
[
tên thành phần
ñộ ưu tiên
trị xác suất
kiểu
[
tên thuộc tính
ñộ ưu tiên
trị xác suất
kiểu
…]
...]
Hình 4.3. Đặc tả luận lý cho cấu trúc ontology OOMP
Cấu trúc này có thể ñược hiện thực theo nhiều dạng thức khác nhau, từ XML
[164] ñến OWL [155] hay RDF [159]. Tuy nhiên, trong thực tế, việc hiện thực các
dạng thể hiện nêu trên ñều có những ưu nhược ñiểm. Khi triển khai chúng trong một
93
hệ quản trị cơ sở dữ liệu quan hệ bất kỳ (như Microsoft SQL Server [153] hay
Oracle [154]), sức mạnh về tốc ñộ xử lý, khả năng lưu trữ dung lượng dữ liệu lớn,
các dịch vụ hỗ trợ, ngôn ngữ truy vấn T-SQL (SQL-92) là những ưu ñiểm mang lại
lợi thế rất lớn cho hoạt ñộng của ontology OOMP và các chương trình liên quan.
Tuy nhiên, do bản chất của cơ sở dữ liệu quan hệ, nên những hệ thống ñó thường
hướng ñến vấn ñề phân rã dữ liệu khi lưu trữ hơn là biểu diễn dữ liệu tổ hợp, nên ñó
cũng là ñiểm hạn chế khi ontology OOMP có dữ liệu tổ hợp phức tạp. Nếu sử dụng
các công cụ chuyên biệt về ontology, ví dụ như Protégé [158], ñể hiện thực
ontology OOMP thì chúng sẽ giúp khắc phục ñược những hạn chế vừa nêu của hệ
quản trị cơ sở dữ liệu. Tuy nhiên, một vấn ñề cần cân nhắc chính là sức mạnh và tốc
ñộ xử lý của những công cụ này. Do vậy, trong thực nghiệm của luận án, tác giả ñề
xuất triển khai ontology OOMP thông qua dạng cơ sở dữ liệu quan hệ trong hệ
thống MS SQL Server 2005u .
4.2.2 Phơng pháp tip cn trong hun luyn ontology
Khi ứng dụng ontology OOMP cùng các quan hệ ñịnh nghĩa ở phần 3.2 vào
lĩnh vực Xử lý ngôn ngữ tự nhiên và Truy xuất thông tin, việc huấn luyện nhằm
giúp ontology có ñầy ñủ lượng thông tin có chất lượng cao là vấn ñề quan trọng mà
luận án luôn quan tâm.
Phương pháp huấn luyện ontology gồm các bước:
− Bước 1: Xác ñịnh các cụm danh từ dự tuyển (ñược chọn lọc từ các cụm danh
từ của những tài liệu trong kho ngữ liệu TREC) trước khi tiến hành huấn
luyện. Khó khăn ảnh hưởng ñến việc hiện thực bước này chính là tính chất
phức tạp hay ñơn giản, hệ thống quy tắc và bất quy tắc và tính ña dạng của
mỗi ngôn ngữ. Điều này ảnh hưởng ñến cách xác ñịnh các cụm danh từ và
những từ thành phần mà qua ñó sẽ quyết ñịnh cụm dự tuyển cần chọn lựa.
Tuy nhiên, việc sử dụng mẫu ñể hỗ trợ việc nhận dạng cụm từ là phương án
khả thi giúp tác vụ này có thể ñạt ñược yêu cầu như mong muốn. Các mẫu
u
Tham khảo Phụ lục G về tổ chức cơ sở dữ liệu thực nghiệm của luận án.
94
(trong Bảng 3.5) là kết quả có ñược từ quá trình xây dựng tập luật sinh của
văn phạm thuộc ngôn ngữ tương ứng.
− Bước 2: Chọn lọc các thành phần ñặc trưng hay tính chất ñặc trưng trong mỗi
cụm danh từ thu ñược ở bước 1, từ ñó xác ñịnh ñược các quan hệ trội tương
ứng. Bước này có thể áp dụng chung cho các ngôn ngữ, ñược xử lý bởi việc
sử dụng kết hợp kho ngữ liệu ñể hỗ trợ việc xác ñịnh các tần xuất xuất hiện
của thành phần ñặc trưng hay tính chất ñặc trưng.
4.2.3 Hun luyn ontology OOMP
Việc huấn luyện ontoloy OOMP ñược giải quyết bằng hai cách sau:
− Cách thứ nhất: hướng ñến việc khai thác các thông tin trong kho ngữ liệu
cho trước thông qua việc sử dụng các mẫu (trong mục 3.4 chương 3) ñể tìm
các thành phần dự tuyển nhằm xác ñịnh các giá trị phù hợp cho việc lưu trữ.
Cách tiếp cận này có ưu, nhược ñiểm sau:
o Ưu ñiểm: chúng ta có thể áp dụng cách này cho một ngôn ngữ tự
nhiên tùy chọn nếu xây dựng ñược danh sách mẫu cần thiết.
o Nhược ñiểm: việc thực hiện phân tích và rút trích dữ liệu trong kho
ngữ liệu có thể dẫn ñến các chi phí về thời gian thực thi cùng ñộ phức
tạp cao trong trường hợp kho ngữ liệu có kích thước lớn, cũng như
mức ñộ chính xác của dữ liệu ñược chọn trong quá trình xử lý.
− Cách thứ hai: hướng ñến việc khai thác các thông tin ngữ nghĩa ñã có sẵn
trong WordNet. Cách này có ưu, nhược ñiểm như sau:
o Ưu ñiểm: ñộ chính xác cao của dữ liệu chọn lọc ñược và chi phí thực
hiện thấp do tính ổn ñịnh của WordNet, các quan hệ ngữ nghĩa ñược
khai thác có thể phục vụ hữu ích cho quá trình xử lý hoàn chỉnh và
mở rộng truy vấn.
o Nhược ñiểm: hiện tại WordNet chỉ mới ñược triển khai phát triển cho
tiếng Anh và một số ngôn ngữ tự nhiên thông dụng, nên việc áp dụng
giải pháp này cho các ngôn ngữ tự nhiên khác (như tiếng Việt) sẽ gặp
rất nhiều khó khăn nếu chưa có một hệ thống tương tự.
95
− Cách thứ ba: sử dụng kết quả từ hai cách trên ñể tự huấn luyện nhằm tạo
thêm các quan hệ giữa các nhóm dữ liệu trong ontology.
Các phương pháp huấn luyện này ñược minh họa trong hình 4.4 sau.
Hình 4.4. Các phương pháp huấn luyện ontology OOMP
4.3 Phương pháp huấn luyện dựa trên kho ngữ liệu
4.3.1 Phơng pháp thc hin
Dựa trên các mẫu ñã xác ñịnh trong Bảng 3.5 (mục 3.4 chương 3), phương
pháp huấn luyện này sẽ sử dụng các tiện ích của công cụ GATE [147] ñể thực hiện
việc phân tích tài liệu trong kho ngữ liệu nhằm tìm ñược các thành phần dự tuyển
cùng với các thông tin liên quan như từ loại, trị từ vựng … ñể từ ñó tính toán các
giá trị xác suất và lựa chọn các quan hệ ngữ nghĩa phù hợp.
Các bước trong quy trình huấn luyện này ñược minh họa trong hình 4.5.
Hình 4.5. Phương pháp huấn luyện dựa trên kho ngữ liệu
Giả sử di là tài liệu thứ i trong kho ngữ liệu, D = {di} là kho ngữ liệu, pi là
cụm danh từ, C
là danh sách cụm từ dự tuyển, KBc = {Oc, Mc, Pc} là ontology (cơ sở
tri thức) dự tuyển, ontology (cơ sở tri thức) OOMP={O, M, P} là.
Phương pháp này ñược trình bày trong nội dung giải thuật CB-KBT.
96
Giải thuật 4.1. Huấn luyện ontology dựa trên kho ngữ liệu
(Corpus-Based Knowledge Base Training, CB-KBT)
Nhập: ontology OOMP, kho ngữ liệu D.
Xuất: ontology OOMP ñã ñược huấn luyện và các thông tin liên quan.
Phương pháp:
01. If (D=∅) ∨ (∀di ∈ D, di ñã ñược xử lý): Dừng chương trình;
02. For each di∈D:
03. Phân tách di thành tập câu {sj} (j=1..ni);
04. Rút trích tập cụm {pk} dựa theo mẫu trong bảng 3.11;
05. Xác ñịnh các từ loại tương ứng cho mỗi phần tử trong cụm;
06. Lưu vào C;
07. End for;
08. If (C=∅ ) ∨ (∀ pi∈ C: pi ñã ñược xử lý): Dừng chương trình;
09. For each pi∈ C:
10. Xác ñịnh phần tử dự tuyển của pi (bảng 3.5, cột 4a-b-c);
11. If (∃ mc) ∧ (∃ oc) trong cột 4b-4a:
12. If ∃ (Dep(mc, oc) > θ1) ∨ (Member(mc, oc) > 0): KBc(M, O)(mc, oc);
13. Else if (∃ pc ) ∧ (∃ mc) trong cột 4c-4b:
14. If ∃ (Dep(pc, mc) > θ2) ∨ (Pro(pc, mc) > 0) : KBc(P, M) (pc, mc);
15. End if;
16. End for;
17. For each oi∈ Oc: mj’
),(),(
)max(arg
ijij omSimomDep
jm
∧
(∀mj∈ Mc); OOMP(M, O) (mj’, oi);
18. For each mi∈ Mc: pj’
),(),(
)max(arg
jkjk mpSimmpDep
kp
∧
(∀pj∈Pc); OOMP (P, M) (pk’, mj’);
19. Return OOMP={O
, M, P}; /* chứa dữ liệu và quan hệ trội ñã ñược cập nhật */
20. Khi có một tài liệu mới di’ ñược thêm vào D, thực hiện lại bước 02 ñến bước 18
cho di’, nếu khi ñó tìm ñược tần xuất thỏa ñiều kiện quan hệ trội nhất, thì các
quan hệ trội nhất trước ñó sẽ trở thành quan hệ trội ít hơn;
97
Trong giải thuật này θ1 và θ2 là giá trị ngưỡng phục vụ việc xác lập ñộ phụ
thuộc cho mỗi dạng quan hệ.
Giải thuật CB-KBT có ñộ phức tạp O(n2) tại bước 02, 17, 18 và O(n) hay
O(1) cho các bước còn lại, trong ñó n thể hiện kích thước dữ liệu của tập C, là tập
các cụm từ rút trích ñược. Do ñó O(n2) là ñộ phức tạp của giải thuật này.
4.3.2 Vn ñ x lý nhp nh!ng trong gii thut CB-KBT
Những trường hợp nhập nhằng trong giải thuật này bao gồm:
* Trường hợp 1: Khả năng một từ có thể có nhiều nhãn từ loại, dẫn ñến khó khăn
trong chọn lựa nhãn từ loại thích hợp.
Trường hợp này xảy ra tại bước 04 của giải thuật. Phương án giải quyết cho
trường hợp này là xác ñịnh nhãn từ loại thích hợp nhất trong ngữ cảnh kết hợp
nhiều thành phần trong cụm danh từ ban ñầu.
* Trường hợp 2: Khả năng chọn ñược nhiều dạng phần tử oi, mj, pk khác nhau phụ
thuộc theo mẫu nhận dạng cụm danh từ trong trường hợp nhiều mẫu nhận dạng
cùng thỏa mãn và bao phủ nhau.
Trường hợp này xảy ra tại bước 10 của giải thuật. Phương án giải quyết cho
trường hợp này là chọn mẫu có số ñộ dài lớn nhất ñể có thể khai thác ñược lượng
thông tin nhiều nhất.
Ngoài hai trường hợp nêu trên, vấn ñề từ ña nghĩa là một trường hợp cần
ñược quan tâm, tuy nhiên ñây không phải là vấn ñề xử lý trong phương pháp huấn
luyện này cũng như trong phạm vi luận án, vì luận án chỉ tập trung xử lý truy vấn
ngắn (ba thành phần) nên không ñủ thông tin ngữ cảnh ñể xử lý các trường hợp ña
nghĩa phức tạp. Vấn ñề ña nghĩa của cụm từ và câu phụ thuộc vào ngữ cảnh, là vấn
ñề nằm ngoài lĩnh vực nghiên cứu của luận án. Tuy nhiên, trong phạm vi luận án,
dựa trên ñịnh nghĩa 3.6 và 3.8 (mục 3.2.1 trong chương 3) về các quan hệ trội mR
f
và pR
f
, ñộ phụ thuộc và ñộ ưu tiên giữa các phần tử của những quan hệ ñó ñược xác
ñịnh trong quá trình huấn luyện và ñược lưu lại trong ontology OOMP (như trình
bày trong phần 4.2.1), có thể giúp xác ñịnh ñược các ứng viên phù hợp nhất trong
98
quá trình chọn kết quả phù hợp cho truy vấn mở rộng, từ ñó góp phần giải quyết vấn
ñề nhập nhằng về nghĩa.
Như vậy, việc hiện thực các chương trình con hỗ trợ giải quyết những nhập
nhằng nêu trên sẽ giúp giải thuật này chọn ñược các phần tử dự tuyển hợp lý nhất.
4.3.3 Thc nghim gii thut CB-KBT
Việc huấn luyện ontology OOMP trong trường hợp này ñược thực hiện dựa
trên nguồn dữ liệu trong bảng 3.6 với số lượng 247.988 cụm danh từ ñược lưu trong
tập TRAINING_DATA theo chín dạng mẫu nhận dạng cụm danh từ (như tóm tắt
trình bày trong bảng 3.11 và hình 3.17). Các cụm danh từ này ñược chia theo các
nhóm mẫu ở bảng 4.1 sau.
Bảng 4.1. Thống kê số lượng cụm danh từ theo dạng mẫu
Dạng mẫu Số lượng Tỉ lệ (%)
M3 18.810 7,59
M178 46.751 18,85
M184 47.710 19,24
M186 95.738 38,61
M192 20.632 8,32
M195 6.453 2,60
M196 8.463 3,41
M204 2.857 1,15
M209 574 0,23
Trong ñó, vì các mẫu M184, M186, M192, M195, M196, M204 và M209 cho phép
xác ñịnh ñầy ñủ các phần tử o, m, p tương ứng trong một cụm danh từ, nên chúng
ñược chọn ñể phục vụ việc huấn luyện của giải thuật CB-KBT. Tương tự, trường
hợp mẫu M3 và M178 cũng ñược chọn ñể hỗ trợ nhận dạng các phần tử m và p trong
cụm danh từ.
Từ những dữ liệu có số lượng theo phân loại vừa nêu trên, việc thực thi giải
thuật CB-KBT mang lại số lượng lớn các kết quả dự tuyển, ñể từ ñó chúng ñược
99
chọn lọc lại nhằm rút ra những kết quả chính xác hơn. Những kết quả dự tuyển loại
Object, Member, Property, liên kết Rm (giữa Object và Member), liên kết Rp (giữa
Member và Property) này ñược lưu trữ lần lượt vào các bảng Onto_trainO,
Onto_trainM, Onto_trainP, Onto_trainOM, Onto_trainMP. Bảng 4.2 tóm lược các
kết quả dự tuyển và kết quả chính xác chọn ñược theo từng loại liên quan, và bảng
4.3 trình bày một số dữ liệu thống kê khác ñược xác ñịnh từ thực nghiệm này.
Bảng 4.2. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT
STT Tập dữ liệu Số lượng
1 Onto_trainO 11.396
2 Onto_trainM 9.210
3 Onto_trainP 16.515
4 Onto_trainOM 85.687
5 Onto_trainMP 104.001
Tiếp theo, các dữ liệu dự tuyển này ñược chọn lọc ñể cập nhật vào ontology
OOMP. Các dữ liệu chọn lọc này ñược thống kê trong bảng 4.3.
Bảng 4.3. Dữ liệu dự tuyển rút trích ñược trong giải thuật CB-KBT
STT Loại Số lượng dự tuyển Số lượng chọn lọc Tỉ lệ (%)
1 Object 11.396 11.378 99,84
2 Member 9.210 9.173 99,60
3 Property 16.515 16.188 98,02
4 Quan hệ Rm (OM) 85.687 85.428 99,70
5 Quan hệ Rp (MP) 104.001 70.110 67,41
Ở ñây, các tiêu chí chọn lọc dữ liệu bao gồm:
− Với phần tử loại Object, Member, Property:
o Điều kiện chọn lọc là tần xuất xuất hiện dương.
o Tần xuất xuất hiện của mỗi phần tử ñó bằng tổng số tần xuất của tất cả
quả tìm kiếm tương ứng trong các nguồn dữ liệu ở bảng 3.6.
100
− Với phần tử loại OM, MP:
o Điều kiện chọn lọc là ñộ phụ thuộc dương.
o Tương tự, ñộ phụ thuộc mỗi phần tử loại này (tương ứng một cặp
phần tử trong Onto_trainOM hay Onto_trainMP) ñược tính theo
công thức (3.2) trong ñịnh nghĩa 3.2 (chương 3), thông qua các giá trị
tần xuất thành phần liên quan.
Ngoài ra, các số liệu thống kê khác liên quan ñến quá trình huấn luyện của
phương pháp CB-KBT ñược trình bày trong bảng 4.4.
Bảng 4.4. Các thống kê cho dữ liệu huấn luyện
STT Loại dữ liệu thống kê Số lượng
1 Số lượng trung bình các liên kết từ một phần tử loại
Object ñến những phần tử loại Member.
0,708957986
2 Số lượng trung bình các liên kết từ một phần tử loại
Member ñến những phần tử loại Object.
1,41052082
3 Số lượng trung bình các liên kết từ một phần tử loại
Member ñến những phần tử loại Property.
1,027996682
4 Số lượng trung bình các liên kết từ một phần tử loại
Property ñến những phần tử loại Member.
0,972765786
5 Độ phụ thuộc giữa phần tử trong Member ñối với
phần tử trong Object.
0,0002111932 (min)
1,00 (max)
6 Độ phụ thuộc giữa phần tử trong Property ñối với
phần tử trong Member.
0,0002111932 (min)
1,00 (max)
4.4 Phương pháp huấn luyện dựa trên WordNet
4.4.1 Phơng pháp thc hin
Việc rút trích dữ liệu với các quan hệ ngữ nghĩa sẵn có trong WordNet góp
phần giải quyết bài toán huấn luyện và phát triển ontology OOMP. Từ những dạng
quan hệ trong WordNet như holonymy, meronymy, attribute, similar, việc rút trích
các dữ liệu và quan hệ ngữ nghĩa này ñược tiến hành theo heuristic thể hiện lần lượt
101
trong các hình 4.6 – 4.11. Theo ñó, các quan hệ mới liên quan ñến những phần tử
thuộc O, M, P trong ontology OOMP sẽ ñược tạo thành từ mỗi quan hệ này trong
WordNet cùng những thành phần liên quan.
Hình 4.6. Quan hệ Rm ñược xây dựng từ quan hệ holonymy trong WordNet
Hình 4.7. Quan hệ Rm ñược xây dựng từ quan hệ meronymy trong WordNet
Hình 4.8. Quan hệ Rp ñược xây dựng từ quan hệ attribute trong WordNet
o1
(wi)
m1 m2 m3
o1
m1
o1
m2
o1
m3
o2
(sk.word)
o2
m1
o2
m2
o2
m3
m1
p1
m2
p1
m3
p2
p1 p2
wi sj sksense similar
Hình 4.9. Quan hệ Rm ñược xây dựng từ quan hệ similar trong WordNet
102
o1
m1
(wi)
m2
(sk.word)
o1
m1
o2
m1
o3
m1
m1
p1
m1
p2
p1 p2
o2 o3
o1
m2
o2
m2
o3
m2
m2
p1
m2
p2
wi sj sksense similar
Hình 4.10. Quan hệ Rm và Rp ñược xây dựng từ quan hệ similar trong WordNet
o1
m1
o1
m1
o2
m2
m1
p1
m2
p1
p1
(wi)
p2
(sk.word)
o2
m3
p1
m2 m3
o2
m3
m1
p2
m2
p2
m3
p2
wi sj sksense similar
Hình 4.11. Quan hệ Rp ñược xây dựng từ quan hệ similar trong WordNet
103
Từ heuristic này, giải thuật huấn luyện ontology OOMP trên cơ sở khai thác
WordNet ñược trình bày như sau, với ontology OOMP ={O, M, P}:
Giải thuật 4.2. Huấn luyện ontology dựa trên WordNet
(WordNet-based Knowledge Base Training, WB-KBT)
Nhập: Ontology OOMP, cơ sở tri thức WordNet
Xuất: Ontology OOMP ñã ñược huấn luyện từ dữ liệu ngữ nghĩa trong WordNet
Phương pháp:
01. For each wi (word):
02. For each sj (synset): ∃ sense(wi, sj): ∃ sk (k ≠ j):
03. Xảy ra quan hệ holonym(sj, sk):
04. OOMP(O, M) ; OOMP(OM) holynymy(sj,
sk);
05. Xảy ra quan hệ meronymy(sj, sk):
06. OOMP(O, M) ; OOMP(OM) meronymy(sj,
sk);
07. Xảy ra quan hệ attribute(sj, sk):
08. OOMP(M, P) ; OOMP(MP) attribute(sj,
sk);
09. Xảy ra quan hệ similar(sj, sk):
10. If wi ∈ OOMP(O): Sao chép các cây liên kết con của wi sang
sk.word; Lưu các cây con sao chép ñược vào OOMP;
11. If wi ∈ OOMP(M): Sao chép các cây liên kết con và cha của wi
sang sk.word; Lưu các cây con sao chép ñược vào OOMP;
12. If wi ∈ OOMP(P): Sao chép các cây liên kết cha của wi sang
sk.word; Lưu các cây con sao chép ñược vào OOMP;
13. End for;
14. End for;
15. Return OOMP={O, M, P}; /* ñã ñược cập nhật dữ liệu và các quan hệ */
104
Giải thuật WB-KBT có ñộ phức tạp O(n2) tại bước 1, 2 và các bước con, O(n)
hay O(1) cho các bước khác, với n thể hiện giá trị lớn nhất của kích thước tập từ
vựng và tập synset của Wordnet. Do ñó O(n2) là ñộ phức tạp của giải thuật này.
4.4.2 Thc nghim gii thut Hun luyn ontology da trên
WordNet (WB-KBT)
Hiện nay nhiều phiên bản khác nhau của WordNet ñược sử dụng trên thế
giới, trong ñó tổ chức dữ liệu ñược hiện thực ở những dạng thức khác nhau. Nguồn
WordNet từ ñịa chỉ [166] cung cấp một phiên bản WordNet 3.0 ñược thể hiện ở
dạng cơ sở dữ liệu quan hệ, trong ñó tổ chức dữ liệu của phiên bản WordNet này
ñược trình bày trong hình 4.12 và những thành phần dữ liệu ñược thống kê trong
hình 4.13. Phiên bản này ñược sử dụng trong thực nghiệm của luận án.
wn3_casedword
wn3_categorydef
wn3_framedef
wn3_frameref
wn3_legacy2021
wn3_legacy2030wn3_legacy2130 wn3_legacysensekey2021
wn3_legacysensekey2030wn3_legacysensekey2130
wn3_lexlinkref
wn3_linkdef
wn3_morphdef
wn3_morphref
wn3_sampl
Các file đính kèm theo tài liệu này:
- LATS_CB_BVNN_NCThanh.pdf