MỤC LỤC
CHƯƠNG 1 TỔNG QUAN 1
1.1 Giới thiệu 1
1.2 Mục tiêu và phạm vi 3
1.3 Cấu trúc luận văn 5
CHƯƠNG 2 6
CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN 6
2.1 Rút trích quan hệ 6
2.2 Sơ lược về đồ thị ý niệm 7
2.2.1 Đồ thị ý niệm mở rộng 9
2.2.2 Các phương pháp chuyển đổi câu truy vấn sang đồ thị ý niệm 10
CHƯƠNG 3 12
PHƯƠNG PHÁP TIẾP CẬN 12
3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many” 12
3.2 Chuyển đổi câu truy vấn có tính từ 14
3.3 Chuyển đổi câu truy vấn có tính từ so sánh nhất 16
3.4 Chuyển đổi câu truy vấn có liên từ luận lý 17
CHƯƠNG 4 20
PHƯƠNG PHÁP BIÊN DỊCH 20
4.1 Các bước của giải thuật 20
4.1.1 Phân tách câu truy vấn 22
4.1.2 Nhận biết thực thể có tên 22
4.1.3 Nhận biết thực thể không tên 22
4.1.4 Nhận biết tính từ 23
4.1.5 Nhận biết từ quan hệ 23
4.1.6 Xác định lớp của thực thể 23
4.1.7 Gom các thực thể 24
4.1.8 Xác định quan hệ ẩn 25
4.1.9 Xác định loại quan hệ giữa các thực thể 25
4.1.10 Xoá bỏ quan hệ không phù hợp 28
4.1.11 Xác định quan hệ giữa tính từ và thực thể 29
4.1.12 Xây dựng đồ thị ý niệm 32
4.2 Tập luật 32
4.2.1 Cấu trúc của hệ thống luật 33
4.2.2 Cấu trúc thành phần điều kiện của luật 34
4.2.3 Cấu trúc thành phần hành động của luật 34
4.2.4 Xây dựng một số luật đặc biệt 35
4.2.5 Xây dựng từ điển luật 36
4.3 Kết quả thí nghiệm 38
CHƯƠNG 5 46
ĐỒ THỊ Ý NIỆM 46
5.1 Lưu trữ đồ thị 46
5.2 Hiển thị đồ thị 47
CHƯƠNG 6 49
KẾT LUẬN 49
TÀI LIỆU THAM KHẢO 51
PHỤ LỤC A: TẬP CÂU MẪU TREC 2002 55
PHỤ LỤC C: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 TRƯỚC KHI LÀM GIÀU ONTOLOGY 60
PHỤ LỤC D: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 SAU KHI LÀM GIÀU ONTOLOGY 70
87 trang |
Chia sẻ: netpro | Lượt xem: 1762 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Xử lý các câu truy vấn và tìm kiếm trên kho tài liệu có chú thích ngữ nghĩa bằng tiếng anh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
dấu phẩy. Việc xác định từ quan hệ dựa vào lớp giữa hai thực thể và loại quan hệ giữa hai lớp đó trên Ontology. Tuy nhiên trên Ontology, giữa hai lớp có thể tồn tại nhiều loại quan hệ. Đề tài sắp xếp các loại quan hệ dựa trên mức độ chi tiết về lớp của loại quan hệ. Quá trình xác định quan hệ ẩn giữa hai thực thể sẽ được tiến hành theo heuristic sau: Ta liệt kê tất cả quan hệ có thể có giữa hai thực thể đó trong Ontology và chọn ra quan hệ chi tiết nhất. Ví dụ trong câu truy vấn trên, giữa hai lớp CITY và lớp PROVINCE có thể tồn tại các loại quan hệ PARTOF, LOCATEDIN và SUBREGIONOF. Trên Ontology PROTON, các loại quan hệ này được định nghĩa như sau:
Quan hệ PARTOF được định nghĩa là (ENTITY, PARTOF, ENTITY).
Quan hệ LOCATEDIN là (ENTITY, LOCATEDIN, LOCATION).
Quan hệ SUBREGIONOF là (LOCATION, SUBREGIONOF, LOCATION).
Tương ứng trên Ontology PROTON, lớp LOCATION là lớp con của lớp ENTITY. Do đó quan hệ SUBREGIONOF là quan giữa hai lớp chi tiết nhất nên quan hệ này được chọn.
Xác định loại quan hệ giữa các thực thể
Đây là bước mà các cặp thực thể sẽ được liên kết với nhau bằng từ quan hệ, được gọi là một bộ ba truy vấn .
Xem xét câu truy vấn “Where is the location of the Orange Bowl?”, từ quan hệ of nằm giữa hai thực thể là location và Orange Bowl. Đối với câu truy vấn “What state is the Filenes store located in?”, từ quan hệ in biểu diễn mối quan hệ LOCATEDIN giữa thực thể state và thực thể Filenes store nằm ở sau thực thể Filenes store. Trong câu “In what country is Angkor Wat?” từ quan hệ in nằm ở trước thực thể country dùng để biểu diễn mối quan hệ LOCATEDIN giữa thực thể country và thực thể Angkor Wat. Như vậy, từ quan hệ dùng để biểu diễn mối quan hệ giữa hai thực thể có thể nằm ở giữa, nằm ở sau hoặc nằm ở trước hai thực thể. Khi xem xét trên tập mẫu, từ quan hệ xuất hiện nhiều nhất là ở giữa hai thực thể. Do đó, để hình thành nên các bộ ba truy vấn , độ ưu tiên sẽ là vị trí của từ quan hệ đối với vị trí của hai thực thể. Ưu tiên thứ nhất là từ quan hệ nằm giữa hai thực thể, kế tiếp là từ quan hệ nằm sau hai thực thể và cuối cùng là từ quan hệ sẽ nằm phía trước hai thực thể. Các bộ ba này sau đó sẽ được so trùng với Ontology để xác định kiểu quan hệ tương ứng có trong Ontology.
Dựa vào các phân tích trên, đề tài đưa ra giải thuật xác định kiểu quan hệ giữa hai thực thể trong câu truy vấn như sau (Hình 4.2):
Hình 4.0.2: Xác định loại quan hệ giữa hai thực thể ei và ej.
Bước 1: Xét các từ quan hệ nằm giữa ei và ej. Bằng việc sử dụng tập luật, nếu có từ quan hệ nào khi kết hợp với ei và ej xác định được kiểu quan hệ giữa ei và ej thì quá trình dừng, ngược lại qua Bước 2.
Bước 2: Xét các từ quan hệ nằm ở sau ei và ej, tương tự như Bước 1, nếu không xác định được kiểu quan hệ giữa ei và ej thì qua Bước 3.
Bước 3: Xét các từ quan hệ nằm trước ei và ej.
Bằng giải thuật trên, chúng ta xác định được kiểu quan hệ giữa hai thực thể ei và ej, nếu hai thực thể ei và ej có mối quan hệ với nhau trong ngữ cảnh của câu truy vấn. Quá trình được áp dụng tương tự cho tất cả các cặp thực thể trong câu truy vấn. Các loại quan hệ tìm được sẽ được thêm vào danh sách quan hệ RELATION.
Việc xác định kiểu quan hệ được làm bằng cách ứng với mỗi bộ ba ta sẽ ánh xạ thành . Việc ánh xạ này được thực hiện qua giải pháp lập từ điển (Tập luật) và heuristic. Quá trình ánh xạ được khái quát bằng lược đồ như ở Hình 4.3.
Hình 4.0.3: Lược đồ ánh xạ kiểu quan hệ của bộ ba truy vấn.
Chi tiết cho lược đồ tại Hình 4.3 được diễn dịch như sau:
Xét mối quan hệ có dạng [C1, S1] – RW – [C2, S2] với:
RW là từ quan hệ,
C1 và C2 lần lượt là lớp của thực thể thứ nhất và thứ hai,
S1 và S2 lần lượt là giá trị chuỗi ban đầu của thực thể thứ nhất và thứ hai.
Ta sẽ lần lượt xây dựng các ánh xạ sau đây:
Ánh xạ từ quan hệ RW thành quan hệ R1 - tập những quan hệ có thể tương ứng với từ quan hệ RW. Ví dụ từ quan hệ “’s” tương ứng với tập các quan hệ {HASWIFE, HASSON, HASCAPITAL, …}
Ánh xạ từ quan hệ (C1, C2) thành quan hệ R2 - tập những quan hệ có thể có giữa C1 và C2. Ví dụ giữa hai lớp (PERSON, PERSON) ta có tập các quan hệ sau: {HASWIFE, HASFATHER, HASMOTHER, …}
Ánh xạ (S1, RW) thành R3 - tập những quan hệ có thể có nếu biết từ quan hệ RW và giá trị chuỗi ban đầu S1. Ví dụ với (wife, ’s) sẽ được ánh xạ thành tập quan hệ {HASWIFE}.
Ánh xạ (RW, S2) thành R4 - tập những quan hệ có thể có nếu biết từ quan hệ RW và giá trị chuỗi ban đầu S2. Ví dụ với (has, mother) sẽ được ánh xạ thành tập quan hệ {HASMOTHER}
Ta có thể dễ dàng nhận thấy R3, R4 đều là tập con của R2. Gọi R là mối quan hệ thật sự của từ quan hệ RW. Chắc chắn R Î R1 Ç R2. Ngoài ra, trong một số trường hợp, có thể R Î R1 Ç R3 hoặc R Î R1 Ç R4 hoặc R sẽ thuộc giao của cả bốn tập hợp trên. Như vậy, về lý thuyết ta có thể xác định được quan hệ R nếu xây dựng đầy đủ cả bốn tập hợp trên.
Việc xây dựng tập ánh xạ R3 và R4 được thực hiện bằng hệ thống luật. Chi tiết về hệ thống luật sẽ được trình bày ở phần sau.
Xoá bỏ quan hệ không phù hợp
Sau Bước 4.1.9 (Xác định loại quan hệ giữa các thực thể), có một số quan hệ được xác định nhưng không phù hợp với ngữ cảnh của câu truy vấn, các loại quan hệ này sẽ được xóa bỏ. Bước này sử dụng các heuristic sau để xóa bỏ các quan hệ không phù hợp:
Nếu hai thực thể Ei và Ei+1 cách nhau bởi dấu phẩy, thì Ei+1 chỉ quan hệ với Ei, các mối quan hệ của Ei+1 với các thực thể khác sẽ bị xóa bỏ. Ví dụ trong câu “What's the population of Biloxi, Mississippi?”, tồn tại các quan hệ:
[CITY:Biloxi]à(POPULATIONCOUNT)à[STRING:?][PROVINCE:Mississippi]à(POPULATIONCOUNT)à[STRING:?][CITY:Biloxi]à(SUBREGIONOF)à[PROVINCE:Mississippi]
Hai thực thể Biloxi và Mississippi cách nhau bởi dấu phẩy, do đó quan hệ thứ hai được xóa bỏ.
Nếu Ei và Ei+1 đứng liền kề nhau, hoặc cách nhau bằng từ quan hệ “’s”, thì các quan hệ của Ei với các thực thể trước nó sẽ bị xóa bỏ. Ví dụ, trong câu “What is the name of Neil Armstrong’s wife?” có các quan hệ:
[PERSON:Neil Armstrong]à( HASLABEL)à[LABEL:?][PERSON:*]à(HASLABEL)à[LABEL:?][PERSON:Neil Armstrong]à(HASWIFE)à[PERSON:*]
Vì thực thể wife có quan hệ với thực thể Neil Armstrong bằng từ quan hệ ‘s. Do đó quan hệ đầu tiên được xóa bỏ.
Trong trường hợp một thực thể có quan hệ với nhiều thực thể đứng trước nó, thì chỉ giữ lại mối quan hệ với thực thể không xác định đứng trước, gần nó nhất. Ví dụ, trong câu truy vấn “What city in Florida is Sea World in?” có ba loại quan hệ:
[COMPANY:Sea World]à(LOCATEDIN)à[CITY:?][CITY:?]à(LOCATEDIN)à[PROVINCE:Florida][COMPANY:Sea Word]à(LOCATEDIN)à[PROVINCE:Florida]
Quan hệ thứ hai bị xóa bỏ.
Xác định quan hệ giữa tính từ và thực thể
Tại bước này, ta sẽ xét các liên kết giữa tính từ và thực thể, được gọi là một bộ hai .
Xem xét câu truy vấn “What famous model was married to Billy Joel?”, tính từ famous nằm trước thực thể model. Đối với câu truy vấn “Name a tiger that is extinct?”, tính từ extinct nằm sau thực thể tiger. Như vậy, tính từ liên kết với một thực thể có thể nằm trước, hoặc nằm sau thực thể đó. Khi xem xét trên tập mẫu, tính từ xuất hiện nhiều nhất là ở trước thực thể. Do đó, để hình thành nên các bộ hai truy vấn , độ ưu tiên sẽ được quyết định dựa vào vị trí của tính từ đối với vị trí của thực thể. Ưu tiên nhất là tính từ nằm trước thực thể, cuối cùng là tính từ nằm sau thực thể. Các bộ hai sau đó sẽ được so trùng với Ontology để xác định kiểu quan hệ tương ứng có trong Ontology.
Dựa vào các phân tích trên, đề tài đưa ra giải thuật xác định kiểu quan hệ giữa tính từ và thực thể trong câu truy vấn như sau (Hình 4.4):
Hình 4.0.4: Xác định loại quan hệ giữa tính từ adj và thực thể.
Bước 1: Xét các thực thể nằm sau tính từ adj. Bằng việc sử dụng tập luật, nếu có thực thể ej nào khi kết hợp với adj mà xác định được kiểu quan hệ giữa adj và ej thì quá trình dừng, ngược lại qua Bước 2.
Bước 2: Xét các thực thể ei nằm ở trước adj.
Bằng giải thuật trên, chúng ta xác định được kiểu quan hệ giữa tính từ adj và e nếu giữa chúng có mối quan hệ với nhau trong ngữ cảnh của câu truy vấn. Quá trình được áp dụng tương tự cho tất cả các cặp tính từ, thực thể trong câu truy vấn. Các kiểu quan hệ tìm được sẽ được thêm vào danh sách quan hệ RELATION.
Việc xác định kiểu quan hệ được làm bằng cách ứng với mỗi bộ hai ta sẽ ánh xạ thành . Việc ánh xạ này cũng được thực hiện bằng giải pháp lập từ điển (Tập luật) và heuristic, tương tự quá trình ánh xạ bộ ba thành đã được trình bày tại Bước 4.1.9. Quá trình ánh xạ được khái quát bằng lược đồ Hình 4.5.
Hình 4.0.5: Lược đồ ánh xạ kiểu quan hệ giữa tính từ và thực thể.
Chi tiết cho lược đồ tại Hình 4.5 được diễn dịch như sau:
Xét mối quan hệ có dạng: [ADJ] – [E, S] với:
ADJ là tính từ,
E là lớp của thực thể liên kết với tính từ được xem xét.
S là giá trị chuỗi ban đầu của thực thể E.
Ta sẽ lần lượt xây dựng các ánh xạ sau đây:
Ánh xạ tính từ ADJ thành tập R1 các bộ ba quan hệ . Ví dụ, tính từ famous tương ứng với tập các bộ ba quan hệ {, , ,}
Ánh xạ (ADJ, E) thành tập R2 các bộ ba quan hệ có thể biểu diễn tính từ ADJ đối với thực thể E. Ví dụ, giữa tính từ famous và lớp PERSON, ta có thể có các bộ ba sau: {, }
Ánh xạ (ADJ, S) thành R3 - tập các bộ ba có thể có nếu biết tính từ ADJ và giá trị chuỗi ban đầu S. Ví dụ, (famous, model) sẽ được ánh xạ thành tập quan hệ {}
Ta có thể dễ dàng nhận thấy R2, R3 đều là tập con của R1. Gọi R là mối quan hệ thật sự biểu diễn bộ hai . Chắc chắn R Î R1 Ç R2 Ç R3. Như vậy, về lý thuyết ta có thể xác định được quan hệ R nếu xây dựng đầy đủ cả ba tập hợp trên.
Việc xây dựng tập ánh xạ R1, R2 và R3 được thực hiện bằng hệ thống luật. Chúng ta sẽ đi vào chi tiết về hệ thống luật này ở phần sau.
Xây dựng đồ thị ý niệm
Sau khi đã xác định được tất cả các quan hệ có trong câu truy vấn, bước này sẽ xây dựng đồ thị ý niệm mô tả câu truy vấn. Như ta đã phân tích ở trên, để mở rộng giải quyết cho những truy vấn hỏi về số lượng, truy vấn có tính từ, tính từ so sánh nhất, liên từ luận lý yêu cầu phải mở rộng CG. Phương pháp tiếp cận đã kế thừa và đồng thời hiệu chỉnh lại Bước 12 (Xây dựng đồ thị ý niệm) trong kết quả nghiên cứu của tác giả [18] để biểu diễn được những thành phần mới bổ sung của đồ thị ý niệm mở rộng. Chúng ta sẽ đi vào chi tiết về cách lưu trữ và hiển thị đồ thị ý niệm ở phần tiếp theo sau.
Tập luật
Như Mục 4.2.9 của Chương 4 đã phân tích, để xây dựng tập luật ánh xạ R3 và R4 ta cần phải xây dựng một hệ thống luật tổng quát, sao cho ta có thể dễ dàng mô tả thêm các luật mới nhưng vẫn không ảnh hưởng tới hệ thống. Như vậy nó sẽ làm cho hệ thống có tính tổng quát hơn, không bị bó buộc trên tập luật xác định nào đó. Để đạt được mục tiêu trên, ta sẽ xây dựng tập luật theo định dạng XML.
Mỗi luật trong hệ thống luật sẽ có dạng như sau:
“Nếu [điều kiện] thì [hành động]”
Trong đó phần điều kiện có những đặc tính sau:
Có ràng buộc về tên lớp thực thể, giá trị chuỗi ban đầu và kiểu thực thể.
Có thể xét một quan hệ hoặc nhiều quan hệ đồng thời.
Phần hành động có những đặc tính sau:
Cho phép thay đổi các giá trị về tên lớp, thay đổi định danh thực thể và xác định loại quan hệ.
Xóa thực thể hoặc quan hệ.
Phần này trình bày cấu trúc của tập luật dùng để ánh xạ bộ ba quan hệ thành quan hệ ngữ nghĩa.
Cấu trúc của hệ thống luật
Hệ thống luật được định nghĩa trong một tập tin XML, trong đó mỗi thành phần (Element) sẽ được mô tả theo định dạng DTD (Document Type Definition) như sau:
Thành phần root của tập tin là TransformRules, trong đó chứa nhiều thành phần rule.
<!ATTLIST rule
name CDATA #REQUIRED
priority CDATA #IMPLIED>
Hình 4.0.6: Cấu trúc tập thành phần TransformRules và rule.
Từ khóa ELEMENT được dùng để mô tả cấu trúc của một thành phần; từ khóa ATTLIST được dùng để mô tả các thuộc tính của một thành phần; CDATA mô tả kiểu dữ liệu chuỗi cho thuộc tính; #REQUIRED dùng mô tả tính chất bắt buộc của thuộc tính; #IMPLIED dùng mô tả tính chất không bắt buộc của thuộc tính. DTD dùng các ký hiệu “*”, “+” và “?” dùng để chỉ số lượng của một thành phần trong thành phần cha của nó. Ý nghĩa của mỗi ký hiệu như sau:
Dấu “*”: xuất hiện từ 0 đến n
Dấu “+”: xuất hiện từ 1 đến n
Dấu “?”: xuất hiện 0 hoặc 1
Định nghĩa thành phần TransformRules ở Hình 4.6, chỉ ra thành phần này có thể chứa nhiều thành phần rule, thành phần rule chứa hai thành phần premiselist và consequentlist. Ngoài ra, thành phần rule còn có hai thuộc tính là name và priority dùng để mô tả tên luật và độ ưu tiên của luật. Chúng ta sẽ lần lượt tìm hiểu cấu trúc các thành phần con trong thành phần rule tiếp theo sau đây.
Cấu trúc thành phần điều kiện của luật
Mỗi luật bao gồm hai phần: điều kiện và hành động. Phần điều kiện của luật được mô tả bằng thành phần premiselist, là con của thành phần rule. Thành phần premiselist bao gồm một hay nhiều thành phần premise, Hình 4.7 mô tả cấu trúc của một thành phần premise. Mỗi thành phần premise gồm có ba thành phần con là subject, relation và object tương ứng với một bộ ba mà ta đã thảo luận ở phần trên. Ý nghĩa của các thuộc tính trong các thành phần này được thể hiện trong Bảng 4.1. Ví dụ minh hoạ đặc tả thành phần premise có thể thấy tại Hình 4.8.
Tên thuộc tính
Đặc tả
var
Thuộc tính này dùng để đặt tên biến cho các thành phần, nhằm phân biệt các thành phần
value
Giá trị chuỗi ban đầu của thực thể. Ta có thể liệt kê tập các giá trị trong đó các thành phần cách nhau bằng dấu phẩy.
className
Thuộc tính ràng buộc tên lớp thực thể
classType
Thuộc tính dùng để ràng buộc kiểu thực thể như UE, IE
Bảng 4.1: Bảng thuộc tính thành phần premise.
Cấu trúc thành phần hành động của luật
Nếu một bộ ba nào đó thỏa mãn thành phần điều kiện luật thì hành động luật consequent sẽ được áp dụng cho bộ ba đó. Cấu trúc của thành phần hành động được mô tả như Hình 4.9.
Các thuộc tính của thành phần hành động cũng giống như phần tử điều kiện đã được mô tả trong Bảng 4.2. Ngoài ra, thành phần hành động còn có hai thuộc tính mới là quantifier và delete, thuộc tính quantifier dùng để gán giá trị định danh cho lớp, thuộc tính delete dùng để yêu cầu xóa thành phần đó. Hình 4.11 là ví dụ minh họa đặc tả một luật hoàn chỉnh.
<!ATTLIST subject
var CDATA #REQUIRED
value CDATA #IMPLIED
className CDATA #IMPLIED
classType CDATA #IMPLIED>
<!ATTLIST relation
var CDATA #REQUIRED
value CDATA #IMPLIED>
<!ATTLIST object
var CDATA #REQUIRED
value CDATA #IMPLIED
className CDATA #IMPLIED
classType CDATA #IMPLIED>
Hình 4.0.7: Cấu trúc của thành phần điều kiện luật.
Hình 4.0.8: Ví dụ về thành phần premise.
Xây dựng một số luật đặc biệt
Trong phần này ta sẽ xem xét một số trường hợp đặc biệt, các luật này được dùng cho bước gom các thực thể có cùng ngữ nghĩa trong câu truy vấn. Ví dụ câu truy vấn “Who was the president of Vichy France?”, các từ who và president đều biểu diễn cho thực thể không tên thuộc lớp PERSON, và chúng cách nhau bởi từ quan hệ was. Do đó who và president được gom lại thành một thực thể duy nhất. Luật đặc biệt cũng có cấu trúc như luật thường nhưng nó có độ ưu tiên là -1.
Xây dựng từ điển luật
Trong Ontology có rất nhiều quan hệ tương tự nhau như HASFATHER, HASMOTHER, HASCHILD, HASSISTER… Nếu ta áp dụng cấu trúc tập luật như đã nêu để xây dựng cho từng quan hệ này thì tập luật sinh rất giống nhau và rất dài dòng, nhiều thuộc tính ta không dùng tới.
Nhằm giúp cho quá trình đặc tả luật đơn giản hơn và tăng tốc trong quá trình xử lý, ta sẽ lập từ điển cho những cấu trúc này. Chúng ta sẽ đi vào chi tiết cấu trúc của tập tin từ điển mà sẽ được trình bày ngay sau đây.
<!ATTLIST subject
var CDATA #REQUIRED
value CDATA #IMPLIED
className CDATA #IMPLIED
classType CDATA #IMPLIED
quantifier CDATA #IMPLIED
delete CDATA #IMPLIED>
<!ATTLIST relation
var CDATA #REQUIRED
value CDATA #IMPLIED
delete CDATA #IMPLIED>
<!ATTLIST object
var CDATA #REQUIRED
value CDATA #IMPLIED
className CDATA #IMPLIED
classType CDATA #IMPLIED
quantifier CDATA #IMPLIED
delete CDATA #IMPLIED>
Hình 4.0.9: Cấu trúc của thành phần hành động.
Tập tin từ điển cũng được xây dựng theo định dạng XML. Hình 4.12 mô tả một thể hiện của tập tin từ điển. Trong cách thể hiện này, thành phần cao nhất của tập tin từ điển là dictionary, thành phần dictionary bản thân nó sẽ chứa tập các entry, trong đó mỗi entry với các thuộc tính subjvalue, relvalue, relation, dir sẽ thể hiện một luật. Các thuộc tính vừa nêu của thành phần entry sẽ được mô tả chi tiết trong Bảng 4.2.
<!ATTLIST entry
subjvalue CDATA #IMPLIED
relvalue CDATA #IMPLIED
objvalue CDATA #IMPLIED
relation CDATA #IMPLIED
dir CDATA #IMPLIED>
Hình 4.0.10: Cấu trúc từ điển quan hệ.
Hình 4.0.11: Ví dụ một luật hoàn chỉnh.
Tên thuộc tính
Đặc tả
subjvalue
Giá trị chuỗi ban đầu của chủ thể
relvalue
Giá trị chuỗi ban đầu của quan hệ
objvalue
Giá trị chuỗi ban đầu của khách thể
relation
Quan hệ sẽ áp dụng cho bộ ba nếu thỏa điều kiện
dir
Xác định chiều quan hệ, “1” từ chủ thể đến khách thể, ngược lại có giá trị là 2
Bảng 4.2: Mô tả các thuộc tính của thành phần entry.
<entry subjvalue="capital" relvalue="of" relation="hasCapital"
dir="2" />
<entry subjvalue="leader" relvalue="of" relation="hasLeader"
dir="2" />
Hình 4.0.12: Ví dụ một số thành phần trong từ điển.
Kết quả thí nghiệm
Kết quả phương pháp đề nghị trong đề tài được tiến hành đánh giá trên các câu truy vấn của tập dữ liệu mẫu TREC 2002 (Text REtrieval Conference).
TREC được tổ chức lần đầu tiên vào năm 1992 bởi viện NIST (National Institute of Standards and Technology) và Bộ Quốc Phòng Mỹ. Mục tiêu của nó là hỗ trợ cho các nghiên cứu trong lĩnh vực rút trích thông tin bằng việc cung cấp một nền tảng cần thiết cho việc đánh giá các phương pháp rút trích thông tin [15]. TREC bao gồm nhiều lĩnh vực nghiên cứu rút trích thông tin khác nhau, gọi là các track. Mỗi track được cung cấp một tập các dữ liệu, các bài toán mẫu để kiểm tra. Tùy vào từng track, tập dữ liệu kiểm tra có thể là câu hỏi, đoạn văn, hoặc là các đặc điểm có thể rút trích. Tập các câu hỏi mẫu được dùng trong đề tài lấy từ Question Answering Track của tập dữ liệu mẫu TREC 2002. Mục tiêu của Question Answering Track là đạt được việc rút trích thông tin từ các văn bản mẫu bằng việc trả lời các câu hỏi bằng ngôn ngữ tự nhiên.
Đề tài sử dụng 440 câu truy vấn về thực thể có tên của TREC 2002, bao gồm: 201 câu hỏi What; 3 câu hỏi Which; 62 câu hỏi Where; 67 câu hỏi Who; 45 câu hỏi When; 38 câu hỏi How và 24 câu hỏi không bắt đầu bằng từ để hỏi.
Các lỗi khi dịch sang đồ thị ý niệm thuộc vào các trường hợp sau:
Lỗi do quá trình nhận diện thực thể: GATE có thể không nhận diện được chính xác thực thể có trong câu truy vấn. Lỗi dạng này được ký hiệu là R-Error.
Lỗi do thiếu thực thể, thiếu lớp thực thể, cũng như thiếu quan hệ trên Ontology. Lỗi này cũng bao gồm các câu truy vấn có quan hệ nhiều hơn hai ngôi. Lỗi này được ký hiệu là O-Error. Ví dụ: “What year did Canada join the United Nations?”.
Lỗi do đồ thị ý niệm thông thường không biểu diễn đầy đủ ngữ nghĩa của câu truy vấn như là những câu truy vấn có chứa trạng từ, những câu truy vấn hỏi về kiểu quan hệ. Lỗi này được ký hiệu là Q-Error. Ví dụ các câu: “At Christmas time, what is the traditional thing to do under the mistletoe?”, “How was Teddy Roosevelt related to FDR?”.
Lỗi do phương pháp xây dựng đồ thị ý niệm. Đó là mặc dù GATE nhận diện chính xác thực thể, từ quan hệ và các quan hệ trong câu cũng tồn tại trên Ontology, nhưng đồ thị ý niệm không xây dựng được hoặc xây dựng không chính xác. Các lỗi này có thể do xác định không đúng lớp của thực thể chưa xác định lớp, lỗi do gom sai thực thể, lỗi do thêm từ quan hệ không phù hợp hoặc lỗi do bước hiệu chỉnh quan hệ ngữ nghĩa. Các lỗi này được ký hiệu là M-Error.
Bảng 4.3 là thống kê kết quả thực nghiệm đã đạt được từ kết quả nghiên cứu của tác giả [18]. Số truy vấn còn tồn đọng mà phương pháp của tác giả chưa giải quyết là 92 câu với các lỗi được phân bố như sau:
Loại câu
R-Error
M-Error
Q-Error
O-Error
Chính xác
Tổng cộng
How many
1
12
3
16
Tính từ
6
6
Tính từ so sánh nhất
14
21
35
Liên từ luận lý
1
1
Loại khác
7
2
25
34
Tổng cộng
0
8
35
49
0
92
(%)
0.00%
1.82%
7.95%
11.14%
0.00%
20.91%
Bảng 4.3: Kết quả thực nghiệm trên TREC 2002 khi chưa áp dụng phương pháp đề nghị.
Sau khi áp dụng phương pháp đề nghị, cùng với bổ sung thêm 11 thực thể có tên, 20 thực thể không tên, 5 từ quan hệ vào cơ sở tri thức, ta có kết quả như trình bày ở Bảng 4.4.
Loại câu
R-Error
M-Error
Q-Error
O-Error
Chính xác
Tổng cộng
How many
1
1
7
7
16
Tính từ
4
2
6
Tính từ so sánh nhất
22
13
35
Liên từ luận lý
1
1
Loại khác
3
2
26
3
34
Tổng cộng
0
4
3
59
26
92
(%)
0.00%
0.91%
0.68%
13.41%
5.91%
20.91%
Bảng 4.4: Kết quả thực nghiệm trên TREC 2002 sau khi áp dụng phương pháp đề nghị.
Từ bảng kết quả thực nghiệm trên, ta có nhận xét là sau khi áp dụng phương pháp đề nghị, số lượng lỗi Q-Error giảm, tuy nhiên có bất thường là lỗi O-Error lại tăng lên. Điều này là do các truy vấn lỗi Q-Error thực chất có bao hàm trong nó lỗi O-Error (do thiếu một số lớp và quan hệ trong Ontology) hoặc lỗi M-Error (do phương pháp còn hạn chế chưa giải quyết được). Cho nên sau khi áp dụng phương pháp đề nghị, một số truy vấn mặc dù đã được giải quyết lỗi thuộc về Q-Error nhưng những lỗi thuộc về O-Error hoặc M-Error đã tồn tại từ trước nên vẫn còn tồn đọng và do đó một số lượng lỗi Q-Error sẽ được phân loại lại thành lỗi O-Error hoặc lỗi M-Error. Đây là nguyên nhân làm cho số lượng lỗi O-Error và M-Error sau khi áp dụng phương pháp đề nghị tăng lên.
Cuối cùng, sau khi bổ sung thêm 33 lớp thực thể, 23 quan hệ còn thiếu vào Ontology, ta có kết quả như trình bày tại Bảng 4.5.
Loại câu
R-Error
M-Error
Q-Error
O-Error
Chính xác
Tổng cộng
How many
1
1
3
11
16
Tính từ
6
6
Tính từ so sánh nhất
21
14
35
Liên từ luận lý
1
1
Loại khác
3
2
20
9
34
Tổng cộng
0
4
3
44
41
92
(%)
0.00%
0.91%
0.68%
10.00%
9.32%
20.91%
Bảng 4.5: Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology.
Trong 51 câu truy vấn không giải quyết được ta có 44 câu thuộc về lỗi O-Error, 3 câu thuộc về lỗi Q-Error và 4 câu thuộc về lỗi M-Error.
Đối với 44 trường hợp lỗi O-Error, tất cả các câu truy vấn này đều thuộc về truy vấn chứa quan hệ ba ngôi.
Trong 3 lỗi thuộc về Q-Error có 1 truy vấn mà nội dung truy vấn liên quan tới kiểu quan hệ chứ không phải thực thể, chúng tôi tạm gọi đây là “Queried relation”, 1 câu truy vấn có trạng từ hoặc nhân tố thời gian trong câu, chúng tôi tạm gọi những câu truy vấn loại này là “Adverb/Temporal query”, 1 truy vấn có kiểu quan hệ ẩn trong danh từ chứ không phải động từ. Ta sẽ đi vào phân tích chi tiết các trường hợp lỗi nêu trên.
Đối với lỗi “Queried relation”, ta xét câu truy vấn sau: “How was Teddy Roosevelt related to FDR?”. Đối với câu truy vấn này, nội dung truy vấn sẽ chỉ vào quan hệ giữa thực thể Teddy Roosevelt và thực thể FDR. Tuy nhiên phương pháp đề nghị trong đề tài chỉ hỗ trợ truy vấn các thực thể không tên hoặc các thuộc tính của thực thể chứ chưa hỗ trợ truy vấn cho kiểu quan hệ. Điều này là nguyên nhân dẫn đến lỗi “Queried relation”.
Để giải quyết các truy vấn “Queried relation”, phương pháp đề xuất mở rộng phạm vi biểu diễn truy vấn mà cho phép truy vấn vào kiểu quan hệ. Ví dụ, với câu truy vấn trên, một biểu diễn đề nghị sẽ có dạng như sau, trong đó tham chiếu nghi vấn (“?”) được đặt vào quan hệ Relation:
Hình 4.0.13: Ví dụ về biểu diễn câu truy vấn “Queried relation”.
Tiếp theo ta tiến hành phân tích lỗi “Adverb/Temporal query”, ta xét câu truy vấn sau: “At Christmas time, what is the traditional thing to do under the mistletoe?”. Đối với câu truy vấn này, ngữ cảnh của câu truy vấn sẽ bị giới hạn bởi nội dung của trạng từ “At Christmas time”. Để giải quyết được các lỗi “Adverb/Temporal query”, phương pháp đề nghị cần phải hỗ trợ được khả năng biểu diễn được trạng từ trong câu truy vấn, các ràng buộc về ngữ cảnh của câu truy vấn. Ví dụ, với câu truy vấn trên, một biểu diễn đề nghị sẽ có dạng như sau:
Hình 4.0.14: Ví dụ về biểu diễn câu truy vấn “Advert / Temporal”.
Ta xét câu truy vấn có quan hệ là một danh từ, mà không phải động từ như sau: “How many highway miles to the gallon can you get with the Ford Fiesta?”. Ta thấy trong câu truy vấn này, danh từ “gallon” trong câu là nhân tố để xác định được thuộc tính số mile mà thực thể Ford Fiesta đi được trong một gallon nguyên liệu. Như ta đã phân tích, phương pháp đề nghị trong luận văn này chỉ dùng các từ quan hệ (động từ, giới từ) làm chiếc cầu nối để xác định kiểu quan hệ trong câu truy vấn. Do đó để có thể giải quyết câu truy vấn lỗi thuộc loại này, phương pháp đề nghị cần phải mở rộng từ quan hệ bao hàm luôn cả các danh từ.
Đối với các lỗi về M-Error, nguyên nhân là do phương pháp không thể phân biệt được chính xác từ quan hệ và thực thể đối với một số từ vựng tiếng Anh. Thật vậy, ta xét câu truy vấn sau: “How many home runs did Babe Ruth hit in his lifetime?”. Trong câu truy vấn này, mô đun chú giải không thể phân biệt được “hit” là một động từ hay một
Các file đính kèm theo tài liệu này:
- Xử lý các câu truy vấn và tìm kiếm trên kho tài liệu có chú thích ngữ nghĩa bằng tiếng anh.doc