Luận án Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở

MỤC LỤC

Lời cam đoan . i

Lời cảm ơn . ii

Tóm tắt . iii

Abstract. iv

Mục lục. v

Danh mục các bảng . vii

Danh mục các hình . ix

Danh mục các giải thuật . x

Danh mục thuật ngữviết tắt . xi

Chương 1: GIỚI THIỆU . 1

1.1 Lịch sửvà động cơnghiên cứu . 1

1.2 Bài toán và phạm vi . 15

1.3 Phương pháp luận đềxuất . 17

1.4 Những đóng góp chính của luận án . 24

1.5 Cấu trúc của luận án. 26

Chương 2: NỀN TẢNG KIẾN THỨC . 28

2.1 Giới thiệu . 28

2.2 Ontology . 29

2.3 Wikipedia . 36

2.4 Mô hình không gian véctơ. 45

2.5 Nhận dạng thực thểcó tên . 46

2.6 Phân giải đồng tham chiếu trong một văn bản. 51

2.7 Phân giải nhập nhằng . 59

2.8 Kết luận . 72

Chương 3: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY . 74

3.1 Giới thiệu . 74

3.2 Phân hạng ứng viên dựa trên ontology . 75

3.3 Các độ đo hiệu quảmới . 80

3.4 Thí nghiệm và đánh giá . 84

3.5 Kết luận . 91

Chương 4: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY ĐƯỢC LÀM

GIÀU . 93

4.1 Giới thiệu . 93

4.2 Mô hình phân hạng ứng viên dựa trên thống kê . 95

4.3 Làm giàu ontology . 106

4.4 Thí nghiệm và đánh giá . 110

4.5 Kết luận . 111

Chương 5: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN WIKIPEDIA . 113

5.1 Giới thiệu . 113

5.2 Phương pháp lai . 116

5.3 Thí nghiệm và đánh giá . 125

5.4 Kết luận . 130

Chương 6: TỔNG KẾT . 132

6.1 Tóm tắt . 132

6.2 Hướng nghiên cứu mởrộng . 135

CÁC CÔNG TRÌNH CỦA TÁC GIẢLIÊN QUAN ĐẾN LUẬN ÁN . 137

TÀI LIỆU THAM KHẢO . 138

164 trang | Chia sẻ: netpro | Lượt xem: 2213 | Lượt tải: 1Free

Bạn đang xem trước 20 trang tài liệu Luận án Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

CS (2003), Rough và CS (2003), Pouliquen và CS (2004), Andogah và CS (2008) chọn vùng địa lý có dân số đông nhất. Schilder và CS (2004) thiết lập mặc định cho các ứng viên là thủ đô, hoặc thủ phủ của một vùng khi chỉ có một ứng viên thuộc các lớp này. Buscaldi và Rosso (2008) đề xuất và đánh giá hai phương pháp phân giải nhập nhằng; một phương pháp dựa trên bản đồ và một phương pháp dựa trên ontology (cụ thể là WordNet). Đối với phương pháp dựa trên bản đồ, ứng viên của một tên nhập nhằng sẽ được chọn nếu khoảng cách của nó đến trọng tâm của tài liệu là nhỏ nhất. Đối với phương pháp dựa trên ontology, ứng viên của một tên nhập nhằng sẽ được chọn nếu mật độ khái niệm (conceptual density) của nó là lớn nhất. Nhìn chung các phương pháp dựa trên luật khai thác các đặc trưng đặc thù đối với các vùng địa lý, do đó khó điều chỉnh để áp dụng cho các thực thể thuộc các lớp khác như con người hay tổ chức. Nhóm thứ hai là nhóm các phuơng pháp áp dụng các kỹ thuật học máy (Smith và Mann, 2003; Garbin và Mani, 2005; Overell và Rüger, 2008). Smith và Mann (2003) xây dựng một tập huấn luyện tự động dựa trên các mẫu như “Nashville, Tenn.” hoặc “Springfield, MA”. Một bộ phân lớp Naive Bayes được huấn luyện dựa trên tập huấn luyện này, và sau đó được áp dụng để phân giải nhập nhằng cho các vùng địa lý trong một tài liệu mới. Garbin và Mani (2005) cũng xây dựng tự động tập huấn luyện bằng cách khai thác các từ xuất hiện trong cửa sổ ngữ cảnh ±5 từ xung quanh tên nhập nhằng. SVM sau đó được triển khai để học một bộ phân lớp, trong đó ±3 (hoặc ±20) token xung quanh các tên nhập nhằng được khai thác như là các đặc trưng. Overell và Rüger (2008) khai thác Wikipedia để phân giải nhập nhằng các vùng địa lý. Các tác giả xem tập các vùng địa lý trong Wikipedia như là tập huấn luyện, trong đó mỗi thực thể được biểu diễn bởi các thông tin rút trích từ infobox của thực thể đó. SVM được triển khai để phân giải nhập nhằng. Các tác giả khai thác ngữ cảnh bao gồm ±10 tên của các vùng địa lý xung quanh tên nhập nhằng đang được xem xét, không quan tâm đến các từ không là một phần của các tên này. Trong số các phương pháp học máy áp dụng cho các 2.7.Phân giải nhập nhằng 65 vùng địa lý thì phương pháp của Overell và Rüger (2008) là khả chuyển, và có thể điều chỉnh để áp dụng cho các thực thể khác các vùng địa lý. Mặc dù đã được quan tâm nghiên cứu từ cuối những năm 90, cho đến nay vẫn chưa có một tập dữ liệu mẫu chung để đánh giá và so sánh các phương pháp phân giải nhập nhằng các vùng địa lý khác nhau (Overell, 2009). Hơn nữa, do chỉ tập trung vào các vùng địa lý, các phương pháp chỉ quan tâm đến mối quan hệ giữa các vùng địa lý, bỏ qua mối quan hệ giữa các vùng địa lý với các thực thể khác các vùng địa lý. Theo chúng tôi thì các mối quan hệ này là thật sự có ý nghĩa đối với việc phân giải nhập nhằng các vùng địa lý. Ví dụ, khi “Mikhail Saakashvili” đứng bên cạnh “Georgia”, thì “Georgia” nhiều khả năng là đề cập đến quốc gia Gruzia hơn là tiểu bang Georgia của Mỹ. Phân giải nhập nhằng thực thể có tên Các nghiên cứu phân giải nhập nhằng thực thể có tên tập trung vào các thực thể khác các vùng địa lý cũng thu hút được nhiều sự quan tâm. Hassell và CS (2006) đề xuất phương pháp nhận dạng và ánh xạ từng tên của từng ủy viên hội đồng phản biện trên các trang web hội nghị khoa học vào đúng thực thể mà mỗi tên đó đề cập đến trong một ontology. Các tác giả khai thác tên của tổ chức nơi một người làm việc; mảng nghiên cứu của các ủy viên như web có ngữ nghĩa, cơ sở dữ liệu, . . .; quan hệ đồng tác giả; và số lượng ấn phẩm xuất bản của một người để phân hạng các thực thể ứng viên. Tuy nhiên, các đặc trưng mà nghiên cứu này khai thác là đặc thù đối với các trang web hội nghị khoa học, do đó khó điều chỉnh cho các văn bản thuộc các lĩnh vực khác. Fernandez và CS (2007) đặt mục tiêu nhận dạng các thực thể có tên trên các văn bản trong lĩnh vực tin tức, và ánh xạ chúng vào đúng các thực thể được đề cập đến trong một ontology. Các tác giả khai thác tần suất đồng xuất hiện của các thực thể trong quá khứ, tần suất xuất hiện của các thực thể trong 7 ngày, và tần suất xuất hiện của các thực thể trong 17 chủ đề ở mức cao của các bản tin để phân hạng và chọn các thực thể ứng viên có hạng cao nhất. Phương pháp được đề xuất trong Fernandez và CS (2007) là bán tự động, vì quá trình phân giải nhập nhằng có sự kết hợp giữa người và máy. Điều đó thể hiện ở chỗ, kết quả phân giải nhập nhằng sẽ được hiển thị cho người sử dụng điều chỉnh kết quả nếu cần và cập nhật tập dữ liệu huấn luyện sử dụng các kết quả vừa điều chỉnh. Bunescu và Paşca (2006) khai thác Wikipedia để phân giải nhập nhằng. Cụ thể là các tác giả khai thác các nguồn thông tin bao gồm: các trang thực thể, các trang đổi hướng, các 66 Chương 2.Nền tảng kiến thức trang phân giải nhập nhằng, thể loại của các trang thực thể, các liên kết trong các trang thực thể. Các tác giả trước tiên xây dựng một từ điển các thực thể có tên, bằng cách sử dụng một số heuristic để loại đi các trang mô tả đến các khái niệm chung chung, không phải các thực thể có tên. Kết quả thu được một từ điển, mà mỗi mục là một tên xuất hiện trong Wikipedia, và các “nghĩa” của nó là các thực thể có tên trùng với mục đó. Hay nói cách khác là mỗi mục của từ điển liên kết với các ứng viên mà tên tương ứng đề cập đến trong Wikipedia. Ví dụ, với mục “John Williams”, “nghĩa” của nó gồm có các thực thể được mô tả bởi các trang thực thể có nhan đề “John Williams (composer)”, “John Williams (wrestler)”, “John Williams (VC)”, . . . Các liên kết trong các trang của Wikipedia được khai thác để xây dựng tập dữ liệu huấn luyện. Cụ thể là, 55 từ xung quanh một liên kết sẽ được rút trích để xây dựng tập dữ liệu huấn luyện. Bảng 2.4 trình bày một ví dụ minh họa về tập mẫu mà Bunescu và Paşca (2006) xây dựng dựa vào các liên kết, trong đóδ nhận giá trị 1 khi thực thể là câu trả lời đúng của truy vấn, ngược lại δ nhận giá trị 0. Bảng 2.4: Minh họa tập dữ liệu huấn luyện của Bunescu và Paşca (2006) δ Truy vấn Thực thể 1 Boston Pops conduct ... John Williams (composer) 0 Boston Pops conduct ... John Williams (wrestler) 0 Boston Pops conduct ... John Williams (VC) 1 lost Taipei match ... John Williams (composer) 0 lost Taipei match ... John Williams (wrestler) 0 lost Taipei match ... John Williams (VC) 1 won Victoria Cross ... John Williams (composer) 0 won Victoria Cross ... John Williams (wrestler) 0 won Victoria Cross ... John Williams (VC) Các truy vấn trong tập dữ liệu huấn luyện được biểu diễn bởi các véctơ, và các thực thể trong Wikipedia cũng được biểu diễn bởi các véctơ, với mỗi chiều của một véctơ (véctơ truy vấn hoặc véctơ thực thể) tương ứng với một từ trong tập các từ trích từ tất cả các trang thực thể trong Wikipedia. Mô hình học có giám sát SVM được triển khai để phân hạng các ứng viên dựa trên hai yếu tố là cosine giữa véctơ truy vấn và véctơ thực thể, và 2.7.Phân giải nhập nhằng 67 mức độ tương quan giữa các từ trong truy vấn và các từ xuất hiện trong nhãn thể loại của thực thể tương ứng (ví dụ: “concert” có tương quan với nhãn thể loại “Musicians” mạnh hơn so với nhãn thể loại “Professional Wrestlers”). Cucerzan (2007) cũng đề xuất phương pháp phân giải nhập nhằng thực thể có tên dựa trên Wikipedia, khai thác các nguồn thông tin trên Wikipedia như trong Bunescu và Paşca (2006). Tác giả dựa vào nhan đề của các trang thực thể, nhan đề của các trang đổi hướng, nhãn của các liên kết trong các trang phân giải nhập nhằng, nhãn của các thể loại của các trang thực thể, và nhãn của các liên kết trong các trang thực thể để xây dựng một cơ sở dữ liệu về các thực thể có tên trong Wikipedia. Cơ sở dữ liệu này lưu trữ mối quan hệ nhiều- nhiều giữa các tên và các thực thể, cho thấy một tên đề cập đến bao nhiêu thực thể khác nhau, một thực thể có bao nhiêu tên khác nhau, và các đặc trưng biểu diễn các thực thể đó. Cụ thể, tác giả trích hai loại đặc trưng sau để biểu diễn mỗi thực thể: • Nhãn của tất cả các thể loại của thực thể; • Ngữ cảnh của thực thể. Ngữ cảnh của một thực thể, theo Cucerzan (2007), bao gồm nhãn của các liên kết ra xuất hiện trong đoạn đầu tiên của trang thực thể tương ứng, và phần văn bản phân giải nhập nhằng trên nhan đề của các trang thực thể (ví dụ: “TV series” được xem là một đặc trưng thuộc ngữ cảnh của thực thể được mô tả bởi trang có nhan đề “Texas (TV series)”. Mỗi đặc trưng được tác giả xem là một ngữ cảnh. Cucerzan (2007) thực hiện phân giải nhập nhằng đồng thời cho tất cả tên xuất hiện ở các vị trí khác nhau trong văn bản, bằng cách tính toán để chọn một bộ các ứng viên phù hợp cho tất cả các tên, thông qua việc cực đại sự hòa hợp giữa thể loại của các ứng viên được chọn và cực đại độ tương tự giữa ngữ cảnh của văn bản và ngữ cảnh của các ứng viên được chọn. Lưu ý là phương pháp của Cucerzan (2007) mở rộng ngữ cảnh của văn bản sử dụng thể loại của tất cả các ứng viên. Cách phân giải đồng thời tất cả các tên trong một văn bản như thế sẽ dẫn đến giải bài toán NP-khó (Kulkarni và CS, 2009; Pilz và CS, 2009). Fader và CS (2009) dựa trên ý tưởng của Bunescu và Paşca (2006), Cucerzan (2007), và Medelyan và CS (2008). Chúng tôi (Nguyen và Cao, 2008a, 2008b) không xây dựng mô hình đồng thời cho các tên, mà xây dựng từng mô hình riêng rẽ cho từng tên một. Cả Bunescu và Paşca (2006) và Cucerzan (2007) đều xây dựng các véctơ với số chiều lớn. Số chiều của mỗi véctơ trong 68 Chương 2.Nền tảng kiến thức phương pháp của Bunescu và Paşca (2006) bằng tổng các từ trích từ các trang thực thể trong Wikipedia. Số chiều của mỗi véctơ trong phương pháp của Cucerzan (2007) bằng tổng số nhãn các thể loại trong hệ thống phân loại của Wikipedia và các ngữ cảnh của các thực thể. Trong khi đó, bởi vì số ứng viên có thể dễ dàng xác định được thông qua bước truy hồi ứng viên, do đó các phương pháp của chúng tôi xây dựng mô hình không gian véctơ cho mỗi tên dựa vào các đặc trưng rút trích để biểu diễn các ứng viên của tên đó; điều này giúp thu giảm đáng kể số chiều của các véctơ. Phân giải nhập nhằng các từ khóa Vài năm gần đây, một số công trình nghiên cứu đã thực hiện rút trích các từ khóa quan trọng trong một văn bản, bao gồm cả tên riêng, sau đó ánh xạ chúng vào đúng trang mô tả ngữ nghĩa của từ khóa đó trong Wikipedia. Các phương pháp đề xuất bao gồm hai bước chính đó là rút trích các từ khóa (hay các cụm từ đặc trưng) trong một văn bản và phân giải nhập nhằng khi từ khóa này có nhiều nghĩa được tìm thấy trong Wikipedia. Ở bước thứ nhất, trước tiên các n-gram (cụm từ có n token) sẽ được xác định, sau đó các n-gram được xem là ít quan trọng đối với văn bản sẽ bị loại bỏ. Thường thì các n-gram bị loại là các n-gram khi bị thay đổi sẽ không làm ảnh hưởng đến ngữ nghĩa của văn bản. Như vậy, vấn đề ở bước thứ nhất là làm sao biết các cụm từ nào là các từ khóa quan trọng đối với một văn bản. Một số phương pháp sử dụng độ đo sự đặc trưng của một cụm (keyp- hraseness) để xác định mức độ quan trọng của một cụm từ đối với một văn bản. Các cụm từ nào có giá trị độ đo sự đặc trưng vượt qua một ngưỡng thực nghiệm sẽ được chọn như là các từ khóa của văn bản. Mihalcea và Csomai (2007) đề xuất độ đo sự đặc trưng của một cụm bằng cách tính xác suất để một n-gram xuất hiện như là một liên kết trong Wikipedia. Mức độ đặc trưng của một n-gram a được tính bằng tỉ lệ giữa số trang trong Wikipedia mà có chứa a là nhãn của một liên kết và tổng số trang có xuất hiện a. Medelyan và CS (2008) mở rộng phương pháp đo mức độ đặc trưng của Frank và CS (1999) áp dụng cho Wikipe- dia. Milne và Witten (2008) khai thác ngữ cảnh xung quanh các liên kết trong Wikipedia để học các khái niệm nên hay không nên ánh xạ một n-gram vào một trang trong Wikipe- dia. Bước thứ hai là thực hiện phân giải nhập nhằng cho các từ khóa có nhiều nghĩa trong Wikipedia. Mihalcea và Csomai (2007) đề xuất hai phương pháp, một phương pháp dựa trên tri thức (Lesk, 1986) và một phương pháp học có giám sát (Mihalcea, 2007). Các tác 2.7.Phân giải nhập nhằng 69 giả xem Wikipedia như là một tập dữ liệu huấn luyện, mỗi trang thực thể trong Wikipedia là một tài liệu với các liên kết là các nhãn. Từ đang xét, 3 từ đứng trước và 3 từ đứng sau nó, cùng với từ loại của chúng được sử dụng như là các đặc trưng. Medelyan và CS (2008) phân hạng các ứng viên (các nghĩa có thể) của một từ khóa bằng cách khai thác mối quan hệ ngữ nghĩa giữa một từ khóa với ngữ cảnh xuất hiện xung quanh nó và mức độ phổ biến (commonness) của ứng viên đó trong Wikipedia. Mối quan hệ ngữ nghĩa được tính toán dựa trên sự trùng lắp ngữ cảnh giữa các từ khóa đã được xác định trong văn bản và các liên kết vào của các ứng viên. Các tác giả xem một thực thể a là phổ biến hơn thực thể b trong Wikipedia nếu a có nhiều liên kết vào hơn b. Milne và Witten (2008) mở rộng nghiên cứu của Medelyan và CS (2008) bằng cách điều chỉnh công thức phân hạng ứng viên và triển khai một mô hình học SVM để phân giải nhập nhằng. Cụ thể, các tác giả triển khai mô hình học có giám sát SVM sử dụng mức độ phổ biến và mối quan hệ ngữ nghĩa để học một bộ phân lớp dựa trên tập huấn luyện là các trang thực thể trong Wikipedia, như trong Mihalcea và Csomai (2007), sau đó sử dụng bộ phân lớp này để phân giải nhập nhằng cho các từ khóa trong một tài liệu mới. Kulkarni và CS (2009) đề xuất phương pháp tương tự như Milne và Witten (2008) với sự khác biệt là các tác giả tối ưu đồng thời các ánh xạ và giải bài toán NP-khó bằng hai phương pháp tối ưu là qui hoạch nguyên và chiến lược leo đồi. Trong Nguyen và Cao (2007a, 2007b) chúng tôi đã đề xuất phương pháp dựa trên mối quan hệ ngữ nghĩa của một ứng viên với ngữ cảnh xuất hiện xung quanh nó để phân hạng ứng viên đó. Mối quan hệ ngữ nghĩa được tính toán dựa vào mối quan hệ dựa trên ontology của ứng viên với các thực thể đã được xác định trong văn bản. Hàm tính toán mối quan hệ ngữ nghĩa của hai thực thể x và y bất kì của chúng tôi chỉ nhận giá trị 0 hoặc 1, cho biết giữa x và y có mối quan hệ hay không. Trong đó mối quan hệ có thể là từ x vào y, từ y vào x, hoặc cả hai chiều. Nhìn chung, khi so sánh với các công trình liên quan đã có, ngoài các điểm tương phản cụ thể như đã phân tích ở trên, điểm nổi bật nhất của luận án là phương pháp luận phân giải nhập nhằng lặp cải thiện dần dựa trên các thực thể đã được xác định. Ý tưởng này chưa được đề cập trong các công trình liên quan. 70 Chương 2.Nền tảng kiến thức Các độ đo hiệu quả phân giải nhập nhằng Để đánh giá hiệu quả của một phương pháp phân giải nhập nhằng thực thể có tên sử dụng một cơ sở tri thức, cần phải có một tập dữ liệu mẫu, trong đó các ánh xạ từ các tên trong các văn bản đến đúng các thực thể trong nguồn tri thức sử dụng được thực hiện thủ công bởi con người. Sau đó cần định nghĩa một ánh xạ được thực hiện bởi một phương pháp phân giải nhập nhằng nào đó là đúng hay sai so với ánh xạ tương ứng do con người thực hiện. Điều này được thực hiện bằng cách so sánh ánh xạ của phương pháp với ánh xạ tương ứng trong tập dữ liệu mẫu. Cuối cùng, cần định nghĩa các độ đo để đánh giá sự sai lệch giữa các ánh xạ thực hiện bởi một phương pháp phân giải nhập nhằng và các ánh xạ chuẩn vàng. Các độ đo độ chính xác, độ đầy đủ và độ F đã được sử dụng rộng rãi để đánh giá hiệu quả nhận dạng thực thể có tên, truy hồi tài liệu, phân giải nhập nhằng ngữ nghĩa từ vựng, phân giải nhập nhằng thực thể có tên, . . . Các công thức tính toán độ chính xác, độ đầy đủ và độ F đã được trình bày trong Phần 2.5, trong ngữ cảnh bài toán nhận dạng thực thể có tên. Các độ đo này cũng được áp dụng để đánh giá hiệu quả của các phương pháp phân giải nhập nhằng thực thể có tên. Khi đánh giá hiệu quả của một phương pháp phân giải nhập nhằng thực thể có tên, các nghiên cứu liên quan tập trung vào các tên đề cập đến các thực thể thật sự tồn tại trong một cơ sở tri thức cụ thể, không quan tâm đến các thực thể nằm ngoài cơ sở tri thức đó. Do đó, một kết quả phân giải nhập nhằng được xem là đúng nếu và chỉ nếu tên tương ứng được ánh xạ vào đúng thực thể trong một cơ sở tri thức; ngược lại kết quả phân giải nhập nhằng được xem là sai. Các nghiên cứu liên quan cũng không xem xét các trường hợp khi các tên xuất hiện trong văn bản được nhận ra bán phần. Sau đây chúng tôi trình bày các độ đo được sử dụng rộng rãi để đánh giá hiệu quả phân giải nhập nhằng trong các nghiên cứu liên quan. Gọi Tall là số ánh xạ chuẩn vàng trên một tập dữ liệu, TC là số ánh xạ thực hiện đúng, TI là số ánh xạ thực hiện không đúng của một phương pháp phân giải nhập nhằng, và TR là tổng của TC và TI. Leidner (2007) đã điều chỉnh các độ đo như được trình bày trong các phương trình (2.1), (2.2) và (2.4) để đánh giá hiệu quả phân giải nhập nhằng thực thể có tên, giới hạn trong các vùng địa lý, trong đó mỗi ánh xạ trả về bởi một hệ thống phân giải nhập nhằng được xem là một response và một ánh xạ chuẩn vàng được xem là một key. Các độ đo được định nghĩa như sau: 2.7.Phân giải nhập nhằng 71 Định nghĩa 2.1: Độ chính xác Độ chính xác P là tỉ lệ giữa tổng số ánh xạ được thực hiện đúng và tổng số ánh xạ được thực hiện bởi một hệ thống phân giải nhập nhằng thực thể có tên. P = R C IC C T T TT T =+ (2.7) Định nghĩa 2.2: Độ đầy đủ Độ đầy đủ R là tỉ lệ giữa số ánh xạ được thực hiện đúng bởi một hệ thống phân giải nhập nhằng thực thể có tên và tổng số ánh xạ chuẩn vàng. R = all C T T (2.8) Bảng 2.5: Minh họa đánh giá hiệu quả phân giải nhập nhằng của một phương pháp phân giải nhập nhằng các vùng địa lý (Leidner, 2007). Tên Ánh xạ đúng (TC) Ánh xạ sai (TI) Tổng số ánh xạ thực hiện (TR) London • • Ontario • • Paris • • Paris • • Buffalo New York Tổng: 3 1 4 P = 13 3 + = 0.75; R = 6 3 =0.50; F = 500750 5007502 .. .x.x + = 0.6 Định nghĩa 2.3: Độ Fβ Cho độ chính xác P và độ đầy đủ R, độ Fβ được định nghĩa như sau: Fβ = RPβ PRβ + )+( 2 2 1 (2.9) 72 Chương 2.Nền tảng kiến thức Định nghĩa 2.4: Độ F (Fβ với β bằng 1) F = RP PR + 2 (2.10) Bảng 2.5 trình bày một ví dụ của Leidner (2007), trong đó các độ đo được sử dụng để đánh giá hiệu quả của một phương pháp phân giải nhập nhằng các vùng địa lý. Số liệu trong Bảng 2.5 cho thấy tổng số ánh xạ thực hiện thủ công là 6, tổng số ánh xạ thực hiện đúng là 3, tổng số ánh xạ sai là 1, và tổng số ánh xạ được thực hiện bởi hệ thống là 4. Độ chính xác và độ đầy đủ là các độ đo bù nhau (hoặc bổ sung cho nhau). Một hệ thống đạt được độ chính xác càng cao thì tỉ lệ giữa các ánh xạ được thực hiện đúng và tổng số ánh xạ được thực hiện bởi hệ thống càng cao, thậm chí hệ thống có thể không thực hiện ánh xạ cho một số tên xuất hiện trong văn bản. Ví dụ, giả sử có năm trường hợp cần thực hiện ánh xạ, nếu hệ thống thực hiện ánh xạ cho hai trường hợp, trong đó có một trường hợp đúng, thì độ chính xác là 1/2 = 50% bất kể ba trường hợp còn lại không được ánh xạ. Ngược lại, một hệ thống đạt được độ đầy đủ càng cao sẽ có tỉ lệ giữa các ánh xạ được thực hiện đúng và các ánh xạ chuẩn vàng càng cao, mà không quan tâm hệ thống thật sự thực hiện bao nhiêu ánh xạ. Lấy lại ví dụ vừa trình bày, độ đầy đủ sẽ là 1/5 = 25%, không quan tâm đến tổng số ánh xạ được thực hiện bởi hệ thống. Như đã giới thiệu ở Phần 2.5, để có một độ đo chung giữa độ chính xác và độ đầy đủ, độ Fβ đã được giới thiệu (van Rijsbergen, 1979), với tham số β là trọng số xác định ảnh hưởng của độ chính xác và độ đầy đủ trong độ đo chung này. Khi trọng số gán cho độ chính xác và độ đầy đủ bằng nhau, độ Fβ trở thành trung bình điều hòa giữa độ chính xác và độ đầy đủ và được định nghĩa như trong phương trình 2.10. Trong thực tế, khi muốn sử dụng độ đo chung giữa độ chính xác và độ đầy đủ, người ta thường dùng độ F (Fβ với β bằng 1) hơn là Fβ với một giá trị β nào đó. 2.8 Kết luận Trong chương này chúng tôi trình bày các kiến thức nền tảng được sử dụng trong luận án, và khảo sát các nghiên cứu về phân giải nhập nhằng thực thể có tên cho đến thời điểm hiện tại. Cụ thể là chúng tôi trình bày định nghĩa một ontology tổng quát, cấu trúc và các nguồn thông tin trên Wikipedia; phân tích ưu và nhược điểm của việc sử dụng ontology đóng và 2.8.Kết luận 73 Wikipedia trong phân giải nhập nhằng. Phần tiền xử lý của các phương pháp được đề xuất trong luận án, bao gồm nhận dạng thực thể có tên và phân giải đồng tham chiếu tên riêng, cũng được trình bày. Hơn nữa, bài toán liên kết bản ghi và phân biệt các thực thể có tên cũng được mô tả khái quát. Trong chương này, chúng tôi đã phác họa một bức tranh toàn cảnh về phân giải nhập nhằng thực thể có tên cho đến thời điểm hiện tại; trong đó, chúng tôi tóm lược ba yếu tố quan trọng đối với một phương pháp phân giải nhập nhằng là nguồn tri thức sử dụng, các đặc trưng được sử dụng để biểu diễn các thực thể, và mô hình phân giải nhập nhằng. Trong quá trình trình bày các nghiên cứu liên quan, chúng tôi có chỉ ra một số điểm mới và sự khác biệt nổi bật trong các phương pháp của chúng tôi so với các phương pháp khác. 74 Chương 3 PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY 3.1 Giới thiệu Trong chương này chúng tôi giới thiệu phương pháp phân giải nhập nhằng dựa trên ontol- ogy, được đặt tên là OntoNEON (Ontology-based Named Entity DisambiguatiON). Ý tưởng chủ đạo của phương pháp này là khai thác các thực thể đã được xác định trong văn bản để phân giải nhập nhằng cho các thực thể khác, bằng một quá trình lặp cải thiện dần. Nội dung của chương dựa trên Nguyen và Cao (2007a, 2007b) và Nguyễn Thanh Hiên và Cao Hoàng Trụ (2008). Đóng góp chính của chương này là ý tưởng phân giải nhập nhằng lặp cải thiện dần và mô hình phân hạng các ứng viên dựa trên mối quan hệ ngữ nghĩa của các ứng viên với các thực thể đã được xác định trong văn bản. Giả thuyết mà phương pháp OntoNEON dựa trên đó để thực hiện phân giải nhập nhằng là trong một văn bản luôn tồn tại một số thực thể có thể dễ dàng được xác định, tức là tên của chúng không nhập nhằng. Tập các thực thể đó được xem là tập các hạt giống, khởi đầu từ đó, bằng một quá trình lặp cải thiện dần, các thực thể khác được đề cập đến trong văn bản sẽ được xác định. Trong quá trình phân giải nhập nhằng, tập các hạt giống sẽ thay đổi, thể hiện ở chỗ một khi có một thực thể mới được xác định, ngay lập tức nó được bổ sung vào tập các hạt giống, và cứ thế quá trình đó diễn tiến cho đến khi nào tất cả các thực thể được đề cập đến trong văn bản được xác định hoặc giữa hai lần lặp không xác định thêm được thực thể nào. 3.2.Phân hạng ứng viên dựa trên ontology 75 Phần còn lại của chương này được tổ chức như sau. Phần 3.2 trình bày phương pháp phân hạng các ứng viên. Phần 3.3 trình bày các độ đo để đánh giá hiệu quả các phương pháp phân giải nhập nhằng thực thể có tên nói chung. Các độ đo này áp dụng được cho các trường hợp khi mà các tên trong văn bản được nhận ra bán phần, và thực thể được đề cập trong một văn bản không tồn tại trong cơ sở tri thức được sử dụng. Phần 3.4 trình bày các tập dữ liệu thí nghiệm và các kết quả đánh giá phương pháp được đề xuất. Phần cuối cùng là tổng kết chương. 3.2 Phân hạng ứng viên dựa trên ontology Phần này trình bày phương pháp phân hạng các ứng viên dựa trên mối quan hệ ngữ nghĩa của chúng với ngữ cảnh xung quanh. Với mỗi tên nhập nhằng, chúng tôi áp dụng các heuristic sau để phân hạng các thực thể ứng viên, và chọn ứng viên phù hợp. H1. Phân hạng dựa trên ontology Nếu một ứng viên có nhiều mối quan hệ ngữ nghĩa nhất với các thực thể đã được xác định trong toàn bộ văn bản, thì ứng viên đó được xem là đúng thực thể mà tên đang xét đề cập đến. Ý tưởng là, với một tên cần phân giải nhập nhằng trong một văn bản, giả sử có hai thực thể ứng viên, ứng viên được chọn là ứng viên có tổng số thực thể đã được xác định có mối quan hệ ngữ nghĩa với ứng viên đó nhiều hơn so với tổng số thực thể đã được xác định có mối quan hệ với ứng viên còn lại. Mối quan hệ ngữ nghĩa giữa các thực thể được xác định dựa vào một ontology. Nói cách khác là chúng tôi dựa trên mức độ trùng lắp các thực thể đã được xác định trong văn bản và các thực thể có mối quan hệ với một ứng viên trong ontology để thực hiện việc phân giải nhập nhằng. Ví dụ, giả sử có một con đường ở Hà Nội và một con đường ở Tp. HCM có cùng tên là “Trần Hưng Đạo”. Trong một ontology có chứa thông tin về cả hai con đường này, một có mối quan hệ với Tp. HCM, và một có mối quan hệ với Hà Nội, ngoài ra hai con đường đó không có mối quan hệ nào khác với các thực thể trong cùng ontology. Nếu trong một văn bản mà “Trần Hưng Đạo” xuất hiện cùng với “Tp. HCM”, dựa trên heuristic trên, giải thuật của chúng tôi xác định đây là một con đường ở Tp. HCM. 76 Chương 3.Phân giải nhập nhằng dựa trên ontology Heuristic H1 sử dụng một

Các file đính kèm theo tài liệu này:

Luận án tiến sĩ kỹ thuật - Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở.pdf