Luận án Nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí

LỜI CAM ĐOAN.I

LỜI CẢM ƠN . II

MỤC LỤC. III

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .VI

DANH MỤC CÁC BẢNG. VIII

DANH MỤC CÁC HÌNH VẼ.IX

MỞ ĐẦU. 1

CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC ONTOLOGY VÀ

ĐỘ ĐO GOOGLE .10

1.1. GIỚI THIỆU CHUNG VỀ ONTOLOGY .10

1.1.1. Khái niệm ontology.10

1.1.2. Phân loại ontology.12

1.1.3. Một ví dụ về ontology miền .14

1.1.4. Nguyên lý và quy trình thiết kế ontology miền.17

1.1.5. Công cụ xây dựng ontology .20

1.2. GIỚI THIỆU CHUNG VỀ HỌC ONTOLOGY .21

1.2.1. Khung nhìn học ontology.21

1.2.2. Kỹ thuật và tài nguyên được sử dụng trong học ontology.25

1.2.3. Liên hệ nghiên cứu của luận án vào các khung nhìn khái quát về học

ontology.26

1.2.4. Bộ các độ đo đánh giá mô hình phân lớp.27

1.3. ĐỘ ĐO KHOẢNG CÁCH GOOGLE.29

1.3.1. Độ phức tạp Kolmogorov, khoảng cách thông tin và khoảng cách

thông tin chuẩn hóa .30

1.3.2. Khoảng cách nén chuẩn hóa.32

1.3.3. Khoảng cách Google và tính chất .33

1.4. Kết luận Chương 1.36

CHƯƠNG 2. MÔ HÌNH HỌC ONTOLOGY TÍCH HỢP VÀ ĐOÁN NHẬN

THỰC THỂ .38

2.1. PHÁT BIỂU BÀI TOÁN VÀ MÔ HÌNH GIẢI QUYẾT .38

2.1.1. Phát biểu bài toán .39

2.1.2. Tập tài nguyên xây dựng ontology biểu hiện y sinh mở rộng .39

2.1.3. Ba tài nguyên biểu hiện y sinh làm tập dữ liệu kiểm thử.41

2.1.4. Mô hình hai pha giải quyết bài toán.43

2.2. Thành phần xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiện y

sinh.44

pdf150 trang | Chia sẻ: honganh20 | Ngày: 14/03/2022 | Lượt xem: 398 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
hân tích và thực nghiệm từ công trình nghiên cứu của N. Colier và cộng sự [23], luận án sử dụng phương pháp học máy ME- BS vào mô hình học ontology trên miền ứng dụng y sinh (Hình 2.8). Ngoài lợi điểm cho phép huấn luyện một số lượng lớn các đặc trưng và hội tụ nhanh, việc đánh giá mô hình này cũng khá tốt ngay cả trong trường hợp thiếu thông tin. 2.3.3. Dữ liệu thực nghiệm và công cụ Các tập dữ liệu huấn luyện và tập dữ liệu kiểm thử Như đã được giới thiệu, có ba tập dữ liệu huấn luyện (HPO_NC, MPO_NC và HPO_MPO_NC) và ba tập dữ liệu kiểm thử (Phenominer 2012, Phenominer 2013 và Khordad corpus). Toàn bộ sáu tập dữ liệu này đều được cùng một thành phần trích xuất đặc trưng vào cùng một biểu diễn dữ liệu thống nhất. Biểu diễn dữ liệu Luận án sử dụng giải pháp gán nhãn chuỗi để giải quyết bài toán nhận dạng thực thể định danh biểu hiện y sinh. Do thực thể kiểu biểu hiện trong một câu có vai trò cú pháp là cụm danh từ (noun phrase: NP; trường hợp đặc biệt, cụm danh từ chỉ bao gồm một từ) cho nên trước khi được gán nhãn chuỗi câu đầu vào cho bài toán nhận dạng thực thể biểu hiện được chunking (phân tích câu thành các cụm từ) để nhận dạng được các cụm danh từ trong câu đó. Ví dụ, kết quả chunking đối với câu đầu vào “Hereditary pancreatitis and the risk of pancreatic cancer.” là: Như vậy, phần tử dữ liệu trong bài toán nhận diện thực thể biểu hiện y sinh là một “tiếng” trong các cụm danh từ có trong câu đầu vào. Do tính phổ 58 biến của thuật ngữ tiếng Anh “token” trong bài toán gán nhãn chuỗi cho nên luận án sử dụng thuật ngữ này để chỉ phần tử dữ liệu thay cho thuật ngữ “tiếng” trong tiếng Việt. Ở ví dụ trên, các token cần được gán nhãn là “Hereditary”, “pancreatitis”, “the”, “risk”, “pancreatic”, “cancer”. Với câu ví dụ trên đây, một bộ nhận dạng thực thể biểu hiện y sinh cần gán thẻ “B-PH” (“bắt đầu một thực thể biểu hiện y sinh”) cho “pancreatic”, thẻ “E-PH” (“kết thúc một thực thể biểu hiện y sinh”) cho “cancer” và thẻ “NO-PH” (‘không thuộc một thực thể biểu hiện y sinh”) cho các token còn lại. Trong trường hợp một thực thể biểu hiện có quá hai token thì các token ở giữa có nhãn “I-PH” (“ở giữa một thực thể biểu hiện y sinh”). Dạng phổ biến gán nhãn chuỗi là “BIO” trong đó nhãn “B” (begin) chỉ token bắt đầu thực thể, nhãn “I” (in) chỉ token tiếp tục thực thể và nhãn “O” (other) chỉ token không thuộc một thực thể. Nhãn thực thể của một token phụ thuộc vào các đặc trưng (các thông tin liên quan) trong biểu diễn token đó mà thường bao gồm các đặc trưng của bản thân token cùng với các đặc trưng của các từ xung quanh nó. Bảng 2.3. Các đặc trưng biểu diễn dữ liệu được sử dụng trong luận án STT Đặc trưng Mô tả Nhóm các đặc trưng thông dụng 1 Lemma Bản gốc của thẻ 2 GENIA POS tagger Thẻ từ loại GENIA 3 GENIA Chunk tagger Thẻ cụm từ (số lượng thẻ trong cụm từ lớn hơn 1). 4 GENIA named entity tagger Đầu ra của phân tích câu theo bộ gán thẻ GENIA. 5 Orthographic tag Thẻ chỉnh sửa của token 6 Domain prefix Tiền tố của token 7 Domain suffix Hậu tố của token 59 8 Word length Độ dài của từ 9 In/Out parentheses Trong ngoặc đơn được gán thẻ: Y, ngoài ngoặc đơn được gán thẻ: N Nhóm các đặc trưng từ điển 10 HPO Thuộc HPO 11 MPO Thuộc MPO 12 PAPT Thuộc PATO 13 FMA Thuộc FMA 14 MA Thuộc MA 15 UMLS_DISEASE Thuộc UMLS_DISEASE 16 45CLUSTERS Thuộc 45CLUSTERS 17 UMLS Thuộc UMLS C. Nigel và cộng sự [23] đề xuất 26 đặc trưng biểu diễn dữ liệu trong học máy nhận dạng thực thể y sinh (kiểu hình, Gene, hóa chất, bệnh,). Các đặc trưng này được chia làm hai nhóm, nhóm các đặc trưng thông dụng như: hình thái, từ loại, tiền tố, hậu tố,và nhóm các đặc trưng đại diện cho miền dữ liệu (đặc trưng từ điển). Từ tập 26 đặc trưng này, luận án giữ lại 17 đặc trưng có liên quan trực tiếp tới nhận dạng thực thể biểu hiện y sinh (Bảng 2.3) để biểu diễn dữ liệu trong bài toán học máy EM-BS. Các đặc trưng lân cận (tiền tố, hậu tố) của token được lấy từ một cửa sổ ± 2 (2-gram) xung quanh token đang được xem xét. Việc gắn thẻ POS đã được thực hiện bằng cách sử dụng thư viện OpenNLP với mô hình Maximum Entropy và Gen Corpus và WSJ Corpus (F: 98.4%), có 44 thẻ Penn Treebank POS được sử dụng. Công cụ Công cụ OpenNLP17 viết bằng Java với các tham số mặc định được khai thác để cài đặt Maximum Entropy với Beam Search18. 2.3.4. Kết quả và đánh giá Hiệu quả của phương pháp tự động tạo ra tập dữ liệu bằng cách sử dụng 17 18 https://github.com/lupanh/PhenominerSSL 60 phương pháp học máy ME - BS trên ba tập dữ liệu kiểm thử chuẩn: Phenominer 2012, Phenominer 2013 và Khordad được trình bày tại Bảng 2.4. Bảng 2.4. Đánh giá các kết quả (tính theo %) Dữ liệu kiểm thử Dữ liệu huấn luyện Phenominer 2012 Phenominer 2013 Khordad corpus P R F P R F P R F HPO_NC 55,37 20,28 29,69 59,82 25,08 35,34 89,57 68,21 77,44 MPO_NC 40,08 17,44 24,3 42,64 20,78 27,94 83,24 61,09 70,47 HPO_MPO_NC 55,69 22,17 31,71 58,47 23,97 34,00 88,12 70,54 78,36 Theo Bảng 2.4, tập dữ liệu huấn luyện từ ontology mở rộng HPO_MPO_NC cho độ đo F đạt mức 31,71% trên tập dữ liệu kiểm thử Phenominer 2012, đạt mức 34,00% trên tập dữ liệu kiểm thử Phenominer 2013 và đạt mức 78,36% trên tập dữ liệu kiểm thử Khordad. Kết quả này cao hơn đáng kể so với tập dữ liệu huấn luyện từ ontology MPO_NC (trong mọi trường hợp) và từ MPO_NC (trong hai trường hợp Phenominer 2012 và Khordad). Kết quả thực nghiệm trên tập dữ liệu kiểm thử Phenominer 2013 cho thấy HPO_NC có hiệu năng (35,34%) cao hơn một chút so với HPO_MP_NC (34,00%). Tập dữ liệu huấn luyện mở rộng HPO_MPO_NC đạt kết quả tốt hơn trên tập dữ liệu kiểm thử Khordad. Lý do là sự giao thoa lĩnh vực của tập dữ liệu HPO_MPO_NC và tập dữ liệu của Khordad khá lớn, đồng thời, độ phức tạp về ngữ pháp trong tập dữ liệu của Khordad không quá cao. Bảng 2.4 cho thấy đối với điểm mà độ đo F của Khordad đạt được kết quả tốt nhất ở HPO MP NC là 78,36%, cao hơn HPO NC (F: 77,44%) và MP NC (F: 70,47%). Do đó, tập dữ liệu HPO MPO NC thể hiện phạm vi rộng hơn để giúp tăng hiệu quả của các tập dữ liệu huấn luyện sinh tự động. 2.3.5. Phân tích lỗi Tập dữ liệu huấn luyện được sinh ra tự động HPO_MPO_NC vẫn còn chứa một số lỗi, cụ thể là "Missing case" và "Error case ", xuất hiện khi áp dụng phương pháp Noun Chunking. Ví dụ, mặc dù câu "xơ cứng xơ vữa động mạch" (Amyotrophic lateral sclerosis) trong bản tóm tắt ID: 9933298 được viết tắt là "ALS", một số ngữ cảnh xuất hiện như "ALS" vẫn không được nhận diện như là 61 một thực thể biểu hiện. Một ví dụ khác là trong ID tóm tắt Pubmed: 34999, cụm danh từ "hyperparathyroidism "là một thực thể biểu hiện, nhưng trong các ngữ cảnh khác, khái niệm này đã không được tìm thấy. Một ví dụ khác về lỗi "Error case" là cụm từ danh mục "Bệnh suy giảm miễn dịch kết hợp nghiêm trọng" (Severe combined immunodeficiency disease) và "Suy giảm miễn dịch kết hợp nghiêm trọng" (Severe combined immunodeficiency) từ ID tóm tắt Pubmed: 18618 được xác định là thực thể biểu hiện. Tuy nhiên, trên thực tế, mỗi thứ trong chúng lại là một loại bệnh. Các kết quả không cao do một số lỗi trong các kho dữ liệu nói trên cũng như sự giao nhau của lĩnh vực của các tập dữ liệu sinh tự động và ba tập dữ liệu đánh giá. Một lý do quan trọng hơn là sự phức tạp của ngữ pháp trong hai tập dữ liệu huấn luyện chuẩn được gán nhãn bởi các chuyên gia thì cao hơn so với tập dữ liệu huấn luyện sinh tự động. Việc đánh giá số lượng trung bình của các thẻ trên mỗi thực thể biểu hiện trên tất cả các tập dữ liệu được trình bày trong Bảng 2.5. Bảng 2.5. Số lượng trung bình của các thẻ trên thực thể biểu hiện trong tất cả các tập dữ liệu Kho ngữ liệu Số lượng trung bình của các thẻ/thực thể biểu hiện HPO_NC 1,710 MP_NC 1,778 HPO_MP_NC 1,761 Khordads corpus 1,668 Phenominer 2012 2,911 Phenominer 2013 3,204 Qua Bảng 2.5, chúng ta có thể thấy rằng số lượng thẻ trung bình cho mỗi thực thể biểu hiện trong Phenominer 2012 và Phenominer 2013 là vào khoảng 3 thẻ/thực thể, trong khi đó con số này là 1,7 thẻ /thực thể trong các kho ngữ liệu huấn luyện tự động. Điều này ảnh hưởng đến khả năng nhận dạng trong mô hình gán nhãn tuần tự. Đây là một thách thức đối với các mô hình sử dụng các phương pháp học máy. 62 2.4. KẾT LUẬN CHƯƠNG 2 Luận án đề xuất một mô hình học máy Maximum Entropy - Beam Search (ME-BS) làm giàu tài nguyên thực thể của một ontology miền ứng dụng y sinh [VNTrinh1] với độ đo F1 đạt 31,71% đối với Phenominer 2012; 35,34% đối với Phenominer 2013 và 78,36% đối với Khordad. Kết này này cho thấy tính hiệu quả của các tập dữ liệu được tạo ra bằng các phương pháp học ontology. Chương tiếp theo của luận án sẽ trình bày các mô hình học ontology dựa trên một số kỹ thuật khai phá dữ liệu văn bản và học máy với dữ liệu dương. 63 CHƯƠNG 3. KỸ THUẬT HỌC ONTOLOY DỰA TRÊN CÁC ĐỘ ĐO Chương này trình bày hai mô hình học ontology có sử dụng các độ đo. Mô hình học ontology đầu tiên dựa trên kỹ thuật đối sánh các khái niệm và thuộc tính trong hai ontology miền để mở rộng thành một ontology miền. Độ đo Google được sử dụng trong thao tác đối sánh khái niệm, thuộc tính. Mô hình học ontology thứ hai dựa trên kỹ thuật học máy một lớp (chỉ với ví dụ lớp dương) với việc sử dụng một số độ đo văn bản. Một phần kết quả nghiên cứu trong Chương 3 đã được công bố trong công trình [VNTrinh2], [VNTrinh4]. 3.1. MỘT MÔ HÌNH HỌC ONTOLOGY THEO TỪ VỰNG DỰA TRÊN ĐỘ ĐO KHOẢNG CÁCH GOOGLE Quá trình đối sánh từ vựng (khái niệm, thuộc tính) trong hai ontology miền một cách thủ công đòi hỏi nhiều thời gian và công sức của các chuyên gia, nhất là khi số lượng từ vựng của các ontology lên đến con số hàng nghìn, thậm chí hàng vạn. Một chương trình hỗ trợ trong việc đối sánh từ vựng để học ontology hai ontology một cách bán tự động nhằm đưa ra các gợi ý cho các chuyên gia là rất cần thiết. Ở đây, luận án xem xét một phương án đối sánh từ vựng sử dụng độ đo Google và sau đó học hai ontology miền. 3.1.1. Phát biểu bài toán Cho trước hai ontology miền O1, O2 về cùng một miền ứng dụng đang được quan tâm (chẳng hạn, hai ontology dầu khí của Công ty dầu khí Schlumberger và công ty dầu khí Halliburton19). Mỗi ontology O1, O2 chứa một tập các khái niệm tương ứng. Mỗi khái niệm này có thể bao gồm tập các thuộc tính; các thuộc tính của một khái niệm trong cùng một ontology là phân biệt nhau từng đôi một. Lưu ý rằng, cùng một khái niệm ở trong hai ontology O1, O2 có thể có số lượng thuộc tính khác nhau. Bài toán đặt ra là học ontology để tích hai hai ontoly này để nhận được một ontology O lớn hơn nhằm xây dựng thành phần tiếng Anh trong ontology dầu khí Anh-Việt kết quả. Luận án lựa chọn giải 19 https://www.slb.com/ và https://www.halliburton.com/en-US/default.html 64 pháp học ontology sánh khớp các cặp khái niệm thuộc hai ontology để nhận diện được các khái niệm giao nhau của hai ontology. Vấn đề tích hợp hai ontology nói trên được giải quyết bằng hai bài toán sau đây. Bài toán thứ nhất: Cho hai khái niệm c1O1 và c2O2, hãy đối sánh sự liên quan giữa các thuộc tính của hai khái niệm c1 và c2. Bài toán thứ nhất là một bài toán con (thủ tục Matching (c1, c2)) của bài toán thứ hai sau đây. Bài toán thứ hai: Cho hai khái niệm c1O1 và c2O2, hãy đối sánh hai khái niệm này. 3.1.2. Mô hình đối sánh các thuộc tính của hai khái niệm thuộc hai ontology miền Hình 3.1. Mô hình đối sánh tập thuộc tính của hai khái niệm thuộc hai ontology miền (Procedure Matching (c1, c2)) Hình 3.1 chỉ dẫn mô hình giải quyết bài toán thứ nhất: đối sánh các thuộc tính của hai khái niệm thuộc hai ontology miền. Trong trường hợp tổng quát, hai khái niệm c1 và c2 là các khái niệm bất kỳ thuộc O1 và O2 tương ứng, và các thuộc tính của hai khái niệm c1 và c2 cũng là các thuộc tính bất kỳ của hai khái niệm c1 và c2. Các thuộc tính này có thể tương tự nhau (nghĩa là các thuộc tính này trùng nhau hoặc khoảng cách Google giữa các thuộc tính của chúng nhỏ hơn một ngưỡng 1 > 0 cho trước) hoặc khác nhau (nghĩa là khoảng cách Google giữa các thuộc tính của hai khái niệm lớn hơn một ngưỡng 1 > 0 cho trước). Các bước hoạt động trong mô hình được giải thích như sau: (iv) Đầu tiên, gọi A1 là tập tất cả các thuộc tính của khái niệm c1 trong O1 65 và A2 là tập tất cả các thuộc tính của khái niệm c2 trong O2. (v) Chọn lọc tập L các thuộc tính chung của khái niệm c1 và c2 có trong cả hai ontology O1 và O2. Tập thuộc tính trong L được coi là đồng nhất trong cả hai ontology. (vi) Sau khi loại bỏ các thuộc tính trùng nhau ở hai ontology khỏi A1 và A2, tính toán độ đo chuẩn Google đối với các cặp thuộc tính (aA1, bA2). (vii) Xác định tập AP1 các cặp thuộc tính (aA1, bA2) mà NCDG (a, b) < 1 cho trước. Do 1 được chọn đủ nhỏ cho nên cặp thuộc tính a và b trong AP1 cũng được coi là có tính tương đồng nhau để hội nhập. (viii) Hiển thị danh sách các thuộc tính trong L, các cặp thuộc tính trong AP1, các cặp thuộc tính còn lại (AP2) và khoảng cách giữa chúng. Các thuộc tính còn lại (AP2) đó được xem xét như các thuộc tính bổ sung vào mỗi ontology. Như vậy, khi đối sánh hai khái niệm c1 và c2 dựa vào các thuộc tính của chúng theo mô hình trên, kết quả cuối cùng thủ tục Matching (c1, c2) sẽ trả về: danh sách L các thuộc tính trùng nhau của cặp khái niệm (c1O1, c2O2), tập hợp AP1 các cặp thuộc tính tương đồng với nhau (mức độ khác biệt nhỏ hơn ngưỡng 1 >0 cho phép NCDG<1), và tập hợp AP2 các cặp thuộc tính khác nhau với mức độ khác biệt vượt ngưỡng cho phép NCDG >=1 và khoảng cách giữa các thuộc tính. 3.1.3. Mô hình đối sánh các khái niệm và học hai ontology dựa trên độ đo khoảng cách Google Giải pháp cho bài toán thứ hai này (đối sánh các khái niệm thuộc hai ontology miền) là phức tạp hơn, tuy nhiên, một giải pháp khả thi có thể được phát triển dựa trên lời giải cho bài toán thứ nhất. Đầu tiên, việc phát hiện các khái niệm trùng nhau trong cả hai ontology (tương ứng với việc xác định tập L) có thể sử dụng ba khối tính toán đầu tiên trong lược đồ Hình 3.1. Sau đó, áp dụng giải pháp thứ nhất cho các khái niệm này. Tiếp theo, sử dụng các bước tính toán từ thứ tư tới thứ năm để xác định tập AP1 các cặp khái niệm tương tự nhau theo tên với độ tương tự thỏa mãn điều kiện nhỏ hơn giới hạn2 cho trước. Đối với các cặp khái niệm AP1, tiến hành giải pháp cho bài toán thứ nhất đối với các 66 cặp khái niệm AP1 này. Tập khái niệm còn lại (AP2) cần được xem xét bằng các giải pháp tinh vi hơn. Hình 3.2. Mô hình đối sánh các khái niệm thuộc hai ontology miền Hình 3.2 chỉ dẫn mô hình giải quyết bài toán thứ hai: học ontology hai ontology miền dựa trên việc đối sánh các khái niệm của hai ontology. Trong trường hợp tổng quát, hai khái niệm c1 và c2 là hai khái niệm bất kỳ thuộc O1 và O2 tương ứng. Hai khái niệm c1, c2 này có thể tương tự nhau (nghĩa là hai khái niệm này trùng nhau hoặc khoảng cách Google giữa hai khái niệm NCDG (c1, c2) nhỏ hơn một ngưỡng 2 > 0 cho trước) hoặc có thể khác nhau (nghĩa là khoảng cách Google giữa hai khái niệm NCDG (c1, c2) của hai ontology lớn hơn một ngưỡng 2 > 0 cho trước). Các bước hoạt động trong mô hình được giải thích như sau: Đầu tiên, gọi C1 là tập hợp tất cả các khái niệm trong O1 và C2 là tập hợp tất cả các khái niệm trong O2. Chọn lọc tập B các khái niệm chung có trong cả hai ontology O1 và O2. Tập khái niệm B được coi là đồng nhất trong cả hai ontology. Xác định tập BP1 các cặp khái niệm trùng nhau ở hai ontology (c1, c2) (với c1C1 và c2C2, thỏa c1=c2). 67 Loại bỏ các khái niệm trùng nhau ở hai ontology, tính toán độ đo chuẩn Google đối với các cặp khái niệm (c1C1, c2C2). Xác định tập BP2 các cặp khái niệm (c1C1, c2C2) mà NCDG (c1, c2) < 2 cho trước. Do 2 được chọn đủ nhỏ cho nên cặp khái niệm (c1, c2) trong BP2 cũng được coi là có tính tương đồng nhau để hội nhập. Xác định tập BP3 các cặp khái niệm (c1C1, c2C2) còn lại mà (c1, c2) không thuộc về BP2, nghĩa là độ đo Google chuẩn NCDG (c1, c2) vượt ngưỡng (>=) 2 cho trước. Nếu chỉ đối sánh tên của hai khái niệm sử dụng độ đo Google chuẩn thì có thể coi hai khái niệm này là khác nhau. Tuy nhiên, trong thực tế, tên hai khái niệm có thể khác nhau, nhưng thuộc tính của chúng lại có thể tương đồng với nhau. Do đó, mô hình vẫn gọi thủ tục Matching (c1, c2) đối với các cặp khái niệm (c1, c2) thuộc về BP3 để tính toán độ tương đồng giữa các thuộc tính. Hai khái niệm có tên khác nhau (thuộc hai ontology miền khác nhau) có thể được xem là tương tự nhau nếu các thuộc tính của chúng tương tự nhau (nghĩa là các thuộc tính của chúng trùng nhau hoặc độ đo Goolge chuẩn của các thuộc tính nhỏ hơn ngưỡng 1 >0 cho trước). Hiển thị danh sách các khái niệm trong BP1, các cặp khái niệm trong BP2, các cặp khái niệm còn lại BP3 và khoảng cách giữa chúng. Sau đó, thủ tục Matching (c1, c2) tính toán độ tương đồng giữa các thuộc tính của hai khái niệm c1 và c2, với (c1, c2) lần lượt thuộc về BP1, BP2, BP3. – Với mọi (c1, c2) thuộc về các cặp khái niệm trùng nhau BP1 thì thủ tục Matching (c1, c2) sẽ trả về: • Đối với các cặp thuộc tính trùng nhau của c1 và c2, thì thủ tục Matching (c1, c2) sẽ trả về tập hợp L các thuộc tính a trùng nhau của c1 và c2: L = {a, với a là các thuộc tính chung của c1 và c2}. • Đối với các cặp thuộc tính khác nhau của c1 và c2, thì thủ tục Matching (c1, c2) sẽ trả về: ▪ Một tập hợp AP1 các cặp thuộc tính có độ đo Google nhỏ hơn một giá trí giới hạn 1 >0 cho trước: AP1= {(a, b), với a là các thuộc tính của c1 và b là các thuộc tính của c2, thỏa NCDG (a, b) < 1}. 68 ▪ Một tập hợp AP2 các cặp thuộc tính còn lại có độ đo Google không nhỏ hơn một giá trí giới hạn 1 cho trước: AP2 = {(a, b), với a là các thuộc tính của c1 và b là các thuộc tính của c2, thỏa NCDG (a, b) >= 1}. – Với mọi (c1, c2) thuộc về các cặp khái niệm không trùng nhau và có độ đo Google chuẩn nhỏ hơn giới hạn 2 >0 cho trước BP2 thì thủ tục Matching (c1, c2) sẽ trả về: • Đối với các cặp thuộc tính trùng nhau của c1 và c2, thì thủ tục Matching (c1, c2) sẽ trả về tập hợp L các thuộc tính a trùng nhau của c1 và c2: L = {a, với a là các thuộc tính chung của c1 và c2}. • Đối với các cặp thuộc tính khác nhau của c1 và c2, thì thủ tục Matching (c1, c2) sẽ trả về: ▪ Một tập hợp AP1 các cặp thuộc tính có độ đo Google nhỏ hơn một giá trí giới hạn 1 >0 cho trước: AP1= {(a, b), với a là các thuộc tính của c1 và b là các thuộc tính của c2, thỏa NCDG (a, b) < 1}. ▪ Một tập hợp AP2 các cặp thuộc tính còn lại có độ đo Google không nhỏ hơn một giá trí giới hạn 1 cho trước: AP2 = {(a, b), với a là các thuộc tính của c1 và b là các thuộc tính của c2, thỏa NCDG (a, b) >= 1}. – Với mọi (c1, c2) thuộc về các cặp khái niệm không trùng nhau và có độ đo Google chuẩn không nhỏ hơn 2 >0 cho trước BP3 thì thủ tục Matching (c1, c2) sẽ trả về: • Đối với các cặp thuộc tính trùng nhau của c1 và c2, thì thủ tục Matching (c1, c2) sẽ trả về tập hợp L các thuộc tính a trùng nhau của c1 và c2: L = {a, với a là các thuộc tính chung của c1 và c2}. • Đối với các cặp thuộc tính khác nhau của c1 và c2, thì thủ tục Matching (c1, c2) sẽ trả về: ▪ Một tập hợp AP1 các cặp thuộc tính có độ đo Google nhỏ hơn một giá trí giới hạn 1 >0 cho trước: AP1 = {(a, b), với a là các thuộc tính của c1 và b là các thuộc tính của c2, thỏa NCDG (a, b) < 1}. 69 ▪ Một tập hợp AP2 các cặp thuộc tính còn lại có độ đo Google không nhỏ hơn một giá trí giới hạn 1: {(a, b), với a là các thuộc tính của c1 và b là các thuộc tính của c2, thỏa NCDG (a, b) >= 1}. Như vậy, khi học hai ontology O1 và O2 theo thuật toán trên, kết quả cuối cùng sẽ bao gồm: BP1 các khái niệm trùng nhau, BP2 các cặp khái niệm khác nhau nhưng mức độ khác nhau ở trong giới hạn cho phép (NCDG <2), và BP3 các cặp khái niệm khác nhau với mức độ khác nhau ở vượt ngưỡng cho phép (NCDG >=2). Với từng trường hợp ở trên, ta cũng thu được các danh sách L các thuộc tính trùng nhau của các cặp khái niệm, tập hợp AP1 các cặp thuộc tính khác nhau nhưng mức độ khác nhau nhỏ hơn ngưỡng cho phép (NCDG<1) của các cặp khái niệm và tập hợp AP2 các cặp thuộc tính khác nhau nhưng mức độ khác nhau không nhỏ hơn ngưỡng cho phép (NCDG >=1) của các cặp khái niệm và khoảng cách giữa các thuộc tính. 3.1.4. Ví dụ minh họa đối sánh khái niệm Trong phần này luận án xem xét một ứng dụng của độ đo Google đó là dùng để học các ontology. Trong thực tế cùng một đối tượng trong thế giới thực có thể được mô hình hóa và biểu diễn bằng các ontology khác nhau trong các hệ thống khác nhau. Để các hệ thống này có thể trao đổi dữ liệu và làm việc được với nhau thì các ontology này cần phải được thống nhất lại về nội dung của các khái niệm mà chúng biểu diễn. Xét một ví dụ biểu diễn một bộ truyền áp suất được sử dụng trong khai thác dầu khí với các bộ phận chính của thiết bị được mô tả. Các chỉ dẫn các thông số kỹ thuật (thuộc tính) của cùng thiết bị này được cung cấp bởi hai nhà cung cấp là Norsock và ShareCat, ở đây, coi hai tập các mô tả thiết bị dầu khí của Norsock và ShareCat đóng vai trò tương ứng là hai ontology O1 và O2. Một cách trực quan, dễ dàng tìm thấy những điểm khác nhau về thông tin (khái niệm) của thiết bị trên hai ontology này. Ví dụ, thông tin về Trọng lượng (Weight) của thiết bị nằm trong mục Thông tin chung (General) trong ontology O1 nhưng lại nằm trong mục Kích cỡ và trọng lượng (Dimenssions and Weight) ở ontology O2, hay thông tin về Kết nối (Process Connection) trong ontolgy O2 lại là các mục con của mục Thành phần/Cảm biến (Element/Sensor) trong ontology O1. 70 Để minh họa cho mô hình đề xuất trên đây, luận án chỉ xem xét sự đối sánh các ontology với thông tin phần tiêu đề (khái niệm) của hai ontology thông số kỹ thuật này. Các thuộc tính của ShareCat gồm có: Document Number, Revision, Plant/Platform, Process Datash. No., Tag number, SerialNo, Range From, SetPoint Low, Range To, SetPoint Height, Range Unit, P&ID, Area, Line/Equipment no., Service description và các thuộc tính của Norsock gồm có: Tag number, Scale Range, Service description, Set/Alarm Point, P&ID, Area, Line / equipment no., P. O. Number. Kết quả thực hiện lược đồ đối sánh được đề xuất bao gồm: • L = {Area, Line/equipment no., P&ID, Service description, Tag number}. • Ma trận khoảng cách Google giữa các khái niệm này được tính như trong Bảng 3.1. Với giá trị  = 0.2, nhận được tập AP1 = {(Process Datash. No., Set/Alarm Point), (Process Datash. No., P. O. Number)}. • Tập thuộc tính L, các cặp thuộc tính trong AP1 và các cặp thuộc tính còn lại (AP2) trong Bảng 2.1 cùng với độ đo khoảng cách Google chuẩn của chúng được hiển thị. Kết quả này cung cấp một gợi ý đối sánh các thuộc tính của cùng một khái niệm trong hai ontology. Bảng 3.1. Ma trận khoảng cách giữa các thuộc tính trong hai ontology O2 O1 Scale Range Set/Alarm Point P. O. Number Document Number 0,5822 0,6998 0,2390 Revision 0,7572 0,8403 0,4187 Plant/Platform 0,7391 0,3959 0,3564 Process Datash. No. 0,4956 0,1678 0,0757 SerialNo 0,7961 0,5603 0,4692 Range From 0,6055 0,7736 0,4852 SetPoint Low 0,5051 0,3176 0,2859 Range To 0,5679 0,7494 0,4312 71 O2 O1 Scale Range Set/Alarm Point P. O. Number SetPoint Height 1,0000 1,0000 1,0000 Range Unit 0,6545 0,5524 0,4973 3.2. MÔ HÌNH HỌC ONTOLOGY ANH - VIỆT DỰA TRÊN KỸ THUẬT HỌC MÁY VỚI CHỈ DỮ LIỆU DƯƠNG 3.2.1. Wikipedia là một nguồn tài nguyên xây dựng ontology Thời gian gần đây, Wikipedia thu hút sự quan tâm đặc biệt của cộng đồng nghiên cứu xây dựng ontology như một nguồn thông tin bán cấu trúc được sử dụng để xây dựng tự động ontology. Dựa trên nguồn tài nguyên Wikipedia và WordNet, F. M. Suchanek và cộng sự [73] xây dựng ontology YAGO (Yet Another Great Ontology) nổi tiếng và không ngừng được phát triển nâng cấp20. T. Kawakami và cộng sự [41] đề nghị một phương pháp xây dựng “ontology nhẹ” (lightweight ontology) chung dựa trên việc trích xuất bán tự động các quan hệ chung-riêng (rdfs: subClassOf), các quan hệ lớp-thể hiện (rdf: type), các khái niệm như Triple và các quan hệ giữa các khái niệm. Thông tin đầu vào bao gồm các cây danh mục, các mệnh đề định nghĩa, các danh sách và các hộp thông tin Wikipedia. Cách thức trích xuất bán tự động bốn loại đối tượng trên đây được trình bày một cách chi tiết. Ví dụ, để trích xuất quan hệ chung-riêng, các thao tác đối sánh xâu ngược (Backward string matching) và xóa bỏ từng phần đối sánh xâu ngược (Backward string matching part removal) được sử dụng. Các tác giả xác nhận phương pháp đề xuất có lợi thế hơn so với YAGO và DBpedia Ontology trong việc trí

Các file đính kèm theo tài liệu này:

  • pdfluan_an_nghien_cuu_mot_so_mo_hinh_hoc_ontology_va_ung_dung_t.pdf
Tài liệu liên quan