LỜI CAM ĐOAN.I
LỜI CẢM ƠN . II
MỤC LỤC. III
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .VI
DANH MỤC CÁC BẢNG. VIII
DANH MỤC CÁC HÌNH VẼ.IX
MỞ ĐẦU. 1
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ ONTOLOGY, HỌC ONTOLOGY VÀ
ĐỘ ĐO GOOGLE .10
1.1. GIỚI THIỆU CHUNG VỀ ONTOLOGY .10
1.1.1. Khái niệm ontology.10
1.1.2. Phân loại ontology.12
1.1.3. Một ví dụ về ontology miền .14
1.1.4. Nguyên lý và quy trình thiết kế ontology miền.17
1.1.5. Công cụ xây dựng ontology .20
1.2. GIỚI THIỆU CHUNG VỀ HỌC ONTOLOGY .21
1.2.1. Khung nhìn học ontology.21
1.2.2. Kỹ thuật và tài nguyên được sử dụng trong học ontology.25
1.2.3. Liên hệ nghiên cứu của luận án vào các khung nhìn khái quát về học
ontology.26
1.2.4. Bộ các độ đo đánh giá mô hình phân lớp.27
1.3. ĐỘ ĐO KHOẢNG CÁCH GOOGLE.29
1.3.1. Độ phức tạp Kolmogorov, khoảng cách thông tin và khoảng cách
thông tin chuẩn hóa .30
1.3.2. Khoảng cách nén chuẩn hóa.32
1.3.3. Khoảng cách Google và tính chất .33
1.4. Kết luận Chương 1.36
CHƯƠNG 2. MÔ HÌNH HỌC ONTOLOGY TÍCH HỢP VÀ ĐOÁN NHẬN
THỰC THỂ .38
2.1. PHÁT BIỂU BÀI TOÁN VÀ MÔ HÌNH GIẢI QUYẾT .38
2.1.1. Phát biểu bài toán .39
2.1.2. Tập tài nguyên xây dựng ontology biểu hiện y sinh mở rộng .39
2.1.3. Ba tài nguyên biểu hiện y sinh làm tập dữ liệu kiểm thử.41
2.1.4. Mô hình hai pha giải quyết bài toán.43
2.2. Thành phần xây dựng và tích hợp các kho ngữ liệu thực thể biểu hiện y
sinh.44
150 trang |
Chia sẻ: honganh20 | Lượt xem: 459 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
hân tích và thực nghiệm từ công trình nghiên
cứu của N. Colier và cộng sự [23], luận án sử dụng phương pháp học máy ME-
BS vào mô hình học ontology trên miền ứng dụng y sinh (Hình 2.8). Ngoài lợi
điểm cho phép huấn luyện một số lượng lớn các đặc trưng và hội tụ nhanh, việc
đánh giá mô hình này cũng khá tốt ngay cả trong trường hợp thiếu thông tin.
2.3.3. Dữ liệu thực nghiệm và công cụ
Các tập dữ liệu huấn luyện và tập dữ liệu kiểm thử
Như đã được giới thiệu, có ba tập dữ liệu huấn luyện (HPO_NC,
MPO_NC và HPO_MPO_NC) và ba tập dữ liệu kiểm thử (Phenominer 2012,
Phenominer 2013 và Khordad corpus).
Toàn bộ sáu tập dữ liệu này đều được cùng một thành phần trích xuất đặc
trưng vào cùng một biểu diễn dữ liệu thống nhất.
Biểu diễn dữ liệu
Luận án sử dụng giải pháp gán nhãn chuỗi để giải quyết bài toán nhận
dạng thực thể định danh biểu hiện y sinh. Do thực thể kiểu biểu hiện trong một
câu có vai trò cú pháp là cụm danh từ (noun phrase: NP; trường hợp đặc biệt,
cụm danh từ chỉ bao gồm một từ) cho nên trước khi được gán nhãn chuỗi câu
đầu vào cho bài toán nhận dạng thực thể biểu hiện được chunking (phân tích câu
thành các cụm từ) để nhận dạng được các cụm danh từ trong câu đó. Ví dụ, kết
quả chunking đối với câu đầu vào “Hereditary pancreatitis and the risk of
pancreatic cancer.” là:
Như vậy, phần tử dữ liệu trong bài toán nhận diện thực thể biểu hiện y
sinh là một “tiếng” trong các cụm danh từ có trong câu đầu vào. Do tính phổ
58
biến của thuật ngữ tiếng Anh “token” trong bài toán gán nhãn chuỗi cho nên luận
án sử dụng thuật ngữ này để chỉ phần tử dữ liệu thay cho thuật ngữ “tiếng” trong
tiếng Việt. Ở ví dụ trên, các token cần được gán nhãn là “Hereditary”,
“pancreatitis”, “the”, “risk”, “pancreatic”, “cancer”.
Với câu ví dụ trên đây, một bộ nhận dạng thực thể biểu hiện y sinh cần
gán thẻ “B-PH” (“bắt đầu một thực thể biểu hiện y sinh”) cho “pancreatic”, thẻ
“E-PH” (“kết thúc một thực thể biểu hiện y sinh”) cho “cancer” và thẻ “NO-PH”
(‘không thuộc một thực thể biểu hiện y sinh”) cho các token còn lại. Trong
trường hợp một thực thể biểu hiện có quá hai token thì các token ở giữa có nhãn
“I-PH” (“ở giữa một thực thể biểu hiện y sinh”). Dạng phổ biến gán nhãn chuỗi
là “BIO” trong đó nhãn “B” (begin) chỉ token bắt đầu thực thể, nhãn “I” (in) chỉ
token tiếp tục thực thể và nhãn “O” (other) chỉ token không thuộc một thực thể.
Nhãn thực thể của một token phụ thuộc vào các đặc trưng (các thông tin
liên quan) trong biểu diễn token đó mà thường bao gồm các đặc trưng của bản
thân token cùng với các đặc trưng của các từ xung quanh nó.
Bảng 2.3. Các đặc trưng biểu diễn dữ liệu được sử dụng trong luận án
STT Đặc trưng Mô tả
Nhóm các đặc trưng thông dụng
1 Lemma Bản gốc của thẻ
2 GENIA POS tagger Thẻ từ loại GENIA
3 GENIA Chunk tagger Thẻ cụm từ (số lượng thẻ trong cụm từ
lớn hơn 1).
4 GENIA named entity tagger Đầu ra của phân tích câu theo bộ gán thẻ
GENIA.
5 Orthographic tag Thẻ chỉnh sửa của token
6 Domain prefix Tiền tố của token
7 Domain suffix Hậu tố của token
59
8 Word length Độ dài của từ
9 In/Out parentheses Trong ngoặc đơn được gán thẻ: Y, ngoài
ngoặc đơn được gán thẻ: N
Nhóm các đặc trưng từ điển
10 HPO Thuộc HPO
11 MPO Thuộc MPO
12 PAPT Thuộc PATO
13 FMA Thuộc FMA
14 MA Thuộc MA
15 UMLS_DISEASE Thuộc UMLS_DISEASE
16 45CLUSTERS Thuộc 45CLUSTERS
17 UMLS Thuộc UMLS
C. Nigel và cộng sự [23] đề xuất 26 đặc trưng biểu diễn dữ liệu trong học
máy nhận dạng thực thể y sinh (kiểu hình, Gene, hóa chất, bệnh,). Các đặc
trưng này được chia làm hai nhóm, nhóm các đặc trưng thông dụng như: hình
thái, từ loại, tiền tố, hậu tố,và nhóm các đặc trưng đại diện cho miền dữ liệu
(đặc trưng từ điển). Từ tập 26 đặc trưng này, luận án giữ lại 17 đặc trưng có liên
quan trực tiếp tới nhận dạng thực thể biểu hiện y sinh (Bảng 2.3) để biểu diễn dữ
liệu trong bài toán học máy EM-BS. Các đặc trưng lân cận (tiền tố, hậu tố) của
token được lấy từ một cửa sổ ± 2 (2-gram) xung quanh token đang được xem
xét. Việc gắn thẻ POS đã được thực hiện bằng cách sử dụng thư viện OpenNLP
với mô hình Maximum Entropy và Gen Corpus và WSJ Corpus (F: 98.4%), có
44 thẻ Penn Treebank POS được sử dụng.
Công cụ
Công cụ OpenNLP17 viết bằng Java với các tham số mặc định được khai
thác để cài đặt Maximum Entropy với Beam Search18.
2.3.4. Kết quả và đánh giá
Hiệu quả của phương pháp tự động tạo ra tập dữ liệu bằng cách sử dụng
17
18 https://github.com/lupanh/PhenominerSSL
60
phương pháp học máy ME - BS trên ba tập dữ liệu kiểm thử chuẩn: Phenominer
2012, Phenominer 2013 và Khordad được trình bày tại Bảng 2.4.
Bảng 2.4. Đánh giá các kết quả (tính theo %)
Dữ liệu
kiểm thử
Dữ liệu
huấn luyện
Phenominer 2012 Phenominer 2013 Khordad corpus
P R F P R F P R F
HPO_NC 55,37 20,28 29,69 59,82 25,08 35,34 89,57 68,21 77,44
MPO_NC 40,08 17,44 24,3 42,64 20,78 27,94 83,24 61,09 70,47
HPO_MPO_NC 55,69 22,17 31,71 58,47 23,97 34,00 88,12 70,54 78,36
Theo Bảng 2.4, tập dữ liệu huấn luyện từ ontology mở rộng
HPO_MPO_NC cho độ đo F đạt mức 31,71% trên tập dữ liệu kiểm thử
Phenominer 2012, đạt mức 34,00% trên tập dữ liệu kiểm thử Phenominer 2013
và đạt mức 78,36% trên tập dữ liệu kiểm thử Khordad. Kết quả này cao hơn
đáng kể so với tập dữ liệu huấn luyện từ ontology MPO_NC (trong mọi trường
hợp) và từ MPO_NC (trong hai trường hợp Phenominer 2012 và Khordad). Kết quả
thực nghiệm trên tập dữ liệu kiểm thử Phenominer 2013 cho thấy HPO_NC có hiệu
năng (35,34%) cao hơn một chút so với HPO_MP_NC (34,00%).
Tập dữ liệu huấn luyện mở rộng HPO_MPO_NC đạt kết quả tốt hơn trên
tập dữ liệu kiểm thử Khordad. Lý do là sự giao thoa lĩnh vực của tập dữ liệu
HPO_MPO_NC và tập dữ liệu của Khordad khá lớn, đồng thời, độ phức tạp về
ngữ pháp trong tập dữ liệu của Khordad không quá cao. Bảng 2.4 cho thấy đối
với điểm mà độ đo F của Khordad đạt được kết quả tốt nhất ở HPO MP NC là
78,36%, cao hơn HPO NC (F: 77,44%) và MP NC (F: 70,47%). Do đó, tập dữ
liệu HPO MPO NC thể hiện phạm vi rộng hơn để giúp tăng hiệu quả của các tập
dữ liệu huấn luyện sinh tự động.
2.3.5. Phân tích lỗi
Tập dữ liệu huấn luyện được sinh ra tự động HPO_MPO_NC vẫn còn chứa
một số lỗi, cụ thể là "Missing case" và "Error case ", xuất hiện khi áp dụng
phương pháp Noun Chunking. Ví dụ, mặc dù câu "xơ cứng xơ vữa động mạch"
(Amyotrophic lateral sclerosis) trong bản tóm tắt ID: 9933298 được viết tắt là
"ALS", một số ngữ cảnh xuất hiện như "ALS" vẫn không được nhận diện như là
61
một thực thể biểu hiện. Một ví dụ khác là trong ID tóm tắt Pubmed: 34999, cụm
danh từ "hyperparathyroidism "là một thực thể biểu hiện, nhưng trong các ngữ
cảnh khác, khái niệm này đã không được tìm thấy.
Một ví dụ khác về lỗi "Error case" là cụm từ danh mục "Bệnh suy giảm
miễn dịch kết hợp nghiêm trọng" (Severe combined immunodeficiency disease)
và "Suy giảm miễn dịch kết hợp nghiêm trọng" (Severe combined
immunodeficiency) từ ID tóm tắt Pubmed: 18618 được xác định là thực thể biểu
hiện. Tuy nhiên, trên thực tế, mỗi thứ trong chúng lại là một loại bệnh.
Các kết quả không cao do một số lỗi trong các kho dữ liệu nói trên cũng
như sự giao nhau của lĩnh vực của các tập dữ liệu sinh tự động và ba tập dữ liệu
đánh giá. Một lý do quan trọng hơn là sự phức tạp của ngữ pháp trong hai tập dữ
liệu huấn luyện chuẩn được gán nhãn bởi các chuyên gia thì cao hơn so với tập
dữ liệu huấn luyện sinh tự động. Việc đánh giá số lượng trung bình của các thẻ
trên mỗi thực thể biểu hiện trên tất cả các tập dữ liệu được trình bày trong Bảng
2.5.
Bảng 2.5. Số lượng trung bình của các thẻ trên thực thể biểu hiện trong tất cả
các tập dữ liệu
Kho ngữ liệu
Số lượng trung bình của các thẻ/thực thể
biểu hiện
HPO_NC 1,710
MP_NC 1,778
HPO_MP_NC 1,761
Khordads corpus 1,668
Phenominer 2012 2,911
Phenominer 2013 3,204
Qua Bảng 2.5, chúng ta có thể thấy rằng số lượng thẻ trung bình cho mỗi
thực thể biểu hiện trong Phenominer 2012 và Phenominer 2013 là vào khoảng 3
thẻ/thực thể, trong khi đó con số này là 1,7 thẻ /thực thể trong các kho ngữ liệu
huấn luyện tự động. Điều này ảnh hưởng đến khả năng nhận dạng trong mô hình
gán nhãn tuần tự. Đây là một thách thức đối với các mô hình sử dụng các
phương pháp học máy.
62
2.4. KẾT LUẬN CHƯƠNG 2
Luận án đề xuất một mô hình học máy Maximum Entropy - Beam Search
(ME-BS) làm giàu tài nguyên thực thể của một ontology miền ứng dụng y sinh
[VNTrinh1] với độ đo F1 đạt 31,71% đối với Phenominer 2012; 35,34% đối với
Phenominer 2013 và 78,36% đối với Khordad. Kết này này cho thấy tính hiệu
quả của các tập dữ liệu được tạo ra bằng các phương pháp học ontology.
Chương tiếp theo của luận án sẽ trình bày các mô hình học ontology dựa
trên một số kỹ thuật khai phá dữ liệu văn bản và học máy với dữ liệu dương.
63
CHƯƠNG 3. KỸ THUẬT HỌC ONTOLOY DỰA TRÊN CÁC ĐỘ ĐO
Chương này trình bày hai mô hình học ontology có sử dụng các độ đo. Mô
hình học ontology đầu tiên dựa trên kỹ thuật đối sánh các khái niệm và thuộc
tính trong hai ontology miền để mở rộng thành một ontology miền. Độ đo
Google được sử dụng trong thao tác đối sánh khái niệm, thuộc tính. Mô hình học
ontology thứ hai dựa trên kỹ thuật học máy một lớp (chỉ với ví dụ lớp dương)
với việc sử dụng một số độ đo văn bản.
Một phần kết quả nghiên cứu trong Chương 3 đã được công bố trong công
trình [VNTrinh2], [VNTrinh4].
3.1. MỘT MÔ HÌNH HỌC ONTOLOGY THEO TỪ VỰNG DỰA TRÊN
ĐỘ ĐO KHOẢNG CÁCH GOOGLE
Quá trình đối sánh từ vựng (khái niệm, thuộc tính) trong hai ontology
miền một cách thủ công đòi hỏi nhiều thời gian và công sức của các chuyên gia,
nhất là khi số lượng từ vựng của các ontology lên đến con số hàng nghìn, thậm
chí hàng vạn. Một chương trình hỗ trợ trong việc đối sánh từ vựng để học
ontology hai ontology một cách bán tự động nhằm đưa ra các gợi ý cho các
chuyên gia là rất cần thiết. Ở đây, luận án xem xét một phương án đối sánh từ
vựng sử dụng độ đo Google và sau đó học hai ontology miền.
3.1.1. Phát biểu bài toán
Cho trước hai ontology miền O1, O2 về cùng một miền ứng dụng đang
được quan tâm (chẳng hạn, hai ontology dầu khí của Công ty dầu khí
Schlumberger và công ty dầu khí Halliburton19). Mỗi ontology O1, O2 chứa một
tập các khái niệm tương ứng. Mỗi khái niệm này có thể bao gồm tập các thuộc
tính; các thuộc tính của một khái niệm trong cùng một ontology là phân biệt
nhau từng đôi một. Lưu ý rằng, cùng một khái niệm ở trong hai ontology O1, O2
có thể có số lượng thuộc tính khác nhau. Bài toán đặt ra là học ontology để tích
hai hai ontoly này để nhận được một ontology O lớn hơn nhằm xây dựng thành
phần tiếng Anh trong ontology dầu khí Anh-Việt kết quả. Luận án lựa chọn giải
19 https://www.slb.com/ và https://www.halliburton.com/en-US/default.html
64
pháp học ontology sánh khớp các cặp khái niệm thuộc hai ontology để nhận diện
được các khái niệm giao nhau của hai ontology. Vấn đề tích hợp hai ontology
nói trên được giải quyết bằng hai bài toán sau đây.
Bài toán thứ nhất: Cho hai khái niệm c1O1 và c2O2, hãy đối sánh sự
liên quan giữa các thuộc tính của hai khái niệm c1 và c2. Bài toán thứ nhất là một
bài toán con (thủ tục Matching (c1, c2)) của bài toán thứ hai sau đây.
Bài toán thứ hai: Cho hai khái niệm c1O1 và c2O2, hãy đối sánh hai
khái niệm này.
3.1.2. Mô hình đối sánh các thuộc tính của hai khái niệm thuộc hai ontology
miền
Hình 3.1. Mô hình đối sánh tập thuộc tính của hai khái niệm thuộc hai ontology
miền (Procedure Matching (c1, c2))
Hình 3.1 chỉ dẫn mô hình giải quyết bài toán thứ nhất: đối sánh các thuộc
tính của hai khái niệm thuộc hai ontology miền. Trong trường hợp tổng quát, hai
khái niệm c1 và c2 là các khái niệm bất kỳ thuộc O1 và O2 tương ứng, và các
thuộc tính của hai khái niệm c1 và c2 cũng là các thuộc tính bất kỳ của hai khái
niệm c1 và c2. Các thuộc tính này có thể tương tự nhau (nghĩa là các thuộc tính
này trùng nhau hoặc khoảng cách Google giữa các thuộc tính của chúng nhỏ hơn
một ngưỡng 1 > 0 cho trước) hoặc khác nhau (nghĩa là khoảng cách Google
giữa các thuộc tính của hai khái niệm lớn hơn một ngưỡng 1 > 0 cho trước).
Các bước hoạt động trong mô hình được giải thích như sau:
(iv) Đầu tiên, gọi A1 là tập tất cả các thuộc tính của khái niệm c1 trong O1
65
và A2 là tập tất cả các thuộc tính của khái niệm c2 trong O2.
(v) Chọn lọc tập L các thuộc tính chung của khái niệm c1 và c2 có trong cả
hai ontology O1 và O2. Tập thuộc tính trong L được coi là đồng nhất
trong cả hai ontology.
(vi) Sau khi loại bỏ các thuộc tính trùng nhau ở hai ontology khỏi A1 và
A2, tính toán độ đo chuẩn Google đối với các cặp thuộc tính (aA1,
bA2).
(vii) Xác định tập AP1 các cặp thuộc tính (aA1, bA2) mà NCDG (a, b) <
1 cho trước. Do 1 được chọn đủ nhỏ cho nên cặp thuộc tính a và b
trong AP1 cũng được coi là có tính tương đồng nhau để hội nhập.
(viii) Hiển thị danh sách các thuộc tính trong L, các cặp thuộc tính trong
AP1, các cặp thuộc tính còn lại (AP2) và khoảng cách giữa chúng. Các
thuộc tính còn lại (AP2) đó được xem xét như các thuộc tính bổ sung
vào mỗi ontology.
Như vậy, khi đối sánh hai khái niệm c1 và c2 dựa vào các thuộc tính của
chúng theo mô hình trên, kết quả cuối cùng thủ tục Matching (c1, c2) sẽ trả về:
danh sách L các thuộc tính trùng nhau của cặp khái niệm (c1O1, c2O2), tập
hợp AP1 các cặp thuộc tính tương đồng với nhau (mức độ khác biệt nhỏ hơn
ngưỡng 1 >0 cho phép NCDG<1), và tập hợp AP2 các cặp thuộc tính khác
nhau với mức độ khác biệt vượt ngưỡng cho phép NCDG >=1 và khoảng cách
giữa các thuộc tính.
3.1.3. Mô hình đối sánh các khái niệm và học hai ontology dựa trên độ đo
khoảng cách Google
Giải pháp cho bài toán thứ hai này (đối sánh các khái niệm thuộc hai
ontology miền) là phức tạp hơn, tuy nhiên, một giải pháp khả thi có thể được
phát triển dựa trên lời giải cho bài toán thứ nhất. Đầu tiên, việc phát hiện các
khái niệm trùng nhau trong cả hai ontology (tương ứng với việc xác định tập L)
có thể sử dụng ba khối tính toán đầu tiên trong lược đồ Hình 3.1. Sau đó, áp
dụng giải pháp thứ nhất cho các khái niệm này. Tiếp theo, sử dụng các bước tính
toán từ thứ tư tới thứ năm để xác định tập AP1 các cặp khái niệm tương tự nhau
theo tên với độ tương tự thỏa mãn điều kiện nhỏ hơn giới hạn2 cho trước. Đối
với các cặp khái niệm AP1, tiến hành giải pháp cho bài toán thứ nhất đối với các
66
cặp khái niệm AP1 này. Tập khái niệm còn lại (AP2) cần được xem xét bằng các
giải pháp tinh vi hơn.
Hình 3.2. Mô hình đối sánh các khái niệm thuộc hai ontology miền
Hình 3.2 chỉ dẫn mô hình giải quyết bài toán thứ hai: học ontology hai
ontology miền dựa trên việc đối sánh các khái niệm của hai ontology. Trong
trường hợp tổng quát, hai khái niệm c1 và c2 là hai khái niệm bất kỳ thuộc O1 và
O2 tương ứng. Hai khái niệm c1, c2 này có thể tương tự nhau (nghĩa là hai khái
niệm này trùng nhau hoặc khoảng cách Google giữa hai khái niệm NCDG (c1,
c2) nhỏ hơn một ngưỡng 2 > 0 cho trước) hoặc có thể khác nhau (nghĩa là
khoảng cách Google giữa hai khái niệm NCDG (c1, c2) của hai ontology lớn hơn
một ngưỡng 2 > 0 cho trước). Các bước hoạt động trong mô hình được giải
thích như sau:
Đầu tiên, gọi C1 là tập hợp tất cả các khái niệm trong O1 và C2 là tập hợp
tất cả các khái niệm trong O2. Chọn lọc tập B các khái niệm chung có trong cả
hai ontology O1 và O2. Tập khái niệm B được coi là đồng nhất trong cả hai
ontology. Xác định tập BP1 các cặp khái niệm trùng nhau ở hai ontology (c1, c2)
(với c1C1 và c2C2, thỏa c1=c2).
67
Loại bỏ các khái niệm trùng nhau ở hai ontology, tính toán độ đo chuẩn
Google đối với các cặp khái niệm (c1C1, c2C2).
Xác định tập BP2 các cặp khái niệm (c1C1, c2C2) mà NCDG (c1, c2) <
2 cho trước. Do 2 được chọn đủ nhỏ cho nên cặp khái niệm (c1, c2) trong BP2
cũng được coi là có tính tương đồng nhau để hội nhập.
Xác định tập BP3 các cặp khái niệm (c1C1, c2C2) còn lại mà (c1, c2)
không thuộc về BP2, nghĩa là độ đo Google chuẩn NCDG (c1, c2) vượt ngưỡng
(>=) 2 cho trước. Nếu chỉ đối sánh tên của hai khái niệm sử dụng độ đo Google
chuẩn thì có thể coi hai khái niệm này là khác nhau. Tuy nhiên, trong thực tế, tên
hai khái niệm có thể khác nhau, nhưng thuộc tính của chúng lại có thể tương
đồng với nhau. Do đó, mô hình vẫn gọi thủ tục Matching (c1, c2) đối với các cặp
khái niệm (c1, c2) thuộc về BP3 để tính toán độ tương đồng giữa các thuộc tính.
Hai khái niệm có tên khác nhau (thuộc hai ontology miền khác nhau) có thể
được xem là tương tự nhau nếu các thuộc tính của chúng tương tự nhau (nghĩa là
các thuộc tính của chúng trùng nhau hoặc độ đo Goolge chuẩn của các thuộc tính
nhỏ hơn ngưỡng 1 >0 cho trước).
Hiển thị danh sách các khái niệm trong BP1, các cặp khái niệm trong BP2,
các cặp khái niệm còn lại BP3 và khoảng cách giữa chúng.
Sau đó, thủ tục Matching (c1, c2) tính toán độ tương đồng giữa các thuộc
tính của hai khái niệm c1 và c2, với (c1, c2) lần lượt thuộc về BP1, BP2, BP3.
– Với mọi (c1, c2) thuộc về các cặp khái niệm trùng nhau BP1 thì thủ tục
Matching (c1, c2) sẽ trả về:
• Đối với các cặp thuộc tính trùng nhau của c1 và c2, thì thủ tục
Matching (c1, c2) sẽ trả về tập hợp L các thuộc tính a trùng nhau
của c1 và c2: L = {a, với a là các thuộc tính chung của c1 và c2}.
• Đối với các cặp thuộc tính khác nhau của c1 và c2, thì thủ tục
Matching (c1, c2) sẽ trả về:
▪ Một tập hợp AP1 các cặp thuộc tính có độ đo Google nhỏ hơn
một giá trí giới hạn 1 >0 cho trước: AP1= {(a, b), với a là các
thuộc tính của c1 và b là các thuộc tính của c2, thỏa NCDG (a,
b) < 1}.
68
▪ Một tập hợp AP2 các cặp thuộc tính còn lại có độ đo Google
không nhỏ hơn một giá trí giới hạn 1 cho trước: AP2 = {(a,
b), với a là các thuộc tính của c1 và b là các thuộc tính của c2,
thỏa NCDG (a, b) >= 1}.
– Với mọi (c1, c2) thuộc về các cặp khái niệm không trùng nhau và có độ
đo Google chuẩn nhỏ hơn giới hạn 2 >0 cho trước BP2 thì thủ tục
Matching (c1, c2) sẽ trả về:
• Đối với các cặp thuộc tính trùng nhau của c1 và c2, thì thủ tục
Matching (c1, c2) sẽ trả về tập hợp L các thuộc tính a trùng nhau
của c1 và c2: L = {a, với a là các thuộc tính chung của c1 và c2}.
• Đối với các cặp thuộc tính khác nhau của c1 và c2, thì thủ tục
Matching (c1, c2) sẽ trả về:
▪ Một tập hợp AP1 các cặp thuộc tính có độ đo Google nhỏ hơn
một giá trí giới hạn 1 >0 cho trước: AP1= {(a, b), với a là các
thuộc tính của c1 và b là các thuộc tính của c2, thỏa NCDG (a,
b) < 1}.
▪ Một tập hợp AP2 các cặp thuộc tính còn lại có độ đo Google
không nhỏ hơn một giá trí giới hạn 1 cho trước: AP2 = {(a,
b), với a là các thuộc tính của c1 và b là các thuộc tính của c2,
thỏa NCDG (a, b) >= 1}.
– Với mọi (c1, c2) thuộc về các cặp khái niệm không trùng nhau và có độ
đo Google chuẩn không nhỏ hơn 2 >0 cho trước BP3 thì thủ tục
Matching (c1, c2) sẽ trả về:
• Đối với các cặp thuộc tính trùng nhau của c1 và c2, thì thủ tục
Matching (c1, c2) sẽ trả về tập hợp L các thuộc tính a trùng nhau
của c1 và c2: L = {a, với a là các thuộc tính chung của c1 và c2}.
• Đối với các cặp thuộc tính khác nhau của c1 và c2, thì thủ tục
Matching (c1, c2) sẽ trả về:
▪ Một tập hợp AP1 các cặp thuộc tính có độ đo Google nhỏ hơn
một giá trí giới hạn 1 >0 cho trước: AP1 = {(a, b), với a là
các thuộc tính của c1 và b là các thuộc tính của c2, thỏa NCDG
(a, b) < 1}.
69
▪ Một tập hợp AP2 các cặp thuộc tính còn lại có độ đo Google
không nhỏ hơn một giá trí giới hạn 1: {(a, b), với a là các
thuộc tính của c1 và b là các thuộc tính của c2, thỏa NCDG (a,
b) >= 1}.
Như vậy, khi học hai ontology O1 và O2 theo thuật toán trên, kết quả cuối
cùng sẽ bao gồm: BP1 các khái niệm trùng nhau, BP2 các cặp khái niệm khác
nhau nhưng mức độ khác nhau ở trong giới hạn cho phép (NCDG <2), và BP3
các cặp khái niệm khác nhau với mức độ khác nhau ở vượt ngưỡng cho phép
(NCDG >=2). Với từng trường hợp ở trên, ta cũng thu được các danh sách L các
thuộc tính trùng nhau của các cặp khái niệm, tập hợp AP1 các cặp thuộc tính
khác nhau nhưng mức độ khác nhau nhỏ hơn ngưỡng cho phép (NCDG<1) của
các cặp khái niệm và tập hợp AP2 các cặp thuộc tính khác nhau nhưng mức độ
khác nhau không nhỏ hơn ngưỡng cho phép (NCDG >=1) của các cặp khái niệm
và khoảng cách giữa các thuộc tính.
3.1.4. Ví dụ minh họa đối sánh khái niệm
Trong phần này luận án xem xét một ứng dụng của độ đo Google đó là
dùng để học các ontology. Trong thực tế cùng một đối tượng trong thế giới thực
có thể được mô hình hóa và biểu diễn bằng các ontology khác nhau trong các hệ
thống khác nhau. Để các hệ thống này có thể trao đổi dữ liệu và làm việc được
với nhau thì các ontology này cần phải được thống nhất lại về nội dung của các
khái niệm mà chúng biểu diễn. Xét một ví dụ biểu diễn một bộ truyền áp suất
được sử dụng trong khai thác dầu khí với các bộ phận chính của thiết bị được mô
tả. Các chỉ dẫn các thông số kỹ thuật (thuộc tính) của cùng thiết bị này được
cung cấp bởi hai nhà cung cấp là Norsock và ShareCat, ở đây, coi hai tập các mô
tả thiết bị dầu khí của Norsock và ShareCat đóng vai trò tương ứng là hai
ontology O1 và O2. Một cách trực quan, dễ dàng tìm thấy những điểm khác nhau
về thông tin (khái niệm) của thiết bị trên hai ontology này. Ví dụ, thông tin về
Trọng lượng (Weight) của thiết bị nằm trong mục Thông tin chung (General)
trong ontology O1 nhưng lại nằm trong mục Kích cỡ và trọng lượng
(Dimenssions and Weight) ở ontology O2, hay thông tin về Kết nối (Process
Connection) trong ontolgy O2 lại là các mục con của mục Thành phần/Cảm biến
(Element/Sensor) trong ontology O1.
70
Để minh họa cho mô hình đề xuất trên đây, luận án chỉ xem xét sự đối
sánh các ontology với thông tin phần tiêu đề (khái niệm) của hai ontology thông
số kỹ thuật này. Các thuộc tính của ShareCat gồm có: Document Number,
Revision, Plant/Platform, Process Datash. No., Tag number, SerialNo, Range
From, SetPoint Low, Range To, SetPoint Height, Range Unit, P&ID, Area,
Line/Equipment no., Service description và các thuộc tính của Norsock gồm có:
Tag number, Scale Range, Service description, Set/Alarm Point, P&ID, Area,
Line / equipment no., P. O. Number. Kết quả thực hiện lược đồ đối sánh được đề
xuất bao gồm:
• L = {Area, Line/equipment no., P&ID, Service description, Tag
number}.
• Ma trận khoảng cách Google giữa các khái niệm này được tính như
trong Bảng 3.1. Với giá trị = 0.2, nhận được tập AP1 = {(Process
Datash. No., Set/Alarm Point), (Process Datash. No., P. O. Number)}.
• Tập thuộc tính L, các cặp thuộc tính trong AP1 và các cặp thuộc tính
còn lại (AP2) trong Bảng 2.1 cùng với độ đo khoảng cách Google
chuẩn của chúng được hiển thị. Kết quả này cung cấp một gợi ý đối
sánh các thuộc tính của cùng một khái niệm trong hai ontology.
Bảng 3.1. Ma trận khoảng cách giữa các thuộc tính trong hai ontology
O2
O1
Scale Range Set/Alarm Point P. O. Number
Document Number 0,5822 0,6998 0,2390
Revision 0,7572 0,8403 0,4187
Plant/Platform 0,7391 0,3959 0,3564
Process Datash. No. 0,4956 0,1678 0,0757
SerialNo 0,7961 0,5603 0,4692
Range From 0,6055 0,7736 0,4852
SetPoint Low 0,5051 0,3176 0,2859
Range To 0,5679 0,7494 0,4312
71
O2
O1
Scale Range Set/Alarm Point P. O. Number
SetPoint Height 1,0000 1,0000 1,0000
Range Unit 0,6545 0,5524 0,4973
3.2. MÔ HÌNH HỌC ONTOLOGY ANH - VIỆT DỰA TRÊN KỸ THUẬT
HỌC MÁY VỚI CHỈ DỮ LIỆU DƯƠNG
3.2.1. Wikipedia là một nguồn tài nguyên xây dựng ontology
Thời gian gần đây, Wikipedia thu hút sự quan tâm đặc biệt của cộng đồng
nghiên cứu xây dựng ontology như một nguồn thông tin bán cấu trúc được sử
dụng để xây dựng tự động ontology. Dựa trên nguồn tài nguyên Wikipedia và
WordNet, F. M. Suchanek và cộng sự [73] xây dựng ontology YAGO (Yet
Another Great Ontology) nổi tiếng và không ngừng được phát triển nâng cấp20.
T. Kawakami và cộng sự [41] đề nghị một phương pháp xây dựng “ontology
nhẹ” (lightweight ontology) chung dựa trên việc trích xuất bán tự động các quan
hệ chung-riêng (rdfs: subClassOf), các quan hệ lớp-thể hiện (rdf: type), các khái
niệm như Triple và các quan hệ giữa các khái niệm. Thông tin đầu vào bao gồm
các cây danh mục, các mệnh đề định nghĩa, các danh sách và các hộp thông tin
Wikipedia. Cách thức trích xuất bán tự động bốn loại đối tượng trên đây được
trình bày một cách chi tiết. Ví dụ, để trích xuất quan hệ chung-riêng, các thao tác
đối sánh xâu ngược (Backward string matching) và xóa bỏ từng phần đối sánh
xâu ngược (Backward string matching part removal) được sử dụng. Các tác giả
xác nhận phương pháp đề xuất có lợi thế hơn so với YAGO và DBpedia
Ontology trong việc trí
Các file đính kèm theo tài liệu này:
- luan_an_nghien_cuu_mot_so_mo_hinh_hoc_ontology_va_ung_dung_t.pdf