Luận văn Đối sánh tự động lược đồ XML

Mục lục

Danh mục từviết tắt, thuật ngữ..

Danh mục bảng biểu ..

Danh mục hình vẽ..

Mở đầu ..

1. Giới thiệu chung..

2. Nội dung luận văn..

Chương 1 Đối sánh lược đồ..

1.1 Tổng quan về đối sánh lược đồ..

1.1.1 Các khái niệm cơbản về đối sánh lược đồ..

1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ..

1.2 Các tiếp cận đối sánh lược đồ..

1.2.1 Phân loại các tiếp cận đối sánh lược đồ..

1.2.2 Các tiếp cận đối sánh lược đồ..

1.2.3 Các phương pháp đối sánh lược đồ..

1.3 Các hệthống đối sánh lược đồXML..

1.3.1 Cupid (trung tâm nghiên cứu Microsoft)..

1.3.2 Similarity Flooding (Đại học Stanford và đại học Leipzig)..

1.3.3 LSD (Đại học Washington)..

1.3.4 Clio (IBM Almaden và đại học Toronto)..

1.3.5 Một sốhệthống đối sánh lược đồkhác..

1.4 Kết chương..

Chương 2 Các định nghĩa hình thức ..

2.1 Vấn đề đối sánh lược đồXML..

2.1.1 Đối sánh ngữnghĩa và đối sánh cú pháp..

2.1.2 Thông tin đầu vào của tiến trình đối sánh..

2.1.3 Thông tin đầu ra của tiến trình đối sánh..

2.1.4 Các định nghĩa hình thức..

2.2 Mô hình hóa lược đồXML..

2.2.1 Các nút đồthịlược đồ..

2.2.2 Các cạnh đồthịlược đồ..

2.2.3 Các ràng buộc đồthịlược đồ..

2.2.4 Các định nghĩa hình thức..

2.3 Ánh xạnguồn–đích..

2.4 Kết chương..

Chương 3 Đối sánh tự động lược đồXML ..

3.1 Tổng quan về đối sánh tự động lược đồXML..

3.2 Đo độtương đồng ngôn ngữ..

3.2.1 WordNet và quan hệngữnghĩa giữa các từ..

3.2.2 Thuật toán của Hirst và St-Onge..

3.2.3 Giải pháp của hệthống Cupid..

3.3 Xét tính tương thích kiểu dữliệu lược đồXML và phân tích phân cấp kiểu

người thiết kế..

3.3.1 Xét tính tương thích kiểu dữliệu lược đồXML..

3.3.2 Phân tích phân cấp kiểu người thiết kế..

3.4 Đo độtương đồng cấu trúc..

3.4.1 Định nghĩa ngữcảnh nút..

3.4.2 Đo độtương tự đường dẫn..

3.4.3 Đo độtương đồng ngữcảnh nút..

3.5 Đo độtương đồng nút và tạo ánh xạgiữa các phần tử..

3.5.1 Đo độtương đồng nút..

3.5.2 Tạo ánh xạgiữa các nút và cạnh đối sánh..

3.6 Đánh giá tiến trình đối sánh lược đồXML..

3.6.1 Các phương pháp đánh giá..

3.6.2 Đánh giá giải pháp..

3.7 Áp dụng đối sánh lược đồtrong bài toán chuyển đổi tài liệu có cấu trúc.Error!

3.7.1 Tổng quan vềtài liệu có cấu trúc..

3.7.2 Chuyển đổi tự động tài liệu có cấu trúc..

3.7.3 Mô hình cho hệthống chuyển đổi tự động tài liệu XML..

3.8 Kết chương..

Kết luận và hướng phát triển ..

1. Đóng góp chính của luận văn..

2. Hướng phát triển..

Danh mục tài liệu tham khảo ..

Phụlục.

114 trang | Chia sẻ: maiphuongdc | Lượt xem: 1871 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Luận văn Đối sánh tự động lược đồ XML, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

một tên ràng buộc (chẳng hạn như ràng buộc duy nhất, số yếu tố), Ccategory là một danh mục ràng buộc (ràng buộc trên nút, Chương 2: Các định nghĩa hình thức Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 41 ràng buộc trên cạnh, ràng buộc trên tập cạnh), Capply-to định nghĩa các thành phần áp dụng ràng buộc (ví dụ tên nút trong trường hợp ràng buộc trên nút) và Cvalue là giá trị của ràng buộc (nếu nó tồn tại, nếu không thì lấy giá trị mặc định ∅). Ta không cần kiểm tra tính hợp khuôn dạng của đồ thị lược đồ (ví dụ nếu nhãn cạnh là thuộc tính thì kiểm tra rằng nút nguồn là một nút phức hợp và nút đích là một nút nguyên tố). Điều này là do ta xây dựng đồ thị lược đồ trên cơ sở các lược đồ XML hợp lệ đã có. Dựa trên các khái niệm nút và cạnh, ta đưa ra thêm các khái niệm đường dẫn, đường dẫn nguyên thủy như sau: Định nghĩa 2.7 (Đường dẫn) Một đường dẫn từ một nút n1 tới nút nk là một dãy n1, n2, … , nk, trong đó n1, n2, … , nk ∈NG, và với bất kỳ hai nút liên tiếp ni and ni+1 (1 ≤ i ≤ k-1), tồn tại một cạnh ei (l, ni , ni+1) ∈ EG – {Ea}. Một đường dẫn chỉ bao gồm các cạnh chứa và cạnh thuộc-tính-của. Ta gọi n1 và nk lần lượt là nút bắt đầu và nút kết thúc của đường dẫn. Đường dẫn được xem là đi qua nút ni (1 ≤ i ≤ k). Độ dài của đường dẫn là tổng số nút mà đường dẫn đi qua, tức là, k với đường dẫn P = (n1, n2, … , nk), biểu thị như length(P)= k. Định nghĩa 2.8 (Đường dẫn nguyên thủy) Một đường dẫn từ nút n1 tới nút nk, là một đường dẫn nguyên thủy khi và chỉ khi nút bắt đầu n1 không có cạnh vào (nghĩa là nút bắt đầu là gốc của đồ thị lược đồ). Khái niệm đồ thị lược đồ được mô tả ở trên không bao gồm các tính năng như thừa kế kiểu và kiểu trừu tượng. Các vấn đề này sẽ được xem xét trong chương 3. Chú ý rằng đồ thị lược đồ được xây dựng bằng cách mở rộng các kiểu chia sẻ trong lược đồ XML. Dựa trên việc hình thức hóa đồ thị lược đồ, ta đưa ra thêm một số định nghĩa về việc chuyển đổi khởi dựng nguồn thành khởi dựng đích (khái niệm khởi dựng ở đây nhằm nói đến nút và cạnh trong đồ thị lược đồ). Một phần tử ánh xạ liên kết một khởi dựng từ S tới một khởi Chương 2: Các định nghĩa hình thức Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 42 dựng tương đồng ngữ nghĩa từ T (lần lượt là các đồ thị lược đồ nguồn và đích). Mặc dù một nguồn có thể không có một khởi dựng tương ứng trực tiếp tới một khởi dựng đích, các khởi dựng đích có thể được dẫn xuất từ các khởi dựng nguồn bằng cách áp dụng một tập các phép toán đã định nghĩa trước. Cơ chế này có những điểm tương đồng với việc tạo khung nhìn ảo trong tích hợp dữ liệu, ở đó một khung nhìn ảo trên nguồn phải đối sánh với một lược đồ trung gian (ví dụ ghép nối của các phần tử nguồn FirstName và LastName thành một phần tử ảo Name mà đối sánh với phần tử đích Name). Khung nhìn ảo cũng áp dụng được cho cạnh (ví dụ hai cạnh Author→FirstName và Author→LastName được hợp nhất với nhau thành một cạnh ảo Author→Name đối sánh với cạnh Author→Name trong lược đồ đích). Dựa trên các định nghĩa trong [20] cho vấn đề tạo khung nhìn ảo, ta có thể đưa ra các định nghĩa hình thức ánh xạ giữa các lược đồ nguồn và đích như sau: Định nghĩa 2.9 (Bảng ký tự lược đồ) Cho một lược đồ K (tuân theo hình thức đồ thị lược đồ), ta gọi bảng ký tự lược đồ của K hay ΣK là hợp của các nút và các cạnh trong đồ thị lược đồ của K: ΣK = NK ∪EK. Định nghĩa 2.10 (Khung nhìn ảo) Cho một lược đồ nguồn S và bảng ký tự ΣS của nó, một khung nhìn ảo υS trên S là một dẫn xuất từ bảng ký tự ΣS áp dụng một tập các phép toán đã định nghĩa trước O ={o1,…on.}. Định nghĩa 2.11 (Phần tử ánh xạ, ánh xạ trực tiếp, ánh xạ phức hợp) Cho VS là tập các khung nhìn ảo có thể được xây dựng trên ΣS. Một phần tử ánh xạ là một hàm mst: ΣS∪VS → ΣT, nối kết một phần tử s trong ΣS∪VS tới một phần tử t trong ΣT. Một phần tử ánh xạ là một ánh xạ trực tiếp nếu nó nối kết một phần tử trong ΣS (⊆VS) tới một phần tử trong ΣT và là một ánh xạ phức hợp nếu nó nối kết một phần tử ảo υS ∈VS tới một phần tử đích trong ΣT qua một biểu thức ánh xạ đã định nghĩa trên O. Chương 2: Các định nghĩa hình thức Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 43 2.3 Ánh xạ nguồn–đích Một trong những ứng dụng cơ bản của đối sánh lược đồ là vấn đề chuyển đổi giữa các nguồn dữ liệu có cấu trúc tuân theo các lược đồ tương đồng. Vấn đề này đòi hỏi ta phải thiết lập các ánh xạ thích hợp giữa các phần tử tương đồng trong hai lược đồ nguồn và đích đã cho, hay còn gọi là ánh xạ nguồn– đích. Các nghiên cứu trong lĩnh vực CSDL đã đưa ra mô hình đại số quan hệ khá hoàn chỉnh, do vậy ta có thể mở rộng mô hình này cho vấn đề ánh xạ nguồn–đích trong đối sánh lược đồ. Nhiều nghiên cứu khác nhau (chủ yếu trong lĩnh vực tích hợp dữ liệu) đã mô tả các phép toán tạo khung nhìn ảo trên các lược đồ. Để giải quyết vấn đề này, họ chỉ ra một tập các phép toán sử dụng như là các chuyển đổi truy vấn để tích hợp thông tin nguồn vào khung nhìn đích. Một mở rộng của nghiên cứu này đã được đề xuất trong [20] nhằm công thức hóa lại các truy vấn trong hệ thống tích hợp dữ liệu. Tuy vậy, các nghiên cứu này chỉ quan tâm đến các lược đồ quan hệ và chúng không hoàn toàn áp dụng được cho lược đồ XML. Các nghiên cứu về đối sánh cây, chẳng hạn như [19] lại chú ý đến vấn đề phát hiện thay đổi cho cây gán nhãn. Họ đưa ra ba phép toán trong đối sánh cây: delete, insert, relabel. Kịch bản thao tác "rẻ nhất" cho việc chuyển đổi cây nguồn thành một cây đích là kết hợp các phép toán này. Tuy vậy, trong các tiếp cận này, nhãn của nút không quan trọng. Phép toán gán lại nhãn được xem là “rẻ” hơn phép xóa theo sau là một phép toán chèn. Trong thực tế, nhãn là tên tổng quát của thẻ XML mang thông tin ngữ nghĩa nên việc gán lại nhãn một nút thành một nút khác không liên quan về ngữ nghĩa có thể cho ra một kết quả không mong muốn trong đối sánh lược đồ XML. Dựa vào các nghiên cứu trên và xuất phát từ các phép toán cơ bản đã được mô tả trong đại số quan hệ chuẩn, ta có thể đưa ra các phép toán ánh xạ nguồn–đích áp dụng cho đối sánh lược đồ XML. Sau đây chúng tôi sẽ xem Chương 2: Các định nghĩa hình thức Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 44 xét những vấn đề cần phải giải quyết trong đối sánh lược đồ XML, từ đó mô tả các phép toán này. Các vấn đề mô tả ở đây về cơ bản dựa trên nghiên cứu về đại số ánh xạ nguồn–đích đã được đưa ra trong [22]. ● Người thiết kế lược đồ có thể mô tả các khái niệm tương tự về mặt ngữ nghĩa bằng cách sử dụng các tên khác nhau. Để giải quyết vấn đề này, ta cần một phép toán đổi tên như sau: Rename: t = rename(s), tạo ra một khởi dựng giống như s nhưng với một tên khác là t. Ví dụ: writer=rename (author) chỉ ra rằng một thể hiện nguồn author được đổi tên thành thể hiện đích writer. ● Với mỗi nút đích, có thể có một tập con thích hợp các giá trị mong đợi hoặc một tập mẹ thích hợp các giá trị mong đợi trong nguồn. Ví dụ ta hãy xét một lược đồ 1 trong đó một Author có con là các nút Paper và Book mô tả publication của nó. Ngược lại, Author trong một lược đồ 2 đã cho có một nút con là Publication. Trong lược đồ 1, các nút Paper và Book là các tập con của nội dung Publication trong lược đồ 2, và các quan hệ Author→Paper và Author→Book đều là chi tiết hóa của quan hệ Author→Publication trong lược đồ 2. Do đó, nếu lược đồ 2 là đích, ta có thể cần đến phép hợp các nội dung của Paper và Book và các quan hệ Author→Paper và Author→Book. Nếu lược đồ 1 là đích, ta cần tìm kiếm một cách để lựa chọn nội dung của các paper và các book và các quan hệ giữa author và các paper và author và book từ các quan hệ giữa author và publication. Để giải quyết vấn đề này, ta cần hai phép toán hợp và chọn như sau: Hợp: Union: t = union (s1, s2), tạo ra một khởi dựng t mà nội dung của nó là hợp của các giá trị s1 và các giá trị s2, Chọn: Selection: t = selectP (s) (trong đó P là một vị từ) tạo ra một khởi dựng t mà nội dung của nó là một phần của nội dung của s mà thỏa mãn vị từ P. Chương 2: Các định nghĩa hình thức Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 45 ● Người thiết kế lược đồ có thể không chọn cách biểu diễn các giá trị ở cùng mức nguyên tố. Ví dụ, một tên tác giả được biểu diễn trong lược đồ đã cho sử dụng phần tử Name. Trong khi trong một lược đồ khác, nó được tách thành First-Name và Last-Name. Nếu lược đồ 1 là đích, ta cần nối các giá trị của First-Name và Last-Name lại với nhau, còn nếu lược đồ 2 là đích, ta cần tách các giá trị của các phần tử Name thành các giá trị First-Name và Last- Name. Để giải quyết vấn đề này, ta cần hai phép toán nhập và tách như sau: Nhập: Merge: t = merge (S1…Si), tạo ra một khởi dựng t mà giá trị của nó thu được bằng cách nối các giá trị s1...si với nhau, Tách: Split: (t1…ti) = splitcriteria (s), trong đó t1...ti thu được bằng cách phân chia một khởi dựng s dựa vào tiêu chuẩn tách biệt. Một ví dụ của tiêu chuẩn tách biệt này là khoảng trắng (“white space”) trong trường hợp các xâu. ● Một khởi dựng đích có thể thu được bằng cách áp dụng một phép kết nối tự nhiên (như trong các lược đồ quan hệ) các khởi dựng nguồn. Để giải quyết vấn đề này, ta cần một phép toán nối như sau: Nối: Join: t= joinP(S1,S2), tạo ra khởi dựng đích t là kết nối tự nhiên của S1 và S2 dưới vị từ P. ● Ta thường cần một số hàm đặc biệt để chuyển đổi nội dung của các giá trị nguồn thành các giá trị đích, chẳng hạn như chuyển đổi đơn vị, chuyển đổi định dạng ngày tháng hay các hàm toán học như min, avg, div, v.v.. Đối với trường hợp này, ta cần một phép toán áp dụng như sau: Áp dụng: Apply: t = applyf (s1…si) trong đó f là một hàm của các biến s1…si và trả về t, mà giá trị của nó tương ứng với f (s1…si). ● Với mỗi trường hợp mà ta có một đối sánh một-một mà không có bất kỳ sự thay đổi nào, ta cần một phép toán nối như sau: Connect: t = connect(s), tạo ra khởi dựng t có cùng nội dung và nhãn như s. Chương 2: Các định nghĩa hình thức Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 46 2.4 Kết chương Việc đưa ra các định nghĩa hình thức cho vấn đề đối sánh lược đồ là một bước quan trọng trong tiến trình đối sánh. Điều này giúp người dùng đánh giá và so sánh được khả năng ứng dụng của các giải pháp đối sánh. Dựa trên việc phân tích thông tin vào và ra cho một hệ thống đối sánh lược đồ XML, chúng tôi đã mô tả các giả thiết cơ bản cho tiến trình đối sánh. Tiếp theo, chúng tôi đã mô tả các định nghĩa cho mô hình dữ liệu biểu diễn lược đồ XML, là đồ thị gán nhãn có hướng và có gốc, hay còn gọi là đồ thị lược đồ. Ngoài việc tính toán độ tương đồng giữa các phần tử lược đồ, các giải pháp đối sánh thường quan tâm đến việc phát hiện ánh xạ giữa các nút và cạnh đối sánh cũng như các phép toán chuyển đổi nhằm mục đích truy lục dữ liệu từ lược đồ nguồn. Do đó trong chương này chúng tôi cũng đã mô tả các phép toán ánh xạ nguồn–đích như đổi tên, nối và áp dụng nhằm tạo các ánh xạ trực tiếp cũng như hợp, chọn, nhập và tách để tạo các ánh xạ phức hợp. Tuy vậy, công việc cơ bản trong bất cứ giải pháp đối sánh lược đồ nào vẫn là việc tính toán độ tương đồng giữa các phần tử lược đồ, do vậy ta cần phải chỉ ra các tiêu chuẩn đối sánh cũng như việc thực hiện chúng. Bên cạnh đó, do tiến trình đối sánh lược đồ là không thể tự động được hoàn toàn, nghĩa là cần phải có sự xác nhận của người dùng, các giải pháp đối sánh lược đồ cần phải kết hợp được phản hồi người dùng trong kết quả đối sánh. Các vấn đề này sẽ được trình bày trong chương tiếp theo. Chương 3: Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 47 Chương 3 Đối sánh tự động lược đồ XML Trong chương này đầu tiên chúng tôi mô tả các thuật toán đối sánh lược đồ khác nhau và cách kết hợp chúng để thu được độ tương đồng giữa các thực thể lược đồ. Vấn đề đặt ra ở đây là làm thế nào để sử dụng một cách tối đa thông tin cấu trúc nhằm thu được các ánh xạ giữa các lược đồ XML nguồn và đích. Để thực hiện điều này, chúng tôi dựa vào các kết quả nghiên cứu trong nhiều lĩnh vực như tích hợp dữ liệu, chuyển đổi dữ liệu, trả lời truy vấn, v.v.. nhằm đưa ra phép đo độ tương đồng giữa các phần tử lược đồ một cách chính xác và hiệu quả nhất có thể. Tiếp theo chúng tôi chỉ ra cách tạo ra các ánh xạ trực tiếp lẫn gián tiếp dựa trên các phép đo độ tương đồng này. Cuối cùng, chúng tôi đánh giá giải pháp đã đưa ra dựa trên một tập dữ liệu thực tế được cung cấp trong [5]. Quá trình đánh giá bao gồm hai phần: thứ nhất là đánh giá giải pháp theo các phép đo chất lượng đối sánh và thứ hai là so sánh giải pháp với hai hệ thống điển hình hiện này là Cupid và SF. Cuối cùng, để đưa ra một áp dụng cho giải pháp đã mô tả, trong phần cuối chương này chúng tôi sẽ xem xét vấn đề chuyển đổi tài liệu có cấu trúc, một trong những lĩnh vực ứng dụng điển hình của đối sánh lược đồ XML. Ngoài việc tổng hợp lại các nghiên cứu liên quan về vấn đề này, chúng tôi cũng đề xuất một mô hình cho hệ thống chuyển đổi tự động tài liệu XML. Chương 3: Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 48 3.1 Tổng quan về đối sánh tự động lược đồ XML Để đối sánh lược đồ, về cơ bản ta cần tính toán độ tương đồng giữa các phần tử lược đồ. Để tính toán độ tương đồng phần tử, các tiếp cận đối sánh lược đồ hiện nay thường kết hợp nhiều phương pháp đối sánh khác nhau. Một trong những tiếp cận đáng chú ý là giải pháp được đưa ra trong [22], trong đó các tác giả đã áp dụng đối sánh lược đồ cho vấn đề chuyển đổi tài liệu có cấu trúc. Dựa trên các nghiên cứu này, chúng tôi đưa ra một tiến trình tính toán độ tương đồng phần tử như mô tả trong hình 3.1. Chúng tôi sử dụng các tiêu chuẩn đối sánh cơ bản sau: đối sánh thuật ngữ, xét tính tương thích kiểu dữ liệu và đối sánh cấu trúc. Sau đây là các bước cơ bản trong tiến trình này: - Đo độ tương đồng ngôn ngữ: pha này tính toán độ tương đồng giữa các nút lược đồ nguồn và đích dựa trên độ tương đồng nhãn có sử dụng WordNet. Pha này có đầu vào là các nhãn trong hai đồ thị lược đồ và đưa ra một ma trận độ tương đồng ngôn ngữ (trong phạm vi [0, 1]) giữa các nút nguồn và đích. - Xét tính tương thích kiểu dữ liệu: pha này tính toán độ tương đồng giữa các nút nguồn và đích dựa trên các ràng buộc của chúng. Ở đây chúng tôi chỉ xét các nút nguyên tố được xem là tương đồng trong pha đối sánh thuật ngữ. Trong pha này chúng tôi sử dụng phân cấp kiểu nội tại của lược đồ XML [27] và các ràng buộc miền trên các nút nguyên tố nguồn và đích để cập nhật cho phép đo độ tương đồng thuật ngữ. - Đo độ tương đồng cấu trúc: pha này tính toán độ tương đồng của các nút lược đồ nguồn và đích sử dụng các đặc điểm cấu trúc của chúng dựa trên khái niệm ngữ cảnh nút. Chúng tôi thực hiện đối sánh cấu trúc theo hai bước. Bước đầu tiên là gán cho mỗi nút trong lược đồ nguồn và đích một ngữ cảnh. Tiếp theo chúng tôi so sánh các ngữ cảnh này để đưa ra một hệ số tương đồng nút phản ánh sự tương đồng cấu trúc giữa hai nút lược đồ. Bước thứ hai chúng tôi sử dụng độ tương đồng nút đã có để đưa ra tập các phần tử ánh xạ phức Chương 3: Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 49 hợp và trực tiếp. Trong bước này, chúng tôi cũng xác nhận tính hợp lệ của các ánh xạ phức hợp đã tạo ra trong pha phân tích phân cấp kiểu người thiết kế. Hình 3. 1 Tiến trình tính toán độ tương đồng phần tử 3.2 Đo độ tương đồng ngôn ngữ Mục đích của pha này là tính toán độ tương đồng giữa các nút lược đồ dựa trên độ tương đồng nhãn của chúng. Để thực hiện đối sánh ngôn ngữ, chúng tôi xem xét ý nghĩa của tên phần tử và thiết lập các quan hệ ngữ nghĩa giữa chúng dựa trên WordNet, một CSDL từ vựng điện tử cho các từ tiếng Anh [14]. 3.2.1 WordNet và quan hệ ngữ nghĩa giữa các từ WordNet phân biệt các quan hệ ngữ nghĩa khái niệm mà liên kết các khái niệm và các quan hệ từ vựng liên kết các từ riêng lẻ. Về cơ bản chúng tôi chỉ xét các quan hệ ngữ nghĩa khái niệm. Trong WordNet thông tin từ vựng được tổ chức dưới dạng ý nghĩa từ hơn là hình thái từ. Ý nghĩa từ được xem xét qua Ma trận độ tương đồng ngôn ngữ Đo độ tương đồng ngôn ngữ Xét tính tương thích kiểu dữ liệu Đo độ tương đồng ngữ cảnh nút Đồ thị lược đồ Ngữ cảnh tổ tiên Ma trận độ tương đồng ngôn ngữ đã hiệu chỉnh Đo độ tương đồng nút Ma trận độ tương đồng phần tử Ngữ cảnh con Ngữ cảnh lá Chương 3: Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 50 khái niệm synset (synonym set - tập các từ đồng nghĩa). Trong WordNet một hình thái từ có thể được kết hợp với nhiều synset, mỗi synset tương ứng với một nghĩa khác nhau của từ. WordNet được tổ chức theo các quan hệ ngữ nghĩa. Bởi vì một quan hệ ngữ nghĩa là một quan hệ giữa các ý nghĩa, và bởi vì ý nghĩa có thể được biểu diễn bằng các synset, một cách tự nhiên có thể coi các quan hệ ngữ nghĩa như là các con trỏ giữa các synset. WordNet sử dụng nhiều quan hệ ngữ nghĩa khác nhau như đồng nghĩa/trái nghĩa hay tổng quát/đặc biệt. Các liên kết WordNet có thể có ba hướng: lên, xuống và ngang. Hướng lên tương ứng với sự tổng quát hóa của ngữ cảnh (kết nối nhiều khái niệm riêng biệt thành một một khái niệm tổng quát hơn). Liên kết xuống tương ứng với sự chi tiết hóa của ngữ cảnh. Liên kết ngang là các chi tiết hóa rất cụ thể và ít xảy ra hơn các liên kết lên và xuống. Bảng C.1 trong phụ lục C cho ta ví dụ về các liên kết này. 3.2.2 Thuật toán của Hirst và St-Onge Hầu hết các thuật toán đối sánh lược đồ đều sử dụng WordNet để đối sánh ngôn ngữ, nhưng thường ít cho ta thấy cách họ khai thác WordNet như thế nào. Budanisky và Hirst đã đưa ra một khảo sát về các thuật toán này, bao gồm các thuật toán của Hirst và St-Onge, thuật toán của Leacock và Chodorow, thuật toán của Jiang và Conrath, thuật toán của Resnik và thuật toán của Lin [2]. Dựa trên kết quả thực nghiệm, có thể thấy thuật toán của Jiang và Conrath đưa ra độ tương đồng ngôn ngữ với độ chính xác cao nhất. Rất tiếc các tác giả lại không cho biết cách làm của họ. Trong luận văn này về cơ bản chúng tôi dựa trên nghiên cứu về thuật toán của Hirst và St-Onge [7]. Khi tìm kiếm quan hệ giữa hai từ, mỗi synset của từ đầu tiên phải được xem xét cùng với mỗi synset của từ thứ hai, sau đó tìm kiếm một kết nối có thể giữa một số synset của từ thứ nhất và một số synset của từ thứ hai. Chương 3: Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 51 Hirst và St-Onge đưa ra ba mức quan hệ: rất mạnh, mạnh) và trung bình. Quan hệ rất mạnh tương ứng với sự lặp lại từ (ví dụ author và authors, foot và feet). Các quan hệ rất mạnh có trọng số cao. Hai từ có quan hệ mạnh nếu tồn tại một liên kết ngang giữa các synset của chúng. Trong luận văn này, chúng tôi giới hạn quan hệ mạnh trong các tiêu chí sau: - Có một synset chung cho hai từ. - Có một liên kết ngang giữa các synset của mỗi từ. - Một trong các từ là một từ ghép và từ kia là một phần của từ ghép, và có thể có bất kỳ loại liên kết nào giữa các synset liên kết mỗi từ. Quan hệ mạnh có trọng số thấp hơn quan hệ rất mạnh. Không giống như các quan hệ rất mạnh và mạnh, quan hệ trung bình có các trọng số khác nhau phụ thuộc vào đường dẫn hiện có giữa các cặp synset. Ý tưởng của Hirst và St-Onge trong việc đo độ quan hệ ngữ nghĩa đó là hai khái niệm là gần gũi về ngữ nghĩa nếu các synset của chúng được kết nối bởi một đường dẫn không quá dài và không thay đổi hướng quá thường xuyên. Họ cũng định nghĩa một tập các đường dẫn được phép như sau: một đường dẫn được xem là được phép nếu các liên kết tạo ra đường dẫn tuân theo ba điều kiện sau: - Không có một hướng khác trước một liên kết lên (một khi ngữ cảnh được đặc biệt hóa sử dụng một liên kết xuống hoặc ngang, không được mở rộng ngữ cảnh sử dụng một liên kết lên). - Không có nhiều hơn một thay đổi về hướng được phép (các thay đổi hướng tạo thành các thay đổi ngữ nghĩa trong ngữ cảnh và do đó phải bị giới hạn). Luật này có một ngoại lệ theo nghĩa một hướng ngang có thể được sử dụng để tạo sự chuyển tiếp từ một hướng lên thành một hướng xuống. - Độ dài đường dẫn được giới hạn trong một ngưỡng nào đó (nhìn chung được lấy bằng bốn hoặc năm). Chương 3: Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 52 Hình C.1 trong phụ lục C minh họa các ví dụ về đường dẫn được phép. Để tính toán trọng số của quan hệ trung bình, đầu tiên chúng tôi nhận dạng đường dẫn ngắn nhất giữa một cặp các synset. Nếu đường dẫn là không được phép, thì trọng số gán cho quan hệ là NULL (tức là không có quan hệ). Trong trường hợp khác, trọng số của đường dẫn và do đó độ tương đồng ngôn ngữ được cho bởi công thức sau: c – độ dài đường dẫn – k × số lần thay đổi hướng Trong đó c và k là các hằng số với c = 8 và k = 1. Việc lựa chọn c và k là từ thực nghiệm dựa trên các ví dụ đã cung cấp trong [2] trong đó các tác giả so sánh một vài thuật toán đo khoảng cách ngữ nghĩa. Bằng cách chuẩn hóa phép đo này, ta nhận được một hệ số ngôn ngữ lsim, có phạm vi giữa [0, 1], trong đó 0 có nghĩa là không có quan hệ ngữ nghĩa tồn tại giữa hai từ và 1 có nghĩa là giữa các từ rất tương đồng. Mô tả chi tiết về thuật toán của Hirst và St-Onge có thể xem trong phụ lục C. Hình C.2 trong phụ lục C minh họa các loại quan hệ ngữ nghĩa sử dụng trong thuật toán này. Có thể sử dụng thuật toán tương tự cho tên kiểu. Để đơn giản hóa vấn đề, trong luận văn này chúng tôi giả thiết rằng các nút có cùng tên như kiểu của chúng. 3.2.3 Giải pháp của hệ thống Cupid Trong phần trên, chúng tôi đã sử dụng WordNet làm nguồn từ vựng nhằm so sánh tên các phần tử theo thuật toán của Hirst và St-Onge. Tuy nhiên, trong thực tế các phần tử lược đồ thường có tên khác nhau do sử dụng từ viết tắt, từ rút gọn, dấu chấm câu… Do đó, môđun xử lý độ tương đồng ngôn ngữ cần phải giải quyết được vấn đề này. Trong [11] các tác giả đã đề xuất một bước chuẩn hóa để giải quyết vấn đề này. Đầu tiên họ thực hiện bước phân tích tên thành các token sử dụng dấu Chương 3: Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 53 chấm câu, chữ hoa..., tiếp theo là họ chỉ ra từ viết tắt, từ rút gọn và cuối cùng là loại bỏ giới từ, mạo từ, v.v... Trong mỗi bước này, họ sử dụng một từ điển chuyên đề bao gồm cả ngôn ngữ chung lẫn các tham chiếu riêng cho lĩnh vực. Về cơ bản, giải pháp của chúng tôi sử dụng ý tưởng này. Sau bước chuẩn hóa, hệ thống Cupid còn thực hiện tiếp các bước như phân chia các từ thành danh mục (nhằm giảm bớt các ứng viên đối sánh, tăng tốc độ cho pha đối sánh) và thực hiện đối sánh ngôn ngữ bằng cách sử dụng các phương pháp đối sánh xâu. Thay vì vậy, trong giải pháp của chúng tôi, tiến trình đối sánh được thực hiện nhờ sử dụng thuật toán của Hirst và St-Onge đã mô tả ở trên. Tuy vậy, cho dù dùng phương pháp nào đi nữa, đối sánh ngôn ngữ vẫn có thể cho kết quả tương đồng cao ngay cả khi các nút không có sự tương ứng ngữ nghĩa với nhau, do đó cần phải có phương pháp hiệu chỉnh sai lệch này. Sau đây ta sẽ nêu các phương pháp đối sánh này. 3.3 Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu người thiết kế 3.3.1 Xét tính tương thích kiểu dữ liệu lược đồ XML Để hiệu chỉnh bước đầu kết quả thu được từ pha đối sánh ngôn ngữ, các tiếp cận hiện nay thường xem xét thêm các ràng buộc lược đồ. Một trong những giải pháp thông dụng nhất là xét tính tương thích kiểu dữ liệu. Các khuyến nghị lược đồ XML cung cấp khá nhiều kiểu dữ liệu nội tại và biểu thức chính quy khác nhau [27], vì vậy có thể sử dụng các thông tin này để xây dựng một bảng hệ số tương thích giữa các kiểu dữ liệu, kí hiệu là dsim. Các kiểu dữ liệu lược đồ XML được phân thành nhiều danh mục (gọi là các kiểu dữ liệu nguyên thủy) chẳng hạn như Duration, Boolean, String, Decimal, v.v.. Mỗi danh mục có một vài kiểu dữ liệu dẫn xuất (chẳng hạn integer là kiểu dữ liệu dẫn xuất từ Decimal, và long là kiểu dữ liệu dẫn xuất từ integer). Hai Chương 3: Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 54 kiểu dữ liệu được xem là tương đồng nhau nếu chúng thuộc cùng danh mục kiểu dữ liệu, và sự tương thích kiểu dữ liệu của chúng phụ thuộc vào vị trí tương ứng của chúng trong phân cấp kiểu dữ liệu lược đồ XML. Dựa trên phân cấp kiểu dữ liệu lược đồ XML ta sẽ xây dựng một bảng tương thích kiểu dữ liệu cho biết hệ số tương tự giữa hai kiểu dữ liệu đã cho (như một bảng đã được xây dựng trong [11]). Ví dụ hệ số dsim giữa các kiểu int và short bằng 0,8 (do kiểu short được dẫn xuất từ kiểu int). Độ tương thích kiểu dữ liệu thường được định nghĩa cho các nút nguyên tố để đo độ tương đồng giữa các r

Các file đính kèm theo tài liệu này:

000000208336R.pdf