Luận án Phương pháp đánh chỉ số cho tài liệu xml tin sinh học dựa trên R - Tree

MỤC LỤC. i

Danh mục các thuật ngữ.iii

Bảng các ký hiệu, từ viết tắt .iv

Danh sách bảng. v

Danh sách các thuật toán.vi

Danh sách hình vẽ.vii

MỞ ĐẦU . 1

Chương 1. TỔNG QUAN. 5

1.1. Tin sinh học và các nguồn dữ liệu.5

1.1.1. Tin sinh học .5

1.1.2. Các nguồn dữ liệu .6

1.1.3. Vấn đề tin sinh học và cơ sở dữ liệu sinh học.10

1.2. Các phương pháp đánh chỉ số dữ liệu sinh học và tin sinh học.13

1.2.1. Chỉ số và mô hình bộ nhớ ngoài.13

1.2.2. Các phương pháp đánh chỉ số cho dữ liệu sinh học .14

1.2.2.1. Các thuật toán so sánh tương đồng thông qua chuỗi đại diện14

1.2.2.2. Các thuật toán sử dụng sự thay đổi cấu trúc chỉ số.15

1.2.3. Các phương pháp đánh chỉ số cho dữ liệu tin sinh học .17

1.3. Phương pháp đánh chỉ số tài liệu XML.18

1.3.1. Tài liệu XML và Xpath.18

1.3.2. Các phương pháp theo hướng nghiên cứu chuyển đổi dữ liệu

XML sang không gian số trước khi thực hiện đánh chỉ số.24

1.3.2.1. Đánh số trên lược đồ.24

1.3.2.2. Phép nối có cấu trúc .25

1.3.2.3. Chuyển đổi lên không gian đa chiều .28

1.3.2.4. Ánh xạ sang cơ sở dữ liệu quan hệ.29

1.4. Phương pháp R-tree.31

1.4.1. Khái niệm R-tree.31

1.4.2. Cấu trúc R-tree.31

1.4.3. Một số thuật toán cơ bản trong phương pháp R-tree.33

1.4.4. Một số phương pháp cải tiến R-tree đánh chỉ số tài liệu XML.41

130 trang | Chia sẻ: honganh20 | Lượt xem: 655 | Lượt tải: 2Free

Bạn đang xem trước 20 trang tài liệu Luận án Phương pháp đánh chỉ số cho tài liệu xml tin sinh học dựa trên R - Tree, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

các entry từ các node có mức cao hơn phải được đặt cao hơn trong cây, vì vậy các lá của các cây con phụ thuộc vào chúng sẽ nằm trên cùng mức như các lá của cây mẹ. h) Cập nhật (Update) Nếu một bộ dữ liệu được cập nhật để cho hình chữ nhật bao phủ nó bị thay đổi, bản ghi chỉ số của nó phải bị xóa, cập nhật và chèn lại, vì vậy nó sẽ phải tìm cách để đặt đúng vị trí trong cây. 38 Một cách tìm kiếm khác so với cách được mô tả ở trên có thể hữu ích hơn, ví dụ để tìm tất cả các đối tượng dữ liệu được chứa hoàn toàn trong một vùng tìm kiếm, hoặc tất cả các đối tượng chứa vùng tìm kiếm. Các bước thực hiện có thể được thực hiện bằng các biến đổi dễ hiểu trên thuật toán đã cho. Tìm một phần tử cụ thể mà nhận dạng của nó đã được biết trước cần đến thuật toán xóa và được thực hiện bằng thuật toán FindLeaf. Các biến đổi của phạm vi xóa, trong phạm vi này, tất cả các đối tượng dữ liệu trên diện tích liên quan được xóa đi, cũng được R-tree cung cấp khá tốt. i) Thuật toán tách node (Node Splitting) Để thêm một phần tử mới, một node chứa đầy M các chỉ số, cần phải phân chia tập hợp của M+1 các phần tử thành 2 node. Sự phân chia nên được thực hiện theo cách làm cho nó không chắc có thể thực hiện được việc phân chia cả hai node mới sẽ cần được kiểm tra trên việc tìm kiếm thứ tự. Khi đó sự quyết định thăm một node phụ thuộc vào hình chữ nhật bao phủ nó có chồng lên diện tích tìm kiếm. Tổng số diện tích của hai hình chữ nhật bao phủ sau khi tách có thể được giảm đến mức tối thiểu. Hình dưới đây minh họa điều này. Diện tích của các hình chữ nhật trong trường hợp “bad split”lớn hơn nhiều so với trường hợp “good split”. Hình 1.13: Trƣờng hợp phân chia node (a) bad split, (b) good split. Cùng tiêu chuẩn đã được dùng trong thủ tục ChooseLeaf để quyết định xem nơi nào có thể chèn một chỉ số mới vào tại mỗi mức trong cây, cây con được chọn 39 là một cây mà hình chữ nhật bao phủ của nó phải được mở rộng ít Bad nhất khi chèn chỉ số mới vào. Chúng ta quay lại thuật toán phân chia tập M+1 phần tử thành hai nhóm cho mỗi node mới. Hình 1.14: Phân chia phần tử thành các nhóm node mới j) Thuật toán A Quadractic Cost Thuật toán này cố gắng tìm một vùng được tách ra có diện tích nhỏ, nhưng không bảo đảm là có thể tìm được một vùng có thể có diện tích nhỏ nhất. Chi phí là bậc 2 theo M và tuyến tính theo số lượng của các chiều. Thuật toán chọn 2 phần tử trong số M+1 phần tử làm phần tử đầu tiên của hai nhóm mới, bằng cách chọn này, hai phần tử mới này có thể làm lãng phí diện tích lớn nhất nếu cả hai được đặt trong cùng một nhóm. Như vậy diện tích hình chữ nhật bao phủ cả hai phần tử, trừ đi diện tích của chính các phần tử, sẽ là lớn nhất. Các phần tử còn lại được gán vào các nhóm cùng lúc. Tại mỗi bước, việc mở rộng diện tích đòi hỏi phải thêm mỗi phần tử còn lại cho mỗi nhóm được tính toán, và phần tử được gán thì sẽ xuất hiện một sự khác biệt lớn nhất giữa hai nhóm. k) Thuật toán Quadratic Split Phân chia một tập M+1 các chỉ số thành hai nhóm. 40 - B1: [chọn phần tử đầu tiên cho mỗi nhóm] Áp dụng thuật toán PickSeeds để chọn hai phần tử làm các phần tử đầu tiên của các nhóm. Gán mỗi phần tử cho một nhóm. - B2: [Kiểm tra nếu đã thực hiện] Nếu tất cả các phần tử đã được gán, ngừng. Nếu một nhóm có một vài phần tử mà tất cả những phần tử còn lại phải được gán vào nó theo thứ tự để cho nhóm này có m nhỏ nhất, gán các phần tử và ngừng. - B3: [Chọn phần tử để gán] Thực hiện thuật toán PickNext để chọn phần tử kế tiếp để gán. Thêm phần tử này vào nhóm mà hình chử nhật bao phủ của nó sẽ phải mở rộng ít nhất để chứa phần tử này. Giải quyết các hạn chế bằng cách thêm phần tử vào nhóm có diện tích nhỏ nhất, khi đó nhóm này có các phần tử ít hơn nhóm khác. Lặp lại B2. l) Thuật toán PickSeeds Chọn hai phần tử làm phần tử đầu tiên của các nhóm. - B1: [Tính toán sự thiếu hiệu quả của việc nhóm các phần tử với nhau] Cho mỗi cặp các phần tử E1 và E2, tạo một hình chữ nhật J bao gồm E1I và E2I Tính d = area(J) – area (E1I) - area(E2I). - B2: [Chọn cặp gây lãng phí nhất] Chọn cặp có d lớn nhất. m) Thuật toán PickNext Chọn một mục còn lại để phân loại vào một nhóm. - B1: [Xác định giá trị của việc đặt mỗi phần tử trong mỗi nhóm] Cho mỗi phần tử E chưa được phân nhóm, tính d1 = diện tích được yêu cầu tăng trong hình chữ nhật bao phủ của nhóm 1 để bao gồm EI, tính toán d2 tương tự như trên cho nhóm 2. - B2: [Tìm phần tử thích hợp nhất cho một nhóm] Chọn bất kỳ phần tử nào có sự khác biệt lớn nhất giữa d1 và d2. 41 n) Thuật toán LinearPickSeeds Chọn hai phần tử làm các phần tử đầu tiên của các nhóm. - B1: [Tìm các hình chữ nhật xa nhất theo tất cả các chiều] Theo mỗi chiều, tìm các phần tử mà hình chữ nhật của nó có cạnh dưới cao nhất và có cạnh trên thấp nhất. Ghi lại việc phân chia. - B2: [Điều chỉnh hình dạng của cụm hình chữ nhật] Chuẩn hóa việc phân chia bằng cách chia chiều rộng của toàn bộ các tập theo chiều tương ứng. - B3: [Chọn cặp cách xa nhất] Chọn cặp có sự phân chia được chuẩn hóa lớn nhất theo bất kỳ chiều nào. 1.4.4. Một số phƣơng pháp cải tiến R-tree đánh chỉ số tài liệu XML  XR-tree [32] XR-tree được thiết kế để xử lý các tài liệu XML có dữ liệu lồng nhau chặt chẽ, hỗ trợ truy vấn tìm tất cả các tổ tiên hoặc hậu duệ của một entry E với chi phí thấp. XR-tree đưa ra 4 định nghĩa trên cây cải tiến với các công thức đi kèm, cấu trúc mới dựa trên các node và các stab list được tạo ra với tham số được tính toán dựa trên các công thức trong các định nghĩa. Hình 1.15: Cấu trúc cây XR-tree Cây XR-tree được thiết kế để đánh chỉ số trên tài liệu XML sau đó kết hợp cùng phép nối có cấu trúc được đề xuất là XR-stack để đưa ra kết quả cuối cùng. Các kết quả tập trung chủ yếu vào trục tổ tiên và hậu duệ. Đây là hạn chể của XR- 42 tree, vì trên thực nghiệm, các truy vấn các trục này thường ít dữ liệu nên cải tiến sẽ không mang nhiều ý nghĩa cho tốc độ truy vấn.  AR*-tree [91] Ý tưởng chính của phương pháp AR*- tree là chia 1 node n-chiều trong R-tree thành n node 1-chiều, n node một chiều này tạo thành một node-group, trong đó mỗi node mới chứa thông tin chỉ số theo 1 chiều (khác với mỗi node trong R-tree chưa thông tin chỉ số cho tất cả các chiều). Tại mỗi node-group tập các entry sẽ có cùng một chỉ số vị trí và phân phối trong các node khác nhau tạo thành một entry of node-group tương ứng với 1 MBR. Mỗi entry của mỗi node trong một node-group tạo thành một cạnh của MBR, trong khi mỗi entry trong các node của R-tree tạo thành 1 MBR. Ví dụ, trong không gian 2 chiều các entry và MBR của phương pháp AR*-tree được biểu diễn như sau: Hình 1.16: Xây dựng MBR trên không gian 2 chiều của phƣơng pháp AR*-tree Kết quả là cải thiện số node cần truy cập trong truy vấn trục Xpath xuống thấp hơn ở tất cả các trục, nhưng không quá nhiều, các thử nghiệm tiến hành trên những file dữ liệu khá nhỏ, từ 5.5 MB đến 113.8 MB. Vấn đề của phương pháp này là làm thay đổi bản chất của các node R-tree, tạo ra nhiều node hơn đáng kể, dẫn đến có thể ảnh hưởng tới nhiều dạng truy vấn khác của R-tree. Hơn nữa, việc tạo ra thành nhiều node hơn sẽ làm tăng kích thước của cây chỉ số, điều này trái với định hướng nghiên cứu là phải giảm kích thước càng nhiều càng tốt. 43 1.5. Các vấn đề còn tồn tại Tác giả thấy rằng, trên thực tế các tài liệu XML tin sinh học thường rất lớn, lớn tới mức không thể xử lý toàn bộ trên bộ nhớ và có thể phải lưu trữ phân tán trên đĩa cứng. Do vậy cần có các phương pháp đánh chỉ số trên đĩa cứng hiệu quả và đồng thời có phương pháp làm giảm kích thước dữ liệu để tăng hiệu quả truy vấn. Các nghiên cứu đánh chỉ số XML kích thước lớn có xu hướng chuyển đổi tài liệu XML về không gian số trước khi áp dụng các phương pháp đánh chỉ số. Đa phần sử dụng B+-tree, lý do chính là B+-tree khá phổ biến trong các CSDL quan hệ ngày nay. Trong khi đó R-tree là phương pháp đánh chỉ số hiệu quả cho không gian đa chiều và cũng rất phổ biến trong các CSDL quan hệ, chưa được tận dụng. R-tree có thể đánh chỉ số với dữ liệu có 2 chiều trở lên, và đặc biệt tốt với dữ liệu phân bố không đều trong không gian. Các truy vấn theo trục Xpath có 46% (6/13 trục) là truy vấn anh em hoặc truy vấn suy dẫn được từ các các truy anh em. Ngoài ra, phân bố dữ liệu sau khi chuyển đổi về không gian Đề các, xu hướng tập trung không đều và lệch hoàn toàn về 1 số vùng không gian chứa các tag anh em (sẽ phân tích ở các chương sau). Chưa có nghiên cứu nào về tối ưu các truy vấn anh em và từ đó tăng hiệu quả các truy vấn khác của Xpath. Từ các vấn đề tồn tại trên, luân án đã chọn nghiên cứu mô hình đánh chỉ số phù hợp với tài liệu XML tin sinh học, với mục tiêu tăng hiệu quả đánh chỉ số dữ liệu XML và đồng thời giảm kích thước dữ liệu để đánh chỉ số và truy vấn. Mô hình trong Hình 1.17, giúp dữ liệu XML được chuyển đổi về không gian đa chiều, từ đó áp dụng các phương pháp đánh chỉ số và truy vấn trong không gian giúp tăng tốc độ xử lý và giảm kích thước dữ liệu khi đánh chỉ số. Có 2 phương pháp chính để đánh chỉ số trong không gian đa chiều là Gridbase và R-tree: - Gridbase phù hợp với dữ liệu phân bố đều 44 - R-tree ứng dụng được trong các dữ liệu phân bố ngẫu nhiên Vì XML tin sinh học trên thực tế rất đa dạng nên R-tree sẽ phù hợp hơn và được lựa chọn làm cơ sở trong luận án này. Hình 1.17: Mô hình quy trình tổng quát Hình 1.18: Mô hình thể hiện quá trình chuyển đổi dữ liệu và đánh chỉ số trên đĩa cứng Phương pháp R-tree hiện còn một số vấn đề khi áp dụng vào xử lý dữ liệu XML tin sinh học như sau: 45 1) Vấn đề chồng chéo trong truy vấn. Đối với kỹ thuật chỉ số dựa trên không gian, không gian tìm kiếm càng lớn thì càng mất nhiều thời gian hơn để nhận được node được trả về. Nhưng điểm yếu của phương pháp dựa trên R-tree là các truy vấn đòi hỏi cửa sổ quét dữ liệu khá lớn, do đó ảnh hưởng đáng kể tới hiệu năng truy vấn. 2) Vấn đề mối liên kết anh em của các tag sau khi chuyển đổi sang không gian, mà được thể hiện như các điểm trong không gian như parent, preceding, sibling, descendant, child, following, v.v theo các trục Xpath. Trong Hình 2.2 biểu diễn việc phân bố dữ liệu trên hệ trục tọa độ, tác giả nhận ra rằng tất cả các dữ liệu phân bố lệch như một hình thang/được chéo thẳng hàng (giống như cánh máy bay). Trong khi đó, tất cả các phương pháp trước đây không quan tâm đến điều đó, nên các truy vấn chưa có cải thiện đáng kể nào khi truy vấn ở vùng dữ liệu cánh máy bay này. 1.6. Kết luận Chương 1 trình bày một số khái niệm nền tảng về tin sinh học và dữ liệu tin sinh học. Dữ liệu tin sinh học ngày càng trở nên khổng lồ do được đóng góp và chia sẻ thường xuyên của cộng đồng nghiên cứu. Do các bài toán phân tích dữ liệu tin sinh học rất đa dạng, các tài liệu lưu trữ thông tin cần cấu trúc dễ thay đổi, linh hoạt, đa dạng và đặc biệt dễ chia sẻ/đóng góp. Hiện nay, tài liệu XML là một chuẩn quan trọng để mô tả và lưu trữ dữ liệu sinh tin học khổng lồ. Tuy nhiên, tài liệu XML có dữ liệu dạng text và bán cấu trúc nên việc khai thác không giống như dữ liệu thông thường. Chương 1 cũng trình bày các nghiên cứu liên quan của bài toán khai thác dữ liệu XML, các phương pháp đánh chỉ số, các thuật toán được đề xuất trong các nghiên cứu trước đây đã được nêu ra, trong đó R-tree đang là thuật toán tỏ ra hiệu quả nhất với các tài liệu XML và truy vấn Xpath. Trên cơ sở đó, chương 1 phân tích và đưa ra các vấn đề nghiên cứu của luận án. 46 Chƣơng 2. PHƢƠNG PHÁP ĐÁNH CHỈ SỐ BIOX-TREE 2.1. Mở đầu Khi thiết kế một phương thức truy cập mới, chúng ta không chỉ phải biết được bản chất của dữ liệu mà còn phải biết các kiểu truy vấn và phương thức sẽ được sử dụng [16][42]. Việc truy vấn Xpath quét toàn bộ dữ liệu XML sẽ làm giảm hiệu suất đáng kể. Các phương pháp lập chỉ số đã được phát triển trong những năm gần đây để khắc phục vấn đề này. Các phương pháp xử lý truy vấn và lập chỉ số dữ liệu XML khác nhau đã được đề xuất để hỗ trợ các truy vấn Xpath. Bài viết [2] phân loại các chỉ số dữ liệu XML thành ba loại. - Đầu tiên là các chỉ số dựa trên đường dẫn, chúng nhóm các node trong cây dữ liệu theo độ tương tự cục bộ và có cấu trúc chỉ số có thể điều chỉnh theo khối lượng công việc truy vấn. Hạn chế của các chỉ số này là kích thước chỉ số rất lớn vì chúng lưu trữ các đường dẫn tiến và lùi để thiết lập một lớp hỗ trợ [17][35]. - Thứ hai là các chỉ số dựa trên dãy, chúng đánh giá các truy vấn bằng cách ghép dãy sau khi chuyển đổi cả dữ liệu XML và truy vấn thành dãy. Tuy nhiên, nhược điểm của chúng là xuất hiện dương tính giả gây ra bởi việc ghép dãy thay vì ghép cây [64][79]. - Thứ ba là các chỉ số dựa trên node, chúng sử dụng các giá trị duyệt cây theo thứ tự trước cùng với các giá trị duyệt cây theo thứ tự sau của một tag name trên cây XML làm tọa độ của node trên không gian. Kết quả sau đó được sử dụng để xác định mối quan hệ giữa các node cây. Trong luận án này, tác giả tập trung vào loại thứ ba vì các chỉ số dựa trên node có thể được phân loại thành chỉ số dựa trên đánh số và chỉ số dựa trên đa chiều. Đây 47 là tiền đề để tác giả đề xuất cây BioX-tree và mở rộng BioX+-tree với mục tiêu cải thiện hiệu suất tốt hơn so với phương pháp trước đây. Cũng như mô hình dữ liệu có cấu trúc, mô hình dữ liệu bán cấu trúc XML cũng có các ngôn ngữ truy vấn riêng, phổ biến nhất là Xpath và Xquery. Trong đó, Xpath là dạng đơn giản và cơ bản của Xquery. Cơ chế hoạt động của truy vấn XPath thường phân ra 2 dạng: Tuần tự và đánh chỉ số. Với dạng tuần tự, dữ liệu XML sẽ không được tiền xử lý trước khi truy vấn. Mỗi truy vấn sẽ thực hiện đọc toàn bộ dữ liệu. Dạng đánh chỉ số sẽ tiền xử lý dữ liệu XML để xây dựng cấu trúc dữ liệu khác mà mỗi lần truy vấn không đòi hỏi quét toàn bộ dữ liệu. Chỉ số dựa trên đánh chỉ số sử dụng các tag name XML ghi nhãn để thể hiện vị trí của các tag trong tài liệu. Trong [37] trình bày chỉ số cây con dựa trên phạm vi, và ghi nhãn dựa trên tiền tố. Chỉ số cây con dựa trên phạm vi được sử dụng để xác định mối quan hệ tổ tiên - con cháu giữa bất kỳ cặp tag XML nào. Hạn chế của nó là việc tính toán lại toàn bộ thứ tự của các node được yêu cầu bất cứ khi nào có node mới được chèn, xem [21][47] và hiệu quả truy vấn kém. Chỉ số cây con dựa trên phạm vi sử dụng các cặp (giá trị duyệt cây theo thứ tự trước, giá trị duyệt cây theo thứ tự sau) của các chuỗi con của dữ liệu XML được tính từ khi bắt đầu tài liệu XML duyệt theo chiều sâu. Hạn chế của nó là không thể xử lý các cập nhật thường xuyên của dữ liệu XML vì người ta cho rằng các vị trí node không bao giờ thay đổi một khi chúng được gán, xem [95] . Chỉ số dựa trên tiền tố là để chỉ chính xác tổ tiên của một node trên đường dẫn của nó. Hạn chế của nó là khi chiều cao của cây tăng lên, kích thước của nhãn tăng nhanh, xem [55][78]. Trong chỉ số dựa trên đa chiều trong ánh xạ [27][28] mọi node sẽ được đưa lên mặt phẳng hai chiều, sử dụng xếp hạng duyệt cây theo thứ tự trước trên trục x và xếp hạng duyệt cây theo thứ tự sau trên trục y. Node bối cảnh và bốn trục chính của các đường dẫn XPath (accestor, preceding, following, descendant), chia không gian hai chiều thành bốn vùng, mỗi vùng tương ứng với một trục chính. 48 Với một node bối cảnh, quá trình truy vấn tìm kiếm một trong các trục của nó có thể được đơn giản hóa như các node phân vùng trên mặt phẳng hai chiều và truy xuất các node rơi vào vùng tương ứng với trục cụ thể trong truy vấn. Một cấu trúc chỉ số, XPath Accelerator, đã được đề xuất để hỗ trợ phương pháp tiếp cận đa chiều. Bằng cách sử dụng một hệ thống cơ sở dữ liệu quan hệ, sẽ có lợi rất nhiều nếu cơ sở dữ liệu hỗ trợ các kỹ thuật lập chỉ số không gian như R-tree [30]. Tập hợp các node của bốn trục chính sẽ được kết hợp để hỗ trợ tất cả các trục biểu thức đường dẫn. Tối ưu hóa có thể được thực hiện để giảm thêm kích thước của vùng tài liệu trong truy vấn, mặc dù pre order và post order trong một số trường hợp chèn node phải được tính lại. Các phương pháp đưa ra ở trên trong việc đánh chỉ số trong không gian dựa trên R-tree đang gặp các vấn đề: Thứ nhất, đó là vấn đề chồng chéo. Đối với kỹ thuật chỉ số dựa trên không gian, không gian tìm kiếm càng lớn thì càng mất nhiều thời gian hơn để nhận được node được trả về. Nhưng yếu điểm của phương pháp dựa trên R-tree là các truy vấn đòi hỏi cửa sổ quét dữ liệu khá lớn, do đó ảnh hưởng đáng kể tới hiệu năng truy vấn. 49 Hình 2.1: Phạm vi quét thứ tự duyệt cây theo thứ tự trƣớc và sau ban đầu (vùng xám) và thu nhỏ (vùng trắng) cho truy vấn con cháu đƣợc thực hiện theo truy vấn mẫu Hình 2.1 minh họa một thể hiện của tài liệu XML với một số điểm nhỏ biểu thị dữ liệu XML theo mặt phẳng. Giả sử rằng, từ node bối cảnh E, chúng ta muốn lấy tất cả các node con cháu của nó bằng cách sử dụng cửa sổ truy vấn {pre(E), ; 0, post(E)} [36]. Cửa sổ thực sự cần thiết để tìm kiếm là màu trắng được xác định bởi giá trị duyệt cây theo thứ tự trước của node con cháu bên trái và giá trị duyệt cây theo thứ tự sau của node con cháu bên phải của node E. Kết quả là, phạm vi thừa được đánh dấu màu xám trong cửa sổ truy vấn tương ứng với trục con cháu sẽ gây ra ảnh hưởng đáng kể đến hiệu suất thực hiện các truy vấn, mà phạm vi này lại có thể rất lớn trong nhiều trường hợp. Thứ hai, đó là vấn đề mối liên kết anh em của các tag sau khi chuyển đổi sang không gian, mà được thể hiện như các điểm trong không gian như parent, preceding, sibling, descendant, child, following, v.v theo các trục Xpath. Trong Hình 2.2 biểu diễn việc phân bố dữ liệu trên hệ trục tọa độ, với dữ liệu DNA gạo kiểm thử trên 1000 node (Hình 2.2a), với dữ liệu Swissprot kiểm thử trên khoảng 20.000 node (Hình 2.2b), tác giả nhận ra rằng tất cả các dữ liệu dữ liệu phân bố lệch như một hình thang/được chéo thẳng hàng (giống như cánh máy bay). Tác giả đã thử 50 nghiệm trên nhiều tài liệu XML khác nhau với từ vài trăm node đến vài trăm nghìn node cũng ra kết quả tương tự. (a) (b) Hình 2.2: Ví dụ về phân phối các điểm quy đổi cho một tài liệu XML Đây là đặc thù theo cách chuyển đổi lên không gian theo phương pháp giá trị duyệt cây theo thứ tự trước – sau. Trong khi đó, tất cả các phương pháp trước đây không quan tâm đến điều đó, chúng chỉ tập trung vào xử lý mối quan hệ giữa cha mẹ/con cái hoặc tổ tiên/con cháu và bỏ qua các trục khác mà chúng cũng là phần 51 quan trọng trong xử lý truy vấn, đặc biệt là xử lý luồng truy vấn XPath với các vị từ. Các truy vấn chưa có cải thiện đáng kể nào khi truy vấn ở vùng dữ liệu cánh máy bay này. Một số ví dụ về truy vấn với các tham số vị từ: q1= descendant[2]/preceding-sibling[3] q2= parent[3]/following-sibling[7] q3= parent/preceding-sibling[3]/child[2] Tác giả nghiên cứu truy vấn q1, được hiểu là node cần tìm ở vị trí thứ ba của anh em trước của con cháu thứ hai của node bối cảnh. Phương pháp lập chỉ số dựa trên R-tree mất nhiều thời gian hoặc thậm chí khó giải quyết loại truy vấn đó. Để xử lý truy vấn trên, đầu tiên chúng ta phải lấy tất cả các anh em trước của node bối cảnh, sau đó chọn node thứ ba cho các bước tiếp theo. Trong khi đó, với Bộ tăng tốc XPath, tập các node trả về sẽ là tất cả các node nằm ở góc dưới bên trái của mặt phẳng từ node bối cảnh. Các node có mối quan hệ với những node khác (cha mẹ- con cái, tổ tiên-con cháu) và nằm ngẫu nhiên trong node lá do hạn chế về không gian; dẫn đến thật khó để xác định đâu là node thứ ba từ node bối cảnh. Và bước tiếp theo không thể được thực hiện như là kết quả của các bước trước đó. Khi thực thi thuật toán cũng sẽ đòi hỏi nhiều tài nguyên và thời gian để có được kết quả trả về. Đó là nhược điểm của phương pháp Bộ tăng tốc Xpath. Thông thường, phương pháp lập chỉ số dựa trên R-tree đã giải quyết hầu hết các trường hợp câu truy vấn đơn giản nhưng với những câu truy vấn có vị từ phức tạp đặc biệt là tham số vị từ chỉ vị trí thì R-tree không đưa ra được một cấu trúc chỉ số tối ưu có khả năng truy vấn nhanh tất cả các trục. Cấu trúc của R-tree cũng không quan tâm đến cấu trúc phân bố dữ liệu cánh may bay nên đã để các node anh em bị nằm rải rác trên cây là nguyên nhân chính. Từ đó, tác giả đi sâu nghiên cứu phương pháp đánh chỉ số mới, được cải tiến từ R-tree giúp các truy vấn Xpath chạy hiệu quả hơn trong một số trục. Trong bài 52 toán này, mục tiêu của tác giả là tập trung vào một cấu trúc lập chỉ số có đủ khả năng thực hiện tất cả các loại truy vấn dựa trên cấu trúc, đặc biệt tập trung vào giải quyết các truy vấn vị từ vị trí. Ngoài ra, nó có thể đưa ra một khả năng để mở rộng các trục tồn tại trên tài liệu XML nhưng không được sử dụng trong phương pháp cũ thành các trục linh hoạt và hiệu quả hơn. Tuy nhiên, tác giả không đi sâu vào vấn đề đó mà vẫn cố gắng sử dụng các trục tương tự như các tài liệu nghiên cứu liên quan. Dựa theo mô hình đã lựa chọn trong chương 1, tác giả sẽ có những đề xuất cải tiến trong các thành phần: chuyển đổi, đánh chỉ số, module xử lý truy vấn. Hình 2.3: Các thành phần đƣợc đề xuất cải tiến trong phƣơng pháp BioX-tree Với các thử nghiệm trong chương 2 và 3, tác giả sẽ chứng minh bằng kết quả cụ thể phương pháp đề xuất được cải thiện so với các phương pháp gốc. Các kết quả trong chương này được công bố trong các công trình 1, 2, 3, 4 phần “Danh mục các công trình của tác giả”. 2.2. Phƣơng pháp đánh chỉ số cải tiến BioX-tree 2.2.1. Chuyển đổi tài liệu XML Dựa theo cách đánh chỉ số trên lược đồ của của Dietz đã nêu ở chương 1, khi chuyển đổi tài liệu XML, các tag name sẽ biến đổi sao cho biểu diễn được trong không gian với hệ trục tọa độ Đề các. Bước đầu tiên là tài liệu XML sẽ được xây dựng lên dạng cây với quan hệ phân cấp cha con (như Hình 2.6), sau đó các node tương ứng sẽ được đánh 2 chỉ số theo quy tắc duyệt cây theo thứ tự trước, duyệt cây 53 theo thứ tự sau (cặp giá trị này sẽ tạo thành NodeID) và đánh số thứ tự cho từng tag name của tài liệu XML [22][63]. Tương ứng như vậy khi gắn lên hệ trục tọa độ ta được thể hiện như Hình 2.4; thứ tự pre của các tag name sẽ là Bioseq-set_descr < Seqdesc_source < BioSource_genome < BioSource_org < < Date-pub_month < Date-pub_day, và do đó pre(Bioseq-set_descr) = 1, pre(Seqdesc_source) = 2 ,. . . , pre(Date-pub_day) = 31; còn post(BioSource_genome) = 1, post(BioSource_org) = 2 ,. . . , post(Bioseq-set_descr) = 31. Hình 2.4: Ví dụ về biểu diễn điểm dựa trên cặp giá trị (duyệt cây theo thứ tự trƣớc, duyệt cây theo thứ tự sau) Vẫn tuân thủ theo nguyên tắc chung đó trong phân tích và chuyển đổi tài liệu XML, tác giả đã xây dựng một chương trình riêng để thực hiện để đảm bảo độ chính xác khi so sánh với phương pháp dựa R-tree của các nghiên cứu trước. Trong tài liệu [20], trình chuyển đổi được triển khai bằng hai thủ tục startEuity (t, a, att) và endEuity (t). Ở đây, tác giả đã thêm một tham số mới theo cách riêng của tác giả để tăng hiệu quả tìm kiếm lên, bên cạnh việc vẫn sử dụng tham số duyệt cây theo thứ tự trước và duyệt cây theo thứ tự sau. Đó là tham số được sử dụng để chỉ cấp độ l (level) của từng node, tác giả sẽ sử dụng tham số này cho các truy vấn con cháu. 54 Bất cứ khi nào thủ tục phân tích cú pháp startEuity (t, a, atts) gặp thẻ mở XML (dấu <) tham số l (đây là biến toàn cục, giá trị mặc định ban đầu là -1) sẽ được cộng thêm 1 đơn vị. Khi thủ tục endEuity (t) được gọi, l trừ đi 1 đơn vị. Hai thủ tục trên được sửa đổi với tên mới startElement và endElement, trình bày trong Thuật toán 2.1. Thuật toán ConvertXMLDocument(XMLdoc) Đầu vào: tài liệu XML cần chuyển đổi. Đầu ra: file txt chứa các giá trị trên không gian của một node(E) = {pre (E), post (E), par (E), att (E), tag (E)}. Begin l = -1; startElement(t, a, atts) l ← l +1; v ← (pre = gpre, post = _, par = (S.top()).pre, level= l, att = a, tag = t) S.push(v); Gpre ← gpre + 1; for v’ IN atts do startElement(v’, true, nil ); endElement(v’); endElement(t) v ← S.pop(); v.post ← gpost; gpost ← gpost +1; chèn v vào bảng kết quả; l ← l-1; End Thuật toán 2.1: Hai thuật toán sửa đổi trong chuyển đổi tài liệu XML 2.2.2. Cấu trúc chỉ số trên cây BioX-tree BioX-tree áp dụng chiến lược chèn/tách khác nhau để đạt được các mối quan hệ anh em của dữ liệu XML một cách dễ dàng hơn, trong khi không gây ảnh hưởng đến khả năng phân biệt không gian của chỉ số quá nhiều. 55 Tác giả thiết kế cấu trúc cây BioX-tree duy trì nghiêm ngặt quỹ đạo liên kết anh em, các tag anh em với nhau sẽ có cùng cấp độ và có cùng cha mẹ. Như vậy, cấu trúc BioX-tree thực chất là cây có mỗi node lá sẽ chứa nhiều tag con của cùng một tag cha mẹ, được tổ chức theo cấu trúc phân cấp cây cân bằng về chiều cao. Bên trong các node chứa các phần tử (được gọi là ent

Các file đính kèm theo tài liệu này:

luan_an_phuong_phap_danh_chi_so_cho_tai_lieu_xml_tin_sinh_ho.pdf