Luận văn Những vấn đề bảo mật khi truy vấn cơ sở dữ liệu XML động được OUTSOURCED

MỤC LỤC

ACKNOWLEDGEMENT. 4

ABSTRACT. 5

Chương 1 GIỚI THIỆU . 8

1.1 Data Confidentiality . 12

1.2 User Privacy và Data Privacy . 13

1.3 Query Assurance . 17

1.4 Nhận xét . 19

Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN . 22

2.1 Khái niệm . 22

2.2 Hướng tiếp cận dùng chữký điện tử. 23

2.3 Hướng tiếp cận sửdụng cấu trúc dữliệu đặc biệt . 25

2.4 Hướng tiếp cận Challenge – Response. . 28

2.5 Hướng tiếp cận dựa vào đặc thù của bài toán . 30

2.6 Bảo đảm truy vấn cho dữliệu dạng cây . 31

2.7 Nhận xét . 33

Chương 3 DỮLIỆU XML . 35

3.1 Mô hình lưu trữ. 35

3.2 Chỉmục cho tài liệu XML . 40

Chương 4 ĐẢM BẢO TRUY VẤN . 42

4.1 Phương pháp . 42

4.2 Nested B+ Tree . 43

4.3 Tác vụchọn . 45

4.4 Các tác vụcập nhật dữliệu . 49

Chương 5 PHÂN TÍCH . 51

Chương 6 THỰC NGHIỆM . 58

Chương 7 KẾT LUẬN . 63

Chương 8 PHỤLỤC . 67

8.1 Cấu trúc lưu trữXML . 67

8.2 Giải thuật gán nhãn (labeling) . 67

8.3 Chương trình thửnghiệm . 68

8.4 Lược đồtài liệu mondial.xml . 71

8.5 Kếhoạch thực thi truy vấn . 72

8.6 Tóm lược các nghiên cứu liên quan . 73

8.7 Bài báo liên quan . 83

93 trang | Chia sẻ: lethao | Lượt xem: 2280 | Lượt tải: 5

Bạn đang xem trước 20 trang tài liệu Luận văn Những vấn đề bảo mật khi truy vấn cơ sở dữ liệu XML động được OUTSOURCED, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

, có thể sử dụng kết hợp các cấu trúc cây như sau. Xây dựng một cây B+-Tree với khóa so sánh là nameid, gọi là NameTree. Tại node lá của NameTree chứa gốc của hai cây B+Tree theo khóa lần lượt là (pnodeid, value) và (value). Hai cây này có tên là: ParentTree và ValueTree. Tập hợp ba loại cây này tạo thành một cấu trúc dữ liệu, gọi là Nested B+Tree, cho phép lập chỉ mục cho tài liệu XML trên hai bộ giá trị (nameid, pnodeid, value) và (nameid, value). N goài ra, việc phân bố của dữ liệu cũng ảnh hưởng một phần khá lớn đến cấu trúc cây. N ếu dữ liệu bị tập trung vào một vùng nhất định có thể làm quá trình tách node diễn ra thường xuyên, làm cho hiệu suất sử dụng của cây B+ không cao. Để hạn chế điều này, cây B+ đưa vào thao tác tái phân bố (redistribute) dữ liệu ở các node gốc. Trong cây N B+, ngoài đặc tính trên, các khóa (key) cũng được thực hiện tái phân bố trước khi thực hiện việc tách node hay hợp nhất (merge) node. Một hướng tiếp cận khác, là sử dụng một cấu trúc chỉ mục đa chiều (multi-dimension index) để tạo chỉ mục cho tài liệu XML dựa trên bộ bốn thuộc tính (nameid, prefixid, pnodeid, value) như họ cây R (R-Tree, R+Tree, R* Tree, X-Tree,…). Tuy nhiên, các Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 45/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh cấu trúc chỉ mục này không đảm bảo được thứ tự tăng dần của các record (hoặc chỉ đảm bảo cho một thuộc tính) vì vậy không phù hợp cho việc chứng minh completeness trong truy vấn. Nested Merkle B+ Tree Để N M+Tree có thể chứng minh kết quả truy vấn, cần nhúng kèm một số thông tin tương tự như cây Merkle Hash Tree (MHT) vào cây N B+Tree như sau: gọi H(node) là băm của một node bất kỳ thuộc N B+Tree, khi đó h(node) được tính như sau: - Node là node lá của ValueTree, ParentTree: H(node) = h(A(node)) - Node là node lá của NameTree: H(node)=h(H(R(ParentTree))||H(R(PrefixTree))) - Node là node nội : H(node)= h(∪I H(Childi(node))) , i = 1..số con của node. - Node là gốc của NameTree: H(node)= h(ε||∪I H(Childi(node))) , i = 1..số con của node. Trong đó: h là hàm băm bảo mật thỏa tính không đụng độ và không thể đảo trong thời gian tuyến tính (collusion-free and non-invertable) như SHA1, MD5. A(node) là t- node hoặc a-node liên kết với node lá này. R(tree) là node gốc của tree. Childi (node) là node con thứ i của node. ε là một giá trị duy nhất theo thời gian (timestamp), giá trị nào được cung cấp tới tất cả các client khi có sự thay đổi. Sau đó, thực hiện ký lên nội dung của R(PrefixTree) bằng giải thuật chữ ký số. N hư vậy, với việc áp dụng ý tưởng của MHT lên N B+Tree, ta được N MB+Tree (Nested Merkle B+ Tree), vừa dùng làm chỉ mục trong truy vấn vừa được dùng để chứng minh truy vấn trên toàn dữ liệu XML. Phần tiếp theo của tài liệu trình bày cách thức vận dụng N MB+Tree trong việc thực hiện truy vấn cũng như chứng minh kết quả trả về. 4.3 Tác vụ chọn Phép chọn (Selection) là câu truy vấn được xử dụng thường xuyên nhất. Đối với RDB, đó là phát biểu SELECT trong SQL. Trong XML, có nhiều ngôn ngữ được dùng truy Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 46/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh vấn như XPath, XQuery. Tài liệu này minh họa cho một vài dạng câu truy vấn XPath thông dụng. Xét một tài liệu XML có cấu trúc như sau: Hình 4.9. Cây cấu trúc của một tài liệu XML Các chỉ số đánh kế bên các node là nameid của node đó. Tài liệu sẽ khảo sát qua một số dạng truy vấn thường gặp. 4.3.1 Dạng truy vấn liên quan một node, điều kiện đơn Là dạng truy vấn đơn giản nhất, ví dụ /Customer/Order/Item[@name=”TV”]: tìm tất cả các hạng mục có tên là “TV”. Theo quy tắc gán tên, ta có định danh tên của thuộc tính name của node Item là 12. N hư vậy, để trả lời câu truy vấn này, thực hiện tìm trên N MB+Tree với khóa tìm kiếm (nameid=13, value=”TV”). Kết quả trả về các a-node Name_13 của Item_8. Từ các a-node, có thể dễ dàng xác định được các t-node Item_8 tương ứng. Sau đó, ta có thể lấy được các a-node khác (như price_14, qty_15). Tính đúng và Tính đầy đủ N goài các a-node Name thỏa điều kiện, server trả về thêm hai a-node biên của tập kết quả, và các băm của các node lân cận đủ để tính băm của node cha, đồng thời trả thêm giá trị băm của các node anh em của node cha. Các kết quả này giúp cho client có thể tính ngược lại được giá trị băm của nút gốc. Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 47/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh Tại nút gốc, từ giá trị băm tính được kết hợp với temp thời gian lưu trữ, client có thể kiểm tra với chữ ký của nút gốc. Do đặc tính một chiều, bất-khả-đảo của các hàm băm được áp dụng nên có thể chứng minh tính đúng (correctness). Do các record được sắp xếp theo thứ tự tăng dần theo bộ thuộc tính (nameid, value), kết hợp với hai record biên kèm theo, có thể chứng minh được tính đầy đủ (completeness) của dữ liệu. Tính mới Do trong băm của node gốc có chứa đựng giá trị temp thời gian ε (timestamp). N ếu data owner phổ biến giá trị ε này cho tất cả các client. Từ đó client có thể xác định được tính mới của dữ liệu. N hư vậy, chỉ sau một thao tác kiểm tra, client có thể kiểm tra đầy đủ cả ba vấn đề đặt ra của query assurance chi thông qua các phép băm với chi phí thấp hơn rất nhiều với các phép toán số nguyên lớn của các chữ ký số. Chứng minh không có record thỏa mãn (empty proof) Một phương diện khác cần được quan tâm là chứng minh kết quả trả về là trống, nghĩa là không có record nào thỏa điều kiện tìm kiếm. Để chứng minh, server trả về hai record nằm kế nhau trong dãy thứ tự có giá trị lớn và nhỏ hơn giá trị cần truy vấn. 4.3.2 Dạng liên quan nhiều node, điều kiện đơn Là dạng truy vấn tương đối phức tạp hơn liên quan đến nhiều node. Điều này tương đương với phép join query của RDB. Xét câu truy vấn : /Customer[@name=”Marry”]/Order/Item : trả về tất cả các hạng mục do khách hàng có tên là “Mary” đã mua. Tương tự như trên, xây dựng một VO để chứng minh cho truy vấn (nameid=4, prefixid=1, value=”Marry”). Tuy nhiên, VO này chỉ cần chứa các a-node Name_4 và các t-node Customer_1 tương ứng. Các a- node Name_4 được dùng để chứng minh t_node Customer_1 đầy đủ. Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 48/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh Ứng với mỗi t-node Customer_1 xây dựng một VO để đảm bảo query assurance của truy vấn (nameid=3, prefixid=1, pnodeid=) để lấy ra kết quả cho t-node Order_3. Tương tự, ta có thể đảm bảo cho kết quả truy vấn cho các node Item trả về. Tương tự cho câu truy vấn /Customer[@name=”Marry”]/Order/Item[@name= ”TV”] : lấy các hạng mục có tên là “TV” do khách hàng tên “Marry” đã mua. Phương pháp xử lý kết hợp giữa câu truy vấn trên và xử lý của trường hợp đầu tiên. 4.3.3 Các dạng khác Hai ví dụ trên là cách thức vận dụng cây N MB+ trong việc thực hiện truy vấn và chứng minh kết quả truy vấn. Để xử lý các câu truy vấn khác phức tạp hơn, ta có thể phân tách chúng thành những câu truy vấn đơn và từ đó xây dựng một kế hoạch thực thi (execution plan) với các bước thực hiện đơn. Ví dụ, ta có execution plan cho các câu truy vấn trên như sau. /Customer/Order/Item[@name=”TV”] STEP#1 IndexMethod : Vtree, nameID=13 Condition : equal to [TV] Result level : not included Retrieval : node only StepValue : PNODEID [For each matched items, perform] STEP#2 IndexMethod : DirectIDAccess, id=ParentStepValue Result level : 1 Retrieval : node and all its attributes /Customer[@name=”Marry”]/Order/Item STEP#1 IndexMethod : Vtree, nameID=4 Condition : equal to [Marry] Result level : not included Retrieval : node only StepValue : PNODEID [For each matched items, perform] STEP#2 IndexMethod : DirectIDAccess, value=ParentStepValue Result level : not included Retrieval : node only StepValue : ID [For each matched items, perform] STEP#3 IndexMethod : Ptree, nameID=3, pid=ParentStepValue Result level : not included Retrieval : node only StepValue : ID [For each matched items, perform] STEP#4 IndexMethod : Ptree, nameID=8, pid=ParentStepValue Result level : 1 Retrieval : node and all its attributes Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 49/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh 4.3.4 Hợp nhất các VO Trong việc thực thi một câu truy vấn, hầu hết các trường hợp, server cần trả về cho client nhiều hơn một VO. Ví dụ, trong trường hợp câu truy vấn mục 4.2.2, số lượng VO server cần trả về phục thuộc vào số lượng record Customer thỏa điều kiện @name=”Marry”. Điều này có thể dẫn đến sự quá tải ở phía Client trong việc kiểm tra các VO. Để hạn chế trường hợp trên, server cần phải thực hiện hợp nhất các VO này trở thành một VO duy nhất và gửi trả VO này về cho client. N hư vậy, client chỉ cần thực hiện kiểm tra một lần duy nhất để có thể xác định query assurance cho toàn bộ dữ liệu nhận được. Việc hợp nhất các VO có thể thực hiện được dễ dàng. Mỗi VO ban đầu được xác định bởi một đoạn các record liên tục nhau cùng với (tối đa) hai record biên. Với nhiều VO, ta sẽ có nhiều đoạn. Vì vậy, thay vì phát sinh co-path cho từng đoạn, ta có thể thực hiện phát sinh co-path cho toàn bộ các đoạn. 4.4 Các tác vụ cập nhật dữ liệu Các tác vụ cập nhật khi dữ liệu đã được outsourced đòi hỏi thêm một số chi phí nhất định. Trong trường hợp một bản sao của CSDL được lưu trữ ở data owner, số lượng các lần cập nhật xảy ra không thường xuyên (thời gian giữa hai lần cập nhật là đủ lớn) và số lượng cập nhật là nhiều, data owner có thể thực hiện cập nhật dữ liệu cục bộ. Sau đó thực hiện outsourced lại dữ liệu. Ở đây, tài liệu trình bày một phương thức để cập nhật dữ liệu trực tiếp được dùng trong trường hợp data owner không lưu trữ lại bản sao của dữ liệu outsourced hoặc chi phí cho mỗi lần outsource là khá lớn. 4.4.1 Tác vụ thêm mới (insertion) Data owner gửi các dữ liệu cần thêm mới (các xml element, attrbiute) đến server. Server thực hiện thêm các record mới vào CSDL, cập nhật lại cấu trúc index. Tính toán và cập nhật các giá trị băm của các node lá có liên quan và lan truyền lên đến node gốc của cây N MB+. Server gởi trả về cho data owner giá trị băm mới của node Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 50/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh gốc. Data owner phát sinh một giá trị timestamp mới, kết hợp với giá trị băm nhận được. Sau đó thực hiện ký lên các giá trị này. Data owner gửi lại cho server giá trị timestamp mới cùng với chữ ký mới. Server cập nhật giá trị timestamp và chữ ký vừa nhận được vào CSDL. Giao thức cập nhật nhiều giai đoạn như trên được minh họa như hình sau. Hình 4.10. Các bước thực hiện insert 4.4.2 Tác vụ xóa và cập nhật (deletion/updation) Tác vụ xóa/cập nhật dữ liệu cũng được thực hiện thông qua các bước tương tự như tác vụ thêm mới. Data owner gửi yêu cầu đến server. Server thực hiện việc cập nhật xuống CSDL đồng thời tính toán lại các giá trị băm của các node trong cây N MB+. Giá trị băm mới của node gốc được trả về cho data owner để thực hiện ký. Chữ ký cùng giá trị timestamp mới được gửi trả về cho server để cập nhật vào CSDL. Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 51/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh Chương 5 PHÂN TÍCH Chúng tôi đã trình bày giải pháp lưu trữ và sử dụng cây chỉ mục N MB+ để chứng minh truy vấn đối với dữ liệu XML được outsourced. Trong phần này, chúng tôi đề cập đến các khía cạnh bảo mật cũng như chi phí của giải pháp. Tất cả dữ liệu, kể cả các node của cây chỉ mục, trước khi lưu trữ đều được mã hóa bằng giải thuật mã hóa đối xứng (như Rijndael) nhằm đảm bảo tính bảo mật của dữ liệu cũng như hiệu suất khi thực hiện truy vấn. N hư vậy, phương pháp này thỏa mãn được yêu cầu data confidentiality. Giải pháp trên không đề cập đến tính riêng tư. Tuy nhiên, do đặc tính của dữ liệu dạng cây, nên hoàn toàn có thể áp dụng các kết quả của Lin và Candan [2] để có thể đạt được tính riêng tư. Đối với query assurance, tài liệu trình bày phương thức giải quyết đối với các câu truy vấn vùng và điểm của một điều kiện đơn. Đối với câu truy vấn vùng với nhiều điều kiện kết hợp, ta có thể giải quyết tương tự như cách thức xử lý các tác vụ tập hợp (set operations) bao gồm phép toán giao và hội như đã trình bày trong [10, 14, 21] - Phép Hội : được thực hiện đơn giản như hai câu truy vấn riêng biệt. Các VO phát sinh từ hai câu truy vấn sẽ được hợp nhất như đã trình bày. - Phép Giao : một giải pháp đơn giản, với các tập kết quả từ hai cây truy vấn con theo từng điều kiện, server chọn một tập kết quả nhỏ hơn, ứng với mỗi kết quả thuộc tập này không thỏa mãn tập kia, server trả về một empty proof. Tất cả các VO sau cùng sẽ được hợp nhất để thực hiện kiểm tra một lần ở phía client. Một điều cần quan tâm trong query assurance là chứng minh cho phép join. Trong dữ liệu dạng cây như XML, phép join được áp dụng chủ yếu cho quan hệ từ node cha Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 52/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh xuống node con. Đây là mối quan hệ phổ biến trong CSDL XML. Cây N MB+ sử dụng PTree để chứng minh truy vấn cho phép join này với chi phí thấp nhất trong việc xây dựng VO cũng như chi phí kiểm tra tại phía client. Giải pháp này không áp dụng trực tiếp cho các câu truy vấn có sử dụng các hàm tính toán bao gộp (aggregated function). Cho tới thời điểm hiện tại, theo hiểu biết của chúng tôi, chỉ có giải pháp của Radu Sion. [8] giải quyết cho trường hợp này, tuy nhiên giải pháp cũng tồn tại một số hạn chế như đã trình bày ở trên. Đối với các câu truy vấn này, ta có thể chứng minh các câu truy vấn này tương tự như câu truy vấn vùng, với điều kiện là điều kiện lọc của câu truy vấn ban đầu. Kết quả của hàm bao gộp có thể được tính toán tại server và được client kiểm tra lại ngẫu nhiên sau khi chứng thực được query assurance cho các record thỏa mãn điều kiện. Hoặc hoàn toàn được tính toán tại client. Tiếp theo, tài liệu tiến hành phân tích về mặt chi phí của giải pháp. Do hiện tại, chưa có một nghiên cứu trong lĩnh vực về query assurance cho CSDL XML, nên các phân tích chi phí được đánh giá dựa trên chi phí tối đa và tối thiểu theo tính toán lý thuyết. Đồng thời, ở đây, chúng tôi chỉ đề cập đến các chi phí phát sinh nhằm đảm bảo query assurance. Trước tiên, tài liệu trình bày một số ký hiệu quy ước được sử dụng bao gồm: n Tổng số phần tử (số element và số attribute). s Tổng số phần tử trả về của một truy vấn. f Tham số fanout của cây N MB+. h Chiều cao của cây. L Số node lá của cây. N Tổng số node của cây. |sign| Kích thước giá trị băm (20 byte cho SHA-1) Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 53/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh Chi phí lưu trữ tại server (storage cost): chi phí phát sinh cho việc lưu trữ tại server là chi phí dùng để lưu cây N MB+. Cây N MB+ là kết hợp bởi một cây NameTree và các cây ValueTree, ParentTree ở các lá của cây NameTree. Kích thước của cây NameTree phụ thuộc vào số lượng node trong cây cấu trúc (shema tree) của tài liệu XML. Số lượng node này thường là rất nhỏ so với số lượng node của cây dữ liệu (data tree) XML, đồng thời ít biến động trong thời gian sống của dữ liệu. Do đó, chi phí lưu trữ chủ yếu là chi phí để lưu các cây ParentTree và ValueTree. Do số lượng ValueTree và ParentTree biến đổi tùy theo số phần tử của schema tree, và chiều cao của các cây là biến đổi phụ thuộc và số phần tử dữ liệu tương ứng với mỗi phần tử cấu trúc. N hư vậy, để tiện cho việc đánh giá, ta giả sử schema tree của tài liệu XML chỉ có duy nhất một phần tử, và do đó chỉ có một cây ValueTree và một cây ParentTree. Dễ dàng nhận ra rằng, tổng số phần tử dữ liệu ở các lá của cây ValueTree và ParentTree là giống nhau. Giả sử rằng các phần tử dữ liệu là phân biệt nhau qua (nameid, value), nghĩa là, mỗi slot của một node lá bất kỳ chỉ chứa liên kết đến một phần tử dữ liệu duy nhất. Khi đó ta có: ⎥⎥ ⎤⎢⎢ ⎡=⎥⎥ ⎤⎢⎢ ⎡= f nL f nL VTreeVTree 2, maxmin (5.1) Ta có số node lá cần thiết tối thiểu trong trường hợp tất cả các node là đều đầy và số node là tối đa trong trường hợp tất các các node lá chỉ chứa ½ số phần tử. Từ số Lmin và Lmax, có thể xác định được số node tối thiểu và tối đa của cây như sau. ⎡ ⎤ 1log minmin += VTreefVTree Lh (5.2) 1log max 2 max +⎥⎥ ⎤⎢⎢ ⎡= VTreefVTree Lh (5.3) Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 54/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh 1 11 11 1 minmin min + ⎥⎥ ⎥⎥ ⎥ ⎤ ⎢⎢ ⎢⎢ ⎢ ⎡ ⎟⎟ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎜⎜ ⎝ ⎛ − − = − f fLN h VTree (5.4) 1 21 21 1 maxmax max + ⎥⎥ ⎥⎥ ⎥ ⎥ ⎤ ⎢⎢ ⎢⎢ ⎢ ⎢ ⎡ ⎟⎟ ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜⎜ ⎜ ⎝ ⎛ − ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛− = − f f LN h VTree (5.5) Các công thức (5.2),(5.3),(5.4),(5.5) có thể được chứng minh như sau. Giả sử, cây B+ có L node lá, khi đó ta có: Số node tối thiểu tại độ sâu Số node tối đa tại độ sâu h Lmin Lmax h-1 ⎡Lmin/f⎤ ⎡2Lmax/f⎤ h-2 ⎡Lmin/f2⎤ ⎡22Lmax/f2⎤ … … … h-(h-1) ⎡Lmin/fh-1⎤ = 1 ⎡2h-1Lmax/fh-1⎤ = 1 ⇒ ⎡ ⎤ 1log minmin += VTreefVTree Lh 1log max 2 max +⎥⎥ ⎤⎢⎢ ⎡= VTreefVTree Lh ⇒ N min = Lmin + ⎡Lmin/f⎤ + ⎡Lmin/f2⎤ + … + 1 = ⎥⎥ ⎥⎥ ⎥ ⎤ ⎢⎢ ⎢⎢ ⎢ ⎡ ⎟⎟ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎜⎜ ⎝ ⎛ − − − f fL h 11 11 1 min min + 1 N max = Lmax + ⎡2Lmax/f⎤ + ⎡22Lmax/f2⎤ + … + 1 = ⎥⎥ ⎥⎥ ⎥ ⎥ ⎤ ⎢⎢ ⎢⎢ ⎢ ⎢ ⎡ ⎟⎟ ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜⎜ ⎜ ⎝ ⎛ − ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛− − f f L h 21 21 1 max max + 1 Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 55/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh N hư vậy, chi phí lưu trữ phát sinh có thể tính như sau: ⎪⎩ ⎪⎨ ⎧ +=++= +=++= VTreeNTreePTreeVTreeNTreestorage VTreeNTreePTreeVTreeNTreestorage NNNNNC NNNNNC maxmaxmaxmax minminminmin 2 2 (5.6) Thực tế, tồn tại khá nhiều phần tử có khóa so sánh trùng nhau, tức là có bộ giá trị (nameid, value) đối với ValueTree hoặc (nameid, pnodeid, value) đối với ParentTree giống nhau. N hững phần tử này chiếm cùng một slot trong node lá của cây chỉ mục. Do đó, tổng số slot sử dụng trong các node lá luôn nhỏ hơn tổng số phần tử cần chỉ mục. N ếu gọi n’, n” lần lượt là số các phần tử phân biệt qua (nameid, value) và (nameid, pnodeid, value), dễ dàng nhận ra rằng: n’ < n’’ < n. N hư vậy, để tính được chi phí lưu trữ, cần xác định giá trị n’ và n’’. Sau đó thay vào công thức (5.4), (5.5) để xác định chi phí cho ValueTree và ParentTree. Kích thước VO: trong phân tích này, chúng tôi chỉ quan tâm đến phần dữ liệu phải thêm vào VO để có thể chứng minh truy vấn, do đó, khái niệm kích thước VO là kích thước thông tin thêm vào. N goài kết quả truy vấn, server trả về hai giá trị khóa biên (value cho ValueTree và pnodeid, value cho ParentTree) cùng băm của record tương ứng của hai khóa trên. Cộng với kích thước của co-path dùng để tính toán băm của node gốc. N hư đã trình bày ở phần trên, một câu truy vấn XPath có thể được phân tích thành nhiều đoạn truy vấn vùng, vì vậy có nhiều VO cho các vùng này. Kích thước VO trả về là tổng kích thước của các VO con. Xét kích thước VO cho một truy vấn, ta có: Số node ở độ sâu Số phần tử bổ sung vào co-path h ⎥⎥ ⎤⎢⎢ ⎡ += f sLh 2 CVOh = f.Lh - s + 2 h-1 Lh-1 = ⎡Lh/f⎤ CVOh-1 = f.Lh-1 – Lh Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 56/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh … … … h-i Lh-i = ⎡Lh-i+1/f⎤ CVOh-i = f.Lh-i – Lh-i+1 ⇒ Kích thước VO: CVO =|sign|∑ CVOi , i = 1,hNMBTree (5.7) Chi phí CPU: chi phí CPU (CPU time) là tổng thời gian xử lý kể từ lúc server nhận được yêu cầu truy vấn cho đến khi kết quả truy vấn được giải mã hoàn tất phía client sau khi đã loại bỏ thời gian cho việc truyền nhận dữ liệu trên đường truyền. Có thể chia các giai đoạn xử lý một câu truy vấn thành các giai đoạn sau: se rv er s id e cl ie nt s id e Hình 5.11. Các bước thực thi query. - Parse : phân tích các thành phần của câu truy vấn, loại bỏ các ký tự đại diện nếu cần thiết. Có thể từ một câu truy vấn ban đầu sẽ được phân tích thành nhiều câu truy vấn con. - Plan : xây dựng chiến lược thực thi các câu truy vấn vừa phân tích. - Fetch data : thực hiện truy vấn trên cây chỉ mục, đọc các record thỏa mãn điều kiện từ CSDL. Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 57/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh - Build VO : bổ sung các thông tin cần thiết để xây dựng các VO phục vụ cho việc chứng minh truy vấn, bao gồm cả thời gian tạo ra các co-path cho kết quả truy vấn. - Verify VO : kiểm tra kết quả truy vấn dựa vào thông tin VO nhận được. - Generate XML : phục hồi lại dữ liệu dạng XML. Do dữ liệu XML ban đầu lưu xuống CSDL đã chuyển thành các t-node và a-node, nên kết quả trả về phải được phục hồi sang dạng XML ban đầu. Hiện tại, do giới hạn về thời gian, chương trình đánh giá không thực hiện hai bước đầu là Parse và Plan. Các câu truy vấn được dùng để thực thi được cung cấp dưới dạng execution plan. Do đó, công việc còn lại chỉ bắt đầu từ bước fetch data. Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 58/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh Chương 6 THỰC NGHIỆM Để đánh giá thực nghiệm, chúng tôi hiện thực giải pháp trên nền tảng .N ET Framework 2.0, thư viện mã hóa sử dụng Rijndael và SHA1 cung cấp bởi .N ET 2.0. Sử dụng MS SQL Server 2005 Express Edition để lưu trữ CSDL. Chương trình thử nghiệm trên hệ thống PC P4 2.8GHz, 512MB. Tài liệu XML mẫu là Modial [19] với 69,846 hạng mục (gồm 22,423 element 47,423 attribute). Lược đồ của tài liệu này được trình bày ở phần phụ lục. Hệ số fanout của cây N MB+ là 10. Các tiêu chí được đo đạc bao gồm: - Chi phí lưu trữ (tổng số node của cây N MB+ theo thực tế, so sánh với số node tính trên lý thuyết trình bày ở mục 5). - Kích thước VO (số lượng các hạng mục trả kèm về để chứng minh truy vấn). - Thời gian thực thi truy vấn bao gồm các giai đoạn: fetch data, build VO, verify VO, generate XML và thời gian tổng cộng kể từ lúc câu truy vấn bắt đầu được thực thi cho đến khi dữ liệu XML kết quả được giải mã hoàn tất. Các thời gian này được so sánh trên tương quan số lượng record trả về trên tổng số record của CSDL để thấy được tính tương quan của thời gian thực thi với các thông số khác (yêu cầu là tương quan tuyến tính với kết quả trả về và tương quan logarit với kích thước CSDL). N goài ra, thời gian này còn được so sánh với thời gian thực thi câu truy vấn trong điều kiện không bảo mật để đo được chi phí phát sinh cho việc bảo mật của giải pháp. Đề tài: Security Issues in Querying Dynamic Outsourced XML Databases Trang 59/93 SV: Nguyễn Việt Hùng HD: TS Đặng Trần Khánh Các số liệu đo đạc dựa trên câu truy vấn /mondial/country/city[population > 500000]. Kế hoạch thực thi cho câu truy vấn này được trình bày ở phần phụ lục. Chi phí lưu trữ Ở đây, chúng tôi bỏ qua chi phí lưu trữ cho dữ liệu XML mà chỉ tập trung vào phần chi phí phát sinh cần thiết để lưu trữ cấu trúc cây chỉ mục. Chi phí này được đánh giá thông qua số lượng node cần thiết của cây để thực hiện chỉ mục cho số lượng các phần tử cần thiết. Đánh giá chi phí dựa trên chi phí tính toán từ công thức (5.4) và (5.5) cho kích thước tối thiểu và tối đa. Từ kích thước của CSDL (database size) (số lượng phần tử), xác định được số phần tử phân biệt nhau qua bộ thuộc tính (nameid, value) và (nameid, pnodeid, value) để xác định số lượng slot cần lưu trữ tại các node lá của cây chi mục theo (5.4), (5.5). Kết quả trình bày ở bảng dưới đây. Database Size 10K 20K 30K 40K 50K 60K 70K Va lu e Tr ee Distinct items 5,415 10,743 16,128 20,907 22,279 22,499 24,913 Min Leaves 542 1,075 1,613 2,091 2,228 2,250 2,492 Min Height 4 5 5 5 5 5 5 Min Nodes 603 1,196 1,794 2,325 2,477 2,501 2,770 Max Leaves 1,083 2,149 3,226 4,182 4,456 4,500 4,983 Max Height 5 6 6 6 6 6 6 Max Nodes 679 1,345 2,018 2,615 2,786 2,814 3,116 Pa re nt T re e Distinct items 9,126 18,108 27,181 36,376 43,612 50,379 57,497 Min Leaves 913 1,811 2,719 3,638 4,362 5,038 5,750 Min Height 4 5 5 5 5 5 5 Min Nodes 1,015 2,014 3,022 4,043 4,848 5,599 6,390 Max Leaves 1,826 3,622 5,437 7,276 8,723 10,076 11,500 Max Height 6 6 6 7 7 7 7 Max Nodes 1,143 2,265 3,400 4,549 5,454 6,299 7,189 Bảng 6.2. Kích thước cây ValueTree, ParentTree min, max Bảng 6.3. Chi phí lưu trữ Data size 10K 20K 30K 40K 50K 60K 70K Min nodes 1,618 3,210 4,816 6,368 7,325 8,100 9,160 Max nodes 1,822 3,610 5,418 7,164 8,240 9

Các file đính kèm theo tài liệu này:

Những vấn đề bảo mật khi truy vấn cơ sở dữ liệu XML động được OUTSOURCED.pdf