Luận văn Phân tích các dạng chuẩn hoá dữ liệu trong mô hình quan hệ và một số thuật toán

Trong phần này chúng ta sẽ khảo sát một số phép toán sử lý bảng ( Tệp dữ liệu ). Chúng tạo nên ngôn ngữ xử lý dữ liệu. Ngôn ngữ xử lý dữ liệu là một ngôn ngữ quan trọng trong hệ quản trị cơ sở dữ liệu ngững hệ quản trị Cơ sở dữ liệu này là những công cụ sắc bén cho chúng ta trong quá trình xử lý, đặc biệt là xử lý thông tin trong các hệ thông tin quản lý như: SQL for Windows, Orcale, IBM DB2, Foxpro, Access,.

 

Ngôn ngữ xử lý dữ liệu đều dựa trên mô hình dữ liệu quan hệ. Trong đó hạt nhân chủ yếu là tệp dữ liệu (bảng). Chúng ta sẽ khảo sát những phép toán xử lý tệp dữ liệu cơ bản nhất của cái nằm trong ngôn ngữ xử lý dữ liệu này. Các phép toán này được đề xuất bởi người sáng lập ra mô hình dữ liệu quan hệ.

 

doc62 trang | Chia sẻ: maiphuongdc | Lượt xem: 2158 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Luận văn Phân tích các dạng chuẩn hoá dữ liệu trong mô hình quan hệ và một số thuật toán, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ủa nó . A2: Giả sử rằng quan hệ r thoả X®Y. Tồn tại hai bộ t,u sao cho t[XZ] = u[XZ] mà t[YZ] = u[YZ]. Vì rằng t[Z] = u[Z] nên để có t[YZ] # u[YZ] thì t[Y] # u[Y]. Nhưng vì t[X] = u[X]nên t[Y] # u[Y] là trái với giả thiết X®Y. Với t[YZ] = u[YZ]. A3: Cho X®Y và Y®Z đúng trên quan hệ r . Giả sử tồn tại hai bộ t và u Î r sao cho t[X] = u[X] và t[Z] # u[Z]. Từ X®Y suy ra t[X] = u[X] nên t[Y] = u[Y]. Nhưng lại có t[Y] = u[Y] và t[Z] # u[Z] là trái với giả thiết X ®Y. Do vậy t[Z] = u[Z]. Suy ra X ®Z đúng trên quan hệ r. Bổ đề 2: a. Luật hợp: nếu X ®Y và X ®Z thì X ®YZ . b. Luật tựa bắc cầu: nếu X ®Y và WY ®Z thì XW ®Z. c. Luật tách: nếu X ®Y và Z Í Y thì X ®Z . Chứng minh: a. Từ X ®Y dùng luật tăng trưởng, thêm X ta có X ®XY . khi X ®Z, dùng luật tăng trưởng thêm Y ta có XY ®YZ Và cuối cùng dùng luật bắc cầu suy ra cho X ®XY và XY ®ZX có X®YZ. b. Từ X ®Y dùng luật tăng trưởng thêm W có WX ®WY . Dùng luật bắc cầu cho WX ®WY và WY ®Z suy ra WX ®Z . c. Vì Z Í Y nên X ®Z ( theo luật phản xạ ) Dùng luật bắc cầu cho X ®Y và Y ®Z có X ®Z. Một hệ quả quan trọng của luật tách và luật hợp là nếu X ®Y suy ra X®Ai với mọi A i Î Y. Để dễ dàng chứng minh cho tính đầy đủ của hệ tiên đề Amstrong, ở đây đưa thêm khái niệm bao đóng của tập các thuộc tính của tập các phụ thuộc hàm. Gọi F là tập các phụ thuộc hàm trên tập thuộc tính R, X Í R. X+ là bao đóng của X đối với F được định nghĩa như sau: X+ = {A \ X ®A ÎF+ } Nói cụ thể X+ là tập tất cả các thuộc tính A mà phụ thuộc hàm X®A có thể được suy diễn logíc từ F nhờ hệ tiên đề Amstrong. Bổ đề 3: X ®Y suy diễn từ hệ tiên đề Amstrong khi và chỉ khi Y Í X+ Chứng minh: Giả sử Y = A1,A2,,...,An với A1,A2,,...,An là các thuộc tính và Y Í X+. Từ định nghĩa X+ có X®Ai , áp dụng hệ tiên đề Amstrong cho mỗi i có X®Ai, Ai ÎY, nhờ luật tách. Từ đó suy ra Y Í X+ . Định lý 1: Hệ tiên đề Amstrong là đúng và đầy đủ. Chứng minh: Tính đúng đắn của hệ tiên đề đã được chứng minh qua bổ đề 1.ở đây chỉ cần chứng minh tính đầy đủ tức là nếu X®Y không thoả trên r thì X®Y không thể suy diễn từ F. Gọi F là tập các phụ thuộc hàm trên tập thuộc tính R. Giả sử rằng X®Y là không thể suy dẫn được từ hệ tiên đề. Xét quan hệ r gồm hai tập sau: 11...1 11...1 11...1 00...0 Các thuộc tính thuộc X+ Các thuộc tính còn lại Trước hết cần chỉ ra rằng tất cả các phụ thuộc hàm thuộc F đều thoả r. Thật vậy, giả sử (V®W) ÎF nhưng không thoả trên r. Do đó V Í X+ , hoặc hai bộ của r sẽ không bằng nhau ít nhất trên một thuộc tính của V. Như vậy W không thể là tập con của X+ hoặc V ® W thoả trên r . Gọi A Î W nhưng A không thuộc X+. Vì XV Î X+, X®V suy ra từ bổ đề 3 .( X®V Î F ) do vậy, nhờ luật bắc cầu suy ra X®A, nhưng do A không thuộc X+ như giả thiết, do vậy là mâu thuẫn. Từ đó kết luận rằng mỗi (V®W) Î F đề thoả trên r . Bây giờ cần chứng minh rằng X®Y không thoả trên r. Giả sử rằng X®Y là thoả trên r. Như trên có X Í X+ và suy ra Y Í X+, nếu không hai bộ là bằng nhau trên X nhưng không bằng nhau trên Y. Theo bổ đề 3 thì X®Y có thể suy ra được từ hệ tiên đề, điều đó là hoàn toàn mâu thuẫn. Do vậy X®Y không thể đúng trên r. Đến đây có thể kết luận rằng: Nếu X®Y không suy dẫn được từ hệ tiên đề Amstrong thì X®Y không suy dẫn logíc được từ F. Hệ tiên đề đầy đủ. II.1.4. Phủ của các tập phụ thuộc hàm Cho tập phụ thuộc hàm F, hãy thay thế F bằng phụ thuộc G sao cho G vẫn đảm bảo đúng chức năng của F. Khi đó ta gọi G là phủ của tập phụ thuộc hàm F. Bổ đề 4: Mỗi ttập phụ thuộc hàm F đều được phủ bằng tập các phụ thuộc hàm G sao cho G mà vế phải các phụ thuộc hàm đó bao gồm không quá một thuộc tính . Chứng minh: Gọi G là tập các phụ thuộc hàm X®A sao cho với X®Y thuộc F thì A Î Y . Từ X®Y suy ra X®A (theo luật tách) Do vậy G Í F+ . Ngược lại, có F Í G+ vì nếu Y = A1,...,An thì X®Y được suy ra X®A1,. . . , X®An nhờ luật hợp . Để có thể phục vụ quá trình thiết kế lược đồ cơ sở dữ liệu, sau đây sẽ đưa ra một số khái niệm. Gọi các tập phụ thuộc hàm F là tối thiểu nếu : a/ Mỗi vế phải của một phụ thuộc hàm F chỉ có một thuộc tính . b/ Không tồn tại một phụ thuộc hàm X®A thuộc F mà F+ = (F - { X®A}) + c/ Không tồn tại một phụ thuộc hàm X®A thuộc F và một tập con Z của X mà : F+ = (F - { X®A} È { Z®A } ) +. Thực vậy điều kiện b/ bảo đảm cho tập F không có phụ thuộc hàm nào là dư thừa và diều kiện c/ đảm bảo không có một thuộc tính nào tham gia phía trái của phụ thuộc hàm là dư thừa. Vế phải của phụ thuộc hàm ở điều kiện a/ chỉ có một thuộc tính bảo đảm chắc chắn không có một thuộc tính nào trên vế phải là dư thừa . II.1.5. Định nghĩa sơ đồ quan hệ Cho trước R = { a1, a2,..., an } A,B Î R, đặt A® B là một phụ thuộc hàm. Khi đó S là một sơ đồ quan hệ nếu: S = trong đó F = F gồm t phụ thuộc hàm thì tập ấy gọi là sơ đồ quan hệ. t phụ thuộc hàm này do người thiết kế đặt ra, dựa trên cơ sở nội dung của các cột a1,a2,..,an. Sơ đồ quan hệ đó là đầu biểu ( cấu trúc tệp ) cộng với các ràng buộc logíc (các phụ thuộc hàm ) do người thiết kế đề xuất ra ,các phụ thuộc hàm này làm nhiệm vụ không chỉ phân tích mối quan hệ lôgíc mà còn kiểm tra tính đúng đắn của dữ liệu nữa. II.1.6. Định nghĩa khoá Cho trước r = {h1,h2,...,hm} là tệp dữ liệu trên tập thuộc tính R = { a1, a2,..., an}. Khi đó A Í R được gọi là khoá của tệp dữ liệu r nếu A®R.sao cho bất kỳ hai bộ khác nhau t1,t2 Î r luôn thoả mãn t1(A) ¹ t2(A) - A là khoá tối tiểu nếu : A®R Không tồn tại A’ sao cho A’ Ì A(A’ tập con thực sự của A) mà A’ ® R Khoá cho sơ đồ quan hệ: Cho trước s = là sơ đồ quan hệ .Trong đó F = . Khi đó : A Í R được gọi là khoá của s nếu A®RÎF+. A là k hoá tối tiểu của s nếu : - A®RÎF+ - Không tồn tại A’ sao cho A’ Ì A sao cho A’®RÎF+ Khoá đây chính là hình ảnh của cột mã số hay cột số thứ tự trong Tệp dữ liệu nào đó . Ví dụ: Quan hệ Hàng_hoá được cho như sau: MSMH Tên hàng Số lượng 10101 10102 10111 Xi măng Thép Tấm lợp 2000 1500 1000 Trong ví dụ này biểu diễn quan hệ Hàng_hoá, trong đó MSMH là khoá. Mỗi giá trị MSMH đều xác định duy nhất một loạI mặt hàng trong quan hệ Hàng_hoá. II.1.7. Định nghĩa bao đóng Cho trước S = là sơ đồ quan hệ với R = {a1,a2,...,an} là tập hữu hạn các thuộc tính. Trong đó F = . Và A Í R. Khi đó bao đóng của A trong S là A+ . Trong đó : A+ = {a : a Î R và A®{a}ÎF+ } Cho r = {h1,h2,...,hm} là tệp dữ liệu trên tập thuộc tính R = {a1,a2,...,an}, AÎ R. A+r = {a : a Î R và Ar®{a}} A+r được gọi là bao đóng của A trong r. Nếu A là một tập bất kỳ ( tập cột bất kỳ ) thì A+ là tập hợp tất cả những cột mà phụ thuộc hàm vào A trong sơ đồ quan hệ S, chúng ta có A+r là tập hợp tất cả các cột mà phụ thuộc hàm vào {a} trong tệp dữ liệu r. Dễ thấy rằng theo hệ tiên đề của Amstrong thì. A Í A+ A Í A+r Trên cơ sở địmh nghĩa này chúng ta có các kết quả sau : Giả sử S = là sơ đồ quan hệ . A®B Î F B Í A+ Cho r = {h1,h2,...hm }là tệp dữ liệu trên R = {a1,a2,...,an} . ta có A®B (B phụ thuộc hàm r vào A) B Í A+r Kết quả này nói lên rằng một tập B nào đó mà phụ thuộc và tập A khi và chỉ khi B là tập con của bao đóng của A. Nhờ có kết quả này, người ta không cần phải lưu trữ tất cả các phụ thuộc hàm của một tệp dữ liệu hoặc của một sơ đồ quan hệ (số lượng này như chúng ta đã biết có thể là một hàm số mũ ) mà vẫn kiểm tra được hai tập thuộc tính bất kỳ (hai tập cột bất kỳ ) có phụ thuộc hàm với nhau hay không, bằng cách kiểm tra một tập này có phải là tập con của tập kia hay không. Vì vậy chúng ta chúng ta phải tính được bao đóng của một tập cột bất kỳ. Nói cách khác chúng ta phải tính được A+. Người ta đã tìm ra được hai thuật toán để tính A+ và A+r với thời gian tính là đa thức sẽ được trình bầy ở chương sau.. II.2. CÁC PHÉP TOÁN TRÊN CƠ SỞ DỮ LIỆU QUAN HỆ II.2.1. Phép chèn (Insert) Phép chèn là phép thêm một bộ vào quan hệ r{A1,A2,...,An} có dạng: r = rÈt. Cú pháp: Insert{r;A1=d1,A2=d2,...,An=dn}. Trong đó Ai với i= 1,2,...,n là tên các thuộc tính và Di Î Dom(Ai) là các giá trị thuộc miền trị tương ứng của thuộc tính Ai. Ví dụ: Thêm một bộ t4 = ( Vũ văn Tần ,1960,Trương ĐHĐĐ,422 ) vào quan hệ Nhân_viên trên: Insert(Nhân_viên ; Họ tên = Vũ vă Tần, Năm _sinh = 1960, Công tác= ĐH ĐĐ, Lương=425). Nếu xem như các trường là cố định, khi đó có thể biểu diễn phép chèn dưới dạng không tường minh như sau : Insert (r ;d1,d2,...,dn). Mục đích của phép chèn là thêm một bộ phận vào một quan hệ nhất định.Kết quả của phép tính này có thể gây ra một số sai sót với những lý do sau đây : 1. Bộ mới thêm vào là không phù hợp với lược đồ quan hệ cho trước; 2. Một số giá trị của một số thuộc tính nằm ngoài miền giá trị của bộ đó; 3. Giá trị khoá của bộ mới có thể là giá trị đã có trong quan hệ đang lưu trữ . Do vậy, tuỳ từng hệ cụ thể sẽ có từng cách khắc phục riêng. II.2.2. Phép loại bỏ (Del) Phép loại bỏ là phép xoá một bộ ra khỏi quan hệ cho trước. Giống như phép chèn, phép loại bỏ có dạng: r = r – t DEL(r; A1 = d1, A2 = d2,..., An = dn ) hoặc DEL( r; d1,d2,...,dn) . Ví dụ: Loại bỏ bộ t2 từ quan hệ Sinh_viên ở ví dụ trước: Del(Sinh_viên; 372013, Trần hà, 1976, NN, 6.95 ) Tất nhiên không phải lúc nào phép loại bỏ cũng cần đầy đủ thông tin về bộ cần loại bỏ. Nếu có giá trị về bộ đó tại các thuộc tính khoá K ={B1,...,Bi}khi đó phép loại bỏ chỉ cần viết : DEL( r; B1 = e1,B2 = e2,..., Bi = ei ) II.2.3. Phép thay đổi (CH) Trong thực tế không phải lúc nào cũng chỉ dùng phép chèn hoặc loại bỏ đi một bộ mà nhiều khi chỉ cần sửa đổi một số giá trị nào đó tại một số thuộc tính, lúc đó cần thiết phải sử dụng phép thay đổi . Gọi tập {C1,C2,...,Cp}là tập các thuộc tính mà tại đó các giá trị của bộ cần thay đổi, khi đó phép thay đổi có dạng : r = r \ t È t’ CH( r; A1 = d1, A2 = d2, ...,An = dn; C1 =e1, C2 = e2,...Cp = ep) Nếu K = {B1,B2,...,Bm}là khoá của quan hệ, khi đó chỉ cần viết : CH( r; B1 = d1, B2 = d2,...,Bm = dm; C1 = e1, C2 = e2,...,Cp = ep ) Ví dụ: Phép thay đổi là phép tính rất thuận lợi hay dùng. Cũng có thể không dùng phép thay đổi mà dùng tổ hợp của phép loại bỏ và phép chèn bộ mới. Do đó những sai sót của phép thay đổi cũng sẽ xảy ra tương tự như phép chèn và phép loại bỏ. II.3. CÁC PHÉP TÍNH XỬ LÝ BẢNG Yêu cầu bài toán: Trong phần này chúng ta sẽ khảo sát một số phép toán sử lý bảng ( Tệp dữ liệu ). Chúng tạo nên ngôn ngữ xử lý dữ liệu. Ngôn ngữ xử lý dữ liệu là một ngôn ngữ quan trọng trong hệ quản trị cơ sở dữ liệu ngững hệ quản trị Cơ sở dữ liệu này là những công cụ sắc bén cho chúng ta trong quá trình xử lý, đặc biệt là xử lý thông tin trong các hệ thông tin quản lý như: SQL for Windows, Orcale, IBM DB2, Foxpro, Access,... Ngôn ngữ xử lý dữ liệu đều dựa trên mô hình dữ liệu quan hệ. Trong đó hạt nhân chủ yếu là tệp dữ liệu (bảng). Chúng ta sẽ khảo sát những phép toán xử lý tệp dữ liệu cơ bản nhất của cái nằm trong ngôn ngữ xử lý dữ liệu này. Các phép toán này được đề xuất bởi người sáng lập ra mô hình dữ liệu quan hệ. Các phép toán xử lý tệp dữ liệu sau đây được chắt lọc từ ngôn ngữ xử lý dữ liệu (Ngôn ngữ đại số quan hệ). Đại số quan hệ như là cơ sở của ngôn ngữ bậc cao để thao tác trên quan hệ. Người khai thác cơ sở dữ liệu phải nêu ra những câu hỏi diễn tả yêu cầu tìm kiếm thông tin, kết xuất thông tin. Đại số quan hệ cung cấp các phép toán để đáp ứng nhu cầu trên. Gọi r là một quan hệ trên tập thuộc tính R = {A1,...,An} ở đây luôn giả thiết rằng quan hệ r là tập hữu hạn các bộ. Đối với các phép hợp, giao và trừ, hai quan hệ tham gia phải là khả hợp. Cho trước hai quan hệ D A E a a b b c d e f g t= A B C a a c a c b b c d a a d r = = Từ hai quan hệ trên ta có các phép tính sau: II.3.1. Phép hợp Giả sử r và t là hai tệp dữ liệu cùng có n cột , trong ví dụ trên thì r và t có 3 cột. Khi đó quan hệ r È t là một quan hệ (tệp dữ liệu ) cũng n cột bao gồm các bản ghi (dòng) của cả r lẫn t. Chú ý rằng những bản ghi giống nhau chỉ giữ lại một lần, nếu r và t là tệp dữ liệu có tên các cột khác nhau thì tệp dữ liệu hợp không ghi tên cột nữa. Nói cách khác là chỉ có khung mà thôi. Phép toán này dùng để hoà lẫn hai tệp dữ liệu có cùng số cột. Hai tệp này đều có cấu trúc cột như nhau, như vậy ta dùng phép hợp này thông thường đối với hai tệp có cùng số cột cùng cấu trúc cột . Kí kiệu của phép hợp hai quan hệ : r È t Biểu diễn hình thức phép hợp có dạng: r È t :={s : s Î r hoặc s Î t} a a b a c b b c d a a d e f g Từ hai quan hệ cho trước ta có phép hợp của hai quan hệ r và t: rÈt: = II.3.2. Phép trừ Được thực hiện như phép hợp, kết quả của phép trừ là lấy những dòng thuộc r nhưng không thuộc t. Trong trường hợp tên cột khác nhau thì kết quả không có tên cột. Ký hiệu phép trừ của hai quan hệ r và t: r \ t Phép trừ dùng để chắt lọc những dòng của tệp dữ liệu r mà không được phép có mặt trong tệp dữ liệu t . a c b a a d Từ hai quan hệ cho trước ở trên, ta có phép trừ của r và t r \ t : = II.3.3. Phép giao Giả sử hai quan hệ r và t là hai tệp dữ liệu n cột khi đó quan hệ giao là quan hệ n cột bao gồm các dòng có mặt trong cả r lẫn t. Trong trường r và t có tên cột khác nhau thì các cột của tệp dữ liệu giao không có tên . Ký hiệu phép giao của hai quan hệ r và t: r Ç t Từ hai quan hệ cho trước ở trên, ta có phép giao của r và t a a b b c d r Ç t:= II.3.4. Phép tích Đề_các Giả sử tệp dữ liệu r có n cột và tệp dữ liệu t có m cột (m # n). Khi đó tích đề các là tệp dữ liệu có n+m cột và dòng được hình thành như sau : x1,x2,... ,xn Î r, y1,y2,..., ym Î t Thì ( x1,x2,... ,xn , y1,y2,..., ym) Î r x t, thì r x t là kí pháp của tích đề các Trong trường hợp tệp dữ liệu r và t có những cột trùng tên nhau thì chúng ta đặt tên của tệp dữ liệu rồi đến dấu chấm rồi mới đến tên các cột đó . Ký hiệu phép tích Đề các của hai quan hệ r và t: r x t Từ hai quan hệ cho trước ở trên, ta có phép tích Đề các của r và t: r.A B C D t.A E a a b a a b a a b b c d a a b e f g a c b a a b a c b b c d a c b e f g b c d a a b . . . r x t := Tích đề các cho phép nối các tệp dữ liệu bất kỳ với nhau và nó là nền tảng xây dựng nên các phép toán quan trọng khác. II.3.5. Phép chiếu r là tệp dữ liệu n cột. Kí hiệu Õi1,i2,...ip(r) là phép chiếu lên tệp dữ liệu r. Ở đây i1,i2,..,ip là p số chỉ thứ tự cột mà chúng ta muốn lấy ra khỏi r và hình thành một tệp dữ liệu gồm p cột đó. Ví dụ: cho tệp dữ liệu r: A B C 1 0 1 1 1 1 0 1 0 0 0 2 r = Từ ví dụ trên ta có A B 1 0 1 1 0 1 0 0 Õ1, 2(r ) = A C 1 1 0 0 0 2 Õ1, 3(r) = Nếu có nhiều dòng giống nhau thì ta chỉ lấy một dòng. Phép chiếu là phép phổ biến nhất dùng để nhặt ra một số các cột trong một tệp dữ liệu cho trước. II.3.6. Phép chọn Cho tệp dữ liệu n cột , gọi dF(r) là phép chọn. F: Là biểu thức điều kiện. Các phép so sánh trong biểu thức F la: , >=, <=, =, ¹,...;Các phép logíc là Ù (và), Ú (hoặc) và Ø (không) . Hình thức phép chọn được định nghĩa như sau: dF(r) = {t Î r : F(t) = đúng } F(t) được hiểu là các giá trị của các thuộc tính xuất hiện trong biểu thức F tại bộ t thoả mãn các điều kiện của F. Kết quả của phép chọn là hình thành ra một tệp dữ liệu mới có cấu trúc và số cột như tệp dữ liêụ cũ, nhưng dòng phải thoả mãn điềy kiện F. Ví dụ: Từ quan hệ r cho trên, chọn quan hệ r trên các thuộc tính (a1 = “1” Ù a3 = “2”), ta được quan hệ mới có kết quả là số bộ giảm đi. a1 a2 a3 1 1 0 0 0 2 dF(r) = II.3.7. Phép chia Gọi r là tệp dữ liệu n cột và t là tệp dữ liệu m cột ( n > m , t ¹ Æ ). Phép chia r ¸ t là tập tất cả ( n – m ) bộ s sao cho:"u Î t thì bộ s Ç u Î r. a b c d a b e f b c e f e d c d e d e f a b d c b b b b Ví dụ: Cho tệp dữ liệu r = c d e f t = a b e d Ta có quan hệ r ¸ t = Bản chất của phép chia là các cặp n – m cột đầu tiên của quan hệ r phải đối chứng với quan hệ t. Quan hệ này không phổ biến chủ yếu được dùng trong phân tích dữ liệu, khi đối chứng giữa hai dữ liệu của hai tệp r và t. II.3.8. Phép kết nối có điều kiện Gọi r là tệp dữ liệu n cột và t là tệp dữ liệu m cột. Ký pháp q = {, =, ¹} là các phép toán quan hệ số học iqj Khi đó phép kết nối có điều kiện với i và j là tên hoặc số cột tương ứng của r và t thoả mãn điều kiện q. Ký hiệu là r >< t a1 a2 a3 0 1 0 0 1 1 0 0 1 Ví dụ: cho hai quan hệ: r = a3 a5 a7 1 1 0 1 1 1 t = a1 a2 r.a3 t.a3 a5 a7 0 1 0 1 0 0 0 1 0 1 1 1 0 1 1 1 0 0 0 1 1 1 1 1 0 0 1 1 1 0 0 0 1 1 1 1 Tính tích đề các r x t: r x t = a1 a2 r.a3 t.a3 a5 a7 0 0 1 1 1 1 Từ hai quan hệ trên ta được phép kết nối có điều kiện r >< t là: a2<a7 r >< t = II.3.9. Phép kết nối tự nhiên Cho trước r là tệp dữ liệu n cột, và t là tệp dữ liệu m cột. Khi đó phép kết nối tự nhiên là: r >< t. Được thực hiện như sau. r x t Giả sử r và t có p cột tên giống nhau. Đó là các cột A1,A2,...,Ap. Ký hiệu: B = sr. .A1 = t.A1 Ù ... Ù r.Ap = t.Ap A B C 1 0 1 0 1 0 0 0 0 c. Tính P 1, 2,...,m + n -p (B) Ví dụ: Cho hai quan hệ: r = D B 1 0 2 0 t = A r.B C D t.B 1 0 1 1 0 1 0 1 2 0 0 1 0 1 0 0 1 0 2 0 0 0 0 1 0 0 0 0 2 0 a/ Tính tích Đề_các: r x t = A r.B C D t.B 1 0 1 1 0 1 0 1 2 0 0 0 0 1 0 0 0 0 2 0 b/ Tính bước 2: A r.B C D 1 0 1 1 1 0 1 2 0 0 0 1 0 0 0 2 c/ r >< t: Trong 9 phép toán mà chúng ta học, phép toán quan trọng nhất là phép kết nối tự nhiên bởi lý do như sau. Trong quá trình sử lý biểu bảng ( tệp dữ liệu ) các biểu bảng này không phải là những người làm tin học đề xuất ra mà do các chuyên gia trong lĩnh vực tin học đề xuất ra, chính vì thế trong những năm 1970, người sáng lập ra mô hình dữ liệu quan hệ đã đề xuất ra 4 dạng chuẩn để chuẩn hoá dữ liệu. Các dạng chuẩn này sẽ được giới thiệu ngay sau chương này. Nhờ có các dạng chuẩn này, khi xử lý tệp dữ liệu người ta tách tệp dữ liệu gốc (do các chuyên gia ở mọi lĩnh vực đề xuất ra ) thành các tệp dữ liệu con đã ở trong dạng chuẩn rồi và khi xử lý người ta lưu trữ các tệp dữ liệu con trong máy chứ không phải là các tệp dữ liệu gốc to, nhưng một điều rất quan trọng là để khỏi mất thông tin (có tính pháp lý )thì phải hồi phục được tệp gốc ở bất cứ thời điểm nào cần, muốn hồi phục được người ta dùng phép kết nối tự nhiên nối tất cả các tệp dữ liệu con thì ta sẽ được tệp dữ liệu gốc to. Việc lưu trữ các tệp dữ liệu con thường chiếm ít bộ nhớ hơn là tệp dữ liệu gốc to, tốc độ xử lý các tệp dữ liệu đã chuẩn hoá nhanh hơn rất nhiều so với tệp dữ liệu chưa được chuẩn hoá (tệp dữ liệu gốc to). Cho đến nay tất cả các hãng máy tính trên thế giới khi xây dựng mô hình dữ liệu quan hệ đều áp dụng phép kết nối tự nhiên trong ngôn ngữ xử lý của họ. II.4. CÁC THUẬT TOÁN CỦA PHỤ THUỘC HÀM II.4.1. Thuật toán tính A+ Input: s = với  R = {a1,a2,...,an } và F = , A Í R. Output: A+ = ? Thực hiện thuật toán: Bước 0: A0 = A, Bước i ( i >= 1):Kiểm tra trong danh sách các phụ thuộc hàm. Nếu có Aj ® Bj ( phụ thuộc hàm) mà: Aj Í Ai -1. Và Bj Í Ai - 1 thì Ai = Ai - 1 È Bj , Việc làm này lặp đi lặp lại cho đến khi không còn sự phụ thuộc Aj ® Bj như trên thì đặt A+ = Ap ( p <= t ). Ví dụ: Cho R = {a1,a2,a3,a4}, F = {{a1} ® {a2,a3},{a3} ® {a} } , cho A = {a1} , tính A+ = ? Thực hiện thuật toán: Bước 0: A0 = {a1} Bước 1: A1 = A0 È {a2,a3} = {a1,a2,a3} Bước 2: A2 = A1 È {a4} = {a1,a2,a3,a4} = R A = {a2,a4} A0 = {a2,a4} A+ = A0 = {a2,a4} = A. Dễ thấy rằng độ phức tạp của thuật toán này là đa thức. Kết quả của rhuật toán này được phát hiện năm 1979. Ngay sau khi phát hiện được thuật toán này thì cơ sở dữ liệu quan hệ đã đi vào phát triển rất sôi động. Nhờ có thuật toán này chúng ta giải quyết được bài toán thành viên theo nghĩa (cho trước một cấu trúc xem thử xem, một phần tử bất kỳ có thuộc cấu trúc đó hay không. Trong trường hợp này cho trước một sơ đồ quan hệ bao gồm các cột (r) và danh sách các phụ thuộc hàm do người thiết kế áp đặt. Xem thử xem hai tập cột bất kỳ có phụ thuộc hàm với nhau hay không. Nói cách khác A®B có thuộc F+ hay không ). II.4.2. Thuật toán tính A+r Input: Cho r = {h1,h2,...,hm}là tệp dữ liệu trên tập thuộc tính R = {a1,a2,...,an}.Trong đó A Í R. Output: A+r = ? Thực hiện thuật toán: Bước 1: Tính E r = {Ei j : 1 <= i < j <= m } Ta tính Ei j = {a : a Î R và hi(a) = hj(a)} Bước 2: Tính A+r = Ç Ei j nếu có Ei j mà A Í Ei j A+r = R nếu không có Ei j như thế . Tập Er được gọi là họ các tập bằng nhau của r, Ei j gọi là các tập bằng nhau. Có thể thấy rằng Ei j = F trong trường hợp hai dòng i, j không có cột nào trùng nhau về giá trị, có nghĩa là chúng khác nhau hoàn toàn có thể sảy ra một số các tập bằn nhau, trùng nhau. Không bao giờ có Ei j = R. Có nghĩa rằng Ei j = toàn bộ không gian, nghĩa là bao gồm tất cả các cột vì nếu sảy ra thì ta sẽ có 2 dòng bằng nhau (trùng nhau). Ví dụ: Ta có bảng thực thể R = (a1, a2, ..., a5.) a1 a2 a3 a4 a5 1 0 1 0 0 1 2 0 1 1 1 0 1 1 1 0 1 0 0 0 Tính E12 = {a1}, E13 = {a1,a2,a3}, E14={a4,a5}, E23={a1,a2,a5}, E24={a3}, E34=F. Cho A={a2,a3} => A+r = {a1,a2,a3} Cho A={a1,a4} => A+r = {a1,a4,a5} Cho A={a4,a5} => A+r = {a4,a5} Ç{a1,a4,a5}= {a4,a5} Chú ý: Nếu có Ei j=a thì nó chính là E+r. Các tập bằng nhau đóng vai trò rất then chốt trong quá trình thiết kế cơ sở dữ liệu mà đầu vào là phai dữ liệu . Việc tính Ei j là khá đơn giản, số lượng Ei j nhiều nhất bằng lực lượng của r. Vì có nhiều Ei j trùng nhau nên lực lượng giảm hẳn đi. II.4.3. Thuật toán tìm một khoá tối tiểu trong phai dữ liệu Input : Cho r = {h1, h2 , ..., hm} là tệp dữ liệu trên tập cột R = {a1,a2,...,an}. Ouput : K Î Kr Thực hiện thuật toán : Bước 1: Từ r tính E r = {Ei j : 1 < i < j < m } Bước 2: Đặt A0 = R = {a1,a2..an} Bước 3: Ai = Ai-1 \ ai nếu {Ai-1 \ ai}r+ = R Ai = Ai-1 nếu ngược lại (1<=i <=n) Bước 4: Kết luận: K= An II.4.4. Thuật toán tìm khoá tối tiểu cho một sơ đồ quan hệ Vào: s= là một sơ đồ quan hệ R={a1 ,a2,. . . .,an} là tập các thuộc tính F: là tập các Phụ thuộc hàm. A1 ® B1 F= . . . . . . At ® Bt Ra: K là một khoá tối tiểu. Thực hiện thuật toán: -Bước 1: K0 =R={a1 ,a2,. . . .,an} -Bước i: (1£ i £ n). Ki = Ki-1 nếu Ki-1- { ai }® R Ï F+ Ki-1-{ ai } Ngược lại -Bước n+1: K= Kn là khoá tối tiểu. Ví dụ: Cho R={a1, a2, a3, a4 } F = { a1}® {a2, a3} { a3}® {a4} K0 ={a1, a2, a3,a4} K1 = {K0 - a1}={ a2, a3,a4} { a2, a3,a4}+ ¹ R Þ K0 =K1 =R K2 = {K1 - a2}={ a1, a3,a4} { a1, a3,a4}+ = R Þ K2 =K1 - {a2} ={ a1, a3,a4} K3 = {K2 - a3}={ a1, a4} { a1, a4}+ = R Þ K3 =K2 - {a3} ={ a1, a4} K4 = {K3 - a4}={ a1} { a1}+ = R Þ K4 =K3 - {a4} ={ a1} Þ K =K4 ={ a1} Vậy khoá tối tiểu của sơ đồ quan hệ này K ={ a1}. Dễ thấy rằng thuật toán này dựa trên cơ sở tính A+ chính là kiểm tra {Bi-1 -ai }+ có bằng R hay không ?. Vì thuật toán tính A+ có độ phức tạp là đa thức nên thuật toán tính khoá tối tiểu cho một sơ đồ quan hệ cũng là đa thức. Thực chất tìm khoá tối tiểu là sàng lọc các cột thừa mà bắt đầu từ tập R. Vì một lý do nào đó chúng ta phát hiện ra một tập A là khoá tức là A+ = R thì chúng ta có thể bớt các bước đi bằng cách đặt B0 = A lúc ấy số các bước chỉ bằng lực lượng của A. Nhờ có nhận xét này trong nhiều trường hợp viết thuật toán thực hiện rất nhanh. Hơn nữa thuật toán này phụ thuộc và thứ tự của các cột trong R nếu chúng ta đảo thứ tự đi thì chúng ta có thể tìm được khoá tối tiểu mới. Sau khi tìm được khoá tối tiểu rồi mà chúng ta thấy hài lòng thì ta đặt nó làm khoá chính. Nếu không được thì chúng ta đảo thứ tự các cột để tìm khoá khác. II.4.5. Thuật toán cải tiến tính mọi khoá tối tiểu cho tệp dữ liệu Input: Cho r = {h1, h2 , ..., hm} là tệp dữ liệu trên tập cột R = {a1,a2,...,an}. Ouput: K Î R Thực hiện thuật toán : Bước 1: Từ r tính Er = {Ei j : 1 <= i < j < =m } Bước 2: Tính Mr = {B: có Ei j để Ei j = B và không có Est. B không phải là tập con thật sự của Est ; Ei j và Est Î Er }. Mr gọi là các tập bằng nhau cực đại. Bước 3: Đặt A0 = R = {a1,a2..an} Bước 4: Tính Ai = Ai-1 \ ai nếu Ï B Î Mr mà Ai-1 \ ai Í B Ai = Ai-1 nếu ngược lại.(1<=i<= n ) Bước 5: Kết luận: K= An Vì số lượng phần tử của Mr nhỏ hơn rất nhiều so với só lượng Er Ví dụ: Cho quan hệ r a1 a2 a3 a4 r = 1 1 0 1 1 0 1 1 0 1 0 0 0 0 1 0 -Bước 1: Tính Er : E12 = {a1,a4} E13 = {a2,a3} E14 = {F} E23 = {F} E24 = {a2 , a3} -Bước 2: Tính Mr : Mr = {a1 , a4}, {a2, a3} A1 A2 -Bước 3: Đặt K0 =R ={a1, a2, a3,a4} -Bước 4: K0 - a1 ={ a2, a3,a4} Þ K1 = K0 - a1 ={ a2, a3,a4} -Bước 5: K2 = K1 - a2 ={a3, a4} (Vì có A2 để {a3, a4} Î A2) Þ K2 = K1 ={ a2, a3,a4} -Bước 6: K3 = K2 - a3 ={a2, a4} (Vì có A1 để {a2, a4} Î A1) Þ K3 = K2 ={ a2, a3,a4} -Bước 7: K4 = K3 - a4 ={a2, a3} (Vì có A4 để {a2, a3} Î A4) Þ K4 = K3 ={ a2, a3,a4} Vậy K = K4 ={ a2, a3,a4} là khoá tối tiểu của quan hệ r. CHƯƠNG III: CÁC DẠNG CHUẨN HOÁ DỮ LIỆU III.1. ĐẶT VẤN ĐỀ Việc chuẩn hoá thông tin trong các quan hệ và trong các sơ đồ quan hệ, đóng vai trò rất quan trọng trong việc giải quyết các bài toán thông tin q

Các file đính kèm theo tài liệu này:

  • docPhân tích các dạng chuẩn hoá dữ liệu trong mô hình quan hệ và một số thuật toán.DOC