Nghiên cứu sâu hơn về tiêu chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu

GIỚI THIỆU 4

TOÁN TỬ MỜ CÓ NGƯỠNG 7

2.1 Toán tử mờ 9

2.1.1. Phủ định 9

2.1.2. T-chuẩn 9

2.1.3. T-đối chuẩn 10

2.1.4. Kéo theo 10

2.2 Toán tử mờ có ngưỡng 11

2.2.1. t-chuẩn có ngưỡng 11

2.2.2. Đẳng cấu giữa các t-chuẩn có ngưỡng 19

2.2.3. t-đối chuẩn có ngưỡng và bộ ba De Morgan có ngưỡng 23

2.2.4. Kéo theo có ngưỡng 27

2.2.5. Các toán tử mờ tham số 29

2.3 Kết luận 38

LUẬT KẾT HỢP MỜ 39

3.1 Giới thiệu 39

3.2 Mô tả bài toán 44

3.2.1. Thuộc tính và cơ sở dữ liệu 44

3.2.2. Từ 44

3.2.3. Mệnh đề 45

3.2.4. Luật kết hợp 47

3.2.5. t-chuẩn có ngưỡng và độ ủng hộ 49

3.3 Không gian tìm kiếm 50

3.3.1. Tìm mệnh đề 50

3.3.2. Tìm luật 52

3.4 Thuật toán 53

3.4.1. Tìm mệnh đề 53

3.4.2. Tìm luật kết hợp 56

3.5 Vấn đề mờ hoá dữ liệu 57

3.5.1. Bài toán phân cụm dữ liệu và phân cụm mờ 58

3.5.2. Thuật toán FCM 60

3.5.3. Phương pháp chia đều 62

3.6 Kết luận 63

Phụ lục A. Các toán tử mờ có ngưỡng tham số 64

Phụ lục B. Chương trình Fuzzy Rules Miner 77

1. Các Module chương trình 77

1.1. mdiMain 77

1.2. frmFuzzySetFinder 77

1.3. frmDataMiner 78

2. Cấu trúc các file dữ liệu 79

2.1. .CFF 79

2.2. .QDF 79

2.3. .FDF 79

2.4. .TF 79

2.5. .PF 80

2.6. .RF 80

3. Cơ sở dữ liệu chạy thử nghiệm 80

3.1. Mô tả 80

3.2. Kết quả 80

TÀI LIỆU THAM KHẢO 82

 

 

 

doc86 trang | Chia sẻ: huong.duong | Lượt xem: 1220 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Nghiên cứu sâu hơn về tiêu chuẩn có ngưỡng và bước đầu ứng dụng vào khai phá dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Aut(J) nào đó. g được gọi là hàm L-sinh của t. Ta đã biết, phủ định mạnh có thể được tạo ra từ hàm η(x) = 1 - x và hàm sinh. Bên cạnh đó, ta còn có một cách khác để xây dựng phép phủ định dựa vào hàm L-sinh của các t-chuẩn nilpotent [28]. Mệnh đề 2.2.45[28]. Cho t là t-chuẩn nilpotent có hàm L-sinh g, khi đó ηg(x) = g-1(1-g(x)) là phủ định chặt và được gọi là phủ định tự nhiên của t. Đặc biệt, t-chuẩn nilpotent, và t-đối chuẩn đối ngẫu qua phép phủ định tự nhiên sẽ tạo ra cùng một phép kéo theo. Mệnh đề 2.2.46. Cho t là t-chuẩn nilpotent có hàm L-sinh g, s là t-đối chuẩn đối ngẫu với t qua phủ định tự nhiên ηg, khi đó it(x,y) = supz(t(x,z) ≤ y) = is(x,y) = s(ηg(x),y). Chứng minh: Thật vậy, ta có: is(x,y) = s(ηg(x),y) = ηg(t(x,ηg(y)) = g-1(1-g(t(x,g-1(1-g(y)))) = g-1(1-g(g-1(g(x)+g(g-1(1-g(y))))-10)) = g-1(1-(g(x)-g(y)0)) = g-1(min(1-g(x)+g(y),1)) Trong khi đó: it(x,y) = supz(t(x,z) ≤ y) = supz(g-1(g(x)+g(z)-1) ≤ y) = supz(g(x)+g(z)-1 ≤ g(y)) = supz(g(z) ≤ 1-g(x)+g(y)) = g-1(min(1-g(x)+g(y),1)). Vậy, ta có đpcm □. Các toán tử mờ tham số Trong phần này chúng ta sẽ tiến hành khảo sát tính chất giải tích, quan trọng nhất là tính chất thứ tự của một số họ toán tử mờ tham số kinh điển nhằm làm tiền đề cho việc xây dựng các toán tử mờ có ngưỡng tham số. Ta chú ý rằng, khi xác định một t-chuẩn có ngưỡng, ta cần xác định hai t-chuẩn thành phần t1, t2 thoả t1(x,y) ≥ t2(x,y). Trước hết, chúng ta đã có các kết quả về so sánh giữa hai t-chuẩn thông qua các hàm sinh và hàm đối sinh của chúng (định lý 2.2.5 và 2.2.6), giữa hai t-đối chuẩn thông qua t-chuẩn đối ngẫu tương ứng (mệnh đề 2.2.33), giữa hai phép kéo theo xây dựng từ t-chuẩn (mệnh đề 2.4.42), giữa hai phép kéo theo xây dựng từ t-đối chuẩn (mệnh đề 2.4.43). Bên cạnh đó, ta có các kết quả bổ sung sau. Mệnh đề 2.2.47. Cho f Aut(J), khi đó t1(x,y) = f-1(f(x)f(y)) ≥ t2(x,y) = f-1(f(x)+f(y)-1 0). Chứng minh: Ta có f(x),f(y) ≤ 1, vậy (1-f(x))(1-f(y)) ≥ 0, do đó f(x)f(y) ≥ f(x)+f(y)-1, ta có đpcm □. Nghĩa là, cho f Aut(J), t1 là t-chuẩn nilpotent với f là hàm L-sinh, t2 là t-chuẩn chặt với f là hàm sinh nhân tính, thế thì t1 ≤ t2. Định lý 2.2.5 và 2.2.6 cho ta điều kiện cần và đủ khi so sánh hai t-chuẩn Archimedean liên tục, tuy nhiên, bên cạnh các điều kiện này, chúng ta còn có các điều kiện đủ khác là hệ quả của hai định lý này, mà trong nhiều trường hợp tỏ ra rất hữu dụng khi xác định các t-chuẩn có ngưỡng [34]. Hệ quả 2.2.48[34]. Cho t1, t2 là hai t-chuẩn Archimedean liên tục với các hàm sinh cộng tính tương ứng g1, g2 : [0,1] → [0,∞]. Khi đó, t1 ≤ t2 nếu một trong các điều kiện sau thoả mãn: Hàm g1○g2-1 : [0,g2(0)] → [0,∞] là lõm. Hàm f : (0,g2(0)] → [0,∞] f(x) := là không tăng Hàm  : (0,1) → [0,∞] là không giảm. Kết hợp với mệnh đề 2.2.4, khi thay hàm sinh cộng tính g(x) bằng hàm sinh nhân tính f(x) = e-g(x), ta có kết quả sau. Hệ quả 2.2.49. Cho t1, t2 là hai t-chuẩn với hàm sinh nhân tính f1, f2 : [0,1] → [0,1]. Khi đó t1 ≤ t2 nếu điều kiện sau thoả mãn Hàm g: g(x) := là không giảm. Sau đây chúng ta sẽ tiến hành khảo sát một số họ toán tử mờ tham số và việc tạo ra các toán tử mờ có ngưỡng từ chúng. Định nghĩa 2.2.11 [28]. Họ Dombi t-chuẩn : r > 0 phủ định 1-x hàm sinh cộng tính : r > 0 Mệnh đề 2.2.50. Họ t-chuẩn Dombi là đơn điệu không giảm theo r. Chứng minh: Thực vậy, xét t1, t2 là hai t-chuẩn thuộc họ với các hàm sinh cộng tính: g1(x) = và g2(x) = tương ứng Ta có: g2-1(x) = , nghĩa là f(x) = = . Giả sử r1 ≤ r2, khi đó f(x) là không giảm theo f(x). Nghĩa là t1 ≤ t2 theo hệ quả 2.2.48, ta có đpcm □. Định nghĩa 2.2.12 [28]. Họ Jane Doe #1-Hamacher t-chuẩn  : a > 0, r > 0 phủ định  : a > 0 hàm sinh cộng tính -ln : a > 0, r > 0 Mệnh đề 2.2.51. Họ t-chuẩn Jane Doe #1-Hamacher là đơn điệu không tăng theo a, đơn điệu không giảm theo r. Chứng minh: Rõ ràng họ t-chuẩn Jane Doe #1-Hamacher là đơn điệu không tăng theo a dựa vào công thức định nghĩa của họ tham số. Xét t1, t2 là hai t-chuẩn thuộc họ với các hàm sinh cộng tính g1(x) = -ln và g2(x) = tương tứng. Ta có f(x) = = , giả sử r1 < r2, khi đó f là không giảm x, vậy t1 ≤ t2 theo hệ quả 2.2.48, ta có đpcm □. Định nghĩa 2.2.13. [28]. Họ Aczél-Alsina t-chuẩn  : r > 0 phủ định hàm sinh cộng tính (-lnx)r : r > 0 Mệnh đề 2.2.52. Họ t-chuẩn Aczél-Alsina là đơn điệu không giảm theo r Chứng minh: Xét t1, t2 là hai t-chuẩn thuộc họ với các hàm sinh cộng tính g1(x) = và g2(x) = tương ứng. Ta có g2-1(x) = f(x) = = . Giả sử r1 ≤ r2, khi đó f(x) không tăng theo x, nghĩa là t1 ≤ t2 theo hệ quả 2.2.48, ta có đpcm □. Định nghĩa 2.2.14 [28]. Họ Frank t-chuẩn loga : a > 0, a ≠ 1; xy : a = 1 phủ định 1-x hàm sinh nhân tính  : a > 0, a ≠ 1; x : a = 1 Mệnh đề 2.2.53[34]. Họ t-chuẩn Frank là đơn điệu không tăng theo tham số a. Định nghĩa 2.2.15 [28]. Họ Schweizer t-chuẩn  : a ≠ 0; xy : a = 0 phủ định 1-x  phủ định tự nhiên : a > 0 hàm sinh cộng tính xa-1 : a 0; -lnx : a = 0 Mệnh đề 2.2.54. Họ t-chuẩn Schweizer là đơn điệu không tăng theo tham số a. Chứng minh: Xét hai t-chuẩn t1, t2 thuộc họ với hai hàm sinh cộng tính tương ứng là g1, g2, ta xét các trường hợp sau: g1(x) = -1, g2(x) = -1, a2 < a1 < 0 hoặc 0 < a2 < a1 Ta có f(x) = = là hàm không giảm, vậy t1 ≤ t2 theo hệ quả 2.2.48. g1(x) = -lnx, g2(x) = xa-1, a < 0 Ta có f(x) = = -x-a là hàm không giảm, vậy t1 ≤ t2 theo hệ quả 2.2.48. g1(x) = 1-xa, g2(x) = -lnx, a > 0 Ta có f(x) = = axa là hàm không giảm, vậy t1 ≤ t2 theo hệ quả 2.2.48. Ta có đpcm □. Định nghĩa 2.2.16 [28]. Họ Jane Doe #2 t-chuẩn xye-alnxlny : a > 0; xy : a = 0 phủ định 1-x hàm sinh nhân tính Dựa vào công thức định nghĩa của họ, ta có kết quả sau. Mệnh đề 2.2.55. Họ t-chuẩn Jane Doe #2 là đơn điệu không tăng theo tham số a. Định nghĩa 2.2.17 [28]. Họ Jane Doe #3 t-chuẩn 1- : a > 0 phủ định 1-x hàm sinh nhân tính 1-(1-x)a : a > 0 Đạo hàm công thức t-chuẩn theo tham số a, ta có kết quả sau. Mệnh đề 2.2.56. Họ t-chuẩn Jane Doe #3 là đơn điệu không tăng theo tham số a. Định nghĩa 2.2.18[28]. Họ Yager t-chuẩn 1- : a > 0 phủ định tự nhiên 1- : a > 0 hàm sinh cộng tính (1-x)a Mệnh đề 2.2.57. Họ t-chuẩn Yager là đơn điệu không giảm theo tham số a Chứng minh: Xét hai t-chuẩn t1, t2 thuộc họ với hai hàm sinh cộng tính: g1(x) = và g2(x) = 0 < a1 < a2 Ta có f(x) = = là hàm không giảm, vậy t1 ≤ t2 theo hệ quả 2.2.48, ta có đpcm □. Định nghĩa 2.2.19[28]. Họ Jane Doe #4 t-chuẩn : a > 0 phủ định tự nhiên : a > 0, a ≠ 1; 1-x : a = 1 hàm sinh cộng tính 1-loga((a-1)x+1) : a > 0, a ≠ 1; 1-x : a = 1 Mệnh đề 2.2.58. Họ Jane Doe #4 là đơn điệu không giảm theo tham số a Chứng minh: Xét hai t-chuẩn t1, t2 thuộc họ với hai hàm sinh cộng tính g1, g2 tương ứng, ta xét các trường hợp sau g1(x) = 1-((a1-1)x+1) và g2(x) = 1-((a2-1)x+1), với a1 < a2 < 1 hoặc 1 < a1 < a2 Ta có f(x) = = là hàm không giảm, vậy t1 ≤ t2, theo mệnh đề 2.2.48. g1(x) = 1-x và g2(x) = 1-loga((a-1)x+1) : a > 1. Ta có f(x) = = ((a-1)x+1) là hàm không giảm, vậy t1 ≤ t2, theo mệnh đề 2.2.48. g1(x) = 1-loga((a-1)x+1) và g2(x) = 1 - x : a < 1 Ta có f(x) = = là hàm không giảm, vậy t1 ≤ t2, theo mệnh đề 2.2.48. Ta có đpcm □. Định nghĩa 2.2.20 [28]. Họ Weber t-chuẩn (a(x+y-1)-(a-1)xy) 0 : a > 0 phủ định tự nhiên  : a > 0, a ≠ 1; 1-x : a = 1 hàm sinh cộng tính loga((a-1)(1-x)+1) : a > 0, a ≠ 1; 1-x : a = 1 Mệnh đề 2.2.59. Họ t-chuẩn Weber là đơn điệu không tăng theo tham số a Chứng minh: Xét hai t-chuẩn t1, t2 thuộc họ với hai hàm sinh cộng tính g1(x), g2(x) tương ứng, ta xét các trường hợp sau: g1(x) = ((a1-1)(1-x)+1) và g2(x) = ((a2-1)(1-x)+1), với a1 > a2 > 1 hoặc 1 > a1 > a2 Ta có f(x) = = là hàm không giảm, vậy t1 ≤ t2 theo mệnh đề 2.2.48. g1(x) = 1-x và g2(x) = loga((a-1)(1-x)+1) : a < 1 Ta có f(x) = = là hàm không giảm, vậy t1 ≤ t2 theo mệnh đề 2.2.48. g1(x) = loga((a-1)(1-x)+1) : a > 1 và g2(x) = 1 - x Ta có f(x) = = là hàm không giảm, vậy t1 ≤ t2 theo mệnh đề 2.2.48. Ta có đpcm □. Định nghĩa 2.2.21 [28]. Họ Jane Doe #6 t-chuẩn loga: a > 0, a ≠ 1; (x+y-1 0), a = 1 phủ định tự nhiên loga(a-ax+1) hàm sinh cộng tính 1- Mệnh đề 2.2.60. Họ t-chuẩn Jane Doe #6 đơn điệu không tăng theo tham số a Chứng minh: Xét hai t-chuẩn t1, t2 với các hàm sinh cộng tính g1(x) = 1- và g2(x) = 1- tương ứng với a2 < a1; a1, a2 ≠ 1 Ta có f(x) = = không giảm theo x, vậy ta có t1 ≤ t2 theo hệ quả 2.2.48. Sau đây, chúng ta sẽ khảo sát các so sánh giữa một số cặp họ t-chuẩn với cùng tham số. Mệnh đề 2.2.61. Cho t1 là t-chuẩn Yager và t2 là t-chuẩn Schweizer với cùng tham số a > 0, thế thì: t1 ≥ t2 : a > 1 t1 ≤ t2 : a < 1 Chứng minh: Giả sử t1 là t-chuẩn Yager với hàm sinh cộng tính g1(x) = (1-x)a, t2 là t-chuẩn Schweizer với hàm sinh cộng tính g2(x) = 1-xa, ta có: f(x) = = là hàm không giảm khi a < 1, vậy ta có t1 ≤ t2 theo hệ quả 2.2.48 □. h(x) = = là hàm không giảm khi a > 1, vậy ta có t2 ≤ t1 theo hệ quả 2.2.48 □. Mệnh đề 2.2.62. Cho t1 là t-chuẩn Weber, t2 là t-chuẩn Jane Doe #4, với cùng tham số a, thế thì: t1 ≤ t2 : a > 1 t1 ≥ t2 : a < 1 Chứng minh: Giả sử t1 là t-chuẩn Weber với hàm sinh cộng tính g1(x) = loga((a-1)(1-x)+1), t2 là t-chuẩn Jane Doe #4 với hàm sinh cộng tính g2(x) = 1-loga((a-1)x+1), ta có: f(x) = = là hàm không giảm khi a > 1, vậy ta có t1 ≤ t2 theo hệ quả 2.2.48. □. h(x) = = là hàm không giảm khi a < 1, vậy ta có t2 ≤ t1 theo hệ quả 2.2.48 □. Từ [28], ta có họ t-chuẩn Jane Doe #3 có hàm sinh 1-(1-x)a, họ Yager có hàm L-sinh 1-(1-x)a, họ Frank có hàm sinh , họ Jane Doe #6 có hàm L-sinh . Theo mệnh đề 2.2.47, ta có các kết quả sau. Mệnh đề 2.2.63. Cho t1 là t-chuẩn Jane Doe #3, t2 là t-chuẩn Yager có cùng tham số a, khi đó t1 ≥ t2. Mệnh đề 2.2.64. Cho t1 là t-chuẩn Frank, t2 là t-chuẩn Jane Doe #6 có cùng tham số a, khi đó t1 ≥ t2. Mệnh đề 2.2.65[39]. Xét hai t-chuẩn sau: t-chuẩn min tm(x,y) = min(x,y) t-chuẩn z tz(x,y) = Thế thì, với mọi t-chuẩn, ta luôn có tm(x,y) ≥ t(x,y) ≥ tz(x,y). Kết luận Trong chương này chúng tôi đã tổng kết lại các nghiên cứu về toán tử mờ có ngưỡng. Các khảo sát về cặp hàm sinh sẽ được sử dụng trong việc tạo ra các toán tử mờ có ngưỡng tham số. Các xem xét giải tích về các họ toán tử mờ tham số ở cuối chương là tổng kết các tính chất về thứ tự của các toán tử này và có thể sử dụng để tạo ra các t-chuẩn có ngưỡng tham số. LUẬT KẾT HỢP MỜ Chương này tóm tắt lại một số khái niệm cơ bản của bài toán luật kết hợp mờ, khảo sát sơ lược một số vấn đề về không gian tìm kiếm, việc sử dụng các toán tử mờ và toán tử mờ có ngưỡng trong bài toán tìm luật kết hợp mờ. Chúng tôi cũng đưa ra thuật toán F-Apriori để giải bài toán tìm luật kết hợp mờ. Giới thiệu Sự phát triển của công nghệ thông tin, công nghệ về thu nhận, lưu trữ và phân phối dữ liệu đã dẫn tới sự bùng nổ về thông tin và dữ liệu. Thách thức lớn nhất đối với các tổ chức cũng như các cá nhân ngày nay không chỉ là ở việc có ngày càng nhiều dữ liệu càng tốt mà còn ở việc trích rút từ kho dữ liệu khổng lồ thu nhận được ra các tri thức hữu ích. Vấn đề này đã tập hợp nhiều nhà nghiên cứu thuộc nhiều lĩnh vực khác nhau như thống kê, máy học, cơ sở dữ liệu, … vào một lĩnh vực nghiên cứu mới, đó là khai phá dữ liệu (Data Mining). Khai phá dữ liệu thường được xét đến như là một khâu trong một quá trình lớn hơn đó là Phát hiện tri thức trong cơ sở dữ liệu (Knowledge discovery in databases-KDD) [17]. Bài toán này bao gồm: Tìm hiểu về lĩnh vực ứng dụng, các tri thức đã có trước đó, và mục tiêu của người sử dụng. Lựa chọn loại tập dữ liệu tiến hành quá trình phát hiện tri thức, thực hiện công tác chuẩn hoá và chuyển đổi dữ liệu nếu cần. Lựa chọn hình thức khai phá dữ liệu, giải thuật, và quyết định mô hình cũng như các tham số có thể có. Thực hiện quá trình khái phá dữ liệu, trích ra các mẫu và mô hình. Hiển thị, diễn giải và hợp nhất các tri thức được phát hiện. Quá trình này được tiến hành lặp đi lặp lại do một bước có thể dẫn đến những sửa đổi của bước đã được tiến hành trước đó. Quá trình lặp cũng do người dùng có thể giới hạn lại khối lượng công việc của hệ thống trong phạm vi mà anh ta thực sự quan tâm. Bước khai phá dữ liệu là công việc trích rút các thông tin, một cách tự động từ dữ liệu. Các thông tin này có thể có giá trị đối với người sở hữu kho dữ liệu. Định nghĩa vắn tắt về thao tác này được đưa ra trong [24]: Khai phá dữ liệu là phân tích tập dữ liệu (thường là lớn, thậm chí rất lớn) thu nhận được nhằm tìm kiếm các mối quan hệ chắc chắn và tổng hợp dữ liệu theo một hình thức mới để trở nên hiểu được và hữu dụng đối với chủ của dữ liệu. Để phân tích dữ liệu, một vài dạng công việc khác nhau đã được phân biệt, tương ứng với mục tiêu của quá trình phân tích, và quan trọng hơn là tương ứng với sản phẩm dự kiến. Những công việc này có thể được phân loại như sau [24]. Phân tích dữ liệu thăm dò. Mục đích là thăm dò dữ liệu mà không hề có một ý tưởng rõ ràng về mục tiêu tìm kiếm. Các kỹ thuật thông thường gồm có hiển thị đồ hoạ, chiếu và tóm tắt. Tìm kiếm theo nội dung. Người dùng có một mẫu riêng trong ý nghĩ và muốn tìm kiếm những mẫu tương tự trong tập dữ liệu. Công việc này thường được sử dụng nhiều nhất để thu nhận thông tin từ một tập lớn dữ liệu văn bản và hình ảnh. Thách thức chính ở đây là định nghĩa sự tương tự và tìm kiếm các mẫu tương tự dựa theo định nghĩa này. Một ví dụ nổi tiếng là máy tìm kiếm Google (http: //www.google.com) của Brin và Page [6], cho phép tìm kiếm trang web chứa đựng thông tin tương tự như tập các từ khoá do người dùng nhập vào. Mô tả mô hình. Phương pháp mô tả mô hình tìm cách mô tả tất cả dữ liệu thu nhận được. Các phương pháp mô tả thông thường bao gồm một vài mô hình thống kê, phân cụm và mô hình phụ thuộc. Dự đoán mô hình. Kỹ thuật dự đoán như phân loại và hồi quy tìm cách trả lời câu hỏi dựa trên việc kiểm tra các tri thức đã có và các câu trả lời nhằm mục đích tổng quát hoá chúng cho các trường hợp tương lai. Một ví dụ ấn tượng của thao tác phân lớn là hệ thống SKICAT của Fayyad et al. [16], có thể tiến hành công tác phân lớp các ngôi sao và thiên hà tương đương với một chuyên gia. Hệ thống này của họ được sử dụng tại NASA nhằm phân lớp tự động hàng triệu ngôi sao và thiên hà từ những bức ảnh chụp bầu trời. Phát hiện mẫu. Mục đích là tìm các mẫu xuất hiện thường xuyên trong cơ sở dữ liệu. Rất nhiều thuật toán đã được nghiên cứu cho các loại mẫu khác nhau như các tập [2], cấu trúc cây [42], cấu trúc đồ thị [37,30], hay cấu trúc quan hệ bất kỳ [15,21] và luật kết hợp trên những cấu trúc này. Dạng mẫu được nghiên cứu nhiều nhất là tập các mục dữ liệu xuất hiện cùng nhau trong các cơ sở dữ liệu, ví dụ lưu trữ của các hoá đơn bán lẻ. Một ứng dụng tiêu biểu của luật kết hợp là trong ứng dụng bán hàng [5]. Trong những năm gần đây, đã có một vài cuốn sách và nhiều nghiên cứu được xuất bản về lĩnh vực này, chúng tôi có thể kể ra ở đây [24,26,29]. Luật kết hợp được giới thiệu lần đầu tiên trong [2]. Xuất phát từ bài toán bán hàng siêu thị, theo đó, chúng ta có một cơ sở dữ liệu “lớn” các giao dịch của khách hàng. Siêu thị của chúng ta có một lượng lớn các chủng loại mặt hàng, vấn đề đặt ra đối với nhà quản lý siêu thị là cần quyết định nên bán những mặt hàng nào, những mặt hàng nào nên đặt cạnh nhau, tóm lại là cách thức bày các mặt hàng trên các giá hàng nhằm thu lợi nhuận lớn nhất. Một phương pháp tiếp cận chủ yếu là sử dụng cơ sở dữ liệu về các giao dịch đã có trong quá khứ. Thông thường, người ta sẽ tiến hành xem xét các dữ liệu tích luỹ về một khoảng thời gian bán hàng như một năm, một tháng, một tuần hay một ngày, được lưu trữ trên máy tính. Hiện nay, với công nghệ sử dụng mã vạch, ta có thể theo dõi được trong một giao dịch, có cụ thể những mặt hàng nào. Thậm chí, chúng ta có thể theo dõi không chỉ các mặt hàng trong từng giao dịch mà còn cả các mặt hàng trong một khoảng thời gian như đối với khác hàng là một câu lạc bộ sách hay âm nhạc. Bài toán tìm luật kết hợp đầu tiên được đưa ra nhằm giải quyết việc tìm những mối liên hệ “có ý nghĩa” giữa các mặt hàng trong các giao dịch được biểu diễn dưới dạng các chuỗi nhị phân biểu thị việc có hay không có của từng mặt hàng trong giao dịch. Các luật này có thể cho biết rằng, mọi người khi mua bơ và sữa thường sẽ mua cả bánh mì, rõ ràng những hiểu biết dạng này rất có ý nghĩa đối với nhà quản lý của siêu thị. Ví dụ cho luật này có thể là như sau: “90% số người mua bơ và sữa sẽ mua cả bánh mì” và “30% số người vào siêu thị sẽ mua bơ, sữa và bánh mì.” Như thế, người quản lý có thể xem xét việc xếp bơ, sữa và bánh mì ở cạnh nhau nhằm tạo sự tiện dụng cho khác hàng. Hay, cũng có thể xem xét việc tăng cường bán bơ, sữa để có thể tăng lượng bánh mì bán được. Một cách hình thức, có thể xem đây là bài toán tìm mối liên hệ giữa các giá trị “1” trong cơ sở dữ liệu quan hệ mà các thuộc tính đều có dạng Boolean. Bảng trong cơ sở dữ liệu này có một thuộc tính tương ứng với mỗi mặt hàng và mỗi một bản ghi tương ứng với một giao dịch. Giá trị của một thuộc tính đối với một bản ghi cho trước là “1” nếu mặt hàng tương ứng có trong giao dịch tương ứng và “0” nếu ngược lại. Trong [40], bài toán này được gọi là bài toán luật kết hợp Boolean. Một mở rộng của bài toán này chính là bài toán tìm các luật kết hợp lượng hoá được nêu ra trong [40]. Trong [40] chỉ ra rằng, hầu hết các cơ sở dữ liệu khoa học hay kinh doanh, các thuộc tính thường có khả năng diễn đạt cao hơn là chỉ gồm có dạng boolean, các thuộc tính thường có dạng biểu diễn số liên tục như tuổi, số vốn, hay được chia khoảng như mức thu nhập (thấp, trung bình, cao…). Các thuộc tính boolean có thể được xem như trường hợp riêng của thuộc tính chia khoảng. Việc giới hạn các luật kết hợp với các thuộc tính boolean rõ ràng là đã giới hạn khả năng phân tích một cơ sở dữ liệu nhằm mang lại những thông tin hữu ích. Một mở rộng tự nhiên là xem xét các luật kết hợp cho các cơ sở dữ liệu mà các thuộc tính là các số định lượng. Bài toán này được giới thiệu đầu tiên trong [40] và được gọi là bài toán luật kết hợp lượng hoá (Quantitative Association Rules Problem). Các luật này có thể được phát biểu dạng như sau: “45% người trong độ tuổi [40-50], đã kết hôn có hai ô tô.” Nhằm tận dụng các thuật toán đã có đối với bài toán luật kết hợp boolean, [40] đưa ra cách giải quyết phân hoạch miền giá trị của các thuộc tính thành các khoảng và sau đó kết hợp các khoảng rời nhau để cho lời giải của bài toán. Thao tác này thực chất là chuyển bài toán luật kết hợp số về bài toán luật kết hợp boolean. Tuy nhiên, như trong [35] đã chỉ ra, rõ ràng việc sử dụng các biên rõ ràng giữa các phân hoạch của miền thuộc tính sẽ làm mất một số thông tin có thể thu được từ cơ sở dữ liệu đối với các giá trị nằm gần các biên này. Trong [35], đề nghị xem xét bài toán tìm các luật kết hợp dạng “Nếu X là A thì Y là B”, trong đó A và B là các tập mờ. Ví dụ, ta có các luật dạng “Một người trung niên thì thường có mức sống trung lưu.”. Trên thực tế, các thuộc tính số có thể quy về các thuộc tính mờ, ví dụ, độ tuổi [40-50] tương ứng với độ tuổi trung niên. Ngược lại, nếu coi các thuộc tính là tập mờ, với giá trị tương ứng trong một bản ghi biểu diễn độ thuộc của đối tượng vào tập mờ đó, khi đó các thuộc tính mờ có thể được coi như trường hợp riêng của thuộc tính lượng hoá. Thuộc tính boolean cũng có thể được coi là một trường hợp riêng của thuộc tính mờ. Việc sử dụng các tập mờ có ưu điểm thể hiện một cách mềm dẻo biến đổi giữa đối tượng thuộc hay không thuộc một tập nào đó so với phương pháp phân hoạch. Hơn nữa, việc sử dụng tập mờ tỏ ra đặc biệt có ưu thế đối với các bài toán có dữ liệu đầu vào là các biến ngôn ngữ. Bài toán tìm các luật kết hợp đối với các cơ sở dữ liệu mờ, nghĩa là cơ sở dữ liệu có các thuộc tính có miền giá trị là đoạn [0,1], trong [35] được gọi là bài toán luật kết hợp mờ. Trong thực tế, việc sử dụng các toán tử mờ có ngưỡng có thể có những ý nghĩa nhất định trong việc phân tích các dữ liệu. Lấy ví dụ, đối với các luật kết hợp mờ dạng “Những người giàu, nhiều tuổi thường thích đi du lịch”, việc sử dụng ngưỡng khi phân tích mức độ giàu cũng như mức độ nhiều tuổi là rất có ý nghĩa đối với những nhà quản lý hoạch định phương án tiếp thị kinh doanh của một công ty du lịch. Mô tả bài toán Tìm kiếm luật kết hợp mờ là tìm kiếm các luật kết hợp sử dụng tập mờ để mô tả dữ liệu đầu. Trong phần này, chúng tôi sẽ đưa ra các khái niệm cơ bản cho bài toán tìm luật kết hợp mờ. Thuộc tính và cơ sở dữ liệu Cho I là tập các thuộc tính I = {I1,…,In}, trong đó dom(Iv) là miền giá trị của thuộc tính Iv. Lấy ví dụ, trong cơ sở dữ liệu quản lý về các tính năng kỹ thuật của xe gắn máy, thông số về lượng xăng tiêu thụ trung bình trên 100km là một thuộc tính, với dom = [0,100]. Ta có một cơ sở dữ liệu D trên I là tập các bản ghi d. Với mọi bản ghi d D, ta có d[Iv] xác định giá trị iv dom(Iv) của thuộc tính Iv của d. Từ Xét I = {I1, I2, …, In} là tập các thuộc tính, giả sử mỗi một thuộc tính Iv có thể được mô tả bằng một tập các từ Lv = { ,,…,}. Lấy ví dụ, thông số về lượng xăng tiêu thụ trung bình trên 100km có thể được mô tả bằng tập từ {“thấp”, “trung bình”, “cao”}. Chú ý rằng, ở đây, các từ mô tả các thuộc tính khác nhau là khác nhau, mặc dù chúng có thể có cùng nhãn, ví dụ cùng là “thấp”, “trung bình” hay “cao”. Xét là một từ mô tả thuộc tính Iv của cơ sở dữ liệu. Khi đó, được biểu diễn bằng một hàm thuộc : dom(Iv) → [0,1] biểu diễn mức độ đúng đắn của việc sử dụng từ để mô tả giá trị iv dom(Iv). Lấy ví dụ hàm thuộc ứng với từ “thấp” trong mô tả thuộc tính lượng xăng tiêu thụ trung bình trên 100km của xe biểu diễn mức độ đúng đắn của việc sử dụng từ “thấp” khi mô tả một lượng xăng x nào đó, nghĩa là mức độ đúng đắn của mệnh đề “lượng xăng tiêu thụ x là thấp”. Ký hiệu Mv là tập tất cả các hàm thuộc biểu diễn các từ mô tả thuộc tính Iv. LI là tập tất cả các tập từ mô tả các thuộc tính của I, LI được gọi là mô tả của I. MI là tập tất cả các tập các hàm thuộc biểu diễn các từ trong mô tả LI của I, MI được gọi là biểu diễn của I ứng với LI. Mệnh đề Cho trước một cơ sở dữ liệu D trên tập thuộc tính I và các tập từ cũng như các hàm thuộc gắn với các thuộc tính này. Từ cơ sở dữ liệu này, bài toán tìm luật kết hợp mờ tìm cách rút ra các luật dạng: “Nếu X là A thì Y là B”. Trong phần này, chúng tôi sẽ xem xét biểu diễn hình thức của các mệnh đề dạng “X là A” hay “Y là B”. Định nghĩa 3.2.1. Cho I là tập thuộc tính, X = {, , …, } I là tập các thuộc tính, cho A là tập các từ mô tả các thuộc tính trong X, nghĩa là A = {, , …,}. A được gọi là mô tả của X, khi đó một mệnh đề trên tập thuộc tính I và tập từ LI (hay gọi tắt mệnh đề) “X là A”, có ký hiệu hình thức . Chú ý rằng ở đây, có tương ứng một một giữa A và X, theo nghĩa từ trong A là mô tả của thuộc tính trong X. Như trong [35] đã chỉ ra, chúng ta chỉ quan tâm tới những luật kết hợp có độ quan trọng và độ chắc chắn đủ lớn, sau đây, chúng ta sẽ tìm hiểu về các tiêu chuẩn đánh giá một luật kết hợp mờ. Định nghĩa 3.2.2[35]. Cho cơ sở dữ liệu D trên tập các thuộc tính I, là một mệnh đề trên I và tập từ LI, MI là biểu diễn của I ứng với LI. Xét d D là một bản ghi. Khi đó, độ ủng hộ của d cho ứng với MI được cho bởi: vote(d,X,A,MI) := (d[]).(d[])…(d[])) (3.2.1) Ý nghĩa của biểu thức trên biểu diễn giá trị đúng đắn của mệnh đề “ là và là và … và là ”. Trong trường hợp không gây nhầm lẫn có thể bỏ qua MI. Trong [35] cũng đề nghị rằng, trong công thức (3.2.1) bên cạnh toán tử nhân, cũng có thể sử dụng toán tử min. Từ đó, ta có thể thấy, trong (3.2.1), chúng ta có thể sử dụng một t-chuẩn trong lôgíc mờ để xác định độ ủng hộ, đặc biệt, ở đây, chúng tôi đề nghị sử dụng t-chuẩn có ngưỡng [9]: vote(d,X,A,MI) := ((d[]),(d[]),…,(d[])) Trong đó, ngưỡng αvk ứng với thuộc tính Iv và từ mô tả thuộc tính này. Việc sử dụng t-chuẩn có ngưỡng ở đây rất có ý nghĩa đối với một số bài toán thực tế. Lấy ví dụ, đối với thuộc tính lượng xăng tiêu thụ trung bình của xe máy, nếu độ thuộc của giá trị này vào từ “rất cao” là lớn, chúng ta nên và cần thiết sử dụng những xem xét khác với các trường hợp khác. Vấn đề sử dụng t-chuẩn có ngưỡng trong việc xác định độ ủng hộ của một bản ghi đối với một mệnh đề sẽ được mô tả rõ hơn ở phần sau. Định nghĩa 3.2.3 [35]. Khi đó độ hỗ trợ của trong D ứng với MI : supp(X,A,D,MI) := Trong trường hợp không gây nhầm lẫn, có thể bỏ qua D và MI. Bên cạnh khái niệm độ hỗ trợ, chúng ta cũng có thể sử dụng khái niệm độ quan trọng. Định nghĩa 3.2.4[35]. Độ quan trọng của trong D ứng với MI : sign(X,A,D,MI) := Trong trường hợp không gây nhầm lẫn, có thể bỏ qua D, MI. Trong bài toán tìm luật kết hợp mờ, chúng ta chỉ quan tâm tới những mệnh đề có độ hỗ trợ (độ quan trọng) là đủ lớn, nghĩa là vượt một ngưỡng cho trước nào đó. Nghĩa là, chúng tôi chỉ quan tâm tới những mệnh đề có supp(X,A,D,MI) ≥ σabs hay sign(X,A,D,MI) ≥ σrel, với σabs và σrel là các ngưỡng cho trước nào đó. Nếu một mệnh đề có độ hỗ trợ đủ lớn ta gọi mệnh đề đó là đáng kể. Định nghĩa 3.2.5. Tập các mệnh đề đáng kể trên D ứng với ngưỡng σ và MI được cho bởi: S(D,σ,MI) := {

Các file đính kèm theo tài liệu này:

  • docDAN085.doc