Luận án Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ - Cao Chính Nghĩa

MỤC LỤC . i

Danh mục các thuật ngữ.iii

Bảng các ký hiệu, từ viết tắt. iv

Danh sách bảng. vii

Danh sách hình vẽ.viii

MỞ ĐẦU. 1

CHƯƠNG 1. CÁC KIẾN THỨC CƠ SỞ. 9

1.1. Một số khái niệm về tập thô. 9

1.1.1. Hệ thông tin. 9

1.1.2. Các tập xấp xỉ. 10

1.1.3. Miền dương . 11

1.1.4. Bảng quyết định. 11

1.2. Một số khái niệm về tập thô mờ xác định trên bảng quyết định miền giá trị thực

. 11

1.2.1. Bảng quyết định miền giá trị thực . 12

1.2.2. Quan hệ tương đương mờ . 12

1.2.3. Ma trận tương đương mờ . 13

1.2.4. Phân hoạch mờ và lớp tương đương mờ. 14

1.2.5. Các tập xấp xỉ mờ. 17

1.2.6. Miền dương mờ . 17

1.3. Một số khái niệm về tập thô mờ xác định trên bảng quyết định mờ . 18

1.3.1. Bảng quyết định mờ. 18

1.3.2. Phân hoạch mờ và lớp tương đương mờ. 20

1.3.3. Các tập xấp xỉ mờ. 21

1.3.4. Miền dương mờ . 21

1.4. Rút gọn thuộc tính trong bảng quyết định. 23

1.4.1. Tổng quan về rút gọn thuộc tính . 23

1.4.2. Tổng quan về rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập

thô . 26

1.4.3. Định hướng nghiên cứu của luận án. 28

1.5. Kết luận chương 1. 29ii

CHƯƠNG 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ

TRỊ THỰC SỬ DỤNG MIỀN DƯƠNG MỜ VÀ KHOẢNG CÁCH JACCARD MỜ. 30

2.1. Đặt vấn đề . 30

2.2. Rút gọn thuộc tính sử dụng miền dương mờ. 31

2.2.1. Phương pháp rút gọn thuộc tính sử dụng miền dương mờ . 32

2.2.2. Thử nghiệm và đánh giá kết quả . 37

2.3. Rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ . 44

2.3.1. Khoảng cách Jaccard mờ và các tính chất . 44

2.3.2. Phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ . 52

2.3.3. Thử nghiệm và đánh giá kết quả . 56

2.4. Kết luận chương 2. 61

CHƯƠNG 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ

TRỊ THỰC SỬ DỤNG KHOẢNG CÁCH PHÂN HOẠCH MỜ. 63

3.1. Đặt vấn đề . 63

3.2. Khoảng cách phân hoạch mờ và các tính chất . 64

3.3. Phương pháp rút gọn thuộc tính sử dụng khoảng cách phân hoạch mờ . 70

3.4. Thử nghiệm và đánh giá kết quả . 77

3.5. Kết luận chương 3. 82

CHƯƠNG 4. RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT TRÊN BẢNG QUYẾT

ĐỊNH MỜ . 84

4.1. Đặt vấn đề . 84

4.2. Phương pháp rút gọn thuộc tính của bảng quyết định mờ . 87

4.3. Phương pháp sinh luật quyết định của bảng quyết định mờ . 91

4.3.1. Luật quyết định mờ. 92

4.3.2. Sinh luật quyết định từ bảng quyết định mờ . 93

4.3.3. Thử nghiệm và đánh giá kết quả . 105

4.4. Kết luận chương 4. 110

KẾT LUẬN . 112

Danh mục các công trình của tác giả . 114

TÀI LIỆU THAM KHẢO. 115

137 trang | Chia sẻ: trungkhoi17 | Lượt xem: 583 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ - Cao Chính Nghĩa, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

đồng thời      , ,J A B J A C và      , ,J B C J A C . Từ (2.12) ta có:              , 1 , AB A A B B J A B V V V J A B    (2.13) Ta phải chứng minh :    ( )( ) 0B A B CV V V V   hay         0B B B C A B ACV V V V           1 1 1 1 min( , ) min( , ) min( , ) min( , ) 0 0 n n n n i i i i i i i i i i i i b b b c a b a c B B C A B A C                      (thỏa mãn theo tính chất 3 của bổ đề 2.2 là điều phải chứng minh). Kết hợp với (2.12) ta có:                                    , , , 0 1 , 1 , 1 , BB BB CC AA BB AA CC J B C J A B J A C V V V V V V V J B C J A B J A C                                                     , , 1 0 1 , 1 , , , , , 1 , 1 , 1 , 1 , BB A A C C J A B J B C V J A B J B C J A B J A C J B C J A C V V J A B J A C J B C J A C                                 (2.14) Rõ ràng    A A A BV V , sử dụng (2.13) thu được              , 1 , AA AA BB J A B V V V J A B    hay       ,A A ABV J A B V (2.15) Từ giả thiết      , , 0J A B J A C  ta có             , , 0 1 , 1 , J A B J A C J A B J A C     . Do đó từ (2.15) ta có 49                               , , , ,, 1 , 1 , 1 , 1 , A A B B J A B J A C J A B J A C V J A B V J A B J A C J A B J A C                     (2.16) Tương tự:                               , , , ,, 1 , 1 , 1 , 1 , CC B B J B C J A C J B C J A C V J B C V J B C J A C J B C J A C                     (2.17) Từ (2.14), (2.16), (2.17) ta có:                               , , , ,1 , 1 , 1 , 1 , 1 , B B B B J A B J B C J A B J A C V J A B V J A B J B C J A B J A C                                      , ,, 1 , 1 , B B J B C J A C J B C V J B C J A C          (2.18) Nếu   0B BV  thì hiển nhiên (2.11) thỏa mãn. Giả sử   0B BV  . Khi đó, (2.18) tương đương với:                               2 2 , , , , , , 1 , 1 , 1 , 1 , J A B J A B J B C J B C J A B J B C J A C J A B J B C J A C                      , , 1 ,J A B J B C J A C    . Do đó, bất đẳng thức (2.11) được chứng minh. Tiếp theo, luận án xây dựng khoảng cách Jaccard mờ giữa hai phân hoạch dựa trên ma trận tương đương mờ, áp dụng rút gọn thuộc tính của bảng quyết định miền giá trị thực. Cho bảng quyết định  ,DT U C D  với  1 ,..., nU u u và P C , giả sử  i Pu là một lớp tương đương chứa iu trong phân hoạch /U P . Khi đó, khoảng cách giữa tập thuộc tính C và C D trong công trình [4] được xây dựng dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn như sau: 50          1 1, 1 U i iC C D J i i iC C D u u d C C D U u u          (2.19) Sử dụng các phép toán trong [4] biến đổi độ đo khoảng cách trong công thức (2.19) tương đương công thức (2.20) như sau:                    1 1 1 1, 1 1 ( ) U U i i i i iC C D C D J i ii i i iC C D C u u u u u d C C D U Uu u u u              (2.20) Độ đo khoảng cách trong công thức (2.20) đặc trưng cho độ “gần nhau” giữa tập thuộc tính điều kiện C và tập thuộc tính quyết định D và được tác giả trong công trình [4] sử dụng để xây dựng phương pháp rút gọn thuộc tính trong bảng quyết định. Sử dụng độ đo khoảng cách trong công thức (2.20) kết hợp với công thức (2.9), luận án xây dựng độ đo khoảng cách Jaccard mờ giữa hai phân hoạch mờ dựa trên ma trận tương đương mờ theo hướng tiếp cận tập thô mờ. Định nghĩa 2.4. Cho bảng quyết định mờ  ,DT U C D  , giả sử hai quan hệ tương đương mờ CR và DR xác định trên hai tập thuộc tính C và D tương ứng. Gọi Cijr là các phần tử của ma trận tương đương mờ  CM R và Dijr là các phần tử của ma trận tương đương mờ  DM R với 1 ,i j n  . Dựa trên công thức (2.20) và (2.9), luận án xây dựng độ đo khoảng cách Jaccard mờ giữa hai tập thuộc tính C và C D dựa trên ma trận quan hệ tương đương mờ như sau:     1 1 1 min , 1, 1 n C D ij ijU j FJ n Ci ij j r r d C C D U r          (2.21) Mệnh đề 2.1. Cho bảng quyết định mờ  ,DT U C D  và CR , DR là hai quan hệ tương đương mờ xác định trên tập thuộc tính C, D. Khi đó ta có: 51 1)  0 , 1FJd C C D   (2.22) 2)  , 0FJd C C D  khi  C DR R (2.23) Chứng minh: 1) Theo công thức tính khoảng cách mờ (2.21), dễ dàng nhận thấy  0 , 1FJd C C D   . 2) Theo tính chất của quan hệ tương đương mờ [40], [72] ta có:  C DR R      , ,C DR x y R x y   , [1..n]C Dij ijr r i j   . Thay vào công thức (2.21) ta có  , 0FJd C C D  . Mệnh đề 2.2. Cho bảng quyết định mờ  ,DT U C D  và B C , khi đó ta có    , ,FJ FJd B B D d C C D   . Chứng minh: Theo [40], [72] ta có B C  / /U C U B (phân hoạch /U C mịn hơn phân hoạch /U B ) khi và chỉ khi [ ] [ ]C Bu u . Theo tính chất của quan hệ tương đương mờ [40], [72] và công thức (2.21) ta có [ ] [ ]C Bu u   ( ) ( )[ ] [ ]i iR C R Bu u  , 1 , 1 n n C B ij ij i j i j r r      , 1 , 1 n n C B ij ij i j i j r r     . Do , [0,1]C Bij ijr r  nên D D ij ij C B ij ij r r r r   (1 ) (1 ) D D ij ij C B ij ij r r r r    . Thay vào công thức tính khoảng cách mờ (2.21) có ( , ) ( , )FJ F Jd B B D d C C D   . Khoảng cách Jaccard giữa hai phân hoạch mờ theo công thức (2.21) được gọi là khoảng cách Jaccard mờ dựa trên ma trận tương đương mờ. 52 2.3.2. Phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ Trong phần này, luận án trình bày phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng độ đo khoảng cách Jaccard mờ dựa trên ma trận quan hệ tương đương mờ ở công thức (2.21). Cho bảng quyết định miền giá trị thực  ,DT U C D  với  1 2, ,..., nU x x x . Trên tập thuộc tính điều kiện luận án sử dụng một quan hệ tương đương mờ xác định trên miền giá trị thuộc tính như ở công thức (1.11). Trên tập thuộc tính quyết định luận án sử dụng quan hệ tương đương  IND D với ma trận tương đương    ij n nM IND D d     , 1ijd  nếu  j i Dx x và 0ijd  nếu  j i Dx x . Nói cách khác, lớp tương đương  i Dx có thể xem là lớp đương đương mờ, ký hiệu là  i Dx , với hàm thuộc     1i D jx x  nếu  j i Dx x và     0i D jx x  nếu  j i Dx x . Khi đó, ký hiệu phân hoạch mờ          11 ,..., n i nD D Di D x x x    . Tương tự phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard trong lý thuyết tập thô truyền thống, phương pháp đề xuất bao gồm các bước: Định nghĩa tập rút gọn dựa trên khoảng cách Jaccard mờ, định nghĩa độ quan trọng của thuộc tính và xây dựng thuật toán heuristic tìm một tập rút gọn không dư thừa dựa trên tiêu chuẩn độ quan trọng của thuộc tính. Định nghĩa 2.5. Cho bảng quyết định có miền giá trị thực  ,DT U C D  và tập thuộc tính P C . Nếu 1)    , ,FJ FJd P P D d C C D   2)     , ( , ) ( , )FJ FJp P d P p P p D d C C D       (2.24) (2.25) thì P là một tập rút gọn của C dựa trên khoảng cách Jaccard mờ. 53 Định nghĩa 2.6. Cho bảng quyết định  ,DT U C D  , P C và b C P  . Độ quan trọng của thuộc tính b đối với P được định nghĩa bởi         , ,P FJ FJSIG b d P P D d P b P b D      (2.26) Độ quan trọng của thuộc tính đặc trưng cho sự phụ thuộc của thuộc tính điều kiện vào thuộc tính quyết định và được sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật toán heuristic tìm tập rút gọn sau đây. Thuật toán FJ_DBAR (Fuzzy Jaccard Distance based Attribute Reduction): Thuật toán heuristic tìm một tập rút gọn sử dụng khoảng cách Jaccard mờ. Đầu vào: Bảng quyết định miền giá trị thực  ,DT U C D  , quan hệ tương đương mờ R . Đầu ra: Một tập rút gọn P . // Khởi tạo tập rút gọn bằng rỗng 1. P; ( ) 0PM R  ;  , 1FJd D   ; 2. Tính ( )CM R , M (IND(D)) ; 3. Tính  ,FJd C C D ; // Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất 4. While    , ,FJ FJd P P D d C C D   Do 5. Begin 6. For each a C P  Do 7. Begin 8. Tính     ,FJd P a P a D   ; 9. Tính         , ,P FJ FJSIG a d P P D d P a P a D      ; // Tính độ quan trọng của từng thuộc tính điều kiện còn lại với tập thuộc tính quyết định 10. End; 54 11. Chọn ma C P  sao cho     P m Pa C PSIG a Max SIG a  ; // Chọn thuộc tính có độ quan trọng lớn nhất theo khoảng cách Jaccard mờ kết nạp vào tập rút gọn 12.  mP P a  ; 13. Tính  ,FJd P P D ; 14. End; //Loại bỏ các thuộc tính dư thừa trong P nếu có 15. For each a P 16. Begin 17. Tính      ,FJd P a P a D   ; 18. If        , ,FJ FJd P a P a D d C C D     then  P P a  ; // Loại bỏ những thuộc tính không cần thiết đến điều kiện xây dựng tập rút gọn 19. End; 20. Return P ; Ví dụ 2.3. Cho bảng quyết định miền giá trị thực  ,DT U C D  (Bảng 2.1) với  1 2 3 4 5 6, , , , ,U u u u u u u ,  1 2 3 4 5 6, , , , ,C c c c c c c . Bảng 2.1. Bảng quyết định miền giá trị thực U 1c 2c 3c 4c 5c 6c D 1u 0.8 0.2 0.6 0.4 1 0 0 2u 0.8 0.2 0 0.6 0.2 0.8 1 3u 0.6 0.4 0.8 0.2 0.6 0.4 0 4u 0 0.4 0.6 0.4 0 1 1 5u 0 0.6 0.6 0.4 0 1 1 6u 0 0.6 0 1 0 1 0 55 Áp dụng các bước của thuật toán FJ_DBAR, sử dụng quan hệ tương đương mờ theo công thức (1.11). P, ( ) 0PM R  ,  , 1FJd D   , tính các ma trận tương đương mờ         1 2 3 4 5 6( ), ( ), ( ), ( ), ( ), ( ), ( ), ( )c c c c c c CM R M R M R M R M R M R M R M IND D .  1 1 1 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 1 ( ) 1 cM R                    ,  2 1 1 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0 0 0 1 1 ( 0 0 0 1 1 ) 0 cRM                      3 1 0 0 1 1 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 1 0 0 1 0 0 0 ( ) 1 cM R                    ,  4 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 1 0 ( 0 0 0 0 1 ) 0 cRM                      5 1 0 0 0 0 0 0 1 0 0.2 0.2 0.2 0 0 1 0 0 0 0 0.2 0 1 1 1 0 0.2 0 1 1 1 0 0.2 0 1 1 1 ( )cRM                     ,  6 1 0 0 0 0 0 0 1 0 0.2 0.2 0.2 0 0 1 0 0 0 0 0.2 0 1 1 1 0 0.2 0 1 1 1 0 0.2 0 1 1 1 ( )cRM                      1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 ( ) ,CM R                      1 0 1 0 0 1 0 1 0 1 1 0 1 0 1 0 0 1 0 1 0 1 1 0 0 1 0 1 1 0 1 0 1 0 0 1 ( )M IND D                    . Tính:  , 0,FJd C C D   1 1{ },{ } { } 0.38889;FJd c c D  56  2 2{ },{ } 0.5;{ }FJd c c D   3 3{ },{ } { } 0.389;FJd c c D   4 4{ },{ } { } 0.222;FJd c c D   5 5{ },{ } { } 0.23958;FJd c c D   6 6{ },{ } { } 0.23958.FJd c c D   1 0.611 1} ;{ 1PSIG c   2} 0 5{ .PSIG c  ;  3{ } 0.611PSIG c  ;  4{ } 0.778PSIG c  ;  5{ } 0.76042PSIG c  ;  6{ } 0.76042PSIG c  . Thuộc tính  4c được chọn và  4P c . Tính tương tự, ta có:  4 1 4 1{ , } 0,{ , } { }FJd c c c c D  , kiểm tra    4 1 4 1{ , },{ , } , 0FJ FJd c c c c D d C C D    , thuật toán dừng và kết luận  4 1,P c c . Sau khi kiểm tra tính dư thừa, kết luận  4 1,P c c là tập rút gọn của DT . Thuật toán FJ_DBAR tìm được một tập rút gọn và kiểm tra tính dư thừa của tập rút gọn. Độ phức tạp tính toán ma trận tương đương mờ của một thuộc tính là 2( )O U với U số lượng đối tượng, C là số lượng thuộc tính điều kiện; độ phức tạp tính toán của ( )CM R là 2( )O C U . Thuật toán có hai vòng lặp lồng nhau theo số lượng của thuộc tính điều kiện. Do vậy, độ phức tạp tính toán của FJ_DBAR là 3 2( )O C U . 2.3.3. Thử nghiệm và đánh giá kết quả Luận án lựa chọn thuật toán heuristic tìm một tập rút gọn dựa trên lượng thông tin tăng thêm GAIN_RATIO_AS_FRS [24] (gọi là GRAF) khi thêm một thuộc tính vào tập rút gọn để so sánh với thuật toán FJ_DBAR về thời gian thực hiện, tập rút gọn và độ chính xác phân lớp dữ liệu. Thuật toán GRAF tính toán độ quan trọng của thuộc tính dựa trên entropy mờ. Để tiến hành thực nghiệm, luận án thực hiện các công việc sau: 1) Cài đặt thuật toán GRAF [24] và thuật toán FJ_DBAR bởi ngôn ngữ C#. Cả hai thuật toán đều sử dụng quan hệ tương đương mờ định nghĩa ở 57 công thức (1.11) ở các thuộc tính điều kiện, trên tập thuộc tính quyết định sử dụng quan hệ tương đương mờ như ở công thức (1.12). 2) Trên máy tính PC với cấu hình: Bộ xử lý Pentium Core i3, 2.4 GHz CPU, 2 GB RAM, sử dụng hệ điều hành Windows 10, chạy thử nghiệm các thuật toán trên sáu bộ dữ liệu lấy từ kho dữ liệu UCI [99] như ở Bảng 2.2. Với mỗi bộ dữ liệu, ký hiệu U là số lượng các đối tượng, R là số lượng thuộc tính của tập rút gọn, C là số lượng các thuộc tính điều kiện, t là thời gian thực hiện của thuật toán (tính bằng giây), các thuộc tính điều kiện ký hiệu là 1, 2, ..., C . Bảng 2.2. Bộ dữ liệu thử nghiệm TT Bộ dữ liệu Số thuộc tính điều kiện Số đối tượng Số lớp 1 Fisher_Order 35 47 4 2 Iris 4 150 3 3 Glass 10 214 7 4 Sonar 60 208 2 5 Sensor_Readings_24 24 5456 4 6 EEG_Eye_State 14 14980 2 Thời gian thực hiện và tập rút gọn thu được của hai thuật toán được miêu tả trong Bảng 2.6 và Bảng 2.7. Bảng 2.6. Kết quả thực nghiệm của FJ_DBAR và GRAF TT Tập dữ liệu |U| |C| FJ_DBAR GRAF |R| t |R| t 1 Fisher_Order 47 35 18 0.095 21 0.107 2 Iris 150 4 1 0.002 2 0.003 3 Glass 214 10 6 0.46 8 0.48 4 Sonar 208 60 26 2.053 23 1.980 58 5 Sensor_Readings_24 5456 24 14 2.095 12 1.986 6 EEG_Eye_State 14980 14 7 2.580 7 2.790 Kết quả thực nghiệm ở Bảng 2.6 cho thấy số lượng thuộc tính của tập rút gọn thu được của FJ_DBAR và GRAF phụ thuộc vào từng bộ dữ liệu cụ thể. Thuật toán FJ_DBAR tìm được tập rút gọn có số lượng thuộc tính nhỏ hơn GRAF tại 3/6 bộ dữ liệu thử nghiệm (Fisher_Order, Iris, Glass), bằng nhau ở tại 1/6 bộ dữ liệu thử nghiệm (EEG_Eye_State), lớn hơn GRAF tại 2/6 bộ dữ liệu (Sonar, Sensor_Readings_24). Thời gian thực hiện của FJ_DBAR nhanh hơn GRAF tại 4/6 bộ dữ liệu (Fisher_Order, Iris, Glass, EEG_Eye_State). Trên một số bộ dữ liệu thử nghiệm, thuật toán nào tìm được tập rút gọn có số lượng thuộc tính ít hơn thì có thời gian thực hiện nhanh hơn. Tại bộ dữ liệu (EEG_Eye_State) tìm được tập rút gọn giống nhau theo hai thuật toán thì FJ_DBAR có thời gian thực hiện nhanh hơn, điều này phù hợp với lý thuyết bởi có cùng độ phức tạp tính là 3 2( )O C U nhưng công thức tính độ quan trọng của thuộc tính của GRAF [24] tiếp cận theo hướng entropy mờ có sử dụng biểu thức Logarit sẽ mất thời gian tính toán hơn so với FJ_DBAR. Biểu đồ so sánh thời gian thực hiện của FJ_DBAR và GRAF được thể hiện như Hình 2.3 Hình 2.3. Thời gian thực hiện của FJ_DBAR và GRAF 0 0.5 1 1.5 2 2.5 3 FJ_DBAR GRAF 59 Các tập rút gọn cụ thể của FJ_DBAR và GRAF trên sáu bộ số liệu thực nghiệm thể hiện ở Bảng 2.7. Bảng 2.7. Tập rút gọn thu được bởi FJ_DBAR và GRAF TT Bộ dữ liệu FJ_DBAR GRAF 1 Fisher_Order {11,13,14,15,16,17,18,19,29,3 0,31,32,33,34,28,24,12,2} {22,11,13,14,15,16,17,18,19 ,29,30,31,32,33,34,9,20,5,2 5,10,3} 2 Iris {3} {3,4} 3 Glass {2,1,3,4,5,10} {2,1,3,4,6,10,8,7} 4 Sonar {21,36,27,12,31,54,24,22,33,2 9,57,48,39,34,6,46,20,16,7,11, 26,50,8,10,56,58} {21,36,30,12,27,54,41,22,32 ,57,39,16,46,34,6,11,10,31, 8,26,56,48,58} 5 Sensor_Readings_24 {4,3,7,2,15,5,10,23,8,6,14,11, 1,9} {3,7,12,15,5,21,24,8,14,17,1 ,16} 6 EEG_Eye_State {8,11,2,3,12,10,5} {8,11,2,3,12,10,5} Tiếp theo, luận án thực hiện việc so sánh độ chính xác phân lớp dữ liệu của tập rút gọn thu được bởi FJ_DBAR và GRAF. Độ chính xác phân lớp dữ liệu của các tập rút gọn được đánh giá bằng thuật toán C4.5 trong công cụ J48 của WEKA [100]. Để thực hiện việc đánh giá độ chính xác phân lớp dữ liệu, luận án chia tập dữ liệu thử nghiệm thành mười phần bằng nhau; chín phần mười tập dữ liệu được dùng làm dữ liệu huấn luyện, một phần mười dùng làm dữ liệu kiểm tra. Kết quả thực nghiệm được thể hiện ở Bảng 2.8. Bảng 2.8. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF TT Tập dữ liệu |U| |C| FJ_DBAR GRAF |R| Độ chính xác phân lớp (%) |R| Độ chính xác phân lớp (%) 1 Fisher_Order 47 35 18 78.72 21 76.59 60 2 Iris 150 4 1 94.00 2 94.00 3 Glass 214 10 6 80.15 8 81.70 4 Sonar 208 60 26 71.63 23 70.67 5 Sensor_Readings_24 5456 24 14 94.84 12 91.25 6 EEG_Eye_State 14980 14 7 81.25 7 81.25 Kết quả thực nghiệm trên sáu bộ dữ liệu ở Bảng 2.8 chỉ ra rằng độ chính xác phân lớp dữ liệu theo thuật toán C4.5 của FJ_DBAR cao hơn GRAF tại 3/6 bộ dữ liệu (Fisher_Order, Sonar, Sensor_Readings_24), bằng nhau tại 2/6 bộ dữ liệu (Iris, EEG_Eye_State), thấp hơn tại 1/6 bộ dữ liệu (Glass). Do vậy, luận án kết luận FJ_DBAR có độ chính xác phân lớp cao hơn GRAF trên một số bộ dữ liệu thử nghiệm, với những bộ dữ liệu có tập rút gọn giống nhau thì độ chính xác phân lớp theo thuật toán C4.5 của hai thuật toán là như nhau. Độ chính xác phân lớp này phụ thuộc vào tập rút gọn thu được theo các phương pháp với những bộ dữ liệu cụ thể, không phụ thuộc vào số lượng thuộc tính của tập rút gọn. Có những bộ dữ liệu có số lượng thuộc tính của tập rút gọn giống nhau nhưng các thuộc tính cụ thể khác nhau thì độ chính xác phân lớp theo thuật toán C4.5 có thể cũng khác nhau. Ví dụ bộ Iris với tập rút gọn thu được theo thuật toán FJ_DBAR là thuộc tính {3} thì độ chính xác phân lớp là 94%, với tập rút gọn thu được theo thuật toán F_RSAR2 là thuộc tính {4} thì độ chính xác 94.67%. Ngoài ra, độ chính xác phân lớp của các tập rút gọn theo thuật toán C4.5 còn phụ thuộc vào tỷ lệ phân chia tập dữ liệu giữa phần huấn luyện và phần kiểm tra. Thông thường, các phương pháp hay lựa chọn chia tập dữ liệu thành mười phần hoặc ba phần bằng nhau; một phần sử dụng làm dữ liệu huấn luyện, các phần còn lại sử dụng làm dữ liệu kiểm tra. Biểu đồ so sánh độ chính xác phân lớp của FJ_DBAR và GRAF theo C4.5 được thể hiện như Hình 2.4. 61 Hình 2.4. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF Bằng thực nghiệm, luận án kết luận thuật toán toán FJ_DBAR có khả năng cho kết quả tốt hơn GRAF về thời gian thực hiện và độ chính xác phân lớp dữ liệu trên một số bộ dữ liệu thử nghiệm. 2.4. Kết luận chương 2 Một trong những mục tiêu của rút gọn thuộc tính trong bảng quyết định là nâng cao độ chính xác phân lớp của dữ liệu. Trên lớp bài toán rút gọn thuộc tính trong bảng quyết định miền giá trị thực, các nghiên cứu liên quan cho thấy các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ chính xác phân lớp cao hơn phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống [24], [39], [44], [47], [72], [80]. Chương 2 của luận án cải tiến phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng miền dương mờ trong công trình của Hu, Q., [38] để tìm một tập rút gọn không dư thừa thuộc tính, bảo toàn miền dương mờ dựa trên quan hệ tương đương mờ. Bên cạnh đó, phương pháp đề xuất cũng cải tiến công thức tính độ quan trọng của thuộc tính sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho tập rút gọn để giảm bớt thời gian tính toán độ quan trọng của thuộc tính. 78.72 94 80.15 71.63 94.84 81.25 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 100.00 FJ_DBAR GRAF 62 Đóng góp chính của Chương 2 là đề xuất phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng cách Jaccard mờ. Khoảng cách Jaccard mờ được xây dựng dựa trên khoảng cách Jaccard giữa hai tập hợp và chứng minh đầy đủ các tính chất của khoảng cách. Kết quả thử nghiệm trên một số bộ dữ liệu mẫu từ kho dữ liệu UCI [99] cho thấy, độ chính xác phân lớp của phương pháp sử dụng khoảng cách Jaccard mờ tốt hơn độ chính xác phân lớp của phương pháp sử dụng entropy mờ trên một số bộ dữ liệu thực nghiệm, thời gian thực hiện của phương pháp khoảng cách nhanh hơn entropy trên đa số bộ dữ liệu thử nghiệm. 63 CHƯƠNG 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG KHOẢNG CÁCH PHÂN HOẠCH MỜ Tiếp nối sự thành công của kỹ thuật sử dụng khoảng cách Jaccard mờ trong phần trước, Chương 3 của luận án đề xuất một độ đo khoảng cách giữa hai phân hoạch mờ, gọi là khoảng cách phân hoạch mờ. Dựa trên khoảng cách phân hoạch mờ đề xuất, chương này xây dựng phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị thực. Thử nghiệm trên một số bộ dữ liệu cho thấy, phương pháp đề xuất hiệu quả hơn phương pháp sử dụng entropy thông tin mờ và phương pháp sử dụng miền dương mờ theo tiêu chí đánh giá độ chính xác phân lớp dữ liệu và thời gian thực hiện của thuật toán. 3.1. Đặt vấn đề Chương 2 của luận án cho thấy sự hiệu quả của phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng cách Jaccard mờ. Thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu UCI [99] thấy rằng kỹ thuật sử dụng khoảng cách Jaccard mờ tỏ ra hiệu quả so với phương pháp sử dụng entropy mờ dựa trên các tiêu chí đánh giá về thời gian thực hiện và độ chính xác phân lớp dữ liệu. Với mục tiêu nghiên cứu các phương pháp hiệu quả để rút gọn thuộc tính của bảng quyết định miền giá trị thực, bổ sung làm phong phú thêm bộ sưu tập các phương pháp, nhằm đánh giá một cách khái quát hơn về nhóm phương pháp sử dụng khoảng cách mờ theo tiếp cận tập thô mờ. Chương 3 của luận án đề xuất độ đo khoảng cách giữa hai phân hoạch mờ và ứng dụng rút gọn thuộc tính của bảng quyết định miền giá trị thực. Thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI [99] chỉ ra rằng, phương pháp sử dụng khoảng cách phân hoạch mờ tỏ ra hiệu quả hơn phương pháp sử dụng pháp sử dụng entropy thông tin mờ [24], [38]-[40], [88], [89] và miền dương mờ [9], [38]-[40], [72] trên một số bộ dữ 64 liệu thử nghiệm theo tiêu chí đánh giá thời gian thực hiện thuật toán và độ chính xác phân lớp dữ liệu. Qua đó, khẳng định được sự thành công của phương pháp sử dụng khoảng cách mờ trong rút gọn thuộc tính của bảng quyết định miền giá trị thực, là sự tiếp nối của phương pháp sử dụng khoảng cách trong tập thô truyền thống. Các kết quả chính trong chương này được công bố trong công trình [CCN4]. 3.2. Khoảng cách phân hoạch mờ và các tính chất Trong hệ thông tin, mỗi tập thuộc tính sinh ra một tri thức về tập các đối tượng, trong đó mỗi phần tử của tri thức là một lớp tương đương, hay một khối. Khoảng cách cho phép đánh giá độ gần nhau (hay độ tương đương) giữa các tri thức, nghĩa là khoảng cách giữa hai tri thức càng nhỏ thì hai tri thức đó càng gần nhau, hay càng tương đương nhau và ngược lại. Như vậy, khi một khoảng cách nào đó được định nghĩa trên tập các tri thức thì cũng có nghĩa là một khoảng cách đã được xác lập trên tập các thuộc tính. Sử dụng khoảng cách để đánh giá sự khác nhau giữa các thuộc tính, phát hiện các thuộc tính quan trọng [38], [64], [69]-[71]. Nhờ đó, xây dựng thuật toán hiệu quả để giải quyết bài toán rút gọn thuộc tính trong lý thuyết tập thô mờ. Kế thừa sự thành công của kỹ thuật rút gọn thuộc tính sử dụng khoảng cách phân hoạch theo tiếp cận tập thô truyền thống [4], luận án xây dựng thuật toán heuristic để rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng khoảng cách phân hoạch mờ. Khoảng cách phân hoạch mờ giữa hai tập thuộc tính được xây dựng dựa trên khoảng cách mờ giữa hai tập mờ. Kết quả thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI [99] cho thấy, phương pháp đề xuất cải thiện độ chính xác phân lớp dữ liệu tốt hơn so với các công bố trước đây [72]. 65 Đầu tiên trong mục này luận án xây dựng một khoảng cách giữa hai tập mờ, gọi là khoảng cách mờ. Mệnh đề 3.1. Cho hai tập mờ  ,A B trên cùng tập đối tượng U. Khi đó       , 2NFd A B A B A B    (3.1) là một độ đo khoảng cách giữa A và B . Chứng minh: Để chứng minh  ( , )NFd A B là một độ đo khoảng cách mờ trên tập đối tượng U , nghĩa là mọi tập mờ   , ,A B C trên U thỏa mãn các điều kiện

Các file đính kèm theo tài liệu này:

luan_an_nghien_cuu_cac_phuong_phap_rut_gon_thuoc_tinh_va_sin.pdf