Tóm tắt Luận án Nghiên cứu phát triển một số thuật toán phân cụm bán giám sát sử dụng mạng nơron min-max mờ và ứng dụng

Thuật to n phân cụm b n gi m s t mờ SS-FMM

Mô hình GFMM (General Fuzzy Min-Max) và mô hình sửa đổi

RFMN có ưu điểm là sử dụng thêm các thông tin biết trước để giám sát quá

trình phân cụm, từ đó nâng cao chất lượng phân cụm. Nhưng cả GFMM và

RFMN đều có khả năng sinh ra các siêu hộp có những thuộc tính riêng mà

không được gán nhãn.

Lý do là khi GFMM và RFMN tạo ra các siêu hộp mới chứa mẫu

đầu tiên mà mẫu này lại không có nhãn, điều này có nghĩa là siêu hộp

mới không có nhãn. Siêu hộp này sẽ chờ mẫu có nhãn rơi vào để hiệu

chỉnh nhãn của siêu hộp theo nhãn của mẫu. Tuy nhiên, có thể vẫn còn

các siêu hộp không có nhãn không được hiệu chỉnh nhãn do không có

mẫu có nhãn rơi vào. Hình 2.1 là một ví dụ minh họa về trường hợp

GFMM và RFMN tạo ra các siêu hộp không có nhãn.

Siêu hộp U

Siêu hộp V

Hình 2.1. Các siêu hộp lỗi của GFMM và RFMN

Trong đó V là siêu hộp được tạo ra từ các mẫu có nhãn hoặc được

điều chỉnh nhãn bởi các mẫu có nhãn, U là siêu hộp được tạo ra từ các mẫu

không có nhãn mà không được điều chỉnh nhãn bởi các mẫu có nhãn.8

Thuật toán SS-FMM đề xuất khắc phục nhược điểm này của

GFMM và RFMN. SS-FMM ngăn không cho thuật toán tạo ra các siêu

hộp không có nhãn bằng cách sử dụng ngưỡng giới hạn β. Ngưỡng ban

đầu do người dùng xác định, nhưng thuật toán có khả năng tự xác định

lại ngưỡng sao cho phù hợp trong quá trình huấn luyện.

27 trang | Chia sẻ: trungkhoi17 | Lượt xem: 343 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Nghiên cứu phát triển một số thuật toán phân cụm bán giám sát sử dụng mạng nơron min-max mờ và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ết hợp với phân tích, thống kê, đánh giá số liệu thực nghiệm. 5. Đóng góp của luận n - Xây dựng thuật toán SS-FMM cải tiến phân cụm bán giám sát mờ dựa trên lan truyền nhãn. 3 - Đề xuất mô hình phân cụm bán giám sát mờ kết hợp FMNN và SS-FMM, thuật toán học tự xác định thông tin bổ trợ cho thuật toán phân cụm bán giám sát mờ. - Phát triển thuật toán phân cụm mờ có tính đến yếu tố phân bố dữ liệu. 6. Cấu trúc của luận n Ngoài phần phần mở đầu và kết luận, bố cục của luận án gồm ba chương: - Chương 1 trình bày nghiên cứu tổng quan của luận án, bao gồm các nội dung cơ bản về FMNN và các mở rộng của FMNN. Đặc điểm chung của các mở rộng, các hạn chế từ đó đưa ra các hướng nghiên cứu tiếp theo. Thông qua chương này, luận án đưa ra được cái nhìn tổng quan về bài toán nghiên cứu, các khái niệm và thuật toán cơ bản sử dụng trong nghiên cứu của luận án. - Chương 2 trình bày các đề xuất cải tiến về phương pháp học trong FMNN, bao gồm mô hình học bán giám sát cho phân cụm dữ liệu sử dụng thông tin bổ trợ là một phần mẫu trong tập dữ liệu huấn luyện được gán nhãn, sau đó lan truyền nhãn cho các mẫu dữ liệu không có nhãn. Mô hình phân cụm bán giám sát mờ kết hợp, thuật toán học tự xác định thông tin bổ trợ là nhãn của một phần mẫu trong tập dữ liệu huấn luyện. Và đây cũng chính là đầu vào cho thuật toán phân cụm bán giám sát mờ. Mô hình phân cụm dữ liệu trong mạng nơron min-max mờ có tính đến yếu tố phân bố dữ liệu. Tiếp theo trình bày kết quả thực nghiệm của các đề xuất trên các tập dữ liệu Benchmark và so sánh với một số phương thức liên quan. - Chương 3 trình bày mô hình ứng dụng FMNN với kết xuất luật quyết định if...then mờ trong thiết kế hệ hỗ trợ chẩn đoán bệnh gan từ dữ liệu là số liệu các kết quả xét nghiệm men gan của bệnh nhân. Cuối cùng, kết luận nêu những đóng góp, hướng phát triển, những vấn đề quan tâm và các công trình đã được công bố của luận án. 4 Chư ng 1: Tổng quan về mạng n ron min-max mờ 1.1. C bản về mạng n ron min-max mờ * Hàm thuộc siêu hộp Hàm xác định độ thuộc bj(A,Bj) đo mức độ thuộc của mẫu A tương ứng với siêu hộp Bj.           1 1 , max 0,1 max 0, min 1, 2 + max 0,1 max 0, min 1, n j j i ji i ji i b A B a w n v a           (1.2)       1 1 , 1 , , n j j i ji ji i i b A B f a w f v a n             (1.3) * Cấu trúc mạng nơron min-max mờ FMNN sử dụng cấu trúc mạng nơron truyền thẳng, cấu trúc hai lớp (Hình 1.4) với học không có giám sát và cấu trúc ba lớp (Hình 1.5) cho học có giám sát. Hình 1.4. Mô hình mạng nơron 2 lớp Hình 1.5. Mô hình mạng nơron 3 lớp * Kiểm tra và điều chỉnh chồng lấn giữa các siêu hộp Thuật toán học của FMNN nhằm mục tiêu tạo và điều chỉnh các siêu hộp trong không gian n-chiều. Nếu quá trình mở rộng tạo ra sự chồng lấn giữa các siêu hộp thì thực hiện quá trình co lại để khử chồng lấn. Có chồng lấn giữa Bj và Bk nếu xảy ra một trong bốn trường hợp sau: - Trường hợp 1: max của Bj chồng lấn với min của Bk - Trường hợp 2: min của Bj chồng lấn với max của Bk - Trường hợp 3: Bk bị co lại trong Bj - Trường hợp : Bj bị co lại trong Bk 5 Nếu Bj và Bk có chồng lấn, thực hiện co lại các siêu hộp trên chiều bị chồng lấn tương ứng để loại bỏ chồng lấn: - Trường hợp 1. Nếu ji ki ji kiv v w w   thì:   / 2new old oldki ki jiv v w    / 2new old oldki ki jiw v w  - Trường hợp 2. Nếu ki ji ki jiv v w w   thì:   / 2new old oldji ji kiv v w    / 2new old oldki ji kiw v w  - Trường hợp 3. Nếu ji ki ki jiv v w w   , xét các trường hợp sau: + Nếu ( )ki ji ji kiw v w v   , thì: new old ji kiv w + Nếu ( )ki ji ji kiw v w v   , thì: new old ji kiw v - Trường hợp 4. Nếu ki ji ji kiv v w w   , xét các trường hợp sau: + Nếu ( )ki ji ji kiw v w v   , thì: new old ki jiw v + Nếu ( )ki ji ji kiw v w v   , thì: new old ki jiv w * Thuật toán học trong mạng nơron min max mờ Thuật toán học trong mạng nơron min-max mờ chỉ bao gồm việc tạo và điều chỉnh các siêu hộp trong không gian mẫu. Thuật toán học trong mạng nơron min max mờ gồm 3 bước: tạo và mở rộng siêu hộp, kiểm tra chồng lấn, điều chỉnh chồng lấn. Mỗi bước được lặp lại đối với tất cả các mẫu trong tập dữ liệu. 1.2. Một số nghiên cứu nâng cao chất lượng của FMNN * Điều chỉnh giới hạn kích thước siêu hộp Để khắc phục hiện tượng vượt quá giới hạn kích thước siêu hộp khi huấn luyện mạng do phương pháp tính trung bình, D. Ma đề xuất giải pháp thay thế hàm giới hạn kích thước được so sánh trên tất cả các chiều tính theo công thức (1.24) bằng công thức (1.29):          , 1 1 max , min , , j n ji i ji iA B i w a v a n (1.24)       , 1,...,n , ,h j ji hi ji hiA B i max w a min v a    (1.29) * Sửa đổi cấu trúc FMNN quản lý khu vực chồng lấn Mô hình FMCN (Fuzzy Min-max neural network classifier with Compensatory Neurons) và DCFMN (Data-Core-Based Fuzzy Min– Max Neural Network) khắc phục cho các vấn đề gây ra bởi việc co lại 6 các siêu hộp là tạo ra các siêu hộp bù. Thay vì điều chỉnh co lại các siêu hộp, FMCN và DCFMN xử lý khu vực chồng lấn bằng cách sử dụng các siêu hộp quản lý vùng chồng lấn riêng biệt. * Cải tiến phương pháp học trong FMNN Mô hình bán giám sát GFMM (General Fuzzy Min-Max) và RFMN (Reflex Fuzzy Min-max Neural network) sử dụng các thông tin bổ trợ là các nhãn đi kèm với một số mẫu đầu vào. GFMM và RFMN đã sử dụng các thông tin biết trước để giám sát và hướng dẫn phân cụm. 1.5. Kết luận chư ng 1 Trong chương 1 NCS đã trình bày về nghiên cứu tổng quan về FMNN và xu hướng phát triển của FMNN, tổng hợp và so sánh các nghiên cứu điển hình về cải tiến cấu trúc, thuật toán học của FMNN. Các chương tiếp theo sẽ trình bày các đề xuất về một số vấn đề còn tồn tại trong quá trình phát triển của FMNN và ứng dụng FMNN hỗ trợ chẩn đoán Y tế, gồm: 1) Xây dựng thuật toán cải tiến phân cụm bán giám sát mờ dựa trên lan truyền nhãn. Thông tin bổ trợ là một tỷ lệ phần trăm nhỏ của các mẫu được dán nhãn. 2) Đề xuất mô hình phân cụm bán giám sát mờ kết hợp, thuật toán học tự xác định thông tin bổ trợ là nhãn của một phần mẫu cho thuật toán phân cụm bán giám sát mờ. 3) Phát triển thuật toán phân cụm mờ có tính đến yếu tố phân bố dữ liệu. 4) Cài đặt thực nghiệm các thuật toán cải tiến dựa trên dữ liệu thu thập và phân tích dữ liệu là các kết quả xét nghiệm. Ứng dụng FMNN với kết xuất luật quyết định ifthen mờ trong chẩn đoán Y tế. Chư ng 2: Ph t triển thuật to n phân cụm sử dụng mạng n ron min-max mờ Chương này trình bày ba thuật toán cải tiến phương pháp học và các thực nghiệm đánh giá thuật toán, bao gồm: 7 - Đề xuất cải tiến về phương pháp học bán giám sát SS-FMM, kết quả được công bố tại công trình 3. - Đề xuất mô hình phân cụm bán giám sát mờ kết hợp FMNN và SS-FMM, kết quả được công bố tại công trình 5. - Đề xuất cải tiến thuật toán phân cụm có tính đến yếu tố phân bố dữ liệu. Ngoài ra, thuật toán học sử dụng tập các luật bổ sung trong quá trình huấn luyện. Kết quả được công bố tại công trình 2 và công trình 4. 2.1. Thuật to n phân cụm b n gi m s t mờ SS-FMM Mô hình GFMM (General Fuzzy Min-Max) và mô hình sửa đổi RFMN có ưu điểm là sử dụng thêm các thông tin biết trước để giám sát quá trình phân cụm, từ đó nâng cao chất lượng phân cụm. Nhưng cả GFMM và RFMN đều có khả năng sinh ra các siêu hộp có những thuộc tính riêng mà không được gán nhãn. Lý do là khi GFMM và RFMN tạo ra các siêu hộp mới chứa mẫu đầu tiên mà mẫu này lại không có nhãn, điều này có nghĩa là siêu hộp mới không có nhãn. Siêu hộp này sẽ chờ mẫu có nhãn rơi vào để hiệu chỉnh nhãn của siêu hộp theo nhãn của mẫu. Tuy nhiên, có thể vẫn còn các siêu hộp không có nhãn không được hiệu chỉnh nhãn do không có mẫu có nhãn rơi vào. Hình 2.1 là một ví dụ minh họa về trường hợp GFMM và RFMN tạo ra các siêu hộp không có nhãn. Siêu hộp U Siêu hộp V Hình 2.1. Các siêu hộp lỗi của GFMM và RFMN Trong đó V là siêu hộp được tạo ra từ các mẫu có nhãn hoặc được điều chỉnh nhãn bởi các mẫu có nhãn, U là siêu hộp được tạo ra từ các mẫu không có nhãn mà không được điều chỉnh nhãn bởi các mẫu có nhãn. 8 Thuật toán SS-FMM đề xuất khắc phục nhược điểm này của GFMM và RFMN. SS-FMM ngăn không cho thuật toán tạo ra các siêu hộp không có nhãn bằng cách sử dụng ngưỡng giới hạn β. Ngưỡng ban đầu do người dùng xác định, nhưng thuật toán có khả năng tự xác định lại ngưỡng sao cho phù hợp trong quá trình huấn luyện. Sơ đồ thuật toán học được mô tả trên Hình 2.2. Dữ liệu vào {Ah ,dh}D đ 1old oldS S  Tạo Hnew, l l new jH B   new B B H   \ hD D A Tạo Hnew, l new hH d ,   new B B H đ Có chồng lấn siêu hộp? Co lại siêu hộp s đ   D ? s   , 1,...,  h jA Bmax E j q Kết thúc Ah có thuộc vào BjB? dh = 0? đ l h jd B s s s l h jd B đ Bắt đầu Có BjB nào chứa được Ah? Mở rộng Bj;    \ h D D A dh = 0 ? s dh ≠ 0? đ s đ s đ Vào: D,  , h < m? đ s  \ hD D A S new = |D|; S old = 0; m = |D|; h = 1 1h h  S new = S old ? .   đ s Tính C theo (1.7) Ra: B, C Hình 2.2. Sơ đồ thuật toán học SS-FMM Khi tạo mới một siêu hộp từ mẫu vào không có nhãn, SS-FMM chỉ thực hiện tạo siêu hộp nếu thỏa mãn điều kiện ngưỡng β được xác định theo (2.2).  , : 1,..., ,h jA B max E j q         (2.2) 9 SS-FMM hoạt động theo cơ chế lan truyền nhãn để gán nhãn cho các siêu hộp được tao ra bởi các mẫu không có nhãn. Thuật toán học tạo ra các siêu hộp từ các mẫu dữ liệu có nhãn và lan truyền nhãn từ các siêu hộp được gán nhãn cho các siêu hộp được hình thành từ các mẫu không có nhãn. SS-FMM kết hợp tất cả các siêu hộp có cùng một nhãn hình thành nên các cụm đầy đủ. * Đánh giá độ phức tạp thuật toán SS-FMM Thuật toán học SS-FMM có độ phức tạp thời gian là O(M(M-1)/2 + NK). Trong đó M là tổng số mẫu trong tập dữ liệu huấn luyện, N là số thuộc tính của mẫu dữ liệu, K là tổng số siêu hộp tạo ra trong mạng SS-FMM. 2.2. Thuật to n phân cụm b n gi m s t mờ kết hợp SCFMN Thuật toán học trong SS-FMM sinh ra các tập siêu hộp, với mỗi tập siêu hộp là một cụm. SS-FMM sử dụng nhiều siêu hộp với kích thước nhỏ để phân loại các mẫu ở vùng biên. Tuy nhiên, khi giảm tham số max thì số lượng siêu hộp trong mạng tăng, làm tăng độ phức tạp thuật toán. Không những vậy, SS-FMM cần có một tỷ lệ mẫu nhất định trong tập huấn luyện được gán nhãn. Mô hình SCFMN khắc phục nhược điểm này của SS-FMM. SCFMN sử dụng tham số max với giá trị khác nhau trong hai giai đoạn để cải thiện kết quả phân cụm với số lượng siêu hộp ít hơn.  1 max xác định kích thước tối đa của các siêu hộp lớn,  2 max xác định kích thước tối đa của các siêu hộp bé. Ở giai đoạn đầu, SCFMN tạo ra các siêu hộp và gán nhãn cho các mẫu có độ thuộc đầy đủ với các siêu hộp, với mỗi siêu hộp là một cụm. Ở giai đoạn sau, SCFMN thực hiện quá trình lan truyền các nhãn từ các siêu hộp được tạo ra trước đó tới các siêu hộp được tạo ra từ các mẫu không có nhãn. Các siêu hộp lớn và nhỏ có cùng một nhãn kết hợp với nhau hình thành nên các cụm đầy đủ. Hình 2.3 minh họa ý tưởng sử dụng siêu hộp lớn ở khu vực tâm cụm kết hợp với các siêu hộp nhỏ nhơn ở khu vực biên được biểu diễn trong không gian 2-chiều khi phân cụm dữ tập dữ liệu gồm hai cụm. 10 Trong đó B là siêu hộp có kích thước lớn, G là siêu hộp có kích thước nhỏ hình thành từ các mẫu có nhãn, R là các siêu hộp có kích thước nhỏ hình thành từ các mẫu không có nhãn. * Siêu hộp B Siêu hộp R Siêu hộp G * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + * * * * + + + + + Hình 2.3. Cấu trúc SCFMN sử dụng các siêu hộp lớn và nhỏ 2.2.2. Thuật toán học trong SCFMN Hình 2.5 là sơ đồ mô phỏng thuật toán học của SCFMN. y Có chồng lấn siêu hộp? Co lại siêu hộp Dữ liệu vào {Ah ,dl}D n y Pha 1: Xác định thông tin bổ trợ Tất cả dữ liệu đã có nhãn? n   , : 1,...,h sA Hmax E s q   End Pha 2: Sử dụng SS-FMM gán nhãn cho các mẫu còn lại Ah có thuộc vào siêu hộp bất kỳ? dl = 0? y l l sd H n n Tạo Hnew, lnew lH d R = R{Hnew} n Gán nhãn cho mẫu theo siêu hộp y Có siêu hộp nào chứa được Ah? Mở rộng siêu hộp dl = 0 ? n dl ≠ 0? y n y y n y n Dữ liệu vào AhD Dữ liệu vào đã hết? Begin Có BjB chứa được Ah? Có chồng lấn siêu hộp? Co lại siêu hộp y n y Mở rộng hyperbox n Tạo Bj mới, ljB j y Dữ liệu vào AhD Ah có thuộc vào BjB ? n y l l jd B D1=D1{Ah,dl} Dữ liệu vào đã hết? n y 0ld  D2=D2{Ah,dl} D = D1D2 Tạo Hnew, l new lH d G = G{Hnew} Hình 2.5. Thuật toán học trong SCFMN 11 * Đánh giá độ phức tạp thuật toán SCFMN Thuật toán học SCFMN có độ phức tạp thời gian là O(KN(M(K+1)+1)+M(M-1)/2). Trong đó M là tổng số mẫu trong tập dữ liệu huấn luyện, N là số thuộc tính của mẫu dữ liệu, K là tổng số siêu hộp tạo ra trong mạng SCFMN. 2.3. Thuật to n phân cụm mờ dựa trên tâm cụm dữ liệu CFMNN Giá trị hàm thuộc trong FMNN không giảm dần khi mẫu rời xa siêu hộp. Để khắc phục các nhược điểm trên, CFMNN dựa trên khoảng cách giữa các mẫu vào tâm hình học của siêu hộp tương ứng. Giá trị tâm hình học được tính đến khi mẫu rời xa siêu hộp và độ thuộc nhỏ hơn 0.6, khi mà giá trị hàm thuộc của FMNN không giảm dần. Ngoài hai điểm min và max, mỗi siêu hộp tương ứng có tâm của siêu hộp tính theo (2.8).   / 2ji ji jic v w  (2.8) Khoảng cách Euclidean giữa mẫu vào Ah và tâm hình học của siêu hộp thứ j,  ,h jA B E được tính theo (2.9):     2 , 1 1 1 h j n ji hiA B i E c a n     (2.9) Với mỗi mẫu vào Ah thỏa mãn điều kiện gới hạn kích thước (1.24) mà giá trị hàm thuộc bj < 0.6, khoảng cách Euclidean được tính toán và so sánh. Mẫu sẽ thuộc về siêu hộp có khoảng cách gần với mẫu hơn. * Đánh giá độ phức tạp thuật toán CFMNN Thuật toán học CFMNN có độ phức tạp thời gian là O(MKN). Trong đó M là tổng số mẫu trong tập dữ liệu huấn luyện, N là số thuộc tính của mẫu dữ liệu, K là tổng số siêu hộp tạo ra trong CFMNN. 2.4. Thực nghiệm và đ nh gi * Phương pháp thực nghiệm Để đánh giá hiệu năng của thuật toán đề xuất, các thực nghiệm được thực hiện trên các tập dữ liệu Benchmark. Thông tin về các tập dữ liệu thực nghiệm được trình bày trên Bảng 2.1. 12 Mục tiêu thực nghiệm đánh giá khả năng cải thiện hiệu năng, số lượng và sự phân bố các siêu hộp khi điều chỉnh tham số max của các thuật toán SS-FMM, CFMNN, SCFMN. Đánh giá khả năng giảm thiểu siêu hộp của SCFMN. Độ đo Accuracy và CCC (Cophenetic Correlation Coefficient) được sử dụng để đánh giá hiệu năng của các thuật toán và so sánh với các thuật toán khác. Accuracy được tính theo (2.12), CCC được tính theo (2.13). * Kết quả thực nghiệm Chi tiết về kết quả thược nghiệm được trình bày trên các Bảng 2.2 đến Bảng 2.14, từ Hình 2.9 đến Hình 2.20. (a). Spiral (b). Aggregation (c). Jain (d). Flame (e). Pathbased (b) R15 Hình 2.9. Đồ họa phân bố các siêu hộp của SS-FMM. 13 (a) (b) (c) (d) Hình 2.10. Sự biến động độ đo Accuracy khi thay đổi tỉ lệ mẫu có nhãn của SS-FMM 14 (a). Tập dữ liệu R15 (b). Tập dữ liệu Jain (c). Tập dữ liệu Iris (d). Tập dữ liệu Flame Hình 2.14. Sự biến động độ đo Accuracy khi thay đổi max của SS-FMM và SCFMN 15 (a). Tập dữ liệu Jain (b) Tập dữ liệu Flame (c) Tập dữ liệu Iris (d) Tập dữ liệu R15 Hình 2.17. Sự biến động tổng số siêu hộp khi thay đổi max của SCFMN và SS-FMM 16 Từ các kết quả thực nghiệm cho thấy: - Độ đo Accuracy giảm khi giảm tỉ lệ mẫu có nhãn, tuy nhiên mức độ giảm không nhiều khi giảm tỉ lệ mẫu có nhãn trong tập huấn luyện. - Độ đo Accuracy giảm khi tăng giới hạn kích thước tối đa max. Khi giảm max quá nhỏ dẫn đến độ đo Accuracy giảm. max ảnh hưởng đến hiệu năng của thuật toán. - Tổng số các siêu hộp giảm dần khi tăng max. * So sánh kết quả thuật toán đề xuất với một số thuật toán khác Bảng 2.7 so sánh độ đo Accuracy GFMM, RFMN và SS-FMM trên tập dữ liệu Iris. Bảng 2.7. So sánh Accuracy giữa SS-FMM và GFMM, RFMN khi thay đổi tỉ lệ mẫu cón nhãn Tỉ lệ mẫu có nhãn Accuracy (%) GFMM RFMN SS-FMM 2% 36 52 94 10% 49 83 96 50% 84 92 97 Bảng 2.8 so sánh độ đo Accuracy GFMM, RFMN và SS-FMM trên tập các tập dữ liệu thực nghiệm. Tỉ lệ mẫu có nhãn trong tập dữ liệu huấn luyện là 10%. Bảng 2.8. So sánh Accuracy của SS-FMM với GFMM và RFMN. Tập dữ liệu Accuracy (%) GFMM RFMN SS-FMM Aggregation 48.25 79.56 98.86 Flame 49.74 84.47 98.75 Jain 56.32 85.35 100 Sprial 55.19 82.61 100 Pathbased 52.47 82.52 98.72 R15 48.28 84.78 99.50 Iris 49.36 83.92 96.00 ThyroidNew 51.83 80.12 91.69 Wine 52.54 80.73 93.33 17 Bảng 2.9. So sánh Accuracy của SCFMN, CFMNN với FMNN, MFMM Tập dữ liệu Accuracy (%) FMNN MFMM CFMNN SCFMN Flame 85.13 91.78 91.25 99.17 Jain 86.07 91.18 91.20 100 R15 87.24 93.54 93.76 99.50 Iris 86.97 93.01 92.77 95.98 Wine 85.58 93.12 92.83 94.35 PID 68.35 70.08 70.49 74.58 Bảng 2.10. So sánh CCC của SCFMN, CFMNN với MFMN, MFMM Tập dữ liệu CCC MFMM MFMN CFMNN SCFMN Glass 0.94 0.94 0.93 0.94 Iris - 0.97 0.97 0.98 Wine 0.83 - 0.84 0.89 Bảng 2.11. So sánh Time của SCFMN, CFMNN với FMNN, MFMM Tập dữ liệu Time (s) FMNN MFMM CFMNN SCFMN Flame 0.483 0.532 0.487 0.876 Jain 0.635 0.724 0.648 0.923 R15 0.701 0.798 0.712 0.967 Iris 0.215 0.231 0.221 0.623 Wine 0.274 0.283 0.276 0.692 PID 525.132 732.945 543.675 913.657 Hình 2.19. So sánh độ đo Accuracy của SCFMN, CFMNN với FMNN, MFMM 18 Hình 2.20. So sánh NoH của SCFMN với một số phương thức khác 2.5. Kết luận chư ng 2 Chương 2 đã trình bày các thuật toán cải tiến FMNN: - Đề xuất cải tiến thuật toán với học bán giám sát sử dụng thông tin bổ trợ là nhãn của một phần dữ liệu trong tập huấn luyện và phương pháp lan truyền nhãn (SS-FMM). Học trong SS-FMM sử dụng thông tin chứa trong các dữ liệu đã gán nhãn và cả dữ liệu chưa được gán nhãn để huấn luyện. SS-FMM có hiệu năng tốt ngay cả với tỉ lệ mẫu được gán nhãn thấp. Đề xuất này đã được công bố tại công trình 3. - Đề xuất mô hình phân cụm bán giám sát mờ kết hợp SCFMN. SCFMN sử dụng phương pháp học bán giám sát với các thông tin bổ trợ do thuật toán tự động xác định. SCFMN sử dụng cấu trúc với siêu hộp có kích thước lớn ở tâm cụm để giảm thiểu số siêu hộp và siêu hộp bé ở vùng ranh giới giữa các cụm để tăng hiệu suất phân cụm. Đề xuất này đã được công bố tại công trình 5. - Đề xuất thuật toán học cải tiến CFMNN có tính đến yếu tố phân bố dữ liệu. Trong giai đoạn dự báo và điều chỉnh siêu hộp không hoàn toàn lệ thuộc vào độ thuộc, đặc biệt khi mẫu rời xa siêu hộp. Ngoài ra, CFMNN sử dụng tập 10 luật mới để hiệu chỉnh các siêu hộp trong quá trình huấn luyện. Đề xuất này đã được công bố tại công trình 2 và công trình 4. Chư ng 3: Ứng dụng mạng n ron min-max mờ hỗ trợ chẩn đo n bệnh gan 3.1. Chẩn đo n bệnh gan * Chẩn đoán theo APRI APRI được tính theo công thức (3.1): 19  / = 100 AST ULN APRI PLT (3.1) * Chẩn đoán theo FIB-4 FIB-4 được tính theo công thức (3.2):   Age AST FIB-4 = PLT ALT (3.2) 3.2. Ứng dụng mạng n ron min max mờ trong chẩn đo n bệnh gan * Mô hình hóa bài toán CDS (Cirrhosis Diagnosis System) là mô hình chẩn đoán bệnh gan được thực hiện dựa trên sự kết hợp giữa cơ sở lý thuyết min-max mờ, mạng nơron nhân tạo và phương pháp suy diễn mờ để tiến hành xây dựng hệ hỗ trợ ra quyết định qua số liệu xét nghiệm men gan. Hệ hỗ trợ chẩn đoán bệnh gan CDS thể hiện trong Hình 3.1. Bắt đầu Kết quả xét nghiệm men gan Trích chọn các đặc trưng Mở rộng siêu hộp Kiểm tra chồng lấn Điều chỉnh chồng lấn Huấn luyện mạng nơron min max mờ Kết thúc Cơ sở dữ liệu mẫu Cắt tỉa siêu hộp Kết xuất luật quyết định Chẩn đoán bệnh Bảng tổng hợp bệnh từ kết quả xét nghiệm Hình 3.1. Mô hình hệ hỗ trợ chẩn đoán bệnh gan CDS 20 * Phân tích mô hình - CDS tạo ra một cách tiếp cận kết hợp giữa các phương pháp phân cụm dữ liệu và ra quyết định cho việc chẩn y tế. - CDS đưa ra một quan điểm để kết hợp thuật toán phân cụm sử dụng FMNN với hệ thống ra quyết định. Điều này có ý nghĩa lớn đối với bài toán chẩn đoán bệnh gan nói riêng và các lĩnh vực Y tế - Tin học liên ngành nói chung. * Cắt tỉa siêu hộp hộp sử dụng chỉ số HCF Mỗi siêu hộp được gắn với một HCF (Hyperbox Confidence Factor) để đo mức độ sử dụng. Các siêu hộp có chỉ số HCF thấp hơn ngưỡng sẽ bị cắt tỉa. * Rút trích luật quyết định Mỗi siêu hộp kết xuất thành một luật quyết định ifthen mờ. Các giá trị min và max được định lượng thành các mức Q tương đương số phân vùng mờ trong quy tắc định lượng. Mỗi mẫu đầu vào được gán cho các điểm lượng tử bằng cách sử dụng (3.8): ( 1) / ( 1)qA q Q   (3.8) Các luật ifthen mờ được định nghĩa theo (3.9): 1 : j p q pn q p j Rule R If x is A and x is A Then x is C  (3.9) 3.3. Thực nghiệm và đ nh gi * Tập dữ liệu thực nghiệm Thông tin về dữ liệu bệnh gan được mô tả trong Bảng 3.3 được trích từ hồ sơ bệnh án liên quan đến số liệu là kết quả xét nghiệm và chẩn đoán bệnh từ các bác sĩ. * Mục tiêu và phương pháp thực nghiệm Đánh giá khả năng cải thiện hiệu năng, số lượng các siêu hộp trước và sau khi được cắt tỉa và các luật quyết định, thời gian tính toán. 21 * Độ đo và tiêu chí đánh giá Các độ đo đánh giá được sử dụng gồm Accuracy, AccSe, AccSp, NPV, PPV, Jaccard, Rand, FM, NoH. * Kết quả thực nghiệm Chi tiết về kết quả thực nghiệm được trình bày trên các Bảng 3.4 đến Bảng 3.15, từ Hình 3.2 đến Hình 3.10. (a) SS-FMM (b) SCFMN Hình 3.5. Sự biến động độ đo Accuracy của SCFMN, SS-FMM khi thay đổi max trên tập dữ liệu LiverDisease. Hình 3.6. Sự biến động NoH của SCFMN với SS-FMM khi thay đổi max 22 Bảng 3.9. Biểu diễn các luật trên tập dữ liệu Cirrhosis được tạo ra bởi SCFMN Luật IF Then HCF A1 A2 A3 1 1 1 2-3 2 0.300 2 1-3 1 2-3 1 0.114 3 1-2 1 3-4 1 0.075 4 3-4 1-2 1 1 0.039 5 1-3 1-4 1-2 1 0.834 6 1 1 1-4 2 0.43 Bảng 3.13. Ví dụ về kết quả chẩn đoán dựa trên thông tin của các mẫu bệnh được trích xuất từ kết quả thử nghiệm trên tập dữ liệu LiverDisease của SCFMN. If Then (C) A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 81 0 97.1 104.1 3.1 154.4 36.7 27.3 10.1 37 1 53 0 94.1 100.9 3.1 266.4 25.2 37.6 10.7 28 1 53 0 87.9 94.3 3.1 249.0 23.5 35.1 10.0 28 1 81 0 86.1 92.3 3.1 136.9 32.5 24.2 9.0 37 1 24 1 592.3 200.6 3.0 195.6 38.3 359.5 139.3 39 1 37 0 568.6 208.7 2.7 82.6 27.5 65.3 15.3 23 1 46 1 60.4 57.0 1.1 87.8 37.4 19.0 3.5 18 0 57 0 60.5 45.4 1.3 196.2 39.2 12.1 3.5 29 0 57 0 60.5 45.4 1.3 196.4 39.2 12.1 3.5 29 0 3.4. Kết luận chư ng 3 Trong chương 3, nghiên cứu sinh đã trình bày về đề xuất mô hình ứng dụng FMNN với kết xuất luật quyết định if...then mờ trong thiết kế hệ hỗ trợ chẩn đoán bệnh gan từ dữ liệu là số liệu các kết quả xét nghiệm men gan của bệnh nhân. Thực nghiệm của mô hình đề xuất trên tập dữ liệu là số liệu các kết quả xét nghiệm của bệnh nhân cho kết quả tốt với các giá trị dự đoán. 23 Đặc biệt là khả năng rút trích các luật quyết định ifthen mờ rất đơn giản với các giá trị định lượng là các điểm min-max của siêu hộp mờ. Kết quả đã được đánh giá thông qua các độ đo, đồng thời thông qua các kết quả thực nghiệm này kiểm nghiệm lại một lần nữa tính đúng đắn của các đề xuất khi xây dựng bằng các mô hình lý thuyết. KẾT LUẬN Từ các nội dung nghiên cứu đã thực hiện, luận án đã đạt được các kết quả như sau: * Kết quả chính: - Đề xuất cải tiến thuật toán với học bán giám sát sử dụng thông tin bổ trợ là nhãn của một phần dữ liệu trong tập huấn luyện và phương pháp lan truyền nhãn (SS-FMM). Nó từng bước hình thành và hiệu chỉnh các siêu hộp (cụm) trong quá trình huấn luyện. Các mẫu có nhãn được đưa vào trước để hình thành các siêu hộp, sau đó lan truyền các nhãn sang các mẫu không có nhãn để hình thành các siêu hộp từ các mẫu huấn luyện không có nhãn. Học trong SS-FMM là cách học sử dụng thông tin chứa trong các dữ liệu đã gán nhãn và cả dữ liệu chưa được gán nhãn để huấn luyện. SS-FMM có hiệu năng tốt ngay cả với tỉ lệ mẫu được gán nhãn thấp. Đề xuất này đã

Các file đính kèm theo tài liệu này:

tom_tat_luan_an_nghien_cuu_phat_trien_mot_so_thuat_toan_phan.pdf