Thuật to n phân cụm b n gi m s t mờ SS-FMM
Mô hình GFMM (General Fuzzy Min-Max) và mô hình sửa đổi
RFMN có ưu điểm là sử dụng thêm các thông tin biết trước để giám sát quá
trình phân cụm, từ đó nâng cao chất lượng phân cụm. Nhưng cả GFMM và
RFMN đều có khả năng sinh ra các siêu hộp có những thuộc tính riêng mà
không được gán nhãn.
Lý do là khi GFMM và RFMN tạo ra các siêu hộp mới chứa mẫu
đầu tiên mà mẫu này lại không có nhãn, điều này có nghĩa là siêu hộp
mới không có nhãn. Siêu hộp này sẽ chờ mẫu có nhãn rơi vào để hiệu
chỉnh nhãn của siêu hộp theo nhãn của mẫu. Tuy nhiên, có thể vẫn còn
các siêu hộp không có nhãn không được hiệu chỉnh nhãn do không có
mẫu có nhãn rơi vào. Hình 2.1 là một ví dụ minh họa về trường hợp
GFMM và RFMN tạo ra các siêu hộp không có nhãn.
Siêu hộp U
Siêu hộp V
Hình 2.1. Các siêu hộp lỗi của GFMM và RFMN
Trong đó V là siêu hộp được tạo ra từ các mẫu có nhãn hoặc được
điều chỉnh nhãn bởi các mẫu có nhãn, U là siêu hộp được tạo ra từ các mẫu
không có nhãn mà không được điều chỉnh nhãn bởi các mẫu có nhãn.8
Thuật toán SS-FMM đề xuất khắc phục nhược điểm này của
GFMM và RFMN. SS-FMM ngăn không cho thuật toán tạo ra các siêu
hộp không có nhãn bằng cách sử dụng ngưỡng giới hạn β. Ngưỡng ban
đầu do người dùng xác định, nhưng thuật toán có khả năng tự xác định
lại ngưỡng sao cho phù hợp trong quá trình huấn luyện.
27 trang |
Chia sẻ: trungkhoi17 | Lượt xem: 495 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Nghiên cứu phát triển một số thuật toán phân cụm bán giám sát sử dụng mạng nơron min-max mờ và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ết hợp
với phân tích, thống kê, đánh giá số liệu thực nghiệm.
5. Đóng góp của luận n
- Xây dựng thuật toán SS-FMM cải tiến phân cụm bán giám sát mờ
dựa trên lan truyền nhãn.
3
- Đề xuất mô hình phân cụm bán giám sát mờ kết hợp FMNN và
SS-FMM, thuật toán học tự xác định thông tin bổ trợ cho thuật toán
phân cụm bán giám sát mờ.
- Phát triển thuật toán phân cụm mờ có tính đến yếu tố phân bố dữ liệu.
6. Cấu trúc của luận n
Ngoài phần phần mở đầu và kết luận, bố cục của luận án gồm ba
chương:
- Chương 1 trình bày nghiên cứu tổng quan của luận án, bao gồm
các nội dung cơ bản về FMNN và các mở rộng của FMNN. Đặc điểm
chung của các mở rộng, các hạn chế từ đó đưa ra các hướng nghiên cứu
tiếp theo. Thông qua chương này, luận án đưa ra được cái nhìn tổng
quan về bài toán nghiên cứu, các khái niệm và thuật toán cơ bản sử
dụng trong nghiên cứu của luận án.
- Chương 2 trình bày các đề xuất cải tiến về phương pháp học trong
FMNN, bao gồm mô hình học bán giám sát cho phân cụm dữ liệu sử
dụng thông tin bổ trợ là một phần mẫu trong tập dữ liệu huấn luyện
được gán nhãn, sau đó lan truyền nhãn cho các mẫu dữ liệu không có
nhãn. Mô hình phân cụm bán giám sát mờ kết hợp, thuật toán học tự xác
định thông tin bổ trợ là nhãn của một phần mẫu trong tập dữ liệu huấn
luyện. Và đây cũng chính là đầu vào cho thuật toán phân cụm bán giám
sát mờ. Mô hình phân cụm dữ liệu trong mạng nơron min-max mờ có
tính đến yếu tố phân bố dữ liệu. Tiếp theo trình bày kết quả thực nghiệm
của các đề xuất trên các tập dữ liệu Benchmark và so sánh với một số
phương thức liên quan.
- Chương 3 trình bày mô hình ứng dụng FMNN với kết xuất luật
quyết định if...then mờ trong thiết kế hệ hỗ trợ chẩn đoán bệnh gan từ
dữ liệu là số liệu các kết quả xét nghiệm men gan của bệnh nhân.
Cuối cùng, kết luận nêu những đóng góp, hướng phát triển, những
vấn đề quan tâm và các công trình đã được công bố của luận án.
4
Chư ng 1: Tổng quan về mạng n ron min-max mờ
1.1. C bản về mạng n ron min-max mờ
* Hàm thuộc siêu hộp
Hàm xác định độ thuộc bj(A,Bj) đo mức độ thuộc của mẫu A tương
ứng với siêu hộp Bj.
1
1
, max 0,1 max 0, min 1,
2
+ max 0,1 max 0, min 1,
n
j j i ji
i
ji i
b A B a w
n
v a
(1.2)
1
1
, 1 , ,
n
j j i ji ji i
i
b A B f a w f v a
n
(1.3)
* Cấu trúc mạng nơron min-max mờ
FMNN sử dụng cấu trúc mạng nơron truyền thẳng, cấu trúc hai lớp
(Hình 1.4) với học không có giám sát và cấu trúc ba lớp (Hình 1.5) cho
học có giám sát.
Hình 1.4. Mô hình mạng nơron 2 lớp
Hình 1.5. Mô hình mạng nơron 3 lớp
* Kiểm tra và điều chỉnh chồng lấn giữa các siêu hộp
Thuật toán học của FMNN nhằm mục tiêu tạo và điều chỉnh các siêu
hộp trong không gian n-chiều. Nếu quá trình mở rộng tạo ra sự chồng lấn
giữa các siêu hộp thì thực hiện quá trình co lại để khử chồng lấn. Có
chồng lấn giữa Bj và Bk nếu xảy ra một trong bốn trường hợp sau:
- Trường hợp 1: max của Bj chồng lấn với min của Bk
- Trường hợp 2: min của Bj chồng lấn với max của Bk
- Trường hợp 3: Bk bị co lại trong Bj
- Trường hợp : Bj bị co lại trong Bk
5
Nếu Bj và Bk có chồng lấn, thực hiện co lại các siêu hộp trên chiều
bị chồng lấn tương ứng để loại bỏ chồng lấn:
- Trường hợp 1. Nếu
ji ki ji kiv v w w thì:
/ 2new old oldki ki jiv v w
/ 2new old oldki ki jiw v w
- Trường hợp 2. Nếu
ki ji ki jiv v w w thì:
/ 2new old oldji ji kiv v w
/ 2new old oldki ji kiw v w
- Trường hợp 3. Nếu
ji ki ki jiv v w w , xét các trường hợp sau:
+ Nếu ( )ki ji ji kiw v w v , thì:
new old
ji kiv w
+ Nếu ( )ki ji ji kiw v w v , thì:
new old
ji kiw v
- Trường hợp 4. Nếu ki ji ji kiv v w w , xét các trường hợp sau:
+ Nếu ( )ki ji ji kiw v w v , thì:
new old
ki jiw v
+ Nếu ( )ki ji ji kiw v w v , thì:
new old
ki jiv w
* Thuật toán học trong mạng nơron min max mờ
Thuật toán học trong mạng nơron min-max mờ chỉ bao gồm việc
tạo và điều chỉnh các siêu hộp trong không gian mẫu. Thuật toán học
trong mạng nơron min max mờ gồm 3 bước: tạo và mở rộng siêu hộp,
kiểm tra chồng lấn, điều chỉnh chồng lấn. Mỗi bước được lặp lại đối với
tất cả các mẫu trong tập dữ liệu.
1.2. Một số nghiên cứu nâng cao chất lượng của FMNN
* Điều chỉnh giới hạn kích thước siêu hộp
Để khắc phục hiện tượng vượt quá giới hạn kích thước siêu hộp khi
huấn luyện mạng do phương pháp tính trung bình, D. Ma đề xuất giải
pháp thay thế hàm giới hạn kích thước được so sánh trên tất cả các chiều
tính theo công thức (1.24) bằng công thức (1.29):
,
1
1
max , min , ,
j
n
ji i ji iA B
i
w a v a
n
(1.24)
, 1,...,n , ,h j ji hi ji hiA B i max w a min v a (1.29)
* Sửa đổi cấu trúc FMNN quản lý khu vực chồng lấn
Mô hình FMCN (Fuzzy Min-max neural network classifier with
Compensatory Neurons) và DCFMN (Data-Core-Based Fuzzy Min–
Max Neural Network) khắc phục cho các vấn đề gây ra bởi việc co lại
6
các siêu hộp là tạo ra các siêu hộp bù. Thay vì điều chỉnh co lại các siêu
hộp, FMCN và DCFMN xử lý khu vực chồng lấn bằng cách sử dụng các
siêu hộp quản lý vùng chồng lấn riêng biệt.
* Cải tiến phương pháp học trong FMNN
Mô hình bán giám sát GFMM (General Fuzzy Min-Max) và RFMN
(Reflex Fuzzy Min-max Neural network) sử dụng các thông tin bổ trợ là
các nhãn đi kèm với một số mẫu đầu vào. GFMM và RFMN đã sử dụng
các thông tin biết trước để giám sát và hướng dẫn phân cụm.
1.5. Kết luận chư ng 1
Trong chương 1 NCS đã trình bày về nghiên cứu tổng quan về
FMNN và xu hướng phát triển của FMNN, tổng hợp và so sánh các
nghiên cứu điển hình về cải tiến cấu trúc, thuật toán học của FMNN.
Các chương tiếp theo sẽ trình bày các đề xuất về một số vấn đề còn
tồn tại trong quá trình phát triển của FMNN và ứng dụng FMNN hỗ trợ
chẩn đoán Y tế, gồm:
1) Xây dựng thuật toán cải tiến phân cụm bán giám sát mờ dựa trên
lan truyền nhãn. Thông tin bổ trợ là một tỷ lệ phần trăm nhỏ của các
mẫu được dán nhãn.
2) Đề xuất mô hình phân cụm bán giám sát mờ kết hợp, thuật toán
học tự xác định thông tin bổ trợ là nhãn của một phần mẫu cho thuật
toán phân cụm bán giám sát mờ.
3) Phát triển thuật toán phân cụm mờ có tính đến yếu tố phân bố dữ
liệu.
4) Cài đặt thực nghiệm các thuật toán cải tiến dựa trên dữ liệu thu
thập và phân tích dữ liệu là các kết quả xét nghiệm. Ứng dụng FMNN
với kết xuất luật quyết định ifthen mờ trong chẩn đoán Y tế.
Chư ng 2: Ph t triển thuật to n phân cụm sử dụng mạng n ron
min-max mờ
Chương này trình bày ba thuật toán cải tiến phương pháp học và
các thực nghiệm đánh giá thuật toán, bao gồm:
7
- Đề xuất cải tiến về phương pháp học bán giám sát SS-FMM, kết quả
được công bố tại công trình 3.
- Đề xuất mô hình phân cụm bán giám sát mờ kết hợp FMNN và
SS-FMM, kết quả được công bố tại công trình 5.
- Đề xuất cải tiến thuật toán phân cụm có tính đến yếu tố phân bố
dữ liệu. Ngoài ra, thuật toán học sử dụng tập các luật bổ sung trong quá
trình huấn luyện. Kết quả được công bố tại công trình 2 và công trình 4.
2.1. Thuật to n phân cụm b n gi m s t mờ SS-FMM
Mô hình GFMM (General Fuzzy Min-Max) và mô hình sửa đổi
RFMN có ưu điểm là sử dụng thêm các thông tin biết trước để giám sát quá
trình phân cụm, từ đó nâng cao chất lượng phân cụm. Nhưng cả GFMM và
RFMN đều có khả năng sinh ra các siêu hộp có những thuộc tính riêng mà
không được gán nhãn.
Lý do là khi GFMM và RFMN tạo ra các siêu hộp mới chứa mẫu
đầu tiên mà mẫu này lại không có nhãn, điều này có nghĩa là siêu hộp
mới không có nhãn. Siêu hộp này sẽ chờ mẫu có nhãn rơi vào để hiệu
chỉnh nhãn của siêu hộp theo nhãn của mẫu. Tuy nhiên, có thể vẫn còn
các siêu hộp không có nhãn không được hiệu chỉnh nhãn do không có
mẫu có nhãn rơi vào. Hình 2.1 là một ví dụ minh họa về trường hợp
GFMM và RFMN tạo ra các siêu hộp không có nhãn.
Siêu hộp U
Siêu hộp V
Hình 2.1. Các siêu hộp lỗi của GFMM và RFMN
Trong đó V là siêu hộp được tạo ra từ các mẫu có nhãn hoặc được
điều chỉnh nhãn bởi các mẫu có nhãn, U là siêu hộp được tạo ra từ các mẫu
không có nhãn mà không được điều chỉnh nhãn bởi các mẫu có nhãn.
8
Thuật toán SS-FMM đề xuất khắc phục nhược điểm này của
GFMM và RFMN. SS-FMM ngăn không cho thuật toán tạo ra các siêu
hộp không có nhãn bằng cách sử dụng ngưỡng giới hạn β. Ngưỡng ban
đầu do người dùng xác định, nhưng thuật toán có khả năng tự xác định
lại ngưỡng sao cho phù hợp trong quá trình huấn luyện. Sơ đồ thuật toán
học được mô tả trên Hình 2.2.
Dữ liệu vào {Ah ,dh}D
đ
1old oldS S
Tạo Hnew,
l l
new jH B
new
B B H
\ hD D A
Tạo Hnew,
l
new hH d ,
new
B B H
đ
Có chồng
lấn siêu hộp?
Co lại siêu hộp
s
đ
D ?
s
, 1,..., h jA Bmax E j q
Kết thúc
Ah có
thuộc vào BjB? dh = 0?
đ
l
h jd B
s
s
s
l
h jd B
đ
Bắt đầu
Có BjB
nào chứa được Ah?
Mở rộng Bj;
\
h
D D A
dh = 0 ?
s
dh ≠ 0?
đ
s
đ
s
đ
Vào: D, ,
h < m?
đ s
\ hD D A
S
new
= |D|; S
old
= 0;
m = |D|; h = 1
1h h
S
new
= S
old
?
.
đ
s
Tính C theo (1.7)
Ra: B, C
Hình 2.2. Sơ đồ thuật toán học SS-FMM
Khi tạo mới một siêu hộp từ mẫu vào không có nhãn, SS-FMM chỉ
thực hiện tạo siêu hộp nếu thỏa mãn điều kiện ngưỡng β được xác định
theo (2.2).
, : 1,..., ,h jA B
max E j q
(2.2)
9
SS-FMM hoạt động theo cơ chế lan truyền nhãn để gán nhãn cho các
siêu hộp được tao ra bởi các mẫu không có nhãn. Thuật toán học tạo ra các
siêu hộp từ các mẫu dữ liệu có nhãn và lan truyền nhãn từ các siêu hộp
được gán nhãn cho các siêu hộp được hình thành từ các mẫu không có
nhãn. SS-FMM kết hợp tất cả các siêu hộp có cùng một nhãn hình thành
nên các cụm đầy đủ.
* Đánh giá độ phức tạp thuật toán SS-FMM
Thuật toán học SS-FMM có độ phức tạp thời gian là
O(M(M-1)/2 + NK). Trong đó M là tổng số mẫu trong tập dữ liệu huấn
luyện, N là số thuộc tính của mẫu dữ liệu, K là tổng số siêu hộp tạo ra
trong mạng SS-FMM.
2.2. Thuật to n phân cụm b n gi m s t mờ kết hợp SCFMN
Thuật toán học trong SS-FMM sinh ra các tập siêu hộp, với mỗi tập
siêu hộp là một cụm. SS-FMM sử dụng nhiều siêu hộp với kích thước
nhỏ để phân loại các mẫu ở vùng biên. Tuy nhiên, khi giảm tham số max
thì số lượng siêu hộp trong mạng tăng, làm tăng độ phức tạp thuật toán.
Không những vậy, SS-FMM cần có một tỷ lệ mẫu nhất định trong tập
huấn luyện được gán nhãn. Mô hình SCFMN khắc phục nhược điểm
này của SS-FMM.
SCFMN sử dụng tham số max với giá trị khác nhau trong hai giai
đoạn để cải thiện kết quả phân cụm với số lượng siêu hộp ít hơn.
1
max xác định kích thước tối đa của các siêu hộp lớn,
2
max xác định kích
thước tối đa của các siêu hộp bé. Ở giai đoạn đầu, SCFMN tạo ra các
siêu hộp và gán nhãn cho các mẫu có độ thuộc đầy đủ với các siêu hộp,
với mỗi siêu hộp là một cụm. Ở giai đoạn sau, SCFMN thực hiện quá
trình lan truyền các nhãn từ các siêu hộp được tạo ra trước đó tới các
siêu hộp được tạo ra từ các mẫu không có nhãn. Các siêu hộp lớn và nhỏ
có cùng một nhãn kết hợp với nhau hình thành nên các cụm đầy đủ.
Hình 2.3 minh họa ý tưởng sử dụng siêu hộp lớn ở khu vực tâm
cụm kết hợp với các siêu hộp nhỏ nhơn ở khu vực biên được biểu diễn
trong không gian 2-chiều khi phân cụm dữ tập dữ liệu gồm hai cụm.
10
Trong đó B là siêu hộp có kích thước lớn, G là siêu hộp có kích thước
nhỏ hình thành từ các mẫu có nhãn, R là các siêu hộp có kích thước nhỏ
hình thành từ các mẫu không có nhãn.
*
Siêu hộp B Siêu hộp R
Siêu hộp G
*
*
*
*
* *
* *
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
* *
*
* *
* *
*
* *
*
*
* *
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
* *
*
*
* *
+ +
+ +
+ +
+ +
+ +
+ +
+ +
+ +
+ +
+ + +
+
+ +
+
+
+
+ +
+ + + +
+ +
+ +
+ +
+ +
+ +
+ +
+ +
+ +
+ + +
+
+
+
+
+
+
+
+
+ + +
+
+ *
*
*
*
+
+
+ +
+
Hình 2.3. Cấu trúc SCFMN sử dụng các siêu hộp lớn và nhỏ
2.2.2. Thuật toán học trong SCFMN
Hình 2.5 là sơ đồ mô phỏng thuật toán học của SCFMN.
y
Có chồng
lấn siêu hộp?
Co lại siêu hộp
Dữ liệu vào {Ah ,dl}D
n
y
Pha 1: Xác định thông tin bổ trợ
Tất cả
dữ liệu đã có
nhãn?
n
, : 1,...,h sA Hmax E s q
End
Pha 2: Sử dụng SS-FMM gán nhãn cho các mẫu còn lại
Ah có
thuộc vào siêu hộp
bất kỳ?
dl = 0?
y
l
l sd H
n
n
Tạo Hnew, lnew lH d
R = R{Hnew}
n
Gán nhãn cho mẫu
theo siêu hộp
y
Có siêu hộp
nào chứa được Ah?
Mở rộng siêu hộp
dl = 0 ?
n
dl ≠ 0?
y
n
y
y
n
y
n
Dữ liệu vào AhD
Dữ liệu vào
đã hết?
Begin
Có BjB chứa
được Ah?
Có chồng
lấn siêu hộp?
Co lại siêu hộp
y
n
y
Mở rộng hyperbox
n
Tạo Bj mới, ljB j
y
Dữ liệu vào AhD
Ah có
thuộc vào BjB ?
n
y
l
l jd B
D1=D1{Ah,dl}
Dữ liệu vào
đã hết?
n
y
0ld
D2=D2{Ah,dl}
D = D1D2
Tạo Hnew,
l
new lH d
G = G{Hnew}
Hình 2.5. Thuật toán học trong SCFMN
11
* Đánh giá độ phức tạp thuật toán SCFMN
Thuật toán học SCFMN có độ phức tạp thời gian là
O(KN(M(K+1)+1)+M(M-1)/2). Trong đó M là tổng số mẫu trong tập dữ
liệu huấn luyện, N là số thuộc tính của mẫu dữ liệu, K là tổng số siêu
hộp tạo ra trong mạng SCFMN.
2.3. Thuật to n phân cụm mờ dựa trên tâm cụm dữ liệu CFMNN
Giá trị hàm thuộc trong FMNN không giảm dần khi mẫu rời xa
siêu hộp. Để khắc phục các nhược điểm trên, CFMNN dựa trên khoảng
cách giữa các mẫu vào tâm hình học của siêu hộp tương ứng. Giá trị tâm
hình học được tính đến khi mẫu rời xa siêu hộp và độ thuộc nhỏ hơn 0.6,
khi mà giá trị hàm thuộc của FMNN không giảm dần. Ngoài hai điểm min
và max, mỗi siêu hộp tương ứng có tâm của siêu hộp tính theo (2.8).
/ 2ji ji jic v w (2.8)
Khoảng cách Euclidean giữa mẫu vào Ah và tâm hình học của siêu
hộp thứ j, ,h jA B
E được tính theo (2.9):
2
,
1
1
1
h j
n
ji hiA B
i
E c a
n
(2.9)
Với mỗi mẫu vào Ah thỏa mãn điều kiện gới hạn kích thước (1.24)
mà giá trị hàm thuộc bj < 0.6, khoảng cách Euclidean được tính toán và
so sánh. Mẫu sẽ thuộc về siêu hộp có khoảng cách gần với mẫu hơn.
* Đánh giá độ phức tạp thuật toán CFMNN
Thuật toán học CFMNN có độ phức tạp thời gian là O(MKN).
Trong đó M là tổng số mẫu trong tập dữ liệu huấn luyện, N là số thuộc
tính của mẫu dữ liệu, K là tổng số siêu hộp tạo ra trong CFMNN.
2.4. Thực nghiệm và đ nh gi
* Phương pháp thực nghiệm
Để đánh giá hiệu năng của thuật toán đề xuất, các thực nghiệm
được thực hiện trên các tập dữ liệu Benchmark. Thông tin về các tập dữ
liệu thực nghiệm được trình bày trên Bảng 2.1.
12
Mục tiêu thực nghiệm đánh giá khả năng cải thiện hiệu năng, số
lượng và sự phân bố các siêu hộp khi điều chỉnh tham số max của các
thuật toán SS-FMM, CFMNN, SCFMN. Đánh giá khả năng giảm thiểu
siêu hộp của SCFMN.
Độ đo Accuracy và CCC (Cophenetic Correlation Coefficient)
được sử dụng để đánh giá hiệu năng của các thuật toán và so sánh với
các thuật toán khác. Accuracy được tính theo (2.12), CCC được tính
theo (2.13).
* Kết quả thực nghiệm
Chi tiết về kết quả thược nghiệm được trình bày trên các Bảng 2.2
đến Bảng 2.14, từ Hình 2.9 đến Hình 2.20.
(a). Spiral
(b). Aggregation
(c). Jain
(d). Flame
(e). Pathbased
(b) R15
Hình 2.9. Đồ họa phân bố các siêu hộp của SS-FMM.
13
(a)
(b)
(c)
(d)
Hình 2.10. Sự biến động độ đo Accuracy khi thay đổi tỉ lệ mẫu có nhãn
của SS-FMM
14
(a). Tập dữ liệu R15
(b). Tập dữ liệu Jain
(c). Tập dữ liệu Iris
(d). Tập dữ liệu Flame
Hình 2.14. Sự biến động độ đo Accuracy khi thay đổi max của SS-FMM và
SCFMN
15
(a). Tập dữ liệu Jain
(b) Tập dữ liệu Flame
(c) Tập dữ liệu Iris
(d) Tập dữ liệu R15
Hình 2.17. Sự biến động tổng số siêu hộp khi thay đổi max của SCFMN
và SS-FMM
16
Từ các kết quả thực nghiệm cho thấy:
- Độ đo Accuracy giảm khi giảm tỉ lệ mẫu có nhãn, tuy nhiên mức
độ giảm không nhiều khi giảm tỉ lệ mẫu có nhãn trong tập huấn luyện.
- Độ đo Accuracy giảm khi tăng giới hạn kích thước tối đa max.
Khi giảm max quá nhỏ dẫn đến độ đo Accuracy giảm. max ảnh hưởng
đến hiệu năng của thuật toán.
- Tổng số các siêu hộp giảm dần khi tăng max.
* So sánh kết quả thuật toán đề xuất với một số thuật toán khác
Bảng 2.7 so sánh độ đo Accuracy GFMM, RFMN và SS-FMM trên
tập dữ liệu Iris.
Bảng 2.7. So sánh Accuracy giữa SS-FMM và GFMM, RFMN khi thay đổi tỉ
lệ mẫu cón nhãn
Tỉ lệ mẫu có nhãn
Accuracy (%)
GFMM RFMN SS-FMM
2% 36 52 94
10% 49 83 96
50% 84 92 97
Bảng 2.8 so sánh độ đo Accuracy GFMM, RFMN và SS-FMM trên
tập các tập dữ liệu thực nghiệm. Tỉ lệ mẫu có nhãn trong tập dữ liệu
huấn luyện là 10%.
Bảng 2.8. So sánh Accuracy của SS-FMM với GFMM và RFMN.
Tập dữ liệu
Accuracy (%)
GFMM RFMN SS-FMM
Aggregation 48.25 79.56 98.86
Flame 49.74 84.47 98.75
Jain 56.32 85.35 100
Sprial 55.19 82.61 100
Pathbased 52.47 82.52 98.72
R15 48.28 84.78 99.50
Iris 49.36 83.92 96.00
ThyroidNew 51.83 80.12 91.69
Wine 52.54 80.73 93.33
17
Bảng 2.9. So sánh Accuracy của SCFMN, CFMNN với FMNN, MFMM
Tập dữ liệu
Accuracy (%)
FMNN MFMM CFMNN SCFMN
Flame 85.13 91.78 91.25 99.17
Jain 86.07 91.18 91.20 100
R15 87.24 93.54 93.76 99.50
Iris 86.97 93.01 92.77 95.98
Wine 85.58 93.12 92.83 94.35
PID 68.35 70.08 70.49 74.58
Bảng 2.10. So sánh CCC của SCFMN, CFMNN với MFMN, MFMM
Tập dữ liệu
CCC
MFMM MFMN CFMNN SCFMN
Glass 0.94 0.94 0.93 0.94
Iris - 0.97 0.97 0.98
Wine 0.83 - 0.84 0.89
Bảng 2.11. So sánh Time của SCFMN, CFMNN với FMNN, MFMM
Tập dữ liệu
Time (s)
FMNN MFMM CFMNN SCFMN
Flame 0.483 0.532 0.487 0.876
Jain 0.635 0.724 0.648 0.923
R15 0.701 0.798 0.712 0.967
Iris 0.215 0.231 0.221 0.623
Wine 0.274 0.283 0.276 0.692
PID 525.132 732.945 543.675 913.657
Hình 2.19. So sánh độ đo Accuracy của SCFMN, CFMNN với FMNN,
MFMM
18
Hình 2.20. So sánh NoH của SCFMN với một số phương thức khác
2.5. Kết luận chư ng 2
Chương 2 đã trình bày các thuật toán cải tiến FMNN:
- Đề xuất cải tiến thuật toán với học bán giám sát sử dụng thông tin
bổ trợ là nhãn của một phần dữ liệu trong tập huấn luyện và phương
pháp lan truyền nhãn (SS-FMM). Học trong SS-FMM sử dụng thông tin
chứa trong các dữ liệu đã gán nhãn và cả dữ liệu chưa được gán nhãn để
huấn luyện. SS-FMM có hiệu năng tốt ngay cả với tỉ lệ mẫu được gán
nhãn thấp. Đề xuất này đã được công bố tại công trình 3.
- Đề xuất mô hình phân cụm bán giám sát mờ kết hợp SCFMN.
SCFMN sử dụng phương pháp học bán giám sát với các thông tin bổ trợ
do thuật toán tự động xác định. SCFMN sử dụng cấu trúc với siêu hộp có
kích thước lớn ở tâm cụm để giảm thiểu số siêu hộp và siêu hộp bé ở vùng
ranh giới giữa các cụm để tăng hiệu suất phân cụm. Đề xuất này đã được
công bố tại công trình 5.
- Đề xuất thuật toán học cải tiến CFMNN có tính đến yếu tố phân
bố dữ liệu. Trong giai đoạn dự báo và điều chỉnh siêu hộp không hoàn
toàn lệ thuộc vào độ thuộc, đặc biệt khi mẫu rời xa siêu hộp. Ngoài ra,
CFMNN sử dụng tập 10 luật mới để hiệu chỉnh các siêu hộp trong quá
trình huấn luyện. Đề xuất này đã được công bố tại công trình 2 và công
trình 4.
Chư ng 3: Ứng dụng mạng n ron min-max mờ hỗ trợ chẩn đo n
bệnh gan
3.1. Chẩn đo n bệnh gan
* Chẩn đoán theo APRI
APRI được tính theo công thức (3.1):
19
/
= 100
AST ULN
APRI
PLT
(3.1)
* Chẩn đoán theo FIB-4
FIB-4 được tính theo công thức (3.2):
Age AST
FIB-4 =
PLT ALT
(3.2)
3.2. Ứng dụng mạng n ron min max mờ trong chẩn đo n bệnh gan
* Mô hình hóa bài toán
CDS (Cirrhosis Diagnosis System) là mô hình chẩn đoán bệnh gan
được thực hiện dựa trên sự kết hợp giữa cơ sở lý thuyết min-max mờ,
mạng nơron nhân tạo và phương pháp suy diễn mờ để tiến hành xây
dựng hệ hỗ trợ ra quyết định qua số liệu xét nghiệm men gan. Hệ hỗ trợ
chẩn đoán bệnh gan CDS thể hiện trong Hình 3.1.
Bắt đầu
Kết quả xét
nghiệm men gan
Trích chọn
các đặc trưng
Mở rộng
siêu hộp
Kiểm tra
chồng lấn
Điều chỉnh
chồng lấn
Huấn luyện mạng nơron min max mờ
Kết thúc
Cơ sở dữ liệu
mẫu
Cắt tỉa siêu hộp
Kết xuất luật quyết định
Chẩn đoán bệnh
Bảng tổng hợp bệnh
từ kết quả xét nghiệm
Hình 3.1. Mô hình hệ hỗ trợ chẩn đoán bệnh gan CDS
20
* Phân tích mô hình
- CDS tạo ra một cách tiếp cận kết hợp giữa các phương pháp phân
cụm dữ liệu và ra quyết định cho việc chẩn y tế.
- CDS đưa ra một quan điểm để kết hợp thuật toán phân
cụm sử dụng FMNN với hệ thống ra quyết định. Điều này có ý nghĩa
lớn đối với bài toán chẩn đoán bệnh gan nói riêng và các lĩnh vực Y tế -
Tin học liên ngành nói chung.
* Cắt tỉa siêu hộp hộp sử dụng chỉ số HCF
Mỗi siêu hộp được gắn với một HCF (Hyperbox Confidence
Factor) để đo mức độ sử dụng. Các siêu hộp có chỉ số HCF thấp hơn
ngưỡng sẽ bị cắt tỉa.
* Rút trích luật quyết định
Mỗi siêu hộp kết xuất thành một luật quyết định ifthen mờ. Các
giá trị min và max được định lượng thành các mức Q tương đương số
phân vùng mờ trong quy tắc định lượng. Mỗi mẫu đầu vào được gán
cho các điểm lượng tử bằng cách sử dụng (3.8):
( 1) / ( 1)qA q Q (3.8)
Các luật ifthen mờ được định nghĩa theo (3.9):
1 :
j p q pn q
p j
Rule R If x is A and x is A
Then x is C
(3.9)
3.3. Thực nghiệm và đ nh gi
* Tập dữ liệu thực nghiệm
Thông tin về dữ liệu bệnh gan được mô tả trong Bảng 3.3 được
trích từ hồ sơ bệnh án liên quan đến số liệu là kết quả xét nghiệm và
chẩn đoán bệnh từ các bác sĩ.
* Mục tiêu và phương pháp thực nghiệm
Đánh giá khả năng cải thiện hiệu năng, số lượng các siêu hộp trước
và sau khi được cắt tỉa và các luật quyết định, thời gian tính toán.
21
* Độ đo và tiêu chí đánh giá
Các độ đo đánh giá được sử dụng gồm Accuracy, AccSe, AccSp,
NPV, PPV, Jaccard, Rand, FM, NoH.
* Kết quả thực nghiệm
Chi tiết về kết quả thực nghiệm được trình bày trên các Bảng 3.4
đến Bảng 3.15, từ Hình 3.2 đến Hình 3.10.
(a) SS-FMM
(b) SCFMN
Hình 3.5. Sự biến động độ đo Accuracy của SCFMN, SS-FMM khi thay đổi
max trên tập dữ liệu LiverDisease.
Hình 3.6. Sự biến động NoH của SCFMN với SS-FMM khi thay đổi max
22
Bảng 3.9. Biểu diễn các luật trên tập dữ liệu Cirrhosis được tạo ra bởi SCFMN
Luật
IF
Then HCF
A1 A2 A3
1 1 1 2-3 2 0.300
2 1-3 1 2-3 1 0.114
3 1-2 1 3-4 1 0.075
4 3-4 1-2 1 1 0.039
5 1-3 1-4 1-2 1 0.834
6 1 1 1-4 2 0.43
Bảng 3.13. Ví dụ về kết quả chẩn đoán dựa trên thông tin của các mẫu bệnh được
trích xuất từ kết quả thử nghiệm trên tập dữ liệu LiverDisease của SCFMN.
If Then
(C) A1 A2 A3 A4 A5 A6 A7 A8 A9 A10
81 0 97.1 104.1 3.1 154.4 36.7 27.3 10.1 37 1
53 0 94.1 100.9 3.1 266.4 25.2 37.6 10.7 28 1
53 0 87.9 94.3 3.1 249.0 23.5 35.1 10.0 28 1
81 0 86.1 92.3 3.1 136.9 32.5 24.2 9.0 37 1
24 1 592.3 200.6 3.0 195.6 38.3 359.5 139.3 39 1
37 0 568.6 208.7 2.7 82.6 27.5 65.3 15.3 23 1
46 1 60.4 57.0 1.1 87.8 37.4 19.0 3.5 18 0
57 0 60.5 45.4 1.3 196.2 39.2 12.1 3.5 29 0
57 0 60.5 45.4 1.3 196.4 39.2 12.1 3.5 29 0
3.4. Kết luận chư ng 3
Trong chương 3, nghiên cứu sinh đã trình bày về đề xuất mô hình
ứng dụng FMNN với kết xuất luật quyết định if...then mờ trong thiết kế
hệ hỗ trợ chẩn đoán bệnh gan từ dữ liệu là số liệu các kết quả xét
nghiệm men gan của bệnh nhân.
Thực nghiệm của mô hình đề xuất trên tập dữ liệu là số liệu các kết
quả xét nghiệm của bệnh nhân cho kết quả tốt với các giá trị dự đoán.
23
Đặc biệt là khả năng rút trích các luật quyết định ifthen mờ rất đơn
giản với các giá trị định lượng là các điểm min-max của siêu hộp mờ.
Kết quả đã được đánh giá thông qua các độ đo, đồng thời thông qua các
kết quả thực nghiệm này kiểm nghiệm lại một lần nữa tính đúng đắn của
các đề xuất khi xây dựng bằng các mô hình lý thuyết.
KẾT LUẬN
Từ các nội dung nghiên cứu đã thực hiện, luận án đã đạt được các
kết quả như sau:
* Kết quả chính:
- Đề xuất cải tiến thuật toán với học bán giám sát sử dụng thông tin
bổ trợ là nhãn của một phần dữ liệu trong tập huấn luyện và phương
pháp lan truyền nhãn (SS-FMM). Nó từng bước hình thành và hiệu
chỉnh các siêu hộp (cụm) trong quá trình huấn luyện. Các mẫu có nhãn
được đưa vào trước để hình thành các siêu hộp, sau đó lan truyền các
nhãn sang các mẫu không có nhãn để hình thành các siêu hộp từ các
mẫu huấn luyện không có nhãn. Học trong SS-FMM là cách học sử
dụng thông tin chứa trong các dữ liệu đã gán nhãn và cả dữ liệu chưa
được gán nhãn để huấn luyện. SS-FMM có hiệu năng tốt ngay cả với tỉ lệ
mẫu được gán nhãn thấp. Đề xuất này đã
Các file đính kèm theo tài liệu này:
- tom_tat_luan_an_nghien_cuu_phat_trien_mot_so_thuat_toan_phan.pdf