Một số kỹ thuật kết hợp nâng cao chất lượng phân cụm
1.2.4.1 Kỹ thuật nhân trong phân cụm
Một trong những thách thức của bài toán phân cụm là sự phức tạp
của dữ liệu, sự phức tạp có thể ở nhiều khía cạnh khác nhau như:
kích thước dữ liệu, sự đa dạng các loại thuộc tính, tính đa dạng của
dữ liệu nói chung. Một trong các cách phổ biến để phân lớp tuyến
tính một dữ liệu phi tuyến trong không gian đầu vào là sử dụng một
hàm nhân Mercer để làm phép ánh xạ ẩn.6
1.2.4.2 Kỹ thuật siêu điểm ảnh trong phân cụm dữ liệu
Khái niệm về siêu điểm ảnh được Ren giới thiệu như là một tập
các điểm gần nhau có sự tương tự về màu hoặc mức xám. Bằng cách
chia ảnh cần phân đoạn thành các siêu điểm ảnh (super pixels) không
chồng nhau, thay vì thực hiện phân đoạn ảnh dựa trên các điểm ảnh
ta phân đoạn ảnh dựa trên các siêu điểm ảnh.
1.2.4.3 Tính toán hạt trong phân cụm
Tính toán hạt (Granular Computing – GrC) được đề xuất bởi
Zadeh, là một khái niệm bao gồm lý thuyết, phương pháp, kỹ thuật
và công cụ sử dụng hạt để giải quyết những vấn đề phức tạp trong xử
lý thông tin, thông tin cần xử lý trong tính toán hạt ta gọi là “hạt
thông tin” (Information Granules - IG), IG thường được tạo thành từ
các thực thể gồm các thông tin số tương tự nhau.
27 trang |
Chia sẻ: trungkhoi17 | Lượt xem: 493 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Phát triển một số mô hình phân cụm mờ cộng tác, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
.1 Chỉ số đánh giá trong (Internal Quality Criteria)
1.1.5.2 Chỉ số đánh giá ngoài (External Quality Criteria)
1.2 Tổng quan các nghiên cứu liên quan
1.2.1 Tổng quan về phân cụmmờ
Phân cụm là kỹ thuật nhóm các đối tượng vào các cụm dựa trên
thông tin của các đối tượng và mối liên hệ của chúng sao cho các
đối tượng trong cùng một cụm thì tương tự nhau còn các đối tượng
khác thuộc các cụm khác nhau thì khác nhau.
Phân cụm mờ là phương pháp phân cụm dữ liệu mà cho phép
mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua hàm thành
viên thể hiện độ thuộc.
Trong thực tế dữ liệu đầu vào cho bài toán phân cụm thường có
nhiễu và không chắc chắn, nhiều tác giả đã nghiên cứu phát triển
các thuật toán phân cụm sử dụng tập mờ loại 2 để giải quyết vấn đề
hoặc kết hợp tập mờ loại 2 với giải thuật di truyền và phương pháp
nhân và các phương pháp lai khác.
1.2.2Tổng quan về phân cụm mờ cộng tác
Phân cụm mờ cộng tác được Pedrycz giới thiệu như là công cụ
tìm ra những cấu trúc và đặc điểm tương đồng giữa các dữ liệu nằm
trên nhiều khu vực riêng biệt dựa trên cách mở rộng hàm mục tiêu và
cách tiếp cận phân cụm mờ của thuật toán FCM. Có 2 đặc điểm của
phân cụm mờ cộng tác, một là thông tin chi tiết trong các tập dữ liệu
không thể trao đổi với nhau mà chỉ có thể trao đổi thông tin về cấu
5
trúc, hai là cần xem xét việc phân cụm mờ ở tập dữ liệu này có tác
động tới việc phân cụm ở các tập dữ liệu khác, thông tin cấu trúc các
cụm trong từng tập dữ liệu là có ích trong việc phân cụm tại các tập
dữ liệu còn lại.
1.2.3 Phân cụm dữ liệu lớn
1.2.3.1 Dữ liệu lớn
Có 2 cách tiếp cận để giải quyết bài toán phân cụm dữ liệu lớn:
cách thứ nhất phân cụm trên toàn bộ dữ liệu, ví dụ một số thuật toán
cải tiến từ thuật toán FCM như: LFCM/AO, thuật toán SPFCM hay
OFCM các thuật toán này chia dữ liệu thành các tập nhỏ và phân
từng tập dữ liệu con thành c cụm; một cách tiếp cận khác là lấy mẫu
dữ liệu từ tập dữ liệu lớn để thực hiện phân cụm sau đó kết quả được
mở rộng xấp xỉ cho phần dữ liệu còn lại, ví dụ thuật toán rseFCM
hay thuật toán RSIO-FCM.
1.2.3.2 Một số thuật toán phân cụm dữ liệu lớn
a. Thuật toán FCM lấy mẫu ngẫu nhiên mở rộng
b. Thuật toán FCM có trọng số
c. Thuật toán spFCM
d. Thuật toán rseFCM sử dụng nhân
1.2.4 Một số kỹ thuật kết hợp nâng cao chất lượng phân cụm
1.2.4.1 Kỹ thuật nhân trong phân cụm
Một trong những thách thức của bài toán phân cụm là sự phức tạp
của dữ liệu, sự phức tạp có thể ở nhiều khía cạnh khác nhau như:
kích thước dữ liệu, sự đa dạng các loại thuộc tính, tính đa dạng của
dữ liệu nói chung. Một trong các cách phổ biến để phân lớp tuyến
tính một dữ liệu phi tuyến trong không gian đầu vào là sử dụng một
hàm nhân Mercer để làm phép ánh xạ ẩn.
6
1.2.4.2 Kỹ thuật siêu điểm ảnh trong phân cụm dữ liệu
Khái niệm về siêu điểm ảnh được Ren giới thiệu như là một tập
các điểm gần nhau có sự tương tự về màu hoặc mức xám. Bằng cách
chia ảnh cần phân đoạn thành các siêu điểm ảnh (super pixels) không
chồng nhau, thay vì thực hiện phân đoạn ảnh dựa trên các điểm ảnh
ta phân đoạn ảnh dựa trên các siêu điểm ảnh.
1.2.4.3 Tính toán hạt trong phân cụm
Tính toán hạt (Granular Computing – GrC) được đề xuất bởi
Zadeh, là một khái niệm bao gồm lý thuyết, phương pháp, kỹ thuật
và công cụ sử dụng hạt để giải quyết những vấn đề phức tạp trong xử
lý thông tin, thông tin cần xử lý trong tính toán hạt ta gọi là “hạt
thông tin” (Information Granules - IG), IG thường được tạo thành từ
các thực thể gồm các thông tin số tương tự nhau.
1.3 Những hạn chế của các nghiên cứu hiện có và mục tiêu
nghiên cứu
Khi giải quyết các bài toán phân cụm trong thực tế, ta thường gặp
những vấn đề như: vấn đề nhiễu, sự không chắc chắn của dữ liệu; sự
phức tạp trong cấu trúc cụm, cụm không có dạng khối cầu, sự chia
tách cụm không tuyến tính; dữ liệu lớn nhiều chiều và nhiều đối
tượng cần phân cụm. Những vấn đề này trong phân cụm mờ cộng tác
vẫn là một bài toán chưa có các nghiên cứu giải quyết, do đó mục
tiêu của luận án là nghiên cứu và đề xuất mô hình ứng dụng các kỹ
thuật này vào lớp bài toán phân cụm mờ cộng tác để giải quyết
những vấn đề trên. Cụ thể là:
- Nghiên cứu đề xuất mô hình ứng dụng tập mờ giá trị khoảng để
nâng cao chất lượng phân cụm mờ cộng tác khi dữ liệu đầu vào
không rõ ràng, không chắc chắn.
7
- Nghiên cứu đề xuất mô hình ứng dụng kỹ thuật đa nhân trong
phân cụm mờ cộng tác để nâng cao chất lượng phân cụm dữ liệu có
cấu trúc phức tạp và sự chia tách các cụm không tuyến tính.
- Nghiên cứu kỹ thuật gom điểm ảnh thành các hạt siêu điểm ảnh
và ứng dụng trong mô mình phân mờ cụm cộng tác đa nhân để giảm
độ phức tạp tính toán.
- Nghiên cứu đề xuất giải pháp giảm chiều dữ liệu bằng định lý
Johnson- Lindenstrauss và phân cụm mờ cộng tác cho bài toán phân
cụm dữ liệu nhiều chiều, kích thước lớn, độ phức tạp tính toán cao.
1.4 Những đóng góp chính của luận án
Luận án đã đề xuất ra hai thuật toán phân cụm mờ giá trị khoảng
cộng tác để nâng cao chất lượng phân cụm khi dữ liệu có nhiễu và
không chắc chắn của dữ liệu.
Luận án đề xuất được thuật toán phân cụm mờ cộng tác sử dụng
kỹ thuật đa nhân và tính toán hạt siêu điểm ảnh có trọng số để giải
quyết vấn đề nâng cao chất lượng phân cụm khi dữ liệu có sự phân
tách cụm không tuyến tính và giảm độ phức tạp trong tính toán khi
phân cụm ảnh bằng kỹ thuật tính toán hạt siêu điểm ảnh có trọng số.
Luận án cũng đã đưa ra một Framework ứng dụng thuật toán
phân cụm mờ cộng tác cho phân cụm dữ liệu lớn kết hợp giảm chiều
bằng phép chiếu ngẫu nhiên.
Các kết quả của luận án đã được công bố trong 5 công trình gồm
1 bài báo trong danh mục SCI Q1, một bài báo trong danh mục được
hội đồng chức danh giáo sư nhà nước tính điểm, 3 bài hội thảo quốc
gia và quốc tế (và 1 bài chờ duyệt tạp chí trong danh mục SCI Q1)
1.5 Kết luận chương 1
Chương này luận án tổng hợp lại các lý thuyết và kết quả nghiên
8
cứu về phân cụm dữ liệu gồm: phân cụm dữ liệu, phân cụm dữ liệu
mờ loại 1, mờ loại 2 và phân cụm mờ cộng tác.
Luận án đưa ra các câu hỏi cần nghiên cứu, các giải pháp cho các
câu hỏi đó sẽ được nghiên cứu và trình bày trong luận án.
Phần cuối chương trình bày tổng hợp các kiến thức cơ sở phục vụ
cho luận án như: tập mờ, phân cụm mờ, phân cụm mờ cộng tác.
Nhiều phương pháp xác định khoảng cách, độ đo tương tự và chỉ số
đánh giá chất lượng phân cụm cũng được tổng hợp và trình bày.
CHƯƠNG 2. PHÂN CỤM MỜ LOẠI 2 KHOẢNG CỘNG TÁC
Dữ liệu phân cụm thường có nhiễu và không chắc chắn mà
phân cụm mờ loại 1 thường không giải quyết tốt, chương này luận án
đề xuất sử dụng tập mờ giá trị khoảng để giải quyết vấn đề trên.
2.1 Phân cụm mờ loại 2 khoảng cộng tác
Hàm mục tiêu như sau:
Giá trị ma trận phân hoạch và tâm cụm xác định như sau:
)1
1
1/(
2
1=1,=
21=
2
1=1,=
2
1
])[]|[(
1
])[]|[(
1
=][
m
ks
c
k
P
iijjjj
js
c
j
ks
c
k
P
iijjjj
rs
m
rs
jjdjjiid
jjdjjiid
iiu
)1
2
1/(
2
1=1,=
21=
2
1=1,=
2
2
])[]|[(
1
])[]|[(
1
=][
m
ks
c
k
P
iijjjj
js
c
j
ks
c
k
P
iijjjj
rs
m
rs
jjdjjiid
jjdjjiid
iiu
][][]|[][= 22
1=1,=
][
1=
22
1=
][
1=
2
][ jjdiiujjiidiiuQ ik
m
ik
c
i
P
iijjjj
iiN
k
ik
m
ik
c
i
iiN
k
m
ii
][][]|[][= 21
1=1,=
][
1=
21
1=
][
1=
1
][ jjdiiujjiidiiuQ ik
m
ik
c
i
P
iijjjj
iiN
k
ik
m
ik
c
i
iiN
k
m
ii
9
][]|[][
][]|[][
=][
1
][
1=
1
][
1=
1
][
1=
1
][
1=1
iiujjiiiiu
jjvujjiixiiu
iiv
m
rk
iiN
k
m
rk
iiN
k
rt
m
rk
iiN
k
kt
m
rk
iiN
km
rt
][]|[][
][]|[][
=][
2
][
1=
2
][
1=
2
][
1=
2
][
1=2
iiujjiiiiu
jjvujjiixiiu
iiv
m
rk
iiN
k
m
rk
iiN
k
rt
m
rk
iiN
k
kt
m
rk
iiN
km
rt
2.2 Phân cụm mờ loại 2 khoảng cộng tác khi số cụm khác nhau
Hàm mục tiêu đề xuất như sau:
21
][
1=
][
1=
21
][
1=
][
1=
1
][ ])[
~][(][][= iiviiviiudiiuQ ii
m
ik
iic
i
iiN
k
ik
m
ik
iic
i
iiN
k
m
ii
22
][
1=
][
1=
22
][
1=
][
1=
2
][ ])[
~][(][][= iiviiviiudiiuQ ii
m
ik
iic
i
iiN
k
ik
m
ik
iic
i
iiN
k
m
ii
U và V để tối thiểu hóa cho hàm mục theo công thức:
1)
1
1/(
22
][
1=
22
1
)])[~][((
1
])[~][(
1
=][
m
jjjs
iic
j
rrrs
m
rs
iiviivd
iiviivd
iiu
1)
2
1/(
22
][
1=
22
2
)])[~][((
1
])[~][(
1
=][
m
jjjs
iic
j
rrrs
m
rs
iiviivd
iiviivd
iiu
][)(1
][~][
=][
1
][
1=
1
][
1=
1
][
1=1
iiu
iivuxiiu
iiv
m
rk
iiN
k
rt
m
rk
iiN
k
kt
m
rk
iiN
km
rt
][)(1
][~][
=][
2
][
1=
2
][
1=
2
][
1=2
iiu
iivuxiiu
iiv
m
rk
iiN
k
rt
m
rk
iiN
k
kt
m
rk
iiN
km
rt
2.3 Thuật toán phân cụm mờ loại 2 khoảng cộng tác (CIVFCM)
Thuật toán 2.1 Phân cụm mờ loại 2 khoảng cộng tác
Đầu vào: số tập dữ liệu P, số phần tử trong tập dữ liệu
thứ ii là N[ii], số cụm trong tập dữ liệu thứ ii là
10
c[ii], số thuộc tính của dữ liệu là M, dữ liệu trong tập
dữ liệu thứ ii là X[ii], số lần lặp tối đa 𝑡𝑚𝑎𝑥, thay đổi
ma trận phân hoạch sau 2 lần chạy tối thiểu 𝜀 và thay
đổi ma trận tâm cụm sau 2 lần chạy tối thiểu 𝜀1
Đầu ra: Kết quả phân cụm
Begin
Pha 1: Phân cụm trong từng datasite (Locally
Clustering)
Chạy các thuật toán phân cụm mờ với từng tập dữ liệu
Pha 2: Quá trình phân cụm cộng tác (Collaboration)
Repeat
Trao đổi tâm cụm tới tất cả các tập dữ liệu
For each data site D[ii]
Tính ma trận phân hoạch cộng tác u~
Tính ma trận hệ số cộng tác 𝛽
Repeat
Tính ma trận phân hoạch u
Tính ma trận tâm cụm v
Until|𝑈𝓉 − 𝑈𝓉−1| 𝑡𝑚𝑎𝑥.
End for
Until|𝑉𝑡 − 𝑉𝑡−1| 𝑡𝑚𝑎𝑥
End
2.4 Thử nghiệm và đánh giá
Để đánh giá kết quả hoạt động của thuật toán CIVFCM, thuật
toán phân cụm mờ cộng tác CFCM, thuật toán phân cụm mờ dựa trên
mật độ CFSFD được sử dụng để so sánh bằng các chỉ số đánh giá.
2.4.1 Thử nghiệm với dữ liệu sinh ngẫu nhiên
Bảng 2.2. Chỉ số đánh giá với thử nghiệm 2.1
CFCM CFSFD CIVFCM1 CIVFCM2
FS 11.554 NA 13.980 10.598
FSSE 833801.43 NA 436733.43 843230.91
DI 0.5753 0.6035 0.6208 0.5916
DB 1.6214 1.5163 1.5021 1.5230
PCI 3.5209 NA 3.9127 3.5721
CEI 2.6817 NA 1.9604 2.5992
SI 1.0457 1.1368 1.0062 1.0586
11
2.4.2 Thử nghiệm với dữ liệu S1, S41
Các chỉ số đánh giá trình bày trong bảng 1 và 2 cho thấy thuật
toán đề xuất có kết quả tốt hơn trong hầu hết các trường hợp.
Bảng 2.3 Chỉ số đánh giá của các thuật toán với dữ liệu S1
CFCM CFSFD CIVFCM1 CIVFCM2
FS 4.5381 NA 4.7142 4.6645
FSSE 1,004,183,637,717 NA 681,006,714,269 722,143,727,431
DI 0.4843 0.7324 0.5576 0.5448
DBI 1.6917 1.5654 1.5526 1.6524
PCI 2.0568 NA 2.9172 2.8211
CEI 4.7755 NA 2.8774 3.3848
SI 2.9499 1.5024 2.3910 2.6351
Bảng 2.4 Chỉ số đánh giá của các thuật toán với dữ liệu S4
CFCM CFSFD CIVFCM1 CIVFCM2
FS 3.6464 NA 3.6813 3.6721
FSSE 660,571,313,435 NA 521,849,610,363 603,423,516,250
DI 0.2234 0.5629 0.2305 0.5448
DBI 3.1118 3.3503 2.0419 3.1207
PCI 1.4510 NA 2.1642 1.9572
CEI 6.5427 NA 4.7711 5.3481
SI 1.1544 1.7297 0.9699 1.0254
2.4.3 Thử nghiệm với dữ liệu thời tiết Canada2
Giá trị chỉ số đánh giá phân cụm tốt nhất của các thuật toán được
thể hiện trong bảng 2.5 cho thấy các thuật toán đề xuất cho kết quả
tốt hơn, tốt nhất là CIVFCM1.
1https://cs.joensuu.fi/sipu/datasets/
2
12
Bảng 2.5 Chỉ số đánh giá của các thuật toán với dữ liệu thời thiết
CFCM CFSFD
CIVFCM1
(m1, m2)
CIVFCM2
(m1, m2)
FS 12.309 NA
14.2741
(1.8,3)
12.7577
(2,2.8)
FSSE 490.37 NA 387(1.8,3) 469(2, 2.8)
DI 0.2247 0.2401 0.2398 (2, 2.8) 0.2287(2, 2.6)
DBI 5.0594 5.2677 4.09(1.4,2.8) 4.05(2,3)
PCI 2.7768 NA 3.5506(1.8, 3) 2.8012(2, 2.4)
CEI 1.9078 NA 0.9368(1.8, 3) 1.7078(2, 3)
SI 0.4329 0.7669 0.3812(1.8, 3) 0.423(2,3)
2.4.4 Thử nghiệm với dữ liệu ảnh vệ tinh
Dữ liệu ảnh vệ tinh khu vực Hà Nội và Bảo lộc. Sử dụng dữ liệu 2
ảnh này như tập dữ liệu cho thuật toán phân cụm cộng tác để chia
làm 6 cụm tương ứng với 06 vùng bề mặt trái đất.Kết quả cho thấy tỷ
lệ sai khác của thuật toán CFCM, CFSFD, CIVFCM1,2 với dữ liệu
DNRS vùng Hà Nội lần lượt là 8,30%; 8,68%; 4.75% và 7,16%,
tương tự với vùng Bảo lộc là 13.94%, 14.46%, 8.45% và 2.53%.
Thuật toán CIVFCM1 là tốt nhất về chỉ số đánh giá và sự sai khác
nhỏ nhất so với dữ liệu gốc.
[Ảnh gốc Hà Nội]
[CFCM]
[CIVFCM1]
13
[CIVFCM2]
[CFSFD]
[Ảnh gốc Bảo lộc]
[CFCM]
[CIVFCM1]
[CIVFCM2]
[CFSFDP]
Hình 2.5 Kết quả phân cụm Hà Nội và Bảo Lộc theo các thuật toán
Bảng 2.8 Chỉ số đánh giá chất lượng phân cụm các thuật toán
CFCM CFSFD CIVFCM1 CIVFCM2
FS 6.2762 NA 6.941 6.35
FSSE 1458 NA 1290 1429
DI 0.1073 0.1501 0.111 0.10
14
DBI 1.0875 1.1341 1.01 1.033
PCI 0.8879 NA 1.442 1.130
CEI 2.0958 NA 1.121 1.816
SI 0.5751 0.9157 0.1942 0.423
2.4.5 Một số đánh giá
Các thử nghiệm cho thấy thuật toán đề xuất có kết quả tốt nhất
trong hầu hết các chỉ số đánh giá.
Thuật toán đề xuất phân cụm mờ loại 2 khoảng CIVFCM sẽ có
hiệu quả tốt hơn nhiều khi dữ liệu có nhiễu, không chắc chắn trong
thực tế được thu thập bởi các cảm biến như dữ liệu thời tiết hoặc ảnh
vệ tinh thì thuật toán đề xuất cho kết quả tốt hơn hẳn.
Thử nghiệm với dữ liệu ảnh vệ tinh cho ta một hướng ứng dụng
hợp lý của phân cụm cộng tác.
Độ phức tạp tính toán trình bày trong bảng 2.8 cho thấy các
thuật toán sử dụng tập mờ loại 2 nói chung cũng như thuật toán đề
xuất CIVFCM có độ phức tạp tính toán cao hơn các thuật toán sử
dụng tập mờ loại 2. Tuy nhiên các thuật toán này sẽ cho chất lượng
tốt hơn khi giải quyết dữ liệu có nhiễu và không chắc chắn.
Bảng 2.9 Độ phức tạp tính toán của các thuật toán
STT Thuật toán Độ phức tạp tính toán
1 CFCM NMC2P2
2 CFSFD NMC2P
3 CIVFCM NMC3P3
2.5 Kết luận chương 2
Trong chương này, luận án đã đề xuất ra thuật phân cụm mờ loại
2 khoảng cộng tác trong đó sử dụng tập mờ giá trị khoảng để tăng
chất lượng phân cụm khi dữ liệu đầu vào có nhiễu, không chắc chắn.
Thuật toán đề xuất đặc biệt tốt hơn hẳn trong với các dữ liệu thời
tiết và dữ liệu ảnh vệ tinh, đây là các dữ liệu thực tế và chịu ảnh
15
hưởng bởi các yếu tốt khách quan khi thu thập bởi các cảm biến dẫn
đễn nhiễu và không rõ ràng.
Các đề xuất được công bố trong [III], [V].
CHƯƠNG 3. MỘT SỐ CẢI TIẾN VÀ ỨNG DỤNG THUẬT
TOÁN PHÂN CỤM MỜ CỘNG TÁC
3.1 Phân cụm mờ cộng tác đa nhân dựa trên tính toán hạt siêu
điểm ảnh
3.1.1 Phân cụm mờ cộng tác đa nhân
Hàm mục tiêu cho thuật toán phân cụm mờ cộng tác đa nhân:
[ ] [ ]
2 2 ~ 2 2
[ ]
1 1 1 1, 1
[ ]( (x ) ) [ | ] ( [ | ]) ( (x ) )
N ii N iic P c
ii ik k i ik ik k i
k i k jj jj ii i
Q u ii v ii jj u u ii jj v
Ma trận phân hoạch để hàm mục tiêu trên đạt giá trị tối thiểukhi:
~ ~
1, 1,
2
1
2
1, 1,1
[ | ] [ | ] [ | ] [ | ]
1
1
(1 [ | ]) (1 [ | ])
P P
rs jsc
jj jj ii jj jj ii
rs P Pc
jrs
jj jj ii jj jj iij js
ii jj u ii jj ii jj u ii jj
u
d
ii jj ii jj
d
2 2
1
M
ik ikt t
t
d
[ ] [ ]
2 ~ 21
1 1 1 1, 1
[ ] [ ]
2 ~ 2
1 1 1 1, 1
1
1
[ ] [ | ] ( [ | ])
[ ] [ | ] ( [ | ])
M
N ii N iic P c
t
ik ikt ik ik ikt
k i k jj jj ii i
t N ii N iic P c
ik ikt ik ik ikt
k i k jj jj ii i
u ii ii jj u u ii jj
u ii ii jj u u ii jj
[ ] [ ]
2 ~ 2
1 1 1,
[ ] [ ]
2 ~ 2
1 1 1,
[
2 2
1 2 1 2
2 1
[ ] ( , ) [ | ]( [ | ]) ( , )
( , ) 2
[ ] [ | ]( [ | ])
[ ] [ ] ( , )
N ii N ii P
ij t k j ij ij t k j
j j jj jj ii
ikt t k k N ii N ii P
ik ij ij
j j jj jj ii
N
ij ij t j j
j
u ii K x x ii jj u u ii jj K x x
K x x
u ii ii jj u u ii jj
u ii u ii K x x
[ ] ] [ ] [ ]
2 ~ 2
1 2 2 1 2
1 1 1 1 2 1 1,
2
[ ] [ ]
2 ~ 2
1 1 1 1 1,
2 ~ 2
1 1
2 [ | ] ( [ | ]) ( , )
[ ] [ | ]( [ | ])
[ | ]( [ | ]) (
N ii ii N ii N ii P
ij ij ij t j j
j j j jj jj ii
N ii N ii P
ik ij ij
j j jj jj ii
ij ij ij
ii jj u u u ii jj K x x
u ii ii jj u u ii jj
ii jj u u ii jj u
[ ] [ii]
~ 2
2 2 1 2
1, 1 1 2 1
2
[ ] [ ]
2 ~ 2
1 1 1 1 1,
[ | ]) ( , )
[ ] [ | ]( [ | ])
N ii NP
ij t j j
jj jj ii j j
N ii N ii P
ik ij ij
j j jj jj ii
u ii jj K x x
u ii ii jj u u ii jj
M n
16
3.1.2 Tạo hạt siêu điểm ảnh (Super-pixel granulation)
Luận án đề xuất sử dụng phương pháp tạo hạt thông tin bằng
“Thuật toán 1.2. Tính siêu điểm ảnh SLIC”, các đối tượng dữ liệu
cần phân cụm sẽ được nhóm lại thành các hạt như bước tiền xử lý và
được sử dụng để phân cụm mờ cộng tác dựa trên đa nhân với giá trị
hạt chính là giá trị tâm cụm đầu ra của thuật toán SLIC.
3.1.3 Phân cụm mờ cộng tác đa nhân dựa trên tính toán hạt siêu
điểm ảnh có trọng số
Sử dụng hạt siêu điểm ảnh làm đầu vào cho phân cụm mờ cộng
tác, mỗi siêu điểm ảnh có trọng số 𝜑𝑘,hàm mục tiêu như sau:
[ ] [ ]
2 2 ~ 2 2
[ ]
1 1 1 1, 1
[ ]( (x ) ) [ | ] ( [ | ]) ( (x ) )
N ii N iic P c
ii k ik k i ik ik k i
k i k jj jj ii i
Q u ii v ii jj u u ii jj v
Ma trận phân hoạch để hàm mục tiêu trên đạt giá trị tối thiểukhi:
𝑢𝑖𝑘
=
∑ 𝛽[𝑖𝑖|𝑗𝑗] iku
~ [ii|jj] 𝑑𝑖𝑘
2𝑃
𝑖𝑖=1,𝑗𝑗≠𝑖𝑖 +
1−∑
∑ 𝛽[𝑖𝑖|𝑗𝑗] iku
~
[ii|jj]𝑃𝑖𝑖=1,𝑗𝑗≠𝑖𝑖
(𝜑𝑘+∑ 𝛽[𝑖𝑖|𝑗𝑗]𝑃𝑖𝑖=1,𝑗𝑗≠𝑖𝑖 )
𝑐
𝑖=1
∑
1
(𝜑𝑘+∑ 𝛽[𝑖𝑖|𝑗𝑗])𝑑𝑖𝑘2𝑃𝑖𝑖=1,𝑗𝑗≠𝑖𝑖
𝑐
𝑖=1
(𝜑𝑘 + ∑ 𝛽[𝑖𝑖|𝑗𝑗])𝑑𝑖𝑘
2𝑃
𝑖𝑖=1,𝑗𝑗≠𝑖𝑖
2 2
1
M
ik ikt t
t
d
[ ] [ ]
2 ~ 21
1 1 1 1, 1
[ ] [ ]
2 ~ 2
1 1 1 1, 1
1
1
[ ] [ | ] ( [ | ])
[ ] [ | ] ( [ | ])
M
N ii N iic P c
t
k ik ikt ik ik ikt
k i k jj jj ii i
t N ii N iic P c
k ik ikt ik ik ikt
k i k jj jj ii i
u ii ii jj u u ii jj
u ii ii jj u u ii jj
17
[ ] [ ]
2 ~ 2
1 1 1,
[ ] [ ]
2 ~ 2
1 1 1,
2 2
1 2 1 2 1
[ ] ( , ) [ | ]( [ | ]) ( , )
( , ) 2
[ ] [ | ]( [ | ])
[ ] [ ] ( ,
N ii N ii P
j ij t k j ij ij t k j
j j jj jj ii
ikt t k k N ii N ii P
j ik ij ij
j j jj jj ii
j j ij ij t j
u ii K x x ii jj u u ii jj K x x
K x x
u ii ii jj u u ii jj
u ii u ii K x
[ ] [ ] [ ] [ ]
2 ~ 2
2 1 2 2 1 2
1 1 2 1 1 1 2 1 1,
2
[ ] [ ]
2 ~ 2
1
1 1 1 1 1,
2
1 2 1
) 2 [ | ] ( [ | ]) ( , )
[ ] [ | ]( [ | ])
[ | ](
N ii N ii N ii N ii P
j ij ij ij t j j
j j j j jj jj ii
N ii N ii P
j ik ij ij
j j jj jj ii
j j ij
x ii jj u u u ii jj K x x
u ii ii jj u u ii jj
ii jj u
[ ] [ii]
~ 2 ~ 2
1 2 2 1 2
1, 1 1 2 1
2
[ ] [ ]
2 ~ 2
1
1 1 1 1 1,
[ | ]) ( [ | ]) ( , )
[ ] [ | ]( [ | ])
N ii NP
ij ij ij t j j
jj jj ii j j
N ii N ii P
j ik ij ij
j j jj jj ii
u ii jj u u ii jj K x x
u ii ii jj u u ii jj
3.1.4 Thuật toán phân mờ cụm cộng tác đa nhân.
Thuật toán 3.1 MKCFCM/SMKCFCM
Đầu vào: P tập dữ liệu D’[ii], số phần tử trong tập dữ
liệu thứ ii là N’[ii], số cụm trong tập dữ liệu thứ ii
là c[ii], số thuộc tính của dữ liệu là M, dữ liệu trong
tập dữ liệu thứ ii là X’[ii], số lần lặp tối đa 𝑡𝑚𝑎𝑥 ,
thay đổi ma trận phân hoạch sau 2 lần chạy tối thiểu 𝜀
và thay đổi ma trận tâm cụm sau 2 lần chạy tối thiểu 𝜀1
Đầu ra: Ma trận phân hoạch kết quả phân cụm
Begin
Pha 1: Tính siêu điểm ảnh và phân cụm cục bộ
1.1 Tính toán hạt siêu điểm ảnh theo thuật toán
SLIC được đầu ra là P tập dữ liệu D[ii] gồm N[ii]
siêu điểm ảnh cho mỗi tập.
1.2 Phân cụm tại mỗi tập dữ liệu hạt siêu điểm ảnh bằng
thuật toán IT2FCM
Phase 2: Phân cụm cộng tác
Repeat
Trao đổi ma trận phân hoạch và tâm cụm giữa các tập dữ
liệu D[ii]
For each data site D[ii].
Tính ma trận phân hoạch cộng tác u~
Tính ma trận hệ số cộng tác 𝛽
Repeat
Tính ma trận α
Tính ma trận trọng số ω
Tính ma trận phân hoạch u
18
Until|𝑈𝓉 − 𝑈𝓉−1| 𝑡𝑚𝑎𝑥.
End for
Until|𝑉𝑡 − 𝑉𝑡−1| 𝑡𝑚𝑎𝑥
End
3.1.5 Thử nghiệm và đánh giá
Thử nghiệm so sánh hiệu quả của nó với các thuật toán
IIT2FCM, thuật toán CFCM và thuật toán FCM. Dữ liệu thử nghiệm
gồm ba tập là ảnh vệ tinh: TP. Thanh Hóa; TP. Thái Nguyên; H. Kỳ
Hợp Nghệ An với kênh 3 và 4.
Bảng 3.2 Chỉ số đánh giá phân cụm cho TP. Thanh Hóa
FCM CFCM IIT2FCM MKCFCM SMKCFCM
FS 2.3456 3.7612 3.9871 4.6735 4.7867
SSE 156.5873 122.8734 98.8745 88.7621 81.6784
DI 0.1254 0.3549 0.7875 0.7963 0.8058
DBI 5.6712 4.7643 1.3794 1.2623 1.2837
PCI 0.4533 0.6823 0.7862 0.8632 0.8751
CEI 4.7829 2.8961 0.9982 0.9985 0.9985
SI 0.9673 0.7862 0.4672 0.3672 0.2871
XBI 0.378424 0.276494 0.138232 0.148723 0.129408
CLI 0.865314 0.897023 0.965734 0.9553116 0.978963
GCI 3.7287452 2.9826426 2.676874 2,8749717 2.074824
19
DT 10.317% 6.739% 1.968% 0.596% 1.014%
Bảng 3.4 Chỉ số đánh giá phân cụm cho TP. Thái Nguyên
FCM CFCM IIT2FCM MKCFCM SMKCFCM
FS 2.1983 3.2985 4.2761 4.3872 4.4893
SSE 123.8763 119.2763 106.2745 98.8736 91.8763
DI 0.2437 0.3894 0.7658 0.8162 0.8641
DBI 6.2872 4.6253 1.5621 1.3876 1.299
PCI 0.2872 0.7982 0.8742 0.9031 0.9082
CEI 3.7624 2.0983 0.7761 0.5712 0.4826
SI 0.9487 0.7183 0.3981 0.4128 0.3983
XBI 0.465274 0.382749 0.208592 0.187264 0.177628
CLI 0.838759 0.865848 0.959247 0.923948 0.950831
GCI 4.284826 4.194786 3.682747 3.194982 2.687764
DT 7.736% 5.664% 2.728% 1.520% 1.002%
Bảng 3.6 Chỉ số đánh giá phân cụm cho H. Quỳ Hợp
FCM CFCM IIT2FCM MKCFCM SMKCFCM
FS 3.3872 3.8762 4.8723 4.8692 4.9071
SSE 206.7843 178.3985 158.7814 140.8757 129.9856
DI 0.1107 0.3215 0.6534 0.6873 0.7109
DBI 5.7823 4.2761 2.6715 1.2313 1.0871
PCI 0.3652 0.7652 0.8802 0.8891 0.8895
CEI 2.7632 1.0963 0.4516 0.2511 0.2501
SI 0.9762 0.7965 0.4978 0.3123 0.3082
XBI 0.309846 0.237452 0.168982 0.158749 0.108414
CLI 0.769829 0.828769 0.946924 0.960845 0.959482
GCI 2.857827 2.276144 1.826746 1.439173 1.138756
DT 10.214% 8.146% 3.056% 1.061% 0.834%
Bảng 3.7 Thời gian tính của các thuật toán
Thời gian (giây) FCM IIT2FCM CFCM MKCFCM SMKCFCM
Thanh Hóa 63.8742 98.7263
326.7263
417.8723
206.7282
Thái Nguyên 128.8233 196.8772
Quỳ Hợp 93.8729 136.7824
Tổng thời gian tính 286.5704 432.3859 326.7263 417.8723 206.7282
3.2 Phân cụm dữ liệu lớn dựa trên thuật toán phân cụm mờ cộng
tác và giảm chiều dữ liệu
20
3.2.1 Kỹ thuật giảm chiều dữ liệu theo định lý Johnson
Lindenstrauss
Thuật toán 3.2 Giảm chiều dữ liệu
Đầu vào: Tập dữ liệu𝑋 = {𝑥1, 𝑥2, , 𝑥𝑛} ∈ 𝑅
𝑝, p là số chiều ban
đầu, , và độ phân mảnh s.
Đầu ra: dữ liệu sau giảm chiều Y= {𝑥1, 𝑥2, , 𝑥𝑛} ∈ 𝑅
𝑚
Begin
Tính giá gị m từ theo công thức (4.4)
Tính ma trận G(m,k) theo phân phối Gaussian
Tính ma trận ngẫu nhiên A với giá trị 0 hoặc 1
Tính ma trận nhân Hadamard Φs = 𝐴𝑠𝑜𝐺
Tính ma trận ngẫu nhiên Ψs = √
2
π
s
m
Φs
Tính ma trận đầu ra Y=XoΨs
End
3.2.2 Phân cụm dữ liệu lớn dựa trên thuật toán phân cụm cộng tác
và giảm chiều dữ liệu
Mô hình và thuật toán đề xuất đã hướng đến giải quyết vấn đề kích
thước dữ liệu bằng cách giảm cả số cột và số hàng của dữ liệu.
21
Hình 3.10 Mô hình phân cụm dữ liệu lớn.
3.2.3 Thử nghiệm và đánh giá
Để đánh giá mô hình đề xuất, thử nghiệm được tiến hành trên 3
tập dữ liệu với 05 và thời gian chạy để so sánh thuật toán RPFR-
CFCM với các thuật toán FCM, rseFCM, spFCM, rsekFCM
3.2.3.1 Tập dữ liệu văn bản
Bảng 3.8 Chỉ số đánh giá và thời gian tính toán với dữ liệu NIPS
DI SI DBI XBI PCI
Thời gian
(s)
RPFR - CFCM 0.8257 0.4251 2.0473 3.1201 0.1308 106
FCM 0.8024 0.4915 3.1546 3.5434 0.0915 598
rseFCM1 0.6841 0.6841 6.2381 5.0143 0.0848 46
rseFCM5 0.7035 0.6438 5.8472 4.8647 0.0861 63
rseFCM10 0.7543 0.6005 5.5142 4.5116 0.0917 81
spFCM 0.7816 0.6249 4.0651 4.0130 0.0958 100
rsekFCM1 0.6438 0.7365 6.3147 4.6527 0.0894 64
rsekFCM5 0.6752 0.7152 5.8461 4.5239 0.0911 78
22
rsekFCM10 0.6915 0.7009 5.5208 4.1035 0.0936 86
3.2.3.2 Thử nghiệm với dữ liệu nhận dạng bệnh động kinh(EEG)3
Bảng 3.9 Chỉ số đánh giá và thời gian tính toán với dữ liệu EEG
DI SI DBI XBI PCI
Thời gian
(s)
RPFR - CFCM 0.6251 0.3652 3.2471 2.7614 0.5163 73
FCM 0.6197 0.3729 3.3621 3.9716 0.4327 235
rseFCM1 0.3145 0.5841 5
Các file đính kèm theo tài liệu này:
- tom_tat_luan_an_phat_trien_mot_so_mo_hinh_phan_cum_mo_cong_t.pdf