MỤC LỤC
Lời cam đoan .1
Lời cảm ơn.2
MỤC LỤC .3
Danh mục các từ viết tắt.7
Danh mục các ký hiệu toán học.9
Danh mục các bảng.11
Danh mục các hình vẽ, đồ thị .12
Danh mục các định nghĩa, định lý, bổ đề .13
Danh mục các thuật toán .13
MỞ ĐẦU .14
CHƯƠNG 1.19
TỔNG QUAN VỀ CÁC MÔ HÌNH MẠNG NƠRON TỰ TỔ CHỨC.19
1.1. Tổng quan về mạng nơron nhân tạo .19
1.1.1. Khái niệm mạng nơron nhân tạo.19
1.1.2. Các kiến trúc căn bản của mạng nơron nhân tạo .20
1.1.3. Các phương pháp học.21
1.1.4. Lịch sử và xu hướng phát triển mạng nơron nhân tạo .23
1.2. Mạng nơron tự tổ chức.25
1.2.1. Cấu trúc mạng nơron tự tổ chức.25
1.2.2. Thuật toán học của mạng nơron tự tổ chức.26
1.2.3. Đánh giá chất lượng bản đồ đặc trưng của mạng nơron tự tổ chức.29
1.3. Hạn chế của mạng nơron tự tổ chức và các biện pháp khắc phục.32
1.4. Kết quả nghiên cứu trong và ngoài nước về cải tiến cấu trúc, phương pháp học
của mạng nơron tự tổ chức .35
1.4.1. Kết quả nghiên cứu trong nước.35
1.4.2. Kết quả nghiên cứu ngoài nước .35
1.5. Đặc điểm chung của các phương thức cải tiến mạng nơron tự tổ chức.41
1.6. Kết luận chương 1.43
CHƯƠNG 2.444
HAI PHƯƠNG THỨC CẢI THIỆN CHẤT LƯỢNG BẢN ĐỒ ĐẶC TRƯNG CỦA
MẠNG NƠRON TỰ TỔ CHỨC .44
2.1. Tổng quan về cải thiện chất lượng bản đồ đặc trưng của mạng nơron tự tổ chức.44
2.2. Điều chỉnh hàm lân cận để cải thiện chất lượng bản đồ đặc trưng.46
2.2.1. Một số dạng hàm lân cận của mạng nơron tự tổ chức .46
2.2.2. Điều chỉnh tham số của hàm lân cận đối xứng dạng mũ .47
2.3. Thuật toán điều chỉnh trọng số nơron để giảm lỗi lượng tử .51
2.3.1. Đặt vấn đề .51
2.3.2. Thuật toán điều chỉnh trọng số nơron .57
2.4. Các tập dữ liệu sử dụng cho thực nghiệm.60
2.5. Thực nghiệm hàm lân cận mũ với tham số điều chỉnh.62
2.5.1. Mục tiêu thực nghiệm .62
2.5.2. Phương pháp thực nghiệm .62
2.5.3. Các tham số khởi tạo mạng.62
2.5.4. Kết quả thực nghiệm .63
2.5.5. So sánh hàm lân cận điều chỉnh với một số dạng hàm lân cận khác .72
2.6. Thực nghiệm thuật toán Batch-IMQS .73
2.6.1. Mục tiêu thực nghiệm .73
2.6.2. Phương pháp thực nghiệm .73
2.6.3. Các tham số khởi tạo mạng.73
2.6.4. Kết quả thực nghiệm .73
2.7. Kết luận chương 2.75
CHƯƠNG 3.76
MỘT MẠNG NƠRON TỰ TỔ CHỨC CÓ CẤU TRÚC PHÂN TẦNG TĂNG
TRƯỞNG VÀ THUẬT TOÁN HỌC BÁN GIÁM SÁT CHO BÀI TOÁN PHÂN LỚPDỮ LIỆU .76
3.1. Tổng quan về các mạng nơron tự tổ chức cải tiến học giám sát, bán giám sát cho
phân lớp dữ liệu .76
3.2. Phát biểu bài toán phân lớp dữ liệu .79
3.3. Một cấu trúc phân tầng tăng trưởng và thuật toán học bán giám sát của mạng
nơron tự tổ chức cho bài toán phân lớp dữ liệu .79
3.3.1. Các cấu trúc nền tảng để xây dựng mạng nơron tự tổ chức phân tầng tăng
trưởng học bán giám sát cho phân lớp dữ liệu.805
3.3.2. Cấu trúc mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát cho
phân lớp dữ liệu.83
3.3.3. Thuật toán huấn luyện và kiểm thử của mạng nơron tự tổ chức phân tầng
tăng trưởng học bán giám sát cho phân lớp dữ liệu .87
3.4. Thực nghiệm mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát
cho phân lớp dữ liệu.92
3.4.1. Mục tiêu thực nghiệm .92
3.4.2. Phương pháp thực nghiệm .92
3.4.3. Các tham số khởi tạo mạng.93
3.4.4. Kết quả thực nghiệm .93
3.4.5. So sánh mô hình đề xuất với một số phương thức khác .96
3.5. Kết luận chương 3.101
CHƯƠNG 4.102
MỞ RỘNG CẤU TRÚC, THUẬT TOÁN HỌC CỦA MẠNG NƠRON TỰ TỔ
CHỨC CHO BÀI TOÁN PHÂN CỤM DỮ LIỆU .102
4.1. Tổng quan về sử dụng mạng nơron tự tổ chức cho phân cụm dữ liệu .102
4.2. Phát biểu bài toán phân cụm dữ liệu.105
4.3. Cải tiến thuật toán học mạng nơron tự tổ chức cho phân cụm dữ liệu.106
4.3.1. Ý tưởng của thuật toán cải tiến .106
4.3.2. Thuật toán học cải tiến của mạng nơron tự tổ chức cho phân cụm dữ liệu.109
4.4. Mở rộng cấu trúc mạng nơron tự tổ chức cho phân cụm dữ liệu .111
4.4.1. Cấu trúc mạng nơron tự tổ chức mở rộng hai lớp.112
4.4.2. Thuật toán huấn luyện mạng nơron tự tổ chức mở rộng hai lớp .112
4.5. Thực nghiệm thuật toán học cải tiến và mạng tự tổ chức mở rộng hai lớp .116
4.5.1. Mục tiêu thực nghiệm .116
4.5.2. Phương pháp thực nghiệm .117
4.5.3. Các tham số khởi tạo mạng.117
4.5.4. Kết quả thực nghiệm .117
4.5.5. So sánh các phương thức đề xuất với một số phương thức khác.118
4.6. Kết luận chương 4.121
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI LUẬN ÁN .123
CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH .125
TÀI LIỆU THAM KHẢO .1266
PHỤ LỤC .134
Phụ lục 1: Một số độ đo theo cặp đánh giá chất lượng gom cụm.134
Phụ lục 2: Độ chính xác phân loại (Accuracy) .136
138 trang |
Chia sẻ: lavie11 | Lượt xem: 613 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận án Phát triển các cấu trúc, thuật học của mạng nơron tự tổ chức, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Đặt Q là tổng giá trị lỗi của mạng so với tập dữ liệu, ta có:
1 2 .. ..i s i jQ Q Q Q Q Q Q Q (2.12)
trong đó, Q là tổng giá trị lỗi của mạng nhưng không bao gồm các giá trị lỗi của nơron
i và nơron j.
55
1, ,
s
k
k k i k j
Q Q
(2.13)
Đặt iQ là giá trị lỗi của nơron i xét trên tập \i iI I x , ta có:
,i i iQ Q d x w (2.14)
Từ (2.14) suy ra:
,i i iQ Q d x w (2.15)
Đặt
jQ là giá trị lỗi của nơron j xét trên tập j jI I x , ta có:
,j j jQ Q d x w (2.16)
Gọi Q* là tổng giá trị lỗi của mạng sau khi chuyển mẫu dữ liệu x từ tập Ii đến tập
Ij, ta có:
*
i j
Q Q Q Q (2.17)
Gọi QE* là lỗi lượng tử của mạng sau khi chuyển mẫu dữ liệu x từ tập Ii đến tập Ij,
ta có:
* *
1
QE Q
N
(2.18)
Từ giả thiết : , w , wi j ix I d x d x với i j, ta có:
, ,i j i iQ d x w Q d x w (2.19)
Thay (2.15) vào (2.19) ta có:
,i j iQ d x w Q (2.20)
Công thức (2.20) tương đương với:
,i j j i jQ d x w Q Q Q (2.21)
Thay (2.16) vào (2.21) ta có:
56
i j i jQ Q Q Q (2.22)
Công thức (2.22) tương đương với:
i j i jQ Q Q Q Q Q (2.23)
Thay (2.12), (2.17) vào (2.23) ta có:
*Q Q (2.24)
Từ (2.11), (2.18) và (2.24) suy ra: *QE QE
Hệ quả.
Cho Ii, Ij và Ik là các tập dữ liệu được đại diện tương ứng bởi các nơron i, j và k;
mẫu dữ liệu x là “phần tử khác biệt” của nơron i đối với đồng thời cả hai nơron j và k
(với xIi, i≠j, i≠k, j≠k). Giả sử,
*
( )jQE là lỗi lượng tử của mạng nếu \i iI I x và
j jI I x ;
*
( )kQE là lỗi lượng tử của mạng nếu \i iI I x và k kI I x . Ta có,
* *
( ) ( )j kQE QE khi và chỉ khi các khoảng cách , ,j kd x w d x w [6A].
Chứng minh Hệ quả:
Gọi *( )jQ là tổng giá trị lỗi của mạng nếu x được cập nhật vào Ij, ta có:
*( ) , ,j i jQ Q d x w d x w (2.25)
Gọi *( )kQ là tổng giá trị lỗi của mạng nếu x được cập nhật vào Ik, ta có:
*( ) , ,k i kQ Q d x w d x w (2.26)
Từ giả thiết , ,j kd x w d x w , ta có:
, , , ,i j i kQ d x w d x w Q d x w d x w (2.27)
Công thức (2.27) tương đương với:
* * * *( ) ( ) ( ) ( )j k j kQ Q QE QE (2.28)
57
Do vậy, quá trình giảm QE cần lặp lại hai bước:
- Bước 1: Gán vector trọng số của mỗi nơron bằng tâm cụm dữ liệu mà nó đại
diện.
- Bước 2: Cạnh tranh “phần tử khác biệt” giữa các nơron để xác định lại các tập
con dữ liệu mà mỗi nơron đại diện.
2.3.2. Thuật toán điều chỉnh trọng số nơron
Từ những lập luận trên, để giảm lỗi lượng tử QE của bản đồ đặc trưng, nghiên cứu
sinh đưa ra thuật toán IMQS (Improving Map Quality of SOM) gồm hai bước:
- Bước 1: Xác định các tập con Ii của I={I1, I2,.., Is}, với i=1..s
- Bước 2: Lặp lại quy tắc cạnh tranh “phần tử khác biệt” giữa tất cả các nơron cho
tới khi thỏa mãn điều kiện dừng. Điều kiện dừng là: không tồn tại bất kỳ “phần
tử khác biệt” nào hoặc ||QE-QE*||<, với là một giá trị ngưỡng tùy chọn.
Quy tắc cạnh tranh “phần tử khác biệt” giữa nơron i và các nơron khác như sau:
Với ix I , , ,i j i k j k ,
nếu , ,j id x w d x w và , ,k id x w d x w và , ,j kd x w d x w
thì
\i iI I x ; j jI I x ;
1
1 i
I
i v
vi
center x
I
;
1
1 j
I
j v
vj
center x
I
;
i iw center ; j jw center
Thuật toán IMQS được trình bày như sau:
IMQS
Vào:
- Tập dữ liệu V={xi|i=1,2,...,N}, với xi=(v1,v2,...,vn)Rn
- Tập vector trọng số của các nơron W={wj, j=1,2,...,s}, với wj=(wj1, wj2,..., wjn) Rn,
s=ab, trong đó ab kích thước lớp Kohonen
58
- Ngưỡng
Ra:
Mạng nơron SOM với tập trọng số W đã thỏa mãn một trong các điều kiện:
- Không tồn tại bất kỳ “phần tử khác biệt” nào
- Hoặc ||QE-QE*||<
/* Xác định các tập con Ii của I={I1, I2,.., Is}, với i=1..s */
Khởi tạo các tập con Ij=empty, với j=1..s;
for i=1 to N do
k= BMU_search(xi); Ik=Ik {xi}
end for
/* Cạnh tranh “phần tử khác biệt” giữa các nơron */
QEnew=CheckQE();
Lặp:
QE=QEnew; flag=0;
for i=1 to s do
for each x in Ii do
dk=maxDouble; k=0;
for j=1 to s do
if ji and , ,j id x w d x w and , jd x w dk then
, jdk d x w ; k=j;
end if
end for
if k0 then
\i iI I x ; k kI I x ;
wi=Center_of_Cluster(Ii);
wk=Center_of_Cluster(Ik);
flag = flag +1;
end if
end for
end for
QEnew= CheckQE();
Cho tới khi: ||QE- QEnew|| < hoặc flag =0
59
Ghi chú:
- Hàm BMU_search(x) trả về chỉ số của nơron có trọng số khớp nhất với vector dữ
liệu x, độ phức tạp tính toán là O(sn)
- Hàm Center_of_Cluster(Ii) trả về vector tâm cụm của tập con Ii, độ phức
tạp tính toán là O(Nn)
- Hàm CheckQE() tính lỗi lượng tử tích lũy theo tổng số N mẫu của tập huấn luyện,
độ phức tạp tính toán là O(Nsn).
Độ phức tạp của thuật toán IMQS là ~O(N2snm) (giả sử m là số lần lặp cho tới
khi thỏa mãn điều kiền dừng). Để giảm thời gian tính toán, một phiên bản cải tiến xử lý
theo bó của thuật toán IMQS được đề xuất được gọi là gọi là Batch-IMQS. Thuật toán
Batch-IMQS lặp lại hai bước sau cho tới khi thỏa mãn điều kiện dừng:
- Bước 1: Xác định các tập con Ii của I={I1, I2,.., Is}, với i=1..s
- Bước 2: Tính các vector tâm cụm centeri, và gán wi = centeri, với i=1..s.
Batch-IMQS
Vào:
- Tập dữ liệu V={xi|i=1,2,...,N}, với xi=(v1,v2,...,vn)Rn
- Tập vector trọng số của các nơron W={wj, j=1,2,...,s}, với wj=(wj1, wj2,..., wjn)Rn,
s=ab, trong đó ab kích thước lớp Kohonen
- Ngưỡng
Ra:
Mạng nơron SOM với tập trọng số W đã thỏa mãn điều kiện: ||QE-QE*||<
QEnew=CheckQE();
Lặp:
QE=QEnew;
/* Xác định các tập con Ii của I={I1, I2,.., Is}, với i=1..s */
Khởi tạo các tập con Ij=empty, với j=1..s;
for i=1 to N do
k= BMU_search(xi); Ik=Ik xi
end for
/* Tính các vector tâm cụm ci, và gán wi = ci, với i=1..s. */
for i=1 to s do
60
wi=Center_of_Cluster(Ii);
end for
QEnew= CheckQE();
Cho tới khi: ||QE- QEnew|| <
So với thuật toán IMQS, thuật toán cải tiến Batch-IMQS đơn giản hơn, với phức tạp
tính toán ~O(Nsnm) (giả sử m là số lần lặp cho tới khi thỏa mãn điều kiện dừng).
Nhận xét: Do thuật toán đề xuất tìm cách giảm lỗi lượng tử với giả thiết tỉ lệ học
L(t)0 nên chỉ cần áp dụng thuật toán này sau khi quá trình học của mạng đã kết thúc.
Do đó, nó có thể áp dụng đối với bất cứ cấu hình mạng nào, mà không phụ thuộc vào
các tham số khởi tạo. Mặt khác, thuật toán đề xuất cũng không gia tăng thêm các tham
số khác. Tuy nhiên, hạn chế của nó là không xem xét các yếu tố ảnh hưởng tới lỗi hình
trạng, do đó TE có thể tăng.
2.4. Các tập dữ liệu sử dụng cho thực nghiệm
Trong tất cả các thực nghiệm của luận án, nghiên cứu sinh sử dụng 12 tập dữ liệu
đã được công bố, bao gồm: XOR, Aggregation, Flame, Pathbased, Spiral, Jain,
Compound, R15, D31, Iris, Vowel và Zoo. Thông tin về các tập dữ liệu được trình bày
trong Bảng 2.1:
Bảng 2. 1 Thông tin về các tập dữ liệu sử dụng để thực nghiệm
TT Tập dữ liệu Số mẫu Số thuộc tính Số cụm
1 XOR 4125 2 2
2 Aggregation 788 2 7
3 Flame 240 2 2
4 Pathbased 300 2 3
5 Spiral 312 2 3
6 Jain 373 2 2
7 Compound 399 2 6
8 R15 600 2 15
9 D31 3100 2 31
10 Iris 150 4 3
11 Vowel 990 13 11
12 Zoo 101 16 7
61
Hình 2. 5 Đồ họa biểu diễn sự phân bố dữ liệu của tập dữ liệu XOR
a) Aggregation b) Flame c) Iris
d) Pathbased e) Spiral f) Jain
g) Compound h) R15 i) D31
Hình 2. 6 Đồ họa biểu diễn sự phân bố dữ liệu của Aggregation, Flame, Iris,
Pathbased, Spiral, Jain, Compound, R15, D31
Trong số các tập dữ liệu trên, XOR là tập dữ liệu giả định. Đây là một bài toán tuyến
tính điển hình trong phân lớp dữ liệu. Tập dữ liệu giả định XOR hai chiều có thể được
tạo ngẫu nhiên từ bốn hàm Gaussian khác nhau cho phép phân phối các mẫu dữ liệu
trong bốn vùng hình chữ nhật, trong đó các mẫu dữ liệu thuộc về cùng một lớp được
62
phân phối trong hai hình chữ nhật đối xứng nhau qua đường chéo. Hình 2.5 là đồ họa
biểu diễn sự phân bố các mẫu dữ liệu của tập dữ liệu XOR. (nguồn
learn.org/dev/auto_examples/gaussian_process/plot_gpc_xor.html).
Các tập dữ liệu Aggregation, Flame, Pathbased, Spiral, Jain, Compound, R15, D31
được công bố tại và các tập dữ liệu ghi nhận từ thực
tế Iris, Vowel và Zoo công bố tại UCI: https://archive.ics.uci.edu. Hình 2.6 là đồ họa
biểu diễn sự phân bố các mẫu dữ liệu của các tập dữ liệu này.
2.5. Thực nghiệm hàm lân cận mũ với tham số điều chỉnh
2.5.1. Mục tiêu thực nghiệm
- Đánh giá khả năng cải thiện chất lượng bản đồ đặc trưng thông qua các độ đo
QE, TE khi điều chỉnh tham số của hàm lân cận.
- So sánh kết quả đạt được với một số dạng hàm lân cận khác.
2.5.2. Phương pháp thực nghiệm
- Huấn luyện mạng bằng các tập dữ liệu thực nghiệm.
- Cố định p=2, sau đó điều chỉnh tham số q tăng dần (lần sau tăng gấp đôi lần
trước) và theo dõi kết quả các độ đo QE, TE.
- Cố định tham số q với giá trị TE đạt được nhỏ nhất, sau đó điều chỉnh tham số p
tăng dần và tiếp tục theo dõi kết quả các độ đo QE, TE.
- Với mỗi cặp giá trị của tham số q và p, tính các độ đo QE, TE trung bình sau 10
lần thực nghiệm đối với mỗi tập dữ liệu.
2.5.3. Các tham số khởi tạo mạng
- Kích thước mạng: 10 10
- Bán kính lân cận khởi tạo: 10
- Tỉ lệ học khởi tạo: 1
- Hàm xác định tỉ lệ học tại lần lặp thứ t theo công thức (1.7)
- Số lần huấn luyện mạng: 20.000
63
2.5.4. Kết quả thực nghiệm
Trường hợp 1: Tham số p cố định, tham số q thay đổi
Bảng 2.2 so sánh kết quả thực nghiệm với tham số p=2 và thay đổi giá trị tham số
q=0.5, 2, 4, 8, 12.
Bảng 2. 2 Kết quả thực nghiệm khi cố định tham số p=2, thay đổi tham số q
q 0.5 1 2 4 8 12
XOR
0.1890 0.1585 0.1299 0.1129 0.0902 0.0810
0.0318 0.0223 0.0273 0.0427 0.0705 0.0925
Aggregation
5.9702 5.0643 4.0276 2.9340 2.2819 1.8472
0.0549 0.0362 0.0294 0.0245 0.0424 0.0678
Flame
2.1839 1.9512 1.5194 1.1822 0.9129 0.8206
0.0700 0.0567 0.0407 0.0393 0.0479 0.0833
Pathbased
4.5859 4.0427 3.2618 2.4779 1.9392 1.7401
0.0561 0.0433 0.0373 0.0315 0.0434 0.0794
Spiral
4.7595 4.1719 3.4675 2.9239 2.2975 2.0085
0.0543 0.0404 0.0284 0.0364 0.0413 0.0564
Jain
5.2745 4.4829 3.5726 2.3559 1.6236 1.5234
0.0513 0.0395 0.0313 0.0269 0.0443 0.0637
Compound
4.4205 3.7595 3.1508 2.5672 1.8323 1.7744
0.0624 0.0299 0.0349 0.0400 0.0630 0.0690
R15
2.2226 2.0212 1.8005 1.4606 1.0730 0.9562
0.0722 0.0631 0.0368 0.0274 0.0613 0.1162
D31
4.7676 4.1204 3.3943 2.4569 2.0055 1.6793
0.0479 0.0352 0.0284 0.0207 0.0332 0.0394
Iris
0.7709 0.6430 0.5353 0.4403 0.3773 0.3494
0.0739 0.0548 0.0689 0.0940 0.1196 0.1566
Vowel
2.7459 2.5736 2.3755 2.2005 1.9150 1.7468
0.0537 0.0436 0.0412 0.0448 0.0494 0.0497
Zoo
1.5841 1.4421 1.2468 1.0912 0.9790 0.9156
0.0343 0.0254 0.0169 0.0104 0.0162 0.0208
Ghi chú: Các kết quả trong bảng là giá trị trung bình của 10 lần thực nghiệm. Kết
quả của mỗi tập dữ liệu trình bày trong hai dòng: dòng thứ nhất biểu diễn độ đo QE và
dòng thứ hai biểu diễn độ đo TE.
64
Ta thấy QE tỉ lệ nghịch với tham số q, khi q càng lớn thì QE càng nhỏ, trong khi TE
chỉ đạt giá trị nhỏ nhất khi tham số q=1, 2, 4. Điều này hoàn toàn đúng với phân tích đã
nêu trong đoạn 2.2.2.
Dữ liệu in đậm là kết quả tốt nhất, trong đó: TE là nhỏ nhất, còn QE nhỏ hơn so với
trường hợp sử dụng hàm lân cận gốc (q=0.5) (cột thứ 2, Bảng 2.2).
Trường hợp 2: Tham số q cố định, tham số p thay đổi
Bảng 2.3 so sánh kết quả thực nghiệm khi cố định tham số q của mỗi tập dữ liệu
tương ứng với giá trị độ đo đạt được tốt nhất trong Bảng 2.2 và lần lượt thay đổi giá trị
của tham số p=1, 2, 3, 4, 5, 6.
Bảng 2. 3 Kết quả thực nghiệm khi thay đổi tham số p, cố định tham số q
p 1 2 3 4 5 6
XOR
(q=1)
0.1754 0.1587 0.1546 0.1518 0.1525 0.1513
0.0534 0.0203 0.0225 0.0244 0.0238 0.0255
Aggregation
(q=4)
2.7895 3.0003 3.2722 3.6436 3.6100 3.8718
0.0850 0.0300 0.0277 0.0273 0.0316 0.0282
Flame
(q=4)
1.1858 1.2105 1.2306 1.3158 1.4010 1.4209
0.1438 0.0405 0.0284 0.0304 0.0331 0.0330
Pathbased
(q=4)
2.5458 2.4759 2.7586 2.8462 2.9400 2.9928
0.1300 0.0313 0.0363 0.0351 0.0349 0.0304
Spiral
(q=2)
3.5976 3.4319 3.4334 3.4603 3.4926 3.5797
0.0690 0.0290 0.0265 0.0290 0.0261 0.0264
Jain
(q=4)
2.3664 2.3519 2.7136 2.9018 3.1494 3.3035
0.0896 0.0263 0.0270 0.0306 0.0402 0.0403
Compound
(q=1)
4.2063 3.7575 3.6224 3.4969 3.5082 3.4913
0.0666 0.0291 0.0337 0.0340 0.0373 0.0398
R15
(q=4)
1.3161 1.4406 1.5544 1.6498 1.6972 1.7376
0.1055 0.0294 0.0367 0.0390 0.0454 0.0548
D31
(q=4)
2.3832 2.4769 2.8137 2.9886 3.0686 3.1960
0.0803 0.0199 0.0227 0.0238 0.0259 0.0284
Iris
(q=1)
0.7140 0.6382 0.6166 0.6002 0.5880 0.5849
0.0665 0.0518 0.0555 0.0560 0.0572 0.0598
Vowel
(q=2)
2.3938 2.3715 2.4186 2.4310 2.4529 2.4627
0.0635 0.0410 0.0416 0.0414 0.0429 0.0455
Zoo 1.1817 1.0912 1.1780 1.1954 1.2015 1.2131
65
(q=4) 0.0366 0.0104 0.0182 0.0188 0.0176 0.0180
Ghi chú: Các kết quả trong bảng là giá trị trung bình của 10 lần thực nghiệm. Kết
quả của mỗi tập dữ liệu trình bày trong hai dòng: dòng thứ nhất biểu diễn độ đo QE và
dòng thứ hai biểu diễn độ đo TE.
Khi p=1: cả QE và TE tăng cao.
Khi p2: TE có xu hướng ổn định hoặc tăng nhẹ khi p tăng. Điều này cho thấy tham
số p có ý nghĩa không đáng kể trong việc cải thiện chất lượng hình trạng khi đã xác định
được tham số q phù hợp; QE có xu hướng tăng với đa số các tập dữ liệu khi tăng p (trừ
các tập dữ liệu XOR, Compound và Iris, QE có xu hướng giảm, nhưng TE lại có xu
hướng tăng). Điều này cho thấy, p=2 là tốt nhất trong số các giá trị thử nghiệm của p.
Hình 2.7 đến Hình 2.18 là biểu đồ so sánh các giá trị QE, TE khi thay đổi các tham
số q và p, trong đó: hình (a) là kết quả khi cố định p=2 và thay đổi q; hình (b) là kết quả
khi cố định q và thay đổi p. Tham số q được cố định bằng giá trị tương ứng để TE là nhỏ
nhất trên hình (a).
Khi cố định tham số p=2 và thay đổi tham số q ta thấy các đồ thị (hình (a) - bên trái)
có sự đồng dạng, trong đó QE giảm dần, còn TE ban đầu giảm sau đó tăng tỉ lệ nghịch
với QE khi tham số q tăng dần. TE đạt giá trị nhỏ nhất khi q[1..4].
Khi cố định tham số q và thay đổi tham số p, các đồ thị (hình (b) - bên phải) cũng
có sự tương đồng, trong đó: đồ thị TE cao nhất khi p=1; cả hai đồ thị của QE và TE đều
có xu hướng ổn định hoặc tăng dần khi p2.
66
a) p=2 và q thay đổi
b) q=1 và p thay đổi
Hình 2. 7 Kết quả QE, TE của XOR khi thay đổi q và p
a) p=2 và q thay đổi
b) q=4 và p thay đổi
Hình 2. 8 Kết quả QE, TE của Aggregation khi thay đổi q và p
67
a) p=2 và q thay đổi
b) q=4 và p thay đổi
Hình 2. 9 Kết quả QE, TE của Flame khi thay đổi q và p
a) p=2 và q thay đổi
b) q=4 và p thay đổi
Hình 2. 10 Kết quả QE, TE của Pathbased khi thay đổi q và p
68
a) p=2 và q thay đổi
b) q=2 và p thay đổi
Hình 2. 11 Kết quả QE, TE của Spiral khi thay đổi q và p
a) p=2 và q thay đổi
b) q=4 và p thay đổi
Hình 2. 12 Kết quả QE, TE của Jain khi thay đổi q và p
69
a) p=2 và q thay đổi
b) q=1 và p thay đổi
Hình 2. 13 Kết quả QE, TE của Compound khi thay đổi q và p
a) p=2 và q thay đổi
b) q=4 và p thay đổi
Hình 2. 14 Kết quả QE, TE của R15 khi thay đổi q và p
70
a) p=2 và q thay đổi
b) q=4 và p thay đổi
Hình 2. 15 Kết quả QE, TE của D31 khi thay đổi q và p
a) p=2 và q thay đổi
b) q=1 và p thay đổi
Hình 2. 16 Kết quả QE, TE của Iris khi thay đổi q và p
71
a) p=2 và q thay đổi
b) q=2 và p thay đổi
Hình 2. 17 Kết quả QE, TE của Vowel khi thay đổi q và p
a) p=2 và q thay đổi
b) q=4 và p thay đổi
Hình 2. 18 Kết quả QE, TE của Zoo khi thay đổi q và p
Kết luận: Với tham số p=2 (giá trị mặc định), việc điều chỉnh tham số q có ảnh
hưởng đáng kể tới chất lượng của bản đồ. Nếu q càng lớn thì lỗi lượng tử càng nhỏ, tuy
nhiên, lỗi hình trạng nhỏ nhất khi q không quá nhỏ hoặc quá lớn. Do vậy, với p=2, tham
số q là phù nhất khi giá trị của nó đủ lớn để lỗi hình trạng đạt giá trị nhỏ nhất. Ngược
72
lại, nếu đã xác định được giá trị phù hợp nhất của tham số q, thì tham số p có ảnh hưởng
không đáng kể tới việc cải thiện chất lượng bản đồ.
2.5.5. So sánh hàm lân cận điều chỉnh với một số dạng hàm lân cận khác
Bảng 2.4 so sánh kết quả các độ đo QE, TE đạt được khi sử dụng hàm lân cận cih t
gốc, cih t với tham số điều chỉnh (p=2 và q xác định riêng cho mỗi tập dữ liệu như
Bảng 2.3) và một số dạng hàm lân cận khác.
Kết quả cho thấy hàm lân cận cih t với tham số điều chỉnh đạt được các độ đo QE,
TE nhỏ hơn so với hàm lân cận cih t gốc, hàm “nổi bọt” và hàm lân cận bất đối xứng.
Bảng 2. 4 So sánh độ đo QE, TE của một số dạng hàm lân cận
Tập dữ liệu cih t gốc
cih t với
tham số điều
chỉnh
Hàm
“nổi bọt”
Hàm lân cận
bất đối xứng
XOR
0.1890 0.1585 0.2572 0.1808
0.0318 0.0223 0.2708 0.4635
Aggregation
5.9702 2.9340 7.3092 4.9466
0.0549 0.0245 0.1794 0.4476
Flame
2.1839 1.1822 2.6352 2.1916
0.0700 0.0393 0.1642 0.6828
Pathbased
4.5859 2.4779 5.524 5.3888
0.0561 0.0315 0.1981 0.2715
Spiral
4.7595 3.4675 5.6515 4.3775
0.0543 0.0284 0.1502 0.6306
Jain
5.2745 2.3559 6.3026 5.4962
0.0513 0.0269 0.2024 0.3172
Compound
4.4205 3.7595 5.5663 3.5529
0.0624 0.0299 0.2199 0.4349
R15
2.2226 1.4606 2.5017 1.8911
0.0722 0.0274 0.1384 0.6337
D31
4.7676 2.4569 5.6095 5.958
0.0479 0.0207 0.2054 0.3506
Iris
0.7709 0.6430 1.001 0.9284
0.0739 0.0548 0.2312 0.2610
Vowel 2.7459 2.3755 3.1022 2.8808
73
0.0537 0.0412 0.1872 0.3965
Zoo
1.5841 1.0912 1.7182 1.7179
0.0343 0.0104 0.2182 0.2210
Ghi chú: Các kết quả trong bảng là giá trị trung bình của 10 lần thực nghiệm. Kết
quả của mỗi tập dữ liệu trình bày trong hai dòng: dòng thứ nhất biểu diễn độ đo QE và
dòng thứ hai biểu diễn độ đo TE.
2.6. Thực nghiệm thuật toán Batch-IMQS
2.6.1. Mục tiêu thực nghiệm
Đánh giá khả năng giảm lỗi lượng tử của thuật toán Batch-IMQS đối với các bản đồ
đặc trưng có kích thước, chất lượng khác nhau.
2.6.2. Phương pháp thực nghiệm
- Sử dụng các tập dữ liệu thực nghiệm để huấn luyện các mạng SOM với kích
thước khác nhau, gồm: 55, 1010 và 1515.
- Áp dụng thuật toán Batch-IMQS sau khi quá trình huấn luyện đã kết thúc.
- Các độ đo QE, TE được tích lũy sau N lần lặp (N là tổng số mẫu của tập huấn
luyện). Quá trình lặp sử dụng lần lượt các mẫu trong tập huấn luyện. So sánh giá
trị QE, TE trước và sau khi áp dụng thuật toán Batch-IMQS.
2.6.3. Các tham số khởi tạo mạng
- Kích thước mạng (ab): 55, 1010, 1515 (lần lượt áp dụng cho mỗi tập dữ
liệu).
- Bán kính lân cận khởi tạo: (a+b)/2
- Tỉ lệ học khởi tạo: 1
- Hàm xác định tỉ lệ học của SOM tại lần lặp thứ t theo công thức (1.7)
- Số lần huấn luyện mạng: 10.000
- Điều kiện dừng của thuật toán Batch-IMQS: =10-4.
2.6.4. Kết quả thực nghiệm
Bảng 2.5 trình bày các kết quả thực nghiệm khi sử dụng thuật toán Batch-IMQS để
giảm lỗi lượng tử của các bản đồ đặc trưng có kích thước khác nhau được huấn luyện
bằng thuật toán SOM.
74
Bảng 2. 5 Kết quả thực nghiệm thuật toán Batch-IMQS
Tập dữ liệu
55 1010 1515
SOM
Batch-
IMQS
SOM
Batch-
IMQS
SOM
Batch-
IMQS
XOR
0.1938 0.0716 0.1344 0.040 0.115 0.0293
0 0.0735 0 0.1270 0 0.1801
Aggregation
6.5617 1.8581 4.0004 1.1341 3.7515 0.9058
0 0.0774 0 0.0952 0.0114 0.2513
Flame
2.2242 0.8802 1.8174 0.4820 1.4581 0.3800
0 0.0292 0 0.2333 0.0083 0.3125
Pathbased
4.7585 1.6497 3.6075 0.8606 3.1839 0.5932
0.0133 0.1667 0.0067 0.24 0.0133 0.3067
Spiral
4.9053 1.8792 3.6889 0.8728 3.2971 0.6095
0 0.1667 0 0.3397 0.0032 0.3429
Jain
5.2967 1.6913 3.7646 1.0424 3.1354 0.7534
0 0.0483 0.0054 0.1609 0.0107 0.1796
Compound
4.4481 1.4561 3.0018 0.8799 2.5214 0.694
0 0.0526 0.0050 0.2030 0.015 0.1955
R15
2.2694 0.9755 1.8055 0.8900 1.5845 0.5435
0 0.0033 0 0.0183 0 0.0117
D31
5.1947 1.2570 3.3776 0.7306 2.9099 0.6021
0 0.1639 0 0.0816 0.001 0.2094
Iris
0.7622 0.3926 0.5526 0.2398 0.4995 0.1793
0.0200 0.1867 0.0133 0.2400 0.0133 0.3067
Vowel
2.6522 1.5399 2.2776 1.1500 2.1422 0.9997
0.003 0.1222 0.0172 0.4212 0.0121 0.4485
Zoo
1.6328 0.9977 1.3044 0.7192 1.2268 0.6645
0 0.099 0 0.1188 0 0.2574
Ghi chú: Các giá trị đạt được có sai số 0.02 trong các lần thực nghiệm khác nhau.
Kết quả của mỗi tập dữ liệu trình bày trong hai dòng. Dòng thứ nhất biểu diễn độ đo QE
và dòng thứ hai biểu diễn độ đo TE.
Bảng 2.5 cho thấy, trong cả ba trường hợp kích thước, chất lượng bản đồ khác nhau,
tất cả các tập dữ liệu thực nghiệm đều có độ đo QE giảm đáng kể sau khi áp dụng thuật
toán Batch-IMQS. Thực tế, nếu áp dụng phương pháp truyền thống là tăng số lần huấn
luyện mạng lên nhiều lần rất khó đạt được giá trị QE tương tự như vậy. Kết quả này cho
75
thấy Batch-IMQS có thể cải thiện đáng kể QE của một bản đồ đặc trưng bất kỳ mà không
quan tâm đến các tham số cấu hình mạng, cũng như không gia tăng thêm các tham số
khác.
Tuy nhiên, có sự đánh đổi giữa QE và TE, trong đó TE luôn luôn tăng tỉ lệ nghịch
với QE. Do vậy, thuật toán Batch-IMQS chỉ hiệu quả để giảm QE, nhưng hạn chế của
nó là làm tăng TE.
2.7. Kết luận chương 2
Chương này đã trình bày hai đề xuất để cải thiện chất lượng bản đồ đặc trưng của
mạng nơron tự tổ chức.
Thứ nhất, đưa ra tham số điều chỉnh cho hàm lân cận đối xứng dạng mũ (Gaussian).
Kết quả thực nghiệm cho thấy, có thể giảm được đồng thời cả lỗi lượng tử và lỗi hình
trạng của mạng. Tuy nhiên, giá trị của tham số điều chỉnh phải xác định riêng đối với
mỗi tập dữ liệu cụ thể.
Thứ hai, đưa ra thuật toán điều chỉnh trọng số nơron cho phép giảm lỗi lượng tử của
mạng. Lỗi lượng tử đạt được có thể nhỏ hơn rất nhiều so với việc sử dụng phương pháp
truyền thống là tăng số lần huấn luyện để giảm lỗi lượng tử. Đây thực sự là một phương
thức hiệu quả để giảm lỗi lượng tử. Nó là có thể giảm lỗi lượng tử của mạng mà không
quan tâm đến các tham số cấu hình, cũng như không gia tăng thêm các tham số khác.
Tuy nhiên, nhược điểm là lỗi hình trạng tăng tỉ lệ nghịch với lỗi lượng tử.
Bên cạnh hướng nghiên cứu về cải thiện chất lượng bản đồ đặc trưng, hướng nghiên
cứu về cải thiện tốc độ tính toán của mạng nơron tự tổ chức cũng đã được nghiên cứu
sinh thực hiện và trình bày trong bài báo [2A], [3A].
Hướng nghiên cứu tiếp theo của chương này là phát triển nghiên cứu của (Lopez-
Rubio, 2013), giảm lỗi hình trạng TE bằng cách phát hiện và loại bỏ các trạng thái “tự
giao” của các nơron. Ngoài ra, nghiên cứu cải thiện khả năng biểu diễn dữ liệu của các
mạng nơron tự tổ chức cải tiến cũng là một hướng nghiên cứu mở, cho đến nay chưa có
nhiều công trình công bố.
76
CHƯƠNG 3
MỘT MẠNG NƠRON TỰ TỔ CHỨC CÓ CẤU TRÚC PHÂN TẦNG
TĂNG TRƯỞNG VÀ THUẬT TOÁN HỌC BÁN GIÁM SÁT CHO BÀI
TOÁN PHÂN LỚP DỮ LIỆU
Chương này trình bày ba nội dung nghiên cứu:
Thứ nhất, tổng hợp các nghiên cứu về mạng nơron tự tổ chức cải tiến học giám sát,
bán giám sát và ứng dụng cho bài toán phân lớp dữ liệu.
Thứ hai, đề xuất một cấu trúc phân tầng tăng trưởng và thuật toán học bán giám sát
của mạng nơron tự tổ chức áp dụng cho bài toán phân lớp dữ liệu.
Cuối cùng, trình bày các kết quả thực nghiệm mạng nơron được đề xuất trong hai
nhiệm vụ phân lớp truyền thống (100% mẫu dữ liệu huấn luyện có gán nhãn) và phân
lớp bán giám sát; đồng thời so sánh kết quả đạt được với một số phương thức phân lớp
khác.
Mô hình đề xuất đã được công bố ở các tài liệu [2A], [4A], [5A], [8A] mục “Các
công trình khoa học của nghiên cứu sinh” của luận án.
3.1. Tổng quan về các mạng nơron tự tổ chức cải tiến học giám sát, bán
giám sát cho phân lớp dữ liệu
SOM sử dụng phương pháp học không giám sát, nên ưu điểm của nó là khả năng
năng tự khám phá ra các cấu trúc đặc trưng của dữ liệu, đây là các thông tin hữu ích cho
việc phân lớp dữ liệu. Tuy nhiên, việc phân lớp không chỉ căn cứ vào thông tin đặc trưng
của dữ liệu mà cần thông tin chỉ dẫn về các lớp. Do đó, để áp dụng SOM cho bài toán
phân lớp dữ liệu thì cần bổ sung cho nó thông tin chỉ dẫn trong quá trình học. Nói cách
khác là cung cấp cho SOM cơ chế của một hệ thống học giám sát. Điều này làm cho
SOM tổng hợp được sức mạnh của cả hai phương pháp học không giám sát và giám sát.
Cho đến nay, các mạng SOM cải tiến sử dụng phương pháp học giám sát hoặc bán
giám sát đã được các nhà nghiên cứu đưa ra như:
Mạng nơron tự tổ chức học giám sát được trình bày đầu tiên bởi Teuvo Kohonen
(Kohonen, 2001), được gọi là SKN (Supervised Kohonen Network). SKN bản chất vẫn
77
là SOM gốc. Điểm khác biệt là tích hợp mỗi đầu vào với đầu ra tương ứng của nó thành
vector đầu vào chung để huấn luyện mạng. Tuy nhiên, các nhà nghiên cứu chỉ coi đây
là một mô hình giả giám sát.
(Zupan, 1997) đưa ra mạng SOM mở
Các file đính kèm theo tài liệu này:
- tv_phat_trien_cac_cau_truc_thuat_hoc_cua_mang_noron_tu_to_chuc_6964_1920039.pdf