Ta giới hạn mỗi RB có M luật và M [Mmin, Mmax]. Mỗi cá thể có hai
mục tiêu là độ chính xác MSE được xác định theo (1.12) và độ phức tạp
Comp được xác định theo (1.13).
b. Các toán tử di truyền
- Toán tử lai ghép: Với hai cá thể bố mẹ p1, p2 sử dụng phương pháp
lai ghép một điểm (one-point crossover) độc lập trên Cµ, Ck và CRB.
Lưu ý: Nếu trên CRB toán tử lai ghép không được thực hiện thì đột biến
luôn xảy trên nó.
- Toán tử đột biến: Với cá thể con p thực hiện đột biến theo thứ tự và
độc lập trên Cµ, Ck và CRB.
Trên C
µ: Lựa chọn ngẫu nhiên một số nguyên trong [1, 2(n + 1)], thực
hiện thay thế gen tại vị trí được chọn bằng một giá trị được chọn ngẫu nhiên
trong các khoảng được xác định trước cho các tham số.
Trên Ck: Nếu đột biến xảy ra thì một gen ngẫu nhiên sẽ được tăng hoặc
giảm, nếu giá trị của nó nằm ngoài khoảng [1, kmax] thì đột biến sẽ bị bỏ
qua.
Trên CRB: Chúng ta áp dụng một trong hai toán tử
1) Toán tử 𝔬m1 thay đổi các giá trị tại gen của CRB
2) Toán tử 𝔬m2 bổ sung luật vào CRB
Chú ý: Trong quá trình tiến hóa, nếu một luật trở nên có độ dài bằng 0 thì
nó sẽ bị loại bỏ, và nếu một số luật trở nên giống nhau thì chỉ giữ lại một.
Sau khi lai ghép hoặc đột biến, trong CRB có thể có những luật mà tiền điều
kiện thứ j là từ có độ dài lớn hơn kj thì chúng ta phải thực hiện chuẩn hóa
luật này.
27 trang |
Chia sẻ: mimhthuy20 | Lượt xem: 562 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật (Chuyên ngành: Cơ sở toán học cho tin học), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HA-SGERD
dựa trên thuật toán SGERD trong [39] với phân hoạch mờ miền tham chiếu
của các biến được xây dựng như trong mục 2.1.2. Thuật toán này sinh ra
tập luật ứng cử rất nhỏ.
4) Thuật toán OP-PARHA thiết kế ngôn ngữ
Thiết kế ngôn ngữ là đi tìm bộ tham số tính mờ tối ưu của ĐSGT. Giả
thiết mỗi biến 𝔛j chỉ có 2 gia tử, một gia tử dương (Vj) và một gia tử âm
(Lj). Khi đó việc tối ưu tham số của ĐSGT cho mỗi tập dữ liệu là đi tìm bộ
tham số tối ưu op ={(
j
fmco , jLo , okj, o): j = 1,..,n} với tiêu chuẩn chọn luật
(2.5) hoặc op ={(
j
fmco , jLo , okj) : j=1,..,n} với tiêu chuẩn còn lại.
Để tìm tham số tính mờ tối ưu của ĐSGT, chúng tôi thiết kế thuật toán
OP-PARHA dựa trên giải thuật di truyền với sơ đồ mã hóa nhị phân. Và
hàm mục tiêu perf(R, D) là hiệu quả phân lớp của hệ luật R trên toàn bộ tập
mẫu dữ liệu D, R được sinh ra từ HA-SGERD. Các toán tử đột biến, lại
ghép và lựa chọn quần thể cho thế hệ kế tiếp được thừa kế trong [5].
5) Thuật toán HA-OFRB tối ưu hệ luật
Với bộ tham số tối ưu tìm được bằng thuật toán OP-PARHA, áp dụng
9
thuật toán HA-SGERD để sinh ra m*Q luật ứng cử R. Chúng tôi thiết kế
thuật toán HA-OFRB dựa trên GA với sơ đồ mã hóa nhị phân để tìm kiếm
hệ luật con S tối ưu từ tập R.
2.1.3. Kết quả thử nghiệm
Thực hiện thử nghiệm thuật toán được đề xuất với các tiêu chuẩn chọn
luật trong mục 2.1.3, đối sánh kết quả thực hiện đạt được của các tiêu chuẩn
này và đối sánh với thuật toán trong [39]. Kết quả thử nghiệm được tổng
hợp trong các bảng 2.3, 2.4, 2.5 và 2.6.
Bảng 2.3 Kết quả thử nghiệm thuật
toán OPHA-SGERD và thuật toán
SGERD với tiêu chuẩn (2.3)
Bảng 2.4 Kết quả thử nghiệm thuật
toán OPHA-SGERD và thuât toán
SGERD với tiêu chuẩn (2.4)
Tập dữ liệu
Perf (%) #Nar #Nal
Tập dữ liệu
Perf (%) #Nar #Nal
SGERD
OPHA-
SGERD
SGERD
OPHA-
SGERD
SGERD
OPHA-
SGERD
SGERD
OPHA-
SGERD
SGERD
OPHA-
SGERD
SGERD
OPHA-
SGERD
Cancer 96.29 96.42 5.38 6.00 1.17 1.33 Cancer 97.02 96.42 3.96 5.00 2.31 2.40
Glass 62.90 68.22 11.52 12.00 1.85 2.83 Glass 63.38 73.36 10.22 11.00 2.13 2.45
Iris 96.93 96.67 4.00 4.00 1.01 1.25 Iris 96.40 97.33 4.30 5.00 1.95 1.80
Pima 74.64 77.34 6.12 7.00 1.42 1.43 Pima 73.08 76.95 7.76 8.00 7.18 2.50
Sonar 77.20 82.21 4.29 6.00 1.14 1.50 Sonar 75.20 79.81 5.96 5.00 5.17 3.80
Wine 95.52 96.07 7.12 8.00 1.39 2.13 Wine 96.19 96.63 6.14 7.00 3.56 2.43
Image 83.52 86.19 11.44 11.00 2.18 2.45 Image 86.10 86.76 9.28 14.00 4.56 2.57
Vowel 49.68 51.72 30 29.00 3.04 3.03 Vowel 58.53 55.25 33.78 30.00 3.88 2.57
Yeast 49.84 53.77 22.36 20.00 2.85 2.90 Yeast 56.53 54.18 21.50 20.00 5.50 2.95
Bảng 2.5 Kết quả thử nghiệm thuật
toán OPHA-SGERD với tiêu chuẩn
chọn luật (2.5) và thuật toán SGERD
với tiêu chuẩn (2.4)
Bảng 2.6 Kết quả thử nghiệm
thuật toán OPHA-SGERD với ba
tiểu chuẩn (2.3), (2.4), (2.5)
Tập dữ
liệu
Perf (%) #Nar #Nal
Tập dữ liệu
Perf (%)
SGERD OPHA-
SGERD
SGERD OPHA-
SGERD
SGERD OPHA-
SGERD (2.3) (2.4) (2.5)
Cancer 97.02 96.42 3.96 6.00 2.31 1.83 Cancer 96.42 96.42 96.42
Glass 63.38 73.83 10.22 11.00 2.13 3.73 Glass 68.22 73.36 73.83
Iris 96.40 97.33 4.30 4.00 1.95 1.50 Iris 96.67 97.33 97.33
Pima 73.08 77.34 7.76 7.00 7.18 2.29 Pima 77.34 76.95 77.34
Sonar 75.20 78.85 5.96 5.00 5.17 4.40 Sonar 82.21 79.81 78.85
Wine 96.19 97.19 6.14 8.00 3.56 2.75 Wine 96.07 96.63 97.19
Image 86.10 86.19 9.28 12.00 4.56 4.00 Image 86.19 86.76 86.19
Vowel 58.53 57.37 33.78 34.00 3.88 3.44 Vowel 51.72 55.25 57.37
Yeast 56.53 55.73 21.50 19.00 5.50 3.53 Yeast 53.77 54.18 55.73
Từ các bảng tổng hợp kết quả thử nghiệm chúng tôi có thể khẳng định
thuật toán được đề xuất với tiêu chuẩn chọn luật cải tiến (2.5) trong luận án
tạo ra các LRBS có độ chính xác và tính giải nghĩa được được định nghĩa
dựa trên độ phức tạp tốt hơn thuật toán SGERD và tiêu chuẩn chọn luật
10
(2.5) tốt hơn các tiêu chuẩn (2.3), (2.4).
2.2. Phát triển thuật toán giải bài toán hồi quy
2.2.1. Bài toán hồi quy
Cho một tập mẫu dữ liệu D ={(pi, yi), i = 1,..,N }, pi là một véc tơ n
chiều có dạng (di1, di2,.., din), dij Uj R (tập số thực) là miền xác định của
các biến độc lập (thuộc tính đầu vào) 𝔛j của bài toán, với j = 1,..,n; yi
Un+1 R (tập số thực) là miền xác định của biến phụ thuộc (thuộc tính đầu
ra) 𝔛n+1, N là số mẫu dữ liệu. Từ tập dữ liệu mẫu D xây dựng một hệ mờ
cho phép tính giá trị yˆ Un+1 ứng với mỗi giá trị đầu vào p U = U1 ...
Un.
Giải bài toán hồi quy bằng FRBS là đi xây dựng một hệ luật mờ S để
ánh xạ tập dữ liệu đầu vào U vào tập dữ liệu đầu ra Un+1 bằng một phương
pháp lập luận xấp xỉ. Khi xây dựng các FRBS cho bài toán hồi quy, các luật
sử dụng trong RB thường là luật mờ Mamdani. Trong chương này luận án
đề xuất hai thuật toán được gọi là HA-PAES-SG và HA-PAES-MG dựa
trên lược đồ tiến hóa (2+2)M-PAES và ĐSGT xây dựng LRBS giải bài toán
này. Trong đó tính giải nghĩa được của LRBS được định nghĩa dựa trên độ
phức tạp.
2.2.2. Thuật toán HA-PAES-SG
Thuật toán cho phép học đồng thời ngữ nghĩa tính toán của từ được
biểu diễn bằng tập mờ dạng tam giác, số từ ngôn ngữ sử dụng cho mỗi biến
và cơ sở luật. Hàm sinh luật (GenerateRule) từ mẫu dữ liệu tương tự như
trong [v]. Với phương pháp sinh luật này sẽ làm giảm không gian tìm kiếm
các luật phải xem xét rất nhiều so với sinh luật bằng tổ hợp tất cả các từ sử
dụng cho các biến.
1) Phát triển thuật toán
a. Mã hóa cá thể: Giả thiết mỗi biến 𝔛j chỉ có một gia tử dương Vj (Very),
một gia tử âm Lj (Little) và mục tiêu cần tối ưu là tham số tập mờ, số từ
ngôn ngữ và cơ sở luật. Khi đó mỗi cá thể của quần thể được mã hóa gồm
ba phần (Cµ, Ck, CRB) xem hình 2.3. Trong đó Cµ, Ck, CRB lần lượt biểu diễn
các tham số tính mờ của các ĐSGT, độ dài tối đa của các từ và cơ sở luật.
Hình 2.3. Cấu trúc mã hóa một cá thể
11
Ta giới hạn mỗi RB có M luật và M [Mmin, Mmax]. Mỗi cá thể có hai
mục tiêu là độ chính xác MSE được xác định theo (1.12) và độ phức tạp
Comp được xác định theo (1.13).
b. Các toán tử di truyền
- Toán tử lai ghép: Với hai cá thể bố mẹ p1, p2 sử dụng phương pháp
lai ghép một điểm (one-point crossover) độc lập trên Cµ, Ck và CRB.
Lưu ý: Nếu trên CRB toán tử lai ghép không được thực hiện thì đột biến
luôn xảy trên nó.
- Toán tử đột biến: Với cá thể con p thực hiện đột biến theo thứ tự và
độc lập trên Cµ, Ck và CRB.
Trên Cµ: Lựa chọn ngẫu nhiên một số nguyên trong [1, 2(n + 1)], thực
hiện thay thế gen tại vị trí được chọn bằng một giá trị được chọn ngẫu nhiên
trong các khoảng được xác định trước cho các tham số.
Trên Ck: Nếu đột biến xảy ra thì một gen ngẫu nhiên sẽ được tăng hoặc
giảm, nếu giá trị của nó nằm ngoài khoảng [1, kmax] thì đột biến sẽ bị bỏ
qua.
Trên CRB: Chúng ta áp dụng một trong hai toán tử
1) Toán tử 𝔬m1 thay đổi các giá trị tại gen của CRB
2) Toán tử 𝔬m2 bổ sung luật vào CRB
Chú ý: Trong quá trình tiến hóa, nếu một luật trở nên có độ dài bằng 0 thì
nó sẽ bị loại bỏ, và nếu một số luật trở nên giống nhau thì chỉ giữ lại một.
Sau khi lai ghép hoặc đột biến, trong CRB có thể có những luật mà tiền điều
kiện thứ j là từ có độ dài lớn hơn kj thì chúng ta phải thực hiện chuẩn hóa
luật này.
Định nghĩa 2.1: Luật rq được gọi là luật không chuẩn nếu j sao cho từ
jq
A
,
là điều kiện tiền đề tương ứng với biến 𝔛j có độ dài lớn hơn kj.
Nếu luật rq không chuẩn do điều kiện tiền đề tương ứng với từ jqA , gây
nên thì bỏ các gia tử bên trái của
jq
A
,
để được từ '
, jq
A có độ dài đúng bằng kj..
c. Thuật toán tiến hóa đa mục tiêu: Tương tự như trong [8-10, 12-15], chúng
tôi áp dụng lược đồ tiến hóa (2+2)M-PAES trong [16].
2) Kết quả thử nghiệm
Bảng 2.8 Các tham số thử nghiệm
min = fmmin =0.3, max =fmmax = 0.7 PAdd = 0.75 Pinc_k = 0.5
12
𝑃𝐶𝜇 = 0.75, 𝑃𝐶𝑘 = 0.3, 𝑃𝐶𝑅𝐵 = 0.3 kmax = 3, lmax = 5, max = 5, max = 5
𝑃𝑚𝜇 = 0.3, 𝑃𝑚𝑘 = 0.3, 𝑃𝑚𝑅𝐵= 0.1 archiveSize = 64, MaxGen = 300,000
Mmin = 5, Mmax = 50
Chúng tôi tiến hành thử nghiệm thuật toán HA-PAES-SG trên máy
tính tương tự như thử nghiệm trong [14] trên 6 tập dữ liệu hồi quy với các
tham số trong bảng 2.8. Các kết được quả tổng hợp và trình bày trong các
bảng 2.9.
Từ bảng 2.9 cho thấy giá trị MSE của thuật toán HA-PAES-SG tốt hơn
trên 5 tập dữ liệu trên cả tập huấn luyện và tập kiểm tra, ngoại trừ ELE thấp
hơn trên tập huấn luyện. Ở đây có sự khác biệt lớn về độ chính xác giữa
thuật toán của chúng tôi với các thuật toán được so sánh. Bên cạnh đó độ
phức tạp của các LRBS cũng thấp hơn trên 5 tập dữ liệu. Chiều dài trung
bình của luật (Comp/#R) trong LRBS được tạo ra từ thuật toán HA-PAES-
SG ngắn hơn nhiều so với với các thuật toán trong [14].
Bảng 2.9 So sánh kết quả thử nghiệm thuật toán HA-PAES-SG với các thuật toán
(2+2)M-PAES(I) và (2+2)M-PAES(C) trong [14] tại điểm FIRST
Tập dữ
liệu
Thuật toán # R Comp TrMSE SDtr ttr TsMSE SDts tts
ELE
(2+2)M-PAES(I) 34.480 68.210 13660.200 1851.500 = 15768.600 3239.900 =
(2+2)M-PAES(C) 24.240 96.480 13539.800 3764.700 * 15278.800 4129.000 =
HA-PAES-SG 34.966 75.414 13732.337 2499.690 = 14969.681 4010.176 *
WA
(2+2)M-PAES(I) 20.200 75.160 1.911 0.381 + 1.997 0.298 +
(2+2)M-PAES(C) 15.270 98.650 1.694 0.489 + 2.094 0.973 +
HA-PAES-SG 24.100 58.000 1.265 0.175 * 1.383 0.229 *
WI
(2+2)M-PAES(I) 17.830 61.810 1.474 0.343 + 1.647 0.343 +
(2+2)M-PAES(C) 13.120 83.550 1.441 0.276 + 1.556 0.243 +
HA-PAES-SG 24.167 57.833 0.873 0.102 * 1.034 0.161 *
MPG6
(2+2)M-PAES(I) 40.360 130.280 2.565 0.341 + 4.185 1.352 =
(2+2)M-PAES(C) 48.030 121.660 2.820 0.428 + 4.304 1.365 =
HA-PAES-SG 47.700 112.033 2.153 0.192 * 4.036 1.117 *
STP
(2+2)M-PAES(I) 48.530 184.000 0.748 0.098 + 0.934 0.175 =
(2+2)M-PAES(C) 49.420 181.730 0.795 0.225 + 1.046 0.309 +
HA-PAES-SG 49.100 146.700 0.567 0.109 * 0.720 0.192 *
TR
(2+2)M-PAES(I) 25.100 103.920 0.056 0.020 = 0.100 0.097 =
(2+2)M-PAES(C) 19.100 147.000 0.066 0.025 = 0.132 0.132 =
HA-PAES-SG 29.267 62.267 0.038 0.014 * 0.068 0.094 *
2.2.3. Thuật toán HA-PAES-MG
Trong phần này chúng tôi phát triển một thuật toán được gọi là HA-
PAES-MG (MG) nó thì tương tự như thuật toán HA-PAES-SG (SG). Tuy
13
nhiên ở thuật toán này chúng tôi đề xuất một phương pháp thiết kế ngữ
nghĩa tính toán của từ dạng phân hoạch mờ đa thể hạt mới (hình 2.6).
Hình 2.5. Một thiết kế phân hoạch
mờ đa thể hạt trong [50] với độ dài
tối đa của từ là 2.
Hình 2.6. Một thiết kế phân hoạch
mờ đa thể hạt được đề xuất mới với
độ dài tối đa của từ là 2.
Chúng tôi tiến hành thử nghiệm thuật toán MG tương tự như trong [10]
với các tham số được cho trong bảng 2.8, ở đây tham số Mmax = 30. Kết quả
thử nghiệm được đối sánh với thuật toán SG và PAESKB trong [10] (viết tắt
là KB). Tổng hợp các kết quả thử nghiệm tại điểm FIRST và kết quả trung
bình tại điểm MEDIAN, LAST được trình bày trong bảng 2.11. Chúng tôi
tiến hành đối sánh bằng phương pháp phân tích thống kê Wilcoxon test trên
giá trị độ phức tạp (Comp) và sai số bình phương trung bình trên tập kiểm
tra MSEts với giả thiết H0 = “Không có sự khác biệt giữa hai phương pháp
được đối sánh”. Kết quả phân tích thống kê được tổng hợp trong các bảng
2.12 và 2.13.
Bảng 2.11 Kết quả trung bình đạt được bởi HA-PAES-MG (MG), HA-PAES-
SG (SG) và PAESKB (KB) tại điểm FIRST
T
ậ
p
d
ữ
l
iệ
u
#R Comp MSEts SD’tr MSEts SD’ts
MG SG KB MG SG KB MG SG KB MG SG KB MG SG DiffSG KB DiffKB MG SG KB
ELE1 20.40 22.63 27.00 35.03 35.87 46.00 146130 159836 145995 0.031 0.068 0.026 192042 201897 -0.049 194028 -0.010 0.167 0.177 0.128
ELE2 24.43 26.67 30.00 57.17 59.07 65.00 9821 18,589 11043 0.189 0.329 0.251 11397 21,255 -0.464 12606 -0.096 0.208 0.400 0.246
WA 22.80 24.13 28.00 69.67 58.27 103.00 0.97 1.26 1.64 0.085 0.137 0.024 1.06 1.38 -0.231 3.92 -0.729 0.108 0.163 2.365
WI 23.33 24.17 25.00 72.57 57.83 91.00 0.74 0.87 1.30 0.103 0.115 0.208 0.87 1.03 -0.158 1.49 -0.415 0.144 0.153 0.174
TR 15.00 14.73 11.00 37.60 24.50 40.00 0.08 0.05 0.08 3.233 0.314 0.500 0.10 0.09 0.081 0.14 -0.317 3.050 1.567 1.071
AB 12.87 26.27 29.00 31.43 59.67 107.00 2.40 2.35 2.32 0.048 0.040 0.034 2.447 2.453 -0.002 2.48 -0.013 0.074 0.074 0.073
MTG 13.00 17.73 12.00 25.97 28.37 49.00 0.016 0.017 0.05 0.239 0.259 0.400 0.023 0.023 -0.005 0.09 -0.749 0.847 0.398 1.111
CA 10.57 15.00 10.00 29.90 45.07 30.00 4.76 4.73 11.99 0.139 0.192 0.249 4.95 4.99 -0.007 13.43 -0.631 0.137 0.193 0.347
PT 11.20 26.40 14.00 35.83 67.77 53.00 75.87 82.87 87.00 0.282 0.185 0.299 78.23 87.02 -0.101 89.00 -0.121 0.289 0.200 0.281
Mean
FIRST
17.07 21.97 20.67 43.91 48.49 64.89 0.472 0.182 0.221 -0.104 -0.342 0.559 0.369 0.644
Mean
MED
10.81 14.52 12.6 21.27 25.89 25.8 0.460 0.250 0.261 -0.152 -0.33 0.492 0.490 0.587
Mean
LAST
5.01 6.30 5.00 5.81 8.07 5.00 0.414 0.768 0.527 -0.479 -0.365 0.451 0.816 0.654
Từ bảng 2.13 cho thấy có sự khác biệt thống kê trên giá trị MSEts giữa
thuật toán MG với hai thuật toán được so sánh. Từ đây chúng ta có thể kết
14
luận rằng thuật toán MG có thể tạo ra các LRBS có độ chính xác cao hơn
và phân hoạch mờ dạng đa thể hạt tốt hơn dạng đơn thể hạt. Từ bảng 2.11
và bảng kết quả phân tích thống kế 2.12 cho thấy, độ phức tạp của LRBS
được tạo ra từ thuật toán thuật toán MG thấp hơn các thuật toán được so
sánh. Mặc dù thuật toán MG và các thuật toán được đối sánh được phát triển
trên cùng một lược đồ tiến hóa (2+2)M-PAES nhưng MG có thể tạo ra các
LRBS tốt hơn trên cả hai mục tiêu tính giải nghĩa được và độ chính xác.
Bảng 2.12 So sánh độ phức tạp (Comp) của hệ luật bằng phương pháp kiểm
định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện
VS R+ R Exact P-value Confid. -interval Hypoth. (H0)
The FIRST point
HA-PAES-SG 30.0 15.0 ≥ 0.2 [-16.92 , 11.4] Not Rejected
PAESKB 45.0 0.0 0.003906 [-43.27 , -5.535] Rejected
The MEDIAN point
HA-PAES-SG 40.0 5.0 0.03906 [-9.08 , -0.03] Rejected
PAESKB 37.0 8.0 0.09766 [-11.3 , 0.9] Not Rejected
The LAST point
HA-PAES-SG 44.0 1.0 0.007812 [-3.965 , -0.6] Rejected
PAESKB 0.0 45.0 ≥ 0.2 [0.07 , 1.585] Not Rejected
Bảng 2.13 So sánh trung bình phương sai (MSEts) bằng phương pháp kiểm
định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện
VS R+ R Exact P-value Confid. -interval Hypoth. (H0)
The FIRST point
HA-PAES-SG 40.0 5.0 0.03906 [0.002 , 0.2355] Rejected
PAESKB 45.0 0.0 0.003906 [0.0655 , 0.631] Rejected
The MEDIAN point
HA-PAES-SG 43.0 2.0 0.011718 [0.029 , 0.313] Rejected
PAESKB 42.0 3.0 0.019532 [0.0475 , 0.649] Rejected
The LAST point
HA-PAES-SG 45.0 0.0 0.003906 [0.2875 , 0.642] Rejected
PAESKB 45.0 0.0 0.003906 [0.013 , 0.696] Rejected
2.3. Kết luận chương 2
Trong chương này luận án đã đề xuất các thuật toán giải bài toán phân
lớp, hồi quy bằng LRBS. NNTT của các từ được xác định bằng ĐSGT và
được điều chỉnh thông qua tham số mờ của ĐSGT.
Thuật toán giải bải toán phân lớp sử dụng thuật toán SGERD trong
[39] để sinh luật ứng cử, số luật ứng cử sinh ra rất nhỏ so với phương pháp
sinh luật bằng tổ hợp hoặc từ dữ liệu [50, 52]. Kết quả thử nghiệm cho thấy
thuật toán tạo ra các LRBS có tính giải nghĩa được và độ chính xác cao hơn
thuật toán được so sánh.
Các thuật toán SG và MG xây dựng các LRBS giải bài toán hồi quy,
thực hiện tối ưu đồng thời NNTT của từ, số từ sử dụng cho mỗi biến và RB
nhưng không gian tìm kiếm giảm đi đáng kể do sinh luật từ mẫu dữ liệu và
điều chỉnh ngữ nghĩa tính toán bằng ĐSGT. Các kết quả thử nghiệm được
so sánh với các thuật toán đề xuất trong [14] và [10] cho thấy các thuật toán
15
được phát triển trong luận án tốt hơn trên cả hai mục tiêu. Từ kết quả phân
tích thống kê có thể kết luận rằng thiết kế NNTT của từ ngôn ngữ bằng cấu
trúc dạng đa thể hạt tốt hơn dạng đơn thể hạt.
CHƯƠNG 3. TÍNH GIẢI NGHĨA ĐƯỢC CỦA CÁC KHUNG
NHẬN THỨC NGÔN NGỮ VÀ BIỂU DIỄN NNTT CỦA CHÚNG
3.1. Vấn đề tính giải nghĩa được của FRBS
Vấn đề tính giải nghĩa được của FRBS là bài toán chưa được giải quyết
bằng một phương pháp luận nhất quán giữa các cách tiếp cận hiện tại và với
phương pháp nghiên cứu trong lô gic truyền thống. Các tiếp cận giải quyết
vấn đề này chủ yếu dựa trên trực quan để đưa ra các ràng buộc ở các mức
khác nhau của FRBS. Trong chương này luận án đề xuất một hướng tiếp
cận mới dựa trên ý tưởng của logic truyền thống và ĐSGT giải quyết một
phần vấn đề này. Trước khi trình bày chi tiết các ràng buộc, luận án trình
bày một số khái niệm mới.
3.2. Khái niệm khung nhận thức và khung nhận thức ngôn ngữ
3.2.1. Khung nhận thức và tính giài nghĩa được của nó
Theo Mencar và Fanelli trong [41] một khung nhận thức (Frame of
Cognition- FoC) 𝔉 của biến 𝔛 là một tập hữu hạn các tập mờ có thứ tự trên
miền tham chiếu của 𝔛, và được gán cho các nhãn ngôn ngữ tương ứng
trong 𝔛. Các nhãn ngôn ngữ kết hợp với các tập mờ tương ứng trong một
FoC 𝔉 của 𝔛 được người dùng sử dụng để mô tả các tính chất của các thực
thể dưới dạng ngôn ngữ. Về mặt toán học thì mỗi FoC 𝔉 định nghĩa một
phép gán ngữ nghĩa cho các nhãn ngôn ngữ bằng cách ánh xạ các nhãn
ngôn ngữ của 𝔉 tới NNTT của chúng. Một FoC 𝔉 là giải nghĩa được nếu
người sử dụng có đủ cơ sở tin rằng ngữ nghĩa của các nhãn ngôn ngữ được
biểu diễn bằng các tập mờ phù hợp với ngữ nghĩa vốn có của các nhãn ngôn
ngữ tương ứng.
3.2.2. Khung nhận thức ngôn ngữ
Thay vì sử dụng khái niệm FoC như các phương pháp tiếp cận dựa trên
lý thuyết tập mờ, luận án đưa ra khái niệm khung nhận thức ngôn ngữ
(Linguistic Frame of Cognition – LFoC) trong hướng tiếp cận dựa trên
ĐSGT. Một LFoC được xem như là một tập các từ ngôn ngữ mà ở đó mỗi
từ có ngữ nghĩa của riêng và một FoC chỉ được xem như là một phương
16
pháp biểu diễn NNTT tương ứng với LFoC. Chúng ta có định nghĩa hình
thức sau đây.
Định nghĩa 3.1: [v] Một LFoC 𝔉 của một biến 𝔛, là một tập từ của 𝔛
được sinh ra từ các phần tử sinh {0, c, W, c+, 1} và tập H các gia tử của
người dùng thỏa mãn các điều kiện sau:
(i) {0, c, W, c+, 1} 𝔉; (ii) hx 𝔉 (h’ H) (h’x 𝔉) (hoặc
tất cả các từ hx, h H, phải cùng thuộc vào 𝔉, hoặc không); (iii) x 𝔉 & x
= hx’ & h H x’ 𝔉 (đóng đối với việc lấy tổ tiên của nó).
3.3. Đề xuất các ràng buộc tính giải nghĩa được trên các LFoC
3.3.1. Ràng buộc ngữ nghĩa vốn có của từ
Ràng buộc 1: [v] Ngữ nghĩa vốn có của các từ của một biến xuất hiện
trong một cơ sở luật ngôn ngữ (Linguistic Rule Base-LRB) phải được sử dụng
để tạo ra một cơ sở hình thức, từ đó xác định ngữ nghĩa định lượng của từ,
bao gồm cả ngữ nghĩa dựa trên tập mờ, trong biểu diễn ngữ nghĩa của LRB.
Trong tính toán với từ ràng buộc này là một yêu cầu tự nhiên và cần
thiết khi ánh xạ từ tập các từ với cấu trúc tính toán yếu vào một cấu trúc
tính toán đủ giầu. Trên quan điểm toán học, các tập mờ được gắn với các từ
chỉ là ảnh tính toán tương ứng. Nó được gán bởi người thiết kế LRBS, trong
khi mục đích thực sự của chúng ta là xử lý với ngữ nghĩa của các từ.
3.3.2. Ràng buộc phương pháp xác định NNTT của từ
Chúng ta thấy rằng miền từ của các biến ngôn ngữ phải được hình thức
hóa và các phương pháp xây dựng LRBS chủ yếu được phát triển dựa trên
các thuật toán tiến hóa. Vì vậy, để thuận lợi cho việc phát triển thuật toán
thì phải có các thủ tục để xác định NNTT của từ, điều khiển, kiểm soát quá
trình hiệu chỉnh ngữ nghĩa của từ nhằm đảm bảo tính giải nghĩa được LRBS
ở mức từ. Từ yêu cầu này, chúng tôi đưa ra ràng buộc sau đây:
Ràng buộc 2: [v] NNTT của các từ, kể cả ngữ nghĩa dựa trên tập mờ,
phải được sinh ra bằng một phương pháp hình thức thích hợp trên miền từ
của biến ngôn ngữ và chúng cần được sinh ra bằng một thủ tục được phát
triển dựa trên chính phương pháp hình thức đó.
3.3.3. Ràng buộc ngữ nghĩa khoảng của từ
Trong [49] chỉ ra rằng, ngữ nghĩa của các từ trở nên mờ vì chúng chỉ
vào nhiều phần tử khác nhau trong thế giới thực. Vì vậy, Nguyễn Cát Hồ
và cộng sự đã gọi khía cạnh ngữ nghĩa này là ‘ngữ nghĩa khoảng’ của từ.
17
Ngữ nghĩa khoảng là một khái niệm hữu dụng cho việc đề xuất ràng buộc
tính giải nghĩa được trên ngữ nghĩa vốn có của từ ngôn ngữ nhằm bảo toàn
tính khái quát và tính đặc tả của các từ. Kí hiệu: 𝔖 là tập từ của một LFoC
của một biến 𝔛, Itv là một tập các khoảng của vũ trụ của biến 𝔛.
Ràng buộc 3: [v] Cho một tập từ 𝔖 của một LFoC của một biến 𝔛,
phép gán 𝔄: 𝔖 → Itv, phải bảo toàn mối quan hệ tính khái quát và tính đặc
tả giữa các từ, tức là với bất kỳ hai từ x, hx 𝔖, trong đó h là một gia tử
thì (hx) 𝔄(x).
Ví dụ: (very very tall) (very tall) (tall)
3.3.4. Ràng buộc ngữ nghĩa thứ tự của từ
Xét các biến ngôn ngữ 𝔛j với j = 1,.., n+1, và một luật mờ rq: If 𝔛1 is
Aq1 and and 𝔛n is Aqn then 𝔛n+1 is Aq(n+1) (3.1). Trong [50, 52] Nguyễn
Cát Hồ và các cộng sự chứng tỏ rằng ngữ nghĩa thứ tự của các từ của các
biến là quan trọng và cần thiết cho cuộc sống hàng ngày của con người, và
đặc biệt để con người làm quyết định. Theo chúng tôi thì bất kỳ luật ngôn
ngữ nào cũng biểu diễn một mối quan hệ giữa các miền từ của các biến xét
về phương diện quan hệ ngữ nghĩa thứ tự của chúng. Do đó ngữ nghĩa của
luật rq phải được định nghĩa trên quan hệ ngữ nghĩa thứ tự của các miền từ
của các biến. Vì vậy, đòi hỏi phép gán ngữ nghĩa ℑ cho các từ của các biến
𝔛 có mặt trong luật phải chuyển tải được ngữ nghĩa thứ tự của các từ tới các
tập mờ (ký hiệu là C(𝔛)) của các luật. Cụ thể, chúng tôi yêu cầu ℑ như là
một ánh xạ, phải bảo toàn cấu trúc dựa trên thứ tự của miền từ của 𝔛, tức là
ℑ phải là một song ánh.
Ràng buộc 4: [v] Để bảo toàn ngữ nghĩa thứ tự của các luật ngôn ngữ,
phép gán NNTT ℑ : Dom(𝔛) → C(𝔛) của các từ của biến 𝔛 trong các luật
phải bảo toàn ngữ nghĩa thứ tự của các từ của 𝔛 bằng một định nghĩa quan
hệ thứ tự ≼ phù hợp trên C(𝔛) và ℑ phải là một song ánh.
Ví dụ: ℑ (very bad) ≼ ℑ (bad) ≼ ℑ (good) ≼ ℑ (very good)
3.4. Biểu diễn NNTT dựa trên tập mờ của các từ trong LFoC
3.4.1. Biểu diễn đơn thể hạt của LFoC
Đặt 𝔉𝔛 là một LFoC của 𝔛 thỏa mãn định nghĩa 3.1 và 𝔳𝔛 là một ánh
xạ định lượng ngữ nghĩa được xác định bởi bộ giá trị tham số tính mờ fm(c)
và (h), h H \{hp} cho trước. Khi đó biểu diễn đơn thể hạt của một
LFoC có thể được xây dựng như hình 2.1 là một ví dụ.
18
Để kiểm tra tính đúng đắn và tính giải nghĩa được của LFoC, luận án
xem xét 𝔉𝔛 thỏa mãn những ràng buộc nào được đề xuất trong mục 3.3.
Trước hết, chúng ta định nghĩa một quan hệ thứ tự trên các tập mờ tam giác,
mỗi tập mờ được mô tả bằng bộ ba tham số (a, b, c).
Định nghĩa 3.2: [v] Với hai tập mờ tam giác bất kỳ được xác định
bằng bộ ba giá trị (a, b, c) và (d, e, f) được định nghĩa trên tập vũ trụ đã
chuẩn hóa về đoạn [0, 1] của biến 𝔛. Các tập mờ (a, b, c) và (d, e, f) có quan
hệ thứ tự (a, b, c) ≼ (d, e, f) nếu thỏa mãn một trong những điều kiện sau
đây:
(i) Thứ tự mạnh ≼s: (a, b, c)≼s(d, e, f) khi và chỉ khi b < e & a < d & c
< f;
(ii) Thứ tự trung bình ≼m: (a, b, c) ≼m (d, e, f) khi và chỉ khi b < e & (a
< d & c ≥f hoặc c < f & a ≥d);
(iii) Thứ tự yếu ≼w (ít nhất một trong hai là tam giác vuông nằm ở vị trí
0 hoặc 1 của vũ trụ): (a, b, c) ≼w (d, e, f) khi và chỉ khi một trong các
điều kiện sau thỏa mãn:
(aD) (b = e = a = d = 0 c < f);
(bD) (b = e = c = f = 1 a < d);
(cD) ((a > d & c = f = e = 1) hoặc (c > f & a = d = b = 0)) b < e.
Định lý 3.1: [v] Xét một biến 𝔛 và miền từ tương ứng, X = Dom(𝔛),
khi đó nó được xem như là một ĐSGT, AX = (X, G, C, H, ). Cho các giá
trị tham số tính mờ của 𝔛, fm(c) và (h), h H \ {hp}, biểu diễn đơn thể
hạt của 𝔉𝔛 được xây dựng bằng thủ tục ở trên có các tính chất sau:
(i) Biểu diễn đơn thể hạt được xác định duy nhất, và thỏa mãn các ràng
buộc 1, 2; (ii) thỏa mãn ràng buộc 4, tức là bảo toàn thứ tự các từ của 𝔉𝔛
với quan hệ thứ tự ≼ trong định nghĩa 3.2. (iii) Không thỏa mãn ràng buộc
3, do độ hỗ trợ của tập mờ tam giác (ngữ nghĩa khoảng) được gán cho các
từ không bảo toàn tính khái quát và tính đặc tả của các từ của 𝔉𝔛.
3.4.2. Biểu diễn đa thể hạt của LFoC
Giả sử X = Dom(𝔛), tập hợp của tất cả các từ của 𝔛, được chia thành
các tập Xk, k = 0 đến, mỗi tập bao gồm các từ cùng mức đặc tả. Hình 2.6
là một ví dụ minh họa cấu trúc đa thể hạt được phát triển trong luận án.
Định lý 3.2: [v] Xét một biến 𝔛 và miền hạng từ của nó, X = Dom(𝔛),
nó được xem như là một ĐSGT AX = (X, G, C, H, ) của 𝔛. Với các giá trị
19
tham số tính mờ fm(c) và (h), h H \ {hp} và một mức đặc tả k > 0 cho
trước, biểu diễn NNTT của một LFoC 𝔉𝔛 dạng đa thể hạt được xây dựng
theo thủ tục trên có các tính chất sau:
(i) Biểu diễn đa thể hạt được xác định duy nhất, và thỏa mãn các ràng
buộc 1, 2;
(ii) Thỏa mãn ràng buộc 3, bảo toàn quan hệ tính
Các file đính kèm theo tài liệu này:
- tom_tat_luan_an_hoang_van_thong_tieng_viet_8225_1854472.pdf