Ta giới hạn mỗi RB có M luật và M  [Mmin, Mmax]. Mỗi cá thể có hai
mục tiêu là độ chính xác MSE được xác định theo (1.12) và độ phức tạp
Comp được xác định theo (1.13).
b. Các toán tử di truyền
- Toán tử lai ghép: Với hai cá thể bố mẹ p1, p2 sử dụng phương pháp
lai ghép một điểm (one-point crossover) độc lập trên Cµ, Ck và CRB.
Lưu ý: Nếu trên CRB toán tử lai ghép không được thực hiện thì đột biến
luôn xảy trên nó.
- Toán tử đột biến: Với cá thể con p thực hiện đột biến theo thứ tự và
độc lập trên Cµ, Ck và CRB.
Trên C
µ: Lựa chọn ngẫu nhiên một số nguyên trong [1, 2(n + 1)], thực
hiện thay thế gen tại vị trí được chọn bằng một giá trị được chọn ngẫu nhiên
trong các khoảng được xác định trước cho các tham số.
Trên Ck: Nếu đột biến xảy ra thì một gen ngẫu nhiên sẽ được tăng hoặc
giảm, nếu giá trị của nó nằm ngoài khoảng [1, kmax] thì đột biến sẽ bị bỏ
qua.
Trên CRB: Chúng ta áp dụng một trong hai toán tử
1) Toán tử 𝔬m1 thay đổi các giá trị tại  gen của CRB
2) Toán tử 𝔬m2 bổ sung  luật vào CRB
Chú ý: Trong quá trình tiến hóa, nếu một luật trở nên có độ dài bằng 0 thì
nó sẽ bị loại bỏ, và nếu một số luật trở nên giống nhau thì chỉ giữ lại một.
Sau khi lai ghép hoặc đột biến, trong CRB có thể có những luật mà tiền điều
kiện thứ j là từ có độ dài lớn hơn kj thì chúng ta phải thực hiện chuẩn hóa
luật này.
                
              
                                            
                                
            
 
            
                
27 trang | 
Chia sẻ: mimhthuy20 | Lượt xem: 754 | Lượt tải: 0
              
            Bạn đang xem trước 20 trang tài liệu Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật (Chuyên ngành: Cơ sở toán học cho tin học), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HA-SGERD 
dựa trên thuật toán SGERD trong [39] với phân hoạch mờ miền tham chiếu 
của các biến được xây dựng như trong mục 2.1.2. Thuật toán này sinh ra 
tập luật ứng cử rất nhỏ. 
4) Thuật toán OP-PARHA thiết kế ngôn ngữ 
Thiết kế ngôn ngữ là đi tìm bộ tham số tính mờ tối ưu của ĐSGT. Giả 
thiết mỗi biến 𝔛j chỉ có 2 gia tử, một gia tử dương (Vj) và một gia tử âm 
(Lj). Khi đó việc tối ưu tham số của ĐSGT cho mỗi tập dữ liệu là đi tìm bộ 
tham số tối ưu op ={(
j
fmco  , jLo , okj, o): j = 1,..,n} với tiêu chuẩn chọn luật 
(2.5) hoặc op ={(
j
fmco  , jLo , okj) : j=1,..,n} với tiêu chuẩn còn lại. 
Để tìm tham số tính mờ tối ưu của ĐSGT, chúng tôi thiết kế thuật toán 
OP-PARHA dựa trên giải thuật di truyền với sơ đồ mã hóa nhị phân. Và 
hàm mục tiêu perf(R, D) là hiệu quả phân lớp của hệ luật R trên toàn bộ tập 
mẫu dữ liệu D, R được sinh ra từ HA-SGERD. Các toán tử đột biến, lại 
ghép và lựa chọn quần thể cho thế hệ kế tiếp được thừa kế trong [5]. 
5) Thuật toán HA-OFRB tối ưu hệ luật 
Với bộ tham số tối ưu tìm được bằng thuật toán OP-PARHA, áp dụng 
9 
thuật toán HA-SGERD để sinh ra m*Q luật ứng cử R. Chúng tôi thiết kế 
thuật toán HA-OFRB dựa trên GA với sơ đồ mã hóa nhị phân để tìm kiếm 
hệ luật con S tối ưu từ tập R. 
2.1.3. Kết quả thử nghiệm 
Thực hiện thử nghiệm thuật toán được đề xuất với các tiêu chuẩn chọn 
luật trong mục 2.1.3, đối sánh kết quả thực hiện đạt được của các tiêu chuẩn 
này và đối sánh với thuật toán trong [39]. Kết quả thử nghiệm được tổng 
hợp trong các bảng 2.3, 2.4, 2.5 và 2.6. 
Bảng 2.3 Kết quả thử nghiệm thuật 
toán OPHA-SGERD và thuật toán 
SGERD với tiêu chuẩn (2.3) 
Bảng 2.4 Kết quả thử nghiệm thuật 
toán OPHA-SGERD và thuât toán 
SGERD với tiêu chuẩn (2.4) 
Tập dữ liệu 
Perf (%) #Nar #Nal 
Tập dữ liệu 
Perf (%) #Nar #Nal 
SGERD 
OPHA-
SGERD 
SGERD 
OPHA-
SGERD 
SGERD 
OPHA-
SGERD 
 SGERD 
OPHA-
SGERD 
SGERD 
OPHA-
SGERD 
SGERD 
OPHA-
SGERD 
Cancer 96.29 96.42 5.38 6.00 1.17 1.33 Cancer 97.02 96.42 3.96 5.00 2.31 2.40 
Glass 62.90 68.22 11.52 12.00 1.85 2.83 Glass 63.38 73.36 10.22 11.00 2.13 2.45 
Iris 96.93 96.67 4.00 4.00 1.01 1.25 Iris 96.40 97.33 4.30 5.00 1.95 1.80 
Pima 74.64 77.34 6.12 7.00 1.42 1.43 Pima 73.08 76.95 7.76 8.00 7.18 2.50 
Sonar 77.20 82.21 4.29 6.00 1.14 1.50 Sonar 75.20 79.81 5.96 5.00 5.17 3.80 
Wine 95.52 96.07 7.12 8.00 1.39 2.13 Wine 96.19 96.63 6.14 7.00 3.56 2.43 
Image 83.52 86.19 11.44 11.00 2.18 2.45 Image 86.10 86.76 9.28 14.00 4.56 2.57 
Vowel 49.68 51.72 30 29.00 3.04 3.03 Vowel 58.53 55.25 33.78 30.00 3.88 2.57 
Yeast 49.84 53.77 22.36 20.00 2.85 2.90 Yeast 56.53 54.18 21.50 20.00 5.50 2.95 
Bảng 2.5 Kết quả thử nghiệm thuật 
toán OPHA-SGERD với tiêu chuẩn 
chọn luật (2.5) và thuật toán SGERD 
với tiêu chuẩn (2.4) 
 Bảng 2.6 Kết quả thử nghiệm 
thuật toán OPHA-SGERD với ba 
tiểu chuẩn (2.3), (2.4), (2.5) 
Tập dữ 
liệu 
Perf (%) #Nar #Nal 
Tập dữ liệu 
Perf (%) 
SGERD OPHA-
SGERD 
SGERD OPHA-
SGERD 
SGERD OPHA-
SGERD (2.3) (2.4) (2.5) 
Cancer 97.02 96.42 3.96 6.00 2.31 1.83 Cancer 96.42 96.42 96.42 
Glass 63.38 73.83 10.22 11.00 2.13 3.73 Glass 68.22 73.36 73.83 
Iris 96.40 97.33 4.30 4.00 1.95 1.50 Iris 96.67 97.33 97.33 
Pima 73.08 77.34 7.76 7.00 7.18 2.29 Pima 77.34 76.95 77.34 
Sonar 75.20 78.85 5.96 5.00 5.17 4.40 Sonar 82.21 79.81 78.85 
Wine 96.19 97.19 6.14 8.00 3.56 2.75 Wine 96.07 96.63 97.19 
Image 86.10 86.19 9.28 12.00 4.56 4.00 Image 86.19 86.76 86.19 
Vowel 58.53 57.37 33.78 34.00 3.88 3.44 Vowel 51.72 55.25 57.37 
Yeast 56.53 55.73 21.50 19.00 5.50 3.53 Yeast 53.77 54.18 55.73 
Từ các bảng tổng hợp kết quả thử nghiệm chúng tôi có thể khẳng định 
thuật toán được đề xuất với tiêu chuẩn chọn luật cải tiến (2.5) trong luận án 
tạo ra các LRBS có độ chính xác và tính giải nghĩa được được định nghĩa 
dựa trên độ phức tạp tốt hơn thuật toán SGERD và tiêu chuẩn chọn luật 
10 
(2.5) tốt hơn các tiêu chuẩn (2.3), (2.4). 
2.2. Phát triển thuật toán giải bài toán hồi quy 
2.2.1. Bài toán hồi quy 
Cho một tập mẫu dữ liệu D ={(pi, yi), i = 1,..,N }, pi là một véc tơ n 
chiều có dạng (di1, di2,.., din), dij Uj  R (tập số thực) là miền xác định của 
các biến độc lập (thuộc tính đầu vào) 𝔛j của bài toán, với j = 1,..,n; yi  
Un+1  R (tập số thực) là miền xác định của biến phụ thuộc (thuộc tính đầu 
ra) 𝔛n+1, N là số mẫu dữ liệu. Từ tập dữ liệu mẫu D xây dựng một hệ mờ 
cho phép tính giá trị yˆ  Un+1 ứng với mỗi giá trị đầu vào p  U = U1  ... 
 Un. 
Giải bài toán hồi quy bằng FRBS là đi xây dựng một hệ luật mờ S để 
ánh xạ tập dữ liệu đầu vào U vào tập dữ liệu đầu ra Un+1 bằng một phương 
pháp lập luận xấp xỉ. Khi xây dựng các FRBS cho bài toán hồi quy, các luật 
sử dụng trong RB thường là luật mờ Mamdani. Trong chương này luận án 
đề xuất hai thuật toán được gọi là HA-PAES-SG và HA-PAES-MG dựa 
trên lược đồ tiến hóa (2+2)M-PAES và ĐSGT xây dựng LRBS giải bài toán 
này. Trong đó tính giải nghĩa được của LRBS được định nghĩa dựa trên độ 
phức tạp. 
2.2.2. Thuật toán HA-PAES-SG 
Thuật toán cho phép học đồng thời ngữ nghĩa tính toán của từ được 
biểu diễn bằng tập mờ dạng tam giác, số từ ngôn ngữ sử dụng cho mỗi biến 
và cơ sở luật. Hàm sinh luật (GenerateRule) từ mẫu dữ liệu tương tự như 
trong [v]. Với phương pháp sinh luật này sẽ làm giảm không gian tìm kiếm 
các luật phải xem xét rất nhiều so với sinh luật bằng tổ hợp tất cả các từ sử 
dụng cho các biến. 
1) Phát triển thuật toán 
a. Mã hóa cá thể: Giả thiết mỗi biến 𝔛j chỉ có một gia tử dương Vj (Very), 
một gia tử âm Lj (Little) và mục tiêu cần tối ưu là tham số tập mờ, số từ 
ngôn ngữ và cơ sở luật. Khi đó mỗi cá thể của quần thể được mã hóa gồm 
ba phần (Cµ, Ck, CRB) xem hình 2.3. Trong đó Cµ, Ck, CRB lần lượt biểu diễn 
các tham số tính mờ của các ĐSGT, độ dài tối đa của các từ và cơ sở luật. 
Hình 2.3. Cấu trúc mã hóa một cá thể 
11 
Ta giới hạn mỗi RB có M luật và M  [Mmin, Mmax]. Mỗi cá thể có hai 
mục tiêu là độ chính xác MSE được xác định theo (1.12) và độ phức tạp 
Comp được xác định theo (1.13). 
b. Các toán tử di truyền 
- Toán tử lai ghép: Với hai cá thể bố mẹ p1, p2 sử dụng phương pháp 
lai ghép một điểm (one-point crossover) độc lập trên Cµ, Ck và CRB. 
Lưu ý: Nếu trên CRB toán tử lai ghép không được thực hiện thì đột biến 
luôn xảy trên nó. 
- Toán tử đột biến: Với cá thể con p thực hiện đột biến theo thứ tự và 
độc lập trên Cµ, Ck và CRB. 
Trên Cµ: Lựa chọn ngẫu nhiên một số nguyên trong [1, 2(n + 1)], thực 
hiện thay thế gen tại vị trí được chọn bằng một giá trị được chọn ngẫu nhiên 
trong các khoảng được xác định trước cho các tham số. 
Trên Ck: Nếu đột biến xảy ra thì một gen ngẫu nhiên sẽ được tăng hoặc 
giảm, nếu giá trị của nó nằm ngoài khoảng [1, kmax] thì đột biến sẽ bị bỏ 
qua. 
Trên CRB: Chúng ta áp dụng một trong hai toán tử 
1) Toán tử 𝔬m1 thay đổi các giá trị tại  gen của CRB 
2) Toán tử 𝔬m2 bổ sung  luật vào CRB 
Chú ý: Trong quá trình tiến hóa, nếu một luật trở nên có độ dài bằng 0 thì 
nó sẽ bị loại bỏ, và nếu một số luật trở nên giống nhau thì chỉ giữ lại một. 
Sau khi lai ghép hoặc đột biến, trong CRB có thể có những luật mà tiền điều 
kiện thứ j là từ có độ dài lớn hơn kj thì chúng ta phải thực hiện chuẩn hóa 
luật này. 
Định nghĩa 2.1: Luật rq được gọi là luật không chuẩn nếu j sao cho từ 
jq
A
,
 là điều kiện tiền đề tương ứng với biến 𝔛j có độ dài lớn hơn kj. 
Nếu luật rq không chuẩn do điều kiện tiền đề tương ứng với từ jqA , gây 
nên thì bỏ các gia tử bên trái của 
jq
A
,
để được từ '
, jq
A có độ dài đúng bằng kj.. 
c. Thuật toán tiến hóa đa mục tiêu: Tương tự như trong [8-10, 12-15], chúng 
tôi áp dụng lược đồ tiến hóa (2+2)M-PAES trong [16]. 
2) Kết quả thử nghiệm 
Bảng 2.8 Các tham số thử nghiệm 
min = fmmin =0.3, max =fmmax = 0.7 PAdd = 0.75 Pinc_k = 0.5 
12 
𝑃𝐶𝜇 = 0.75, 𝑃𝐶𝑘 = 0.3, 𝑃𝐶𝑅𝐵 = 0.3 kmax = 3, lmax = 5, max = 5, max = 5 
𝑃𝑚𝜇 = 0.3, 𝑃𝑚𝑘 = 0.3, 𝑃𝑚𝑅𝐵= 0.1 archiveSize = 64, MaxGen = 300,000 
 Mmin = 5, Mmax = 50 
Chúng tôi tiến hành thử nghiệm thuật toán HA-PAES-SG trên máy 
tính tương tự như thử nghiệm trong [14] trên 6 tập dữ liệu hồi quy với các 
tham số trong bảng 2.8. Các kết được quả tổng hợp và trình bày trong các 
bảng 2.9. 
Từ bảng 2.9 cho thấy giá trị MSE của thuật toán HA-PAES-SG tốt hơn 
trên 5 tập dữ liệu trên cả tập huấn luyện và tập kiểm tra, ngoại trừ ELE thấp 
hơn trên tập huấn luyện. Ở đây có sự khác biệt lớn về độ chính xác giữa 
thuật toán của chúng tôi với các thuật toán được so sánh. Bên cạnh đó độ 
phức tạp của các LRBS cũng thấp hơn trên 5 tập dữ liệu. Chiều dài trung 
bình của luật (Comp/#R) trong LRBS được tạo ra từ thuật toán HA-PAES-
SG ngắn hơn nhiều so với với các thuật toán trong [14]. 
Bảng 2.9 So sánh kết quả thử nghiệm thuật toán HA-PAES-SG với các thuật toán 
(2+2)M-PAES(I) và (2+2)M-PAES(C) trong [14] tại điểm FIRST 
Tập dữ 
liệu 
Thuật toán # R Comp TrMSE SDtr ttr TsMSE SDts tts 
ELE 
(2+2)M-PAES(I) 34.480 68.210 13660.200 1851.500 = 15768.600 3239.900 = 
(2+2)M-PAES(C) 24.240 96.480 13539.800 3764.700 * 15278.800 4129.000 = 
HA-PAES-SG 34.966 75.414 13732.337 2499.690 = 14969.681 4010.176 * 
WA 
(2+2)M-PAES(I) 20.200 75.160 1.911 0.381 + 1.997 0.298 + 
(2+2)M-PAES(C) 15.270 98.650 1.694 0.489 + 2.094 0.973 + 
HA-PAES-SG 24.100 58.000 1.265 0.175 * 1.383 0.229 * 
WI 
(2+2)M-PAES(I) 17.830 61.810 1.474 0.343 + 1.647 0.343 + 
(2+2)M-PAES(C) 13.120 83.550 1.441 0.276 + 1.556 0.243 + 
HA-PAES-SG 24.167 57.833 0.873 0.102 * 1.034 0.161 * 
MPG6 
(2+2)M-PAES(I) 40.360 130.280 2.565 0.341 + 4.185 1.352 = 
(2+2)M-PAES(C) 48.030 121.660 2.820 0.428 + 4.304 1.365 = 
HA-PAES-SG 47.700 112.033 2.153 0.192 * 4.036 1.117 * 
STP 
(2+2)M-PAES(I) 48.530 184.000 0.748 0.098 + 0.934 0.175 = 
(2+2)M-PAES(C) 49.420 181.730 0.795 0.225 + 1.046 0.309 + 
HA-PAES-SG 49.100 146.700 0.567 0.109 * 0.720 0.192 * 
TR 
(2+2)M-PAES(I) 25.100 103.920 0.056 0.020 = 0.100 0.097 = 
(2+2)M-PAES(C) 19.100 147.000 0.066 0.025 = 0.132 0.132 = 
HA-PAES-SG 29.267 62.267 0.038 0.014 * 0.068 0.094 * 
2.2.3. Thuật toán HA-PAES-MG 
Trong phần này chúng tôi phát triển một thuật toán được gọi là HA-
PAES-MG (MG) nó thì tương tự như thuật toán HA-PAES-SG (SG). Tuy 
13 
nhiên ở thuật toán này chúng tôi đề xuất một phương pháp thiết kế ngữ 
nghĩa tính toán của từ dạng phân hoạch mờ đa thể hạt mới (hình 2.6). 
Hình 2.5. Một thiết kế phân hoạch 
mờ đa thể hạt trong [50] với độ dài 
tối đa của từ là 2. 
Hình 2.6. Một thiết kế phân hoạch 
mờ đa thể hạt được đề xuất mới với 
độ dài tối đa của từ là 2. 
Chúng tôi tiến hành thử nghiệm thuật toán MG tương tự như trong [10] 
với các tham số được cho trong bảng 2.8, ở đây tham số Mmax = 30. Kết quả 
thử nghiệm được đối sánh với thuật toán SG và PAESKB trong [10] (viết tắt 
là KB). Tổng hợp các kết quả thử nghiệm tại điểm FIRST và kết quả trung 
bình tại điểm MEDIAN, LAST được trình bày trong bảng 2.11. Chúng tôi 
tiến hành đối sánh bằng phương pháp phân tích thống kê Wilcoxon test trên 
giá trị độ phức tạp (Comp) và sai số bình phương trung bình trên tập kiểm 
tra MSEts với giả thiết H0 = “Không có sự khác biệt giữa hai phương pháp 
được đối sánh”. Kết quả phân tích thống kê được tổng hợp trong các bảng 
2.12 và 2.13. 
Bảng 2.11 Kết quả trung bình đạt được bởi HA-PAES-MG (MG), HA-PAES-
SG (SG) và PAESKB (KB) tại điểm FIRST 
T
ậ
p
d
ữ
 l
iệ
u
#R Comp MSEts SD’tr MSEts SD’ts 
MG SG KB MG SG KB MG SG KB MG SG KB MG SG DiffSG KB DiffKB MG SG KB 
ELE1 20.40 22.63 27.00 35.03 35.87 46.00 146130 159836 145995 0.031 0.068 0.026 192042 201897 -0.049 194028 -0.010 0.167 0.177 0.128 
ELE2 24.43 26.67 30.00 57.17 59.07 65.00 9821 18,589 11043 0.189 0.329 0.251 11397 21,255 -0.464 12606 -0.096 0.208 0.400 0.246 
WA 22.80 24.13 28.00 69.67 58.27 103.00 0.97 1.26 1.64 0.085 0.137 0.024 1.06 1.38 -0.231 3.92 -0.729 0.108 0.163 2.365 
WI 23.33 24.17 25.00 72.57 57.83 91.00 0.74 0.87 1.30 0.103 0.115 0.208 0.87 1.03 -0.158 1.49 -0.415 0.144 0.153 0.174 
TR 15.00 14.73 11.00 37.60 24.50 40.00 0.08 0.05 0.08 3.233 0.314 0.500 0.10 0.09 0.081 0.14 -0.317 3.050 1.567 1.071 
AB 12.87 26.27 29.00 31.43 59.67 107.00 2.40 2.35 2.32 0.048 0.040 0.034 2.447 2.453 -0.002 2.48 -0.013 0.074 0.074 0.073 
MTG 13.00 17.73 12.00 25.97 28.37 49.00 0.016 0.017 0.05 0.239 0.259 0.400 0.023 0.023 -0.005 0.09 -0.749 0.847 0.398 1.111 
CA 10.57 15.00 10.00 29.90 45.07 30.00 4.76 4.73 11.99 0.139 0.192 0.249 4.95 4.99 -0.007 13.43 -0.631 0.137 0.193 0.347 
PT 11.20 26.40 14.00 35.83 67.77 53.00 75.87 82.87 87.00 0.282 0.185 0.299 78.23 87.02 -0.101 89.00 -0.121 0.289 0.200 0.281 
Mean 
FIRST 
17.07 21.97 20.67 43.91 48.49 64.89 0.472 0.182 0.221 -0.104 -0.342 0.559 0.369 0.644 
Mean 
MED 
10.81 14.52 12.6 21.27 25.89 25.8 0.460 0.250 0.261 -0.152 -0.33 0.492 0.490 0.587 
Mean 
LAST 
5.01 6.30 5.00 5.81 8.07 5.00 0.414 0.768 0.527 -0.479 -0.365 0.451 0.816 0.654 
Từ bảng 2.13 cho thấy có sự khác biệt thống kê trên giá trị MSEts giữa 
thuật toán MG với hai thuật toán được so sánh. Từ đây chúng ta có thể kết 
14 
luận rằng thuật toán MG có thể tạo ra các LRBS có độ chính xác cao hơn 
và phân hoạch mờ dạng đa thể hạt tốt hơn dạng đơn thể hạt. Từ bảng 2.11 
và bảng kết quả phân tích thống kế 2.12 cho thấy, độ phức tạp của LRBS 
được tạo ra từ thuật toán thuật toán MG thấp hơn các thuật toán được so 
sánh. Mặc dù thuật toán MG và các thuật toán được đối sánh được phát triển 
trên cùng một lược đồ tiến hóa (2+2)M-PAES nhưng MG có thể tạo ra các 
LRBS tốt hơn trên cả hai mục tiêu tính giải nghĩa được và độ chính xác. 
Bảng 2.12 So sánh độ phức tạp (Comp) của hệ luật bằng phương pháp kiểm 
định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện 
 VS R+ R Exact P-value Confid. -interval Hypoth. (H0) 
The FIRST point 
HA-PAES-SG 30.0 15.0 ≥ 0.2 [-16.92 , 11.4] Not Rejected 
PAESKB 45.0 0.0 0.003906 [-43.27 , -5.535] Rejected 
The MEDIAN point 
HA-PAES-SG 40.0 5.0 0.03906 [-9.08 , -0.03] Rejected 
PAESKB 37.0 8.0 0.09766 [-11.3 , 0.9] Not Rejected 
The LAST point 
HA-PAES-SG 44.0 1.0 0.007812 [-3.965 , -0.6] Rejected 
PAESKB 0.0 45.0 ≥ 0.2 [0.07 , 1.585] Not Rejected 
 Bảng 2.13 So sánh trung bình phương sai (MSEts) bằng phương pháp kiểm 
định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện 
 VS R+ R Exact P-value Confid. -interval Hypoth. (H0) 
The FIRST point 
HA-PAES-SG 40.0 5.0 0.03906 [0.002 , 0.2355] Rejected 
PAESKB 45.0 0.0 0.003906 [0.0655 , 0.631] Rejected 
The MEDIAN point 
HA-PAES-SG 43.0 2.0 0.011718 [0.029 , 0.313] Rejected 
PAESKB 42.0 3.0 0.019532 [0.0475 , 0.649] Rejected 
The LAST point 
HA-PAES-SG 45.0 0.0 0.003906 [0.2875 , 0.642] Rejected 
PAESKB 45.0 0.0 0.003906 [0.013 , 0.696] Rejected 
2.3. Kết luận chương 2 
Trong chương này luận án đã đề xuất các thuật toán giải bài toán phân 
lớp, hồi quy bằng LRBS. NNTT của các từ được xác định bằng ĐSGT và 
được điều chỉnh thông qua tham số mờ của ĐSGT. 
Thuật toán giải bải toán phân lớp sử dụng thuật toán SGERD trong 
[39] để sinh luật ứng cử, số luật ứng cử sinh ra rất nhỏ so với phương pháp 
sinh luật bằng tổ hợp hoặc từ dữ liệu [50, 52]. Kết quả thử nghiệm cho thấy 
thuật toán tạo ra các LRBS có tính giải nghĩa được và độ chính xác cao hơn 
thuật toán được so sánh. 
Các thuật toán SG và MG xây dựng các LRBS giải bài toán hồi quy, 
thực hiện tối ưu đồng thời NNTT của từ, số từ sử dụng cho mỗi biến và RB 
nhưng không gian tìm kiếm giảm đi đáng kể do sinh luật từ mẫu dữ liệu và 
điều chỉnh ngữ nghĩa tính toán bằng ĐSGT. Các kết quả thử nghiệm được 
so sánh với các thuật toán đề xuất trong [14] và [10] cho thấy các thuật toán 
15 
được phát triển trong luận án tốt hơn trên cả hai mục tiêu. Từ kết quả phân 
tích thống kê có thể kết luận rằng thiết kế NNTT của từ ngôn ngữ bằng cấu 
trúc dạng đa thể hạt tốt hơn dạng đơn thể hạt. 
CHƯƠNG 3. TÍNH GIẢI NGHĨA ĐƯỢC CỦA CÁC KHUNG 
NHẬN THỨC NGÔN NGỮ VÀ BIỂU DIỄN NNTT CỦA CHÚNG 
3.1. Vấn đề tính giải nghĩa được của FRBS 
Vấn đề tính giải nghĩa được của FRBS là bài toán chưa được giải quyết 
bằng một phương pháp luận nhất quán giữa các cách tiếp cận hiện tại và với 
phương pháp nghiên cứu trong lô gic truyền thống. Các tiếp cận giải quyết 
vấn đề này chủ yếu dựa trên trực quan để đưa ra các ràng buộc ở các mức 
khác nhau của FRBS. Trong chương này luận án đề xuất một hướng tiếp 
cận mới dựa trên ý tưởng của logic truyền thống và ĐSGT giải quyết một 
phần vấn đề này. Trước khi trình bày chi tiết các ràng buộc, luận án trình 
bày một số khái niệm mới. 
3.2. Khái niệm khung nhận thức và khung nhận thức ngôn ngữ 
3.2.1. Khung nhận thức và tính giài nghĩa được của nó 
Theo Mencar và Fanelli trong [41] một khung nhận thức (Frame of 
Cognition- FoC) 𝔉 của biến 𝔛 là một tập hữu hạn các tập mờ có thứ tự trên 
miền tham chiếu của 𝔛, và được gán cho các nhãn ngôn ngữ tương ứng 
trong 𝔛. Các nhãn ngôn ngữ kết hợp với các tập mờ tương ứng trong một 
FoC 𝔉 của 𝔛 được người dùng sử dụng để mô tả các tính chất của các thực 
thể dưới dạng ngôn ngữ. Về mặt toán học thì mỗi FoC 𝔉 định nghĩa một 
phép gán ngữ nghĩa cho các nhãn ngôn ngữ bằng cách ánh xạ các nhãn 
ngôn ngữ của 𝔉 tới NNTT của chúng. Một FoC 𝔉 là giải nghĩa được nếu 
người sử dụng có đủ cơ sở tin rằng ngữ nghĩa của các nhãn ngôn ngữ được 
biểu diễn bằng các tập mờ phù hợp với ngữ nghĩa vốn có của các nhãn ngôn 
ngữ tương ứng. 
3.2.2. Khung nhận thức ngôn ngữ 
Thay vì sử dụng khái niệm FoC như các phương pháp tiếp cận dựa trên 
lý thuyết tập mờ, luận án đưa ra khái niệm khung nhận thức ngôn ngữ 
(Linguistic Frame of Cognition – LFoC) trong hướng tiếp cận dựa trên 
ĐSGT. Một LFoC được xem như là một tập các từ ngôn ngữ mà ở đó mỗi 
từ có ngữ nghĩa của riêng và một FoC chỉ được xem như là một phương 
16 
pháp biểu diễn NNTT tương ứng với LFoC. Chúng ta có định nghĩa hình 
thức sau đây. 
Định nghĩa 3.1: [v] Một LFoC 𝔉 của một biến 𝔛, là một tập từ của 𝔛 
được sinh ra từ các phần tử sinh {0, c, W, c+, 1} và tập H các gia tử của 
người dùng thỏa mãn các điều kiện sau: 
(i) {0, c, W, c+, 1}  𝔉; (ii) hx  𝔉  (h’  H) (h’x  𝔉) (hoặc 
tất cả các từ hx, h H, phải cùng thuộc vào 𝔉, hoặc không); (iii) x  𝔉 & x 
= hx’ & h  H  x’  𝔉 (đóng đối với việc lấy tổ tiên của nó). 
3.3. Đề xuất các ràng buộc tính giải nghĩa được trên các LFoC 
3.3.1. Ràng buộc ngữ nghĩa vốn có của từ 
Ràng buộc 1: [v] Ngữ nghĩa vốn có của các từ của một biến xuất hiện 
trong một cơ sở luật ngôn ngữ (Linguistic Rule Base-LRB) phải được sử dụng 
để tạo ra một cơ sở hình thức, từ đó xác định ngữ nghĩa định lượng của từ, 
bao gồm cả ngữ nghĩa dựa trên tập mờ, trong biểu diễn ngữ nghĩa của LRB. 
Trong tính toán với từ ràng buộc này là một yêu cầu tự nhiên và cần 
thiết khi ánh xạ từ tập các từ với cấu trúc tính toán yếu vào một cấu trúc 
tính toán đủ giầu. Trên quan điểm toán học, các tập mờ được gắn với các từ 
chỉ là ảnh tính toán tương ứng. Nó được gán bởi người thiết kế LRBS, trong 
khi mục đích thực sự của chúng ta là xử lý với ngữ nghĩa của các từ. 
3.3.2. Ràng buộc phương pháp xác định NNTT của từ 
Chúng ta thấy rằng miền từ của các biến ngôn ngữ phải được hình thức 
hóa và các phương pháp xây dựng LRBS chủ yếu được phát triển dựa trên 
các thuật toán tiến hóa. Vì vậy, để thuận lợi cho việc phát triển thuật toán 
thì phải có các thủ tục để xác định NNTT của từ, điều khiển, kiểm soát quá 
trình hiệu chỉnh ngữ nghĩa của từ nhằm đảm bảo tính giải nghĩa được LRBS 
ở mức từ. Từ yêu cầu này, chúng tôi đưa ra ràng buộc sau đây: 
Ràng buộc 2: [v] NNTT của các từ, kể cả ngữ nghĩa dựa trên tập mờ, 
phải được sinh ra bằng một phương pháp hình thức thích hợp trên miền từ 
của biến ngôn ngữ và chúng cần được sinh ra bằng một thủ tục được phát 
triển dựa trên chính phương pháp hình thức đó. 
3.3.3. Ràng buộc ngữ nghĩa khoảng của từ 
Trong [49] chỉ ra rằng, ngữ nghĩa của các từ trở nên mờ vì chúng chỉ 
vào nhiều phần tử khác nhau trong thế giới thực. Vì vậy, Nguyễn Cát Hồ 
và cộng sự đã gọi khía cạnh ngữ nghĩa này là ‘ngữ nghĩa khoảng’ của từ. 
17 
Ngữ nghĩa khoảng là một khái niệm hữu dụng cho việc đề xuất ràng buộc 
tính giải nghĩa được trên ngữ nghĩa vốn có của từ ngôn ngữ nhằm bảo toàn 
tính khái quát và tính đặc tả của các từ. Kí hiệu: 𝔖 là tập từ của một LFoC 
của một biến 𝔛, Itv là một tập các khoảng của vũ trụ của biến 𝔛. 
Ràng buộc 3: [v] Cho một tập từ 𝔖 của một LFoC của một biến 𝔛, 
phép gán 𝔄: 𝔖 → Itv, phải bảo toàn mối quan hệ tính khái quát và tính đặc 
tả giữa các từ, tức là với bất kỳ hai từ x, hx  𝔖, trong đó h là một gia tử 
thì (hx)  𝔄(x). 
Ví dụ: (very very tall)  (very tall)  (tall) 
3.3.4. Ràng buộc ngữ nghĩa thứ tự của từ 
 Xét các biến ngôn ngữ 𝔛j với j = 1,.., n+1, và một luật mờ rq: If 𝔛1 is 
Aq1 and  and 𝔛n is Aqn then 𝔛n+1 is Aq(n+1) (3.1). Trong [50, 52] Nguyễn 
Cát Hồ và các cộng sự chứng tỏ rằng ngữ nghĩa thứ tự của các từ của các 
biến là quan trọng và cần thiết cho cuộc sống hàng ngày của con người, và 
đặc biệt để con người làm quyết định. Theo chúng tôi thì bất kỳ luật ngôn 
ngữ nào cũng biểu diễn một mối quan hệ giữa các miền từ của các biến xét 
về phương diện quan hệ ngữ nghĩa thứ tự của chúng. Do đó ngữ nghĩa của 
luật rq phải được định nghĩa trên quan hệ ngữ nghĩa thứ tự của các miền từ 
của các biến. Vì vậy, đòi hỏi phép gán ngữ nghĩa ℑ cho các từ của các biến 
𝔛 có mặt trong luật phải chuyển tải được ngữ nghĩa thứ tự của các từ tới các 
tập mờ (ký hiệu là C(𝔛)) của các luật. Cụ thể, chúng tôi yêu cầu ℑ như là 
một ánh xạ, phải bảo toàn cấu trúc dựa trên thứ tự của miền từ của 𝔛, tức là 
ℑ phải là một song ánh. 
Ràng buộc 4: [v] Để bảo toàn ngữ nghĩa thứ tự của các luật ngôn ngữ, 
phép gán NNTT ℑ : Dom(𝔛) → C(𝔛) của các từ của biến 𝔛 trong các luật 
phải bảo toàn ngữ nghĩa thứ tự của các từ của 𝔛 bằng một định nghĩa quan 
hệ thứ tự ≼ phù hợp trên C(𝔛) và ℑ phải là một song ánh. 
Ví dụ: ℑ (very bad) ≼ ℑ (bad) ≼ ℑ (good) ≼ ℑ (very good) 
3.4. Biểu diễn NNTT dựa trên tập mờ của các từ trong LFoC 
3.4.1. Biểu diễn đơn thể hạt của LFoC 
Đặt 𝔉𝔛 là một LFoC của 𝔛 thỏa mãn định nghĩa 3.1 và 𝔳𝔛 là một ánh 
xạ định lượng ngữ nghĩa được xác định bởi bộ giá trị tham số tính mờ fm(c) 
và (h), h  H \{hp} cho trước. Khi đó biểu diễn đơn thể hạt của một 
LFoC có thể được xây dựng như hình 2.1 là một ví dụ. 
18 
Để kiểm tra tính đúng đắn và tính giải nghĩa được của LFoC, luận án 
xem xét 𝔉𝔛 thỏa mãn những ràng buộc nào được đề xuất trong mục 3.3. 
Trước hết, chúng ta định nghĩa một quan hệ thứ tự trên các tập mờ tam giác, 
mỗi tập mờ được mô tả bằng bộ ba tham số (a, b, c). 
Định nghĩa 3.2: [v] Với hai tập mờ tam giác bất kỳ được xác định 
bằng bộ ba giá trị (a, b, c) và (d, e, f) được định nghĩa trên tập vũ trụ đã 
chuẩn hóa về đoạn [0, 1] của biến 𝔛. Các tập mờ (a, b, c) và (d, e, f) có quan 
hệ thứ tự (a, b, c) ≼ (d, e, f) nếu thỏa mãn một trong những điều kiện sau 
đây: 
(i) Thứ tự mạnh ≼s: (a, b, c)≼s(d, e, f) khi và chỉ khi b < e & a < d & c 
< f; 
(ii) Thứ tự trung bình ≼m: (a, b, c) ≼m (d, e, f) khi và chỉ khi b < e & (a 
< d & c ≥f hoặc c < f & a ≥d); 
(iii) Thứ tự yếu ≼w (ít nhất một trong hai là tam giác vuông nằm ở vị trí 
0 hoặc 1 của vũ trụ): (a, b, c) ≼w (d, e, f) khi và chỉ khi một trong các 
điều kiện sau thỏa mãn: 
 (aD) (b = e = a = d = 0  c < f); 
 (bD) (b = e = c = f = 1  a < d); 
 (cD) ((a > d & c = f = e = 1) hoặc (c > f & a = d = b = 0))  b < e. 
Định lý 3.1: [v] Xét một biến 𝔛 và miền từ tương ứng, X = Dom(𝔛), 
khi đó nó được xem như là một ĐSGT, AX = (X, G, C, H, ). Cho các giá 
trị tham số tính mờ của 𝔛, fm(c) và (h), h  H \ {hp}, biểu diễn đơn thể 
hạt của 𝔉𝔛 được xây dựng bằng thủ tục ở trên có các tính chất sau: 
(i) Biểu diễn đơn thể hạt được xác định duy nhất, và thỏa mãn các ràng 
buộc 1, 2; (ii) thỏa mãn ràng buộc 4, tức là bảo toàn thứ tự các từ của 𝔉𝔛 
với quan hệ thứ tự ≼ trong định nghĩa 3.2. (iii) Không thỏa mãn ràng buộc 
3, do độ hỗ trợ của tập mờ tam giác (ngữ nghĩa khoảng) được gán cho các 
từ không bảo toàn tính khái quát và tính đặc tả của các từ của 𝔉𝔛. 
3.4.2. Biểu diễn đa thể hạt của LFoC 
Giả sử X = Dom(𝔛), tập hợp của tất cả các từ của 𝔛, được chia thành 
các tập Xk, k = 0 đến, mỗi tập bao gồm các từ cùng mức đặc tả. Hình 2.6 
là một ví dụ minh họa cấu trúc đa thể hạt được phát triển trong luận án. 
Định lý 3.2: [v] Xét một biến 𝔛 và miền hạng từ của nó, X = Dom(𝔛), 
nó được xem như là một ĐSGT AX = (X, G, C, H, ) của 𝔛. Với các giá trị 
19 
tham số tính mờ fm(c) và (h), h  H \ {hp} và một mức đặc tả k > 0 cho 
trước, biểu diễn NNTT của một LFoC 𝔉𝔛 dạng đa thể hạt được xây dựng 
theo thủ tục trên có các tính chất sau: 
(i) Biểu diễn đa thể hạt được xác định duy nhất, và thỏa mãn các ràng 
buộc 1, 2; 
(ii) Thỏa mãn ràng buộc 3, bảo toàn quan hệ tính 
            Các file đính kèm theo tài liệu này:
tom_tat_luan_an_hoang_van_thong_tieng_viet_8225_1854472.pdf