Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật (Chuyên ngành: Cơ sở toán học cho tin học)

Ta giới hạn mỗi RB có M luật và M  [Mmin, Mmax]. Mỗi cá thể có hai

mục tiêu là độ chính xác MSE được xác định theo (1.12) và độ phức tạp

Comp được xác định theo (1.13).

b. Các toán tử di truyền

- Toán tử lai ghép: Với hai cá thể bố mẹ p1, p2 sử dụng phương pháp

lai ghép một điểm (one-point crossover) độc lập trên Cµ, Ck và CRB.

Lưu ý: Nếu trên CRB toán tử lai ghép không được thực hiện thì đột biến

luôn xảy trên nó.

- Toán tử đột biến: Với cá thể con p thực hiện đột biến theo thứ tự và

độc lập trên Cµ, Ck và CRB.

Trên C

µ: Lựa chọn ngẫu nhiên một số nguyên trong [1, 2(n + 1)], thực

hiện thay thế gen tại vị trí được chọn bằng một giá trị được chọn ngẫu nhiên

trong các khoảng được xác định trước cho các tham số.

Trên Ck: Nếu đột biến xảy ra thì một gen ngẫu nhiên sẽ được tăng hoặc

giảm, nếu giá trị của nó nằm ngoài khoảng [1, kmax] thì đột biến sẽ bị bỏ

qua.

Trên CRB: Chúng ta áp dụng một trong hai toán tử

1) Toán tử 𝔬m1 thay đổi các giá trị tại  gen của CRB

2) Toán tử 𝔬m2 bổ sung  luật vào CRB

Chú ý: Trong quá trình tiến hóa, nếu một luật trở nên có độ dài bằng 0 thì

nó sẽ bị loại bỏ, và nếu một số luật trở nên giống nhau thì chỉ giữ lại một.

Sau khi lai ghép hoặc đột biến, trong CRB có thể có những luật mà tiền điều

kiện thứ j là từ có độ dài lớn hơn kj thì chúng ta phải thực hiện chuẩn hóa

luật này.

27 trang | Chia sẻ: mimhthuy20 | Lượt xem: 826 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Nghiên cứu ngữ nghĩa tính toán của từ ngôn ngữ và ứng dụng vào việc xây dựng hệ mờ tối ưu dựa trên luật (Chuyên ngành: Cơ sở toán học cho tin học), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

HA-SGERD dựa trên thuật toán SGERD trong [39] với phân hoạch mờ miền tham chiếu của các biến được xây dựng như trong mục 2.1.2. Thuật toán này sinh ra tập luật ứng cử rất nhỏ. 4) Thuật toán OP-PARHA thiết kế ngôn ngữ Thiết kế ngôn ngữ là đi tìm bộ tham số tính mờ tối ưu của ĐSGT. Giả thiết mỗi biến 𝔛j chỉ có 2 gia tử, một gia tử dương (Vj) và một gia tử âm (Lj). Khi đó việc tối ưu tham số của ĐSGT cho mỗi tập dữ liệu là đi tìm bộ tham số tối ưu op ={( j fmco  , jLo , okj, o): j = 1,..,n} với tiêu chuẩn chọn luật (2.5) hoặc op ={( j fmco  , jLo , okj) : j=1,..,n} với tiêu chuẩn còn lại. Để tìm tham số tính mờ tối ưu của ĐSGT, chúng tôi thiết kế thuật toán OP-PARHA dựa trên giải thuật di truyền với sơ đồ mã hóa nhị phân. Và hàm mục tiêu perf(R, D) là hiệu quả phân lớp của hệ luật R trên toàn bộ tập mẫu dữ liệu D, R được sinh ra từ HA-SGERD. Các toán tử đột biến, lại ghép và lựa chọn quần thể cho thế hệ kế tiếp được thừa kế trong [5]. 5) Thuật toán HA-OFRB tối ưu hệ luật Với bộ tham số tối ưu tìm được bằng thuật toán OP-PARHA, áp dụng 9 thuật toán HA-SGERD để sinh ra m*Q luật ứng cử R. Chúng tôi thiết kế thuật toán HA-OFRB dựa trên GA với sơ đồ mã hóa nhị phân để tìm kiếm hệ luật con S tối ưu từ tập R. 2.1.3. Kết quả thử nghiệm Thực hiện thử nghiệm thuật toán được đề xuất với các tiêu chuẩn chọn luật trong mục 2.1.3, đối sánh kết quả thực hiện đạt được của các tiêu chuẩn này và đối sánh với thuật toán trong [39]. Kết quả thử nghiệm được tổng hợp trong các bảng 2.3, 2.4, 2.5 và 2.6. Bảng 2.3 Kết quả thử nghiệm thuật toán OPHA-SGERD và thuật toán SGERD với tiêu chuẩn (2.3) Bảng 2.4 Kết quả thử nghiệm thuật toán OPHA-SGERD và thuât toán SGERD với tiêu chuẩn (2.4) Tập dữ liệu Perf (%) #Nar #Nal Tập dữ liệu Perf (%) #Nar #Nal SGERD OPHA- SGERD SGERD OPHA- SGERD SGERD OPHA- SGERD SGERD OPHA- SGERD SGERD OPHA- SGERD SGERD OPHA- SGERD Cancer 96.29 96.42 5.38 6.00 1.17 1.33 Cancer 97.02 96.42 3.96 5.00 2.31 2.40 Glass 62.90 68.22 11.52 12.00 1.85 2.83 Glass 63.38 73.36 10.22 11.00 2.13 2.45 Iris 96.93 96.67 4.00 4.00 1.01 1.25 Iris 96.40 97.33 4.30 5.00 1.95 1.80 Pima 74.64 77.34 6.12 7.00 1.42 1.43 Pima 73.08 76.95 7.76 8.00 7.18 2.50 Sonar 77.20 82.21 4.29 6.00 1.14 1.50 Sonar 75.20 79.81 5.96 5.00 5.17 3.80 Wine 95.52 96.07 7.12 8.00 1.39 2.13 Wine 96.19 96.63 6.14 7.00 3.56 2.43 Image 83.52 86.19 11.44 11.00 2.18 2.45 Image 86.10 86.76 9.28 14.00 4.56 2.57 Vowel 49.68 51.72 30 29.00 3.04 3.03 Vowel 58.53 55.25 33.78 30.00 3.88 2.57 Yeast 49.84 53.77 22.36 20.00 2.85 2.90 Yeast 56.53 54.18 21.50 20.00 5.50 2.95 Bảng 2.5 Kết quả thử nghiệm thuật toán OPHA-SGERD với tiêu chuẩn chọn luật (2.5) và thuật toán SGERD với tiêu chuẩn (2.4) Bảng 2.6 Kết quả thử nghiệm thuật toán OPHA-SGERD với ba tiểu chuẩn (2.3), (2.4), (2.5) Tập dữ liệu Perf (%) #Nar #Nal Tập dữ liệu Perf (%) SGERD OPHA- SGERD SGERD OPHA- SGERD SGERD OPHA- SGERD (2.3) (2.4) (2.5) Cancer 97.02 96.42 3.96 6.00 2.31 1.83 Cancer 96.42 96.42 96.42 Glass 63.38 73.83 10.22 11.00 2.13 3.73 Glass 68.22 73.36 73.83 Iris 96.40 97.33 4.30 4.00 1.95 1.50 Iris 96.67 97.33 97.33 Pima 73.08 77.34 7.76 7.00 7.18 2.29 Pima 77.34 76.95 77.34 Sonar 75.20 78.85 5.96 5.00 5.17 4.40 Sonar 82.21 79.81 78.85 Wine 96.19 97.19 6.14 8.00 3.56 2.75 Wine 96.07 96.63 97.19 Image 86.10 86.19 9.28 12.00 4.56 4.00 Image 86.19 86.76 86.19 Vowel 58.53 57.37 33.78 34.00 3.88 3.44 Vowel 51.72 55.25 57.37 Yeast 56.53 55.73 21.50 19.00 5.50 3.53 Yeast 53.77 54.18 55.73 Từ các bảng tổng hợp kết quả thử nghiệm chúng tôi có thể khẳng định thuật toán được đề xuất với tiêu chuẩn chọn luật cải tiến (2.5) trong luận án tạo ra các LRBS có độ chính xác và tính giải nghĩa được được định nghĩa dựa trên độ phức tạp tốt hơn thuật toán SGERD và tiêu chuẩn chọn luật 10 (2.5) tốt hơn các tiêu chuẩn (2.3), (2.4). 2.2. Phát triển thuật toán giải bài toán hồi quy 2.2.1. Bài toán hồi quy Cho một tập mẫu dữ liệu D ={(pi, yi), i = 1,..,N }, pi là một véc tơ n chiều có dạng (di1, di2,.., din), dij Uj  R (tập số thực) là miền xác định của các biến độc lập (thuộc tính đầu vào) 𝔛j của bài toán, với j = 1,..,n; yi  Un+1  R (tập số thực) là miền xác định của biến phụ thuộc (thuộc tính đầu ra) 𝔛n+1, N là số mẫu dữ liệu. Từ tập dữ liệu mẫu D xây dựng một hệ mờ cho phép tính giá trị yˆ  Un+1 ứng với mỗi giá trị đầu vào p  U = U1  ...  Un. Giải bài toán hồi quy bằng FRBS là đi xây dựng một hệ luật mờ S để ánh xạ tập dữ liệu đầu vào U vào tập dữ liệu đầu ra Un+1 bằng một phương pháp lập luận xấp xỉ. Khi xây dựng các FRBS cho bài toán hồi quy, các luật sử dụng trong RB thường là luật mờ Mamdani. Trong chương này luận án đề xuất hai thuật toán được gọi là HA-PAES-SG và HA-PAES-MG dựa trên lược đồ tiến hóa (2+2)M-PAES và ĐSGT xây dựng LRBS giải bài toán này. Trong đó tính giải nghĩa được của LRBS được định nghĩa dựa trên độ phức tạp. 2.2.2. Thuật toán HA-PAES-SG Thuật toán cho phép học đồng thời ngữ nghĩa tính toán của từ được biểu diễn bằng tập mờ dạng tam giác, số từ ngôn ngữ sử dụng cho mỗi biến và cơ sở luật. Hàm sinh luật (GenerateRule) từ mẫu dữ liệu tương tự như trong [v]. Với phương pháp sinh luật này sẽ làm giảm không gian tìm kiếm các luật phải xem xét rất nhiều so với sinh luật bằng tổ hợp tất cả các từ sử dụng cho các biến. 1) Phát triển thuật toán a. Mã hóa cá thể: Giả thiết mỗi biến 𝔛j chỉ có một gia tử dương Vj (Very), một gia tử âm Lj (Little) và mục tiêu cần tối ưu là tham số tập mờ, số từ ngôn ngữ và cơ sở luật. Khi đó mỗi cá thể của quần thể được mã hóa gồm ba phần (Cµ, Ck, CRB) xem hình 2.3. Trong đó Cµ, Ck, CRB lần lượt biểu diễn các tham số tính mờ của các ĐSGT, độ dài tối đa của các từ và cơ sở luật. Hình 2.3. Cấu trúc mã hóa một cá thể 11 Ta giới hạn mỗi RB có M luật và M  [Mmin, Mmax]. Mỗi cá thể có hai mục tiêu là độ chính xác MSE được xác định theo (1.12) và độ phức tạp Comp được xác định theo (1.13). b. Các toán tử di truyền - Toán tử lai ghép: Với hai cá thể bố mẹ p1, p2 sử dụng phương pháp lai ghép một điểm (one-point crossover) độc lập trên Cµ, Ck và CRB. Lưu ý: Nếu trên CRB toán tử lai ghép không được thực hiện thì đột biến luôn xảy trên nó. - Toán tử đột biến: Với cá thể con p thực hiện đột biến theo thứ tự và độc lập trên Cµ, Ck và CRB. Trên Cµ: Lựa chọn ngẫu nhiên một số nguyên trong [1, 2(n + 1)], thực hiện thay thế gen tại vị trí được chọn bằng một giá trị được chọn ngẫu nhiên trong các khoảng được xác định trước cho các tham số. Trên Ck: Nếu đột biến xảy ra thì một gen ngẫu nhiên sẽ được tăng hoặc giảm, nếu giá trị của nó nằm ngoài khoảng [1, kmax] thì đột biến sẽ bị bỏ qua. Trên CRB: Chúng ta áp dụng một trong hai toán tử 1) Toán tử 𝔬m1 thay đổi các giá trị tại  gen của CRB 2) Toán tử 𝔬m2 bổ sung  luật vào CRB Chú ý: Trong quá trình tiến hóa, nếu một luật trở nên có độ dài bằng 0 thì nó sẽ bị loại bỏ, và nếu một số luật trở nên giống nhau thì chỉ giữ lại một. Sau khi lai ghép hoặc đột biến, trong CRB có thể có những luật mà tiền điều kiện thứ j là từ có độ dài lớn hơn kj thì chúng ta phải thực hiện chuẩn hóa luật này. Định nghĩa 2.1: Luật rq được gọi là luật không chuẩn nếu j sao cho từ jq A , là điều kiện tiền đề tương ứng với biến 𝔛j có độ dài lớn hơn kj. Nếu luật rq không chuẩn do điều kiện tiền đề tương ứng với từ jqA , gây nên thì bỏ các gia tử bên trái của jq A , để được từ ' , jq A có độ dài đúng bằng kj.. c. Thuật toán tiến hóa đa mục tiêu: Tương tự như trong [8-10, 12-15], chúng tôi áp dụng lược đồ tiến hóa (2+2)M-PAES trong [16]. 2) Kết quả thử nghiệm Bảng 2.8 Các tham số thử nghiệm min = fmmin =0.3, max =fmmax = 0.7 PAdd = 0.75 Pinc_k = 0.5 12 𝑃𝐶𝜇 = 0.75, 𝑃𝐶𝑘 = 0.3, 𝑃𝐶𝑅𝐵 = 0.3 kmax = 3, lmax = 5, max = 5, max = 5 𝑃𝑚𝜇 = 0.3, 𝑃𝑚𝑘 = 0.3, 𝑃𝑚𝑅𝐵= 0.1 archiveSize = 64, MaxGen = 300,000 Mmin = 5, Mmax = 50 Chúng tôi tiến hành thử nghiệm thuật toán HA-PAES-SG trên máy tính tương tự như thử nghiệm trong [14] trên 6 tập dữ liệu hồi quy với các tham số trong bảng 2.8. Các kết được quả tổng hợp và trình bày trong các bảng 2.9. Từ bảng 2.9 cho thấy giá trị MSE của thuật toán HA-PAES-SG tốt hơn trên 5 tập dữ liệu trên cả tập huấn luyện và tập kiểm tra, ngoại trừ ELE thấp hơn trên tập huấn luyện. Ở đây có sự khác biệt lớn về độ chính xác giữa thuật toán của chúng tôi với các thuật toán được so sánh. Bên cạnh đó độ phức tạp của các LRBS cũng thấp hơn trên 5 tập dữ liệu. Chiều dài trung bình của luật (Comp/#R) trong LRBS được tạo ra từ thuật toán HA-PAES- SG ngắn hơn nhiều so với với các thuật toán trong [14]. Bảng 2.9 So sánh kết quả thử nghiệm thuật toán HA-PAES-SG với các thuật toán (2+2)M-PAES(I) và (2+2)M-PAES(C) trong [14] tại điểm FIRST Tập dữ liệu Thuật toán # R Comp TrMSE SDtr ttr TsMSE SDts tts ELE (2+2)M-PAES(I) 34.480 68.210 13660.200 1851.500 = 15768.600 3239.900 = (2+2)M-PAES(C) 24.240 96.480 13539.800 3764.700 * 15278.800 4129.000 = HA-PAES-SG 34.966 75.414 13732.337 2499.690 = 14969.681 4010.176 * WA (2+2)M-PAES(I) 20.200 75.160 1.911 0.381 + 1.997 0.298 + (2+2)M-PAES(C) 15.270 98.650 1.694 0.489 + 2.094 0.973 + HA-PAES-SG 24.100 58.000 1.265 0.175 * 1.383 0.229 * WI (2+2)M-PAES(I) 17.830 61.810 1.474 0.343 + 1.647 0.343 + (2+2)M-PAES(C) 13.120 83.550 1.441 0.276 + 1.556 0.243 + HA-PAES-SG 24.167 57.833 0.873 0.102 * 1.034 0.161 * MPG6 (2+2)M-PAES(I) 40.360 130.280 2.565 0.341 + 4.185 1.352 = (2+2)M-PAES(C) 48.030 121.660 2.820 0.428 + 4.304 1.365 = HA-PAES-SG 47.700 112.033 2.153 0.192 * 4.036 1.117 * STP (2+2)M-PAES(I) 48.530 184.000 0.748 0.098 + 0.934 0.175 = (2+2)M-PAES(C) 49.420 181.730 0.795 0.225 + 1.046 0.309 + HA-PAES-SG 49.100 146.700 0.567 0.109 * 0.720 0.192 * TR (2+2)M-PAES(I) 25.100 103.920 0.056 0.020 = 0.100 0.097 = (2+2)M-PAES(C) 19.100 147.000 0.066 0.025 = 0.132 0.132 = HA-PAES-SG 29.267 62.267 0.038 0.014 * 0.068 0.094 * 2.2.3. Thuật toán HA-PAES-MG Trong phần này chúng tôi phát triển một thuật toán được gọi là HA- PAES-MG (MG) nó thì tương tự như thuật toán HA-PAES-SG (SG). Tuy 13 nhiên ở thuật toán này chúng tôi đề xuất một phương pháp thiết kế ngữ nghĩa tính toán của từ dạng phân hoạch mờ đa thể hạt mới (hình 2.6). Hình 2.5. Một thiết kế phân hoạch mờ đa thể hạt trong [50] với độ dài tối đa của từ là 2. Hình 2.6. Một thiết kế phân hoạch mờ đa thể hạt được đề xuất mới với độ dài tối đa của từ là 2. Chúng tôi tiến hành thử nghiệm thuật toán MG tương tự như trong [10] với các tham số được cho trong bảng 2.8, ở đây tham số Mmax = 30. Kết quả thử nghiệm được đối sánh với thuật toán SG và PAESKB trong [10] (viết tắt là KB). Tổng hợp các kết quả thử nghiệm tại điểm FIRST và kết quả trung bình tại điểm MEDIAN, LAST được trình bày trong bảng 2.11. Chúng tôi tiến hành đối sánh bằng phương pháp phân tích thống kê Wilcoxon test trên giá trị độ phức tạp (Comp) và sai số bình phương trung bình trên tập kiểm tra MSEts với giả thiết H0 = “Không có sự khác biệt giữa hai phương pháp được đối sánh”. Kết quả phân tích thống kê được tổng hợp trong các bảng 2.12 và 2.13. Bảng 2.11 Kết quả trung bình đạt được bởi HA-PAES-MG (MG), HA-PAES- SG (SG) và PAESKB (KB) tại điểm FIRST T ậ p d ữ l iệ u #R Comp MSEts SD’tr MSEts SD’ts MG SG KB MG SG KB MG SG KB MG SG KB MG SG DiffSG KB DiffKB MG SG KB ELE1 20.40 22.63 27.00 35.03 35.87 46.00 146130 159836 145995 0.031 0.068 0.026 192042 201897 -0.049 194028 -0.010 0.167 0.177 0.128 ELE2 24.43 26.67 30.00 57.17 59.07 65.00 9821 18,589 11043 0.189 0.329 0.251 11397 21,255 -0.464 12606 -0.096 0.208 0.400 0.246 WA 22.80 24.13 28.00 69.67 58.27 103.00 0.97 1.26 1.64 0.085 0.137 0.024 1.06 1.38 -0.231 3.92 -0.729 0.108 0.163 2.365 WI 23.33 24.17 25.00 72.57 57.83 91.00 0.74 0.87 1.30 0.103 0.115 0.208 0.87 1.03 -0.158 1.49 -0.415 0.144 0.153 0.174 TR 15.00 14.73 11.00 37.60 24.50 40.00 0.08 0.05 0.08 3.233 0.314 0.500 0.10 0.09 0.081 0.14 -0.317 3.050 1.567 1.071 AB 12.87 26.27 29.00 31.43 59.67 107.00 2.40 2.35 2.32 0.048 0.040 0.034 2.447 2.453 -0.002 2.48 -0.013 0.074 0.074 0.073 MTG 13.00 17.73 12.00 25.97 28.37 49.00 0.016 0.017 0.05 0.239 0.259 0.400 0.023 0.023 -0.005 0.09 -0.749 0.847 0.398 1.111 CA 10.57 15.00 10.00 29.90 45.07 30.00 4.76 4.73 11.99 0.139 0.192 0.249 4.95 4.99 -0.007 13.43 -0.631 0.137 0.193 0.347 PT 11.20 26.40 14.00 35.83 67.77 53.00 75.87 82.87 87.00 0.282 0.185 0.299 78.23 87.02 -0.101 89.00 -0.121 0.289 0.200 0.281 Mean FIRST 17.07 21.97 20.67 43.91 48.49 64.89 0.472 0.182 0.221 -0.104 -0.342 0.559 0.369 0.644 Mean MED 10.81 14.52 12.6 21.27 25.89 25.8 0.460 0.250 0.261 -0.152 -0.33 0.492 0.490 0.587 Mean LAST 5.01 6.30 5.00 5.81 8.07 5.00 0.414 0.768 0.527 -0.479 -0.365 0.451 0.816 0.654 Từ bảng 2.13 cho thấy có sự khác biệt thống kê trên giá trị MSEts giữa thuật toán MG với hai thuật toán được so sánh. Từ đây chúng ta có thể kết 14 luận rằng thuật toán MG có thể tạo ra các LRBS có độ chính xác cao hơn và phân hoạch mờ dạng đa thể hạt tốt hơn dạng đơn thể hạt. Từ bảng 2.11 và bảng kết quả phân tích thống kế 2.12 cho thấy, độ phức tạp của LRBS được tạo ra từ thuật toán thuật toán MG thấp hơn các thuật toán được so sánh. Mặc dù thuật toán MG và các thuật toán được đối sánh được phát triển trên cùng một lược đồ tiến hóa (2+2)M-PAES nhưng MG có thể tạo ra các LRBS tốt hơn trên cả hai mục tiêu tính giải nghĩa được và độ chính xác. Bảng 2.12 So sánh độ phức tạp (Comp) của hệ luật bằng phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện VS R+ R Exact P-value Confid. -interval Hypoth. (H0) The FIRST point HA-PAES-SG 30.0 15.0 ≥ 0.2 [-16.92 , 11.4] Not Rejected PAESKB 45.0 0.0 0.003906 [-43.27 , -5.535] Rejected The MEDIAN point HA-PAES-SG 40.0 5.0 0.03906 [-9.08 , -0.03] Rejected PAESKB 37.0 8.0 0.09766 [-11.3 , 0.9] Not Rejected The LAST point HA-PAES-SG 44.0 1.0 0.007812 [-3.965 , -0.6] Rejected PAESKB 0.0 45.0 ≥ 0.2 [0.07 , 1.585] Not Rejected Bảng 2.13 So sánh trung bình phương sai (MSEts) bằng phương pháp kiểm định giả thuyết Wilcoxon-test với mức α = 0.05 tại ba điểm đại diện VS R+ R Exact P-value Confid. -interval Hypoth. (H0) The FIRST point HA-PAES-SG 40.0 5.0 0.03906 [0.002 , 0.2355] Rejected PAESKB 45.0 0.0 0.003906 [0.0655 , 0.631] Rejected The MEDIAN point HA-PAES-SG 43.0 2.0 0.011718 [0.029 , 0.313] Rejected PAESKB 42.0 3.0 0.019532 [0.0475 , 0.649] Rejected The LAST point HA-PAES-SG 45.0 0.0 0.003906 [0.2875 , 0.642] Rejected PAESKB 45.0 0.0 0.003906 [0.013 , 0.696] Rejected 2.3. Kết luận chương 2 Trong chương này luận án đã đề xuất các thuật toán giải bài toán phân lớp, hồi quy bằng LRBS. NNTT của các từ được xác định bằng ĐSGT và được điều chỉnh thông qua tham số mờ của ĐSGT. Thuật toán giải bải toán phân lớp sử dụng thuật toán SGERD trong [39] để sinh luật ứng cử, số luật ứng cử sinh ra rất nhỏ so với phương pháp sinh luật bằng tổ hợp hoặc từ dữ liệu [50, 52]. Kết quả thử nghiệm cho thấy thuật toán tạo ra các LRBS có tính giải nghĩa được và độ chính xác cao hơn thuật toán được so sánh. Các thuật toán SG và MG xây dựng các LRBS giải bài toán hồi quy, thực hiện tối ưu đồng thời NNTT của từ, số từ sử dụng cho mỗi biến và RB nhưng không gian tìm kiếm giảm đi đáng kể do sinh luật từ mẫu dữ liệu và điều chỉnh ngữ nghĩa tính toán bằng ĐSGT. Các kết quả thử nghiệm được so sánh với các thuật toán đề xuất trong [14] và [10] cho thấy các thuật toán 15 được phát triển trong luận án tốt hơn trên cả hai mục tiêu. Từ kết quả phân tích thống kê có thể kết luận rằng thiết kế NNTT của từ ngôn ngữ bằng cấu trúc dạng đa thể hạt tốt hơn dạng đơn thể hạt. CHƯƠNG 3. TÍNH GIẢI NGHĨA ĐƯỢC CỦA CÁC KHUNG NHẬN THỨC NGÔN NGỮ VÀ BIỂU DIỄN NNTT CỦA CHÚNG 3.1. Vấn đề tính giải nghĩa được của FRBS Vấn đề tính giải nghĩa được của FRBS là bài toán chưa được giải quyết bằng một phương pháp luận nhất quán giữa các cách tiếp cận hiện tại và với phương pháp nghiên cứu trong lô gic truyền thống. Các tiếp cận giải quyết vấn đề này chủ yếu dựa trên trực quan để đưa ra các ràng buộc ở các mức khác nhau của FRBS. Trong chương này luận án đề xuất một hướng tiếp cận mới dựa trên ý tưởng của logic truyền thống và ĐSGT giải quyết một phần vấn đề này. Trước khi trình bày chi tiết các ràng buộc, luận án trình bày một số khái niệm mới. 3.2. Khái niệm khung nhận thức và khung nhận thức ngôn ngữ 3.2.1. Khung nhận thức và tính giài nghĩa được của nó Theo Mencar và Fanelli trong [41] một khung nhận thức (Frame of Cognition- FoC) 𝔉 của biến 𝔛 là một tập hữu hạn các tập mờ có thứ tự trên miền tham chiếu của 𝔛, và được gán cho các nhãn ngôn ngữ tương ứng trong 𝔛. Các nhãn ngôn ngữ kết hợp với các tập mờ tương ứng trong một FoC 𝔉 của 𝔛 được người dùng sử dụng để mô tả các tính chất của các thực thể dưới dạng ngôn ngữ. Về mặt toán học thì mỗi FoC 𝔉 định nghĩa một phép gán ngữ nghĩa cho các nhãn ngôn ngữ bằng cách ánh xạ các nhãn ngôn ngữ của 𝔉 tới NNTT của chúng. Một FoC 𝔉 là giải nghĩa được nếu người sử dụng có đủ cơ sở tin rằng ngữ nghĩa của các nhãn ngôn ngữ được biểu diễn bằng các tập mờ phù hợp với ngữ nghĩa vốn có của các nhãn ngôn ngữ tương ứng. 3.2.2. Khung nhận thức ngôn ngữ Thay vì sử dụng khái niệm FoC như các phương pháp tiếp cận dựa trên lý thuyết tập mờ, luận án đưa ra khái niệm khung nhận thức ngôn ngữ (Linguistic Frame of Cognition – LFoC) trong hướng tiếp cận dựa trên ĐSGT. Một LFoC được xem như là một tập các từ ngôn ngữ mà ở đó mỗi từ có ngữ nghĩa của riêng và một FoC chỉ được xem như là một phương 16 pháp biểu diễn NNTT tương ứng với LFoC. Chúng ta có định nghĩa hình thức sau đây. Định nghĩa 3.1: [v] Một LFoC 𝔉 của một biến 𝔛, là một tập từ của 𝔛 được sinh ra từ các phần tử sinh {0, c, W, c+, 1} và tập H các gia tử của người dùng thỏa mãn các điều kiện sau: (i) {0, c, W, c+, 1}  𝔉; (ii) hx  𝔉  (h’  H) (h’x  𝔉) (hoặc tất cả các từ hx, h H, phải cùng thuộc vào 𝔉, hoặc không); (iii) x  𝔉 & x = hx’ & h  H  x’  𝔉 (đóng đối với việc lấy tổ tiên của nó). 3.3. Đề xuất các ràng buộc tính giải nghĩa được trên các LFoC 3.3.1. Ràng buộc ngữ nghĩa vốn có của từ Ràng buộc 1: [v] Ngữ nghĩa vốn có của các từ của một biến xuất hiện trong một cơ sở luật ngôn ngữ (Linguistic Rule Base-LRB) phải được sử dụng để tạo ra một cơ sở hình thức, từ đó xác định ngữ nghĩa định lượng của từ, bao gồm cả ngữ nghĩa dựa trên tập mờ, trong biểu diễn ngữ nghĩa của LRB. Trong tính toán với từ ràng buộc này là một yêu cầu tự nhiên và cần thiết khi ánh xạ từ tập các từ với cấu trúc tính toán yếu vào một cấu trúc tính toán đủ giầu. Trên quan điểm toán học, các tập mờ được gắn với các từ chỉ là ảnh tính toán tương ứng. Nó được gán bởi người thiết kế LRBS, trong khi mục đích thực sự của chúng ta là xử lý với ngữ nghĩa của các từ. 3.3.2. Ràng buộc phương pháp xác định NNTT của từ Chúng ta thấy rằng miền từ của các biến ngôn ngữ phải được hình thức hóa và các phương pháp xây dựng LRBS chủ yếu được phát triển dựa trên các thuật toán tiến hóa. Vì vậy, để thuận lợi cho việc phát triển thuật toán thì phải có các thủ tục để xác định NNTT của từ, điều khiển, kiểm soát quá trình hiệu chỉnh ngữ nghĩa của từ nhằm đảm bảo tính giải nghĩa được LRBS ở mức từ. Từ yêu cầu này, chúng tôi đưa ra ràng buộc sau đây: Ràng buộc 2: [v] NNTT của các từ, kể cả ngữ nghĩa dựa trên tập mờ, phải được sinh ra bằng một phương pháp hình thức thích hợp trên miền từ của biến ngôn ngữ và chúng cần được sinh ra bằng một thủ tục được phát triển dựa trên chính phương pháp hình thức đó. 3.3.3. Ràng buộc ngữ nghĩa khoảng của từ Trong [49] chỉ ra rằng, ngữ nghĩa của các từ trở nên mờ vì chúng chỉ vào nhiều phần tử khác nhau trong thế giới thực. Vì vậy, Nguyễn Cát Hồ và cộng sự đã gọi khía cạnh ngữ nghĩa này là ‘ngữ nghĩa khoảng’ của từ. 17 Ngữ nghĩa khoảng là một khái niệm hữu dụng cho việc đề xuất ràng buộc tính giải nghĩa được trên ngữ nghĩa vốn có của từ ngôn ngữ nhằm bảo toàn tính khái quát và tính đặc tả của các từ. Kí hiệu: 𝔖 là tập từ của một LFoC của một biến 𝔛, Itv là một tập các khoảng của vũ trụ của biến 𝔛. Ràng buộc 3: [v] Cho một tập từ 𝔖 của một LFoC của một biến 𝔛, phép gán 𝔄: 𝔖 → Itv, phải bảo toàn mối quan hệ tính khái quát và tính đặc tả giữa các từ, tức là với bất kỳ hai từ x, hx  𝔖, trong đó h là một gia tử thì (hx)  𝔄(x). Ví dụ: (very very tall)  (very tall)  (tall) 3.3.4. Ràng buộc ngữ nghĩa thứ tự của từ Xét các biến ngôn ngữ 𝔛j với j = 1,.., n+1, và một luật mờ rq: If 𝔛1 is Aq1 and and 𝔛n is Aqn then 𝔛n+1 is Aq(n+1) (3.1). Trong [50, 52] Nguyễn Cát Hồ và các cộng sự chứng tỏ rằng ngữ nghĩa thứ tự của các từ của các biến là quan trọng và cần thiết cho cuộc sống hàng ngày của con người, và đặc biệt để con người làm quyết định. Theo chúng tôi thì bất kỳ luật ngôn ngữ nào cũng biểu diễn một mối quan hệ giữa các miền từ của các biến xét về phương diện quan hệ ngữ nghĩa thứ tự của chúng. Do đó ngữ nghĩa của luật rq phải được định nghĩa trên quan hệ ngữ nghĩa thứ tự của các miền từ của các biến. Vì vậy, đòi hỏi phép gán ngữ nghĩa ℑ cho các từ của các biến 𝔛 có mặt trong luật phải chuyển tải được ngữ nghĩa thứ tự của các từ tới các tập mờ (ký hiệu là C(𝔛)) của các luật. Cụ thể, chúng tôi yêu cầu ℑ như là một ánh xạ, phải bảo toàn cấu trúc dựa trên thứ tự của miền từ của 𝔛, tức là ℑ phải là một song ánh. Ràng buộc 4: [v] Để bảo toàn ngữ nghĩa thứ tự của các luật ngôn ngữ, phép gán NNTT ℑ : Dom(𝔛) → C(𝔛) của các từ của biến 𝔛 trong các luật phải bảo toàn ngữ nghĩa thứ tự của các từ của 𝔛 bằng một định nghĩa quan hệ thứ tự ≼ phù hợp trên C(𝔛) và ℑ phải là một song ánh. Ví dụ: ℑ (very bad) ≼ ℑ (bad) ≼ ℑ (good) ≼ ℑ (very good) 3.4. Biểu diễn NNTT dựa trên tập mờ của các từ trong LFoC 3.4.1. Biểu diễn đơn thể hạt của LFoC Đặt 𝔉𝔛 là một LFoC của 𝔛 thỏa mãn định nghĩa 3.1 và 𝔳𝔛 là một ánh xạ định lượng ngữ nghĩa được xác định bởi bộ giá trị tham số tính mờ fm(c) và (h), h  H \{hp} cho trước. Khi đó biểu diễn đơn thể hạt của một LFoC có thể được xây dựng như hình 2.1 là một ví dụ. 18 Để kiểm tra tính đúng đắn và tính giải nghĩa được của LFoC, luận án xem xét 𝔉𝔛 thỏa mãn những ràng buộc nào được đề xuất trong mục 3.3. Trước hết, chúng ta định nghĩa một quan hệ thứ tự trên các tập mờ tam giác, mỗi tập mờ được mô tả bằng bộ ba tham số (a, b, c). Định nghĩa 3.2: [v] Với hai tập mờ tam giác bất kỳ được xác định bằng bộ ba giá trị (a, b, c) và (d, e, f) được định nghĩa trên tập vũ trụ đã chuẩn hóa về đoạn [0, 1] của biến 𝔛. Các tập mờ (a, b, c) và (d, e, f) có quan hệ thứ tự (a, b, c) ≼ (d, e, f) nếu thỏa mãn một trong những điều kiện sau đây: (i) Thứ tự mạnh ≼s: (a, b, c)≼s(d, e, f) khi và chỉ khi b < e & a < d & c < f; (ii) Thứ tự trung bình ≼m: (a, b, c) ≼m (d, e, f) khi và chỉ khi b < e & (a < d & c ≥f hoặc c < f & a ≥d); (iii) Thứ tự yếu ≼w (ít nhất một trong hai là tam giác vuông nằm ở vị trí 0 hoặc 1 của vũ trụ): (a, b, c) ≼w (d, e, f) khi và chỉ khi một trong các điều kiện sau thỏa mãn: (aD) (b = e = a = d = 0  c < f); (bD) (b = e = c = f = 1  a < d); (cD) ((a > d & c = f = e = 1) hoặc (c > f & a = d = b = 0))  b < e. Định lý 3.1: [v] Xét một biến 𝔛 và miền từ tương ứng, X = Dom(𝔛), khi đó nó được xem như là một ĐSGT, AX = (X, G, C, H, ). Cho các giá trị tham số tính mờ của 𝔛, fm(c) và (h), h  H \ {hp}, biểu diễn đơn thể hạt của 𝔉𝔛 được xây dựng bằng thủ tục ở trên có các tính chất sau: (i) Biểu diễn đơn thể hạt được xác định duy nhất, và thỏa mãn các ràng buộc 1, 2; (ii) thỏa mãn ràng buộc 4, tức là bảo toàn thứ tự các từ của 𝔉𝔛 với quan hệ thứ tự ≼ trong định nghĩa 3.2. (iii) Không thỏa mãn ràng buộc 3, do độ hỗ trợ của tập mờ tam giác (ngữ nghĩa khoảng) được gán cho các từ không bảo toàn tính khái quát và tính đặc tả của các từ của 𝔉𝔛. 3.4.2. Biểu diễn đa thể hạt của LFoC Giả sử X = Dom(𝔛), tập hợp của tất cả các từ của 𝔛, được chia thành các tập Xk, k = 0 đến, mỗi tập bao gồm các từ cùng mức đặc tả. Hình 2.6 là một ví dụ minh họa cấu trúc đa thể hạt được phát triển trong luận án. Định lý 3.2: [v] Xét một biến 𝔛 và miền hạng từ của nó, X = Dom(𝔛), nó được xem như là một ĐSGT AX = (X, G, C, H, ) của 𝔛. Với các giá trị 19 tham số tính mờ fm(c) và (h), h  H \ {hp} và một mức đặc tả k > 0 cho trước, biểu diễn NNTT của một LFoC 𝔉𝔛 dạng đa thể hạt được xây dựng theo thủ tục trên có các tính chất sau: (i) Biểu diễn đa thể hạt được xác định duy nhất, và thỏa mãn các ràng buộc 1, 2; (ii) Thỏa mãn ràng buộc 3, bảo toàn quan hệ tính

Các file đính kèm theo tài liệu này:

tom_tat_luan_an_hoang_van_thong_tieng_viet_8225_1854472.pdf