Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào

LỜI CAM ĐOAN. iii

MỤC LỤC. iv

DANH MỤC CHỮ VIẾT TẮT. vii

DANH MỤC CÁC BẢNG. viii

DANH MỤC CÁC HÌNH. ix

MỞ ĐẦU .1

1.Mục tiêu, đối tượng và phạm vi nghiên cứu .3

2.Nhiệm vụ nghiên cứu và kết quả đạt được.4

3.Cấu trúc của luận án .4

4.Đóng góp của luận án .5

CHƯƠNG 1.VẤN ĐỀ XỬ LÝ TIẾNG LÀO.6

1.1.TÌM HIỂU TIẾNG LÀO.6

1.1.1. Giới thiệu tiếng Lào.6

1.1.2. Nguồn gốc của tiếng Lào.7

1.1.3. Những yếu tố ngữ pháp tiếng Lào .7

1.2.SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG .12

1.2.1. So sánh bảng chữ cái .13

1.2.2. So sánh cấu trúc âm tiết.14

1.2.3. So sánh cấu trúc từ vựng .14

1.2.4. So sánh cấu trúc câu .15

1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN.16

1.3.1. Giới thiệu một số kết quả xử lý tiếng Lào .16

1.3.2. Thực trạng và thách thức trong xử lý tiếng Lào .19

1.3.3. Đặt bài toán phân loại văn bản tiếng Lào .19

1.4.KẾT LUẬN CHƯƠNG 1 .20

CHƯƠNG 2.PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ .21

2.1.MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN .21

2.1.1. Khái niệm văn bản.21v

2.1.2. Khái niệm soạn thảo văn bản (STVB).23

2.1.3. Xu thế soạn thảo văn bản hiện nay.24

2.2.BÀI TOÁN PHÂN LOẠI VĂN BẢN.24

2.2.1. Tìm hiểu bài toán phân loại văn bản .24

2.2.2. Quy trình giải quyết bài toán PLVB.25

2.2.3. Các phương pháp giải quyết bài toán PLVB .27

2.3.BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN.30

2.3.1. Tìm hiểu bài toán tách từ.30

2.3.2. Các phương pháp tách từ.31

2.3.3. Đánh giá hai phương pháp.35

2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO .37

2.4.1. Bài toán phân loại văn bản tiếng Lào .37

2.4.2. Nhu cầu giải quyết bài toán tách từ tiếng Lào .38

2.4.3. Đề xuất giải pháp triển khai .38

2.5.KẾT LUẬN CHƯƠNG 2 .40

CHƯƠNG 3.GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG

LÀO .41

3.1.NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP.41

3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào.41

3.1.2. Xây dựng mô hình cấu trúc của từ đơn.42

3.1.3. Giải pháp nhận diện từ trong câu.47

3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN .50

3.2.1. Xây dựng vị từ và hàm .50

3.2.2. Xây dựng cơ sở luật.53

3.2.3. Xây dựng máy suy diễn nhận diện từ đơn .54vi

3.3.TRIỂN KHAI GIẢI PHÁP TÁCH TỪ .56

3.2.4. Xây dựng kho ngữ vựng tiếng Lào .56

3.3.2. Áp dụng phương pháp so khớp tối đa.59

3.3.3. Chiến lược kết hợp luật nhận diện từ với khử bỏ nhập nhằng.59

3.4.KẾT LUẬN CHƯƠNG 3 .62

CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ.63

4.1.CHUẨN BỊ DỮ LIỆU.63

4.1.1. Phân tích hiện trạng trường ĐH Champasak.63

4.1.2. Thu thập dữ liệu HCVP tại trường ĐH Champasak.64

4.1.3. Xây dựng kho văn bản HCVP của trường ĐH Champasak.65

4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM.68

4.2.1. Xây dụng mô hình thử nghiệm.68

4.2.2. Chuẩn bị cơ sở thử nghiệm.68

4.2.3. Đề xuất PLVB sử dụng hai phương pháp SVM và RBF.71

4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ.72

4.3.2. Thử nghiệm hai phương pháp tách từ CRF và MM .73

4.3.3. Thử nghiệm tách từ sử dụng cơ sở luật để xử lý nhập nhằng.75

4.3.4. Thử nghiệm phân loại văn bản .76

4.4.KẾT LUẬN CHƯƠNG 4 .80

KẾT LUẬN.81

TÀI LIỆU THAM KHẢO.84

99 trang | Chia sẻ: trungkhoi17 | Lượt xem: 353 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

hần đoạn từ này 33 đều có độ dài trung bình bằng nhau, nhưng cách phân đoạn từ đúng có sự chênh lệch độ dài 3 từ ít hơn. Tuy hai tiêu chuẩn trên có thể hạn chế được một số nhập nhằng, nhưng không phải tất cả. Ví dụ với câu “Ông X làm chủ nhiệm khoa” thì cả 2 cách phân đoạn sau đều có cùng độ dài trung bình và độ chênh lệch giữa các từ : “Ông X làm | chủ nhiệm khoa” và “Ông X | làm chủ nhiệm | khoa”, do đó thuật toán không thể chỉ ra cách phân tách đúng được. 2. Phương pháp sử dụng trường ngẫu nhiên có điều kiện CRF Trong khi giải quyết các vấn đề trên nhiều lĩnh vực khoa học, người ta thường bắt gặp các bài toán về phân đoạn và gán nhãn dữ liệu dạng chuỗi. Các mô hình xác suất phổ biến để giải quyết bài toán này là mô hình Markov ẩn (HMMs) và văn phạm thống kê (Stochastic Grammar, hay Statistical Grammar). Trong sinh học, mô hình Markov ẩn và văn phạm thống kê đã thành công trong việc sắp xếp các chuỗi sinh học, tìm kiếm chuỗi tương đồng với một quần thể tiến hóa cho trước, và phân tích cấu trúc DNA. Trong khoa học máy tính, mô hình Markov ẩn được ứng dụng rộng rãi trong hàng loạt vấn đề về xử lý văn bản và tiếng nói, như là PLVB, trích chọn thông tin, phân loại từ [12][14][25]. Sau đây chúng tôi sẽ trình bày định nghĩa CRF, nguyên lý cực đại hóa Entropy với việc xác định hàm tiềm năng cho CRF. Sau đó là phương pháp huấn luyện mô hình CRF và thuật toán Viterbi dùng để suy diễn trong CRF. Định nghĩa xác xuất có điều kiện CRF Kí hiệu X là biến ngẫu nhiên có tương ứng với chuỗi dữ liệu cần gán nhãn và Y là biến ngẫu nhiên tương ứng với chuỗi nhãn. Mỗi thành phần Yi của Y là một biến ngẫu nhiên nhận trá trị trong một tập hợp hữu hạn các trạng thái S. Ví dụ trong bài toán phân đoạn từ, X nhận giá trị là các câu trong ngôn ngữ tự nhiên, còn Y là chuỗi nhãn tương ứng với các câu này. Mỗi thành phần Yi của Y là một nhãn xác định phạm vi của một từ trong câu (bắt đầu một từ, ở trong một từ và kết thúc một từ). Cho một đồ thị vô hướng không có chu trình G = (V, E), trong đó : - E là tập hợp các cạnh vô hướng của đồ thị, - V là tập hợp các đỉnh của đồ thị sao cho Y = { Yv | vV}. Khi đó, là tồn tại một ánh xạ một-một giữa một đỉnh đồ thị G và một thành 34 phần Yv của Y. Nếu mỗi biễn ngẫu nhiên Yv tuân theo tính chất Markov đối với đồ thị G, nghĩa là xác suất của biến ngẫu nhiên Yv cho bởi X và tất cả các biến ngẫu nhiên khác tương ứng với các đỉnh kề với đỉnh v trong đồ thị p(Yv | X, Yu, (u,v) E) như sau : Y{u|u  v, {u,v} V} : p(Yv | X, Yu, u  v, {u,v}V) Ta gọi (X,Y) là một trường ngẫu nhiên điều kiện (Conditional Random Field). Như vậy, một CRF là một trường ngẫu nhiên phụ thuộc toàn cục vào chuỗi quan sát X. Trong bài toán phân đoạn từ nói riêng và các bài toán xử lý dữ liệu dạng chuỗi nói chung, thì đồ thị G đơn giản chỉ là dạng chuỗi, V= {1, 2, m}, E= {(i, i+1)} Kí hiệu X= (X1, X2,... Xn) và Y = (Y1, Y2, Yn), mô hình đồ thị G có dạng : Y1 Y2 Y3 Yn-1 Yn X1 X2 X3 Xn-1 Xn Hình 2.3. Đồ thị v hướng m tả CRF Gọi C là tập các đồ thị con đầy đủ của G. Vì G có dạng chuỗi nên đồ thị con đầy đủ thực ra chỉ là một đỉnh hoặc một cạnh của đồ thị G. Áp dụng kết quả của Hammerley-ClifforD [12] cho các trường ngẫu nhiên Markov thì phân phối của chuỗi nhãn Y với chuỗi quan sát X cho trước có dạng : P ( y| x )  ACA ( A| x ) (2.1) Trong đó  A gọi là hàm tiềm năng, nhận giá trị thực - dương. Lafferty xác định hàm tiềm năng này dựa trên nguyên lý cực đại entropy. Việc xác định một phân phối theo nguyên lý cực đại entropy có thể hiểu là ta phải xác định một phân phối sao cho “phân phối đó tuân theo mọi giải thiết suy ra từ thực nghiệm, ngoài ra không đưa thêm bất kì giả thiết nào khác” và gần nhất với phân phối đều. Entropy là độ đo thể hiện tính không chắc chắn, hay độ không đồng đều của phân phối xác suất. Độ đo entropy điều kiện H(Y|X) được cho bởi công thức H (Y | X )   ~p(x, y) log q( y | x)x, y (2.2) Với ~p(x, y) là phân phối thực nghiệm của dữ liệu. Theo cách trên, Lafferty đã chỉ ra hàm tiềm năng của mô hình CRF có dạng :  A A | x  expk fk A | xk (2.3) Trong đó k là thừa số lagrangian ứng với thuộc tính f k. Ta cũng có thể xem 35 như k là trọng số xác định độ quan trọng của thuộc tính f k trong chuỗi dữ liệu. Có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là f) và thuộc tính trạng thái (kí hiệu là g) tùy thuộc vào A là một đỉnh hay một cạnh của đồ thị. Thay công thức hàm tiềm năng vào công thức (2.1) và thêm thừa số chuẩn hóa để đảm bảo thỏa mãn điều kiện xác suất. 2.3.3. Đánh giá hai phương pháp 1. Phương pháp so khớp tối đa : Ưu điểm của phương pháp so khớp tối đa là đơn giản, dễ hiểu và chạy nhanh. Hơn nữa phương pháp chỉ cần một tệp từ điển đầy đủ là có thể tiến hành phân đoạn các văn bản, hoàn toàn không phải trải qua huấn luyện như các phương pháp sẽ trình bày tiếp theo. Với phương pháp này, ta dễ dàng tách được chính xác các ngữ/câu như “Khoa Công nghệ Thông tin”, “Chủ nhiệm Khoa Công nghệ Thông tin”. Trong tiếng Hoa, phương pháp so khớp tối đa đạt được độ chính xác 98, 41% [27]. Nhược điểm của phương pháp này là nó không giải quyết được hai vấn đề quan trọng nhất của bài toán phân đoạn từ tiếng Lào : thuật toán gặp phải nhiều nhập nhằng, hơn nữa nó hoàn toàn không có chiến lược gì với những từ chưa biết trong bối cảnh hệ thống chữ viết Lào không sử dụng dấu trống để phân cách từ. 2. Phương pháp sử dụng trường xác xuất có điều kiện Mô hình Markov ẩn và văn phạm thống kê là các mô hình sinh (Generative Models), tính toán xác suất liên kết (Joint) trên cặp chuỗi quan sát và chuỗi trạng thái. Các tham số thường được huấn luyện bằng cách làm cực đại độ đo D của dữ liệu huấn luyện. Để tính được xác suất liên kết trên chuỗi quan sát và chuỗi trạng thái, các mô hình sinh cần phải liệt kê tất cả các trường hợp có thể có của chuỗi quan sát và chuỗi trạng thái. Nếu chuỗi trạng thái là hữu hạn và có thể liệt kê được thì chuỗi quan sát trong nhiều trường hợp khó có thể liệt kê được bởi sự phong phú và đa dạng của nó. Trong thực tế, các mô hình sinh phải đưa ra giải thiết về sự độc lập giữa các dữ liệu quan sát, đó là dữ liệu quan sát tại thời điểm t chỉ phụ thuộc vào trạng thái tại thời điểm đó. Điều này hạn chế khá nhiều tính khả năng tích hợp các thuộc tính đa dạng của chuỗi quan sát. Hơn nữa, việc các mô hình sinh sử dụng các xác suất đồng thời để mô hình hóa bài toán có tính điều kiện là không thích hợp [12][13]. Vì vậy, người ta dùng một mô hình điều kiện để tính trực tiếp xác suất điều kiện thay vì xác suất đồng thời. 36 Mô hình Markov cực đại hóa entropy MEMMs (Maximum Entropy Markov Models) là một mô hình xác suất điều kiện được McCallum đưa ra năm 2000 như là đáp án cho những vấn đề của mô hình Markov truyền thống. Mô hình MEMMs định nghĩa hàm xác suất trên từng trạng thái, với đầu vào là thuộc tính quan sát, đầu ra là xác suất chuyển tới trạng thái tiếp theo. Như vậy mô hình MEMMs quan niệm rằng, dữ liệu quan sát đã được cho trước, điều ta quan tâm là xác suất chuyển trạng thái. So sánh với các mô hình trước đó, MEMMs có ưu điểm là loại bỏ giả thuyết độc lập dữ liệu, theo đó xác suất chuyển trạng thái có thể phụ thuộc vào các thuộc tính đa dạng của chuỗi dữ liệu quan sát. Hơn nữa, xác suất chuyển trạng thái không chỉ phụ thuộc vào vào quan sát hiện tại mà còn cả quan sát trước đó và quan sát sau đó. Tuy nhiên, các mô hình định nghĩa phân phối xác suất cho mỗi trạng thái đều gặp phải một vấn đề gọi là “Label Bias” [12] đó là hiện tượng bỏ sót dữ liệu quan sát khi có ít đường đi ra từ một trạng thái cho trước tới trạng thái tiếp theo. Phương pháp sử dụng trường xác xuất có điều kiện CRF thừa kế các điểm mạnh của MEMMs nhưng lại giải quyết được vấn đề “Label Bias”. CRF làm tốt hơn cả MEMMs và mô hình Markov ẩn trong rất nhiều các bài toán thực về gán nhãn dữ liệu dạng chuỗi. Trong khi MEMM định nghĩa phân phối xác suất trên từng trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại, CRF định nghĩa phân phối xác suất trên toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước. Về mặt lý thuyết, có thể coi mô hình CRF như là một mô hình hữu hạn trạng thái với phân phối xác suất chuyển không chuẩn hóa. Bản chất không chuẩn hóa của xác suất chuyển trạng thái cho phép các bước chuyển trạng thái có thể nhận các giá trị quan trọng khác nhau. Vì thể bất cứ một trạng thái nào cũng có thể làm tăng, giảm xác suất được truyền cho các trạng thái sau đó, mà vẫn đảm bảo xác suất cuối cùng được gán cho toàn bộ chuỗi trạng thái thỏa mãn định nghĩa về xác suất nhờ thừa số chuẩn hóa toàn cục. Do đặc thù của hệ viết tiếng Lào cũng như tính phức tạp của phương pháp sử dụng trường xác xuất có điều kiện, chúng tôi đã chọn phương pháp so khớp tối đa để giải quyết bài toán tách từ phục vụ PLVB. 37 2.4. PHÂN LOẠI VĂN BẢN TIẾNG LÀO 2.4.1. Bài toán phân loại văn bản tiếng Lào Ở các cơ quan hành chính, người ta có những cách phân chia các văn bản theo các loại khác nhau như : quyết định, nghị định, chỉ thị, thông báo, văn bản nhân sự. Để có thể phân loại được như vậy người ta phải đọc và lưu trữ các loại công văn giấy tờ vào các hệ thống tủ đựng hồ sơ để khi tìm kiếm sẽ dễ dàng hơn. Tuy nhiên việc này cũng tốn khá nhiều thời gian công sức khi một ngày các cơ quan này tiếp nhận không biết bao nhiêu công văn giấy tờ gửi đến. Chính vì sự phong phú này, đa dạng này mà PLVB chỉ mang tính tương đối, chủ quan của nguời thực hiện, và dễ xảy ra nhập nhằng khi tiến hành PLVB tự động trên máy tính. Ở trường Đại học Champasak, nhân viên văn phòng rất khó phân biệt một văn bản là một Chỉ thị hay là một Thông báo, thuộc lĩnh vực nhân sự hay chuyên ngành khi đều có nội dung đánh giá về sự kiện hoạt động khoa học công nghệ của Ban Giám hiệu. Về bản chất, một văn bản HCVP bất kỳ gồm các từ ngữ có liên quan với nhau tạo nên nội dung ngữ nghĩa của văn bản. Từ ngữ văn bản luôn đa dạng và có khối luợng đồ sộ và có tính nhập nhằng do bản chất của ngôn ngữ tự nhiên (từ đồng nghĩa, từ đa nghĩa, từ gần nghĩa, từ vay mượn ). Tuy một văn bản đang cần phân loại có thể không lớn, nhưng khối luợng từ ngữ cần xử lý là rất lớn, phải bao hàm được hết các từ của ngôn ngữ đang xét. Điều này dẫn đến phải xây dựng kho từ vựng đủ lớn để có thể tiến hành PLVB. Ví dụ : Giả sử một văn bản gửi đến Phòng Hành Chính của trường Đại học Champasak được kèm qua email, nhân viên văn phòng cần quyết định xem văn bản này thuộc thể loại nào là thích hợp nhất. Chẳng hạn nếu văn bản có ký hiệu “NĐ” (ở lề trái) thì hệ thống sẽ phân văn bản đó vào nhóm “Nghị định”. Tương tự với các ký hiệu “CV”, “QĐ” trên văn bản tương ứng với các nhóm văn bản “Công văn”, “Quyết định”, v.v Đối với tiếng Anh, các kết quả PLVB rất khả quan và phổ dụng. Riêng đối với tiếng Lào, tiếng Thái, tiếng Khmer, kể cả tiếng Việt[44], vẫn còn nhiều hạn chế. Mặc dù gần đây đã có một số công trình nghiên cứu về PLVB được công bố trên các ngôn ngữ này, nhưng đặc biệt vẫn chưa có giải pháp cho bài toán PLVB tiếng Lào. Đặc biệt trong trong lĩnh vực nói và viết, tiếng Lào có quan hệ gần nhất với 38 tiếng Thái và các tiếng thuộc họ ngôn ngữ Tai-Kadai, nên rất nhiều nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên trên tiếng Thái có ảnh hưởng trực tiếp tới tiếng Lào như SVM, Naïve Bayes, cây quyết định, k láng giềng gần nhất, mạng nơ ron RBF nhưng không thể áp dùng trực tiếp cho tiếng Lào đượcơ[34][35][36][37]. Các kết quả đã được công bố có vai trò ảnh hưởng tới những nghiên cứu cho bài toán PLVB trên tiếng Lào. Nhiều nghiên cứu đã công bố nhằm đạt được hiệu quả tốt hơn trong bài toán PLVB tự động. Hai phương pháp máy vec tơ hỗ trợ SVM và mạng nơ ron RBF được coi là phổ biến và đã chứng minh được tính hiệu quả trong bài toán PLVB tiếng Thái và các ngôn ngữ khác thuộc họ ngôn ngữ Tai-Kadai[3][24][29]. Vì vậy, trong luận án, chúng tôi đề xuất sử dụng máy vec tơ hỗ trợ SVM và mạng nơ ron RBF làm phương pháp lựa chọn đặc trưng của chúng chúng tôi, trong quá trình thử nghiệm, chúng chúng tôi đã tiến hành thử nghiệm trên nhiều bộ tham số để tìm ra bộ tham số thích hợp trong việc PLVB tiếng Lào. 2.4.2. Nhu cầu giải quyết bài toán tách từ tiếng Lào Có thể nhận định rằng bài toán tách từ gặp rất nhiều khó khăn trở ngại khi tìm hướng giải quyết PLVB đối với các ngôn ngữ châu Á như tiếng Hoa, tiếng Nhật, tiếng Hàn và cả tiếng Việt. Do đó, rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên các ngôn ngữ Ấn Âu cho tiếng Lào nếu không xây dựng thành công giải pháp bài toán tách từ tiếng Lào. Thực tế hiện nay chưa có các kho ngữ vựng đơn ngữ, song ngữ hay đa ngữ tiếng Lào tiện dụng theo lĩnh vực, chủ đề, thể loại khác nhau, thiếu các kết quả nghiên cứu cơ sở phục vụ xử lý tiếng Lào cho nên chúng chúng tôi phải tạo kho ngữ liệu và xây dựng công cụ PLVB tiếng Lào để xử lý tiếng Lào nói chung và phân loại các văn bản tại trường Đại học Champasak nói riêng. Để thực hiện việc phân loại, bài toán phải giải quyết đầu tiên và là bắt buộc đối với tiếng Lào đó là bài toán tách từ. 2.4.3. Đề xuất giải pháp triển khai Trên cơ sở tìm hiểu bài toán PLVB và bài toán tách từ, các phương pháp giải quyết bài toán PLVB và bài toán tách từ cùng những đặc thù ngôn ngữ trong tiếp cận giải quyết bài toán PLVB tiếng Lào, chúng tôi đề xuất mô hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào gồm năm bước lần lượt như sau : 39 Hình 2.4. hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào. Có thể giải thích chi tiết các bước như sau : Bước 1 : Phân tích các hoạt động phân loại, lưu trữ các loại VBHC khác nhau tại trường Đại học Champasak, từ đó tổ chức, thu thập các văn bản này để tạo ra một CSDL VBHC phục vụ quá trình triển khai các bước tiếp theo. Bước 2 : Tìm hiểu các đặc trưng ngữ pháp trong hệ chữ viết Lào, đề xuất xây dựng mô hình cấu trúc từ đơn mang tính đặc thù của tiếng Lào, vận dụng xây dựng cơ sở luật và máy suy diễn (MSD) cho phép nhận diện một từ đơn (âm tiết) trong câu văn bản, sau đó tiến hành xây dựng kho từ đơn, hay từ điển tiếng. Bước 3 : Từ kho từ đơn ở bước 2, tiếp tục xây dựng kho từ vựng gồm các từ đơn, từ ghép và cụm từ, kết hợp kiểm tra sửa lỗi thủ công, phục vụ giải quyết bài toán tách từ tiếng Lào. Bước 4 : Với mỗi văn bản vào từ CSDL VBHC đã xây dựng, tiến hành bóc tách từ tiếng Lào sử dụng phương pháp so khớp tối đa trên kho từ vựng, kết hợp xử lý nhập nhằng sử dụng cơ sở luật. Kho VBHC tiếng Lào Kho từ đơn tiếng Lào Phân tích hiện trạng, thu thập dữ liệu Nhận diện từ đơn tiếng Lào sử dụng cơ sở luật và MSD Kho từ vựng tiếng Lào Cập nhật dữ liệu từ nhiều nguồn khác nhau Tách từ sử dụng phương pháp so khớp tối đa Xử lý nhập nhằng Kết quả phân loại VBHC Thử nghiệm tách từ và PLVB, đánh giá kết quả 1 2 3 4 5 40 Bước 5 : Tiến hành giải quyết bài toán PLVB tiếng Lào sử dụng hai thuật toán máy vec tơ hỗ trợ SVM và dựa trên mạng hàm bán kính cơ sở RBF, kết hợp thử nghiệm tách từ trước, sau đó đánh giá các kết quả thử nghiệm. 2.5. KẾT LUẬN CHƯƠNG 2 Chương 2 giới thiệu về một số phương pháp giải quyết bài toán PLVB và những vấn đề liên quan đến luận án như khái niệm văn bản, soạn thảo văn bản, tách từ. Nội dung chương giới thiệu các phương pháp PLVB sử dụng máy học vec tơ hỗ trợ SVM và mạng nơ ron RBF, đánh giá các thuật toán. Chúng tôi cũng đã giới thiệu các phương pháp tách từ như phương pháp so khớp tối đa MM và phương pháp dùng trường ngẫu nhiên có điều kiện CRF để sử dụng trong luận án sẽ trình bày kết quả ở chương sau. Từ những kết quả nghiên cứu này, chúng tôi đề xuất giải pháp và các bước triển khai PLVB tiếng Lào áp dụng thử nghiệm phục vụ các hoạt động HCVP tại trường Đại học Champasak, CHDCND Lào. 41 CHƯƠNG 3 GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG LÀO 3.1. NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP 3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào Trong tiếp cận giải quyết bài toán tách từ tiếng Lào, đầu tiên chúng tôi tiến hành giải quyết vấn đề nhận diện, hay xác định từ có mặt trong câu đang xét của văn bản tiếng Lào đã cho. Sau bước nhận diện từ là bước tách từ và PLVB. Cho đến nay, đây vẫn là một trong những vấn đề có tính căn bản nhất trong nghiên cứu XL NNTN. Hiện vẫn chưa có được sự thống nhất chung trong các tiếp cận nghiên cứu về từ, chưa có được một định nghĩa mang tính phổ dụng (Universal Definition). Trong những vấn đề chưa được giải quyết một cách triệt để của ngôn ngữ học, vấn đề từ, định nghĩa từ luôn được xem xét đầu tiên trước khi triển khai các bước nghiên cứu tiếp theo. Việc nhận diện, miêu tả và phân loại các đơn vị từ vựng thuộc về hai mảng nghiên cứu lớn trong ngôn ngữ học là từ vựng học và ngữ pháp học. Mặc dù tiếng Lào mang những nét tương tự với một số ngôn ngữ gần gũi như tiếng Thái, tiếng Khmer, cùng thuộc loại hình ngôn ngữ đơn tiết, đơn lập, không biến hình, v.v nhưng tiếng Lào vẫn có những đặc trưng khác biệt. Trong XL NNTN cho tiếng Lào, rõ ràng chúng tôi không thể vận dụng, hay áp dụng được những kết quả nghiên cứu XL NNTN trên các ngôn ngữ này. Đặc biệt là tiếng Thái, nơi có nhiều chuyên gia có thâm niên kinh nghiệm, có môi trường, điều kiện nghiên cứu rất thuận lợi, hoàn toàn ưu việt hơn so với XL NNTN cho tiếng Lào, chúng tôi chỉ có thể nhìn nhận trên phương diện đánh giá, so sánh với kết quả xử lý mà chúng tôi đề xuất cho tiếng Lào. Kết quả phân tích của chúng tôi cho thấy vấn đề nhận diện và tách từ tiếng Lào đã được nghiên cứu trong một thời gian khá dài, nhưng hiện nay vẫn chưa có phương pháp nào để có thể áp dụng để tách từ hiệu quả. Những công trình nghiên cứu tách từ trước đây [19][25]đã sử dùng các từ điển, phương pháp thống kê, hay các luật nhận diện từ ngữ pháp, nhưng chưa xử lý hiệu quả vấn đề nhập nhằng, tuy nhiên chưa có giải pháp hiệu quả trong việc nhận diện các từ mới chưa có mặt trong cơ sở dữ liệu từ vựng phục vụ tách từ. 42 Tiếp cận giải quyết vấn đề nhận diện, hay xác định từ có mặt trong một câu văn bản tiếng Lào dẫn đến vấn đề phân tích các đặc trưng ngữ pháp tiếng Lào. Trên cơ sở xác định các đặc trưng này, chúng tôi tiến hành xây dựng mô hình cấu trúc của từ đơn, từ đó có khả năng nhận diện từ theo cách nhận diện điểm bắt đầu và cách kết thúc của từ tiếng Lào trong câu. 3.1.2. Xây dựng mô hình cấu trúc của từ đơn Phân tích các đặc trưng trong hệ viết chữ Lào, sử dụng bảng chữ cái, các phụ âm đơn và ghép, các nguyên âm đơn và ghép, các dấu thanh và các chữ số tiếng Lào (xem phụ lục), đã cho phép chúng tôi xây dựng một mô hình cấu trúc từ đơn của tiếng Lào như sau (hình 3.1.) : V2 X5 X4 V1 X0 X1 C X6 X7 X8 X9 X10 X2 X3 Hình 3.1. Cấu trúc từ đơn trong tiếng Lào. Trong mô hình cấu trúc từ đơn này, ở trung tâm là phụ âm C, các thành phần còn lại của từ đơn tiếng Lào được xác định vị trí so với phụ âm C, hoặc ở phía trước, hoặc ở phía sau, hoặc ở phía trên, và cuối cùng, hoặc có thể ở phía dưới. Như vậy, mô hình cấu trúc có dạng một chữ thập, hay gồm hai vec tơ giao vuông góc với nhau : - Vec tơ V1 = (X0, X1, C, X6, X7, X8, X9, X10) nằm ngang gồm các nguyên âm, hay phụ âm Xi (đánh số từ trái qua phải) cho biết cấu trúc của một từ cần nhận diện theo cách viết truyền thống. - Vec tơ V2 = (X5, X4, C, X2, X3) thẳng đứng gồm các nguyên âm, hay phụ âm, hay dấu thanh Xj, được đánh số từ trên xuống (ở phía dưới C) và từ dưới lên (ở phía trên C) xác định cách viết đúng của từ. - Phụ âm C nằm ở vị trí trung tâm, giao điểm của hai vec tơ V1 và V2. Các thành phần Xi, i=0..10, trong mô hình cấu trúc được đánh số theo cách viết truyền thống (hay thứ tự gõ vào từ bàn phím) của chữ viết Lào. Vec tơ V1 cho biết khi một từ đơn không có các nguyên âm hay dấu thanh ở phía dưới hay ở phía trên, thứ tự 43 viết theo hướng từ trái qua phải, tuỳ theo sự có mặt của các thành phần trong đó. Vec tơ V2 xử lý các trường hợp khi một từ đơn có cả nguyên âm và dấu thanh ở phía dưới và/hoặc ở phía trên. Khi từ đơn có nguyên âm và dấu thanh ở phía dưới, thứ tự viết theo hướng từ trên xuống dưới, X2 trước X3. Khi từ đơn có hai nguyên âm ở phía trên, thứ tự viết theo hướng từ dưới lên trên, X4 trước X5. Khi từ đơn có cả nguyên âm và dấu thanh ở phía dưới và ở phía trên, thứ tự viết là X2, X3 rồi tiếp tục X4, X5. Vai trò chức năng của các thành phần của hai vec tơ V1 và V2 được trình bày trong bảng 3.1 như sau : Bảng 3.1. Vai trò các thành phần của V1 và V2. Thành phần Vai trò chức năng Chữ cái Lào tương ứng V1 X0 Nguyên âm đứng trước phụ âm, xác định bắt đầu một từ mới ເ ແ ໄ ໃ ໂ X1 Phụ âm đứng trước C nếu C là một trong các phụ âm của X1 ງ ຍ ລ ວ ີ ມ ນ ຣ X6 Phụ âm đặt ở phía sau C, có thể ghép với phụ âm cuối vần X8 ວ ອ ຽ X7 Nguyên âm đặt ở phía sau C, xác định bắt đầu một từ mới ະ າ ີ າ X8 Phụ âm cuối vần ກ ງ ຍ ດ ນ ມ ບ ວ X9 Phụ âm viết theo phát âm của tiếng nước ngoài, thường đi cùng với ໌ (X10) ຈ ສ ຊ ພ ຟ ລ X10 Dấu cho biết từ phía trước phát âm hai lần, X10 thường đặt ở cuối từ. ໆ ຯ ີ C Phụ âm trung tâm ກ ຂ ຄ ງ ຈ ສ ຊ ຍ ດ ຕ ຖ ທ ນ ບ ປ ຜ ຝ ພ ຟ ມ ຢ ຣ ລ ວ ຫ ອ ຮ ໜ ໝ V2 X2 Phụ âm ở sau C nhưng đặt ở phía dưới C ຣ ີ ວ ລ X3 Nguyên âm ở phía dưới C ໌ ໌ X4 Nguyên âm ở phía trên C ໌ ໌ ໌ ໌ ໌ ໌ ໌ X5 Luôn là dấu thanh ở phía trên C ໌ ໌ ໌ ໌ Từ mô hình cấu trúc từ đơn tiếng Lào, xây dựng vec tơ V là tổ hợp của hai vec tơ V1 và V2 gồm các thành phần Xi cho biết thứ tự viết đúng chính tả của một từ 44 đơn. Các thành phần Xi này có thể vắng mặt tuỳ theo ngữ cảnh, tuy nhiên phụ âm C luôn luôn có mặt. Có thể biểu diễn vec tơ V như sau ([Xi] chỉ định Xi có thể vắng mặt) : V = ([X0], [X1], C, [X2], [X3], [X4], [X5], [X]6, [X7], [X8], [X9], [X10]) Các ví dụ sau đây giải thích mô hình cấu trúc từ đơn biểu diễn theo vec tơ V : 1. Từ đơn ໄຂ (mở) có thứ tự viết ໄຂ tương ứng với V=(X1, C) : V2 V1 ໄ ຂ 2. Từ đơn ຫລານ (cháu) có thứ tự viết ຫລານ tương ứng với V=(C, X6, X7, X8) : V2 V1 ຫ ລ າ ນ 3. Từ đơn ຫ ດ (giảm) có thứ tự viết ຫ ີ ີ ດ tương ứng với V=(C, X2, X3, X6) : V2 V1 ຫ ດ ີ ີ 45 4. Từ đơn ເຫລ າ (rượu) có thứ tự viết ເຫ ີ  ີ ລາ tương ứng với V=(X1, C, X4, X5, X6, X7) : V2 ີ V1 ີ ເ ຫ ລ າ 5. Từ đơn ເຫ ມນ (con heo rừng) có thứ tự viết ເຫ ີ  ີ ມນ tương ứng với V=(X1, C, X4, X5, X6, X7) : V2 ີ V1 ີ ເ ຫ ມ ນ 6. Từ đơn ເອ ກສ (hấp dẫn) có thứ tự viết ເອ ີ ກສ ີ tương ứng với V=(X1, C, X4, X6, X7, X8) : V2 V1 ີ ເ ອ ກ ສ ີ 46 7. Từ đơn ແມ ນ (đúng rồi) có thứ tự viết ເເມ ໌ ນ tương ứng với V=(X0, X1, C, X4, X6) : V2 V1 ໌ ເ ເ ມ ນ 8. Từ đơn ກ ງ (tôm) có thứ tự viết ກີ ີ ງ tương ứng với V=(C, X2, X4, X6) : V2 V1 ີ ກ ງ ີ 9. Từ đơn ແຫ ວງ (môi hơ) có thứ tự viết ແ ຫີ ວງ tương ứng với V=( X0,C, X2, X8) : V2 V1 ີ ແ ຫ ວ ງ 47 10. Từ đơn ອ ບຟ (chữ f ) có thứ tự viết ອ ບຟ tương ứng với V=( X0,C, X4, X8 X10) : V2 V1 ອ ບ ຟ 11. Từ đơn ອ ນ (vân vân) có thứ tự viết ອ  ນ tương ứng với V=( C, X4, X5, X8,X10) : V2 V1 ອ ນ 3.1.3. Giải pháp nhận diện từ trong câu Từ mô hình cấu trúc từ đơn tiếng Lào đã xây dựng, chúng tôi đề xuất tiến trình nhận diện một từ trong câu một văn bản tiếng Lào gồm ba bước như sau : 1. Xây dựng CSDL từ bảng chữ cái Lào, gọi chung là ký tự, gồm các phụ âm, các nguyên âm, các dấu thanh và các chữ số tiếng Lào. 2. Xây dựng các vị từ (Predicate) nhận diện các ký tự, sau đó xây dựng cơ sở luật nhận diện các từ đơn trên cơ sở xác định vị trí của mỗi ký tự trong câu và máy suy diễn (MSD) hoạt động theo cơ chế quay lui. 3. Từ tập các từ đơn nhận diện được trong mỗi câu của văn bản tiếng Lào đưa vào, tiếp tục bước tách từ để nhận được kết quả. Trong bước 1, chúng tôi sử dụng dạng tệp XML để xây dựng CSDL chữ cái tiếng Lào có cấu trúc đơn giản, dễ cập nhật, khai thác. Tuy nhiên khi cài đặt trong máy, tệp XML được tổ chức dưới dạng các mảng dữ liệu một chiều. 48 C1 C33 V1 V28 TonalSign> T1 T7 N1 T10 Hình 3.2. Cấu trúc XML cho CSDL chữ cái tiếng Lào. Trong bước 2, để xây dựng các vị từ, chúng tôi phân tách các phụ âm và các nguyên âm thành các nhóm phân biệt. Nhóm phụ âm gồm hai nhóm : nhóm phụ âm đứng đầu và nhóm phụ âm đứng cuối từ : 1. Nhóm phụ âm đứng đầu từ gồm các phụ âm đơn ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ, ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ, ຫ, ອ, ຮ và phụ âm ghép ຫງ, ຫຍ, ໜ, ໝ, ຫ , ຫວ. 2. Nhóm phụ âm đứng cuối từ gồm ກ, ງ, ຍ, ດ, ນ, ບ, ມ, ວ. Các nguyên âm cũng được chia thành hai nhóm : 1. Nhóm nguyên âm gồm ະ, າ, ີ , ີ , ີ , ີ , ີ , ີ , ີ າ sử dụng các dấu thanh ໌ , ໌ , ໌ , ໌ , đồng thời có phụ âm ở phía trước ít nhất một vị trí. 2. Nhóm luôn đứng ở vị trí đầu tiên của từ gồm

Các file đính kèm theo tài liệu này:

luan_an_nghien_cuu_cac_phuong_phap_tach_tu_phuc_vu_phan_loai.pdf