LỜI CAM ĐOAN. iii
MỤC LỤC. iv
DANH MỤC CHỮ VIẾT TẮT. vii
DANH MỤC CÁC BẢNG. viii
DANH MỤC CÁC HÌNH. ix
MỞ ĐẦU .1
1.Mục tiêu, đối tượng và phạm vi nghiên cứu .3
2.Nhiệm vụ nghiên cứu và kết quả đạt được.4
3.Cấu trúc của luận án .4
4.Đóng góp của luận án .5
CHƯƠNG 1.VẤN ĐỀ XỬ LÝ TIẾNG LÀO.6
1.1.TÌM HIỂU TIẾNG LÀO.6
1.1.1. Giới thiệu tiếng Lào.6
1.1.2. Nguồn gốc của tiếng Lào.7
1.1.3. Những yếu tố ngữ pháp tiếng Lào .7
1.2.SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG .12
1.2.1. So sánh bảng chữ cái .13
1.2.2. So sánh cấu trúc âm tiết.14
1.2.3. So sánh cấu trúc từ vựng .14
1.2.4. So sánh cấu trúc câu .15
1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN.16
1.3.1. Giới thiệu một số kết quả xử lý tiếng Lào .16
1.3.2. Thực trạng và thách thức trong xử lý tiếng Lào .19
1.3.3. Đặt bài toán phân loại văn bản tiếng Lào .19
1.4.KẾT LUẬN CHƯƠNG 1 .20
CHƯƠNG 2.PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ .21
2.1.MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN .21
2.1.1. Khái niệm văn bản.21v
2.1.2. Khái niệm soạn thảo văn bản (STVB).23
2.1.3. Xu thế soạn thảo văn bản hiện nay.24
2.2.BÀI TOÁN PHÂN LOẠI VĂN BẢN.24
2.2.1. Tìm hiểu bài toán phân loại văn bản .24
2.2.2. Quy trình giải quyết bài toán PLVB.25
2.2.3. Các phương pháp giải quyết bài toán PLVB .27
2.3.BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN.30
2.3.1. Tìm hiểu bài toán tách từ.30
2.3.2. Các phương pháp tách từ.31
2.3.3. Đánh giá hai phương pháp.35
2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO .37
2.4.1. Bài toán phân loại văn bản tiếng Lào .37
2.4.2. Nhu cầu giải quyết bài toán tách từ tiếng Lào .38
2.4.3. Đề xuất giải pháp triển khai .38
2.5.KẾT LUẬN CHƯƠNG 2 .40
CHƯƠNG 3.GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG
LÀO .41
3.1.NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP.41
3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào.41
3.1.2. Xây dựng mô hình cấu trúc của từ đơn.42
3.1.3. Giải pháp nhận diện từ trong câu.47
3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN .50
3.2.1. Xây dựng vị từ và hàm .50
3.2.2. Xây dựng cơ sở luật.53
3.2.3. Xây dựng máy suy diễn nhận diện từ đơn .54vi
3.3.TRIỂN KHAI GIẢI PHÁP TÁCH TỪ .56
3.2.4. Xây dựng kho ngữ vựng tiếng Lào .56
3.3.2. Áp dụng phương pháp so khớp tối đa.59
3.3.3. Chiến lược kết hợp luật nhận diện từ với khử bỏ nhập nhằng.59
3.4.KẾT LUẬN CHƯƠNG 3 .62
CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ.63
4.1.CHUẨN BỊ DỮ LIỆU.63
4.1.1. Phân tích hiện trạng trường ĐH Champasak.63
4.1.2. Thu thập dữ liệu HCVP tại trường ĐH Champasak.64
4.1.3. Xây dựng kho văn bản HCVP của trường ĐH Champasak.65
4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM.68
4.2.1. Xây dụng mô hình thử nghiệm.68
4.2.2. Chuẩn bị cơ sở thử nghiệm.68
4.2.3. Đề xuất PLVB sử dụng hai phương pháp SVM và RBF.71
4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ.72
4.3.2. Thử nghiệm hai phương pháp tách từ CRF và MM .73
4.3.3. Thử nghiệm tách từ sử dụng cơ sở luật để xử lý nhập nhằng.75
4.3.4. Thử nghiệm phân loại văn bản .76
4.4.KẾT LUẬN CHƯƠNG 4 .80
KẾT LUẬN.81
TÀI LIỆU THAM KHẢO.84
99 trang |
Chia sẻ: trungkhoi17 | Lượt xem: 474 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
hần đoạn từ này
33
đều có độ dài trung bình bằng nhau, nhưng cách phân đoạn từ đúng có sự chênh lệch
độ dài 3 từ ít hơn.
Tuy hai tiêu chuẩn trên có thể hạn chế được một số nhập nhằng, nhưng không
phải tất cả. Ví dụ với câu “Ông X làm chủ nhiệm khoa” thì cả 2 cách phân đoạn sau
đều có cùng độ dài trung bình và độ chênh lệch giữa các từ : “Ông X làm | chủ nhiệm
khoa” và “Ông X | làm chủ nhiệm | khoa”, do đó thuật toán không thể chỉ ra cách phân
tách đúng được.
2. Phương pháp sử dụng trường ngẫu nhiên có điều kiện CRF
Trong khi giải quyết các vấn đề trên nhiều lĩnh vực khoa học, người ta thường
bắt gặp các bài toán về phân đoạn và gán nhãn dữ liệu dạng chuỗi. Các mô hình xác
suất phổ biến để giải quyết bài toán này là mô hình Markov ẩn (HMMs) và văn phạm
thống kê (Stochastic Grammar, hay Statistical Grammar). Trong sinh học, mô hình
Markov ẩn và văn phạm thống kê đã thành công trong việc sắp xếp các chuỗi sinh học,
tìm kiếm chuỗi tương đồng với một quần thể tiến hóa cho trước, và phân tích cấu trúc
DNA. Trong khoa học máy tính, mô hình Markov ẩn được ứng dụng rộng rãi trong
hàng loạt vấn đề về xử lý văn bản và tiếng nói, như là PLVB, trích chọn thông tin,
phân loại từ [12][14][25].
Sau đây chúng tôi sẽ trình bày định nghĩa CRF, nguyên lý cực đại hóa Entropy
với việc xác định hàm tiềm năng cho CRF. Sau đó là phương pháp huấn luyện mô hình
CRF và thuật toán Viterbi dùng để suy diễn trong CRF.
Định nghĩa xác xuất có điều kiện CRF
Kí hiệu X là biến ngẫu nhiên có tương ứng với chuỗi dữ liệu cần gán nhãn và Y
là biến ngẫu nhiên tương ứng với chuỗi nhãn. Mỗi thành phần Yi của Y là một biến
ngẫu nhiên nhận trá trị trong một tập hợp hữu hạn các trạng thái S. Ví dụ trong bài
toán phân đoạn từ, X nhận giá trị là các câu trong ngôn ngữ tự nhiên, còn Y là chuỗi
nhãn tương ứng với các câu này. Mỗi thành phần Yi của Y là một nhãn xác định phạm
vi của một từ trong câu (bắt đầu một từ, ở trong một từ và kết thúc một từ).
Cho một đồ thị vô hướng không có chu trình G = (V, E), trong đó :
- E là tập hợp các cạnh vô hướng của đồ thị,
- V là tập hợp các đỉnh của đồ thị sao cho Y = { Yv | vV}.
Khi đó, là tồn tại một ánh xạ một-một giữa một đỉnh đồ thị G và một thành
34
phần Yv của Y. Nếu mỗi biễn ngẫu nhiên Yv tuân theo tính chất Markov đối với đồ thị G,
nghĩa là xác suất của biến ngẫu nhiên Yv cho bởi X và tất cả các biến ngẫu nhiên khác
tương ứng với các đỉnh kề với đỉnh v trong đồ thị p(Yv | X, Yu, (u,v) E) như sau :
Y{u|u v, {u,v} V} : p(Yv | X, Yu, u v, {u,v}V)
Ta gọi (X,Y) là một trường ngẫu nhiên điều kiện (Conditional Random Field).
Như vậy, một CRF là một trường ngẫu nhiên phụ thuộc toàn cục vào chuỗi quan sát X.
Trong bài toán phân đoạn từ nói riêng và các bài toán xử lý dữ liệu dạng chuỗi nói
chung, thì đồ thị G đơn giản chỉ là dạng chuỗi, V= {1, 2, m}, E= {(i, i+1)}
Kí hiệu X= (X1, X2,... Xn) và Y = (Y1, Y2, Yn), mô hình đồ thị G có dạng :
Y1 Y2 Y3 Yn-1 Yn
X1 X2 X3 Xn-1 Xn
Hình 2.3. Đồ thị v hướng m tả CRF
Gọi C là tập các đồ thị con đầy đủ của G. Vì G có dạng chuỗi nên đồ thị con
đầy đủ thực ra chỉ là một đỉnh hoặc một cạnh của đồ thị G. Áp dụng kết quả của
Hammerley-ClifforD [12] cho các trường ngẫu nhiên Markov thì phân phối của chuỗi
nhãn Y với chuỗi quan sát X cho trước có dạng :
P ( y| x ) ACA ( A| x ) (2.1)
Trong đó A gọi là hàm tiềm năng, nhận giá trị thực - dương.
Lafferty xác định hàm tiềm năng này dựa trên nguyên lý cực đại entropy. Việc
xác định một phân phối theo nguyên lý cực đại entropy có thể hiểu là ta phải xác định
một phân phối sao cho “phân phối đó tuân theo mọi giải thiết suy ra từ thực nghiệm,
ngoài ra không đưa thêm bất kì giả thiết nào khác” và gần nhất với phân phối đều.
Entropy là độ đo thể hiện tính không chắc chắn, hay độ không đồng đều của
phân phối xác suất. Độ đo entropy điều kiện H(Y|X) được cho bởi công thức
H (Y | X )
~p(x, y) log q( y | x)x, y (2.2)
Với ~p(x, y) là phân phối thực nghiệm của dữ liệu.
Theo cách trên, Lafferty đã chỉ ra hàm tiềm năng của mô hình CRF có dạng :
A A | x expk fk A | xk (2.3)
Trong đó k là thừa số lagrangian ứng với thuộc tính f k. Ta cũng có thể xem
35
như k là trọng số xác định độ quan trọng của thuộc tính f k trong chuỗi dữ liệu. Có
hai loại thuộc tính là thuộc tính chuyển (kí hiệu là f) và thuộc tính trạng thái (kí hiệu là
g) tùy thuộc vào A là một đỉnh hay một cạnh của đồ thị. Thay công thức hàm tiềm
năng vào công thức (2.1) và thêm thừa số chuẩn hóa để đảm bảo thỏa mãn điều kiện
xác suất.
2.3.3. Đánh giá hai phương pháp
1. Phương pháp so khớp tối đa :
Ưu điểm của phương pháp so khớp tối đa là đơn giản, dễ hiểu và chạy nhanh.
Hơn nữa phương pháp chỉ cần một tệp từ điển đầy đủ là có thể tiến hành phân đoạn
các văn bản, hoàn toàn không phải trải qua huấn luyện như các phương pháp sẽ trình
bày tiếp theo. Với phương pháp này, ta dễ dàng tách được chính xác các ngữ/câu như
“Khoa Công nghệ Thông tin”, “Chủ nhiệm Khoa Công nghệ Thông tin”. Trong tiếng
Hoa, phương pháp so khớp tối đa đạt được độ chính xác 98, 41% [27].
Nhược điểm của phương pháp này là nó không giải quyết được hai vấn đề quan
trọng nhất của bài toán phân đoạn từ tiếng Lào : thuật toán gặp phải nhiều nhập nhằng,
hơn nữa nó hoàn toàn không có chiến lược gì với những từ chưa biết trong bối cảnh hệ
thống chữ viết Lào không sử dụng dấu trống để phân cách từ.
2. Phương pháp sử dụng trường xác xuất có điều kiện
Mô hình Markov ẩn và văn phạm thống kê là các mô hình sinh (Generative
Models), tính toán xác suất liên kết (Joint) trên cặp chuỗi quan sát và chuỗi trạng thái.
Các tham số thường được huấn luyện bằng cách làm cực đại độ đo D của dữ liệu
huấn luyện. Để tính được xác suất liên kết trên chuỗi quan sát và chuỗi trạng thái,
các mô hình sinh cần phải liệt kê tất cả các trường hợp có thể có của chuỗi quan sát
và chuỗi trạng thái. Nếu chuỗi trạng thái là hữu hạn và có thể liệt kê được thì chuỗi
quan sát trong nhiều trường hợp khó có thể liệt kê được bởi sự phong phú và đa
dạng của nó. Trong thực tế, các mô hình sinh phải đưa ra giải thiết về sự độc lập giữa
các dữ liệu quan sát, đó là dữ liệu quan sát tại thời điểm t chỉ phụ thuộc vào trạng thái
tại thời điểm đó. Điều này hạn chế khá nhiều tính khả năng tích hợp các thuộc tính đa
dạng của chuỗi quan sát. Hơn nữa, việc các mô hình sinh sử dụng các xác suất đồng
thời để mô hình hóa bài toán có tính điều kiện là không thích hợp [12][13]. Vì vậy,
người ta dùng một mô hình điều kiện để tính trực tiếp xác suất điều kiện thay vì xác
suất đồng thời.
36
Mô hình Markov cực đại hóa entropy MEMMs (Maximum Entropy Markov
Models) là một mô hình xác suất điều kiện được McCallum đưa ra năm 2000 như là
đáp án cho những vấn đề của mô hình Markov truyền thống. Mô hình MEMMs định
nghĩa hàm xác suất trên từng trạng thái, với đầu vào là thuộc tính quan sát, đầu ra là
xác suất chuyển tới trạng thái tiếp theo. Như vậy mô hình MEMMs quan niệm rằng,
dữ liệu quan sát đã được cho trước, điều ta quan tâm là xác suất chuyển trạng thái. So
sánh với các mô hình trước đó, MEMMs có ưu điểm là loại bỏ giả thuyết độc lập dữ
liệu, theo đó xác suất chuyển trạng thái có thể phụ thuộc vào các thuộc tính đa dạng
của chuỗi dữ liệu quan sát. Hơn nữa, xác suất chuyển trạng thái không chỉ phụ thuộc
vào vào quan sát hiện tại mà còn cả quan sát trước đó và quan sát sau đó.
Tuy nhiên, các mô hình định nghĩa phân phối xác suất cho mỗi trạng thái đều
gặp phải một vấn đề gọi là “Label Bias” [12] đó là hiện tượng bỏ sót dữ liệu quan sát
khi có ít đường đi ra từ một trạng thái cho trước tới trạng thái tiếp theo.
Phương pháp sử dụng trường xác xuất có điều kiện CRF thừa kế các điểm
mạnh của MEMMs nhưng lại giải quyết được vấn đề “Label Bias”. CRF làm tốt hơn
cả MEMMs và mô hình Markov ẩn trong rất nhiều các bài toán thực về gán nhãn dữ
liệu dạng chuỗi. Trong khi MEMM định nghĩa phân phối xác suất trên từng trạng thái
với điều kiện biết trạng thái trước đó và quan sát hiện tại, CRF định nghĩa phân phối
xác suất trên toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước. Về
mặt lý thuyết, có thể coi mô hình CRF như là một mô hình hữu hạn trạng thái với phân
phối xác suất chuyển không chuẩn hóa.
Bản chất không chuẩn hóa của xác suất chuyển trạng thái cho phép các bước
chuyển trạng thái có thể nhận các giá trị quan trọng khác nhau. Vì thể bất cứ một trạng
thái nào cũng có thể làm tăng, giảm xác suất được truyền cho các trạng thái sau đó, mà
vẫn đảm bảo xác suất cuối cùng được gán cho toàn bộ chuỗi trạng thái thỏa mãn định
nghĩa về xác suất nhờ thừa số chuẩn hóa toàn cục.
Do đặc thù của hệ viết tiếng Lào cũng như tính phức tạp của phương pháp sử
dụng trường xác xuất có điều kiện, chúng tôi đã chọn phương pháp so khớp tối đa để
giải quyết bài toán tách từ phục vụ PLVB.
37
2.4. PHÂN LOẠI VĂN BẢN TIẾNG LÀO
2.4.1. Bài toán phân loại văn bản tiếng Lào
Ở các cơ quan hành chính, người ta có những cách phân chia các văn bản theo
các loại khác nhau như : quyết định, nghị định, chỉ thị, thông báo, văn bản nhân sự. Để
có thể phân loại được như vậy người ta phải đọc và lưu trữ các loại công văn giấy tờ
vào các hệ thống tủ đựng hồ sơ để khi tìm kiếm sẽ dễ dàng hơn. Tuy nhiên việc này
cũng tốn khá nhiều thời gian công sức khi một ngày các cơ quan này tiếp nhận không
biết bao nhiêu công văn giấy tờ gửi đến. Chính vì sự phong phú này, đa dạng này mà
PLVB chỉ mang tính tương đối, chủ quan của nguời thực hiện, và dễ xảy ra nhập
nhằng khi tiến hành PLVB tự động trên máy tính. Ở trường Đại học Champasak, nhân
viên văn phòng rất khó phân biệt một văn bản là một Chỉ thị hay là một Thông báo,
thuộc lĩnh vực nhân sự hay chuyên ngành khi đều có nội dung đánh giá về sự kiện hoạt
động khoa học công nghệ của Ban Giám hiệu.
Về bản chất, một văn bản HCVP bất kỳ gồm các từ ngữ có liên quan với nhau
tạo nên nội dung ngữ nghĩa của văn bản. Từ ngữ văn bản luôn đa dạng và có khối
luợng đồ sộ và có tính nhập nhằng do bản chất của ngôn ngữ tự nhiên (từ đồng nghĩa,
từ đa nghĩa, từ gần nghĩa, từ vay mượn ). Tuy một văn bản đang cần phân loại có
thể không lớn, nhưng khối luợng từ ngữ cần xử lý là rất lớn, phải bao hàm được hết
các từ của ngôn ngữ đang xét. Điều này dẫn đến phải xây dựng kho từ vựng đủ lớn để
có thể tiến hành PLVB.
Ví dụ : Giả sử một văn bản gửi đến Phòng Hành Chính của trường Đại học
Champasak được kèm qua email, nhân viên văn phòng cần quyết định xem văn bản
này thuộc thể loại nào là thích hợp nhất. Chẳng hạn nếu văn bản có ký hiệu “NĐ” (ở lề
trái) thì hệ thống sẽ phân văn bản đó vào nhóm “Nghị định”. Tương tự với các ký hiệu
“CV”, “QĐ” trên văn bản tương ứng với các nhóm văn bản “Công văn”, “Quyết
định”, v.v
Đối với tiếng Anh, các kết quả PLVB rất khả quan và phổ dụng. Riêng đối với
tiếng Lào, tiếng Thái, tiếng Khmer, kể cả tiếng Việt[44], vẫn còn nhiều hạn chế.
Mặc dù gần đây đã có một số công trình nghiên cứu về PLVB được công bố trên các
ngôn ngữ này, nhưng đặc biệt vẫn chưa có giải pháp cho bài toán PLVB tiếng Lào.
Đặc biệt trong trong lĩnh vực nói và viết, tiếng Lào có quan hệ gần nhất với
38
tiếng Thái và các tiếng thuộc họ ngôn ngữ Tai-Kadai, nên rất nhiều nghiên cứu trong
lĩnh vực xử lý ngôn ngữ tự nhiên trên tiếng Thái có ảnh hưởng trực tiếp tới tiếng Lào
như SVM, Naïve Bayes, cây quyết định, k láng giềng gần nhất, mạng nơ ron RBF
nhưng không thể áp dùng trực tiếp cho tiếng Lào đượcơ[34][35][36][37].
Các kết quả đã được công bố có vai trò ảnh hưởng tới những nghiên cứu cho
bài toán PLVB trên tiếng Lào. Nhiều nghiên cứu đã công bố nhằm đạt được hiệu quả
tốt hơn trong bài toán PLVB tự động. Hai phương pháp máy vec tơ hỗ trợ SVM và
mạng nơ ron RBF được coi là phổ biến và đã chứng minh được tính hiệu quả trong bài
toán PLVB tiếng Thái và các ngôn ngữ khác thuộc họ ngôn ngữ Tai-Kadai[3][24][29].
Vì vậy, trong luận án, chúng tôi đề xuất sử dụng máy vec tơ hỗ trợ SVM và mạng nơ
ron RBF làm phương pháp lựa chọn đặc trưng của chúng chúng tôi, trong quá trình
thử nghiệm, chúng chúng tôi đã tiến hành thử nghiệm trên nhiều bộ tham số để tìm ra
bộ tham số thích hợp trong việc PLVB tiếng Lào.
2.4.2. Nhu cầu giải quyết bài toán tách từ tiếng Lào
Có thể nhận định rằng bài toán tách từ gặp rất nhiều khó khăn trở ngại khi tìm
hướng giải quyết PLVB đối với các ngôn ngữ châu Á như tiếng Hoa, tiếng Nhật, tiếng
Hàn và cả tiếng Việt. Do đó, rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã
được nghiên cứu và thử nghiệm thành công trên các ngôn ngữ Ấn Âu cho tiếng Lào
nếu không xây dựng thành công giải pháp bài toán tách từ tiếng Lào.
Thực tế hiện nay chưa có các kho ngữ vựng đơn ngữ, song ngữ hay đa ngữ
tiếng Lào tiện dụng theo lĩnh vực, chủ đề, thể loại khác nhau, thiếu các kết quả nghiên
cứu cơ sở phục vụ xử lý tiếng Lào cho nên chúng chúng tôi phải tạo kho ngữ liệu và
xây dựng công cụ PLVB tiếng Lào để xử lý tiếng Lào nói chung và phân loại các văn
bản tại trường Đại học Champasak nói riêng. Để thực hiện việc phân loại, bài toán
phải giải quyết đầu tiên và là bắt buộc đối với tiếng Lào đó là bài toán tách từ.
2.4.3. Đề xuất giải pháp triển khai
Trên cơ sở tìm hiểu bài toán PLVB và bài toán tách từ, các phương pháp giải
quyết bài toán PLVB và bài toán tách từ cùng những đặc thù ngôn ngữ trong tiếp cận
giải quyết bài toán PLVB tiếng Lào, chúng tôi đề xuất mô hình triển khai giải pháp tách
từ phục vụ PLVB tiếng Lào gồm năm bước lần lượt như sau :
39
Hình 2.4. hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào.
Có thể giải thích chi tiết các bước như sau :
Bước 1 :
Phân tích các hoạt động phân loại, lưu trữ các loại VBHC khác nhau tại trường
Đại học Champasak, từ đó tổ chức, thu thập các văn bản này để tạo ra một CSDL
VBHC phục vụ quá trình triển khai các bước tiếp theo.
Bước 2 :
Tìm hiểu các đặc trưng ngữ pháp trong hệ chữ viết Lào, đề xuất xây dựng mô
hình cấu trúc từ đơn mang tính đặc thù của tiếng Lào, vận dụng xây dựng cơ sở luật và
máy suy diễn (MSD) cho phép nhận diện một từ đơn (âm tiết) trong câu văn bản, sau
đó tiến hành xây dựng kho từ đơn, hay từ điển tiếng.
Bước 3 :
Từ kho từ đơn ở bước 2, tiếp tục xây dựng kho từ vựng gồm các từ đơn, từ
ghép và cụm từ, kết hợp kiểm tra sửa lỗi thủ công, phục vụ giải quyết bài toán tách từ
tiếng Lào.
Bước 4 :
Với mỗi văn bản vào từ CSDL VBHC đã xây dựng, tiến hành bóc tách từ tiếng
Lào sử dụng phương pháp so khớp tối đa trên kho từ vựng, kết hợp xử lý nhập nhằng
sử dụng cơ sở luật.
Kho VBHC
tiếng Lào
Kho từ đơn
tiếng Lào
Phân tích
hiện trạng,
thu thập dữ liệu
Nhận diện từ đơn
tiếng Lào sử dụng
cơ sở luật và MSD
Kho từ vựng
tiếng Lào
Cập nhật dữ liệu
từ nhiều nguồn
khác nhau
Tách từ sử dụng
phương pháp
so khớp tối đa
Xử lý
nhập nhằng
Kết quả
phân loại
VBHC
Thử nghiệm
tách từ và PLVB,
đánh giá kết quả
1 2 3
4 5
40
Bước 5 :
Tiến hành giải quyết bài toán PLVB tiếng Lào sử dụng hai thuật toán máy
vec tơ hỗ trợ SVM và dựa trên mạng hàm bán kính cơ sở RBF, kết hợp thử nghiệm
tách từ trước, sau đó đánh giá các kết quả thử nghiệm.
2.5. KẾT LUẬN CHƯƠNG 2
Chương 2 giới thiệu về một số phương pháp giải quyết bài toán PLVB và những
vấn đề liên quan đến luận án như khái niệm văn bản, soạn thảo văn bản, tách từ. Nội
dung chương giới thiệu các phương pháp PLVB sử dụng máy học vec tơ hỗ trợ SVM
và mạng nơ ron RBF, đánh giá các thuật toán. Chúng tôi cũng đã giới thiệu các
phương pháp tách từ như phương pháp so khớp tối đa MM và phương pháp dùng
trường ngẫu nhiên có điều kiện CRF để sử dụng trong luận án sẽ trình bày kết quả ở
chương sau. Từ những kết quả nghiên cứu này, chúng tôi đề xuất giải pháp và các
bước triển khai PLVB tiếng Lào áp dụng thử nghiệm phục vụ các hoạt động HCVP tại
trường Đại học Champasak, CHDCND Lào.
41
CHƯƠNG 3
GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG LÀO
3.1. NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP
3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào
Trong tiếp cận giải quyết bài toán tách từ tiếng Lào, đầu tiên chúng tôi tiến
hành giải quyết vấn đề nhận diện, hay xác định từ có mặt trong câu đang xét của văn
bản tiếng Lào đã cho. Sau bước nhận diện từ là bước tách từ và PLVB. Cho đến nay,
đây vẫn là một trong những vấn đề có tính căn bản nhất trong nghiên cứu XL NNTN.
Hiện vẫn chưa có được sự thống nhất chung trong các tiếp cận nghiên cứu về từ, chưa
có được một định nghĩa mang tính phổ dụng (Universal Definition). Trong những vấn
đề chưa được giải quyết một cách triệt để của ngôn ngữ học, vấn đề từ, định nghĩa từ
luôn được xem xét đầu tiên trước khi triển khai các bước nghiên cứu tiếp theo.
Việc nhận diện, miêu tả và phân loại các đơn vị từ vựng thuộc về hai mảng
nghiên cứu lớn trong ngôn ngữ học là từ vựng học và ngữ pháp học. Mặc dù tiếng Lào
mang những nét tương tự với một số ngôn ngữ gần gũi như tiếng Thái, tiếng Khmer,
cùng thuộc loại hình ngôn ngữ đơn tiết, đơn lập, không biến hình, v.v nhưng tiếng
Lào vẫn có những đặc trưng khác biệt. Trong XL NNTN cho tiếng Lào, rõ ràng chúng
tôi không thể vận dụng, hay áp dụng được những kết quả nghiên cứu XL NNTN trên
các ngôn ngữ này. Đặc biệt là tiếng Thái, nơi có nhiều chuyên gia có thâm niên kinh
nghiệm, có môi trường, điều kiện nghiên cứu rất thuận lợi, hoàn toàn ưu việt hơn so
với XL NNTN cho tiếng Lào, chúng tôi chỉ có thể nhìn nhận trên phương diện đánh
giá, so sánh với kết quả xử lý mà chúng tôi đề xuất cho tiếng Lào.
Kết quả phân tích của chúng tôi cho thấy vấn đề nhận diện và tách từ tiếng Lào
đã được nghiên cứu trong một thời gian khá dài, nhưng hiện nay vẫn chưa có phương
pháp nào để có thể áp dụng để tách từ hiệu quả. Những công trình nghiên cứu tách từ
trước đây [19][25]đã sử dùng các từ điển, phương pháp thống kê, hay các luật nhận
diện từ ngữ pháp, nhưng chưa xử lý hiệu quả vấn đề nhập nhằng, tuy nhiên chưa có
giải pháp hiệu quả trong việc nhận diện các từ mới chưa có mặt trong cơ sở dữ liệu từ
vựng phục vụ tách từ.
42
Tiếp cận giải quyết vấn đề nhận diện, hay xác định từ có mặt trong một câu văn
bản tiếng Lào dẫn đến vấn đề phân tích các đặc trưng ngữ pháp tiếng Lào. Trên cơ sở
xác định các đặc trưng này, chúng tôi tiến hành xây dựng mô hình cấu trúc của từ đơn,
từ đó có khả năng nhận diện từ theo cách nhận diện điểm bắt đầu và cách kết thúc của
từ tiếng Lào trong câu.
3.1.2. Xây dựng mô hình cấu trúc của từ đơn
Phân tích các đặc trưng trong hệ viết chữ Lào, sử dụng bảng chữ cái, các phụ
âm đơn và ghép, các nguyên âm đơn và ghép, các dấu thanh và các chữ số tiếng Lào
(xem phụ lục), đã cho phép chúng tôi xây dựng một mô hình cấu trúc từ đơn của tiếng
Lào như sau (hình 3.1.) :
V2 X5
X4
V1 X0 X1 C X6 X7 X8 X9 X10
X2
X3
Hình 3.1. Cấu trúc từ đơn trong tiếng Lào.
Trong mô hình cấu trúc từ đơn này, ở trung tâm là phụ âm C, các thành phần
còn lại của từ đơn tiếng Lào được xác định vị trí so với phụ âm C, hoặc ở phía trước,
hoặc ở phía sau, hoặc ở phía trên, và cuối cùng, hoặc có thể ở phía dưới. Như vậy, mô
hình cấu trúc có dạng một chữ thập, hay gồm hai vec tơ giao vuông góc với nhau :
- Vec tơ V1 = (X0, X1, C, X6, X7, X8, X9, X10) nằm ngang gồm các nguyên âm,
hay phụ âm Xi (đánh số từ trái qua phải) cho biết cấu trúc của một từ cần
nhận diện theo cách viết truyền thống.
- Vec tơ V2 = (X5, X4, C, X2, X3) thẳng đứng gồm các nguyên âm, hay phụ
âm, hay dấu thanh Xj, được đánh số từ trên xuống (ở phía dưới C) và từ dưới
lên (ở phía trên C) xác định cách viết đúng của từ.
- Phụ âm C nằm ở vị trí trung tâm, giao điểm của hai vec tơ V1 và V2.
Các thành phần Xi, i=0..10, trong mô hình cấu trúc được đánh số theo cách viết
truyền thống (hay thứ tự gõ vào từ bàn phím) của chữ viết Lào. Vec tơ V1 cho biết khi
một từ đơn không có các nguyên âm hay dấu thanh ở phía dưới hay ở phía trên, thứ tự
43
viết theo hướng từ trái qua phải, tuỳ theo sự có mặt của các thành phần trong đó.
Vec tơ V2 xử lý các trường hợp khi một từ đơn có cả nguyên âm và dấu thanh ở phía
dưới và/hoặc ở phía trên. Khi từ đơn có nguyên âm và dấu thanh ở phía dưới, thứ tự
viết theo hướng từ trên xuống dưới, X2 trước X3. Khi từ đơn có hai nguyên âm ở phía
trên, thứ tự viết theo hướng từ dưới lên trên, X4 trước X5. Khi từ đơn có cả nguyên âm
và dấu thanh ở phía dưới và ở phía trên, thứ tự viết là X2, X3 rồi tiếp tục X4, X5.
Vai trò chức năng của các thành phần của hai vec tơ V1 và V2 được trình bày
trong bảng 3.1 như sau :
Bảng 3.1. Vai trò các thành phần của V1 và V2.
Thành phần Vai trò chức năng Chữ cái Lào tương ứng
V1
X0
Nguyên âm đứng trước phụ âm, xác định
bắt đầu một từ mới
ເ ແ ໄ ໃ ໂ
X1
Phụ âm đứng trước C nếu C là một trong các
phụ âm của X1
ງ ຍ ລ ວ ີ ມ ນ ຣ
X6
Phụ âm đặt ở phía sau C,
có thể ghép với phụ âm cuối vần X8
ວ ອ ຽ
X7
Nguyên âm đặt ở phía sau C, xác định
bắt đầu một từ mới
ະ າ ີ າ
X8 Phụ âm cuối vần ກ ງ ຍ ດ ນ ມ ບ ວ
X9
Phụ âm viết theo phát âm của tiếng nước
ngoài, thường đi cùng với ໌ (X10)
ຈ ສ ຊ ພ ຟ ລ
X10
Dấu cho biết từ phía trước phát âm hai lần,
X10 thường đặt ở cuối từ.
ໆ ຯ ີ
C Phụ âm trung tâm
ກ ຂ ຄ ງ ຈ ສ ຊ ຍ ດ ຕ ຖ ທ ນ ບ ປ
ຜ ຝ ພ ຟ ມ ຢ ຣ ລ ວ ຫ ອ ຮ ໜ ໝ
V2
X2 Phụ âm ở sau C nhưng đặt ở phía dưới C ຣ ີ ວ ລ
X3 Nguyên âm ở phía dưới C ໌ ໌
X4 Nguyên âm ở phía trên C ໌ ໌ ໌ ໌ ໌ ໌ ໌
X5 Luôn là dấu thanh ở phía trên C ໌ ໌ ໌ ໌
Từ mô hình cấu trúc từ đơn tiếng Lào, xây dựng vec tơ V là tổ hợp của hai
vec tơ V1 và V2 gồm các thành phần Xi cho biết thứ tự viết đúng chính tả của một từ
44
đơn. Các thành phần Xi này có thể vắng mặt tuỳ theo ngữ cảnh, tuy nhiên phụ âm C
luôn luôn có mặt. Có thể biểu diễn vec tơ V như sau ([Xi] chỉ định Xi có thể vắng
mặt) :
V = ([X0], [X1], C, [X2], [X3], [X4], [X5], [X]6, [X7], [X8], [X9], [X10])
Các ví dụ sau đây giải thích mô hình cấu trúc từ đơn biểu diễn theo vec tơ V :
1. Từ đơn ໄຂ (mở) có thứ tự viết ໄຂ tương ứng với V=(X1, C) :
V2
V1
ໄ ຂ
2. Từ đơn ຫລານ (cháu) có thứ tự viết ຫລານ
tương ứng với V=(C, X6, X7, X8) :
V2
V1
ຫ ລ າ ນ
3. Từ đơn ຫ ດ (giảm) có thứ tự viết ຫ ີ ີ ດ
tương ứng với V=(C, X2, X3, X6) :
V2
V1
ຫ ດ
ີ
ີ
45
4. Từ đơn ເຫລ າ (rượu) có thứ tự viết ເຫ ີ ີ ລາ
tương ứng với V=(X1, C, X4, X5, X6, X7) :
V2 ີ
V1 ີ
ເ ຫ ລ າ
5. Từ đơn ເຫ ມນ (con heo rừng) có thứ tự viết ເຫ ີ ີ ມນ
tương ứng với V=(X1, C, X4, X5, X6, X7) :
V2 ີ
V1 ີ
ເ ຫ ມ ນ
6. Từ đơn ເອ ກສ (hấp dẫn) có thứ tự viết ເອ ີ ກສ ີ
tương ứng với V=(X1, C, X4, X6, X7, X8) :
V2
V1 ີ
ເ ອ ກ ສ ີ
46
7. Từ đơn ແມ ນ (đúng rồi) có thứ tự viết ເເມ ໌ ນ
tương ứng với V=(X0, X1, C, X4, X6) :
V2
V1 ໌
ເ ເ ມ ນ
8. Từ đơn ກ ງ (tôm) có thứ tự viết ກີ ີ ງ
tương ứng với V=(C, X2, X4, X6) :
V2
V1 ີ
ກ ງ
ີ
9. Từ đơn ແຫ ວງ (môi hơ) có thứ tự viết ແ ຫີ ວງ
tương ứng với V=( X0,C, X2, X8) :
V2
V1 ີ
ແ ຫ ວ ງ
47
10. Từ đơn ອ ບຟ (chữ f ) có thứ tự viết ອ ບຟ
tương ứng với V=( X0,C, X4, X8 X10) :
V2
V1
ອ ບ ຟ
11. Từ đơn ອ ນ (vân vân) có thứ tự viết ອ ນ
tương ứng với V=( C, X4, X5, X8,X10) :
V2
V1
ອ ນ
3.1.3. Giải pháp nhận diện từ trong câu
Từ mô hình cấu trúc từ đơn tiếng Lào đã xây dựng, chúng tôi đề xuất tiến trình
nhận diện một từ trong câu một văn bản tiếng Lào gồm ba bước như sau :
1. Xây dựng CSDL từ bảng chữ cái Lào, gọi chung là ký tự, gồm các phụ âm,
các nguyên âm, các dấu thanh và các chữ số tiếng Lào.
2. Xây dựng các vị từ (Predicate) nhận diện các ký tự, sau đó xây dựng cơ sở
luật nhận diện các từ đơn trên cơ sở xác định vị trí của mỗi ký tự trong câu
và máy suy diễn (MSD) hoạt động theo cơ chế quay lui.
3. Từ tập các từ đơn nhận diện được trong mỗi câu của văn bản tiếng Lào đưa
vào, tiếp tục bước tách từ để nhận được kết quả.
Trong bước 1, chúng tôi sử dụng dạng tệp XML để xây dựng CSDL chữ cái
tiếng Lào có cấu trúc đơn giản, dễ cập nhật, khai thác. Tuy nhiên khi cài đặt trong
máy, tệp XML được tổ chức dưới dạng các mảng dữ liệu một chiều.
48
C1
C33
V1
V28
TonalSign>
T1
T7
N1
T10
Hình 3.2. Cấu trúc XML cho CSDL chữ cái tiếng Lào.
Trong bước 2, để xây dựng các vị từ, chúng tôi phân tách các phụ âm và các
nguyên âm thành các nhóm phân biệt. Nhóm phụ âm gồm hai nhóm : nhóm phụ âm
đứng đầu và nhóm phụ âm đứng cuối từ :
1. Nhóm phụ âm đứng đầu từ gồm các phụ âm đơn ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ, ຍ, ດ,
ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ, ຫ, ອ, ຮ và phụ âm ghép ຫງ, ຫຍ, ໜ,
ໝ, ຫ , ຫວ.
2. Nhóm phụ âm đứng cuối từ gồm ກ, ງ, ຍ, ດ, ນ, ບ, ມ, ວ.
Các nguyên âm cũng được chia thành hai nhóm :
1. Nhóm nguyên âm gồm ະ, າ, ີ , ີ , ີ , ີ , ີ , ີ , ີ າ sử dụng các dấu
thanh ໌ , ໌ , ໌ , ໌ , đồng thời có phụ âm ở phía trước ít nhất một vị trí.
2. Nhóm luôn đứng ở vị trí đầu tiên của từ gồm
Các file đính kèm theo tài liệu này:
- luan_an_nghien_cuu_cac_phuong_phap_tach_tu_phuc_vu_phan_loai.pdf