MỤC LỤC
MỤC LỤC i
DANH SÁCH CÁC BẢNG iii
DANH SÁCH CÁC HÌNH iv
DANH SÁCH CÁC TỪ VIẾT TẮT v
CHƯƠNG 1 : GIỚI THIỆU 1
1.1 Đặt vấn đề 1
1.2 Hướng tiếp cận của đề tài 1
1.3 Nội dung của luận văn 3
CHƯƠNG 2 : TỔNG QUAN 4
2.1 Dịch máy thống kê (Statistical Machine Translation - SMT) 4
2.1.1 Dịch máy thống kê dựa trên từ (Word-based SMT) 4
2.1.2 Dịch máy thống kê dựa trên ngữ (Phrase-based SMT) 6
2.1.3 Dịch máy thống kê dựa trên cú pháp (Syntax-based SMT) 10
2.2 Các hướng tiếp cận trong chuyển đổi trật tự từ 14
2.2.1 Chuyển đổi trật tự câu ngôn ngữ đích 15
2.2.2 Chuyển đổi trật tự câu ngôn ngữ nguồn 17
CHƯƠNG 3 : MÔ HÌNH CỦA ĐỀ TÀI 28
3.1 Mô hình chung của đề tài 28
3.2 Xây dựng tập luật chuyển đổi bằng tay 29
3.2.1 Luật chuyển đổi trong danh ngữ 29
3.2.2 Luật chuyển đổi trong động ngữ 31
3.2.3 Luật chuyển đổi trong tính ngữ 32
3.3 Luật chuyển đổi dựa trên cú pháp 33
3.4 Rút trích tự động luật chuyển đổi từ ngữ liệu song ngữ 35
3.4.1 Tri thức chuyển đổi 35
3.4.2 Áp dụng tri thức chuyển đổi 37
3.4.3 Tổng quát hóa tri thức chuyển đổi 38
CHƯƠNG 4 : THỰC NGHIỆM VÀ ĐÁNH GIÁ 39
4.1 Các đặc trưng của ngữ liệu 39
4.2 Các tiêu chuẩn đánh giá 40
4.2.1 BLUE (Bilingual Evaluation Understudy) 40
4.2.2 NIST 41
4.2.3 TER (Translation Error Rate) 41
4.3 Huấn luyện cho mô hình SMT 41
4.4 Các thí nghiệm 43
4.4.1 Chuyển đổi trật tự từ theo các luật cú pháp rút trích bằng tay 43
4.4.2 Chuyển đổi trật tự từ theo luật cú pháp rút trích tự động 48
4.4.3 Giảm gióng hàng từ chéo? 55
4.5 Đánh giá chung 56
CHƯƠNG 5 : KẾT LUẬN 58
TÀI LIỆU TRÍCH DẪN 60
CÔNG TRÌNH ĐÃ CÔNG BỐ 63
PHỤ LỤC 64
A. Danh sách các luật chuyển đổi được rút bằng tay 64
B. Một số luật chuyển đổi được rút tự động từ ngữ liệu I 65
C. Kết quả phân lớp trên ngữ liệu I 66
D. Kết quả dịch ngữ liệu I sau khi dùng mô hình xác suất để chuyển đổi trật tự từ 67
72 trang |
Chia sẻ: maiphuongdc | Lượt xem: 1989 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận văn Sử dụng mô hình xác suất cho bài toán chuyển đổi trật tự từ trong dịch máy thống kê Anh – Việt dựa trên ngữ, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ngữ Anh-Việt đã được gióng hàng từ, rút trích các gióng hàng cho các thành phần trong cây cú pháp từ gióng hàng từ đã có, và một tập các luật chuyển đổi dựa vào đặc điểm cú pháp được xây dựng bằng tay. Tất cả các thông tin này được sử dụng để huấn luyện các luật ngữ pháp phi ngữ cảnh theo xác suất (Probabilistic Context Free Grammar - PCFG) dùng cho việc chuyển đổi trật tự. Cuối cùng, các thông tin này được dùng để chuyển đổi trật tự trong giai đoạn tiền xử lý, huấn luyện và giải mã của SMT.
Hình 2.13 minh họa qui trình rút luật chuyển đổi của tác giả:
Hình 2.13 Qui trình rút luật chuyển đổi của [14][15]
Hiện tượng
Mô tả
Trật tự theo tiếng Việt
Ví dụ
+pl
Danh từ số nhiều
+pl noun
+pl book
+sg3
Động từ ngôi thứ ba số ít
+sg3 verb
+sg3 like
+ed
Động từ quá khứ
+ed verb
+ed like
+ing
Hiện tại phân từ
+ing verb
+ing like
+pp
Quá khứ phân từ
+pp verb
+pp like
+er
So sánh hơn
adj/adv +er
small +er
+est
So sánh nhất
adj/adv +est
small +est
Bảng 2.3 Các luật chuyển đổi về mặt hình thái của [14][15]
Ngoài mô hình chuyển đổi trên cú pháp tác giả còn sử dụng mô hình chuyển đổi trên hình thái. Các luật chuyển đổi về mặt hình thái được tác giả tạo bằng tay và tập trung vào các hiện tượng được liệt kê trong bảng 2.3.
Tác giả đã áp dụng các mô hình đề nghị trên cho hệ dịch Anh-Pháp và Anh-Việt và đạt được kết quả khả quan, trên ngữ liệu tiếng Việt điểm BLEU tăng khoảng 2.4% và 2.5%, trên ngữ liệu của Europa (cho hệ dịch Anh-Pháp) điểm BLEU tăng khoảng 1.61%.
MÔ HÌNH CỦA ĐỀ TÀI
Trong các hướng tiếp cận của chuyển đổi trật tự từ, luận văn chọn cách tiếp cận chuyển đổi trật tự từ câu ngôn ngữ nguồn bằng cách sử dụng luật cú pháp, và áp dụng cho hệ dịch máy thống kê Anh-Việt dựa trên ngữ. Chương này trình bày chi tiết về mô hình của đề tài, định dạng luật cú pháp được sử dụng cũng như các phương pháp máy học đã được áp dụng trong quá trình rút trích tự động các luật chuyển đổi.
Mô hình chung của đề tài
Mục tiêu của đề tài là thực hiện chuyển đổi trật tự câu tiếng Anh sao cho càng giống với trật tự từ trong câu tiếng Việt càng tốt. Câu tiếng Anh sau khi được chuyển đổi sẽ được đưa vào hệ dịch SMT, và dịch sang câu tiếng Việt với chọn lựa cho bộ giải mã (decoder) là dịch mà không thay đổi trật tự từ tiếng Việt trong câu (monotone).
Hình 3.1 mô tả các bước xử lý chung trong chuyển đổi trật tự từ câu tiếng Anh.
Hình 3.1 Các bước chi tiết chuyển đổi trật tự từ dùng luật chuyển đổi theo cú pháp
Như đã trình bày trong chương 2, trong hướng tiếp cận này các câu tiếng Anh sẽ được phân tích cú pháp, sau đó các luật chuyển đổi trật tự sẽ được áp dụng cho cây cú pháp tiếng Anh. Đầu ra sẽ là câu tiếng Anh theo trật tự từ tiếng Việt.
Trong giới hạn của đề tài này luật chuyển đổi theo cú pháp sẽ được xây dựng theo hai cách:
Tập luật chuyển đổi bằng tay được tạo bằng cách dựa vào đối sánh trật tự từ giữa tiếng Anh và tiếng Việt. Trong trường hợp này xác suất áp dụng một luật chuyển đổi cho một nút trong cây cú pháp luôn luôn là 1.
Các luật chuyển đổi sẽ được rút trích từ ngữ liệu song ngữ đi kèm với xác suất tương ứng của nó. Trong trường hợp này xác suất áp dụng một luật chuyển đổi sẽ tùy thuộc vào xác suất của chính luật chuyển đổi và các đặc trưng của nút đó.
Xây dựng tập luật chuyển đổi bằng tay
Tiếng Anh có 5 loại ngữ chính là: danh ngữ (noun phrase), động ngữ (verb phrase), tính ngữ (adjective phrase), trạng ngữ (adverbial phrase) và ngữ giới từ (prepositional phrase). Trong giới hạn của đề tài, chúng tôi chỉ tập trung vào 3 loại ngữ đầu tiên (danh ngữ, động ngữ và tính ngữ) được xem là có nhiều khác biệt về trật tự từ giữa tiếng Anh và tiếng Việt so với các loại còn lại.
Luật chuyển đổi trong danh ngữ
[1] đã chỉ ra các vị trí trong cấu tạo của danh ngữ tiếng Anh mà có sự khác biệt về trật tự từ với tiếng Việt.
Định từ (determiner)
Với vị trí này, chỉ có một số trường hợp đặc biệt thì trật tự từ mới thay đổi khi dịch từ tiếng Anh sang tiếng Việt.
Ví dụ xét 2 ngữ danh từ sau:
The/DT house/NN (nhà) à khi dịch sang tiếng Việt định từ “The/DT” không thay đổi vị trí.
This/DT computer/NN (cái máy_tính này) à rõ ràng vị trí của định từ “This/DT” bị hoán đổi với vị trí của “book” khi dịch sang tiếng Việt.
That/DT interesting/JJ book/NN (quyển sách thú_vị đó) à vị trí của định từ “That/DT” bị hoán đổi với các phần còn lại của danh ngữ.
Với vị trị này chúng tôi rút ra một luật chuyển đổi như sau: nếu danh ngữ có chứa định từ tại vị trí bắt đầu, mà định từ đó là một trong các từ “this, that, these, those” thì hoán đổi vị trí của định từ với các thành phần còn lại trong danh ngữ. Với hai trường hợp b, c ở trên, sau khi áp dụng luật hoán đổi này ta có các kết quả tương ứng như sau:
b. computer this c. interesting book that
Tính từ bổ nghĩa trước danh từ chính (pre-modifier)
Vị trí của tính từ bổ nghĩa trước danh từ là một vị trí khác biệt quan trọng trong đối sánh trật tự từ tiếng Anh và tiếng Việt. Trong tiếng Anh tính từ bổ nghĩa luôn luôn đứng trước danh từ, trong khi tiếng Việt thì ngược lại. Điều này được nhận thấy rõ qua các ví dụ sau:
A/DT good/JJ student/NN ó 1 sinh_viên giỏi
An/DT interesting/JJ book/NN ó một quyển sách hay
A/DT small/JJ pink/JJ cup/NN ó một cái tách nhỏ màu hồng
Luật chuyển đổi tại vị trí này như sau: nếu danh ngữ có chứa tính từ hoặc tính ngữ đứng trước danh từ chính thì hoán đổi vị trí của tính từ/ngữ với danh từ chính. Áp dụng luật chuyển đổi này cho các trường hợp a, b, c ta được các ngữ tiếng Anh sau:
a student good b. an book intersting c. a cup small pink
Lưu ý rằng khi hoán đổi trật tự của tính ngữ với danh từ chính thì các thành phần con bên trong tính ngữ cũng sẽ đi theo nút cha của nó.
Tính từ sở hữu (possessive adjective)
Trong danh ngữ tiếng Anh tính từ sở hữu đứng đầu, trong khi đó với danh ngữ tiếng Việt tính từ sở hữu lại đứng cuối danh ngữ. Xét các ví dụ sau:
Her/PRP$ computer/NN ó cái máy_tính của cô ấy
Her/PRS$ blue/JJ eyes/NNS ó đôi mắt màu xanh của cô ấy
Luật chuyển đổi được rút ra như sau: nếu trong danh ngữ có tính từ sở hữu thì chuyển tính từ sở hữu về vị trí cuối cùng của danh ngữ. Các ví dụ trên sẽ được chuyển đổi như sau:
computer her b. blue eyes her
Sở hữu cách (possessive case)
Trường hợp sở hữu cách cũng tương tự như trường hợp tính từ sở hữu. Luật chuyển đổi khi gặp trường hợp này: khi danh ngữ có chứa thành phần sở hữu cách và danh từ chính thì hoán đổi vị trí của sở hữu cách và danh từ chính. Xét ví dụ sau:
The/DT computer/NN ’s/POS ó ’s The computer (… của máy tính)
Mary/NNP ’s/POS ó ’s Mary (… của Mary)
Danh từ phụ (sub noun)
Vị trí của danh từ phụ cũng hoàn toàn trái ngược giữa tiếng Anh và tiếng Việt nên luật chuyển đổi cho danh từ phụ cũng tương tự như luật chuyển đổi cho tính từ. Trong trường hợp có nhiều danh từ phụ cùng bổ nghĩa cho danh từ chính, thì vị trí của các danh từ phụ sẽ được đảo ngược lại theo thứ tự từ nào xuất hiện trước trong danh ngữ tiếng Anh thì sẽ được dịch sau trong danh ngữ tiếng Việt. Dưới đây là một số trường hợp tiêu biểu:
The/DT system/NN administrator/NN ó The administrator system (người quản_trị hệ_thống)
This/DT cable/NN television/NN system/NN ó system television cable this (hệ _thống truyền_hình cáp này)
Luật chuyển đổi trong động ngữ
[2] Các thành phần trong động ngữ tiếng Anh bao gồm: động từ là thành phần trung tâm, trợ từ (auxiliaries), bổ ngữ (complement) và các thành phần bổ nghĩa khác.
So sánh giữa tiếng Anh và tiếng Việt, đa số các thành phần của động ngữ sẽ không thay đổi vị trí, trừ trường hợp phủ định của modal verb “can, must, might, may …” và một số loại phó từ (adverb).
Đối với động ngữ chúng tôi rút trích ra hai luật chuyển đổi sau:
Nếu động ngữ có chứa modal verb ở thể phủ định, thì chuyển đổi trật tự của modal verb và từ phủ định. Cụ thể như trường hợp sau:
Xét động ngữ trong câu tiếng Anh: “You (can/MD not/RB release/VBN ) the key”, trật tự tương ứng của động ngữ này so với câu tiếng Việt là “You not can release the key” (Bạn không thể nhả phím)
Nếu thành phần của động ngữ bao gồm modal verb, trạng từ/ngữ và động từ/ngữ chính thì hoán đổi vị trí của của trạng ngữ và động từ. Dưới đây là một trường hợp thỏa luật này: … must/MD (individually/RB)ADVP update/VB … Trật tự sau chuyển đổi “… must update individually …” (… phải cập_nhật một cách riêng lẻ)
Luật chuyển đổi trong tính ngữ
Tính ngữ trong tiếng Anh có thể được một số loại từ sau bổ nghĩa: trạng từ so sánh hơn (comparative adverb), trạng từ so sánh nhất (superlative adverb), một số loại trạng từ khác, động từ/ngữ và cả danh từ/ngữ.
Trạng từ so sánh
Đối với loại từ này chúng tôi đề nghị luật chuyển đổi như sau: Nếu tính ngữ có trạng từ so sánh hơn bổ nghĩa cho tính từ trung tâm, thì hoán đổi vị trí của trạng từ và tính từ.
Dưới đây là ví dụ minh họa cho luật chuyển đổi này:
more/RBR expensive/JJ ó expensive more (đắt hơn)
more/RBR effective/JJ ó effective more (hiệu quả hơn)
most/RBS beautiful/JJ ó beautiful most (đẹp nhất)
most/RBS important/JJ ó important most (quan_trọng nhất)
Trạng từ khác
Trong trường hợp tính ngữ có thành phần là trạng từ, chúng tôi xét luật chuyển đổi như sau: Nếu tính ngữ có hai thành phần con là trạng từ “much” và tính từ trung tâm thì hoán đổi vị trí của hai thành phần con.
Xét ví dụ:
much/RB larger/JJR ó larger much (lớn hơn nhiều)
much/RB faster/JJR ó faster much (nhanh hơn nhiều)
Động từ/ngữ
Trong trường hợp này, chúng ta xét các tính ngữ có thành phần con là động từ/ngữ.
Nếu tính ngữ bao gồm các thành phần: trạng từ so sánh nhất, trạng từ và một động từ thì chuyển đổi trật tự của trạng từ so sánh nhất với động từ.
Xét tính ngữ: the/DT (most/RBS commonly/RB used/VBN)ADJP computer/NN, áp dụng luật chuyển đổi trên ta được câu tiếng Anh theo trật tự từ tiếng Việt như sau: “the (used commonly most) computer” (cái máy_tính được sử_dụng phổ_biến nhất)
Nếu tính ngữ bao gồm 2 thành phần con: trạng từ bổ nghĩa cho động từ, thì hoán đổi vị trí của chúng.
Xét tính ngữ: … ((professtionally/RB)ADVP) created/VBN … áp dụng luật trên ta có “created professionally” (được tạo một cách chuyên nghiệp)
Danh từ/ngữ
Trong trường hợp này danh từ/ngữ sẽ bổ nghĩa cho tính từ trung tâm của tính ngữ. Luật chuyển đổi tương ứng là: nếu tính ngữ bao gồm hai thành phần là danh từ/ngữ bổ nghĩa cho tính từ trung tâm thì chuyển đổi vị trí của chúng.
Ví dụ: (eight/CD pages/NNS)NP long/JJ ó long eight pages (dài 8 trang)
Luật chuyển đổi dựa trên cú pháp
Từ các qui tắc, các luật được rút ra trong phần trên, chúng tôi tiến hành xây dựng các luật chuyển đổi dựa trên cú pháp bằng cách sử dụng tập nhãn từ loại và nhãn ngữ của Penn Tree Bank. Nhãn của các ngữ được xem xét chuyển đổi trật tự được qui ước như sau: danh ngữ (noun phrase - NP), động ngữ (verb phrase - VP), tính ngữ (adjective phrase - ADJP).
Luật chuyển đổi có thể bao gồm: từ, từ loại hoặc nhãn cú pháp của ngữ. Trong hướng tiếp cận của chúng tôi, một luật gồm từ và nhãn từ loại. Bảng 3.1 cho thấy ví dụ của một vài luật chuyển đổi dựa trên các luật được rút ra ở phần trên. Một luật chuyển đổi bao gồm phần bên trái (left hand side - LHS) và phần bên phải (right hand side - RHS). Phần bên trái là luật cú pháp (gồm từ vựng và từ loại), phần bên phải là chuỗi chuyển đổi trật tự, ở phần này chúng tôi sẽ đánh chỉ số bắt đầu từ 1.
Luật 5 và 9 là các ví dụ về luật từ vựng. Luật 5 có ý nghĩa là: nếu ngữ danh từ bao gồm DT NN và từ có từ loại là DT là “this” thì chuyển đổi trật tự của “this” và danh từ trong danh ngữ (xem thêm phần 3.2.1.1).
STT
Loại
Vế trái
Vế phải
1.
NP
JJ NN
2 1
2.
NP
NN RB
2 1
3.
NP
DT NN POS
3 2; 2 1
4.
NP
PRP$ NN
2 1
5.
NP
DT/this NN
2 1
6.
VP
MD RB VBN
2 1
7.
ADJP
RBR JJ
2 1
8.
ADJP
NN VBN
2 1
9.
ADJP
RB/much JJR
2 1
10.
ADJP
RBS RB VBN
3 2
Bảng 3.1 Ví dụ một vài luật chuyển đổi
Chúng ta phải sử dụng luật chuyển đổi dạng này vì có rất nhiều ngoại lệ trong trật tự từ giữa tiếng Anh và tiếng Việt. Trong tập luật mà chúng tôi sử dụng, chỉ có một số trường hợp ngoại lệ được giải quyết (xem chi tiết ở phần 3.2).
Hầu hết các luật trong bảng 3.1 đều chỉ có một bước chuyển đổi ở vế phải, ngoại trừ luật số 3. Nếu có một ngữ danh từ thỏa luật số 3, chúng ta phải chuyển đổi nút con số 3 và nút con số 2, kết quả là DT POS NN. Sau đó lại chuyển đổi nút số 1 và nút 2 của ngữ kết quả này. Ngữ danh từ sau khi áp dụng luật 3 sẽ có trật tự từ như sau: POS DT NN
Lưu ý rằng, mỗi khi một nút trong cây cú pháp thay đổi vị trí thì các thành phần của nút đó cũng đi theo. Hình 3.2 minh họa điều này.
Trước khi chuyển đổi
Sau khi chuyển đổi
Hình 3.2 Chuyển đổi trật tự nút kéo theo chuyển đổi trật tự từ
Rút trích tự động luật chuyển đổi từ ngữ liệu song ngữ
Có thể nhận thấy trong hướng tiếp cận rút trích luật bằng tay xác suất để áp dụng một luật chuyển đổi khi luật đó thỏa luôn luôn là 1, trong khi thực tế không phải vậy. Có những trường hợp thỏa luật như vị trí của các từ trong ngữ lại không thay đổi như trong luật đã nêu. Vậy giải quyết vấn đề này như thế nào? Hiện nay có nhiều cách để giải quyết và trong đề tài này chúng tôi dùng cách tích hợp thêm xác suất cho từng luật chuyển đổi với trật tự từ tương ứng. Khi một nút trong cây cú pháp thỏa luật, quyết định có chuyển đổi trật tự hay không sẽ phụ thuộc vào xác suất của luật đó cũng như các đặc trưng của nút đang được xét.
Phương pháp mà chúng tôi sử dụng trong đề tài có cách tiếp cận khá giống với mô hình của nhóm tác giả Chi-Ho Li et.al [12]. Điểm khác duy nhất giữa 2 cách tiếp cận này là [12] sẽ phát sinh ra n ứng viên và chuyển n ứng viên cho bộ dịch SMT, sau đó ứng viên tốt nhất sẽ được lựa chọn dựa vào công thức của SMT; trong khi đó hướng tiếp cận của đề tài chỉ chọn 1 ứng viên tốt nhất để gửi cho bộ dịch SMT.
Tri thức chuyển đổi
Thay vì sử dụng trực tiếp các luật chuyển đổi được tạo bằng tay, chúng tôi sử dụng một dạng tri thức chuyển đổi mà có thể áp dụng trực tiếp cho từng nút trên cây cú pháp. Tri thức chuyển đổi phải là dạng tri thức cho phép tính toán khả năng áp dụng luật chuyển đổi trật tự cho các thành phần con của nút đang xét.
Không mất tính tổng quát, ban đầu chúng ta sẽ xem xét trường hợp các nút nhị phân - chỉ có hai thành phần con. Xét nút N có hai thành phần con (nút nhị phân) là N1 và N2 với hai ngữ tương ứng với nó là p1 và p2. Mục tiêu của chúng ta là quyết định trật tự của p1 và p2 theo trật tự của câu ngôn ngữ đích, tạm đặt là T(p1) và T(p2). Việc ra quyết định này có thể học được từ ngữ liệu song ngữ dựa vào gióng hàng từ của các cặp câu. Nghĩa là cho trước một ngữ liệu song ngữ, một bộ phân tích cú pháp cho ngôn ngữ nguồn, và một công cụ gióng hàng từ, chúng ta có thể phát hiện các nút có hai con là các trường hợp ứng viên phục vụ cho việc học các tri thức chuyển đổi trật tự từ. Vấn đề tiếp theo cần giải quyết là từ những ứng viên trên chúng ta có thể rút ra được những tri thức nào? Trong giới hạn của đề tài này, có hai dạng tri thức được sử dụng:
Luật chuyển đổi:
Mỗi luật sẽ có hai xác suất khác nhau, đó là xác suất chuyển đổi trật tự từ (Pr(inverted)) và xác suất giữ nguyên trật tự từ (Pr(in-order)).
Luật chuyển đổi Z có định dạng sau:
Trong đó Z là loại ngữ (danh ngữ, tính ngữ, động ngữ), X, Y là hai nút con của Z. Xác suất chuyển đổi hay không chuyển đổi của luật sẽ được ước lượng bằng cách dùng phương pháp ước lượng độ tương đồng cực đại (Maximum Likelihood Estimation - MLE)
Các đặc trưng:
Sử dụng Maximum Entropy (ME) để phân lớp nhị phân cho các nút con, để biết nút con đó có được chuyển đổi hay không. Các đặc trưng để phân lớp được rút ra từ ngữ tiếng Anh chứa các node con đó. Ở đây chúng tôi sẽ sử dụng lại một số đặc trưng đã được dùng trong [12] là: nhãn nút cha của nút đang xét, nhãn của nút con trái nhất, nhãn của nút con phải nhất và các từ ngữ cảnh. Nhãn ở đây có thể là nhãn ngữ, hoặc là từ loại (POS). Từ ngữ cảnh là từ bên trái của ngữ bên trái và từ bên phải của ngữ bên phải.
Việc rút trích luật chuyển đổi được thực hiện dựa vào kết quả gióng hàng từ của ngữ liệu song ngữ cùng với cây phân tích cú pháp của câu ngôn ngữ nguồn. Nếu trong gióng hàng từ của một cặp câu có xuất hiện gióng hàng từ chéo, thì gióng hàng từ chéo đó sẽ được xem xét là ứng viên của luật chuyển đổi, luật chuyển đổi lúc này xây dựng dựa trên từ loại của từ gây ra gióng hàng chéo đó. Do đề tài chỉ tập trung vào ba loại ngữ như đã nêu nên việc xem xét gióng hàng từ chéo cũng chỉ được xem xét trong nội bộ ba loại ngữ này. Chẳng hạn xét trường hợp (a) như ở hình 3.3, ngữ danh từ tiếng Anh với các nút con và từ loại tương ứng, có gióng hàng từ chéo từ tiếng Anh sang tiếng Việt. Như vậy tại nút này sẽ có một luật chuyển đổi được rút ra là: NP ® PRP$ NN.
(a) Xét trong ngữ nhỏ nhất
(b) Xét trong ngữ lồng nhau
Hình 3.3 Ví dụ rút trích tự động luật chuyển đổi từ gióng hàng từ chéo.
Để tận dụng tính tổng quát khi sử dụng luật cú pháp, ngoài việc rút trích tự động các luật trong phạm vi ngữ nhỏ nhất (như ví dụ trên), đề tài còn xét việc rút trích trong phạm vi các ngữ lồng nhau như trường hợp (b) ở hình 3.3. Trong trường hợp này ngữ NP cha sẽ được xem xét lá ứng viên của luật chuyển đổi, do có xuất hiện gióng hàng từ chéo giữa hai thành phần con của nó là ADJP và NNS. Vậy tại nút NP có một luật chuyển đổi được rút ra: NP ® ADJP NNS.
Áp dụng tri thức chuyển đổi
Sau khi rút ra các tri thức chuyển đổi, chúng ta sẽ áp dụng chúng cho các nút trên cây cú pháp của câu tiếng Anh. Ứng với mỗi luật chuyển đổi sẽ có nhiều trường hợp chuyển đổi khác nhau, vì vậy chúng ta cần có một cách nào đó để tính điểm cho từng trường hợp. Cách tính điểm mà chúng tôi sử dụng ở đây là dùng công thức ước lượng độ tương đồng cực đại (Maximum Likelihood Estimation) để tính xác suất xuất hiện của từng trường hợp so với các trường hợp còn lại.
Ví dụ: xét luật NP ® NN NN, trong ngữ liệu thống kê được có 200 trường hợp sẽ chuyển đổi trật tự (dựa vào gióng hàng từ chéo) và 205 trường hợp giữ nguyên trật tự, vậy và
Tại mỗi nút đang xét, trước hết cần kiểm tra xem nút đó có thỏa luật chuyển đổi nào được rút từ ngữ liệu hay không, nếu thỏa thì tiến hành rút trích đặc trưng tại nút đang xét (các đặc trưng này đã được trình bày trong phần trên). Khi đó, để xác định có chuyển đổi trật tự hay không luận văn sử dụng mô hình ME để phân lớp. Như vậy cần tính xác suất sau:
Với r = {in-order, inverterd}, fi là các đặc trưng trong mô hình ME, là trọng số của các đặc trưng.
Tổng quát hóa tri thức chuyển đổi
Trong cả hai phần trên chúng ta xem xét trường hợp rút trích tri thức chuyển đổi và tính toán xác suất cho các nút nhị phân trong cây cú pháp. Chúng ta dễ dàng áp dụng lại các tri thức chuyển đối cũng như công thức tính xác suất cho các nút có số con nhiều hơn hai. Với trường hợp nút nhị phân chúng ta có hai cách chuyển đổi trật tự từ, trường hợp nút tam phân (có 3 con) sẽ có 6 cách chuyển đổi trật tự. Như vậy tổng quát lên, với nút n-phân, ta có n! cách chuyển đổi các nút con của nó. Mô hình ME cho các nút như thế này cũng tương tự như mô hình ME cho nút nhị phân, chỉ khác ở chỗ, sẽ có nhiều phân lớp hơn khi số nút con tăng lên.
Vấn đề khó khăn duy nhất đó là khi số phân lớp tăng lên thì hiện tượng dữ liệu rải rác (sparse data) càng dễ xảy ra và dẫn đến những hậu quả xấu. Ảnh hưởng này sẽ được phân tích kĩ hơn trong chương tiếp theo.
THỰC NGHIỆM VÀ ĐÁNH GIÁ
Trong chương này chúng tôi sẽ trình bày chi tiết về các đặc trưng của ngữ liệu được dùng để huấn luyện và đánh giá, và các bước tiến hành huấn luyện cũng như các tiêu chuẩn được dùng để đánh giá hiệu quả của một hệ dịch máy.
Các đặc trưng của ngữ liệu
Ngữ liệu được sử dụng để huấn luyện và kiểm chứng trong hệ thống của chúng tôi là ngữ liệu song ngữ Anh-Việt của nhóm VCL (Vietnamese Computation Linguistic) [5]. Ngữ liệu này bao gồm: hai tập ngữ liệu con là Cadasa (C) và IBM (I). Tuy cả C và I cùng chủ đề máy tính nhưng C được lấy từ một quyển sách nói về mạng máy tính, còn I là phần hướng dẫn sử dụng của IBM, nên không thể gộp chung hai ngữ liệu này. Ngoài ra đề tài còn sử dụng ngữ liệu D, là ngữ liệu được rút ra từ các cặp câu ví dụ trong từ điển Anh-Việt.
Phần ngữ liệu tiếng Việt được tách từ bằng công cụ được công bố trong [6]. Bảng 4.1 cung cấp các thông tin về đặc trưng của ngữ liệu.
Ngữ liệu
Số cặp câu
Chiều dài
trung bình
Số từ
Số từ phân biệt
Anh
Việt
Anh
Việt
Anh
Việt
C
8963
18.97
22.44
147380
221579
8866
4278
I
4997
16.41
15.56
74860
85368
2214
2464
D
60478
9.96
13.47
602515
814729
42485
16784
Bảng 4.1 Các đặc trưng của ngữ liệu
Chúng tôi chia ngẫu nhiên ngữ liệu thành 10 phần, lấy 9 phần cho huấn luyện mô hình của SMT cũng như Maximum Entropy, 0.5 phần cho tập development, 0.5 còn lại dành cho kiểm chứng. Bảng 4.2 mô tả chi tiết hơn về các tập ngữ liệu này.
Các tiêu chuẩn đánh giá
Hiện nay có nhiều tiêu chuẩn khác nhau dùng trong việc đánh giá tự động hiệu quả của một hệ dịch máy. Dựa vào đặc điểm của các tiêu chuẩn này, chúng tôi tạm thời chia thành hai nhóm. Nhóm thứ nhất đo lường độ chính xác khi dịch, bao gồm các tiêu chuẩn NIST, BLEU. Nhóm thứ hai đo lường tỉ lệ lỗi trong quá trình dịch, bao gồm WER(Word Error Rate), PER (Position-independent Error Rate) và TER (Translation Error Rate).
Trong đề tài của mình, chúng tôi sử dụng ba độ đo thông dụng nhất hiện nay là: BLEU, NIST và TER để đánh giá. Trong đó BLEU và NIST thuộc nhóm một, TER thuộc nhóm hai.
C
I
D
Anh
Việt
Anh
Việt
Anh
Việt
Training
Số cặp câu
8061
4495
54431
Chiều dài trung bình
18.97
22.45
16.44
15.59
9.96
13.47
Số từ phân biệt
8866
5537
2161
2359
42485
16784
Developing
Số cặp câu
454
250
3025
Chiều dài trung bình
18.53
21.95
16.15
15.40
9.34
13.20
Số từ phân biệt
1978
1619
764
721
11756
4638
Testing
Số cặp câu
448
252
3025
Chiều dài trung bình
19.40
22.65
16.03
15.33
9.52
13.16
Số lượng phân biệt
1990
1639
744
691
11673
4782
Bảng 4.2 Thống kê các tập ngữ liệu training, developing và testing
BLUE (Bilingual Evaluation Understudy)
[17] Độ đo này đánh giá dựa trên độ chính xác của các n-gram gồm: 1-gram, 2-gram, 3-gram và 4-gram. BLEU sẽ được tính dựa trên trung bình hình học (geometric mean) số lần đồng xuất hiện của các gram ở câu dịch tự động và câu dịch tham chiếu (câu do người dịch). Điểm BLEU có giá trị trong khoảng [0,1], theo tiêu chuẩn này thì sẽ có rất ít câu dịch đạt được điểm tối đa, ngoại trừ những câu thực sự khớp với câu dịch mà hệ thống đánh giá tham chiếu tới. Với tiêu chuẩn BLEU thì điểm càng cao có nghĩa là hệ thống dịch càng tốt. Tuy nhiên, cần lưu ý là ngoài hiệu quả dịch của chính hệ thống, điểm BLEU còn phụ thuộc vào số lượng câu dịch tham chiếu. Do đó sẽ khi so sánh hai hệ thống với nhau cần đảm bảo số lượng câu tham chiếu là như nhau.
NIST
[20] Độ đo này có cách đánh giá tương tự như BLEU nhưng nó dùng cách tính trung bình số học (arithmetic mean) nhằm tăng tính chính xác khi đánh giá. Ngoài ra đối với các n-gram có chứa nhiều thông tin thì NIST sẽ gán điểm cao hơn cho nó. Với độ đo này điểm của nó càng cao thì hệ dịch càng tốt.
TER (Translation Error Rate)
Cách đánh giá này được trình bày trong [7]. Tiêu chuẩn này sẽ đếm số bước cần thực hiện (thêm, xóa, thay đổi) để chuyển từ chuỗi dịch tự động sang chuỗi do người dịch (chuỗi tham chiếu). Khi đó tỉ lệ lỗi sẽ được tính theo công thức sau:
Đây có thể xem là độ đo gần với cách đánh giá của con người nhất. Với độ đo này, tỉ lệ lỗi càng thấp thì hệ dịch càng tốt.
Huấn luyện cho mô hình SMT
Các công cụ và module cần thiết để huấn luyện cho SMT có thể xem tại địa chỉ . Với công cụ MOSES và GIZA++[9] chúng tôi đã huấn luyện mô hình SMT dựa trên ngữ (Phrase-based SMT) theo các bước và các thông số cụ thể như sau:
Chuẩn bị dữ liệu
Ngữ liệu song ngữ cần được chuyển sang định dạng phù hợp với công cụ gióng hàng từ GIZA++. Từ ngữ liệu, hai tập tin từ vựng của tiếng Anh và tiếng Việt sẽ được tạo, sau đó ngữ liệu song ngữ sẽ được chuyển sang định dạng số.
GIZA
Các gióng hàng từ được lấy từ tập giao kết quả sau khi chạy gióng hàng theo hai hướng, từ Anh sang Việt và từ Việt sang Anh. Ngoài ra một số gióng hàng cũng được lấy từ tập hợp của hai kết quả này.
Gióng hàng từ
Để rút trích ra kết quả gióng hàng từ cuối cùng dựa vào hai kết quả của GIZA++, cần phải sử dụng một số heuristic. Heuristic mặc định là grow-diag-final sẽ lấy kết quả từ tập giao và sau đó thêm vào một số điểm gióng hàng.
Dịch các từ vựng
Dựa vào kết quả gióng hàng từ ở trên, dùng phương pháp Maximum Likelihood để tạo thành một bảng dịch giữa các từ (lexical translation table).
Rút trích ngữ
Trong bước này, tất cả các cặp ngữ có khả năng là bản dịch của nhau được lưu trữ vào trong một tập tin lớn. Và chiều dài lớn nhất của ngữ trong bảng chứa các ngữ (phrase-table) là 5.
Tính điểm các ngữ
Mô hình chuyển đổi trật tự từ
Tùy vào các thí nghiệm khác nhau, cấu hình của mô hình này sẽ khác nhau:
Với hệ thống cơ sở (baseline system): dùng mô hình chuyển đổi trật tự từ dựa vào khoảng cách (distance-based re-ordering model). Đây cũng là cấu hình mặc định nếu chúng ta không chọn mô hình chuyển đổi trật tự nào khác.
Với hệ thống MO