MỤC LỤC.1
MỞ ĐẦU.3
Chương 1: TỔNG QUAN.5
1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval):.5
1.2 Hệthống tìm kiếm thông tin xuyên ngôn ngữ(CLIR):.9
1.2.1 Khái niệm:.9
1.2.2 Các vấn đềcủa CLIR:.10
1.3 Các hướng tiếp cận:.11
1.3.1 Dịch máy (Machine Translation for Text Translation):.11
1.3.2 Dựa trên từ điển đa ngữ(Multilingual Thesauri):.14
1.3.3 Dựa trên ngữliệu (Corpus-based techniques):.22
1.4 Một sốcông trình nghiên cứu trong và ngoài nước:.30
1.4.1 ỞViệt Nam:.30
1.4.2 Trên thếgiới:.31
1.5 Kết luận:.32
Chương 2: CƠSỞLÝ THUYẾT.35
2.1 Giới thiệu vềMRD (Machine Readable Dictionary).35
2.1.1 Sơlược lịch sửphát triển MRD trên thếgiới:.35
2.1.2 Vai trò và cấu trúc của MRD:.39
2.1.3 Khai thác tài nguyên từ điển:.41
2.1.4 Xây dựng từ điển tự động:.42
2.1.5 Cấu trúc vĩmô và vi mô của từ điển MRD:.43
2.1.6 Một sốtừ điển MRD:.43
2.2 Các phương pháp tách từ:.51
2.2.1 Mô hình WFST:.51
2.2.2 Mô hình MMSEG:.57
2.3 Các phương pháp khửnhập nhằng:.64
2.3.1 Giới thiệu:.64
2.3.2 Khửnhập nhằng:.65
2.4 Kết luận:.70
Chương 3: PHÂN TÍCH và THIẾT KẾ.72
3.1 Tổng quan hệthống:.72
3.1.1 Phát biểu bài toán:.72
3.1.2 Mô hình hệthống:.72
3.1.3 Phát sinh quản lý:.73
3.2 Phân tích – thiết kếhệthống:.76
3.2.1 Mô hình Usecase:.76
3.2.2 Đặc tảusecase:.77
3.2.3 Sơ đồtuần tự:.78
3.2.4 Thiết kếlớp:.81
3.2.5 Thiết kếgiao diện:.94
                
              
                                            
                                
            
 
            
                 133 trang
133 trang | 
Chia sẻ: huong.duong | Lượt xem: 1428 | Lượt tải: 0 
              
            Bạn đang xem trước 20 trang tài liệu Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh - Hoa, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
g của từ (word form), ví dụ: “program”, “book”,… 
• Mã hình thái của từ (word morphology): từ nguyên gốc, dạng bất quy tắc, 
như có gấp đôi phụ âm hay không, hay kết hợp với phụ tố (affix) nào… 
• Mã loại của từ (word type): từ đơn, từ ghép; thành ngữ, viết tắt, … 
Mã biến thể của từ (word variants): các biến thể khác của từ (nếu có): “programme”, 
“colour”, “centre”, ... 
2.1.6.1.2.2 Thông tin về ngữ pháp: 
Bao gồm các thông tin về: 
• Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,… 
• Tiểu từ loại (Subcategory): như danh từ thuộc loại con nào (danh từ đếm 
được, không đếm được,…), động từ loại con nào (tha động từ, tự động 
từ,…),… 
• Mã biến cách (inflection): thì (tense):quá khứ/hiện tại/tương lai; thể 
(voice): bị động/chủ động; giống (gender): đực/cái/trung; số (number): 
ít/nhiều,… 
• Đặc tính cú pháp (syntactic features): từ này dùng trong cấu trúc nào, 
mẫu câu (verb pattern, noun pattern,…) nào. 
• Ngữ đi kèm (collocation/phrase/idiom): từ này hay đi kèm với những từ 
nào, dùng trong ngữ (thành ngữ, tục ngữ) nào. 
Riêng trong việc gán nhãn từ pháp, cả 3 thông tin: từ loại, tiểu từ loại và mã biến cách 
nói trên sẽ được tích hợp vào chung nhãn từ pháp của PTB (Pann Tree Bank). 
2.1.6.1.2.3 Thông tin về ngữ nghĩa: 
Bao gồm các thông tin về: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
45
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
• Nghĩa tiếng Việt (meaning) của từ. Trong phần này, các từ tiếng Việt đều 
được phân định ranh giới từ. Ví dụ: từ “relationship” sẽ có phần nghĩa tiếng 
Việt là: “mối/N quan_hệ/N”; “high-speed printer”: “máy_in/N tốc_độ/N 
cao/J”;… 
• Đặc điểm tiếng Việt: khi dịch ra tiếng Việt, cần hiệu chỉnh gì về nghĩa 
(thêm, bớt các tiểu từ, loại từ, định từ,…), về vị trí. 
• Nhãn ngữ nghĩa của từ (semantic tag): từ thuộc ý niệm nào, như: HUM, 
ANM, PHO,… các ý niệm này chính là các nhãn ngữ nghĩa của từ. 
• Vai trong ngữ pháp cách (case role): Agent (Human), Instrument 
(Object),… 
• Thông tin về nhóm đồng nghĩa (synonym)/phản nghĩa (antonym). 
2.1.6.1.2.4 Thông tin về ngữ dụng: 
Bao gồm các thông tin về: 
• Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực 
nào, ví dụ: Tin học, toán học, y học,... 
• Tần số xuất hiện (frequency): từ này có thường được dùng hay không. 
Tần suất xuất hiện của từ được đo bằng công thức 
M
mf 10log−= với m là số 
lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3, 
có nghĩa là từ này xuất hiện với tần số 1/1000. 
• Mã về tình thái (modality): dùng trong cảnh huống nào (trọng, thân, 
tục,…). 
2.1.6.1.3 Ví dụ một số mục từ trong từ điển tiếng Anh EDIC: 
Đến nay, trong EDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết 
nhất. Dưới đây là ví dụ của một số mục từ (entry) của EDic: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
46
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Word Lemma Mor POS grm SEM Meaning Fre Field 
on-line On_line C J STA trực_tuyến/J 2.021 cpt 
Display Display W Vt Vcom hiển_thị/V 2.456 cpt 
Display Display W Ns ART màn/N 
hiển_thị/V 
2.126 cpt 
Children Child W Ns Pl HUM trẻ_em/N 2.673 
 Bank Bank W Ns NAT bờ/N sông/N 2.842 
Bảng 2.1. Một số mục từ của EDic 
Việc tích hợp các thông tin nói trên vào trong từ điển được thực hiện một cách bán tự 
động bằng cách dùng mô hình thống kê của ngôn ngữ học – máy tính để thống kê tự 
động trên những nguồn ngữ liệu lớn như: từ điển Anh-Việt, Brown, SUSANNE, 
SEMCOR,… nhằm rút trích thông tin, sau đó các thông tin này sẽ được hiệu chỉnh bởi 
người trước khi tích hợp vào từ điển. 
2.1.6.2 Từ điển tiếng Việt VDIC: 
2.1.6.2.1 Cấu trúc vĩ mô từ điển tiếng Việt VDIC: 
Về cấu trúc vĩ mô của từ điển tiếng Việt VDic, bên cạnh các tiêu chí về tính nhất quán, 
hướng đến văn phong Khoa học-Kỹ thuật, tác giả vẫn tuân theo các tiêu chí truyền 
thống về chọn mục từ trong từ điển tiếng Việt phổ thông do GS.Hoàng Phê chủ biên 
[10]. Từ điển điện tử tiếng Việt VDic này bao gồm khoảng 50.000 mục từ được lựa 
chọn theo các tiêu chí cụ thể như sau[11]: 
1. Từ điển bao gồm các từ/ngữ được sử dụng phổ biến trong các sách, báo, 
tài liệu khoa học, kỹ thuật, nhất là trong tin học, không chứa các từ cổ. Từ điển 
cũng chứa các ngữ cố định, từ láy (nhưng không chứa dạng láy). 
2. Những danh từ chỉ loại (classifier, loại từ) sẽ không được tích hợp vào 
trong mục từ. Ví dụ: trong từ điển sẽ chỉ có mục từ “thư”, “sách”, “bò”,… chứ 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
47
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
không có chứa bức thư/lá thư/cánh thư, quyển sách/cuốn sách, con bò,…Đối với 
các mục từ này, thông tin về các loại từ có thể có của nó được ghi thêm vào trong 
cấu trúc vi mô của nó. Xin xem danh sách loại từ ở phụ lục 9.1.2. 
3. Những danh từ chỉ loài (categories) hay chủng loại (subcategories) sẽ 
được tích hợp vào trong mục từ của từ điển. Ví dụ: “máy” – máy tính, máy in, 
máy quét, máy vẽ, máy phát, máy đọc mã vạch, máy quay dĩa,…; “bộ” – bộ đếm, 
bộ xử lý, bộ điều giải, bộ thu, bộ phát, … Riêng đối với những danh từ chỉ loài có 
tính tổng quát và tính phổ biến cao mà trong thực tế có thể vắng mặt khi sử dụng, 
tác giả sẽ ghi chú đặc điểm này vào trong cấu trúc vi mô của nó. Ví dụ: “bệnh” 
trong bệnh lao, bệnh ho gà, bệnh uốn ván,… sẽ có đặc điểm này. Để xác định 
được đầy đủ và chính xác các danh từ chỉ loài và danh từ chỉ chủng loại, tác giả 
phải dựa trên cây phân loài có tính tổng quát của mạng WordNet [12]. 
4. Chứa những mục từ được sản sinh theo phương thức tựa phụ tố, như: -
hoá, -viên, -học, bất-, liên-, phó - , siêu-,… trong điện toán hoá, lập trình viên, vật 
lý học, phó giám đốc, siêu sao,… được hình thành từ việc đối chiếu các phụ tố 
dẫn xuất trong tiếng Anh tương ứng với hình vị tựa phụ tố có gốc Hán-Việt trong 
tiếng Việt. Ví dụ: các phụ tố trên sẽ tương ứng với các phụ tố –ize, -or/-ian/-er/-
ist/…, -logy, in-, inter-, vice-, super-/hyper-/meta-,… trong tiếng Anh. Danh sách 
các phụ tố dẫn xuất trong phụ lục 9.1.1. 
5. Chỉ riêng với các đơn vị còn gây tranh cãi về tư cách từ, tác giả mới sử 
dụng thêm thông tin từ vựng hoá của từ tiếng Anh tương ứng để chọn. Ví dụ: 
đường thẳng (line), nhà tranh (cottage) là từ, còn nhà gạch (brick house) không là 
từ. Còn các trường hợp khác (như: “ox” - “bò đực”), tác giả phải áp dụng các tiêu 
chí ngôn ngữ học, chứ không thể xem tương đương. 
6. Các mục từ trong từ điển được xếp tự động theo: mẫu tự tiếng Việt, dấu 
thanh, và sau cùng mới xét đến mẫu tự kế (thứ tự mẫu tự và dấu thanh như cũ). 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
48
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Ví dụ: “…ba bai bang bao bay bà bài bàn bành bào bày bả bải bản bảng…” (đây 
là cách sắp xếp mà các từ điển điện tử hay sử dụng). 
7. Để xác định tần suất sử dụng của từ, tác giả đã xây dựng từ điển tần số 
tiếng Việt tự động bằng cách thống kê bằng máy tính trên một ngữ liệu (corpus) 
tiếng Việt 30 triệu từ thuộc nhiều chủng loại văn bản khác nhau. Tác giả dựa vào 
tần suất này để chọn lựa những mục từ thông dụng nhất, tránh những từ ít dùng. 
8. Để giải quyết vấn đề thiếu từ thông dụng: đối với tiếng Anh, người ta dễ 
dàng nhận diện được từ thiếu bằng chương trình kiểm lỗi chính tả (spelling-
checker). Tuy nhiên đối với tiếng Việt thì đây là một bài toán khó và tác giả đã 
giải quyết được phần lớn các trường hợp thiếu này thông qua các mô hình xử lý 
tách từ và liên kết từ Anh-Việt. 
2.1.6.2.2 Cấu trúc vi mô từ điển tiếng Việt VDIC: 
Cấu trúc vi mô của VDic hoàn toàn khác với cấu trúc vi mô của từ điển tiếng Việt 
truyền thống (vì từ điển truyền thống là dùng cho người, còn VDic là từ điển điện tử 
dùng cho máy). Cấu trúc vi mô (microstruture) của từ điển MRD tiếng Việt bao gồm 
những thông tin có cấu trúc chứa trong mỗi mục từ nhằm điều khiển việc xử lý ngôn 
ngữ tự động của máy. Về chuẩn chính tả tiếng Việt, tác giả vẫn tuân theo chuẩn chính 
tả như trong từ điển Hoàng Phê. Về mã tiếng Việt, tác giả sử dụng mã Unicode. Tuy 
nhiên, tác giả vẫn đáp ứng việc tìm kiếm từ điển với các biến thể chính tả khác bằng 
cách mã hoá dấu thanh khi lưu trữ và có bộ so sánh mờ (fuzzy) khi tìm kiếm. 
2.1.6.2.2.1 Thông tin về hình thái: 
Dạng của từ (word form), ví dụ: “sách”, “thắng_lợi”, “chị”,… 
• Mã loại của từ (word type): từ đơn, từ ghép (đẳng lập, chính phụ); từ láy, 
thành ngữ, tục ngữ, từ viết tắt, từ gốc Hán, … 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
49
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Mã đặc tính hình thái: như thường kết hợp được với các yếu tố nào: từ chỉ loại, chỉ 
hướng,…Ví dụ: “sách” sẽ đi với danh từ chỉ loại “quyển”, “cuốn”. 
2.1.6.2.2.2 Thông tin về ngữ pháp: 
Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,… 
• Tiểu từ loại (Subcategory): như tiểu loại danh từ nào (danh từ đếm được, 
không đếm được,…), tiểu loại động từ nào (ngoại động từ, nội động 
từ,…),… 
• Đặc tính cú pháp (syntactic feature): về thì (tense): quá khứ, hiện tại, 
tương lai; thể (voice): bị động, chủ động; giống (gender); số (number),… 
• Đặc tính cấu trúc (structure/pattern): dùng trong cấu trúc/mẫu câu nào. 
Ngữ đi kèm (collocation/phrase): động từ “nhắm” thường đi với “mắt”. 
2.1.6.2.2.3 Thông tin về ngữ nghĩa: 
Nghĩa (meaning) của từ bằng tiếng Anh có kèm theo từ loại. Ví dụ: “book/NN”, 
“win/VB”, “elder/JJ sister/NN”,… Chúng ta sử dụng trường này để liên kết với từ 
tiếng Anh tương ứng trong các ngữ liệu có sẵn. 
• Mã ngữ nghĩa của từ (semantic code): như HUM, ANM, PHO,… các 
nhãn ngữ nghĩa này cũng chính là các nhãn ngữ nghĩa dùng trong từ điển 
EDic. 
2.1.6.2.2.4 Thông tin về ngữ dụng: 
• Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực 
nào, ví dụ: Tin học, toán học, y học,... 
• Tần số xuất hiện (frequency): từ này có thường được dùng hay không. 
Tần suất xuất hiện của từ được đo bằng công thức N
mf 10log−=
 với m là số 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
50
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3, 
có nghĩa là từ này xuất hiện với tần số 1/1000. 
Mã về tình thái (modality): từ này dùng trong cảnh huống nào: trịnh trọng, thân mật, 
thông tục,…. 
2.1.6.2.3 Ví dụ một số mục từ trong từ điển VDIC: 
Đến nay, trong VDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết 
nhất. Dưới đây là ví dụ của một số mục từ (entry) của VDic: 
Từ Hình 
thái 
từ loại ngữ 
pháp 
ngữ 
nghĩa 
nghĩa t.Anh tần số lĩnh 
vực 
Máy_tính C Ns Cnt ART computer/N 2.221 cpt 
Hiển_thị C Vt Vcom Display/V 1.956 cpt 
Đường W Ns Cnt LIN line/N 2.087 
Đường W Nm uncnt CHM sugar/N 1.987 
Bảng 2.2. Một số mục từ của VDic 
2.2 Các phương pháp tách từ: 
2.2.1 Mô hình WFST: 
2.2.1.1 Giới thiệu: 
Mô hình WFST của Richard W. Sproat tỏ ra khá hiệu quả (chính xác trên 95%) khi áp 
dụng cho tiếng Hoa. Mô hình này cho ra kết quả phân đoạn từ với độ tin cậy (xác suất) 
kèm theo. Vì vậy, khi hệ cho ra nhiều ứng viên có độ tin cậy xấp xỉ như nhau, thì việc 
lựa chọn lời giải tối ưu gặp khó khăn. Để khắc phục khuyết điểm này trong công trình 
[13] các tác giả đã kết hợp thêm tầng thứ hai là mạng neural để khử nhập nhằng các 
trường hợp tầng thứ nhất WFST cho ra nhiều ứng viên có kết quả ngang nhau. 
2.2.1.2 Mô hình tách từ bằng WFST và mạng Neural: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
51
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Trong mô hình này, tầng tiền xử lý có nhiệm vụ xử lý định dạng văn bản: như tiêu đề, 
đoạn, câu; chuẩn hoá về chính tả tiếng Việt: cách bỏ dấu, cách viết các ký tự y, i,… 
trong tiếng Việt (ví dụ: vật lý = vật lí, thời kỳ = thời kì, …) 
Sau đó câu được chuyển sang tầng WFST. Trong tầng này tác giả xử lý thêm các vấn 
đề liên quan đến đặc thù của tiếng Việt, như: từ láy, tên riêng, … Cuối cùng, nếu còn 
nhập nhằng câu sẽ được chuyển sang tầng khử nhập nhằng bằng mạng Neural (Hình 
2.1) 
Thông tin ngữ cảnh Bắt đầu 
2.2.1.2.1 Tầng WFST: 
2.2.1.2.1.1 Xây dựng từ điển trọng số: 
16 16 16 16 
Giá trị xuất (0<x<1) 
1( )
1
ii h
T
f h
e
−= +
Tầng nhập 
Tầng ẩn 
Tầng xuất 
Tiền xử lý 
Tầng WFST 
Hình 2.1: Sơ đồ mô hình WFST_NN 
Kết thúc 
t<To
 Mạng Neural 
Yes 
No 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
52
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Trong mô hình WFST, thì việc phân đoạn từ có thể được xem như là một sự chuyển 
dịch trạng thái có xác xuất (Stochastic Transduction). Chúng ta miêu tả từ điển D là 
một đồ thị biến đổi trạng thái hữu hạn có trọng số. Giả sử: 
 H: là tập các từ chính tả tiếng Việt (hay còn gọi là “tiếng”) 
 P: là từ loại của từ (POS: Part-Of-Speech) 
Mỗi cung của D có thể là: 
• Từ một phần tử của H tới một phần tử của H, hoặc 
• Từ ε (ký hiệu kết thúc từ) tới một phần tử của P. 
Nói cách khác, mỗi từ được miêu tả trong từ điển là một dãy tuần tự các cung: bắt đầu 
bằng một trạng thái ban đầu của D, được gán nhãn bằng một phần tử S thuộc H, và kết 
thúc bởi một cung được gán nhãn là một phần từ của ε x P. Nhãn này biểu thị một chi 
phí ước lượng (estimated cost) (lấy log của xác suất). Chúng ta biểu diễn câu cần tách 
là một máy nhận (acceptor) trạng thái hữu hạn không có trọng số (FSA – Finite State 
Acceptor) I trên H. Giả sử đã tồn tại một hàm Id mà đầu vào là FSA A, và đầu ra là 
một chuyển dịch (transducer) mà các phần tử trong đó chỉ bao gồm các phần tử thuộc 
A (gọi là D*). Mỗi từ được kết thúc bởi một cung biểu diễn sự chuyển đổi giữa ε và từ 
loại của chúng. Xác suất chuyển đổi được tính bằng cách lấy log của xác suất trong 
một tập mẫu lớn theo công thức: 
⎟⎠
⎞⎜⎝
⎛−=
N
ft logcos 
Trong đó, f: tần số của từ 
 N: kích thước tập mẫu 
Xác suất này được lưu vào trong từ điển. Đối với các trường hợp từ mới (unknown) 
chưa gặp, tác giả áp dụng xác suất có điều kiện Good-Turning để tính toán trọng số 
cho các từ mới này. 
Giả sử ta có XYZ, trong đó XY là từ cơ bản, Z là hậu tố. Ta cần tính: cost(XYZ) 
 Gọi p(Z): xác suất trong trường hợp này của Z (trường hợp Z đứng kề XY) 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
53
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
))((cos)(cos)(cos
)(*)())((
ZunseentXYtXYZt
Zp
Z
ZunseenpZunseenp
+=⇒
⎟⎠
⎞⎜⎝
⎛=⇒
với cost được tính theo công thức trên. 
Do đó trong từ điển, đối với các từ tiền tố và hậu tố (ta tạm gọi là Z) tác giả lưu thêm 
các xác suất của Z khi Z đứng liền sau một từ loại nhất định. 
2.2.1.2.1.2 Xây dựng dãy các khả năng phân đoạn từ: 
Vấn đề ở đây là giảm sự bùng nổ tổ hợp khi sinh ra các dãy các từ có thể từ một dãy 
các tiếng có trong câu. Thật vậy, giả sử một câu gồm n âm tiết, mà trong tiếng Việt thì 
một từ có tối đa 4 âm tiết tức là ta sẽ có tối đa 2n-1 cách phân đoạn từ khác nhau. Một 
câu tiếng Việt trung bình có 24 âm tiết thì lúc đó ta phải giải quyết 8.000.000 trường 
hợp phân đoạn từ có thể trong một câu. 
Ở đây, một phương pháp mới được đề xuất là kết hợp sử dụng từ điển để hạn chế sinh 
ra các bùng nổ tổ hợp này. Khi phát hiện thấy một cách phân đoạn từ nào đó không 
phù hợp (không có trong từ điển, không phải là từ láy, không phải là danh từ riêng…) 
thì loại bỏ các nhánh xuất phát từ cách phân đoạn từ đó. Đối với phương pháp này sẽ 
thu được một danh sách gồm chỉ vài trăm trường hợp phân đoạn từ có thể so với 
8.000.000. 
2.2.1.2.1.3 Lựa chọn khả năng phân đoạn từ tối ưu: 
Sau khi có được một danh sách các cách phân đoạn từ có thể có của câu, tác giả chọn 
trường hợp phân đoạn từ có tổng trọng số bé nhất như sau: 
Ví dụ: input = “tốc độ truyền thông tin sẽ tăng cao” 
Dictionary = “tốc độ” 8.68 
 = “truyền” 12.31 
 = “truyền thông” 12.31 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
54
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
 = “thông tin” 7.24 
 = “tin” 7.33 
 = “sẽ” 6.09 
 = “tăng” 7.43 
 = “cao” 6.95 
 Id(D)*D* = “Tốc độ # truyền thông # tin # sẽ # tăng # cao.” 48.79(1) 
= “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” 48.70(2) 
BestPath = “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” 48.79(1) 
(1): 8.68+12.31+7.33+6.09+7.43+6.95=48.79 
(2): 8.68+12.31+7.24+6.09+7.43+6.95=48.70 
2.2.1.2.2 Tầng mạng Neural: 
Sau khi cho câu được phân đoạn từ qua mô hình WFST. Để xác định kết quả phân 
đoạn từ trên có thực sự hợp lệ hay không, tác giả định nghĩa một ngưỡng giá trị t0 với 
ý nghĩa như sau: nếu sự chênh lệch về trọng số (giữa các cách phân đoạn khác nhau 
với cách phân đoạn có trọng số nhỏ nhất) lớn hơn t0 thì đó là kết quả phân đoạn từ có 
trọng số nhỏ nhất đó đúng của câu và được chấp nhận. Còn nếu sự chênh lệch đó 
không lớn hơn t0, thì cách phân đoạn có trọng số nhỏ nhất đó chưa được xem là kết 
quả phân đoạn đúng của câu. 
Lúc này, ta sẽ đưa những cách phân đoạn từ của câu này qua mô hình mạng Neural để 
xử lý tiếp. 
Ví dụ: Sau khi qua phần xử lý WFST ta chỉ được ba cách phân đoạn có trọng số nhỏ 
nhất nhưng sự chênh lệch trọng số không lớn hơn t0: 
1. học sinh/N học/V sinh học/N 
2. học sinh/N học sinh/N hoc/V 
3. hoc/V sinh học/N sinh học/N 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
55
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Thực tế trong tiếng Việt, có những dãy các loại từ không thể tuần tự đứng cạnh nhau 
theo luật ngữ pháp tiếng Việt. Nếu ta muốn lọc lại những trường hợp mập mờ trên 
bằng luật cú pháp tiếng Việt, ta lại đụng đến vấn đề vô cùng phức tạp là phân tích cú 
pháp tiếng Việt. 
Chúng ta xét lại ví dụ ở phần trên, mô hình mạng neural được đề xuất dùng để ước 
lượng giá 3 dãy từ loại: NNV, NVN, VNN. Mô hình này được học bằng chính các câu 
mà cách phân đoạn từ vẫn còn nhập nhằng sau khi qua mô hình thứ nhất. Khi đó tác 
giả phân đoạn từ bằng tay cho các câu nhập nhằng này và sau đó đưa vào máy học. Để 
thực hiện việc kiểm tra sự hợp lệ của một dãy các từ loại trong một câu, tác giả dử 
dụng một “ngữ cảnh k” cho mỗi từ có trong câu, ta sử dụng một cửa sổ trượt có kích 
thước là k từ và mảng mô tả của nó trượt trên câu cần xét bắt đầu từ từ đầu tiên đến từ 
cuối cùng trong câu. Thực tế mô hình mạng gồm 6 nút nhập, 10 nút ẩn và một nút 
xuất. 
Tầng nhập của mạng được kết nối hoàn toàn với một tầng ẩn gồm 10 nút với một hàm 
truyền. Những nút ẩn này lại được kết nối hoàn toàn với một tầng xuất chỉ gồm 1 nút. 
Nút xuất là một giá trị thực nằm giữa 0..1. Biểu thị cho khả năng hợp lệ của một dãy 
các từ loại đứng liền nhau trong một cửa sổ trượt. Khi cửa sổ trượt trượt từ đầu câu 
đến cuối câu, cộng dồn các kết quả lại với nhau và gán giá trị này vào thành trọng số 
của câu. Hàm truyền được chọn là hàm sigmoid: 
T
hi i
e
hf
−+
=
1
1)( 
 đây là một hàm thông dụng trong các mạng neural. Câu được chọn tức là câu có 
trọng số lớn nhất. 
2.2.1.3 Đánh giá mô hình WFST: 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
56
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
Mô hình WFST nhận diện từ có thể chính xác đến 97%, tỉ lệ này tuỳ thuộc vào loại 
văn bản. Vì thế sự phong phú mục từ của từ điển vẫn là điều quyết định kết quả của hệ 
thống. 
2.2.2 Mô hình MMSEG: 
MMSEG [14] là hệ thống nhận diện từ cho văn bản tiếng quan thoại dựa trên hai biến 
thể của thuật toán Maximum Matching. 
Mô hình MMSEG là một mô hình tách từ hiệu quả nhất hiện nay. Sau đây là cơ sở lý 
thuyết của mô hình MMSEG (thực hiện trên tiếng Hoa) mà nhóm VCL đã sử dụng để 
áp dụng cho tiếng Việt. Do tiếng Việt cùng một loại hình ngôn ngữ với tiếng Hoa (đơn 
lập) nên hiệu quả của mô hình này khi áp dụng cho tiếng Việt cũng không chênh lệch 
lắm so với tiếng Hoa. 
Một vấn đề trong phân tích bằng máy của dữ liệu tiếng Hoa là không có ranh giới từ 
trong các văn bản in. Vì từ là đơn vị ngôn ngữ cơ bản cần phải xác định từ trong văn 
bản tiếng Hoa sao cho việc phân tích trở nên tốt hơn. Mục đích của nghiên cứu này là 
phát triển một hệ thống xác định từ vựng dựa trên hai biến thể thuật toán Maximum 
Matching. Hệ thống bao gồm một từ điển, hai thuật toán matching và bốn luật khử 
nhập nhằng. Kết quả là hệ thống nhận diện thành công 98.41% từ trong một mẫu văn 
bản gồm 1.013 từ. 
2.2.2.1 Những khó khăn trong xử lý nhận diện từ: 
Vì từ là một đơn vị ngôn ngữ cơ bản, cần phải nhận diện từ trong văn bản tiếng Hoa để 
thực hiện việc phân tích tự động và xử lý văng bản tiếng Hoa. Tuy nhiên, có những 
khó khăn đặt ra trong việc xử lý nhận diện từ. 
? Một là, hầu hết các tự bản thân nó có thể là từ một tự. Hơn nữa, chúng có thể 
liên kết với tự khác hình thành từ nhiều tự. Điều này dẫn đến nhiều nhập nhằng 
trong tách từ. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
57
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
? Hai là, việc ghép từ là thiết bị tạo các dạng từ có thể có trong tiếng Hoa hiện 
đại. Khó mà biết được một từ ghép tần số thấp là từ hay ngữ, và từ điển không 
thể thu thập hết tất cả các từ ghép tần số thấp. 
? Ba là, những tự cùng nhóm cũng được dùng để lập danh từ riêng. Việc xác định 
danh từ riêng cũng sẽ là một vấn đề. Cuối cùng, một vài cấu trúc hình vị như từ 
láy và cấu trúc “A-not-A” cũng được quan tâm. 
Hầu hết những phương pháp nhận diện từ đều sử dụng một trong những thuật toán 
matching. Chiến lược cơ bản là kết chuỗi các tự nhập vào với một tập lớn các mục từ 
trong từ điển có sẵn để tìm tất cả (hoặc một số) những phân tích có thể có. Bởi vì chỉ 
có một phân tích là đúng nên phải khử nhập nhằng. 
2.2.2.2 Thuật toán Maximum Matching và những biến thể của nó: 
Những những nghiên cứu khác biệt nhau về những thuật toán khử nhập nhằng. Một 
các đơn giản nhưng lại hiệu quả đó là thuật toán Maximum Matching. Maximum 
Matching có nhiều dạng. 
2.2.2.2.1 Thuật toán Maximum Matching đơn giản: 
Dạng cơ bản để giải quyết nhập nhằng của từ. 
Ví dụ: 
 Giả sử có một dãy các tự: C1, C2, …, Cn. 
 Duyệt từ đầu dãy, chúng ta xác định đâu là từ. 
 Đầu tiên, chúng ta tìm trong từ điển xem _C1_ có phải là từ một tự không, tiếp 
tục cho _C1C2_ và như thế cho đến khi có chuỗi liên kết dài hơn từ dài nhất có trong 
từ điển. Từ hợp lý nhất sẽ là liên kết dài nhất có trong từ điển. Chúng ta chọn từ này, 
sau đó tiếp tục qui trình này cho đến khi xác định được từ cuối cùng trong dãy. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
58
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 
2.2.2.2.2 Thuật toán Maximum Matching phức tạp: 
Chen và Liu đã đưa ra một biến thể khác của Maximum Matching phức tạp hơn dạng 
cơ bản. Luật kết lớn nhất này phát biểu rằng: phân tích hợp lý nhất là bộ ba từ với 
chiều dài lớn nhất. Từ đầu dãy, chúng ta xác định đâu là từ. Nếu có những phân tích 
nhập nhằng (ví dụ: _C1_ là từ nhưng _C1C2_ cũng là từ, …) thì chúng ta tìm tiếp hai 
từ nữa để tìm tất cả các bộ ba từ có thể có với từ đầu tiên là _C1_ hoặc _C1C2_. 
Ví dụ, đây là những bộ ba từ: 
1. _C1_ _C2_ _C3C4_ 
2. _C1C2_ _C3C4_ _C5_ 
3. _C1C2_ _C3C4_ _C5C6_ 
Bộ ba dài nhất là bộ thứ ba. Từ đầu tiên, _C1C2_ của bộ thứ ba này sẽ là từ đúng. 
Chúng ta lấy từ này và tiếp tục từ tự C3 cho đến khi xác định được từ cuối cùng. Luật 
này đạt độ chính xác đến 99.69% và 93.21% nhập nhằng được giải quyết. 
2.2.2.2.3 Những thuật toán khử nhập nhằng khác: 
Bên cạnh Maximum Matching, còn có nhiều thuật toán khử nhập nhằng khác. Nhiều 
thông tin khác nhau được sử dụng trong xử lý nhập nhằng. Ví dụ, xác suất và thống kê, 
ngữ pháp, và hình thái. Hầu hết các phương pháp đều cần một từ điển được cấu trúc tốt 
có những thông tin như tần số tự và từ, các lớp ngữ pháp của từ, và một tập các luật 
ngữ pháp và hình thái. 
2.2.2.3 Tổng quan về hệ thống MMSEG: 
Hệ thống MMSEG thực thi cả hai dạng đơn giản và phức tạp của thuật toán Maximum 
Matching đã nêu trên. Hơn nữa, để khử nhập nhằng không chỉ sử dụng thuật toán 
Maximum Matching phức tạp mà là phải dùng thêm ba luật khử nhập nhằng nữa. Một 
trong ba luật này đươc đưa ra bởi Chen và Liu (1992) và hai luật còn lại là mới có. 
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 
 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 
59
Hệ thống tìm kiếm 
            Các file đính kèm theo tài liệu này:
 CNTT1009.pdf CNTT1009.pdf