Luận văn Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt-Anh-Hoa

MỤC LỤC

MỤC LỤC.1

MỞ ĐẦU.3

Chương 1: TỔNG QUAN.5

1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval):.5

1.2 Hệthống tìm kiếm thông tin xuyên ngôn ngữ(CLIR):.9

1.2.1 Khái niệm:.9

1.2.2 Các vấn đềcủa CLIR:.10

1.3 Các hướng tiếp cận:.11

1.3.1 Dịch máy (Machine Translation for Text Translation):.11

1.3.2 Dựa trên từ điển đa ngữ(Multilingual Thesauri):.14

1.3.3 Dựa trên ngữliệu (Corpus-based techniques):.22

1.4 Một sốcông trình nghiên cứu trong và ngoài nước:.30

1.4.1 ỞViệt Nam:.30

1.4.2 Trên thếgiới:.31

1.5 Kết luận:.32

Chương 2: CƠSỞLÝ THUYẾT.35

2.1 Giới thiệu vềMRD (Machine Readable Dictionary).35

2.1.1 Sơlược lịch sửphát triển MRD trên thếgiới:.35

2.1.2 Vai trò và cấu trúc của MRD:.39

2.1.3 Khai thác tài nguyên từ điển:.41

2.1.4 Xây dựng từ điển tự động:.42

2.1.5 Cấu trúc vĩmô và vi mô của từ điển MRD:.43

2.1.6 Một sốtừ điển MRD:.43

2.2 Các phương pháp tách từ:.51

2.2.1 Mô hình WFST:.51

2.2.2 Mô hình MMSEG:.57

2.3 Các phương pháp khửnhập nhằng:.64

2.3.1 Giới thiệu:.64

2.3.2 Khửnhập nhằng:.65

2.4 Kết luận:.70

Chương 3: PHÂN TÍCH và THIẾT KẾ.72

3.1 Tổng quan hệthống:.72

3.1.1 Phát biểu bài toán:.72

3.1.2 Mô hình hệthống:.72

3.1.3 Phát sinh quản lý:.73

3.2 Phân tích – thiết kếhệthống:.76

3.2.1 Mô hình Usecase:.76

3.2.2 Đặc tảusecase:.77

3.2.3 Sơ đồtuần tự:.78

3.2.4 Thiết kếlớp:.81

3.2.5 Thiết kếgiao diện:.94

GVHD: TS.HồBảo Quốc Nguyễn ThịHồng Nhung - 0112235

TS. Đinh Điền Nguyễn ThịTuyết Mai - 0112229

Hệthống tìm kiếmthông tin xuyên ngôn ngữViệt – Anh – Hoa

3.3 Xây dựng hệthống:.97

3.3.1 Tổchức các MRD:.97

3.3.2 Phươngpháp tìm kiếm dựa trên MRD:.106

3.3.3 Tìm kiếm tài liệu bằngcôngcụtìmkiếm:.110

CHƯƠNG 4: CÀI ĐẶT VÀ THỬNGHIỆM.112

4.1 Cài đặt:.112

4.1.1 Tiền xửlý:.112

4.1.2 Cấu trúc dữliệu:.112

4.1.3 Dịch từtừ điển:.113

4.1.4 Khửnhập nhằng:.113

4.1.5 Tìm kiếm:.116

4.2 Thửnghiệm:.117

4.2.1 Module dịch và khửnhập nhằng:.117

4.2.2 Chương trình demo trên web:.117

4.3 Đánh giá :.119

4.3.1 Module dịch và khửnhập nhằng:.119

4.3.2 Chương trình tìm kiểm trên Web:.120

Chương 5: KẾT LUẬN và HƯỚNG PHÁT TRIỂN.122

5.1 Kết luận:.122

5.2 Huớng phát triển:.122

5.2.1 Đối với từ điển và ngữliệu:.122

5.2.2 Đối với IR Engine:.123

5.2.3 Mởrộngngôn ngữtìm kiếm cho hệthống:.124

PHỤLỤC.125

TÀI LIỆU THAM KHẢO.132

133 trang | Chia sẻ: lethao | Lượt xem: 1968 | Lượt tải: 4Free

Bạn đang xem trước 20 trang tài liệu Luận văn Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt-Anh-Hoa, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

word form), ví dụ: “program”, “book”,… • Mã hình thái của từ (word morphology): từ nguyên gốc, dạng bất quy tắc, như có gấp đôi phụ âm hay không, hay kết hợp với phụ tố (affix) nào… • Mã loại của từ (word type): từ đơn, từ ghép; thành ngữ, viết tắt, … Mã biến thể của từ (word variants): các biến thể khác của từ (nếu có): “programme”, “colour”, “centre”, ... 2.1.6.1.2.2 Thông tin về ngữ pháp: Bao gồm các thông tin về: • Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,… • Tiểu từ loại (Subcategory): như danh từ thuộc loại con nào (danh từ đếm được, không đếm được,…), động từ loại con nào (tha động từ, tự động từ,…),… • Mã biến cách (inflection): thì (tense):quá khứ/hiện tại/tương lai; thể (voice): bị động/chủ động; giống (gender): đực/cái/trung; số (number): ít/nhiều,… • Đặc tính cú pháp (syntactic features): từ này dùng trong cấu trúc nào, mẫu câu (verb pattern, noun pattern,…) nào. • Ngữ đi kèm (collocation/phrase/idiom): từ này hay đi kèm với những từ nào, dùng trong ngữ (thành ngữ, tục ngữ) nào. Riêng trong việc gán nhãn từ pháp, cả 3 thông tin: từ loại, tiểu từ loại và mã biến cách nói trên sẽ được tích hợp vào chung nhãn từ pháp của PTB (Pann Tree Bank). 2.1.6.1.2.3 Thông tin về ngữ nghĩa: Bao gồm các thông tin về: GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 45 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa • Nghĩa tiếng Việt (meaning) của từ. Trong phần này, các từ tiếng Việt đều được phân định ranh giới từ. Ví dụ: từ “relationship” sẽ có phần nghĩa tiếng Việt là: “mối/N quan_hệ/N”; “high-speed printer”: “máy_in/N tốc_độ/N cao/J”;… • Đặc điểm tiếng Việt: khi dịch ra tiếng Việt, cần hiệu chỉnh gì về nghĩa (thêm, bớt các tiểu từ, loại từ, định từ,…), về vị trí. • Nhãn ngữ nghĩa của từ (semantic tag): từ thuộc ý niệm nào, như: HUM, ANM, PHO,… các ý niệm này chính là các nhãn ngữ nghĩa của từ. • Vai trong ngữ pháp cách (case role): Agent (Human), Instrument (Object),… • Thông tin về nhóm đồng nghĩa (synonym)/phản nghĩa (antonym). 2.1.6.1.2.4 Thông tin về ngữ dụng: Bao gồm các thông tin về: • Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực nào, ví dụ: Tin học, toán học, y học,... • Tần số xuất hiện (frequency): từ này có thường được dùng hay không. Tần suất xuất hiện của từ được đo bằng công thức M mf 10log−= với m là số lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3, có nghĩa là từ này xuất hiện với tần số 1/1000. • Mã về tình thái (modality): dùng trong cảnh huống nào (trọng, thân, tục,…). 2.1.6.1.3 Ví dụ một số mục từ trong từ điển tiếng Anh EDIC: Đến nay, trong EDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết nhất. Dưới đây là ví dụ của một số mục từ (entry) của EDic: GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 46 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Word Lemma Mor POS grm SEM Meaning Fre Field on-line On_line C J STA trực_tuyến/J 2.021 cpt Display Display W Vt Vcom hiển_thị/V 2.456 cpt Display Display W Ns ART màn/N hiển_thị/V 2.126 cpt Children Child W Ns Pl HUM trẻ_em/N 2.673 Bank Bank W Ns NAT bờ/N sông/N 2.842 Bảng 2.1. Một số mục từ của EDic Việc tích hợp các thông tin nói trên vào trong từ điển được thực hiện một cách bán tự động bằng cách dùng mô hình thống kê của ngôn ngữ học – máy tính để thống kê tự động trên những nguồn ngữ liệu lớn như: từ điển Anh-Việt, Brown, SUSANNE, SEMCOR,… nhằm rút trích thông tin, sau đó các thông tin này sẽ được hiệu chỉnh bởi người trước khi tích hợp vào từ điển. 2.1.6.2 Từ điển tiếng Việt VDIC: 2.1.6.2.1 Cấu trúc vĩ mô từ điển tiếng Việt VDIC: Về cấu trúc vĩ mô của từ điển tiếng Việt VDic, bên cạnh các tiêu chí về tính nhất quán, hướng đến văn phong Khoa học-Kỹ thuật, tác giả vẫn tuân theo các tiêu chí truyền thống về chọn mục từ trong từ điển tiếng Việt phổ thông do GS.Hoàng Phê chủ biên [10]. Từ điển điện tử tiếng Việt VDic này bao gồm khoảng 50.000 mục từ được lựa chọn theo các tiêu chí cụ thể như sau[11]: 1. Từ điển bao gồm các từ/ngữ được sử dụng phổ biến trong các sách, báo, tài liệu khoa học, kỹ thuật, nhất là trong tin học, không chứa các từ cổ. Từ điển cũng chứa các ngữ cố định, từ láy (nhưng không chứa dạng láy). 2. Những danh từ chỉ loại (classifier, loại từ) sẽ không được tích hợp vào trong mục từ. Ví dụ: trong từ điển sẽ chỉ có mục từ “thư”, “sách”, “bò”,… chứ GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 47 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa không có chứa bức thư/lá thư/cánh thư, quyển sách/cuốn sách, con bò,…Đối với các mục từ này, thông tin về các loại từ có thể có của nó được ghi thêm vào trong cấu trúc vi mô của nó. Xin xem danh sách loại từ ở phụ lục 9.1.2. 3. Những danh từ chỉ loài (categories) hay chủng loại (subcategories) sẽ được tích hợp vào trong mục từ của từ điển. Ví dụ: “máy” – máy tính, máy in, máy quét, máy vẽ, máy phát, máy đọc mã vạch, máy quay dĩa,…; “bộ” – bộ đếm, bộ xử lý, bộ điều giải, bộ thu, bộ phát, … Riêng đối với những danh từ chỉ loài có tính tổng quát và tính phổ biến cao mà trong thực tế có thể vắng mặt khi sử dụng, tác giả sẽ ghi chú đặc điểm này vào trong cấu trúc vi mô của nó. Ví dụ: “bệnh” trong bệnh lao, bệnh ho gà, bệnh uốn ván,… sẽ có đặc điểm này. Để xác định được đầy đủ và chính xác các danh từ chỉ loài và danh từ chỉ chủng loại, tác giả phải dựa trên cây phân loài có tính tổng quát của mạng WordNet [12]. 4. Chứa những mục từ được sản sinh theo phương thức tựa phụ tố, như: - hoá, -viên, -học, bất-, liên-, phó - , siêu-,… trong điện toán hoá, lập trình viên, vật lý học, phó giám đốc, siêu sao,… được hình thành từ việc đối chiếu các phụ tố dẫn xuất trong tiếng Anh tương ứng với hình vị tựa phụ tố có gốc Hán-Việt trong tiếng Việt. Ví dụ: các phụ tố trên sẽ tương ứng với các phụ tố –ize, -or/-ian/-er/- ist/…, -logy, in-, inter-, vice-, super-/hyper-/meta-,… trong tiếng Anh. Danh sách các phụ tố dẫn xuất trong phụ lục 9.1.1. 5. Chỉ riêng với các đơn vị còn gây tranh cãi về tư cách từ, tác giả mới sử dụng thêm thông tin từ vựng hoá của từ tiếng Anh tương ứng để chọn. Ví dụ: đường thẳng (line), nhà tranh (cottage) là từ, còn nhà gạch (brick house) không là từ. Còn các trường hợp khác (như: “ox” - “bò đực”), tác giả phải áp dụng các tiêu chí ngôn ngữ học, chứ không thể xem tương đương. 6. Các mục từ trong từ điển được xếp tự động theo: mẫu tự tiếng Việt, dấu thanh, và sau cùng mới xét đến mẫu tự kế (thứ tự mẫu tự và dấu thanh như cũ). GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 48 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Ví dụ: “…ba bai bang bao bay bà bài bàn bành bào bày bả bải bản bảng…” (đây là cách sắp xếp mà các từ điển điện tử hay sử dụng). 7. Để xác định tần suất sử dụng của từ, tác giả đã xây dựng từ điển tần số tiếng Việt tự động bằng cách thống kê bằng máy tính trên một ngữ liệu (corpus) tiếng Việt 30 triệu từ thuộc nhiều chủng loại văn bản khác nhau. Tác giả dựa vào tần suất này để chọn lựa những mục từ thông dụng nhất, tránh những từ ít dùng. 8. Để giải quyết vấn đề thiếu từ thông dụng: đối với tiếng Anh, người ta dễ dàng nhận diện được từ thiếu bằng chương trình kiểm lỗi chính tả (spelling- checker). Tuy nhiên đối với tiếng Việt thì đây là một bài toán khó và tác giả đã giải quyết được phần lớn các trường hợp thiếu này thông qua các mô hình xử lý tách từ và liên kết từ Anh-Việt. 2.1.6.2.2 Cấu trúc vi mô từ điển tiếng Việt VDIC: Cấu trúc vi mô của VDic hoàn toàn khác với cấu trúc vi mô của từ điển tiếng Việt truyền thống (vì từ điển truyền thống là dùng cho người, còn VDic là từ điển điện tử dùng cho máy). Cấu trúc vi mô (microstruture) của từ điển MRD tiếng Việt bao gồm những thông tin có cấu trúc chứa trong mỗi mục từ nhằm điều khiển việc xử lý ngôn ngữ tự động của máy. Về chuẩn chính tả tiếng Việt, tác giả vẫn tuân theo chuẩn chính tả như trong từ điển Hoàng Phê. Về mã tiếng Việt, tác giả sử dụng mã Unicode. Tuy nhiên, tác giả vẫn đáp ứng việc tìm kiếm từ điển với các biến thể chính tả khác bằng cách mã hoá dấu thanh khi lưu trữ và có bộ so sánh mờ (fuzzy) khi tìm kiếm. 2.1.6.2.2.1 Thông tin về hình thái: Dạng của từ (word form), ví dụ: “sách”, “thắng_lợi”, “chị”,… • Mã loại của từ (word type): từ đơn, từ ghép (đẳng lập, chính phụ); từ láy, thành ngữ, tục ngữ, từ viết tắt, từ gốc Hán, … GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 49 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Mã đặc tính hình thái: như thường kết hợp được với các yếu tố nào: từ chỉ loại, chỉ hướng,…Ví dụ: “sách” sẽ đi với danh từ chỉ loại “quyển”, “cuốn”. 2.1.6.2.2.2 Thông tin về ngữ pháp: Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,… • Tiểu từ loại (Subcategory): như tiểu loại danh từ nào (danh từ đếm được, không đếm được,…), tiểu loại động từ nào (ngoại động từ, nội động từ,…),… • Đặc tính cú pháp (syntactic feature): về thì (tense): quá khứ, hiện tại, tương lai; thể (voice): bị động, chủ động; giống (gender); số (number),… • Đặc tính cấu trúc (structure/pattern): dùng trong cấu trúc/mẫu câu nào. Ngữ đi kèm (collocation/phrase): động từ “nhắm” thường đi với “mắt”. 2.1.6.2.2.3 Thông tin về ngữ nghĩa: Nghĩa (meaning) của từ bằng tiếng Anh có kèm theo từ loại. Ví dụ: “book/NN”, “win/VB”, “elder/JJ sister/NN”,… Chúng ta sử dụng trường này để liên kết với từ tiếng Anh tương ứng trong các ngữ liệu có sẵn. • Mã ngữ nghĩa của từ (semantic code): như HUM, ANM, PHO,… các nhãn ngữ nghĩa này cũng chính là các nhãn ngữ nghĩa dùng trong từ điển EDic. 2.1.6.2.2.4 Thông tin về ngữ dụng: • Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực nào, ví dụ: Tin học, toán học, y học,... • Tần số xuất hiện (frequency): từ này có thường được dùng hay không. Tần suất xuất hiện của từ được đo bằng công thức N mf 10log−= với m là số GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 50 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3, có nghĩa là từ này xuất hiện với tần số 1/1000. Mã về tình thái (modality): từ này dùng trong cảnh huống nào: trịnh trọng, thân mật, thông tục,…. 2.1.6.2.3 Ví dụ một số mục từ trong từ điển VDIC: Đến nay, trong VDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết nhất. Dưới đây là ví dụ của một số mục từ (entry) của VDic: Từ Hình thái từ loại ngữ pháp ngữ nghĩa nghĩa t.Anh tần số lĩnh vực Máy_tính C Ns Cnt ART computer/N 2.221 cpt Hiển_thị C Vt Vcom Display/V 1.956 cpt Đường W Ns Cnt LIN line/N 2.087 Đường W Nm uncnt CHM sugar/N 1.987 Bảng 2.2. Một số mục từ của VDic 2.2 Các phương pháp tách từ: 2.2.1 Mô hình WFST: 2.2.1.1 Giới thiệu: Mô hình WFST của Richard W. Sproat tỏ ra khá hiệu quả (chính xác trên 95%) khi áp dụng cho tiếng Hoa. Mô hình này cho ra kết quả phân đoạn từ với độ tin cậy (xác suất) kèm theo. Vì vậy, khi hệ cho ra nhiều ứng viên có độ tin cậy xấp xỉ như nhau, thì việc lựa chọn lời giải tối ưu gặp khó khăn. Để khắc phục khuyết điểm này trong công trình [13] các tác giả đã kết hợp thêm tầng thứ hai là mạng neural để khử nhập nhằng các trường hợp tầng thứ nhất WFST cho ra nhiều ứng viên có kết quả ngang nhau. 2.2.1.2 Mô hình tách từ bằng WFST và mạng Neural: GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 51 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Trong mô hình này, tầng tiền xử lý có nhiệm vụ xử lý định dạng văn bản: như tiêu đề, đoạn, câu; chuẩn hoá về chính tả tiếng Việt: cách bỏ dấu, cách viết các ký tự y, i,… trong tiếng Việt (ví dụ: vật lý = vật lí, thời kỳ = thời kì, …) Sau đó câu được chuyển sang tầng WFST. Trong tầng này tác giả xử lý thêm các vấn đề liên quan đến đặc thù của tiếng Việt, như: từ láy, tên riêng, … Cuối cùng, nếu còn nhập nhằng câu sẽ được chuyển sang tầng khử nhập nhằng bằng mạng Neural (Hình 2.1) Thông tin ngữ cảnh Bắt đầu 2.2.1.2.1 Tầng WFST: 2.2.1.2.1.1 Xây dựng từ điển trọng số: 16 16 16 16 Giá trị xuất (0<x<1) 1( ) 1 ii h T f h e −= + Tầng nhập Tầng ẩn Tầng xuất Tiền xử lý Tầng WFST Hình 2.1: Sơ đồ mô hình WFST_NN Kết thúc t<To Mạng Neural Yes No GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 52 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Trong mô hình WFST, thì việc phân đoạn từ có thể được xem như là một sự chuyển dịch trạng thái có xác xuất (Stochastic Transduction). Chúng ta miêu tả từ điển D là một đồ thị biến đổi trạng thái hữu hạn có trọng số. Giả sử: H: là tập các từ chính tả tiếng Việt (hay còn gọi là “tiếng”) P: là từ loại của từ (POS: Part-Of-Speech) Mỗi cung của D có thể là: • Từ một phần tử của H tới một phần tử của H, hoặc • Từ ε (ký hiệu kết thúc từ) tới một phần tử của P. Nói cách khác, mỗi từ được miêu tả trong từ điển là một dãy tuần tự các cung: bắt đầu bằng một trạng thái ban đầu của D, được gán nhãn bằng một phần tử S thuộc H, và kết thúc bởi một cung được gán nhãn là một phần từ của ε x P. Nhãn này biểu thị một chi phí ước lượng (estimated cost) (lấy log của xác suất). Chúng ta biểu diễn câu cần tách là một máy nhận (acceptor) trạng thái hữu hạn không có trọng số (FSA – Finite State Acceptor) I trên H. Giả sử đã tồn tại một hàm Id mà đầu vào là FSA A, và đầu ra là một chuyển dịch (transducer) mà các phần tử trong đó chỉ bao gồm các phần tử thuộc A (gọi là D*). Mỗi từ được kết thúc bởi một cung biểu diễn sự chuyển đổi giữa ε và từ loại của chúng. Xác suất chuyển đổi được tính bằng cách lấy log của xác suất trong một tập mẫu lớn theo công thức: ⎟⎠ ⎞⎜⎝ ⎛−= N ft logcos Trong đó, f: tần số của từ N: kích thước tập mẫu Xác suất này được lưu vào trong từ điển. Đối với các trường hợp từ mới (unknown) chưa gặp, tác giả áp dụng xác suất có điều kiện Good-Turning để tính toán trọng số cho các từ mới này. Giả sử ta có XYZ, trong đó XY là từ cơ bản, Z là hậu tố. Ta cần tính: cost(XYZ) Gọi p(Z): xác suất trong trường hợp này của Z (trường hợp Z đứng kề XY) GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 53 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa ))((cos)(cos)(cos )(*)())(( ZunseentXYtXYZt Zp Z ZunseenpZunseenp +=⇒ ⎟⎠ ⎞⎜⎝ ⎛=⇒ với cost được tính theo công thức trên. Do đó trong từ điển, đối với các từ tiền tố và hậu tố (ta tạm gọi là Z) tác giả lưu thêm các xác suất của Z khi Z đứng liền sau một từ loại nhất định. 2.2.1.2.1.2 Xây dựng dãy các khả năng phân đoạn từ: Vấn đề ở đây là giảm sự bùng nổ tổ hợp khi sinh ra các dãy các từ có thể từ một dãy các tiếng có trong câu. Thật vậy, giả sử một câu gồm n âm tiết, mà trong tiếng Việt thì một từ có tối đa 4 âm tiết tức là ta sẽ có tối đa 2n-1 cách phân đoạn từ khác nhau. Một câu tiếng Việt trung bình có 24 âm tiết thì lúc đó ta phải giải quyết 8.000.000 trường hợp phân đoạn từ có thể trong một câu. Ở đây, một phương pháp mới được đề xuất là kết hợp sử dụng từ điển để hạn chế sinh ra các bùng nổ tổ hợp này. Khi phát hiện thấy một cách phân đoạn từ nào đó không phù hợp (không có trong từ điển, không phải là từ láy, không phải là danh từ riêng…) thì loại bỏ các nhánh xuất phát từ cách phân đoạn từ đó. Đối với phương pháp này sẽ thu được một danh sách gồm chỉ vài trăm trường hợp phân đoạn từ có thể so với 8.000.000. 2.2.1.2.1.3 Lựa chọn khả năng phân đoạn từ tối ưu: Sau khi có được một danh sách các cách phân đoạn từ có thể có của câu, tác giả chọn trường hợp phân đoạn từ có tổng trọng số bé nhất như sau: Ví dụ: input = “tốc độ truyền thông tin sẽ tăng cao” Dictionary = “tốc độ” 8.68 = “truyền” 12.31 = “truyền thông” 12.31 GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 54 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa = “thông tin” 7.24 = “tin” 7.33 = “sẽ” 6.09 = “tăng” 7.43 = “cao” 6.95 Id(D)*D* = “Tốc độ # truyền thông # tin # sẽ # tăng # cao.” 48.79(1) = “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” 48.70(2) BestPath = “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” 48.79(1) (1): 8.68+12.31+7.33+6.09+7.43+6.95=48.79 (2): 8.68+12.31+7.24+6.09+7.43+6.95=48.70 2.2.1.2.2 Tầng mạng Neural: Sau khi cho câu được phân đoạn từ qua mô hình WFST. Để xác định kết quả phân đoạn từ trên có thực sự hợp lệ hay không, tác giả định nghĩa một ngưỡng giá trị t0 với ý nghĩa như sau: nếu sự chênh lệch về trọng số (giữa các cách phân đoạn khác nhau với cách phân đoạn có trọng số nhỏ nhất) lớn hơn t0 thì đó là kết quả phân đoạn từ có trọng số nhỏ nhất đó đúng của câu và được chấp nhận. Còn nếu sự chênh lệch đó không lớn hơn t0, thì cách phân đoạn có trọng số nhỏ nhất đó chưa được xem là kết quả phân đoạn đúng của câu. Lúc này, ta sẽ đưa những cách phân đoạn từ của câu này qua mô hình mạng Neural để xử lý tiếp. Ví dụ: Sau khi qua phần xử lý WFST ta chỉ được ba cách phân đoạn có trọng số nhỏ nhất nhưng sự chênh lệch trọng số không lớn hơn t0: 1. học sinh/N học/V sinh học/N 2. học sinh/N học sinh/N hoc/V 3. hoc/V sinh học/N sinh học/N GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 55 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Thực tế trong tiếng Việt, có những dãy các loại từ không thể tuần tự đứng cạnh nhau theo luật ngữ pháp tiếng Việt. Nếu ta muốn lọc lại những trường hợp mập mờ trên bằng luật cú pháp tiếng Việt, ta lại đụng đến vấn đề vô cùng phức tạp là phân tích cú pháp tiếng Việt. Chúng ta xét lại ví dụ ở phần trên, mô hình mạng neural được đề xuất dùng để ước lượng giá 3 dãy từ loại: NNV, NVN, VNN. Mô hình này được học bằng chính các câu mà cách phân đoạn từ vẫn còn nhập nhằng sau khi qua mô hình thứ nhất. Khi đó tác giả phân đoạn từ bằng tay cho các câu nhập nhằng này và sau đó đưa vào máy học. Để thực hiện việc kiểm tra sự hợp lệ của một dãy các từ loại trong một câu, tác giả dử dụng một “ngữ cảnh k” cho mỗi từ có trong câu, ta sử dụng một cửa sổ trượt có kích thước là k từ và mảng mô tả của nó trượt trên câu cần xét bắt đầu từ từ đầu tiên đến từ cuối cùng trong câu. Thực tế mô hình mạng gồm 6 nút nhập, 10 nút ẩn và một nút xuất. Tầng nhập của mạng được kết nối hoàn toàn với một tầng ẩn gồm 10 nút với một hàm truyền. Những nút ẩn này lại được kết nối hoàn toàn với một tầng xuất chỉ gồm 1 nút. Nút xuất là một giá trị thực nằm giữa 0..1. Biểu thị cho khả năng hợp lệ của một dãy các từ loại đứng liền nhau trong một cửa sổ trượt. Khi cửa sổ trượt trượt từ đầu câu đến cuối câu, cộng dồn các kết quả lại với nhau và gán giá trị này vào thành trọng số của câu. Hàm truyền được chọn là hàm sigmoid: T hi i e hf −+ = 1 1)( đây là một hàm thông dụng trong các mạng neural. Câu được chọn tức là câu có trọng số lớn nhất. 2.2.1.3 Đánh giá mô hình WFST: GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 56 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa Mô hình WFST nhận diện từ có thể chính xác đến 97%, tỉ lệ này tuỳ thuộc vào loại văn bản. Vì thế sự phong phú mục từ của từ điển vẫn là điều quyết định kết quả của hệ thống. 2.2.2 Mô hình MMSEG: MMSEG [14] là hệ thống nhận diện từ cho văn bản tiếng quan thoại dựa trên hai biến thể của thuật toán Maximum Matching. Mô hình MMSEG là một mô hình tách từ hiệu quả nhất hiện nay. Sau đây là cơ sở lý thuyết của mô hình MMSEG (thực hiện trên tiếng Hoa) mà nhóm VCL đã sử dụng để áp dụng cho tiếng Việt. Do tiếng Việt cùng một loại hình ngôn ngữ với tiếng Hoa (đơn lập) nên hiệu quả của mô hình này khi áp dụng cho tiếng Việt cũng không chênh lệch lắm so với tiếng Hoa. Một vấn đề trong phân tích bằng máy của dữ liệu tiếng Hoa là không có ranh giới từ trong các văn bản in. Vì từ là đơn vị ngôn ngữ cơ bản cần phải xác định từ trong văn bản tiếng Hoa sao cho việc phân tích trở nên tốt hơn. Mục đích của nghiên cứu này là phát triển một hệ thống xác định từ vựng dựa trên hai biến thể thuật toán Maximum Matching. Hệ thống bao gồm một từ điển, hai thuật toán matching và bốn luật khử nhập nhằng. Kết quả là hệ thống nhận diện thành công 98.41% từ trong một mẫu văn bản gồm 1.013 từ. 2.2.2.1 Những khó khăn trong xử lý nhận diện từ: Vì từ là một đơn vị ngôn ngữ cơ bản, cần phải nhận diện từ trong văn bản tiếng Hoa để thực hiện việc phân tích tự động và xử lý văng bản tiếng Hoa. Tuy nhiên, có những khó khăn đặt ra trong việc xử lý nhận diện từ. ¾ Một là, hầu hết các tự bản thân nó có thể là từ một tự. Hơn nữa, chúng có thể liên kết với tự khác hình thành từ nhiều tự. Điều này dẫn đến nhiều nhập nhằng trong tách từ. GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 57 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa ¾ Hai là, việc ghép từ là thiết bị tạo các dạng từ có thể có trong tiếng Hoa hiện đại. Khó mà biết được một từ ghép tần số thấp là từ hay ngữ, và từ điển không thể thu thập hết tất cả các từ ghép tần số thấp. ¾ Ba là, những tự cùng nhóm cũng được dùng để lập danh từ riêng. Việc xác định danh từ riêng cũng sẽ là một vấn đề. Cuối cùng, một vài cấu trúc hình vị như từ láy và cấu trúc “A-not-A” cũng được quan tâm. Hầu hết những phương pháp nhận diện từ đều sử dụng một trong những thuật toán matching. Chiến lược cơ bản là kết chuỗi các tự nhập vào với một tập lớn các mục từ trong từ điển có sẵn để tìm tất cả (hoặc một số) những phân tích có thể có. Bởi vì chỉ có một phân tích là đúng nên phải khử nhập nhằng. 2.2.2.2 Thuật toán Maximum Matching và những biến thể của nó: Những những nghiên cứu khác biệt nhau về những thuật toán khử nhập nhằng. Một các đơn giản nhưng lại hiệu quả đó là thuật toán Maximum Matching. Maximum Matching có nhiều dạng. 2.2.2.2.1 Thuật toán Maximum Matching đơn giản: Dạng cơ bản để giải quyết nhập nhằng của từ. Ví dụ: Giả sử có một dãy các tự: C1, C2, …, Cn. Duyệt từ đầu dãy, chúng ta xác định đâu là từ. Đầu tiên, chúng ta tìm trong từ điển xem _C1_ có phải là từ một tự không, tiếp tục cho _C1C2_ và như thế cho đến khi có chuỗi liên kết dài hơn từ dài nhất có trong từ điển. Từ hợp lý nhất sẽ là liên kết dài nhất có trong từ điển. Chúng ta chọn từ này, sau đó tiếp tục qui trình này cho đến khi xác định được từ cuối cùng trong dãy. GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 58 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa 2.2.2.2.2 Thuật toán Maximum Matching phức tạp: Chen và Liu đã đưa ra một biến thể khác của Maximum Matching phức tạp hơn dạng cơ bản. Luật kết lớn nhất này phát biểu rằng: phân tích hợp lý nhất là bộ ba từ với chiều dài lớn nhất. Từ đầu dãy, chúng ta xác định đâu là từ. Nếu có những phân tích nhập nhằng (ví dụ: _C1_ là từ nhưng _C1C2_ cũng là từ, …) thì chúng ta tìm tiếp hai từ nữa để tìm tất cả các bộ ba từ có thể có với từ đầu tiên là _C1_ hoặc _C1C2_. Ví dụ, đây là những bộ ba từ: 1. _C1_ _C2_ _C3C4_ 2. _C1C2_ _C3C4_ _C5_ 3. _C1C2_ _C3C4_ _C5C6_ Bộ ba dài nhất là bộ thứ ba. Từ đầu tiên, _C1C2_ của bộ thứ ba này sẽ là từ đúng. Chúng ta lấy từ này và tiếp tục từ tự C3 cho đến khi xác định được từ cuối cùng. Luật này đạt độ chính xác đến 99.69% và 93.21% nhập nhằng được giải quyết. 2.2.2.2.3 Những thuật toán khử nhập nhằng khác: Bên cạnh Maximum Matching, còn có nhiều thuật toán khử nhập nhằng khác. Nhiều thông tin khác nhau được sử dụng trong xử lý nhập nhằng. Ví dụ, xác suất và thống kê, ngữ pháp, và hình thái. Hầu hết các phương pháp đều cần một từ điển được cấu trúc tốt có những thông tin như tần số tự và từ, các lớp ngữ pháp của từ, và một tập các luật ngữ pháp và hình thái. 2.2.2.3 Tổng quan về hệ thống MMSEG: Hệ thống MMSEG thực thi cả hai dạng đơn giản và phức tạp của thuật toán Maximum Matching đã nêu trên. Hơn nữa, để khử nhập nhằng không chỉ sử dụng thuật toán Maximum Matching phức tạp mà là phải dùng thêm ba luật khử nhập nhằng nữa. Một trong ba luật này đươc đưa ra bởi Chen và Liu (1992) và hai luật còn lại là mới có. GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235 TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229 59 Hệ thống tìm kiếm thông tin

Các file đính kèm theo tài liệu này:

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt-Anh-Hoa.pdf