MỤC LỤC.1
MỞ ĐẦU.3
Chương 1: TỔNG QUAN.5
1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval):.5
1.2 Hệthống tìm kiếm thông tin xuyên ngôn ngữ(CLIR):.9
1.2.1 Khái niệm:.9
1.2.2 Các vấn đềcủa CLIR:.10
1.3 Các hướng tiếp cận:.11
1.3.1 Dịch máy (Machine Translation for Text Translation):.11
1.3.2 Dựa trên từ điển đa ngữ(Multilingual Thesauri):.14
1.3.3 Dựa trên ngữliệu (Corpus-based techniques):.22
1.4 Một sốcông trình nghiên cứu trong và ngoài nước:.30
1.4.1 ỞViệt Nam:.30
1.4.2 Trên thếgiới:.31
1.5 Kết luận:.32
Chương 2: CƠSỞLÝ THUYẾT.35
2.1 Giới thiệu vềMRD (Machine Readable Dictionary).35
2.1.1 Sơlược lịch sửphát triển MRD trên thếgiới:.35
2.1.2 Vai trò và cấu trúc của MRD:.39
2.1.3 Khai thác tài nguyên từ điển:.41
2.1.4 Xây dựng từ điển tự động:.42
2.1.5 Cấu trúc vĩmô và vi mô của từ điển MRD:.43
2.1.6 Một sốtừ điển MRD:.43
2.2 Các phương pháp tách từ:.51
2.2.1 Mô hình WFST:.51
2.2.2 Mô hình MMSEG:.57
2.3 Các phương pháp khửnhập nhằng:.64
2.3.1 Giới thiệu:.64
2.3.2 Khửnhập nhằng:.65
2.4 Kết luận:.70
Chương 3: PHÂN TÍCH và THIẾT KẾ.72
3.1 Tổng quan hệthống:.72
3.1.1 Phát biểu bài toán:.72
3.1.2 Mô hình hệthống:.72
3.1.3 Phát sinh quản lý:.73
3.2 Phân tích – thiết kếhệthống:.76
3.2.1 Mô hình Usecase:.76
3.2.2 Đặc tảusecase:.77
3.2.3 Sơ đồtuần tự:.78
3.2.4 Thiết kếlớp:.81
3.2.5 Thiết kếgiao diện:.94
133 trang |
Chia sẻ: huong.duong | Lượt xem: 1283 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh - Hoa, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
g của từ (word form), ví dụ: “program”, “book”,…
• Mã hình thái của từ (word morphology): từ nguyên gốc, dạng bất quy tắc,
như có gấp đôi phụ âm hay không, hay kết hợp với phụ tố (affix) nào…
• Mã loại của từ (word type): từ đơn, từ ghép; thành ngữ, viết tắt, …
Mã biến thể của từ (word variants): các biến thể khác của từ (nếu có): “programme”,
“colour”, “centre”, ...
2.1.6.1.2.2 Thông tin về ngữ pháp:
Bao gồm các thông tin về:
• Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,…
• Tiểu từ loại (Subcategory): như danh từ thuộc loại con nào (danh từ đếm
được, không đếm được,…), động từ loại con nào (tha động từ, tự động
từ,…),…
• Mã biến cách (inflection): thì (tense):quá khứ/hiện tại/tương lai; thể
(voice): bị động/chủ động; giống (gender): đực/cái/trung; số (number):
ít/nhiều,…
• Đặc tính cú pháp (syntactic features): từ này dùng trong cấu trúc nào,
mẫu câu (verb pattern, noun pattern,…) nào.
• Ngữ đi kèm (collocation/phrase/idiom): từ này hay đi kèm với những từ
nào, dùng trong ngữ (thành ngữ, tục ngữ) nào.
Riêng trong việc gán nhãn từ pháp, cả 3 thông tin: từ loại, tiểu từ loại và mã biến cách
nói trên sẽ được tích hợp vào chung nhãn từ pháp của PTB (Pann Tree Bank).
2.1.6.1.2.3 Thông tin về ngữ nghĩa:
Bao gồm các thông tin về:
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
45
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
• Nghĩa tiếng Việt (meaning) của từ. Trong phần này, các từ tiếng Việt đều
được phân định ranh giới từ. Ví dụ: từ “relationship” sẽ có phần nghĩa tiếng
Việt là: “mối/N quan_hệ/N”; “high-speed printer”: “máy_in/N tốc_độ/N
cao/J”;…
• Đặc điểm tiếng Việt: khi dịch ra tiếng Việt, cần hiệu chỉnh gì về nghĩa
(thêm, bớt các tiểu từ, loại từ, định từ,…), về vị trí.
• Nhãn ngữ nghĩa của từ (semantic tag): từ thuộc ý niệm nào, như: HUM,
ANM, PHO,… các ý niệm này chính là các nhãn ngữ nghĩa của từ.
• Vai trong ngữ pháp cách (case role): Agent (Human), Instrument
(Object),…
• Thông tin về nhóm đồng nghĩa (synonym)/phản nghĩa (antonym).
2.1.6.1.2.4 Thông tin về ngữ dụng:
Bao gồm các thông tin về:
• Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực
nào, ví dụ: Tin học, toán học, y học,...
• Tần số xuất hiện (frequency): từ này có thường được dùng hay không.
Tần suất xuất hiện của từ được đo bằng công thức
M
mf 10log−= với m là số
lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3,
có nghĩa là từ này xuất hiện với tần số 1/1000.
• Mã về tình thái (modality): dùng trong cảnh huống nào (trọng, thân,
tục,…).
2.1.6.1.3 Ví dụ một số mục từ trong từ điển tiếng Anh EDIC:
Đến nay, trong EDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết
nhất. Dưới đây là ví dụ của một số mục từ (entry) của EDic:
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
46
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Word Lemma Mor POS grm SEM Meaning Fre Field
on-line On_line C J STA trực_tuyến/J 2.021 cpt
Display Display W Vt Vcom hiển_thị/V 2.456 cpt
Display Display W Ns ART màn/N
hiển_thị/V
2.126 cpt
Children Child W Ns Pl HUM trẻ_em/N 2.673
Bank Bank W Ns NAT bờ/N sông/N 2.842
Bảng 2.1. Một số mục từ của EDic
Việc tích hợp các thông tin nói trên vào trong từ điển được thực hiện một cách bán tự
động bằng cách dùng mô hình thống kê của ngôn ngữ học – máy tính để thống kê tự
động trên những nguồn ngữ liệu lớn như: từ điển Anh-Việt, Brown, SUSANNE,
SEMCOR,… nhằm rút trích thông tin, sau đó các thông tin này sẽ được hiệu chỉnh bởi
người trước khi tích hợp vào từ điển.
2.1.6.2 Từ điển tiếng Việt VDIC:
2.1.6.2.1 Cấu trúc vĩ mô từ điển tiếng Việt VDIC:
Về cấu trúc vĩ mô của từ điển tiếng Việt VDic, bên cạnh các tiêu chí về tính nhất quán,
hướng đến văn phong Khoa học-Kỹ thuật, tác giả vẫn tuân theo các tiêu chí truyền
thống về chọn mục từ trong từ điển tiếng Việt phổ thông do GS.Hoàng Phê chủ biên
[10]. Từ điển điện tử tiếng Việt VDic này bao gồm khoảng 50.000 mục từ được lựa
chọn theo các tiêu chí cụ thể như sau[11]:
1. Từ điển bao gồm các từ/ngữ được sử dụng phổ biến trong các sách, báo,
tài liệu khoa học, kỹ thuật, nhất là trong tin học, không chứa các từ cổ. Từ điển
cũng chứa các ngữ cố định, từ láy (nhưng không chứa dạng láy).
2. Những danh từ chỉ loại (classifier, loại từ) sẽ không được tích hợp vào
trong mục từ. Ví dụ: trong từ điển sẽ chỉ có mục từ “thư”, “sách”, “bò”,… chứ
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
47
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
không có chứa bức thư/lá thư/cánh thư, quyển sách/cuốn sách, con bò,…Đối với
các mục từ này, thông tin về các loại từ có thể có của nó được ghi thêm vào trong
cấu trúc vi mô của nó. Xin xem danh sách loại từ ở phụ lục 9.1.2.
3. Những danh từ chỉ loài (categories) hay chủng loại (subcategories) sẽ
được tích hợp vào trong mục từ của từ điển. Ví dụ: “máy” – máy tính, máy in,
máy quét, máy vẽ, máy phát, máy đọc mã vạch, máy quay dĩa,…; “bộ” – bộ đếm,
bộ xử lý, bộ điều giải, bộ thu, bộ phát, … Riêng đối với những danh từ chỉ loài có
tính tổng quát và tính phổ biến cao mà trong thực tế có thể vắng mặt khi sử dụng,
tác giả sẽ ghi chú đặc điểm này vào trong cấu trúc vi mô của nó. Ví dụ: “bệnh”
trong bệnh lao, bệnh ho gà, bệnh uốn ván,… sẽ có đặc điểm này. Để xác định
được đầy đủ và chính xác các danh từ chỉ loài và danh từ chỉ chủng loại, tác giả
phải dựa trên cây phân loài có tính tổng quát của mạng WordNet [12].
4. Chứa những mục từ được sản sinh theo phương thức tựa phụ tố, như: -
hoá, -viên, -học, bất-, liên-, phó - , siêu-,… trong điện toán hoá, lập trình viên, vật
lý học, phó giám đốc, siêu sao,… được hình thành từ việc đối chiếu các phụ tố
dẫn xuất trong tiếng Anh tương ứng với hình vị tựa phụ tố có gốc Hán-Việt trong
tiếng Việt. Ví dụ: các phụ tố trên sẽ tương ứng với các phụ tố –ize, -or/-ian/-er/-
ist/…, -logy, in-, inter-, vice-, super-/hyper-/meta-,… trong tiếng Anh. Danh sách
các phụ tố dẫn xuất trong phụ lục 9.1.1.
5. Chỉ riêng với các đơn vị còn gây tranh cãi về tư cách từ, tác giả mới sử
dụng thêm thông tin từ vựng hoá của từ tiếng Anh tương ứng để chọn. Ví dụ:
đường thẳng (line), nhà tranh (cottage) là từ, còn nhà gạch (brick house) không là
từ. Còn các trường hợp khác (như: “ox” - “bò đực”), tác giả phải áp dụng các tiêu
chí ngôn ngữ học, chứ không thể xem tương đương.
6. Các mục từ trong từ điển được xếp tự động theo: mẫu tự tiếng Việt, dấu
thanh, và sau cùng mới xét đến mẫu tự kế (thứ tự mẫu tự và dấu thanh như cũ).
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
48
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Ví dụ: “…ba bai bang bao bay bà bài bàn bành bào bày bả bải bản bảng…” (đây
là cách sắp xếp mà các từ điển điện tử hay sử dụng).
7. Để xác định tần suất sử dụng của từ, tác giả đã xây dựng từ điển tần số
tiếng Việt tự động bằng cách thống kê bằng máy tính trên một ngữ liệu (corpus)
tiếng Việt 30 triệu từ thuộc nhiều chủng loại văn bản khác nhau. Tác giả dựa vào
tần suất này để chọn lựa những mục từ thông dụng nhất, tránh những từ ít dùng.
8. Để giải quyết vấn đề thiếu từ thông dụng: đối với tiếng Anh, người ta dễ
dàng nhận diện được từ thiếu bằng chương trình kiểm lỗi chính tả (spelling-
checker). Tuy nhiên đối với tiếng Việt thì đây là một bài toán khó và tác giả đã
giải quyết được phần lớn các trường hợp thiếu này thông qua các mô hình xử lý
tách từ và liên kết từ Anh-Việt.
2.1.6.2.2 Cấu trúc vi mô từ điển tiếng Việt VDIC:
Cấu trúc vi mô của VDic hoàn toàn khác với cấu trúc vi mô của từ điển tiếng Việt
truyền thống (vì từ điển truyền thống là dùng cho người, còn VDic là từ điển điện tử
dùng cho máy). Cấu trúc vi mô (microstruture) của từ điển MRD tiếng Việt bao gồm
những thông tin có cấu trúc chứa trong mỗi mục từ nhằm điều khiển việc xử lý ngôn
ngữ tự động của máy. Về chuẩn chính tả tiếng Việt, tác giả vẫn tuân theo chuẩn chính
tả như trong từ điển Hoàng Phê. Về mã tiếng Việt, tác giả sử dụng mã Unicode. Tuy
nhiên, tác giả vẫn đáp ứng việc tìm kiếm từ điển với các biến thể chính tả khác bằng
cách mã hoá dấu thanh khi lưu trữ và có bộ so sánh mờ (fuzzy) khi tìm kiếm.
2.1.6.2.2.1 Thông tin về hình thái:
Dạng của từ (word form), ví dụ: “sách”, “thắng_lợi”, “chị”,…
• Mã loại của từ (word type): từ đơn, từ ghép (đẳng lập, chính phụ); từ láy,
thành ngữ, tục ngữ, từ viết tắt, từ gốc Hán, …
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
49
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Mã đặc tính hình thái: như thường kết hợp được với các yếu tố nào: từ chỉ loại, chỉ
hướng,…Ví dụ: “sách” sẽ đi với danh từ chỉ loại “quyển”, “cuốn”.
2.1.6.2.2.2 Thông tin về ngữ pháp:
Từ loại (Parts-of-speech) của từ, như: danh từ, động từ, tính từ,…
• Tiểu từ loại (Subcategory): như tiểu loại danh từ nào (danh từ đếm được,
không đếm được,…), tiểu loại động từ nào (ngoại động từ, nội động
từ,…),…
• Đặc tính cú pháp (syntactic feature): về thì (tense): quá khứ, hiện tại,
tương lai; thể (voice): bị động, chủ động; giống (gender); số (number),…
• Đặc tính cấu trúc (structure/pattern): dùng trong cấu trúc/mẫu câu nào.
Ngữ đi kèm (collocation/phrase): động từ “nhắm” thường đi với “mắt”.
2.1.6.2.2.3 Thông tin về ngữ nghĩa:
Nghĩa (meaning) của từ bằng tiếng Anh có kèm theo từ loại. Ví dụ: “book/NN”,
“win/VB”, “elder/JJ sister/NN”,… Chúng ta sử dụng trường này để liên kết với từ
tiếng Anh tương ứng trong các ngữ liệu có sẵn.
• Mã ngữ nghĩa của từ (semantic code): như HUM, ANM, PHO,… các
nhãn ngữ nghĩa này cũng chính là các nhãn ngữ nghĩa dùng trong từ điển
EDic.
2.1.6.2.2.4 Thông tin về ngữ dụng:
• Lĩnh vực sử dụng (field): từ này thường được dùng trong những lĩnh vực
nào, ví dụ: Tin học, toán học, y học,...
• Tần số xuất hiện (frequency): từ này có thường được dùng hay không.
Tần suất xuất hiện của từ được đo bằng công thức N
mf 10log−=
với m là số
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
50
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
lần xuất hiện của từ và N là chiều dài văn bản thực hiện phép đo. Ví dụ: f=3,
có nghĩa là từ này xuất hiện với tần số 1/1000.
Mã về tình thái (modality): từ này dùng trong cảnh huống nào: trịnh trọng, thân mật,
thông tục,….
2.1.6.2.3 Ví dụ một số mục từ trong từ điển VDIC:
Đến nay, trong VDic đã tích hợp được hầu hết các thông tin quan trọng và cần thiết
nhất. Dưới đây là ví dụ của một số mục từ (entry) của VDic:
Từ Hình
thái
từ loại ngữ
pháp
ngữ
nghĩa
nghĩa t.Anh tần số lĩnh
vực
Máy_tính C Ns Cnt ART computer/N 2.221 cpt
Hiển_thị C Vt Vcom Display/V 1.956 cpt
Đường W Ns Cnt LIN line/N 2.087
Đường W Nm uncnt CHM sugar/N 1.987
Bảng 2.2. Một số mục từ của VDic
2.2 Các phương pháp tách từ:
2.2.1 Mô hình WFST:
2.2.1.1 Giới thiệu:
Mô hình WFST của Richard W. Sproat tỏ ra khá hiệu quả (chính xác trên 95%) khi áp
dụng cho tiếng Hoa. Mô hình này cho ra kết quả phân đoạn từ với độ tin cậy (xác suất)
kèm theo. Vì vậy, khi hệ cho ra nhiều ứng viên có độ tin cậy xấp xỉ như nhau, thì việc
lựa chọn lời giải tối ưu gặp khó khăn. Để khắc phục khuyết điểm này trong công trình
[13] các tác giả đã kết hợp thêm tầng thứ hai là mạng neural để khử nhập nhằng các
trường hợp tầng thứ nhất WFST cho ra nhiều ứng viên có kết quả ngang nhau.
2.2.1.2 Mô hình tách từ bằng WFST và mạng Neural:
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
51
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Trong mô hình này, tầng tiền xử lý có nhiệm vụ xử lý định dạng văn bản: như tiêu đề,
đoạn, câu; chuẩn hoá về chính tả tiếng Việt: cách bỏ dấu, cách viết các ký tự y, i,…
trong tiếng Việt (ví dụ: vật lý = vật lí, thời kỳ = thời kì, …)
Sau đó câu được chuyển sang tầng WFST. Trong tầng này tác giả xử lý thêm các vấn
đề liên quan đến đặc thù của tiếng Việt, như: từ láy, tên riêng, … Cuối cùng, nếu còn
nhập nhằng câu sẽ được chuyển sang tầng khử nhập nhằng bằng mạng Neural (Hình
2.1)
Thông tin ngữ cảnh Bắt đầu
2.2.1.2.1 Tầng WFST:
2.2.1.2.1.1 Xây dựng từ điển trọng số:
16 16 16 16
Giá trị xuất (0<x<1)
1( )
1
ii h
T
f h
e
−= +
Tầng nhập
Tầng ẩn
Tầng xuất
Tiền xử lý
Tầng WFST
Hình 2.1: Sơ đồ mô hình WFST_NN
Kết thúc
t<To
Mạng Neural
Yes
No
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
52
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Trong mô hình WFST, thì việc phân đoạn từ có thể được xem như là một sự chuyển
dịch trạng thái có xác xuất (Stochastic Transduction). Chúng ta miêu tả từ điển D là
một đồ thị biến đổi trạng thái hữu hạn có trọng số. Giả sử:
H: là tập các từ chính tả tiếng Việt (hay còn gọi là “tiếng”)
P: là từ loại của từ (POS: Part-Of-Speech)
Mỗi cung của D có thể là:
• Từ một phần tử của H tới một phần tử của H, hoặc
• Từ ε (ký hiệu kết thúc từ) tới một phần tử của P.
Nói cách khác, mỗi từ được miêu tả trong từ điển là một dãy tuần tự các cung: bắt đầu
bằng một trạng thái ban đầu của D, được gán nhãn bằng một phần tử S thuộc H, và kết
thúc bởi một cung được gán nhãn là một phần từ của ε x P. Nhãn này biểu thị một chi
phí ước lượng (estimated cost) (lấy log của xác suất). Chúng ta biểu diễn câu cần tách
là một máy nhận (acceptor) trạng thái hữu hạn không có trọng số (FSA – Finite State
Acceptor) I trên H. Giả sử đã tồn tại một hàm Id mà đầu vào là FSA A, và đầu ra là
một chuyển dịch (transducer) mà các phần tử trong đó chỉ bao gồm các phần tử thuộc
A (gọi là D*). Mỗi từ được kết thúc bởi một cung biểu diễn sự chuyển đổi giữa ε và từ
loại của chúng. Xác suất chuyển đổi được tính bằng cách lấy log của xác suất trong
một tập mẫu lớn theo công thức:
⎟⎠
⎞⎜⎝
⎛−=
N
ft logcos
Trong đó, f: tần số của từ
N: kích thước tập mẫu
Xác suất này được lưu vào trong từ điển. Đối với các trường hợp từ mới (unknown)
chưa gặp, tác giả áp dụng xác suất có điều kiện Good-Turning để tính toán trọng số
cho các từ mới này.
Giả sử ta có XYZ, trong đó XY là từ cơ bản, Z là hậu tố. Ta cần tính: cost(XYZ)
Gọi p(Z): xác suất trong trường hợp này của Z (trường hợp Z đứng kề XY)
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
53
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
))((cos)(cos)(cos
)(*)())((
ZunseentXYtXYZt
Zp
Z
ZunseenpZunseenp
+=⇒
⎟⎠
⎞⎜⎝
⎛=⇒
với cost được tính theo công thức trên.
Do đó trong từ điển, đối với các từ tiền tố và hậu tố (ta tạm gọi là Z) tác giả lưu thêm
các xác suất của Z khi Z đứng liền sau một từ loại nhất định.
2.2.1.2.1.2 Xây dựng dãy các khả năng phân đoạn từ:
Vấn đề ở đây là giảm sự bùng nổ tổ hợp khi sinh ra các dãy các từ có thể từ một dãy
các tiếng có trong câu. Thật vậy, giả sử một câu gồm n âm tiết, mà trong tiếng Việt thì
một từ có tối đa 4 âm tiết tức là ta sẽ có tối đa 2n-1 cách phân đoạn từ khác nhau. Một
câu tiếng Việt trung bình có 24 âm tiết thì lúc đó ta phải giải quyết 8.000.000 trường
hợp phân đoạn từ có thể trong một câu.
Ở đây, một phương pháp mới được đề xuất là kết hợp sử dụng từ điển để hạn chế sinh
ra các bùng nổ tổ hợp này. Khi phát hiện thấy một cách phân đoạn từ nào đó không
phù hợp (không có trong từ điển, không phải là từ láy, không phải là danh từ riêng…)
thì loại bỏ các nhánh xuất phát từ cách phân đoạn từ đó. Đối với phương pháp này sẽ
thu được một danh sách gồm chỉ vài trăm trường hợp phân đoạn từ có thể so với
8.000.000.
2.2.1.2.1.3 Lựa chọn khả năng phân đoạn từ tối ưu:
Sau khi có được một danh sách các cách phân đoạn từ có thể có của câu, tác giả chọn
trường hợp phân đoạn từ có tổng trọng số bé nhất như sau:
Ví dụ: input = “tốc độ truyền thông tin sẽ tăng cao”
Dictionary = “tốc độ” 8.68
= “truyền” 12.31
= “truyền thông” 12.31
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
54
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
= “thông tin” 7.24
= “tin” 7.33
= “sẽ” 6.09
= “tăng” 7.43
= “cao” 6.95
Id(D)*D* = “Tốc độ # truyền thông # tin # sẽ # tăng # cao.” 48.79(1)
= “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” 48.70(2)
BestPath = “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” 48.79(1)
(1): 8.68+12.31+7.33+6.09+7.43+6.95=48.79
(2): 8.68+12.31+7.24+6.09+7.43+6.95=48.70
2.2.1.2.2 Tầng mạng Neural:
Sau khi cho câu được phân đoạn từ qua mô hình WFST. Để xác định kết quả phân
đoạn từ trên có thực sự hợp lệ hay không, tác giả định nghĩa một ngưỡng giá trị t0 với
ý nghĩa như sau: nếu sự chênh lệch về trọng số (giữa các cách phân đoạn khác nhau
với cách phân đoạn có trọng số nhỏ nhất) lớn hơn t0 thì đó là kết quả phân đoạn từ có
trọng số nhỏ nhất đó đúng của câu và được chấp nhận. Còn nếu sự chênh lệch đó
không lớn hơn t0, thì cách phân đoạn có trọng số nhỏ nhất đó chưa được xem là kết
quả phân đoạn đúng của câu.
Lúc này, ta sẽ đưa những cách phân đoạn từ của câu này qua mô hình mạng Neural để
xử lý tiếp.
Ví dụ: Sau khi qua phần xử lý WFST ta chỉ được ba cách phân đoạn có trọng số nhỏ
nhất nhưng sự chênh lệch trọng số không lớn hơn t0:
1. học sinh/N học/V sinh học/N
2. học sinh/N học sinh/N hoc/V
3. hoc/V sinh học/N sinh học/N
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
55
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Thực tế trong tiếng Việt, có những dãy các loại từ không thể tuần tự đứng cạnh nhau
theo luật ngữ pháp tiếng Việt. Nếu ta muốn lọc lại những trường hợp mập mờ trên
bằng luật cú pháp tiếng Việt, ta lại đụng đến vấn đề vô cùng phức tạp là phân tích cú
pháp tiếng Việt.
Chúng ta xét lại ví dụ ở phần trên, mô hình mạng neural được đề xuất dùng để ước
lượng giá 3 dãy từ loại: NNV, NVN, VNN. Mô hình này được học bằng chính các câu
mà cách phân đoạn từ vẫn còn nhập nhằng sau khi qua mô hình thứ nhất. Khi đó tác
giả phân đoạn từ bằng tay cho các câu nhập nhằng này và sau đó đưa vào máy học. Để
thực hiện việc kiểm tra sự hợp lệ của một dãy các từ loại trong một câu, tác giả dử
dụng một “ngữ cảnh k” cho mỗi từ có trong câu, ta sử dụng một cửa sổ trượt có kích
thước là k từ và mảng mô tả của nó trượt trên câu cần xét bắt đầu từ từ đầu tiên đến từ
cuối cùng trong câu. Thực tế mô hình mạng gồm 6 nút nhập, 10 nút ẩn và một nút
xuất.
Tầng nhập của mạng được kết nối hoàn toàn với một tầng ẩn gồm 10 nút với một hàm
truyền. Những nút ẩn này lại được kết nối hoàn toàn với một tầng xuất chỉ gồm 1 nút.
Nút xuất là một giá trị thực nằm giữa 0..1. Biểu thị cho khả năng hợp lệ của một dãy
các từ loại đứng liền nhau trong một cửa sổ trượt. Khi cửa sổ trượt trượt từ đầu câu
đến cuối câu, cộng dồn các kết quả lại với nhau và gán giá trị này vào thành trọng số
của câu. Hàm truyền được chọn là hàm sigmoid:
T
hi i
e
hf
−+
=
1
1)(
đây là một hàm thông dụng trong các mạng neural. Câu được chọn tức là câu có
trọng số lớn nhất.
2.2.1.3 Đánh giá mô hình WFST:
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
56
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Mô hình WFST nhận diện từ có thể chính xác đến 97%, tỉ lệ này tuỳ thuộc vào loại
văn bản. Vì thế sự phong phú mục từ của từ điển vẫn là điều quyết định kết quả của hệ
thống.
2.2.2 Mô hình MMSEG:
MMSEG [14] là hệ thống nhận diện từ cho văn bản tiếng quan thoại dựa trên hai biến
thể của thuật toán Maximum Matching.
Mô hình MMSEG là một mô hình tách từ hiệu quả nhất hiện nay. Sau đây là cơ sở lý
thuyết của mô hình MMSEG (thực hiện trên tiếng Hoa) mà nhóm VCL đã sử dụng để
áp dụng cho tiếng Việt. Do tiếng Việt cùng một loại hình ngôn ngữ với tiếng Hoa (đơn
lập) nên hiệu quả của mô hình này khi áp dụng cho tiếng Việt cũng không chênh lệch
lắm so với tiếng Hoa.
Một vấn đề trong phân tích bằng máy của dữ liệu tiếng Hoa là không có ranh giới từ
trong các văn bản in. Vì từ là đơn vị ngôn ngữ cơ bản cần phải xác định từ trong văn
bản tiếng Hoa sao cho việc phân tích trở nên tốt hơn. Mục đích của nghiên cứu này là
phát triển một hệ thống xác định từ vựng dựa trên hai biến thể thuật toán Maximum
Matching. Hệ thống bao gồm một từ điển, hai thuật toán matching và bốn luật khử
nhập nhằng. Kết quả là hệ thống nhận diện thành công 98.41% từ trong một mẫu văn
bản gồm 1.013 từ.
2.2.2.1 Những khó khăn trong xử lý nhận diện từ:
Vì từ là một đơn vị ngôn ngữ cơ bản, cần phải nhận diện từ trong văn bản tiếng Hoa để
thực hiện việc phân tích tự động và xử lý văng bản tiếng Hoa. Tuy nhiên, có những
khó khăn đặt ra trong việc xử lý nhận diện từ.
? Một là, hầu hết các tự bản thân nó có thể là từ một tự. Hơn nữa, chúng có thể
liên kết với tự khác hình thành từ nhiều tự. Điều này dẫn đến nhiều nhập nhằng
trong tách từ.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
57
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
? Hai là, việc ghép từ là thiết bị tạo các dạng từ có thể có trong tiếng Hoa hiện
đại. Khó mà biết được một từ ghép tần số thấp là từ hay ngữ, và từ điển không
thể thu thập hết tất cả các từ ghép tần số thấp.
? Ba là, những tự cùng nhóm cũng được dùng để lập danh từ riêng. Việc xác định
danh từ riêng cũng sẽ là một vấn đề. Cuối cùng, một vài cấu trúc hình vị như từ
láy và cấu trúc “A-not-A” cũng được quan tâm.
Hầu hết những phương pháp nhận diện từ đều sử dụng một trong những thuật toán
matching. Chiến lược cơ bản là kết chuỗi các tự nhập vào với một tập lớn các mục từ
trong từ điển có sẵn để tìm tất cả (hoặc một số) những phân tích có thể có. Bởi vì chỉ
có một phân tích là đúng nên phải khử nhập nhằng.
2.2.2.2 Thuật toán Maximum Matching và những biến thể của nó:
Những những nghiên cứu khác biệt nhau về những thuật toán khử nhập nhằng. Một
các đơn giản nhưng lại hiệu quả đó là thuật toán Maximum Matching. Maximum
Matching có nhiều dạng.
2.2.2.2.1 Thuật toán Maximum Matching đơn giản:
Dạng cơ bản để giải quyết nhập nhằng của từ.
Ví dụ:
Giả sử có một dãy các tự: C1, C2, …, Cn.
Duyệt từ đầu dãy, chúng ta xác định đâu là từ.
Đầu tiên, chúng ta tìm trong từ điển xem _C1_ có phải là từ một tự không, tiếp
tục cho _C1C2_ và như thế cho đến khi có chuỗi liên kết dài hơn từ dài nhất có trong
từ điển. Từ hợp lý nhất sẽ là liên kết dài nhất có trong từ điển. Chúng ta chọn từ này,
sau đó tiếp tục qui trình này cho đến khi xác định được từ cuối cùng trong dãy.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
58
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
2.2.2.2.2 Thuật toán Maximum Matching phức tạp:
Chen và Liu đã đưa ra một biến thể khác của Maximum Matching phức tạp hơn dạng
cơ bản. Luật kết lớn nhất này phát biểu rằng: phân tích hợp lý nhất là bộ ba từ với
chiều dài lớn nhất. Từ đầu dãy, chúng ta xác định đâu là từ. Nếu có những phân tích
nhập nhằng (ví dụ: _C1_ là từ nhưng _C1C2_ cũng là từ, …) thì chúng ta tìm tiếp hai
từ nữa để tìm tất cả các bộ ba từ có thể có với từ đầu tiên là _C1_ hoặc _C1C2_.
Ví dụ, đây là những bộ ba từ:
1. _C1_ _C2_ _C3C4_
2. _C1C2_ _C3C4_ _C5_
3. _C1C2_ _C3C4_ _C5C6_
Bộ ba dài nhất là bộ thứ ba. Từ đầu tiên, _C1C2_ của bộ thứ ba này sẽ là từ đúng.
Chúng ta lấy từ này và tiếp tục từ tự C3 cho đến khi xác định được từ cuối cùng. Luật
này đạt độ chính xác đến 99.69% và 93.21% nhập nhằng được giải quyết.
2.2.2.2.3 Những thuật toán khử nhập nhằng khác:
Bên cạnh Maximum Matching, còn có nhiều thuật toán khử nhập nhằng khác. Nhiều
thông tin khác nhau được sử dụng trong xử lý nhập nhằng. Ví dụ, xác suất và thống kê,
ngữ pháp, và hình thái. Hầu hết các phương pháp đều cần một từ điển được cấu trúc tốt
có những thông tin như tần số tự và từ, các lớp ngữ pháp của từ, và một tập các luật
ngữ pháp và hình thái.
2.2.2.3 Tổng quan về hệ thống MMSEG:
Hệ thống MMSEG thực thi cả hai dạng đơn giản và phức tạp của thuật toán Maximum
Matching đã nêu trên. Hơn nữa, để khử nhập nhằng không chỉ sử dụng thuật toán
Maximum Matching phức tạp mà là phải dùng thêm ba luật khử nhập nhằng nữa. Một
trong ba luật này đươc đưa ra bởi Chen và Liu (1992) và hai luật còn lại là mới có.
GVHD: TS. Hồ Bảo Quốc Nguyễn Thị Hồng Nhung - 0112235
TS. Đinh Điền Nguyễn Thị Tuyết Mai - 0112229
59
Hệ thống tìm kiếm
Các file đính kèm theo tài liệu này:
- CNTT1009.pdf