MỞ ĐẦU. 1
1. ĐẶT VẤN ĐỀ. 1
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU . 5
2.1. Mục tiêu. 5
2.2. Đối tượng. 5
2.3. Phạm vi . 5
3. ĐÓNG GÓP CỦA LUẬN ÁN . 6
4. BỐ CỤC CỦA LUẬN ÁN. 8
CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU . 9
1.1. TRUY VẤN THÔNG TIN. 9
1.1.1. Khái niệm. 9
1.1.2. Định nghĩa hình thức. 10
1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin. 10
1.1.4. Các mô hình truy vấn thông tin truyền thống. 12
1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản . 16
1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN . 19
1.2.1. Khái niệm. 19
1.2.2. Các độ đo . 20
1.2.3. Môi trường thực nghiệm. 22
1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ. 24
1.3.1. Khái niệm. 24
1.3.2. Các hướng tiếp cận. 24
1.3.3. Các kỹ thuật dịch tự động. 25
1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI . 25- iii -
1.4.1. Xếp hạng và xếp hạng lại . 25
1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn . 26
1.4.3. Học xếp hạng . 28
1.4.4. Khai thác thông tin người sử dụng. 30
1.5. XẾP HẠNG TRANG WEB . 31
1.5.1. Đặc thù của tìm kiếm web . 31
1.5.2. Các phương pháp xếp hạng trang Web . 32
1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ . 36
1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU. 37
1.6.1. Hạn chế . 37
1.6.2. Đề xuất nghiên cứu. 37
1.7. TIỂU KẾT CHƯƠNG. 41
CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ. 42
2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG. 42
2.1.1. Sử dụng máy dịch. 42
2.1.2. Sử dụng kho ngữ liệu . 43
2.1.3. Sử dụng từ điển . 44
2.1.4. Sử dụng ngôn ngữ trung gian. 44
2.1.5. Sử dụng không gian ngữ nghĩa . 45
2.1.6. Đánh giá chung . 45
2.2. KHỬ NHẬP NHẰNG. 46
2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY. 47
2.3.1. Xây dựng dữ liệu từ điển . 48
2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ . 49
2.3.3. Các biến thể của công thức MI . 49
2.3.4. Thuật toán chọn bản dịch tốt nhất. 51- iv -
2.3.5. Xây dựng câu truy vấn. 58
2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI. 62
2.4.1. Môi trường thực nghiệm. 62
2.4.2. Kết quả thực nghiệm . 64
2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC . 65
2.5.1. Môi trường thực nghiệm. 65
2.5.2. Cấu hình thực nghiệm . 65
2.5.3. Kết quả thực nghiệm . 66
2.6. TIỂU KẾT CHƯƠNG. 67
CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN . 69
3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN . 69
3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn . 69
3.1.2. Mở rộng câu truy vấn . 70
3.1.3. Thu hẹp câu truy vấn . 71
3.1.4. Xử lý thuật ngữ không có trong từ điển . 72
3.2. PHÂN ĐOẠN CÂU TRUY VẤN. 73
3.2.1. Sử dụng công cụ vnTagger . 73
3.2.2. Thuật toán WLQS . 73
3.2.3. Kết hợp WLQS và công cụ vnTagger. 75
3.3. ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH . 78
3.3.1. Phản hồi ẩn. 79
3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ . 81
3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích. 82
3.4. THỰC NGHIỆM . 86
3.4.1. Cấu hình thực nghiệm . 86
3.4.2. Kết quả. 87- v -
3.5. TIỂU KẾT CHƯƠNG. 89
CHƯƠNG 4: XẾP HẠNG LẠI . 91
4.1. HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN. 91
4.1.1. Mô hình ứng dụng lập trình di truyền . 93
4.1.2. Xây dựng công cụ và kết quả thực nghiệm . 94
4.1.3. Đánh giá. 96
4.2. ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN. 97
4.2.1. Mô hình CL-Büttcher . 98
4.2.2. Mô hình xếp hạng CL-Rasolofo . 99
4.2.3. Mô hình xếp hạng CL-HighDensity. 100
4.2.4. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ. 101
4.3. HỌC XẾP HẠNG TRANG WEB . 103
4.3.1. Các mô hình học xếp hạng. 103
4.3.2. Môi trường thực nghiệm. 106
4.3.3. Cấu hình thực nghiệm . 109
4.3.4. Kết quả thực nghiệm . 109
4.4. TIỂU KẾT CHƯƠNG. 110
CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH . 111
5.1. THIẾT KẾ HỆ THỐNG. 111
5.1.1. Các thành phần hệ thống & sơ đồ thuật toán. 111
5.1.2. Dữ liệu từ điển . 114
5.1.3. Dữ liệu đánh chỉ mục . 114
5.2. PHƯƠNG PHÁP THỰC NGHIỆM . 115
5.3. THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN. 116
5.3.1. Cấu hình thực nghiệm . 116
5.3.2. Kết quả thực nghiệm . 117- vi -
5.3.3. Đánh giá. 119
5.4. THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN. 119
5.4.1. Cấu hình thực nghiệm . 119
5.4.2. Kết quả thực nghiệm . 120
5.4.3. Đánh giá. 121
5.5. THỰC NGHIỆM XẾP HẠNG LẠI. 121
5.5.1. Cấu hình thực nghiệm . 122
5.5.2. Kết quả thực nghiệm . 123
5.5.3. Đánh giá. 125
5.6. ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT . 125
5.7. TIỂU KẾT CHƯƠNG. 128
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN. 129
1. KẾT LUẬN . 129
1.1. Tóm tắt nội dung luận án. 129
1.2. Các kết quả đạt được . 129
2. HƯỚNG PHÁT TRIỂN. 132
TÀI LIỆU THAM KHẢO. 133
159 trang |
Chia sẻ: trungkhoi17 | Lượt xem: 478 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận án Một số phương pháp phục vụ xếp hạng các trang Web trong tìm kiếm xuyên ngữ - Lâm Tùng Giang, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ethod OR process OR instruction)
(production OR manufacture OR fabricate)
Cách định nghĩa câu truy vấn cho máy tìm kiếm Solr như thế này tương tự
phương pháp của Pirkola [118].
2.3.5.4 Gán trọng số thủ công cho các phương án dịch
Phương pháp gán trọng số thủ công ưu tiên phương án dịch được coi là tốt
nhất bằng cách gán trọng số 1 cho phương án đầu tiên trong danh sách các phương
án dịch; các phương án dịch khác được giữ trong danh sách được gán trọng số 0.5.
Với cú pháp sử dụng tại máy tìm kiếm Solr, câu truy vấn tiếng Anh lúc đó có dạng:
- 61 -
(
^1
^0.5
^0.5) (
^1
^0.5
^0.5) (2.16)
Bản dịch tiếng Anh của câu truy vấn ví dụ như sau:
(management^1 OR regulate^0.5 OR control^0.5) (method^1 OR process^0.5
OR instruction^0.5) (production^1 OR manufacture^0.5 OR fabricate^0.5)
2.3.5.5 Gán trọng số thủ công cho các từ trong câu truy vấn.
Khi thực hiện thuật toán bóc tách từ khóa, nhãn từ đã được xác định và được
dùng làm cơ sở gán trọng số trong câu truy vấn tiếng Anh. Trong luận án, nhóm các
phương án dịch của từ được gán thẻ Np (noun phrase) được gán trọng số 8. Trọng
số cho các thẻ N (noun), V (verb) lần lượt là 4 và 2. Các thẻ khác có trọng số 1. Với
máy tìm kiếm Solr, câu truy vấn có dạng:
(
)^ (
)^ (
)^ (2.17)
Ở đây,
,
,
là các phương án dịch của vi trong danh sách Li. Giá trị
wi là trọng số của từ vi trong câu truy vấn.
Với câu truy vấn tiếng Việt “quản lý quá trình sản xuất”, quá trình bóc tách
từ khóa có kết quả là 3 từ khóa và thẻ tương ứng: “quản lý”-động từ, “quá trình”-
danh từ, “sản xuất”-động từ, có các trọng số tương ứng là 2, 4, 2. Do đó, bản dịch
tiếng Anh của câu truy vấn ví dụ có dạng như sau:
(management OR regulate OR control)^2 (method OR process OR
instruction)^4 (production OR manufacture OR fabricate)^2
2.3.5.6 Kết hợp 2 phương pháp gán trọng số thủ công
Ta có thể kết hợp việc gán trọng số cho các từ trong câu truy vấn và gán
trọng số cho các phương án dịch khác nhau. Gọi
,
,
là các phương án dịch
của vi trong danh sách Li với các trọng số tương ứng là
,
,
. Giá trị wi là
trọng số của từ vi trong câu truy vấn. Các phương án dịch của từ được gán thẻ Np
được gán trọng số 8. Trọng số cho các thẻ N, V lần lượt là 4 và 2. Các thẻ khác có
trọng số 1. Khi đó, bản dịch tiếng Anh của câu truy vấn có dạng:
- 62 -
= (
)
(
)
(2.18)
Với máy tìm kiếm Solr, câu truy vấn ví dụ có dạng:
(management^1 OR regulate^0.5 OR control^0.5)^2 (method^1 OR
process^0.5 OR instruction^0.5)^4 (production^1 OR manufacture^0.5 OR
fabricate^0.5)^2.
2.3.5.7 Gán trọng số dựa trên kết quả quá trình khử nhập nhằng
Trong thuật toán Chọn bản dịch một cách tuần tự (2.3.4.3), tại bước sắp xếp
lại các phương án dịch, mỗi phương án dịch
của từ tiếng Việt vi được gán giá
điểm cohesion bằng cách sử dụng công thức (2.13), đo mức độ liên quan của
phương án dịch này với phương án dịch được coi là tốt nhất của các từ tiếng Việt
khác. Giá trị này có để được sử dụng như trọng số của phương án dịch
. Gọi
,
,
là các phương án dịch của vi trong danh sách Li với các trọng số tương
ứng là
,
,
. Khi đó, bản dịch tiếng Anh của câu truy vấn được xây dựng
dưới dạng:
= (
)
(
)
(2.19)
Với máy tìm kiếm Solr, câu truy vấn ví dụ được tạo dựng trong thực nghiệm
với giá trị sau:
((control)^0.556445681271 OR (manage)^0.268952911452 OR
(supervise)^0.174601407277) ((process)^0.60852654056 OR
(method)^0.203213625283 OR (procedure)^0.188259834156)
((production)^0.512249748308 OR (manufacture)^0.262275130029 OR
(fabrication)^0.225475121664)
2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI
2.4.1. Môi trường thực nghiệm
Để thiết lập môi trường thực nghiệm việc áp dụng công thức SMI, một bộ dữ
- 63 -
liệu đánh giá được xây dựng, chứa một danh sách các câu truy vấn và một tập hợp
tài liệu phục vụ truy vấn theo phương pháp pooling. Các kho tài liệu tiếng Việt
(5.000 tài liệu) và tiếng Anh (8.000) tài liệu được đánh chỉ mục, sử dụng các hệ
thống tìm kiếm đơn ngữ áp dụng mô hình xếp hạng LSI được xây dựng bằng ngôn
ngữ Python15, sử dụng thư viện Gensim16.
Các câu truy vấn tiếng Việt được dịch thủ công sang tiếng Anh bởi các
chuyên gia ngôn ngữ. Tương ứng với mỗi câu truy vấn tiếng Anh, 100 kết quả tìm
kiếm tương ứng mỗi mô hình xếp hạng được kết xuất và trộn thành một danh sách
chung. Từng tài liệu được đánh giá lại một cách thủ công để kiểm tra có phù hợp
hay không với câu truy vấn.
Một ứng dụng Web được xây dựng nhằm hỗ trợ người đánh giá. Với mỗi câu
truy vấn, danh sách các kết quả tìm kiếm tốt nhất được hiển thị, kèm theo các thông
tin về số hiệu, tiêu đề, trích yếu và nội dung, điểm số. Người đánh giá dùng chuột
hoặc bấm phím tại để đánh dấu đối với các tài liệu được xác định là phù hợp với câu
truy vấn. Với kích thước hạn chế của bộ dữ liệu thực nghiệm, môi trường đánh giá
này chưa thực sự hoàn thiện và cần được cải thiện, tuy nhiên nó vẫn đảm bảo sự
hữu ích trong thực nghiệm được tiến hành [82].
Các cấu hình khác nhau được đánh giá được liệt kê trong Bảng 2.1. Trong
bảng này, phương pháp nMI sử dụng kỹ thuật phân đoạn câu truy vấn thành các từ
khóa cần dịch (sẽ được trình bày trong chương 3), sau đó áp dụng thuật toán greedy
(2.3.4.1) để chọn bản dịch tốt nhất.
Bảng 2.1: Cấu hình thực nghiệm
STT Cấu hình Diễn giải
1 nMI Sử dụng thuật toán greedy
2 SMI Do tác giả đề xuất
15 (truy cập ngày 15/01/2016)
16 https://radimrehurek.com/gensim/ (truy cập ngày 15/01/2016)
- 64 -
3 Dịch Google Dùng máy dịch Googe
4 Dịch thủ công Chuyên gia dịch
Cấu hình SMI cũng áp dụng kỹ thuật phân đoạn câu truy vấn, sau đó áp dụng
thuật toán SMI (2.3.4.2) để xác định bản dịch tốt nhất với mỗi từ khóa. Hai phương
pháp cuối không áp dụng các kỹ thuật phân đoạn và khử nhập nhằng: Phương pháp
thứ ba sử dụng máy dịch Google; phương pháp thứ tư sử dụng các bản dịch thủ
công được tạo bởi các chuyên gia tiếng Anh nhằm làm cơ sở so sánh hiệu quả các
cấu hình đề xuất.
2.4.2. Kết quả thực nghiệm
Để đánh giá chất lượng của phương pháp xếp hạng, các chỉ số thông dụng
phục vụ việc đánh giá độ chính xác xếp hạng bao gồm độ chính xác mức k ký hiệu
P@k, độ chính xác trung bình AP, độ chính xác trung bình bình quân MAP [4].
Kết quả thực nghiệm tương ứng với các cấu hình khác nhau được trình bày
tại Bảng 2.2. Các chỉ số độ chính xác mức k P@k, độ chính xác trung bình bình
quân MAP được tính toán nhằm so sánh với phương pháp sử dụng dịch thủ công
(tương đương với tình huống truy vấn đơn ngữ).
Bảng 2.2: Kết quả thực nghiệm
STT Cấu hình P@1 P@5 P@10 MAP So sánh
1 nMI 0.497 0.482 0.429 0.436 74.79%
2 SMI 0.511 0.488 0.447 0.446 76.50%
3 Dịch Google 0.489 0.535 0.505 0.499 85.59%
4 Dịch thủ công 0.605 0.605 0.563 0.583 100%
Kết quả thực nghiệm cho thấy cấu hình SMI sử dụng phương pháp khử nhập
nhằng đề xuất tỷ lệ lớn hơn 75% so với truy vấn đơn ngữ và tốt hơn cấu hình nMI.
- 65 -
2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU
TRÚC
2.5.1. Môi trường thực nghiệm
Bộ công cụ Solr phiên bản 4.3.1017 được sử dụng để xây dựng các máy tìm
kiếm đơn ngữ cho tiếng Việt và tiếng Anh. Đây là một công cụ mã nguồn mở viết
bằng ngôn ngữ Java, được sử dụng khá rộng rãi, với hàm xếp hạng được phát triển
dựa trên mô hình TF-IDF. Điểm phù hợp của bộ công cụ đối với luận án là nó tiếp
nhận và xử lý các câu truy vấn có cấu trúc.
Dữ liệu được đánh chỉ mục được thu thập từ 2 nguồn. Đối với tiếng Việt,
200.000 tài liệu của website được sử dụng. Đối với tiếng Anh,
tiêu đề của một số bài báo tiếng Anh được sử dụng như câu truy vấn gửi tới máy
tìm kiếm Google. Một chương trình được viết để nhận các địa chỉ trong danh sách
kết quả và tải các trang web tương ứng. Kết quả, 24.000 trang web tiếng Anh được
tải về. Nội dung của các trang web bao gồm tiêu đề và toàn văn được bóc tách sử
dụng công cụ Boilerpipe18. Mỗi tài liệu web trong kho tài liệu được bóc tách các
thành phần tiêu đề (tương ứng thẻ ) và nội dung (tương ứng thẻ )
của mỗi tài liệu. Các nội dung này được định dạng để cập nhật vào chỉ mục máy tìm
kiếm.
2.5.2. Cấu hình thực nghiệm
Việc thực nghiệm hiệu quả của sự kết hợp thuật toán bóc tách từ khóa, khử
nhập nhằng và xây dựng câu truy vấn có cấu trúc được triển khai thông qua thực
nghiệm với 25 câu truy vấn tiếng Việt có độ dài trung bình 9,52 từ. Các cấu hình
sau được kiểm tra và so sánh:
top_one_ch: dùng công thức MIir trình bày tại (2.6) và cohesion score
như công thức (2.8) , chọn một bản dịch tốt nhất cho mỗi từ tiếng Việt.
17 (truy cập ngày 16/01/2016)
18 https://code.google.com/p/boilerpipe/downloads/list (truy cập ngày 16/01/2016)
- 66 -
top_three_ch: dùng công thức MIcooc trình bày tại (2.4) và cohesion score
như công thức (2.8) xây dựng câu truy vấn có cấu trúc bằng cách kết hợp 3 bản
dịch tốt nhất cho mỗi từ tiếng Việt.
top_one_sq: sử dụng công thức MIcooc, chọn một bản dịch tốt nhất bằng
thuật toán SQ được trình bày tại 2.3.4.3.
top_three_sq: sử dụng công thức MIcooc, chọn một bản dịch tốt nhất bằng
thuật toán SQ, sau đó chọn thêm 2 bản dịch gần giống bản dịch tốt nhất (đo bằng
MIcooc).
top_three_all: Tương tự như top_three_sq, nhưng sử dụng một công thức
MI đặc biệt:
( , ) = × ( , ) + (1 − ) × ( , ) (2.20)
α được gán giá trị 0.02 trong thực nghiệm.
Google: sử dụng công cụ Google Translate để dịch câu truy vấn.
Baseline: dịch thủ công câu truy vấn tiếng Việt.
2.5.3. Kết quả thực nghiệm
Bảng 2.3: So sánh P@k và MAP các cấu hình
Cấu hình P@1 P@5 P@10 MAP Tỷ lệ
1 top_one_ch 0.64 0.48 0.444 0.275 71.24%
2 top_one_sq 0.52 0.472 0.46 0.291 75.39%
3 top_three_ch 0.68 0.528 0.524 0.316 81.87%
4 top_three_sq 0.64 0.552 0.532 0.323 84.55%
5 top_three_all 0.76 0.576 0.54 0.364 94.30%
6 Google 0.64 0.568 0.536 0.349 90.41%
7 Baseline 0.76 0.648 0.696 0.386 100%
Bảng 2.3 mô tả kết quả thực nghiệm trên cơ sở sử dụng các thước đo P@n và
MAP [4]. Với mỗi phương pháp, các giá trị trung bình của P@k (với k = 1, 5, 10) và
- 67 -
giá trị MAP được ghi nhận. Cột Tỷ lệ hiển thị tỷ lệ giá trị MAP của thuật toán được
đề xuất với giá trị MAP của cấu hình cơ sở Baseline, sử dụng dịch thủ công.
Tất cả các cấu hình đề xuất đều đạt trên 70% khi so sánh với phương án dịch
thủ công. Các câu truy vấn có cấu trúc được tạo bởi các phương pháp top_three_all,
top_three_ch và top_three_sq có kết quả tốt hơn hẳn so với việc chỉ chọn một bản
dịch tốt nhất ở 2 cấu hình top_one_ch and top_one_sq.
Trong một số câu truy vấn, các phương pháp dịch đề xuất chưa hoạt động
chính xác. Ví dụ, câu truy vấn "kiểm soát hoạt động trên biển" cho bản dịch
(supervise OR to oversee^0.5 OR monitor^0.5)^2 (action OR activity^0.5 OR
operation^0.5)^4 afloat. Đây là bản dịch tốt, nhưng có hiệu quả tìm kiếm không tốt
do từ afloat dịch từ "trên biển" không được sử dụng trong các tài liệu. Bản dịch thủ
công của câu truy vấn là monitor activities on sea cho hiệu quả tốt hơn.
Cấu hình top_three_all cho điểm MAP 0.364, bằng 94.30% so với dịch thủ
công. Kết quả này tốt hơn điểm MAP 0.349 trong cấu hình sử dụng công cụ máy
dịch Google Translate. Cấu hình top_three_sq đạt kết quả tốt hơn ở 9 câu truy vấn
khi so sánh với công cụ máy dịch Google Translate.
2.6. TIỂU KẾT CHƯƠNG
Nội dung chương 2 trình bày nghiên cứu của tác giả liên quan các kỹ thuật
dịch tự động phục vụ truy vấn xuyên ngữ.
Phần đầu tiên của chương giới thiệu các phương pháp dịch khác nhau áp
dụng trong CLIR bao gồm sử dụng máy dịch, sử dụng kho ngữ liệu song song, sử
dụng từ điển, sử dụng ngôn ngữ trung gian, sử dụng không gian ngữ nghĩa. Bên
cạnh đó, tác giả tìm hiểu một số kỹ thuật khử nhập nhằng trong phương pháp sử
dụng từ điển.
Đề xuất của tác giả trình bày trong chương là các phương án dịch câu truy
vấn bằng từ điển. Hướng tiếp cận của tác giả là sử dụng thông tin về sự liên quan
giữa các cặp từ Mutual Information nhằm cung cấp thêm thông tin về ngữ cảnh sử
dụng từ khóa, thông qua đó giúp xác định bản dịch phù hợp cho các từ khóa trong
- 68 -
câu truy vấn. Tác giả đề xuất các phương pháp khử nhập nhằng nhằm chọn các bản
dịch tốt nhất cho các từ trong câu truy vấn.
Phương pháp thứ nhất dựa trên việc định nghĩa hàm Summary Mutual
Information nhằm chọn một phương án dịch tốt nhất cho mỗi từ khóa trong câu truy
vấn [81]. Thuật toán có độ phức tạp là (3n), phù hợp với giá trị n nhỏ (n <= 7).
Phương pháp thứ hai dựa trên một thuật toán chọn bản dịch cho các từ
khóa truy vấn một cách tuần tự [83], có độ phức tạp là O(n2).
Với phương pháp sử dụng từ điển, việc sử dụng công thức SMI - do tác giả
đề xuất để xác định một bản dịch tốt nhất - cho kết quả tốt hơn phương pháp sử
dụng thuật toán Greedy thường được sử dụng, tuy nhiên vẫn không cho kết quả tốt
bằng máy dịch Google. Với việc sử dụng kết hợp nhiều phương án dịch cho mỗi từ
khóa truy vấn để xây dựng câu truy vấn có cấu trúc, phương pháp trình bày trong
chương sử dụng thuật toán SQ và công thức (2.20) cho kết quả vượt trội máy dịch
Google. Kết quả này cho thấy ưu điểm của việc tạo lập câu truy vấn ở ngôn ngữ
đích dưới dạng bản dịch có cấu trúc - kết hợp nhiều bản dịch cho mỗi từ khóa truy
vấn ở ngôn ngữ nguồn - so với dạng bản dịch kết hợp chỉ một bản dịch cho mỗi từ
khóa truy vấn. Điều kiện để triển khai thuật toán SQ là máy tìm kiếm phải hỗ trợ
câu truy vấn có cấu trúc.
Sau khi câu truy vấn ở ngôn ngữ nguồn được tiền xử lý (sẽ được trình bày tại
chương 3), câu truy vấn tiếng Việt qv được phân tích thành một tập hợp
((v1,L1),(v2,L2), .,(vn,Ln)) chứa các từ khóa tiếng Việt v1,..vn và các danh sách bản
dịch tương ứng L1,,Ln với = {
,
,
} chứa mi phương án dịch của từ
tiếng Việt vi. Các phương pháp khử nhập nhằng được trình bày tại chương 2 cho
phép tạo lập danh sách các phương án dịch tốt nhất của mỗi từ khóa trong câu truy
vấn, phục vụ việc xây dựng câu truy vấn. Đây là bước thứ hai trong sơ đồ xử lý của
giai đoạn truy vấn được trình bày tại Hình 1.4 trang 39.
Trong các thực nghiệm triển khai ở chương này, trọng số tương ứng các loại
từ cũng như trọng số cho các bản dịch được xác định thủ công nhằm tạo ra một bản
dịch có cấu trúc cho câu truy vấn. Các trọng số này sẽ được tiếp tục điều chỉnh bằng
cách sử dụng các phương pháp sẽ được trình bày tại chương 3.
- 69 -
CHƯƠNG 3
HỖ TRỢ DỊCH CÂU TRUY VẤN
Chương 3 trình bày các nghiên cứu của tác giả liên quan các kỹ thuật xử lý
câu truy vấn. Đầu tiên tác giả trình bày tổng quan về các kỹ thuật phân đoạn câu
truy vấn, mở rộng câu truy vấn, thu hẹp câu truy vấn, xử lý thuật ngữ không có
trong từ điển. Nội dung chính của chương trình bày hai đề xuất của tác giả, bao gồm
kỹ thuật phân đoạn câu truy vấn ở ngôn ngữ nguồn và kỹ thuật cải tiến câu truy vấn
ở ngôn ngữ đích dựa trên thông tin phản hồi ẩn giúp tăng độ chính xác và độ bao
phủ cho hệ thống truy vấn.
3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN
Trong mô hình dịch câu truy vấn, nhiều kỹ thuật khác nhau có thể được áp
dụng nhằm hỗ trợ chất lượng dịch thuật: phân đoạn câu truy vấn nhằm xác định các
cụm từ cần dịch; mở rộng câu truy vấn để bổ sung các từ đồng nghĩa hay liên quan
đến nội dung truy vấn; thu hẹp câu truy vấn nhằm loại bỏ các từ không cần thiết; xử
lý tên riêng, các cụm danh từ, hay thuật ngữ không có trong từ điển. Một số hướng
tiếp cận đề xuất tích hợp dịch thuật trong mô hình tìm kiếm, hoặc xác định trọng số
cho các loại từ khóa khi thực hiện câu truy vấn.
3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn
Phân tích câu truy vấn nhằm tách và xác định các từ khóa cần dịch trong câu
truy vấn là bước đầu tiên của công việc dịch câu truy vấn. Đối với các ngôn ngữ
châu Âu (như tiếng Anh, tiếng Pháp), giải pháp thông dụng là sử dụng dấu cách
giữa các từ. Đối với các ngôn ngữ châu Á như tiếng Việt, tiếng Hoa, vấn đề phức
tạp hơn: các từ khóa có thể chứa một hoặc nhiều âm [109] và không có quy tắc xác
định ranh giới giữa các từ [63]. Nhiều giải pháp khác nhau được đề xuất cho việc
tách từ khóa cho tiếng Việt: tác giả Nguyen Han Doan [109] đề xuất thuật toán tách
câu truy vấn thành các từ đơn hoặc kép. Đầu tiên, thông tin lưu trữ các câu truy vấn
(query log) được khai thác để tính xác suất xuất hiện của các từ đơn và kép. Câu
- 70 -
truy vấn được xem xét từ trái qua phải và sử dụng các giá trị xác suất đã tính nhằm
quyết định tách một từ đơn hay một từ kép. Trong thuật toán này, các từ khóa được
giả định độc lập với nhau. Hạn chế lớn nhất ở phương pháp này nằm ở việc các từ
khóa truy vấn có thể không xuất hiện trong query log. Nhằm giảm độ phức tạp của
việc dịch thuật các câu dài và phức tạp, Bui Thanh Hung và các đồng sự [18] đề
xuất phương án dùng luật tách câu thành các phần nhỏ hơn và các cụm danh từ. Với
công cụ vnTagger [89], không những có thể tách được các từ khóa, mà có thể xác
định các loại từ (danh từ, tính từ, ).
Các giải pháp có thể được chia thành 3 nhóm: dựa trên từ điển, dựa trên số
liệu thống kê hoặc là giải pháp lai, kết hợp nhiều phương pháp [117]. Tác giả Dinh
Quang Thang và các đồng sự [37] giới thiệu và so sánh một số phương pháp tách từ
khóa dựa trên biểu thức chính quy, kỹ thuật học máy hay dựa trên kinh nghiệm
(heuristics). Kết quả nghiên cứu cho thấy các công cụ phân đoạn tiếng Việt hiện nay
có độ chính xác khoảng 93-97% trên các tập dữ liệu thực nghiệm.
Các công cụ phân đoạn tiếng Việt hiện nay chú trọng nhiều vào việc xác định
loại từ (tag) cho các từ khóa và chưa thực sự phù hợp trong việc dịch câu truy vấn
do không xác định các từ kép kết hợp nhiều từ đơn. Ví dụ từ "tàu sân bayaircraft"
được tách thành "tàutrain" và "sân bayairport"; từ "kinh tế biểnmarine economy" được tách
thành "kinh tếeconomy" và "biểnsea", từ đó dẫn tới bản dịch chưa chính xác hoặc chưa
tối ưu.
3.1.2. Mở rộng câu truy vấn
Mở rộng câu truy vấn là một kỹ thuật thường được sử dụng trong các mô
hình truy vấn thông tin, thực hiện việc bổ sung các từ khóa vào câu truy vấn [100].
Giải pháp toàn cục dựa trên tài nguyên bên ngoài và khai thác các thông tin độc lập
với câu truy vấn, ví dụ bổ sung các từ đồng nghĩa trong từ điển; trong khi giải pháp
cục bộ khai thác các thông tin liên quan đến câu truy vấn thông qua phản hồi ẩn,
hay phân tích ngữ cảnh cục bộ, bổ sung các từ khóa quan hệ tới câu truy vấn từ các
tài liệu trong danh sách kết quả tìm kiếm khi dùng câu truy vấn gốc [161] (xem
Hình 3.1)
- 71 -
Nhìn chung, mở rộng câu quy vấn được nhìn nhận như một các tiếp cận hữu
ích. Hạn chế lớn nhất của cách tiếp cận này này là nguy cơ làm lệch ý nghĩa của câu
truy vấn. Khi bổ sung các từ khóa mới, câu truy vấn có thể có ý nghĩa không giống
với ý đồ tìm kiếm ban đầu của người sử dụng [46]. Trong CLIR, việc mở rộng câu
truy vấn có thể được thực hiện trước (với ngôn ngữ truy vấn) hay sau quá trình dịch
thuật (với ngôn ngữ các tài liệu) [7].
3.1.3. Thu hẹp câu truy vấn
Trong truy vấn đơn ngữ, bên cạnh các câu truy vấn ngắn chứa 1-2 từ khóa
khá phổ biến, các câu truy vấn dài với độ dài trên 5 từ khóa (ví dụ tiêu đề tin tức,
trích dẫn lời phát biểu,) chiếm một phần đáng kể (khoảng 10%) [10]. Các máy
tìm kiếm thường xử lý các câu truy vấn dài kém hơn so với các câu truy vấn ngắn
[10] và thu hẹp câu truy vấn (query reduction) là một trong các kỹ thuật thường
được sử dụng để nâng cao hiệu quả xử lý của các câu truy vấn dài [5], [77]. Các tác
giả Kumaran và Carvalho [77] coi việc thu hẹp câu truy vấn như bài toán xếp hạng:
các tham số dự đoán chất lượng câu truy vấn như Mutual Information, Query
Clarity, IDF-based features, Query Scope,.. được định nghĩa và sử dụng như các
tham số thành phần của một hàm xếp hạng và sau đó áp dụng kỹ thuật học máy
RankSVM để tìm kiếm câu truy vấn thành phần có chất lượng cao nhất (phương
pháp pointwise). Balasubramanian và Drive [5] xem xét tập hợp các câu truy vấn
thành phần (sub query) được tạo lập bằng cách loại bỏ đi một số từ trong câu truy
Mở rộng câu truy vấn
Dựa trên tài nguyên
bên ngoài
Dựa trên query log Dựa trên
phản hồi
Wikipedia Wordnet Từ điển
đồng nghĩa
Phản hồi thực Phản hồi ẩn
Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn
- 72 -
vấn gốc và áp dụng kỹ thuật học máy để so sánh các cặp câu truy vấn trong tập hợp
với mục tiêu giảm thiểu các lỗi xếp hạng (phương pháp pairwise). Zukerman và các
đồng sự [173] tạo lập thông tin thống kê về phân bố (dựa trên số lần xuất hiện) của
các từ khóa, phân đoạn câu truy vấn và đề xuất mô hình đồ thị phục vụ ra quyết
định (Decision-graph analysis) nhằm loại bỏ các từ có số lần xuất hiện vượt quá các
ngưỡng được xác định như tham số của mô hình. Đối với truy vấn xuyên ngữ, việc
xác định và loại bỏ các từ không phù hợp trong câu truy vấn có thể được thực hiện
trước hoặc sau khi dịch với mục tiêu tăng chất lượng kết quả tìm kiếm. Tại các
nghiên cứu của Braschler và Gey [13], [51], câu truy vấn ở ngôn ngữ nguồn được
chỉnh sửa, loại bỏ các từ xuất hiện quá phổ biến nhằm loại bỏ ảnh hưởng của các từ
khóa không phù hợp, tuy nhiên quá trình này được thực hiện thủ công.
3.1.4. Xử lý thuật ngữ không có trong từ điển
Vấn đề các từ khóa không nhận biết do nằm ngoài từ điển (Out Of
Vocabulary) tồn tại khá phổ biến trong các nghiên cứu CLIR. Các giải pháp ban đầu
xử lý vấn đề này đề xuất việc xây dựng các từ điển chuyên ngành giới hạn chủ yếu
cho việc xử lý các thuật ngữ kỹ thuật [119]. Một số nghiên cứu áp dụng kỹ thuật
chuyển ngữ, phân tích sự tương tự trong cấu trúc tạo lập từ giữa hai ngôn ngữ để
xây dựng các luật xác định một chuỗi kỹ tự ở ngôn ngữ này được áp dụng thế nào
tại ngôn ngữ khác [28], [50]. Gần đây, các tác giả khai thác WWW để nhận dạng
các mẫu chuyển ngữ dựa trên quan sát: khi các tên riêng, thuật ngữ mới xuất hiện
trên các trang web, thường chúng sẽ đi kèm với văn bản gốc [170]. Các phân tích
thống kê sau đó được áp dụng nhằm xác định bản dịch. Các liên kết ngôn ngữ
Wikipedia cũng được sử dụng để tạo lập bản dịch cho các loại thuật ngữ loại này,
tuy nhiên kết quả còn tương đối hạn chế.
Trong luận án, tác giả tập trung nghiên cứu, đề xuất các phương pháp phân
đoạn câu truy vấn ở ngôn ngữ nguồn - ngôn ngữ câu truy vấn (giới hạn ở câu truy
vấn tiếng Việt) và điều chỉnh câu truy vấn tại ngôn ngữ đích - ngôn ngữ của các tài
liệu cần tìm kiếm.
- 73 -
3.2. PHÂN ĐOẠN CÂU TRUY VẤN
3.2.1. Sử dụng công cụ vnTagger
VnTagger là một công cụ đánh dấu loại từ tự động, được áp dụng cho tiếng
Việt19. Kết quả thực nghiệm đối với tiếng Việt cho độ chính xác là 93,13% [89].
Công cụ này có thể được sử dụng nhằm mục đích phân đoạn và xác định các từ
khóa cần dịch trong câu truy vấn. Sau khi sử dụng công cụ vnTagger để thực hiện
việc phân đoạn, các từ được tách được kiểm tra trong từ điển để kết xuất các bản
dịch ứng viên.
3.2.2. Thuật toán WLQS
Thuật toán WLQS (viết tắt của Word-length-based Query Segmentation) - do
tác giả đề xuất và được trình bày tại [81] - thực hiện việc phân đoạn câu truy vấn
dựa trên độ dài từ khóa. Việc đề xuất thuật toán trên cơ sở của giả thuyết: nếu một
từ ghép (compound word) tồn tại trong từ điển và chứa các từ bên trong khác, bản
dịch của từ ghép có xu hướng tốt hơn việc kết hợp bản dịch của các từ bên trong.
Xem xét các từ chứa bên trong từ ghép: khi đứng một mình, một từ có thể có các ý
nghĩa khác nhau; khi được kết hợp với một hay một số từ khác trong từ ghép, ý
nghĩa của từ được xác định rõ hơn do phải phù hợp với ngữ cảnh đồng thời xuất
hiện các từ khác, từ đó bản dịch cũng được xác định chính xác hơn. Ví dụ, với cụm
từ "kinh tế biển", bản dịch "maritime economy" phù hợp hơn bản dịch "economy
sea". Bên cạnh đó, một số từ ghép mang ý nghĩa khác hẳn so với các từ chứa bên
trong. Ví dụ, với cụm từ "tàu sân bay" cần sử dụng bản dịch "aircraft carrier", còn
bản dịch "train airport" thì không phù hợp.
Thuật toán phân đoạn WLQS được trình bày như sau:
Thuật toán phân đoạn WLQS
Input: câu truy vấn tiếng Việt
Output: một danh sách các phần tử, mỗi phần tử chứa từ khóa
19 https://code.google.com/p/vntagger-gate-plugin/downloads/list (truy cập ngày 15/01/2016)
- 74 -
tiếng Việt chứa trong câu truy vấn đi kèm với các phương án
dịch
Begin
Kết xuất từ từ điển các từ chứa bên trong câu truy vấn, kèm
theo các phương án dịch
Với mỗi từ w trong danh sách:
thêm cặp (w,translations) vào list_keyword nếu từ w chưa
có trong list_keyword
Kết xuất từ từ điển wiki các từ chứa bên trong câu truy
vấn, kèm theo các phương án dịch
Với mỗi từ w trong danh sách:
Các file đính kèm theo tài liệu này:
- luan_an_mot_so_phuong_phap_phuc_vu_xep_hang_cac_trang_web_tr.pdf