Luận án Một số phương pháp phục vụ xếp hạng các trang Web trong tìm kiếm xuyên ngữ - Lâm Tùng Giang

MỞ ĐẦU. 1

1. ĐẶT VẤN ĐỀ. 1

2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU . 5

2.1. Mục tiêu. 5

2.2. Đối tượng. 5

2.3. Phạm vi . 5

3. ĐÓNG GÓP CỦA LUẬN ÁN . 6

4. BỐ CỤC CỦA LUẬN ÁN. 8

CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU . 9

1.1. TRUY VẤN THÔNG TIN. 9

1.1.1. Khái niệm. 9

1.1.2. Định nghĩa hình thức. 10

1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin. 10

1.1.4. Các mô hình truy vấn thông tin truyền thống. 12

1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản . 16

1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN . 19

1.2.1. Khái niệm. 19

1.2.2. Các độ đo . 20

1.2.3. Môi trường thực nghiệm. 22

1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ. 24

1.3.1. Khái niệm. 24

1.3.2. Các hướng tiếp cận. 24

1.3.3. Các kỹ thuật dịch tự động. 25

1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI . 25- iii -

1.4.1. Xếp hạng và xếp hạng lại . 25

1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn . 26

1.4.3. Học xếp hạng . 28

1.4.4. Khai thác thông tin người sử dụng. 30

1.5. XẾP HẠNG TRANG WEB . 31

1.5.1. Đặc thù của tìm kiếm web . 31

1.5.2. Các phương pháp xếp hạng trang Web . 32

1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ . 36

1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU. 37

1.6.1. Hạn chế . 37

1.6.2. Đề xuất nghiên cứu. 37

1.7. TIỂU KẾT CHƯƠNG. 41

CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ. 42

2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG. 42

2.1.1. Sử dụng máy dịch. 42

2.1.2. Sử dụng kho ngữ liệu . 43

2.1.3. Sử dụng từ điển . 44

2.1.4. Sử dụng ngôn ngữ trung gian. 44

2.1.5. Sử dụng không gian ngữ nghĩa . 45

2.1.6. Đánh giá chung . 45

2.2. KHỬ NHẬP NHẰNG. 46

2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY. 47

2.3.1. Xây dựng dữ liệu từ điển . 48

2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ . 49

2.3.3. Các biến thể của công thức MI . 49

2.3.4. Thuật toán chọn bản dịch tốt nhất. 51- iv -

2.3.5. Xây dựng câu truy vấn. 58

2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI. 62

2.4.1. Môi trường thực nghiệm. 62

2.4.2. Kết quả thực nghiệm . 64

2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC . 65

2.5.1. Môi trường thực nghiệm. 65

2.5.2. Cấu hình thực nghiệm . 65

2.5.3. Kết quả thực nghiệm . 66

2.6. TIỂU KẾT CHƯƠNG. 67

CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN . 69

3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN . 69

3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn . 69

3.1.2. Mở rộng câu truy vấn . 70

3.1.3. Thu hẹp câu truy vấn . 71

3.1.4. Xử lý thuật ngữ không có trong từ điển . 72

3.2. PHÂN ĐOẠN CÂU TRUY VẤN. 73

3.2.1. Sử dụng công cụ vnTagger . 73

3.2.2. Thuật toán WLQS . 73

3.2.3. Kết hợp WLQS và công cụ vnTagger. 75

3.3. ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH . 78

3.3.1. Phản hồi ẩn. 79

3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ . 81

3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích. 82

3.4. THỰC NGHIỆM . 86

3.4.1. Cấu hình thực nghiệm . 86

3.4.2. Kết quả. 87- v -

3.5. TIỂU KẾT CHƯƠNG. 89

CHƯƠNG 4: XẾP HẠNG LẠI . 91

4.1. HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN. 91

4.1.1. Mô hình ứng dụng lập trình di truyền . 93

4.1.2. Xây dựng công cụ và kết quả thực nghiệm . 94

4.1.3. Đánh giá. 96

4.2. ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN. 97

4.2.1. Mô hình CL-Büttcher . 98

4.2.2. Mô hình xếp hạng CL-Rasolofo . 99

4.2.3. Mô hình xếp hạng CL-HighDensity. 100

4.2.4. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ. 101

4.3. HỌC XẾP HẠNG TRANG WEB . 103

4.3.1. Các mô hình học xếp hạng. 103

4.3.2. Môi trường thực nghiệm. 106

4.3.3. Cấu hình thực nghiệm . 109

4.3.4. Kết quả thực nghiệm . 109

4.4. TIỂU KẾT CHƯƠNG. 110

CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH . 111

5.1. THIẾT KẾ HỆ THỐNG. 111

5.1.1. Các thành phần hệ thống & sơ đồ thuật toán. 111

5.1.2. Dữ liệu từ điển . 114

5.1.3. Dữ liệu đánh chỉ mục . 114

5.2. PHƯƠNG PHÁP THỰC NGHIỆM . 115

5.3. THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN. 116

5.3.1. Cấu hình thực nghiệm . 116

5.3.2. Kết quả thực nghiệm . 117- vi -

5.3.3. Đánh giá. 119

5.4. THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN. 119

5.4.1. Cấu hình thực nghiệm . 119

5.4.2. Kết quả thực nghiệm . 120

5.4.3. Đánh giá. 121

5.5. THỰC NGHIỆM XẾP HẠNG LẠI. 121

5.5.1. Cấu hình thực nghiệm . 122

5.5.2. Kết quả thực nghiệm . 123

5.5.3. Đánh giá. 125

5.6. ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT . 125

5.7. TIỂU KẾT CHƯƠNG. 128

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN. 129

1. KẾT LUẬN . 129

1.1. Tóm tắt nội dung luận án. 129

1.2. Các kết quả đạt được . 129

2. HƯỚNG PHÁT TRIỂN. 132

TÀI LIỆU THAM KHẢO. 133

159 trang | Chia sẻ: trungkhoi17 | Lượt xem: 339 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận án Một số phương pháp phục vụ xếp hạng các trang Web trong tìm kiếm xuyên ngữ - Lâm Tùng Giang, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ethod OR process OR instruction) (production OR manufacture OR fabricate) Cách định nghĩa câu truy vấn cho máy tìm kiếm Solr như thế này tương tự phương pháp của Pirkola [118]. 2.3.5.4 Gán trọng số thủ công cho các phương án dịch Phương pháp gán trọng số thủ công ưu tiên phương án dịch được coi là tốt nhất bằng cách gán trọng số 1 cho phương án đầu tiên trong danh sách các phương án dịch; các phương án dịch khác được giữ trong danh sách được gán trọng số 0.5. Với cú pháp sử dụng tại máy tìm kiếm Solr, câu truy vấn tiếng Anh lúc đó có dạng: - 61 - ( ^1 ^0.5 ^0.5) ( ^1 ^0.5 ^0.5) (2.16) Bản dịch tiếng Anh của câu truy vấn ví dụ như sau: (management^1 OR regulate^0.5 OR control^0.5) (method^1 OR process^0.5 OR instruction^0.5) (production^1 OR manufacture^0.5 OR fabricate^0.5) 2.3.5.5 Gán trọng số thủ công cho các từ trong câu truy vấn. Khi thực hiện thuật toán bóc tách từ khóa, nhãn từ đã được xác định và được dùng làm cơ sở gán trọng số trong câu truy vấn tiếng Anh. Trong luận án, nhóm các phương án dịch của từ được gán thẻ Np (noun phrase) được gán trọng số 8. Trọng số cho các thẻ N (noun), V (verb) lần lượt là 4 và 2. Các thẻ khác có trọng số 1. Với máy tìm kiếm Solr, câu truy vấn có dạng: ( )^ ( )^ ( )^ (2.17) Ở đây, , , là các phương án dịch của vi trong danh sách Li. Giá trị wi là trọng số của từ vi trong câu truy vấn. Với câu truy vấn tiếng Việt “quản lý quá trình sản xuất”, quá trình bóc tách từ khóa có kết quả là 3 từ khóa và thẻ tương ứng: “quản lý”-động từ, “quá trình”- danh từ, “sản xuất”-động từ, có các trọng số tương ứng là 2, 4, 2. Do đó, bản dịch tiếng Anh của câu truy vấn ví dụ có dạng như sau: (management OR regulate OR control)^2 (method OR process OR instruction)^4 (production OR manufacture OR fabricate)^2 2.3.5.6 Kết hợp 2 phương pháp gán trọng số thủ công Ta có thể kết hợp việc gán trọng số cho các từ trong câu truy vấn và gán trọng số cho các phương án dịch khác nhau. Gọi , , là các phương án dịch của vi trong danh sách Li với các trọng số tương ứng là , , . Giá trị wi là trọng số của từ vi trong câu truy vấn. Các phương án dịch của từ được gán thẻ Np được gán trọng số 8. Trọng số cho các thẻ N, V lần lượt là 4 và 2. Các thẻ khác có trọng số 1. Khi đó, bản dịch tiếng Anh của câu truy vấn có dạng: - 62 - = ( ) ( ) (2.18) Với máy tìm kiếm Solr, câu truy vấn ví dụ có dạng: (management^1 OR regulate^0.5 OR control^0.5)^2 (method^1 OR process^0.5 OR instruction^0.5)^4 (production^1 OR manufacture^0.5 OR fabricate^0.5)^2. 2.3.5.7 Gán trọng số dựa trên kết quả quá trình khử nhập nhằng Trong thuật toán Chọn bản dịch một cách tuần tự (2.3.4.3), tại bước sắp xếp lại các phương án dịch, mỗi phương án dịch của từ tiếng Việt vi được gán giá điểm cohesion bằng cách sử dụng công thức (2.13), đo mức độ liên quan của phương án dịch này với phương án dịch được coi là tốt nhất của các từ tiếng Việt khác. Giá trị này có để được sử dụng như trọng số của phương án dịch . Gọi , , là các phương án dịch của vi trong danh sách Li với các trọng số tương ứng là , , . Khi đó, bản dịch tiếng Anh của câu truy vấn được xây dựng dưới dạng: = ( ) ( ) (2.19) Với máy tìm kiếm Solr, câu truy vấn ví dụ được tạo dựng trong thực nghiệm với giá trị sau: ((control)^0.556445681271 OR (manage)^0.268952911452 OR (supervise)^0.174601407277) ((process)^0.60852654056 OR (method)^0.203213625283 OR (procedure)^0.188259834156) ((production)^0.512249748308 OR (manufacture)^0.262275130029 OR (fabrication)^0.225475121664) 2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI 2.4.1. Môi trường thực nghiệm Để thiết lập môi trường thực nghiệm việc áp dụng công thức SMI, một bộ dữ - 63 - liệu đánh giá được xây dựng, chứa một danh sách các câu truy vấn và một tập hợp tài liệu phục vụ truy vấn theo phương pháp pooling. Các kho tài liệu tiếng Việt (5.000 tài liệu) và tiếng Anh (8.000) tài liệu được đánh chỉ mục, sử dụng các hệ thống tìm kiếm đơn ngữ áp dụng mô hình xếp hạng LSI được xây dựng bằng ngôn ngữ Python15, sử dụng thư viện Gensim16. Các câu truy vấn tiếng Việt được dịch thủ công sang tiếng Anh bởi các chuyên gia ngôn ngữ. Tương ứng với mỗi câu truy vấn tiếng Anh, 100 kết quả tìm kiếm tương ứng mỗi mô hình xếp hạng được kết xuất và trộn thành một danh sách chung. Từng tài liệu được đánh giá lại một cách thủ công để kiểm tra có phù hợp hay không với câu truy vấn. Một ứng dụng Web được xây dựng nhằm hỗ trợ người đánh giá. Với mỗi câu truy vấn, danh sách các kết quả tìm kiếm tốt nhất được hiển thị, kèm theo các thông tin về số hiệu, tiêu đề, trích yếu và nội dung, điểm số. Người đánh giá dùng chuột hoặc bấm phím tại để đánh dấu đối với các tài liệu được xác định là phù hợp với câu truy vấn. Với kích thước hạn chế của bộ dữ liệu thực nghiệm, môi trường đánh giá này chưa thực sự hoàn thiện và cần được cải thiện, tuy nhiên nó vẫn đảm bảo sự hữu ích trong thực nghiệm được tiến hành [82]. Các cấu hình khác nhau được đánh giá được liệt kê trong Bảng 2.1. Trong bảng này, phương pháp nMI sử dụng kỹ thuật phân đoạn câu truy vấn thành các từ khóa cần dịch (sẽ được trình bày trong chương 3), sau đó áp dụng thuật toán greedy (2.3.4.1) để chọn bản dịch tốt nhất. Bảng 2.1: Cấu hình thực nghiệm STT Cấu hình Diễn giải 1 nMI Sử dụng thuật toán greedy 2 SMI Do tác giả đề xuất 15 (truy cập ngày 15/01/2016) 16 https://radimrehurek.com/gensim/ (truy cập ngày 15/01/2016) - 64 - 3 Dịch Google Dùng máy dịch Googe 4 Dịch thủ công Chuyên gia dịch Cấu hình SMI cũng áp dụng kỹ thuật phân đoạn câu truy vấn, sau đó áp dụng thuật toán SMI (2.3.4.2) để xác định bản dịch tốt nhất với mỗi từ khóa. Hai phương pháp cuối không áp dụng các kỹ thuật phân đoạn và khử nhập nhằng: Phương pháp thứ ba sử dụng máy dịch Google; phương pháp thứ tư sử dụng các bản dịch thủ công được tạo bởi các chuyên gia tiếng Anh nhằm làm cơ sở so sánh hiệu quả các cấu hình đề xuất. 2.4.2. Kết quả thực nghiệm Để đánh giá chất lượng của phương pháp xếp hạng, các chỉ số thông dụng phục vụ việc đánh giá độ chính xác xếp hạng bao gồm độ chính xác mức k ký hiệu P@k, độ chính xác trung bình AP, độ chính xác trung bình bình quân MAP [4]. Kết quả thực nghiệm tương ứng với các cấu hình khác nhau được trình bày tại Bảng 2.2. Các chỉ số độ chính xác mức k P@k, độ chính xác trung bình bình quân MAP được tính toán nhằm so sánh với phương pháp sử dụng dịch thủ công (tương đương với tình huống truy vấn đơn ngữ). Bảng 2.2: Kết quả thực nghiệm STT Cấu hình P@1 P@5 P@10 MAP So sánh 1 nMI 0.497 0.482 0.429 0.436 74.79% 2 SMI 0.511 0.488 0.447 0.446 76.50% 3 Dịch Google 0.489 0.535 0.505 0.499 85.59% 4 Dịch thủ công 0.605 0.605 0.563 0.583 100% Kết quả thực nghiệm cho thấy cấu hình SMI sử dụng phương pháp khử nhập nhằng đề xuất tỷ lệ lớn hơn 75% so với truy vấn đơn ngữ và tốt hơn cấu hình nMI. - 65 - 2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC 2.5.1. Môi trường thực nghiệm Bộ công cụ Solr phiên bản 4.3.1017 được sử dụng để xây dựng các máy tìm kiếm đơn ngữ cho tiếng Việt và tiếng Anh. Đây là một công cụ mã nguồn mở viết bằng ngôn ngữ Java, được sử dụng khá rộng rãi, với hàm xếp hạng được phát triển dựa trên mô hình TF-IDF. Điểm phù hợp của bộ công cụ đối với luận án là nó tiếp nhận và xử lý các câu truy vấn có cấu trúc. Dữ liệu được đánh chỉ mục được thu thập từ 2 nguồn. Đối với tiếng Việt, 200.000 tài liệu của website được sử dụng. Đối với tiếng Anh, tiêu đề của một số bài báo tiếng Anh được sử dụng như câu truy vấn gửi tới máy tìm kiếm Google. Một chương trình được viết để nhận các địa chỉ trong danh sách kết quả và tải các trang web tương ứng. Kết quả, 24.000 trang web tiếng Anh được tải về. Nội dung của các trang web bao gồm tiêu đề và toàn văn được bóc tách sử dụng công cụ Boilerpipe18. Mỗi tài liệu web trong kho tài liệu được bóc tách các thành phần tiêu đề (tương ứng thẻ ) và nội dung (tương ứng thẻ ) của mỗi tài liệu. Các nội dung này được định dạng để cập nhật vào chỉ mục máy tìm kiếm. 2.5.2. Cấu hình thực nghiệm Việc thực nghiệm hiệu quả của sự kết hợp thuật toán bóc tách từ khóa, khử nhập nhằng và xây dựng câu truy vấn có cấu trúc được triển khai thông qua thực nghiệm với 25 câu truy vấn tiếng Việt có độ dài trung bình 9,52 từ. Các cấu hình sau được kiểm tra và so sánh:  top_one_ch: dùng công thức MIir trình bày tại (2.6) và cohesion score như công thức (2.8) , chọn một bản dịch tốt nhất cho mỗi từ tiếng Việt. 17 (truy cập ngày 16/01/2016) 18 https://code.google.com/p/boilerpipe/downloads/list (truy cập ngày 16/01/2016) - 66 -  top_three_ch: dùng công thức MIcooc trình bày tại (2.4) và cohesion score như công thức (2.8) xây dựng câu truy vấn có cấu trúc bằng cách kết hợp 3 bản dịch tốt nhất cho mỗi từ tiếng Việt.  top_one_sq: sử dụng công thức MIcooc, chọn một bản dịch tốt nhất bằng thuật toán SQ được trình bày tại 2.3.4.3.  top_three_sq: sử dụng công thức MIcooc, chọn một bản dịch tốt nhất bằng thuật toán SQ, sau đó chọn thêm 2 bản dịch gần giống bản dịch tốt nhất (đo bằng MIcooc).  top_three_all: Tương tự như top_three_sq, nhưng sử dụng một công thức MI đặc biệt: (, ) = × (, ) + (1 − ) × (, ) (2.20) α được gán giá trị 0.02 trong thực nghiệm. Google: sử dụng công cụ Google Translate để dịch câu truy vấn. Baseline: dịch thủ công câu truy vấn tiếng Việt. 2.5.3. Kết quả thực nghiệm Bảng 2.3: So sánh P@k và MAP các cấu hình Cấu hình P@1 P@5 P@10 MAP Tỷ lệ 1 top_one_ch 0.64 0.48 0.444 0.275 71.24% 2 top_one_sq 0.52 0.472 0.46 0.291 75.39% 3 top_three_ch 0.68 0.528 0.524 0.316 81.87% 4 top_three_sq 0.64 0.552 0.532 0.323 84.55% 5 top_three_all 0.76 0.576 0.54 0.364 94.30% 6 Google 0.64 0.568 0.536 0.349 90.41% 7 Baseline 0.76 0.648 0.696 0.386 100% Bảng 2.3 mô tả kết quả thực nghiệm trên cơ sở sử dụng các thước đo P@n và MAP [4]. Với mỗi phương pháp, các giá trị trung bình của P@k (với k = 1, 5, 10) và - 67 - giá trị MAP được ghi nhận. Cột Tỷ lệ hiển thị tỷ lệ giá trị MAP của thuật toán được đề xuất với giá trị MAP của cấu hình cơ sở Baseline, sử dụng dịch thủ công. Tất cả các cấu hình đề xuất đều đạt trên 70% khi so sánh với phương án dịch thủ công. Các câu truy vấn có cấu trúc được tạo bởi các phương pháp top_three_all, top_three_ch và top_three_sq có kết quả tốt hơn hẳn so với việc chỉ chọn một bản dịch tốt nhất ở 2 cấu hình top_one_ch and top_one_sq. Trong một số câu truy vấn, các phương pháp dịch đề xuất chưa hoạt động chính xác. Ví dụ, câu truy vấn "kiểm soát hoạt động trên biển" cho bản dịch (supervise OR to oversee^0.5 OR monitor^0.5)^2 (action OR activity^0.5 OR operation^0.5)^4 afloat. Đây là bản dịch tốt, nhưng có hiệu quả tìm kiếm không tốt do từ afloat dịch từ "trên biển" không được sử dụng trong các tài liệu. Bản dịch thủ công của câu truy vấn là monitor activities on sea cho hiệu quả tốt hơn. Cấu hình top_three_all cho điểm MAP 0.364, bằng 94.30% so với dịch thủ công. Kết quả này tốt hơn điểm MAP 0.349 trong cấu hình sử dụng công cụ máy dịch Google Translate. Cấu hình top_three_sq đạt kết quả tốt hơn ở 9 câu truy vấn khi so sánh với công cụ máy dịch Google Translate. 2.6. TIỂU KẾT CHƯƠNG Nội dung chương 2 trình bày nghiên cứu của tác giả liên quan các kỹ thuật dịch tự động phục vụ truy vấn xuyên ngữ. Phần đầu tiên của chương giới thiệu các phương pháp dịch khác nhau áp dụng trong CLIR bao gồm sử dụng máy dịch, sử dụng kho ngữ liệu song song, sử dụng từ điển, sử dụng ngôn ngữ trung gian, sử dụng không gian ngữ nghĩa. Bên cạnh đó, tác giả tìm hiểu một số kỹ thuật khử nhập nhằng trong phương pháp sử dụng từ điển. Đề xuất của tác giả trình bày trong chương là các phương án dịch câu truy vấn bằng từ điển. Hướng tiếp cận của tác giả là sử dụng thông tin về sự liên quan giữa các cặp từ Mutual Information nhằm cung cấp thêm thông tin về ngữ cảnh sử dụng từ khóa, thông qua đó giúp xác định bản dịch phù hợp cho các từ khóa trong - 68 - câu truy vấn. Tác giả đề xuất các phương pháp khử nhập nhằng nhằm chọn các bản dịch tốt nhất cho các từ trong câu truy vấn.  Phương pháp thứ nhất dựa trên việc định nghĩa hàm Summary Mutual Information nhằm chọn một phương án dịch tốt nhất cho mỗi từ khóa trong câu truy vấn [81]. Thuật toán có độ phức tạp là (3n), phù hợp với giá trị n nhỏ (n <= 7).  Phương pháp thứ hai dựa trên một thuật toán chọn bản dịch cho các từ khóa truy vấn một cách tuần tự [83], có độ phức tạp là O(n2). Với phương pháp sử dụng từ điển, việc sử dụng công thức SMI - do tác giả đề xuất để xác định một bản dịch tốt nhất - cho kết quả tốt hơn phương pháp sử dụng thuật toán Greedy thường được sử dụng, tuy nhiên vẫn không cho kết quả tốt bằng máy dịch Google. Với việc sử dụng kết hợp nhiều phương án dịch cho mỗi từ khóa truy vấn để xây dựng câu truy vấn có cấu trúc, phương pháp trình bày trong chương sử dụng thuật toán SQ và công thức (2.20) cho kết quả vượt trội máy dịch Google. Kết quả này cho thấy ưu điểm của việc tạo lập câu truy vấn ở ngôn ngữ đích dưới dạng bản dịch có cấu trúc - kết hợp nhiều bản dịch cho mỗi từ khóa truy vấn ở ngôn ngữ nguồn - so với dạng bản dịch kết hợp chỉ một bản dịch cho mỗi từ khóa truy vấn. Điều kiện để triển khai thuật toán SQ là máy tìm kiếm phải hỗ trợ câu truy vấn có cấu trúc. Sau khi câu truy vấn ở ngôn ngữ nguồn được tiền xử lý (sẽ được trình bày tại chương 3), câu truy vấn tiếng Việt qv được phân tích thành một tập hợp ((v1,L1),(v2,L2), .,(vn,Ln)) chứa các từ khóa tiếng Việt v1,..vn và các danh sách bản dịch tương ứng L1,,Ln với = { , , } chứa mi phương án dịch của từ tiếng Việt vi. Các phương pháp khử nhập nhằng được trình bày tại chương 2 cho phép tạo lập danh sách các phương án dịch tốt nhất của mỗi từ khóa trong câu truy vấn, phục vụ việc xây dựng câu truy vấn. Đây là bước thứ hai trong sơ đồ xử lý của giai đoạn truy vấn được trình bày tại Hình 1.4 trang 39. Trong các thực nghiệm triển khai ở chương này, trọng số tương ứng các loại từ cũng như trọng số cho các bản dịch được xác định thủ công nhằm tạo ra một bản dịch có cấu trúc cho câu truy vấn. Các trọng số này sẽ được tiếp tục điều chỉnh bằng cách sử dụng các phương pháp sẽ được trình bày tại chương 3. - 69 - CHƯƠNG 3 HỖ TRỢ DỊCH CÂU TRUY VẤN Chương 3 trình bày các nghiên cứu của tác giả liên quan các kỹ thuật xử lý câu truy vấn. Đầu tiên tác giả trình bày tổng quan về các kỹ thuật phân đoạn câu truy vấn, mở rộng câu truy vấn, thu hẹp câu truy vấn, xử lý thuật ngữ không có trong từ điển. Nội dung chính của chương trình bày hai đề xuất của tác giả, bao gồm kỹ thuật phân đoạn câu truy vấn ở ngôn ngữ nguồn và kỹ thuật cải tiến câu truy vấn ở ngôn ngữ đích dựa trên thông tin phản hồi ẩn giúp tăng độ chính xác và độ bao phủ cho hệ thống truy vấn. 3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN Trong mô hình dịch câu truy vấn, nhiều kỹ thuật khác nhau có thể được áp dụng nhằm hỗ trợ chất lượng dịch thuật: phân đoạn câu truy vấn nhằm xác định các cụm từ cần dịch; mở rộng câu truy vấn để bổ sung các từ đồng nghĩa hay liên quan đến nội dung truy vấn; thu hẹp câu truy vấn nhằm loại bỏ các từ không cần thiết; xử lý tên riêng, các cụm danh từ, hay thuật ngữ không có trong từ điển. Một số hướng tiếp cận đề xuất tích hợp dịch thuật trong mô hình tìm kiếm, hoặc xác định trọng số cho các loại từ khóa khi thực hiện câu truy vấn. 3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn Phân tích câu truy vấn nhằm tách và xác định các từ khóa cần dịch trong câu truy vấn là bước đầu tiên của công việc dịch câu truy vấn. Đối với các ngôn ngữ châu Âu (như tiếng Anh, tiếng Pháp), giải pháp thông dụng là sử dụng dấu cách giữa các từ. Đối với các ngôn ngữ châu Á như tiếng Việt, tiếng Hoa, vấn đề phức tạp hơn: các từ khóa có thể chứa một hoặc nhiều âm [109] và không có quy tắc xác định ranh giới giữa các từ [63]. Nhiều giải pháp khác nhau được đề xuất cho việc tách từ khóa cho tiếng Việt: tác giả Nguyen Han Doan [109] đề xuất thuật toán tách câu truy vấn thành các từ đơn hoặc kép. Đầu tiên, thông tin lưu trữ các câu truy vấn (query log) được khai thác để tính xác suất xuất hiện của các từ đơn và kép. Câu - 70 - truy vấn được xem xét từ trái qua phải và sử dụng các giá trị xác suất đã tính nhằm quyết định tách một từ đơn hay một từ kép. Trong thuật toán này, các từ khóa được giả định độc lập với nhau. Hạn chế lớn nhất ở phương pháp này nằm ở việc các từ khóa truy vấn có thể không xuất hiện trong query log. Nhằm giảm độ phức tạp của việc dịch thuật các câu dài và phức tạp, Bui Thanh Hung và các đồng sự [18] đề xuất phương án dùng luật tách câu thành các phần nhỏ hơn và các cụm danh từ. Với công cụ vnTagger [89], không những có thể tách được các từ khóa, mà có thể xác định các loại từ (danh từ, tính từ, ). Các giải pháp có thể được chia thành 3 nhóm: dựa trên từ điển, dựa trên số liệu thống kê hoặc là giải pháp lai, kết hợp nhiều phương pháp [117]. Tác giả Dinh Quang Thang và các đồng sự [37] giới thiệu và so sánh một số phương pháp tách từ khóa dựa trên biểu thức chính quy, kỹ thuật học máy hay dựa trên kinh nghiệm (heuristics). Kết quả nghiên cứu cho thấy các công cụ phân đoạn tiếng Việt hiện nay có độ chính xác khoảng 93-97% trên các tập dữ liệu thực nghiệm. Các công cụ phân đoạn tiếng Việt hiện nay chú trọng nhiều vào việc xác định loại từ (tag) cho các từ khóa và chưa thực sự phù hợp trong việc dịch câu truy vấn do không xác định các từ kép kết hợp nhiều từ đơn. Ví dụ từ "tàu sân bayaircraft" được tách thành "tàutrain" và "sân bayairport"; từ "kinh tế biểnmarine economy" được tách thành "kinh tếeconomy" và "biểnsea", từ đó dẫn tới bản dịch chưa chính xác hoặc chưa tối ưu. 3.1.2. Mở rộng câu truy vấn Mở rộng câu truy vấn là một kỹ thuật thường được sử dụng trong các mô hình truy vấn thông tin, thực hiện việc bổ sung các từ khóa vào câu truy vấn [100]. Giải pháp toàn cục dựa trên tài nguyên bên ngoài và khai thác các thông tin độc lập với câu truy vấn, ví dụ bổ sung các từ đồng nghĩa trong từ điển; trong khi giải pháp cục bộ khai thác các thông tin liên quan đến câu truy vấn thông qua phản hồi ẩn, hay phân tích ngữ cảnh cục bộ, bổ sung các từ khóa quan hệ tới câu truy vấn từ các tài liệu trong danh sách kết quả tìm kiếm khi dùng câu truy vấn gốc [161] (xem Hình 3.1) - 71 - Nhìn chung, mở rộng câu quy vấn được nhìn nhận như một các tiếp cận hữu ích. Hạn chế lớn nhất của cách tiếp cận này này là nguy cơ làm lệch ý nghĩa của câu truy vấn. Khi bổ sung các từ khóa mới, câu truy vấn có thể có ý nghĩa không giống với ý đồ tìm kiếm ban đầu của người sử dụng [46]. Trong CLIR, việc mở rộng câu truy vấn có thể được thực hiện trước (với ngôn ngữ truy vấn) hay sau quá trình dịch thuật (với ngôn ngữ các tài liệu) [7]. 3.1.3. Thu hẹp câu truy vấn Trong truy vấn đơn ngữ, bên cạnh các câu truy vấn ngắn chứa 1-2 từ khóa khá phổ biến, các câu truy vấn dài với độ dài trên 5 từ khóa (ví dụ tiêu đề tin tức, trích dẫn lời phát biểu,) chiếm một phần đáng kể (khoảng 10%) [10]. Các máy tìm kiếm thường xử lý các câu truy vấn dài kém hơn so với các câu truy vấn ngắn [10] và thu hẹp câu truy vấn (query reduction) là một trong các kỹ thuật thường được sử dụng để nâng cao hiệu quả xử lý của các câu truy vấn dài [5], [77]. Các tác giả Kumaran và Carvalho [77] coi việc thu hẹp câu truy vấn như bài toán xếp hạng: các tham số dự đoán chất lượng câu truy vấn như Mutual Information, Query Clarity, IDF-based features, Query Scope,.. được định nghĩa và sử dụng như các tham số thành phần của một hàm xếp hạng và sau đó áp dụng kỹ thuật học máy RankSVM để tìm kiếm câu truy vấn thành phần có chất lượng cao nhất (phương pháp pointwise). Balasubramanian và Drive [5] xem xét tập hợp các câu truy vấn thành phần (sub query) được tạo lập bằng cách loại bỏ đi một số từ trong câu truy Mở rộng câu truy vấn Dựa trên tài nguyên bên ngoài Dựa trên query log Dựa trên phản hồi Wikipedia Wordnet Từ điển đồng nghĩa Phản hồi thực Phản hồi ẩn Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn - 72 - vấn gốc và áp dụng kỹ thuật học máy để so sánh các cặp câu truy vấn trong tập hợp với mục tiêu giảm thiểu các lỗi xếp hạng (phương pháp pairwise). Zukerman và các đồng sự [173] tạo lập thông tin thống kê về phân bố (dựa trên số lần xuất hiện) của các từ khóa, phân đoạn câu truy vấn và đề xuất mô hình đồ thị phục vụ ra quyết định (Decision-graph analysis) nhằm loại bỏ các từ có số lần xuất hiện vượt quá các ngưỡng được xác định như tham số của mô hình. Đối với truy vấn xuyên ngữ, việc xác định và loại bỏ các từ không phù hợp trong câu truy vấn có thể được thực hiện trước hoặc sau khi dịch với mục tiêu tăng chất lượng kết quả tìm kiếm. Tại các nghiên cứu của Braschler và Gey [13], [51], câu truy vấn ở ngôn ngữ nguồn được chỉnh sửa, loại bỏ các từ xuất hiện quá phổ biến nhằm loại bỏ ảnh hưởng của các từ khóa không phù hợp, tuy nhiên quá trình này được thực hiện thủ công. 3.1.4. Xử lý thuật ngữ không có trong từ điển Vấn đề các từ khóa không nhận biết do nằm ngoài từ điển (Out Of Vocabulary) tồn tại khá phổ biến trong các nghiên cứu CLIR. Các giải pháp ban đầu xử lý vấn đề này đề xuất việc xây dựng các từ điển chuyên ngành giới hạn chủ yếu cho việc xử lý các thuật ngữ kỹ thuật [119]. Một số nghiên cứu áp dụng kỹ thuật chuyển ngữ, phân tích sự tương tự trong cấu trúc tạo lập từ giữa hai ngôn ngữ để xây dựng các luật xác định một chuỗi kỹ tự ở ngôn ngữ này được áp dụng thế nào tại ngôn ngữ khác [28], [50]. Gần đây, các tác giả khai thác WWW để nhận dạng các mẫu chuyển ngữ dựa trên quan sát: khi các tên riêng, thuật ngữ mới xuất hiện trên các trang web, thường chúng sẽ đi kèm với văn bản gốc [170]. Các phân tích thống kê sau đó được áp dụng nhằm xác định bản dịch. Các liên kết ngôn ngữ Wikipedia cũng được sử dụng để tạo lập bản dịch cho các loại thuật ngữ loại này, tuy nhiên kết quả còn tương đối hạn chế. Trong luận án, tác giả tập trung nghiên cứu, đề xuất các phương pháp phân đoạn câu truy vấn ở ngôn ngữ nguồn - ngôn ngữ câu truy vấn (giới hạn ở câu truy vấn tiếng Việt) và điều chỉnh câu truy vấn tại ngôn ngữ đích - ngôn ngữ của các tài liệu cần tìm kiếm. - 73 - 3.2. PHÂN ĐOẠN CÂU TRUY VẤN 3.2.1. Sử dụng công cụ vnTagger VnTagger là một công cụ đánh dấu loại từ tự động, được áp dụng cho tiếng Việt19. Kết quả thực nghiệm đối với tiếng Việt cho độ chính xác là 93,13% [89]. Công cụ này có thể được sử dụng nhằm mục đích phân đoạn và xác định các từ khóa cần dịch trong câu truy vấn. Sau khi sử dụng công cụ vnTagger để thực hiện việc phân đoạn, các từ được tách được kiểm tra trong từ điển để kết xuất các bản dịch ứng viên. 3.2.2. Thuật toán WLQS Thuật toán WLQS (viết tắt của Word-length-based Query Segmentation) - do tác giả đề xuất và được trình bày tại [81] - thực hiện việc phân đoạn câu truy vấn dựa trên độ dài từ khóa. Việc đề xuất thuật toán trên cơ sở của giả thuyết: nếu một từ ghép (compound word) tồn tại trong từ điển và chứa các từ bên trong khác, bản dịch của từ ghép có xu hướng tốt hơn việc kết hợp bản dịch của các từ bên trong. Xem xét các từ chứa bên trong từ ghép: khi đứng một mình, một từ có thể có các ý nghĩa khác nhau; khi được kết hợp với một hay một số từ khác trong từ ghép, ý nghĩa của từ được xác định rõ hơn do phải phù hợp với ngữ cảnh đồng thời xuất hiện các từ khác, từ đó bản dịch cũng được xác định chính xác hơn. Ví dụ, với cụm từ "kinh tế biển", bản dịch "maritime economy" phù hợp hơn bản dịch "economy sea". Bên cạnh đó, một số từ ghép mang ý nghĩa khác hẳn so với các từ chứa bên trong. Ví dụ, với cụm từ "tàu sân bay" cần sử dụng bản dịch "aircraft carrier", còn bản dịch "train airport" thì không phù hợp. Thuật toán phân đoạn WLQS được trình bày như sau: Thuật toán phân đoạn WLQS Input: câu truy vấn tiếng Việt Output: một danh sách các phần tử, mỗi phần tử chứa từ khóa 19 https://code.google.com/p/vntagger-gate-plugin/downloads/list (truy cập ngày 15/01/2016) - 74 - tiếng Việt chứa trong câu truy vấn đi kèm với các phương án dịch Begin Kết xuất từ từ điển các từ chứa bên trong câu truy vấn, kèm theo các phương án dịch Với mỗi từ w trong danh sách: thêm cặp (w,translations) vào list_keyword nếu từ w chưa có trong list_keyword Kết xuất từ từ điển wiki các từ chứa bên trong câu truy vấn, kèm theo các phương án dịch Với mỗi từ w trong danh sách:

Các file đính kèm theo tài liệu này:

luan_an_mot_so_phuong_phap_phuc_vu_xep_hang_cac_trang_web_tr.pdf