Luận văn Xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin
MỤC LỤC MỞ ĐẦU . 10 Chương 1 : TỔNG QUAN . 13 1.1. Tổng quan vềtìm kiếm thông tin và hệthống tìm kiếm thông tin . 13 1.2. Tổng quan về đánh giá các hệthống tìm kiếm thông tin . 14 1.2.1. Lý do đểtiến hành đánh giá các hệthống tìm kiếm thông tin. 14 1.2.2. Các tiêu chuẩn được dùng để đánh giá . 15 1.2.3. Các mô hình đánh giá. 15 1.2.4. Các độ đo dùng để đánh giá . 18 1.2.5. Các phương pháp xây dựng bộngữliệu dùng để đánh giá . 18 1.2.6. Phương pháp xây dựng bộngữliệu được chọn . 20 1.2.7. Phương pháp đánh giá tầm quan trọng của kết quảtrảvề. 21 Chương 2 : CƠSỞLÝ THUYẾT. 22 2.1. Tìm kiếm thông tin và các hệthống tìm kiếm thông tin. 22 2.1.1. Lịch sửtìm kiếm thông tin và hệthống tìm kiếm thông tin . 22 2.1.2. Hệthống tìm kiếm thông tin. 25 2.1.2.1. Khái niệm vềhệthống tìm kiếm thông tin . 25 2.1.2.2. Cách thức hoạt động của hệthống tìm kiếm thông tin. 25 2.1.2.3. Các phương tiện tìm kiếm thông tin (Search Engines) . 27 2.1.3. So sánh tìm kiếm thông tin cổ điển và tìm kiếm thông tin trên Web . 29 2.1.4. So sánh tìm kiếm thông tin với tìm kiếm dữliệu . 30 2.1.5. Công thức trừu tượng trong tìm kiếm thông tin . 31 2.1.6. Các mô hình tìm kiếm thông tin cổ điển đểsắp thứtựliên quan . 32 2.1.6.1. Mô hình Đại sốBool . 32 2.1.6.2. Mô hình không gian vec-tơ. 33 2.2. Đánh giá các hệthống tìm kiếm thông tin . 36 2.2.1. Nền tảng đánh giá các hệthống tìm kiếm thông tin . 36 2.2.2. Mô hình đánh giá hướng hệthống . 37 2.2.2.1. TừCranfield đến TREC . 37 2.2.2.2. Thủtục đánh giá. 39 2.2.2.3. Đánh giá sựliên quan . 40 2.2.3. Thực hiện đo khảnăng tìm kiếm . 41 2.2.3.1. Các khái niệm về độ đo và liên quan . 41 2.2.3.2. Cách tính độbao phủ(R) và độchính xác (P). 42 2.2.3.3. Phương pháp tính độchính xác dựa trên 11 điểm chuẩn của độbao phủ44 2.2.3.3.1. Đồthịbiểu diễn hiệu suất thực thi hệthống tìm kiếm . 44 2.2.3.3.2. Đường cong độbao phủvà độchính xác RP. 45 2.2.3.3.3. Đường cong RP cho tập truy vấn . 47 2.2.3.3.4. Đánh giá hệthống tìm kiếm thông tin dựa vào đồthị. 48 2.2.3.4. Sựliên quan giữa câu hỏi và tài liệu . 49 2.2.3.4.1. Các độliên quan . 49 2.2.3.4.2. Các vấn đềvề độliên quan . 49 2.2.3.4.3. Đánh giá với độliên quan nhiều cấp độ. 51 2.2.3.4.4. Phương pháp đo độbao phủ(R), độchính xác (P) dựa trên độliên quan nhiều cấp độ. 53 2.2.4. TREC và đánh giá theo chuẩn TREC . 54 2.2.4.1. TREC là gì? . 54 2.2.4.2. Cách xây dựng ngữliệu của TREC. 56 2.2.4.2.1. Xây dựng tập hợp các tài liệu. 57 2.2.4.2.2. Xây dựng các chủ đề. 57 2.2.4.2.3. Xây dựng bảng đánh giá liên quan chuẩn. 58 2.3. Ngữliệu tiếng Việt . 59 2.3.1. Từ. 60 2.3.1.1. Quan niệm vềtừ. 60 2.3.1.2. Quan niệm vềhình vị. 61 2.3.1.3. Khái niệm vềcấu tạo từ. 61 2.3.2. Ranh giới từ. 62 Chương 3 : THIẾT KẾVÀ CÀI ĐẶT . 63 3.1. Xây dựng bộngữliệu dùng để đánh giá . 63 3.1.1. Xây dựng kho ngữliệu bằng tiếng Việt . 63 3.1.1.1. Chuẩn hóa ngữliệu . 63 3.1.1.1.1. Chuẩn hóa dạng ngữliệu . 63 3.1.1.1.2. Định dạng ngữliệu . 64 3.1.2. Xây dựng tập câu hỏi bằng tiếng Việt. 64 3.1.3. Tách từtiếng Việt . 65 3.1.4. Xây dựng bảng đánh giá. 65 3.1.4.1. Hệthống SMART . 66 3.1.4.1.1. Giới thiệu hệthống SMART . 66 3.1.4.1.2. Quá trình tìm kiếm thông tin của SMART . 66 3.1.4.1.3. Mô hình vec-tơcủa hệthống SMART . 67 3.1.4.1.4. Sửdụng mô hình vec-tơ. 69 3.1.4.2. Hệthống Search4Vn . 73 3.1.4.3. Hệthống TERRIER . 73 3.1.4.4. Hệthống X-IOTA . 74 3.1.4.5. Hệthống LUCENE . 74 3.2. Phân tích hệthống đánh giá các hệthống tìm kiếm thông tin . 74 3.2.1. Mô tảhệthống trợgiúp đánh giá. 74 3.2.1.1. Phát biểu bài toán . 74 3.2.1.2. Mục tiêu . 75 3.2.1.3. Phạm vi . 75 3.2.1.4. Chức năng . 75 3.2.1.5. Tính khảdụng . 76 3.2.1.6. Hiệu suất . 76 3.2.1.7. Tính bảo mật . 76 3.2.2. Phân tích hệthống đánh giá. 76 3.2.2.1. Chức năng của hệthống . 76 3.2.2.2. Chức năng yêu cầu . 77 3.2.2.2.1. Chức năng đánh giá một hệthống IR . 77 3.2.2.2.2. Chức năng so sánh nhiều hệthống IR . 77 3.2.2.2.3. Sơ đồuse case . 77 3.2.2.2.4. Sơ đồtuần tựhoạt động usecase. 79 3.3. Thiết kếhệthống đánh giá . 86 3.3.1. Các chức năng của chương trình. 86 3.3.1.1. Chức năng “Định dạng cơsởdữliệu tài liệu” . 86 3.3.1.2. Chức năng “Định dạng kết quảtrảvề”. 86 3.3.1.3. Chức năng “Định dạng file index” . 87 3.3.1.4. Chức năng “Thực thi hệthống IR” . 87 3.3.1.5. Chức năng “Xửlý kết quảtrảvề” . 87 3.3.1.6. Chức năng ”Đánh giá một hệthống IR”. 87 3.3.1.7. Chức năng “Đánh giá nhiều hệthống IR” . 87 3.3.2. Thiết kếhệthống . 88 3.3.2.1. Sơ đồkiến trúc tổng thể. 88 3.3.2.1.1. Danh sách các lớp đối tượng . 88 3.3.2.1.2. Lớp đối tượng thểhiện. 88 3.3.2.1.3. Lớp đối tượng xửlý. 91 3.3.2.1.4. Lớp đối tượng lưu trữ. 99 3.3.2.2. Sơ đồkiến trúc tổng quát cho từng chức năng của chương trình . 99 3.3.2.2.1. Chức năng “Định dạng tài liệu” . 99 3.3.2.2.2. Chức năng “Định dạng câu hỏi”.100 3.3.2.2.3. Chức năng “Thực thi hệthống”.101 3.3.2.2.4. Chức năng “Định dạng kết quả”.102 3.3.2.2.5. Chức năng “Định dạng file index”.103 3.3.2.2.6. Chức năng “Đánh giá và hiện thi kết quả đánh giá” .103 3.3.2.2.7. Chức năng ”So sánh các hệthống IR đã được thực thi”.104 3.3.2.3. Thiết kếdữliệu – tổchức lưu trữ.105 3.3.2.3.1. Mô hình dữliệu .105 3.3.2.3.2. Sơ đồlogic dữliệu.107 3.3.2.4. Tốchức lưu trữdữliệu .110 3.3.2.4.1. System.110 3.3.2.4.2. Topic.112 3.3.2.4.3. Index_topic.113 3.3.2.4.4. Document .114 3.3.2.4.5. Index_Doc.115 3.3.2.4.6. relevant_TT .115 3.3.2.4.7. relevant_LT .116 3.3.2.4.8. evaluation .117 3.3.2.5. Thiết kếgiao diện.119 3.3.2.5.1. Sơ đồliên hệgiữa các màn hình.119 3.3.2.6. Thiết kếmàn hình.122 3.3.2.6.1. Màn hình chính (TH_Main).122 3.3.2.6.2. Màn hình định dạng tài liệu (TH_DDTaiLieu).122 3.3.2.6.3. Màn hình tạo thuộc tính cho tài liệu (TH_TTTaiLieu) .124 3.3.2.6.4. Màn hình định dạng câu hỏi (TH_DDCauHoi).125 3.3.2.6.5. Màn hình tạo thuộc tính cho câu hỏi (TH_TTCauHoi).127 3.3.2.6.6. Màn hình xửlý điều kiện đểthực thi hệthống IR.128 3.3.2.6.7. Màn hình thực thi hệthống (TH_ThucThiHT).129 3.3.2.6.8. Màn hình định dạng kết quả(TH_DDKetQua).130 3.3.2.6.9. Màn hình định dạng thông tin index (TH_DDIndex).131 3.3.2.6.10. Màn hình đánh giá hệthống (TH_KqDanhGia).133 3.3.2.6.11. Màn hình xem đồthịcủa hệthống .136 3.3.2.6.12. Màn hình xem chi tiết (TH_XemChiTiet).136 3.3.2.6.13. Màn hình so sánh hệthống (TH_SoSanhHT).138 3.3.2.7. Thiết kếhệthống lớp đối tượng.139 3.3.2.7.1. Các lớp đối tượng xửlý.139 3.3.2.7.2. Các lớp đối tượng lưu trữ.169 Chương 4 : KẾT QUẢ ĐÁNH GIÁ . 171 4.1. Ngưỡng đánh giá .171 4.2. Đánh giá hệthống tìm kiếm thông tin search4VN .171 4.3. So sánh hệthống tìm kiếm search4VN và hệthống Lucene.177 4.4. Nhận xét chương trình hỗtrợ đánh giá hệthống tìm kiếm thông tin.179 4.4.1. Ưu điểm.179 4.4.2. Khuyết điểm .179 Chương 5 : KẾT LUẬN . 181 Chương 6 : HƯỚNG PHÁT TRIỂN. 182 PHỤLỤC . 183 Tài liệu tham khảo. 186
Các file đính kèm theo tài liệu này:
- Luận văn - Đánh giá các hệ thống tìm kiếm thông tin.pdf