Luận văn Xây dựng một hệ thống hỏi-đáp tự động phục vụ tư vấn ghi danh trực tuyến

Mục lục

MỞ ĐẦU. 1 U

Chương 1. TỔNG QUAN VỀHỆTHỐNG HỎI-ĐÁP TỰ ĐỘNG. 4

1.1 Hệthống hỏi-đáp tự động. 4

1.2 Sơlược lịch sửphát triển. 5

1.3 Kiến trúc hệthống hỏi-đáp. 7

1.3.1 Giao diện người dùng (User Interface).9

1.3.2 Phân tích câu hỏi (Question Analyzer).9

1.3.3 Tìm kiếm dữliệu (Data Retrieval).10

1.3.4 Rút trích câu trảlời (Answer Extraction).11

1.3.5 Chiến lược xếp hạng (Ranking).11

1.3.6 Xác minh câu trảlời (Answer Verification).12

1.4 Một sốvấn đềquan tâm khi xây dựng hệthống hỏi đáp. 12

1.5 Hệthống hỏi-đáp tiếng Việt. 13

Chương 2. CÁC PHƯƠNG PHÁP PHÂN TÍCH CÂU HỎI VÀ TÌM KIẾM THÔNG

TIN TRONG HỆTHỐNG HỎI ĐÁP. 15

2.1 Phương pháp phân tích câu hỏi. 15

2.1.1 Phương pháp nông(Shallow Method).16

2.1.2 Phương pháp sâu (Deep Method) .16

2.2 Vấn đềphân tích câu hỏi trong ngôn ngữtiếng Việt. 17

2.3 Tìm kiếm thông tin. 18

2.4 Mô hình không gian vector (Vector Space Model). 19

2.4.1 Phương pháp trọng sốtf-idf.20

2.4.2 Xác định độtương tựgiữa hai tài liệu.20

2.4.3 Hạn chếcủa mô hình vector.21

2.4.4 Chuẩn hóa trọng sốtf-idf.21

2.5 Phương pháp gom cụm dữliệu. 21

2.5.1 Thuật toán K-Means.23

2.5.2 Thuật toán HAC.25

Chương 3. GIẢI PHÁP VÀ THỬNGHIỆM HỆTHỐNG HỎI-ĐÁP TỰ ĐỘNG

PHỤC VỤTƯVẤN GHI DANH TRỰC TUYẾN. 27

3.1 Mục tiêu. 28

3.2 Giải pháp. 29

3.2.1 Giai đoạn phân tích truy vấn.30

3.2.2 Giai đoạn so khớp câu hỏi.32

3.2.3 Giai đoạn so khớp câu trảlời.33

3.2.4 Xây dựng bộdữliệu thửnghiệm.34

3.3 Chương trình cài đặt. 39

3.4 Thửnghiệm. 40

3.4.1 Mục tiêu thửnghiệm.40

3.4.2 Kếhoạch thửnghiệm.41

3.4.3 Kết quảthửnghiệm.42

Chương 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN. 51

4.1 Kết luận. 51

4.2 Hướng phát triển của luận văn. 52

TÀI LIỆU THAM KHẢO. 53

PHỤLỤC. 56

pdf3 trang | Chia sẻ: maiphuongdc | Lượt xem: 3037 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Luận văn Xây dựng một hệ thống hỏi-đáp tự động phục vụ tư vấn ghi danh trực tuyến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Trang 1 MỞ ĐẦU Bối cảnh thực hiện luận văn Ngày nay, với sự phát triển của Internet, con người được thừa hưởng một kho tài liệu khổng lồ của nhân loại với vô số tri thức từ rất nhiều lĩnh vực khác nhau. Từ Internet, con người có thể tìm kiếm được các thông tin mà họ cần bằng cách sử dụng các công cụ tìm kiếm thông dụng hiện nay như Google, Yahoo!,... Các công cụ tìm kiếm này đã giúp cho người dùng tìm kiếm thông tin được nhanh chóng và dễ dàng. Trong khi các hệ thống tìm kiếm thông tin chỉ có thể cung cấp các tài liệu liên quan và chúng ta phải tự tìm trong đó câu trả lời cho nhu cầu thông tin của mình, hệ thống hỏi đáp lại có thể cho ta câu trả lời ở dạng ngắn gọn, súc tích chứ không phải một tập tài liệu. Tuy nhiên để có thể có câu trả lời thường phải sử dụng kết hợp nhiều phương pháp liên quan đến nhiều lĩnh vực khác nhau, bao gồm ba lĩnh vực chính là xử lý ngôn ngữ tự nhiên (Natural Language Processing), tìm kiếm thông tin (Information Retrieval) và rút trích thông tin (Information Extraction). Hệ thống hỏi-đáp hỗ trợ trả lời nhiều loại câu hỏi khác nhau như câu hỏi về sự vật, sự kiện, định nghĩa, danh sách, quá trình, cách thức, lý do… trên nhiều lĩnh vực khác nhau. Các hệ thống hỏi-đáp tự động dành cho tiếng Anh đã được nghiên cứu rất nhiều [2], ứng dụng trên nhiều lĩnh vực khác nhau, đặc biệt là tìm kiếm câu trả lời từ kho dữ liệu khổng lồ Internet. Các hệ thống hỏi-đáp cho tiếng Việt còn sơ khởi và chưa được ứng dụng rộng rãi. Vì thế, việc nghiên cứu và thử nghiệm hệ thống hỏi-đáp cho tiếng Việt là một việc làm có ý nghĩa và thiết thực. Cùng với sự phát triển của Internet, nhu cầu trao đổi thông tin trên các diễn đàn ngày càng cao. Minh chứng là các diễn đàn trên mạng ngày một nhiều. Rất nhiều diễn đàn tư vấn trực tuyến phục vụ học tập cũng ra đời. Các câu hỏi được gởi lên diễn đàn để được các chuyên gia trong các lĩnh vực đó giải đáp. Khi số lượng Trang 2 câu hỏi ngày càng nhiều và lặp đi lặp lại thì việc trả lời thủ công như vậy là không khả thi, hệ thống hỏi-đáp là một phương pháp hữu hiệu để trả lời tự động. Đây là một nhu cầu cần thiết. Diễn đàn tư vấn là một nhánh ứng dụng của hệ thống hỏi-đáp tự động. Đặc điểm của hệ thống hỏi-đáp cho tư vấn ghi danh trực tuyến Hệ thống hỏi-đáp phục vụ cho tư vấn ghi danh trực tuyến là một hệ thống hỏi-đáp cho một miền xác định là tư vấn ghi danh. Khác với hệ thống hỏi-đáp truyền thống, hầu hết các câu hỏi đều thuộc loại câu hỏi sự kiện, thường chỉ gồm một câu hỏi và câu trả lời có thể là một cụm từ ngắn, hệ thống hỏi-đáp cho diễn đàn nói chung cũng như hệ thống hỏi-đáp cho tư vấn ghi danh trực tuyến nói riêng phải giải quyết được các đặc trưng rất riêng của chúng, đó là: - Câu hỏi có thể gồm nhiều câu, nhiều ý hỏi. Ví dụ: “em đã passed 2 môn BSCI và BCMSN ở TTTH và tháng 6/2005 và bây giờ em muốn đăng ký thi 2 môn còn lại thì phải làm thế nào ạ? cho em hỏi học phí bằng B là bao nhiêu, giờ đăng ký được giảm 20% đúng không ạ?” - Câu hỏi có thể không rõ ràng và có thể lặp lại các ý hỏi. Ví dụ: “Cho em hỏi ngày khai giảng lớp java được không? Và nếu chưa biết gì về lập trình, cũng có biết sơ sơ thì có thể vào học lớp java căn bản không? Thời gian học, học phí và ngày khai giảng và học trong bao lâu” - Nhiều lọai câu hỏi khác nhau như câu hỏi sự kiện, câu hỏi dạng danh sách, câu hỏi cách thức, câu hỏi lý do… Ví dụ câu hỏi sự kiện như “ Cho em hỏi ngày khai giảng khóa J2EE”, câu hỏi cách thức như “Làm thế nào để có thể được giảm học phí?”… - Câu hỏi có thể thuộc về nhiều chủ đề khác nhau. Ví dụ như các câu hỏi về ngày khai giảng khóa họa, về đối tượng miễn học phí, về thủ tục nhập học… - Dữ liệu bao gồm một cặp hỏi-đáp đã có nên có thể không có nhu cầu rút trích câu trả lời từ một tài liệu. Trang 3 Đặc thù rất riêng của diễn đàn tư vấn trực tuyến cần có những phương pháp riêng để giải quyết. Mục tiêu của luận văn Mục tiêu của luận văn là nghiên cứu tổng quát về hệ thống hỏi-đáp tự động, tập trung nghiên cứu các phương pháp có thể áp dụng cho ngôn ngữ tiếng Việt dựa trên những thành quả xử lý ngôn ngữ tiếng Việt đã có. Dựa trên những nghiên cứu này, xây dựng thử nghiệm hệ thống hỏi-đáp tự động tiếng Việt cho một miền cụ thể là diễn đàn tư vấn ghi danh trực tuyến. Những nghiên cứu này làm cơ sở lý thuyết cũng như thực nghiệm cho việc xây dựng các hệ thống hỏi-đáp tiếng Việt có hiệu quả trong tương lai. Đóng góp của luận văn • Nghiên cứu tổng quan về lĩnh vực hỏi-đáp tự động (Question Answering). • Tìm hiểu các phương pháp phân tích câu hỏi. • Tìm hiểu các phương pháp tìm kiếm văn bản. • Xây dựng thử nghiệm hệ thống hỏi-đáp tự động phục vụ tư vấn ghi danh trực tuyến. Cấu trúc của luận văn Luận văn được trình bày gồm 4 chương, danh sách các hình vẽ, danh sách các bảng, tài liệu tham khảo và phụ lục. Chương 1: Tổng quan và hiện trạng các hệ thống hỏi đáp (QA). Chương 2: Các phương pháp phân tích câu hỏi và tìm kiếm thông tin trong hệ thống hỏi-đáp. Chương 3: Giải pháp và thử nghiệm hệ thống hỏi-đáp phục vụ tư vấn ghi danh trực tuyến. Chương 4: Kết luận và hướng phát triển.

Các file đính kèm theo tài liệu này:

  • pdf4.pdf
  • pdf0_2.pdf
  • pdf1_2.pdf
  • pdf2_2.pdf
  • pdf3.pdf
  • pdf5_2.pdf
  • pdf6_4.pdf
  • pdf7.pdf
  • pdf8.pdf
  • pdf9.pdf
  • pdf10_3.pdf