Luận văn Một giải pháp sử dụng cụm danh từ cho tìm kiếm trên khái niệm

Mục lục

Trang

LỜI CẢM ƠN. 3

Mục lục. 4

Danh mục các hình. 7

Danh mục các bảng. 8

Chương 1 : GIỚI THIỆU . 9 U

1.1 Lý do chọn đềtài. 9

1.2 Mục tiêu của luận văn . 11

1.3 Nội dung nghiên cứu. 11

Chương 2 : CÁC NGHIÊN CỨU VỀLẬP CHỈMỤC TRÊN KHÁI NIỆM . 13

2.1 Tổng quan. 13

2.2 Lập chỉmục trên khái niệm không so khớp tài liệu với Ontology. 14

2.2.1 Hướng tiếp cận xửlý phía câu truy vấn. 14

2.2.2 Hướng tiếp cận xứlý phía tài liệu. 17

2.2.3 Hướng tiếp cận phối hợp xửlý cảcâu truy vấn và tài liệu . 19

2.3 Lập chỉmục trên khái niệm có so khớp tài liệu với Ontology. 21

2.3.1 Xây dựng Ontology. 21

2.3.2 Lập chỉmục – Chỉsửdụng khái niệm . 22

2.3.3 Lập chỉmục – Sửdụng khái niệm và Mối kết hợp giữa chúng. 26

2.4 Lựa chọn của đềtài. 29

Chương 3 : PHÂN TÍCH CÚ PHÁP. 30

3.1 Tổng quan. 30

3.2 Tách từ. 31

3.3 Gán nhãn từloại . 32

3.3.1 Phát sinh tập luật điều chỉnh từloại. 32

3.3.2 Bổsung luật điều chỉnh từloại . 33

3.4 Gán nhãn ranh giới ngữ. 35

3.4.1 Phát sinh bộluật sửa nhãn ranh giới ngữ. 35

3.4.2 Bổsung luật sửa nhãn ranh giới ngữ. 37

3.5 Cấu trúc hóa cụm danh từ. 38

3.5.1 Cấu trúc của cụm danh từtiếng Việt . 38

3.5.2 Giải pháp cấu trúc hóa cụm danh từtiếng Việt . 41

Chương 4 : PHÁT SINH BIẾN THỂ. 46

4.1 Lý do phải phát sinh biến thể. 46

4.2 Các loại biến thểcủa cụm từ. 48

4.2.1 Biến thểhình thái. 48

4.2.2 Biến thểngữnghĩa . 49

4.2.3 Biến thểngữpháp. 51

4.3 Một sốkỹthuật phát sinh biến thểcho cụm từ. 53

4.3.1 Phát sinh bằng tài nguyên Ngôn ngữ. 53

4.3.2 Phát sinh bằng phương pháp thống kê . 54

4.3.3 Phát sinh bằng Heuristic. 55

4.3.4 Phát sinh bằng luật . 57

4.4 Một giải pháp phát sinh biến thểcho cụm danh từtiếng Việt. 62

4.4.1 Chiến lược phát sinh biến thể. 62

4.4.2 Bộluật phát sinh biến thể. 63

Chương 5 : ÁNH XẠTÀI LIỆU VÀO DANH MỤC KHÁI NIỆM. 73

5.1 Tổng quan. 73

5.2 Ontology sửdụng trong luận văn . 74

5.2.1 File MRCONSO.RRF . 74

5.2.2 File MRHIER.RRF. 75

5.2.3 Phạm vi của Ontology tiếng Việt. 75

5.3 Meta-map và ứng dụng cho tài liệu Y khoa tiếng Việt. 76

5.3.1 Các mức so khớp . 76

5.3.2 Các độ đo . 78

5.4 Conann và ứng dụng cho tài liệu Y khoa tiếng Việt . 83

5.4.1 Tiền xửlý. 83

5.4.2 Lần lọc thứ1 . 84

5.4.3 Lần lọc thứ2 . 84

5.4.4 Lần lọc thứ3 . 86

5.4.5 Ứng dụng cho tài liệu Y khoa tiếng Việt . 87

5.5 Kết hợp Meta-map và Conann khi ứng dụng cho tài liệu Y khoa tiếng Việt. 88

Chương 6 : KẾT QUẢTHỬNGHIỆM. 89

6.1 Mục tiêu thửnghiệm. 89

6.2 Phương pháp thửnghiệm. 89

6.2.1 Dữliệu thửnghiệm . 89

6.2.2 Dữliệu đánh giá. 90

6.2.3 Phương pháp tiến hành thửnghiệm . 91

6.3 Kết quảthửnghiệm . 94

6.3.1 Phân tích cú pháp. 94

6.3.2 Phát sinh biến thể. 95

6.3.3 Ánh xạtài liệu vào danh mục khái niệm . 95

Chương 7 : KẾT LUẬN . 99

7.1 Kết quả đạt được. 99

7.2 Những vấn đềcòn tồn tại . 99

7.3 Hướng phát triển . 100

TÀI LIỆU THAM KHẢO . 101

pdf4 trang | Chia sẻ: maiphuongdc | Lượt xem: 2091 | Lượt tải: 3download
Bạn đang xem nội dung tài liệu Luận văn Một giải pháp sử dụng cụm danh từ cho tìm kiếm trên khái niệm, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Trang 9 Chương 1 : GIỚI THIỆU 1.1 Lý do chọn đề tài Tri thức của nhân loại là một kho tàng to lớn và quý báu. Hàng ngày, một khối lượng khổng lồ những tri thức mới được bổ sung khiến kích thước kho tri thức nhân loại tăng trưởng nhanh chóng. Do vậy, việc tìm kiếm các tài liệu phù hợp cho nhu cầu thông tin của con người một cách thủ công là hoàn toàn không khả thi. Vì đó, nhiều công cụ tìm kiếm thông tin tự động đã được phát triển để phục vụ nhu cầu truy lục. Tuy nhiên, các giải pháp tìm kiếm thông tin hiện nay vẫn còn gặp phải một số hạn chế sau : (i) Việc lập chỉ mục chủ yếu dựa trên các từ khóa mà chưa quan tâm đến ngữ cảnh mà chúng xuất hiện cũng như mối liên hệ giữa chúng. Việc so khớp đơn thuần trên từ khóa có thể trả ra những tài liệu không phù hợp với nhu cầu thông tin của người dùng. (ii) Một thách thức lớn là ngôn ngữ vừa có thể đa nghĩa (tùy vào bối cảnh và lĩnh vực chuyên môn mà từ ngữ có thể mang các nghĩa khác nhau) lại vừa có thể đồng nghĩa (những từ ngữ khác nhau nhưng có cùng một nghĩa). Thông tin được biểu diễn qua ngôn ngữ bằng nhiều cách phong phú và gây nhiễu khiến tìm kiếm bằng từ khóa không thể hiệu quả được. (iii) Khi người dùng tìm kiếm thông tin, họ thường đồng thời quan tâm cả những thông tin có liên quan mật thiết với thông tin cần tìm (điều này đặc biệt phổ biến đối với nhu cầu truy lục tài liệu chuyên môn của các chuyên gia). Chẳng hạn như khi các Bác sĩ tìm kiếm tài liệu liến quan đến “Chứng đau thắt ngực”, sẽ rất hữu ích nếu họ được hỗ trợ tìm kiếm thêm những tài liệu liên quan đến ba nguyên nhân chính của “Chứng đau thắt ngực” là : “Phình động mạch vành”, “Xơ cứng động mạch Trang 10 vành” và “Huyết khối động mạch vành”. Các giải pháp tìm kiếm thông tin hiện có chưa đáp ứng được nhu cầu này. Từ đó mở ra hướng nghiên cứu để xây dựng một mô hình lập chỉ mục mới nhằm khắc phục các hạn chế trên và giúp tìm kiếm thông tin hiệu quả hơn : Mô hình lập chỉ mục dựa trên khái niệm. Theo [11], Lập chỉ mục dựa trên khái niệm là lập chỉ mục với tập từ chỉ mục là tập các khái niệm cho trước được tổ chức theo một cấu trúc Ontology. Các khái niệm được tìm kiếm dựa trên ngữ nghĩa của chúng thay vì đơn thuần dựa trên từ khóa, nhờ đó khắc phục hạn chế (i). Đến nay, các công trình nghiên cứu lập chỉ mục trên khái niệm cho tiếng Anh đã đạt được những thành tựu nhất định, nhưng kết quả nghiên cứu cho tiếng Việt còn hạn chế. Đề tài của luận văn nhắm đến việc xây dựng và thử nghiệm một hệ thống lập chỉ mục trên khái niệm cho tiếng Việt. Các khái niệm thường được thể hiện trong văn bản dưới dạng các cụm danh từ do đó trước hết luận văn sẽ tập trung xử lý rút trích cụm danh từ trong tài liệu như các khái niệm ứng viên. Trước khi tiến hành so khớp một cụm danh từ C rút trích được với các khái niệm trong Ontology, luận văn sẽ tiến hành phát sinh các biến thể (variants) của C. Mỗi biến thể là một cụm từ tương đương với cụm từ gốc C theo một nghĩa nào đấy và được phát sinh dựa trên tri thức về cấu trúc ngữ pháp của C. Cách làm này khắc phục được các hạn chế (ii). Ngoài ra, luận văn quan tâm hỗ trợ người dùng khả năng định hướng trong không gian khái niệm với các mối kết hợp (tổng quát hoá, chuyên biệt hóa, đồng nghĩa…) nên khắc phục được hạn chế (iii). Trang 11 1.2 Mục tiêu của luận văn Mục tiêu nghiên cứu của luận văn bao gồm những điểm sau : - Tìm hiểu các kỹ thuật và phương pháp lập chỉ mục trên khái niệm. - Tìm hiểu các kỹ thuật và phương pháp phát sinh biến thể cho cụm từ và việc ứng dụng nó trong lập chỉ mục trên khái niệm. - Tìm hiểu cấu trúc đặc thù của cụm danh từ tiếng Việt và đề xuất một giải pháp phát sinh biến thể cho cụm danh từ tiếng Việt nhằm phục vụ cho lập chỉ mục trên khái niệm tiếng Việt. - Tìm hiểu các phương pháp so khớp để so khớp các khái niệm trích ra từ tài liệu với các khái niệm trong một Ontology. - Vận dụng một số phương pháp đã tìm hiểu để xây dựng thử nghiệm một hệ thống lập chỉ mục trên khái niệm cho các tài liệu Y khoa tiếng Việt và so sánh kết quả. 1.3 Nội dung nghiên cứu Bài toán Lập chỉ mục trên khái niệm đã thu hút nhiều nỗ lực của cộng đồng nghiên cứu, nhất là khi tri thức nhân loại phát triển ngày càng đồ sộ và nhu cầu tìm kiếm thông tin hiệu quả trở nên cần thiết hơn bao giờ hết. Có nhiều hướng tiếp cận để giải quyết bài toán Lập chỉ mục trên khái niệm. Một bản khảo sát cô đọng các công trình nghiên cứu liên quan sẽ được trình bày trong chương 2 của luận văn. Nó giúp ta có được cái nhìn tổng thể về hiện trạng trong hướng nghiên cứu lập chỉ mục trên khái niệm. Bài toán lập chỉ mục trên khái niệm gặp một thách thức là khái niệm có thể được nói đến bằng nhiều tên gọi khác nhau. Những tên gọi này là các biến thể của nhau. Để rút trích hiệu quả các khái niệm từ tài liệu, cần nhận biết chúng dù chúng được đề cập bằng tên gọi nào. Do đó luận văn quan tâm việc phát sinh biến thể của cụm từ, cụ thể là cụm danh từ (vì người ta dùng cụm danh từ để gọi tên khái niệm). Một Trang 12 giới thiệu tổng quan về các loại biến thể cùng với các kỹ thuật phát sinh biến thể tương ứng được trình bày trong chương 4 của luận văn. Cũng trong chương này, luận văn trình bày giải pháp phát sinh biến thể của mình để phục vụ cho việc lập chỉ mục trên khái niệm. Cụm danh từ cần được rút trích từ tài liệu trước khi các biến thể của chúng được phát sinh và trước khi ánh xạ tài liệu vào khái niệm trong Ontology. Chương 3 của luận văn trình bày một giải pháp rút trích cụm danh từ trong tài liệu tiếng Việt và hệ thống cài đặt giải pháp ấy [7]. Giải pháp này có những xử lý đặc biệt phục vụ cho mục tiêu phát sinh biến thể cho các cụm danh từ rút trích được. Với hướng tiếp cận luận văn chọn theo, kết quả sau cùng của hệ thống lập chỉ mục trên khái niệm biểu diễn mỗi tài liệu bằng một vector các khái niệm (trong Ontology) liên quan. Do vậy việc ánh xạ tài liệu vào Ontology là một xử lý quan trọng. Chương 5 của luận văn trình bày các giải pháp ánh xạ mà luận văn sử dụng và hệ thống cài đặt thử nghiệm các giải pháp ấy [27] Kết quả thử nghiệm của luận văn được trình bày trong chương 6. Luận văn sử dụng bộ dữ liệu đánh giá được xây dựng bởi [11] và hiệu chỉnh lại bởi [27]. Sau cùng, các kết luận cùng một số hướng phát triển được trình bày trong chương 7 của luận văn.

Các file đính kèm theo tài liệu này:

  • pdf5_2.pdf
  • pdf1_2.pdf
  • pdf2_2.pdf
  • pdf3.pdf
  • pdf4.pdf
  • pdf6_4.pdf
  • pdf7.pdf
  • pdf8.pdf
  • pdf9.pdf
  • pdf10_3.pdf
  • pdf11.pdf
  • pdf12.pdf