Luận văn Xây dựng hệ tìm kiếm thông tin theo hướng tiếp cận ngữ nghĩa (Conceptual Indexing)

Mục lục

Chương 1. Tổng quan . 7

1.1 Bối cảnh hiện tại. 7

1.2 Mục tiêu, giới hạn và đóng góp của luận văn . 9

1.2.1 Mục tiêu luận văn . 9

1.2.2 Giới hạn luận văn. 10

1.2.3 Đóng góp của luận văn . 10

1.3 Bốcục của báo cáo. 11

Chương 2. Giới thiệu và khảo sát hệthống tìm kiếm thông tin. 13

2.1 Giới thiệu chung vềhệthống tìm kiếm thông tin . 13

2.1.1 Định nghĩa vềhệthống tìm kiếm thông tin . 13

2.1.2 Mục tiêu và chức năng của một hệthống tìm kiếm thông tin. 14

2.1.3 Kiến trúc chung của một hệthống tìm kiếm thông tin . 14

2.1.4 Phân loại hệthống tìm kiếm thông tin . 15

2.1.5 Tiêu chí để đánh giá một hệthống tìm kiếm thông tin . 16

2.2 Hệthống tìm kiếm dựa trên từkhóa . 18

2.2.1 Bộthu thập thông tin – Robot. 19

2.2.2 Bộlập chỉmục – Index . 19

2.2.3 Bộtruy vấn (bộtìm kiếm). 19

2.3 Hệthống tìm kiếm dựa trên khái niệm. 20

2.3.1 Bộthu thập thông tin . 22

2.3.2 Bộlập chỉmục khái niệm . 22

Quy trình chung của rút trích khái niệm . 23

2.3.3 Bộtruy vấn. 24

2.4 Khảo sát hiện trạng. 25

2.4.1 Khảo sát vềcác phương pháp lập chỉmục cho các tài liệu: . 28

2.4.2 Khảo sát vềcác phương pháp mởrộng khái niệm. 33

2.4.3 Khảo sát vềcác phương pháp rút trích khái niệm. 35

2.4.3.1 Rút trích từchỉmục từcác tài liệu . 35

2.4.3.2 So khớp các cụm từchỉmục với nguồn tri thức. 37

2.4.4 So sánh cách biểu diễn tri thức với cách biểu diễn tri thức của hệthống khác . 38

Chương 3. CIRS - Hệthống tìm kiếm thông tin dựa trên khái niệm. 40

3.1 Kiến trúc của CIRS . 40

3.2 Các bộphận cấu thành nên CIRS. 43

3.2.1 Bộlập chỉmục khái niệm . 43

3.2.2 Bộtruy vấn. 46

Chương 4. Các quá trình quan trọng trong CIRS . 48

4.1 Rút trích các khái niệm từtập các tài liệu và câu truy vấn. . 48

4.2 Phân loại tập khái niệm của các tài liệu . 50

4.2.1 Mục tiêu, ý nghĩa, cách tiếp cận của việc phân loại khái niệm . 50

4.2.2 Các thuật ngữ. 52

4.2.2.1 Độdài khái niệm: . 52

4.2.2.2 n-khái niệm, khái niệm ngắn, khái niệm dài, . 53

4.2.3 Quy trình phân loại khái niệm . 54

4.2.3.1 Giai đoạn 1: chuẩn hóa. . 55

4.2.3.2 Giai đoạn 2: loại bỏcác tag . 56

4.2.3.3 Giai đoạn 3: lấy thông tin vềcác khái niệm và vịtrí. 59

4.2.3.4 Giai đoạn 4: tính độdài khái niệm . 61

4.2.3.5 Giai đoạn 5: phân loại khái niệm. 62

4.3 Mởrộng tập khái niệm của các tài liệu và câu truy vấn. 63

4.3.1 Mục đích của việc mởrộng khái niệm. 63

4.3.2 Cách tiếp cận vềmởrộng khái niệm của CIRS . 63

4.3.3 Các mối quan hệ được hệthống CIRS sửdụng đểmởrộng khái niệm. 63

4.3.4 Quy trình mởrộng khái niệm trong hệthống CIRS . 66

4.3.4.1 Giai đoạn 1: rút trích các cặp khái niệm có quan hệvới nhau . 67

4.3.4.2 Giai đoạn 2: mởrộng khái niệm. 67

4.4 Lập chỉmục theo khái niệm trong CIRS. 69

4.4.1 Giai đoạn 1: tạo vector chỉmục . 70

4.4.2 Giai đoạn 2: tạo ma trận nghịch đảo . 72

4.5 So trùng trong CIRS. 73

4.6 Đánh giá hiệu quảcủa CIRS . 75

Chương 5. Nguồn tri thức, cơsởdữliệu và công cụ. 76

5.1 UMLS Metathesaurus . 76

5.1.1 Các thành phần trong UMLS Metathesaurus:. 77

5.1.1.1 Khái niệm: . 77

5.1.1.2 Mối quan hệ. 80

5.1.2 Các ngôn ngữmà UMLS Metathesaurus hỗtrợ. 81

5.1.3 Các tập tin định dạng RRF . 82

5.2 ImageCLEFmed . 86

5.2.1 Tổng quan vềImageCLEFmed. 86

5.2.2 ImageCLEFmed 2007. 87

5.2.2.1 Những bộdữliệu ảnh trong ImageCLEFmed 2007 . 87

5.2.2.2 Kích thước các tập dữliệu trong ImageCLEFmed 2007. 88

5.2.2.3 Hệthống tập tin trong ImageCLEFmed 2007 . 89

5.3 MetaMap . 92

5.3.1 Tổng quan . 92

5.3.2 Quá trình rút trích các khái niệm trong các tài liệu của MetaMap . 92

5.4 XIOTA . 95

5.4.1 Tổng quan vềXIOTA . 95

5.4.2 Hệthống các module trong XIOTA . 96

5.4.2.1 Conversion. 96

5.4.2.2 Indexing . 96

5.4.2.3 Querying . 97

5.4.2.4 Mining . 97

Chương 6. Hiện thực và kết quả. 99

6.1 Một sốmodule trong chương trình . 99

6.2 Thửnghiệm. . 101

6.2.1 Mục tiêu thửnghiệm. 101

6.2.2 Cách thức thửnghiệm . 101

6.3 Kết quảvà phân tích kết quả. 102

6.3.1 Các kết quảthửnghiệm trên từkhóa, các loại khái niệm, các mô hình . 102

6.3.2 Các kết quảthửnghiệm vềmởrộng khái niệm . 107

6.3.2.1 So sánh việc sửdụng các mối quan hệkhác nhau đểmởrộng tài liệu, khi

cùng sửdụng một mối quan hệ đểmởrộng câu truy vấn. 108

6.3.2.2 So sánh việc sửdụng các mối quan hệkhác nhau đểmởrộng câu truy vấn,

khi cùng sửdụng một mối quan hệ đểmởrộng tài liệu . 114

6.4 So sánh kết quảvới các hệthống khác. 120

6.4.1 So sánh kết quảvới hệthống tìm kiếm thông tin dựa trên từkhóa . 120

6.4.2 So sánh kết quảvới hệthống tìm kiếm dựa trên khái niệm sửdụng mô hình

mạng Bayes.121

6.4.3 So sánh kết quảvới hệthống MIRACLE . 122

Chương 7. Kết luận và hướng phát triển . 124

7.1 Kết luận . 124

7.2 Hướng phát triển . 125

Tài liệu tham khảo . 127

Phụlục: Các kết quảcủa Module 8 và 9. 132

6 trang | Chia sẻ: maiphuongdc | Lượt xem: 1757 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Luận văn Xây dựng hệ tìm kiếm thông tin theo hướng tiếp cận ngữ nghĩa (Conceptual Indexing), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

7 Chương 1. Tổng quan 1.1 Bối cảnh hiện tại Internet đã đóng góp một vai trò vô cùng quan trọng trong đời sống và được xem như là một trong những phát minh vĩ đại tạo ra một bước ngoặc vô cùng quan trọng trong lịch sử văn minh của nhân loại. Cùng với sự bùng nổ và phát triển nhanh chóng của World Wide Web, Internet trở thành nơi lưu trữ và chia sẻ tài nguyên trên toàn cầu. Theo thống kê của Netcraft, chuyên làm các báo cáo về Internet hàng tháng, đến tháng 8 năm 2008, tổng số các Website trên toàn thế giới đã lên đến gần 180 triệu và với tốc độ tăng trưởng rất nhanh1. Như vậy, thông tin được lưu trữ trên Internet ngày càng nhiều và phong phú. Internet trở thành kho tri thức khổng lồ của nhân loại. Nhu cầu tìm kiếm thông tin trong vô vàn các thông tin được lưu trữ trên Internet là một yêu cầu hết sức cần thiết. Vấn đề đặt ra là làm thế nào để khai thác hiệu quả những thông tin này. Các công cụ tìm kiếm hay còn được gọi là các động cơ tìm kiếm trên Internet (search engine) đã ra đời nhằm mục đích đáp ứng nhu cầu này. Chúng đã nhanh chóng trở thành những công cụ quan trọng, hỗ trợ con người trong việc tìm kiếm, khai thác, và sử dụng thông tin. Trong luận văn này, thuật ngữ động cơ tìm kiếm và công cụ tìm kiếm sẽ được sự dụng thay thế cho nhau. Thời gian gần đây, chúng ta nghe nhiều về ‘cuộc chiến các động cơ tìm kiếm’2 mà dẫn đầu đang là Google (google.com), tiếp theo là Yahoo (yahoo.com) và MSN (msn.com). Các động cơ tìm kiếm này đã nổi tiếng trên toàn thế giới, ngôn ngữ được hỗ trợ chính là tiếng Anh nhưng cũng sử dụng được với các ngôn ngữ khác. Với tham 1 2 8 vọng là xây dựng các động cơ tìm kiếm tận dụng những lợi thế địa phương của quốc gia về ngôn ngữ và văn hóa, các quốc gia cũng xây dựng các động cơ tìm kiếm riêng cho mình. Baidu (baidu.com) cua Trung Quốc hay Heeya (heeya.com) của Hàn Quốc là những ví dụ thành công của các động cơ tìm kiếm địa phương. Ở Việt Nam, các động cơ tìm kiếm như Xalo (xalo.vn), Timnhanh (timnhanh.com), VinaSeek (vinaseek.net) cũng đang có những đầu tư rất lớn để phục vụ cho việc tìm kiếm những trang Web tiếng Việt. Phần trình bày ở trên cho thấy sự tầm quan trọng và sự phát triển của các động cơ tìm kiếm thông tin. Tuy nhiên, các động cơ tìm kiếm hiện nay phần lớn vẫn dựa trên từ khóa (keywords). Tập hợp các từ khóa là dạng biểu diễn sơ lược nhất của nội dung, và do đó, cách biểu diễn này mang mức độ thông tin thấp nhất. Đó chính là lý do cơ bản khiến cho các động cơ tìm kiếm hiện nay có kết quả trả về không phải lúc nào cũng thỏa mãn yêu cầu tìm kiếm của người sử dụng, như là tỷ lệ số trang Web hữu ích trên tổng số trang Web trả về thấp, hoặc có thể không tìm thấy được những trang Web liên quan khi chúng được mô tả với những từ khóa khác với từ khóa mà người dùng tìm kiếm. Nhược điểm cơ bản này của các động cơ tìm kiếm đã gây ra không ít khó khăn cho người sử dụng trong việc tìm kiếm chính xác thông tin mình cần. Nói chung, công cụ tìm kiếm theo từ khóa có những khuyết điểm như sau: • Độ bao phủ không cao: Các từ đồng nghĩa nhau có thể bị bỏ qua. Các từ có thể có một hoặc nhiều từ đồng nghĩa hoặc gần nghĩa, hoặc nhiều từ khác nhau dùng cho nhiều địa phương khác nhau. Ví dụ từ bột ngọt còn có nghĩa là mì chính. Khi chúng ta muốn tìm các thông tin về bột ngọt mà chỉ nhập vào từ khóa bột ngọt thì tất cả những trang web chứa thông tin về mì chính sẽ không được trả về. 9 • Độ chính xác không cao: Kết quả trả về quá nhiều, mà nhiều trong số đó lại không chính xác vì một từ có thể có nhiều nghĩa. Trong hầu hết các ngôn ngữ, có nhiều từ mang nhiều hơn một nghĩa. Ví dụ từ bank trong tiếng anh vừa có nghĩa là ngân hàng, vừa có nghĩa là bờ sông. • Chỉ tìm kiếm trên một ngôn ngữ nhất định nào đó: các hệ thống tìm kiếm theo từ khóa chỉ giúp người dùng tìm kiếm từ khóa trên một ngôn ngữ nhất định nào đó. Người dùng không thể nhập vào một từ khóa để có được kết quả trả về trên nhiều ngôn ngữ khác nhau nếu như hai từ khóa đó không thuộc cả hai ngôn ngữ. Tìm kiếm theo từ khóa hiện đang thống trị thị trường công cụ tìm kiếm. Tuy nhiên, nó cũng đã bộc lộ những khuyết điểm nhất định. Vì vậy, tìm kiếm theo khái niệm được mong chờ sẽ giải quyết những vấn đề đang gặp phải của các công cụ tìm kiếm theo từ khóa. 1.2 Mục tiêu, giới hạn và đóng góp của luận văn 1.2.1 Mục tiêu luận văn Mục tiêu của luận văn là nghiên cứu tổng quan về hệ tìm kiếm thông tin. Trong đó, tập trung nghiên cứu các vấn đề về tìm kiếm dựa trên khái niệm gồm các phương pháp mở rộng khái niệm, các cách tiếp cận lập chỉ mục dựa trên khái niệm, các phương pháp rút trích khái niệm, tìm hiểu về nguồn cơ sở tri thức UMLS được sử dụng để rút trích khái niệm. Ngoài ra, mục tiêu của luận văn còn là xây dựng thử nghiệm một hệ thống tìm kiếm thông tin y học dựa trên khái niệm trên cơ sở những lý thuyết đã được nghiên cứu. 10 1.2.2 Giới hạn luận văn Việc xây dựng một hệ thống tìm kiếm dựa trên khái niệm tổng quát về mặt thực tế rất khó vì rất nhiều vấn đề cho đến nay vẫn còn khá mới hoặc vẫn chưa có lời giải tối ưu. Ngoài ra, muốn có các khái niệm thuộc lĩnh vực nào đó phải có tri thức về lĩnh vực đó. Việc xây dựng một cơ sở tri thức cho một lĩnh vực sẽ khó khăn vì đòi hỏi chuyên gia về lĩnh vực đó. Đó là lý do khiến các công cụ tìm kiếm theo khái niệm hiện nay chỉ hỗ trợ một lĩnh vực nhất định trong những ứng dụng cụ thể. Trong bối cảnh đó, với khuôn khổ của một luận văn thạc sỹ, chúng tôi cũng chỉ xây dựng hệ thống tìm kiếm thông tin dựa trên khái niệm trong một lĩnh vực cụ thể. Lĩnh vực được chọn trong luận văn này là lĩnh vực y khoa, cụ thể là sử dụng bộ dữ liệu ImageCLEFmed của CLEF. Hệ thống được xây dựng có tên là CIRS (Concept-based Information Retrieval System – hệ thống tìm kiếm thông tin dựa trên khái niệm). 1.2.3 Đóng góp của luận văn Luận văn đã có những đóng góp như sau: • Tìm hiểu về hệ thống tìm kiếm thông tin, đặc biệt là hệ thống tìm kiếm dựa trên khái niệm. • Khảo sát về các phương pháp tiếp cận rút trích khái niệm, lập chỉ mục khái niệm và mở rộng khái niệm. • Xây dựng được một hệ thống tìm kiếm dựa trên khái niệm. • Làm những thử nghiệm sau: - So sánh hiệu năng của một hệ thống tìm kiếm dựa trên khái niệm so với một hệ thống tìm kiếm dựa trên từ khóa. 11 - So sánh giữa việc sử dụng các tập khái niệm khác nhau để lập chỉ mục. - So sánh giữa việc sử dụng các mô hình lập chỉ mục khác nhau. - So sánh hiệu năng của một hệ thống tìm kiếm dựa trên khái niệm có mở rộng khái niệm và một hệ thống tìm kiếm dựa trên khái niệm không mở rộng khái niệm - So sánh hiệu quả giữa việc sử dụng các mối quan hệ khác nhau để mở rộng khái niệm cho câu truy vấn và cho tài liệu. 1.3 Bố cục của báo cáo Chương 1 giới thiệu về tổng quan của luận văn. Phần trình bày ở trên đã giới thiệu về bối cảnh hiện tại, trong đó nêu bật về giới hạn của các động cơ tìm kiếm hiện nay khi chỉ dựa trên từ khóa, từ đó cho thấy nhu cầu của việc tìm kiếm dựa trên khái niệm. Trong chương này, mục tiêu, giới hạn và đóng góp của đề tài cũng đã được trình bày. Các chương tiếp theo sẽ giới thiệu chi tiết hơn về các hệ thống tìm kiếm, về CIRS, và về các công cụ và tài nguyên được sử dụng, và thảo luận trên kết quả chạy thử của CIRS. Bắt đầu với việc giới thiệu các hệ thống tìm kiếm dựa trên từ khóa và phân tích các khuyết điểm của chúng. Từ đó cho thấy yêu cầu của các hệ thống tìm kiếm dựa trên khái niệm và đó cũng là động cơ cho việc xây dựng CIRS. Để xây dựng CIRS, các công cụ và tài nguyên như MetaMap, XIOTA, UMLS Metathesaurus sẽ được sử dụng. Kết quả thử nghiệm của CIRS trên CLEF cũng sẽ được trình bày và phân tích. Tất cả các điều trên sẽ được trình bày trong các chương tiếp theo. Cụ thể, bố cục của luận văn trong phần còn lại sẽ như sau: 12 • Chương 2: Giới thiệu và khảo sát hệ thống tìm kiếm: trình bày tổng quan về hệ thống tìm kiếm dựa trên từ khóa và hệ thống tìm kiếm dựa trên khái niệm. Một khảo sát về các động cơ tìm kiếm, đặc biệt là khảo sát về các phương pháp rút trích khái niệm và lập chỉ mục khái niệm cũng sẽ được trình bày. • Chương 3: Hệ thống CIRS, hệ thống tìm kiếm thông tin dựa trên khái niệm: giới thiệu kiến trúc, nguyên lý hoạt động, các bộ phận cấu thành nên CIRS. • Chương 4: Các quá trình quan trọng trong CIRS: giới thiệu chi tiết các quá trình quan trọng: từ quá trình rút trích khái niệm, phân loại khái niệm, mở rộng khái niệm đến lập chỉ mục, so trùng trong CIRS. • Chương 5: Nguồn tri thức, cơ sở dữ liệu và công cụ: giới thiệu về nguồn tri thức UMLS Metathesaurus, cơ sở dữ liệu ImageCLEFmed và công cụ MetaMap, XIOTA được sử dụng trong CIRS. • Chương 6: Hiện thực và kết quả: trình bày những module tạo nên hệ thống CIRS, hiện thực cách tiếp cận được trình bày trong chương 4. Từ đó người đọc có cái nhìn chi tiết hơn về bên trong của CIRS. Kết quả chạy thử của CIRS cũng sẽ đuợc trình bày và phân tích. • Chương 7: Kết luận và hướng phát triển. tóm tắt những gì đã đạt được của luận văn và giới thiệu những hướng nghiên cứu và mở rộng của đề tài trong tương lai.

Các file đính kèm theo tài liệu này:

5.pdf
0.pdf
1.pdf
2pdf.pdf
3.pdf
4_2.pdf
6.pdf
7.pdf
8.pdf
9.pdf
10.pdf
11.pdf
12.pdf
13.pdf