Luận văn Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh

MỤC LỤC

MỤC LỤC . 3

DANH MỤC CÁC BẢNG . 5

DANHMỤC CÁC HÌNH VẼ . 6

MỞ ĐẦU . 7

Chương 1: GIỚI THIỆU. 9

1.1 Giới thiệu về tìm kiếm thông tin (Information Retrieval) . 9

1.2 Tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval) . 11

1.2.1 Khái niệm . 11

1.2.2 Mô hình chung . 11

1.2.3 Các vấn đề. 12

1.3 Các hướng tiếp cận . 13

1.3.1 Dịch máy. 13

1.3.2 Sử dụng từ điển . 14

1.3.3 Sử dụng ngữ liệu . 15

1.4 Một số công trình nghiên cứu trong và ngoài nước . 16

1.5 Giới thiệu luận văn. 16

Chương 2: CƠ SỞ LÝ THUYẾT. 18

2.1 Giới thiệu về từ điển máy đọc (Machine Readable Dictionary –MRD) . 18

2.1.1 Vai trò của MRD . 18

2.1.2 Sử dụng từ điển . 19

2.2 Các phương pháp khử nhập nhằng . 20

2.2.1 Giới thiệu . 20

2.2.2 Khử nhập nhằng . 20

2.3 Mô hình thống kê . 25

2.3.1 Giới thiệu . 25

2.3.2 Dịch bằng xác suất thống kê . 25

2.3.3 Mô hình ngôn ngữ . 28

2.3.4 Liên kết từ. 28

2.3.5 Mô hình dịch . 29

2.4 Kết luận . 33

Chương 3: CÁC KỸ THUẬT LIÊN QUAN . 34

3.1 Tìm kiếm dựa trên MRD . 34

3.2 Công cụ GIZA++ . 36

3.2.1 Cấu trúc đầu vào của GIZA++ . 36

3.2.2 Cấu trúc đầu ra của GIZA++ . 37

3.2.3 Sử dụng GIZA++ . 37

3.3 Kết luận . 38

Chương 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM. 39

4.1 Kiến trúc hệ thống. 39

4.1.1 Từ điển. 40

4.1.2 Thống kê từ ngữ liệu . 41

4.1.3 Chương trình thử nghiệm . 42

4.2 Khai thác ngữ liệu song song . 45

4.3 Kết quả thử nghiệm. 51

4.4 Đánh giá thử nghiệm . 55

4.4.1 Nhận xét việc chuyển ngữ . 55

4.4.2 Đánh giá kết quả thử nghiệm . 57

Chương 5: ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN. 62

5.1 Đánh giá . 62

5.2 Hướng ứng dụng và phát triển . 62

TÀI LIỆU THAM KHẢO . 65

pdf9 trang | Chia sẻ: maiphuongdc | Lượt xem: 1790 | Lượt tải: 2download
Bạn đang xem nội dung tài liệu Luận văn Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
9 Chương 1: GIỚI THIỆU Chương này sẽ trình bày khái quát về hệ tìm kiếm thông tin, hệ tìm kiếm thông tin xuyên ngữ. Giới thiệu các cách tiếp cận của tìm kiếm thông tin xuyên ngữ cũng như khảo sát về các nghiên cứu trong và ngoài nước trong lĩnh vực này. Nội dung trình bày gồm các phần:  Tìm kiếm thông tin.  Tìm kiếm thông tin xuyên ngữ.  Các hướng tiếp cận tìm kiếm thông tin xuyên ngữ.  Các nghiên cứu trong và ngoài nước.  Giới thiệu về luận văn. 1.1 Giới thiệu về tìm kiếm thông tin (Information Retrieval) Mục đích của hệ thống tìm kiếm thông tin là trả về các thông tin liên quan nhất đến nhu cầu thông tin của người dùng. Nhu cầu thông tin của người dùng ở đây có thể xem như là một câu truy vấn. Thông tin liên quan ở đây có thể là một câu, một đoạn hay sách, báo… mà ta sẽ gọi chung là tài liệu. Hệ thống tìm kiếm thông tin thường gặp phải vấn đề sự khác biệt giữa câu truy vấn và tài liệu. Một ví dụ là câu truy vấn thì ngắn (có thể là chỉ một hoặc hai từ và thậm chí các từ này là những từ không thông dụng) trong khi tài liệu thì có thể dài hàng trăm trang. Một vấn đề khác đó là những từ trong câu truy vấn của người dùng khác xa với những gì được trình bày trong các tài liệu. Đây chính là vấn đề về diễn giải. Để khắc phục vấn đề này các hệ thống tìm kiếm thông tin thường tạo ra các hàm biểu diễn để xử lý câu truy vấn và tài liệu khác nhau để đạt được dạng biểu diễn tương quan. 10 Hình 1.1 Mô hình hệ thống tìm kiếm thông tin Hình 1.1 minh họa quá trình biểu diễn thông tin và so sánh các dạng biểu diễn của hệ thống tìm kiếm thông tin. Một hệ tìm kiếm thông tin lý tưởng là các kết quả của hàm so khớp hoàn toàn phù hợp với sự đánh giá của con người về mức độ liên quan của câu truy vấn và tài liệu. Một qui trình tìm kiếm thông tin thường diễn ra như sau:  Người dùng muốn xem tài liệu liên quan đến một chủ đề nào đó.  Người dùng cung cấp thông tin về chủ đề đó dưới dạng câu truy vấn.  Từ câu truy vấn này hệ thống sẽ tự động tạo ra các cụm từ chỉ mục.  Các cụm từ chỉ mục này sẽ được dùng để so khớp với các từ chỉ mục của tài liệu đã được xử lý trước. Hệ thống sẽ trả về các tài liệu được cho là liên quan nhất với câu truy vấn (thông qua bước so khớp trên) cho người dùng. Hàm biểu diển tài liệu Hàm biểu diển câu truy vấn Câu truy vấn Tài liệu Biểu diễn của câu truy vấn Biểu diễn của tài liệu Hàm so khớp 11 1.2 Tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval) 1.2.1 Khái niệm Hệ thống tìm kiếm thông tin xuyên ngữ (CLIR) là hệ thống tìm kiếm thông tin mà cho phép người dùng sử dụng câu truy vấn bằng một ngôn ngữ để tìm kiếm các tài liệu liên quan ở một ngôn ngữ khác. Đối tượng sử dụng hệ thống tìm kiếm thông tin xuyên ngữ là:  Những người có khả năng đọc các tài liệu tiếng nước ngoài, nhưng gặp khó khăn khi tạo câu truy vấn bằng ngôn ngữ đó.  Những người gặp khó khăn khi đọc hay tìm kiếm các tài liệu tiếng nước ngoài có thể sử dụng hệ thống tìm kiếm xuyên ngữ sau đó sử dụng dịch máy để có thể đọc được các tài liệu do hệ thống trả về.  Những người biết các từ khóa hoặc cụm từ tiếng nước ngoài, và muốn đọc các tài liệu có liên quan với những từ khóa hoặc cụm từ đó bằng ngôn ngữ bản xứ. 1.2.2 Mô hình chung Vì câu truy vấn của người dùng và các tài liệu được tìm kiếm là hai ngôn ngữ khác nhau nên hệ thống tìm kiếm xuyên ngữ bao gồm hai quy trình đó là: quy trình chuyện ngữ và quy trình tìm kiếm theo mô hình tìm kiếm của các hệ tìm kiếm đơn ngữ. Có hai cách thực hiện các quy trình trên:  Thực hiện việc chuyển ngữ câu truy vấn sang ngôn ngữ cần tìm kiếm. Sau đó thực hiện tìm kiếm đơn ngữ trên câu truy vấn vừa dịch.  Thực hiện việc tìm kiếm đơn ngữ trên ngôn ngữ của câu truy vấn, sau đó thực hiện chuyển ngữ trên các tài liệu nhận được. 12 1.2.3 Các vấn đề Trong các hệ tìm kiếm xuyên ngữ câu truy vấn và các tài liệu được tìm kiếm ở hai ngôn ngữ khác nhau do có cần phải thực hiện hai qui trình khác nhau trong tìm kiếm xuyên ngữ: đó là chuyển ngữ và tìm kiếm thông tin đơn ngữ. Do đó một hệ tìm kiếm thông tin xuyên ngữ cũng phải giải quyết cùng các vấn đề như một hệ tìm kiếm thông tin đơn ngữ, bên cạnh đó hệ tìm kiếm thông tin xuyên ngữ còn phải giải quyết các vấn đề phát sinh do qui trình chuyển ngữ gây ra. Quá trình chuyển ngữ, hay còn có thể gọi là quá trình dịch đã làm phát sinh nhiều vấn đề trong các hệ thống tìm kiếm thông tin xuyên ngữ. Vấn đề đầu tiên là cách biểu diễn của một từ trong ngôn ngữ này sẽ được viết như thế nào trong ngôn ngữ khác. Vấn đề thứ hai là làm sao chọn được cách dịch nào sẽ được giữ lại khi một từ có nhiều cách dịch sang ngôn ngữ khác. Vấn đề thứ ba là nếu có nhiều bản dịch được chọn, làm sao xác định được tầm quan trọng khác nhau giữa các bản dịch này. Hai vấn đề đầu tiên, làm sao để dịch và làm sao để loại bỏ bớt bản dịch, là các vấn đề giống như vấn đề của các hệ thống dịch máy. Tuy nhiên không giống các hệ thống dịch máy cần phải có những bản dịch chính xác, các hệ thống tìm kiếm xuyên ngữ có thể giữ lại một số cách dịch và loại bỏ một vài cách dịch khác bằng cách khử nhập nhằng. Việc giữ lại nhiều hơn một cách dịch giúp cho hệ thống tìm kiếm gia tăng độ bao phủ của nó. Vấn đề thứ ba của hệ tìm kiếm xuyên ngữ có liên quan đến cách xử lý các bản dịch tương đương để đánh giá mức độ quan trọng của các bản dịch này trong việc tìm kiếm. Giả sử rằng câu truy vấn ban đầu có hai từ phân biệt. Nếu từ đầu tiên có thể được dịch sang nhiều cách khác nhau, và nếu từ thứ hai chỉ có thể được dịch sang một cách duy nhất, thì hệ thống tìm kiếm xuyên ngữ sẽ không tăng trọng số cho từ đầu tiên, bởi vì nó có nhiều lựa chọn khi dịch. Điều này minh họa cho vấn đề tính trọng số của các cách dịch, đặc biệt là đối với hệ thống tìm kiếm xuyên ngữ. Một tài liệu chứa một cách dịch của mỗi từ trong câu truy vấn sẽ có độ liên quan 13 nhiều hơn một tài liệu chứa nhiều cách dịch khác nhau của từ đầu tiên trong câu truy vấn nhưng không chứa cách dịch nào của từ thứ hai. 1.3 Các hướng tiếp cận Việc phân loại các hướng tiếp cận của CLIR dựa trên phương pháp được sử dụng trong quá trình chuyển ngữ. 1.3.1 Dịch máy Sử dụng dịch máy trong hệ tìm kiếm thông tin xuyên ngữ giúp quá trình chuyển ngữ diễn ra một cách tự động tuy nhiên, hệ thống dịch máy có một điểm yếu đó là nó chỉ có thể cung cấp các bản dịch có chất lượng cao ở một số lĩnh vực giới hạn. Ta có thể sử dụng dịch máy để chuyển ngữ câu truy vấn sang ngôn ngữ cần tìm kiếm hoặc chuyển ngữ các tài liệu sang ngôn ngữ của câu truy vấn. Các câu truy vấn thường ngắn và thiếu các thông tin về cú pháp, trong khi đó các hệ thống dịch máy thường sử dụng các thông tin này để đưa ra các bản dịch chính xác cho những gì cần dịch. Ngoài ra, các hệ thống dịch máy luôn chọn ra một bản dịch tốt nhất cho các câu được dịch, trong khi đó các hệ thống tìm kiếm xuyên ngữ có thể chấp nhận việc có nhiều hơn một bản dịch cho câu truy vấn để tăng độ bao phủ của việc tìm kiếm. Chúng ta có thể khắc phục khuyết điểm này bằng cách dịch các tài liệu thay vì dịch câu truy vấn. Bởi vì các tài liệu thường dài hơn các câu truy vấn và có nhiều thông tin về ngữ cảnh hơn, vì vậy một hệ thống dịch máy sẽ dịch tài liệu tốt hơn là nếu dùng nó để dịch câu truy vấn. Tuy nhiên, việc sử dụng dịch máy để dịch tài liệu tốn một chi phí rất lớn, vì có rất nhiều tài liệu cần dịch. Hơn nữa, việc hệ thống máy dịch cố gắng đưa ra bản dịch tốt nhất cho tất cả các từ trong văn bản sẽ làm giảm hiệu quả của hệ tìm kiếm thông tin. Vì các tài liệu thường dài và thường chứa nhiều từ kể cả các từ không cần sử dụng cho các hệ tìm kiếm thông tin, trong khi đó hệ thống dịch máy sẽ chuyển ngữ luôn cả các từ này. Việc sử dụng dịch máy có thể giúp quá trình chuyển ngữ diễn ra một cách tự động và nhanh chóng nhưng có hai vấn đề cần phải quan tâm, đó là chất lượng của 14 bản dịch và vấn đề về chi phí. Các hệ thống dịch máy hiện nay đôi khi cho các bản dịch có chất lượng thấp và chi phí lại cao nên việc sử dụng dịch máy trong hệ tìm kiếm xuyên ngữ cũng còn nhiều hạn chế. 1.3.2 Sử dụng từ điển Bên cạnh việc sử dụng các hệ thống dịch máy để chuyển ngữ, ta còn có thể sử dụng các từ điển song ngữ hay đa ngữ. Các từ điển song ngữ có thể dùng cho máy tính ngày càng nhiều giúp cho việc chuyển ngữ bằng từ điển có thể thực hiện dễ dàng hơn. Tuy nhiên, bên cạnh đó các từ điển này cũng đặt ra nhiều vấn đề khi sử dụng chúng. Nội dung từ điển cung cấp nhiều thông tin hữu ích cho con người sử dụng. Việc tận dụng các thông tin này để máy tính có thể hiểu được cũng tốn không ít chi phí. Việc sử dụng từ điển trong hệ tìm kiếm thông tin xuyên ngữ cần phải giải quyết nhiều vấn đề về ngôn ngữ. Một vài vấn đề có thể liệt kê như sau: vấn đề về định dạng của từ ví dụ như trong các từ điển tiếng Anh ta có thể thấy từ electrostatic trong khi đó có thể ta sẽ không tìm thấy từ electrostatically trong từ điển vì người đọc có thể suy ra được từ từ kia; hay vấn đề về chính tả như trong các từ điển song ngữ tiếng Anh chỉ có lưu trữ một cách viết hoặc là colour hoặc là color, hay trong tiếng Việt hiện nay vẫn chưa có sự thống nhất trong cách bỏ dấu của từ như các từ hóa hay hoá. Bên cạnh đó ta còn gặp các vấn đề về độ bao phủ các từ trong từ điển, vì các từ điển thường chỉ chứa các từ phổ biến trong một ngôn ngữ và thường thiếu các từ kỹ thuật hay chuyên ngành, các từ này chỉ có thể tìm được trong các từ điển chuyên ngành hay về các danh từ riêng như tên người hay tên đất nước cũng cần dịch khi thực hiện chuyển ngữ, trong một số ngôn ngữ các danh từ riêng đôi khi được giữ lại như nguyên gốc đôi khi lại chuyển sang một cách viết khác. Ngoài ra, khi có thể tìm được từ trong từ điển thì việc dịch một cách chính xác từ từ điển đôi khi cũng gặp khó khăn. Vì các bản dịch có thể nằm trong các ví dụ trong từ điển. Việc khai thác các cách dịch như vậy đối với người có thể thực hiện được dễ dàng nhưng với máy tính thì không dễ dàng thậm chí còn có thể tạo ra các 15 lỗi trong khi dịch. Bên cạnh đó, một từ trong ngôn ngữ này có thể tồn tại nhiều bản dịch sang ngôn ngữ khác trong từ điển, việc chọn bản dịch nào trong số các bản dịch có được cũng là một vấn đề cần giải quyết khi sử dụng từ điển với hệ tìm kiếm thông tin xuyên ngữ. Tuy việc sử dụng từ điển mang lại khá nhiều thuận lợi cho việc dịch, nhưng các từ điển máy đọc (từ điển mà máy tính có thể sử dụng và hiểu được) thì lại khá hạn chế. Bên cạnh đó, các từ điển này thường chỉ tập trung vào các từ phổ biến hoặc nếu tập trung vào các từ chuyên môn thì chỉ ở một số phạm vi chuyên môn nhất định mà thôi. Việc này cũng làm giảm hiệu quả của việc sử dụng từ điển để dịch trong hệ tìm kiếm xuyên ngữ. 1.3.3 Sử dụng ngữ liệu Một phương pháp khác bên cạnh việc sử dụng từ điển để chuyển ngữ, đó là sử dụng ngữ liệu song song. Ngữ liệu song song là ngữ liệu mà trong đó nội dung là các chuỗi được viết bằng ngôn ngữ khác nhau, ta cũng có thể nói đó là các bản dịch của nhau. Với ngữ liệu song song đủ lớn ta có thể áp dụng các kỹ thuật thống kê để xây dựng các cặp từ tương đương bằng cách so sánh việc cùng xuất hiện của cặp từ trong câu so trên toàn bộ ngữ liệu. Việc áp dụng các kỹ thuật thống kê như trên có thể không tạo ra các bản dịch một cách chính xác hoàn toàn như người dịch nhưng có thể sử dụng được trong hệ tìm kiếm thông tin xuyên ngữ vì các hệ tìm kiếm thông tin xuyên ngữ không cần phải tìm bản dịch chính xác và mục tiêu chính là tìm các tài liệu liên quan đến truy vấn mà ở một ngôn ngữ khác. Tuy nhiên việc chọn được chính xác từng cặp từ trong câu như là bản dịch của nhau cũng phải thực các tính toán phức tạp. Ngoài ra, còn có một vấn đề khác đó là các ngữ liệu song song không phải sẵn có. Để xây dựng ngữ liệu song song ta có thể khai thác từ các tài liệu song ngữ hay các trang web có hỗ trợ các ngôn ngữ khác nhau. Việc khai thác này cũng cần nhiều chi phí. Ngữ liệu càng đầy đủ thì việc khai thác có thể thực hiện dễ dàng và đạt 16 được tính chính xác cao trong việc dịch, tuy nhiên tính chính xác của các ngữ liệu song song cũng là một vấn đề cần phải quan tâm. 1.4 Một số công trình nghiên cứu trong và ngoài nước Liên tục trong các năm 1997, 1998, L.Ballesteros và Bruce Croft [14][15][16] đã đưa ra các bài báo liên quan đến các vấn đề trong hướng tiếp cận dựa trên từ điển. Trong đó, họ đã sử dụng từ điển song ngữ Anh-Tây Ban Nha để tìm kiếm các tài liệu tiếng Anh và tiếng Tây Ban Nha. Bên cạnh L.Ballesteros, Davis và Hull, trong năm 1998 này Yamabana [32] đã xây dựng hệ thống tìm kiếm xuyên ngữ Anh – Nhật theo hướng tiếp cận dựa trên dịch máy và kết hợp với việc lựa chọn từ dựa trên tần số rút trích từ ngữ liệu không song song. Trong những năm gần đây, trong nước cũng có một số nghiên cứu được thực hiện trong lĩnh vực tìm kiếm thông tin xuyên ngữ như nghiên cứu của nhóm Đại học Bách Khoa[31] sử dụng hướng tiếp cận dịch cụm danh từ để chuyển ngữ các câu truy vấn và áp dụng cho ngôn ngữ tiếng Việt. Bên cạnh đó, nhóm nghiên cứu tìm kiếm thông tin của Trường Đại học Khoa học Tự nhiên[29] đã tiến hành thử nghiệm các phương pháp chuyển ngữ sử dụng từ điển, sử dụng ngữ liệu song song hay dùng kết hợp từ điển và ngữ liệu song song và áp dụng cho việc chuyển ngữ từ Việt sang Anh và từ Anh sang Việt trong tìm kiếm thông tin xuyên ngữ. 1.5 Giới thiệu luận văn Trong thực tế hiện nay, các hệ tìm kiếm thông tin được xây dựng khá nhiều, nhưng các hệ thống tìm kiếm thông tin xuyên ngữ lại tương đối ít đặc biệt đối với ngôn ngữ là tiếng Việt. Hệ tìm kiếm thông tin xuyên ngữ thực hiện hai việc là chuyển ngữ và tìm kiếm thông tin. Việc chuyển ngữ có thể được thực hiện bằng nhiều cách khác nhau như sử dụng dịch máy, dịch bằng từ điển hay khai thác ngữ liệu song song. Hiện nay có khá nhiều kho từ điển nên việc chuyển ngữ sử dụng từ điển cũng khá thuận lợi. Tuy nhiên việc dùng từ điển cũng có những hạn chế đặc 17 biệt là vấn đề nhập nhằng của từ. Trong từ điển một từ có thể được dịch thành nhiều từ khác nhau chứ không phải một từ duy nhất dẫn đến việc nhập nhằng khi dịch. Vì vậy việc sử dụng từ điển để dịch luôn cần một cơ chế khử nhập nhằng hiệu quả để có thể tạo được bản dịch chính xác trong quá trình chuyển ngữ nhằm đạt được kết quả tốt hơn trong việc tìm kiếm thông tin xuyên ngữ. Luận văn được thực hiện nhằm mục đích xây dựng một hệ thống tìm kiếm xuyên ngữ cho ngôn ngữ Việt-Anh bằng cách kết hợp việc dịch bằng từ điển và sử dụng kết quả của mô hình dịch bằng xác suất thống kê để khử nhập nhằng nhằm đạt được kết quả chuyển ngữ chích xác hơn.

Các file đính kèm theo tài liệu này:

  • pdf4.pdf
  • pdf0_2.pdf
  • pdf1_2.pdf
  • pdf2_2.pdf
  • pdf3.pdf
  • pdf5_2.pdf
  • pdf6_4.pdf
  • pdf7.pdf
  • pdf8.pdf
  • pdf9.pdf