Báo cáo Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng Việt

Quy trình tóm tắt văn bản

 Quá trình tiền xử lý

 Lọc nội dung chính, tách câu, loại bỏ câu ngắn. Tách từ dựa vào

công cụ JvnSegmenter. Gán nhãn từ loại dựa vào công cụ

VnQtag, chọn các từ có nhãn phù hợp

 Quá trình tính toán độ tượng tự ngữ nghĩa giữa các

cặp câu

 Áp dụng phương pháp nêu đã nêu để tính độ tương đồng giữa

các câu với câu truy vấn với bộ Wordnet tiếng Việt thô. Từ thực

nghiệm cho thấy = 0,85 thì đưa ra được kết quả về độ tương

đồng câu là cao nhất

 Quá trình tóm tắt văn bản

 Xếp hạng kết quả

 Chọn ra các câu với tỷ lệ xác định trước

Kết luận và hướng phát triển tiếp

 Nghiên cứu và áp dụng độ đo tương đồng

câu vào trong xử lý ngôn ngữ tiếng Việt.

 Thử nghiệm thành công độ đo này trong bài

toán tóm tắt trang web tiếng Việt trên máy tìm

kiếm.

 Cải thiện kết quả tính toán các độ đo bằng

việc xây dựng bộ corpus tiếng Việt (kiểu

WordNet) đầy đủ hơn

pdf23 trang | Chia sẻ: trungkhoi17 | Lượt xem: 803 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Báo cáo Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng Việt Người thực hiện: Hoàng Minh Hiền Phạm Thị Thu Uyên Người hướng dẫn: PGS.TS Hà Quang Thụy Cử nhân Trần Mai Vũ 1 2Nội dung báo cáo 1. Giới thiệu 2. Độ tương đồng câu 3. Phương pháp tính độ tương đồng câu 4. Áp dụng và kết quả thực nghiệm 5. Kết luận và hướng nghiên cứu tiếp 31. Giới thiệu  Vai trò độ tương đồng ngữ nghĩa giữa các câu • Sự quan tâm đặc biệt trong các hội nghị quốc tế như: DUC • Áp dụng tốt độ đo này sẽ làm các ứng dụng trở nên “thông minh” hơn.  Tính cấp thiết của độ tương đồng ngữ nghĩa trong tiếng Việt • Được nêu ra trong đề tài cấp nhà nước KC.01.01.06-102 42. Độ tương đồng câu Độ tương đồng câu là gì?  Ví dụ: Xét hai câu sau: “Tôi là nam sinh” và “Tôi là nữ sinh” ta thấy hai câu trên có sự tương đồng cao.  Một tài liệu d gồm có n câu: d = s1, s2,... , sn. Mục tiêu của bài toán là tìm ra một giá trị của hàm S(si, sj) với S (0,1), và i, j = 1,...,n.  Hàm S(si, sj) được gọi là độ đo tương đồng giữa hai câu si và sj. 52. Độ tương đồng câu Các phương pháp tính độ tương đồng câu  Phương pháp sử dụng thống kê Độ đo cosine  Phương pháp sử dụng xử lý ngôn ngữ tự nhiên Sử dụng phân tích cấu trúc ngữ pháp Sử dụng mạng ngữ nghĩa đối với từ • Wordnet corpus • Brown corpus 63. Phương pháp tính độ tương đồng câu Mô hình của phương pháp [LLB06] 73. Phương pháp tính độ tương đồng câu Thực hiện qua 5 bước : a. Tiền xử lý b. Tính độ tương tự từ dựa trên Wordnet c. Độ tương đồng về ngữ nghĩa giữa hai câu d. Độ tương đồng về thứ tự của các từ trong câu e. Tính độ tương đồng cho toàn bộ câu 83a. Tính độ tương tự từ dựa trên wordnet Ví dụ: Teacher - educator - professional - adult - person - male - male child - boy [LLB06]  Vì sao sử dụng độ tương tự từ? 93a. Tính độ tương tự từ dựa trên Wordnet Kết quả thực nghiệm trên 7 độ đo về độ tương tự từ dựa trên Wordnet cho thấy độ đo JCN có độ chính xác cao nhất. [Pad03] Measure Nouns Only All POS Jiang-Conrath(JCN) 0.46 n/a Ex. Gloss Overlaps 0.43 0.34 Lin 0.39 n/a Vector 0.33 0.29 Hirst-St.Onge 0.33 0.23 Resnik 0.29 n/a Leacock Chodorow 0.28 n/a 10 Độ đo JCN  JCN sử dụng nội dung thông tin (Information Content) của các khái niệm (concept) IC(concept) = –log(P(concept)) với: P(concept) = freq(concept)/N  Công thức tính khoảng cách ngữ nghĩa giữa hai từ: distance = IC(c1) + IC(c2) – 2. IC(lcs(c1, c2))  Mối quan hệ giữa hai từ c1 và c2 như sau: Relatedness(c1, c2) = 1 / distance 11 3b. Độ tương đồng về ngữ nghĩa giữa hai câu Gọi si là vector ngữ nghĩa của mỗi câu.  Sự giống nhau về ngữ nghĩa giữa hai câu là hệ số cosin giữa hai vector: ||||.|||| . 21 21 ss ss Ss 12 3c.Độ tương đồng về thứ tự các từ trong câu  Ví dụ:  T1: A quick brown dog jumps over the lazy fox.  T2: A quick brown fox jumps over the lazy dog.  Gọi r là vector thứ tự từ trong câu. Công thức để tính độ tương đồng về thứ tự của từ trong câu như sau: |||| |||| 1 21 21 rr rr S r 13 3d. Độ tương đồng về toàn bộ câu  Sự giống nhau về toàn bộ câu là sự kết hơp giữa độ tương tự về mặt ngữ nghĩa và thứ tự của từ trong câu  Với 10 14 4. Áp dụng độ tương đồng câu cho tóm tắt văn bản tiếng Việt Tóm tắt văn bản tiếng Việt dựa vào câu truy vấn của người dùng. 15 Quy trình tóm tắt văn bản  Quá trình tiền xử lý  Lọc nội dung chính, tách câu, loại bỏ câu ngắn. Tách từ dựa vào công cụ JvnSegmenter. Gán nhãn từ loại dựa vào công cụ VnQtag, chọn các từ có nhãn phù hợp  Quá trình tính toán độ tượng tự ngữ nghĩa giữa các cặp câu  Áp dụng phương pháp nêu đã nêu để tính độ tương đồng giữa các câu với câu truy vấn với bộ Wordnet tiếng Việt thô. Từ thực nghiệm cho thấy = 0,85 thì đưa ra được kết quả về độ tương đồng câu là cao nhất  Quá trình tóm tắt văn bản  Xếp hạng kết quả  Chọn ra các câu với tỷ lệ xác định trước 16 Kết quả thực nghiệm Câu truy vấn: “Thị trường chứng khoán trong nước” Đoạn văn bản 17 Kết quả thực nghiệm Câu Độ đo [1] 0.54 [2] 0.65 [3] 0.87 [4] 0.74 [5] 0.27 [6] 0.23 18 Kết quả thực nghiệm Kết quả tóm tắt Google trả về: Kết quả: 19 5. Kết luận và hướng phát triển tiếp  Nghiên cứu và áp dụng độ đo tương đồng câu vào trong xử lý ngôn ngữ tiếng Việt.  Thử nghiệm thành công độ đo này trong bài toán tóm tắt trang web tiếng Việt trên máy tìm kiếm.  Cải thiện kết quả tính toán các độ đo bằng việc xây dựng bộ corpus tiếng Việt (kiểu WordNet) đầy đủ hơn. 20 Tài liệu tham khảo  [LMT06] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị Phương Thu (2006) Kết hợp các phương pháp chọn câu quan trọng xây dựng ứng dụng tóm tắt văn bản tiếng Việt, Một số vấn đề chọn lọc của công nghệ thông tin, 2006, 413-421  [MB06] Lương Chi Mai, Hồ Tú Bảo (2006). Về xử lý tiếng Việt trong công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt", Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam, 2006.  [PT05] Đỗ Phúc, Hồ Anh Thư (2005). Rút trích và tóm tắt nội dung trang web tiếng Việt, Phát triển khoa học - công nghệ, 2005, 8/(10):13-22  [BKO07] Blake,C., Kampov,J., Orphanides,A., West,D., & Lown,C. (2007). UNC-CH at DUC 2007: Query Expansion, Lexical Simplification, and Sentence Selection Strategies for Multi-Document Summarization, Document Understanding Conference 2007 (DUC 2007), Rochester, NY, April 26-27, 2007  [Bre99] Darin Brezeale (1999). The Organization of Internet Web pages Using WordNet and Self-Organizing maps, MSc Thesis, The University of Texas at Arlington, USA,1999 21 Tài liệu tham khảo  [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A. Crockett (2006). Sentence Similarity Based on Semantic Nets and Corpus Statistics. IEEE Trans. Knowl. Data Eng. 18(8): 1138-1150  [MR06] A. A. Mohamed, S. Rajasekaran, (2006). Query-Based Summarization Based on Document Graphs, Document Understanding Workshop, June 8-9, 2006 (DUC2006),New York Marriott, Brooklyn, New York USA  [NNP06] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and Quang-Thuy Ha (2006). Vietnamese Word Segmentation with CRFs and SVMs: An Investigation. The 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, 215-222  [Pad03] Siddharth Patwardhan (2003). Incorporating Dictionary and Corpus Information into a Context Vector Measure of Semantic Relatedness. MSc. Thesis, University of Minnesota, Duluth, MN  [RFF05] Francisco J. Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro (2005). Semantic Similarity Between Sentences Through Approximate Tree Matching. IbPRIA (2) 2005: 638-646 22 Tài liệu tham khảo  [SB08] P. Senellart and V. D. Blondel (2008). Automatic discovery of similar words, Survey of Text Mining II: Clustering, Classification and Retrieval (M. W. Berry and M. Castellanos, editors): 25–44. Springer- Verlag, January 2008.  [Sen07] Pierre Senellart (2007). Understanding the Hidden Web, PhD thesis in Computer science, Université Paris-Sud, Orsay, France, December 2007.  [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr. Pandey (2006). Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications, Chiang Mai, Thailand, December 2006, 94-98.  [1] Nguyễn Cẩm Tú, Phan Xuân Hiếu. JvnSegmenter. , Đại học Công nghệ - Đại học Quốc gia Hà Nội.  [2] Nguyễn Thị Minh Huyền. vnQTAG. , Đại học Khoa học Tự nhiên – Đại học Quốc Gia Hà Nội Thanks for your listening 23

Các file đính kèm theo tài liệu này:

  • pdfbao_cao_do_tuong_dong_ngu_nghia_giua_hai_cau_va_ung_dung_tro.pdf