Khóa luận Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản

Mục lục

Tóm tắt nội dung . 4

Mục lục .5

Danh sách bảng. 7

Danh sách hình vẽ. 8

Bảng ký hiệu và từviết tắt . 9

Mở đầu.10

Chương 1. Tổng quan vềtóm tắt văn bản và độtương đồng câu. 12

1.1. Đặt vấn đề.12

1.2. Nền tảng kiến thức .13

1.2.1. Data Mining .13

1.2.2. Text Mining .13

1.2.3. Web Mining .14

1.3. Tóm tắt văn bản.15

1.4. Độtương đồng giữa hai câu .16

Chương 2. Bài toán tóm tắt văn bản và một sốphương pháp tóm tắt văn bản . 18

2.1. Bài toán tóm tắt văn bản.18

2.1.1. Định nghĩa tóm tắt .18

2.1.2. Phân loại tóm tắt văn bản.19

2.1.3. Tóm tắt văn bản đơn .21

2.2. Các phương pháp tóm tắt văn bản đơn.21

2.2.1. Phương pháp Word frequencies.22

2.2.2. Phương pháp của Edmundson .23

2.2.3. Tóm tắt văn bản tự động sửdụng trích chọn câu hai bước.26

Chương 3. Độtương đồng câu và phương pháp tính độtương đồng câu. 32

3.1. Độtương đồng.32

3.2. Độtương đồng câu .32

3.3. Phương pháp để đo độtương đồng câu.33

3.3.1. Phương pháp tính độtương đồng câu sửdụng WordNet corpus.33

3.3.2. Phương pháp tính độtương đồng câu sửdụng Hidden Topic .39

Chương 4. Đềxuất mô hình tóm tắt và kết quảthực nghiệm . 46

4.1. Đềxuất mô hình tóm tắt.46

4.2. Thiết kếmô hình thửnghiệm.47

4.3. Kết quảthực nghiệm .47

Kết luận và hướng phát triển của khóa luận . 50

Tài liệu tham khảo. 51

53 trang | Chia sẻ: oanh_nt | Lượt xem: 2006 | Lượt tải: 2Free

Bạn đang xem trước 20 trang tài liệu Khóa luận Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

các yêu cầu như cần phản ánh trung thành nội dung của văn bản được tóm tắt; có tính bao quát toàn độ nội dung chính của văn bản; đảm bảo tỷ lệ trích xuất văn bản; tính mạch lạc, tính chặt chẽ của văn bản, ... Tóm tắt văn bản liên quan tới việc “xử lý” ngôn ngữ. Có thể nói xử lý ngôn ngữ tự động trên máy tính là một trong những vấn đề khó nhất của Công Nghệ Thông Tin. Khó là nằm ở chỗ làm sao cho máy hiểu được ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản. Mấu chốt ở đây là bản chất phức tạp của ngôn ngữ con người, đặc biệt là sự đa nghĩa và nhập nhằng nghĩa của ngôn ngữ. Thêm nữa, có một khác biệt sâu sắc nữa là con người ngầm hiểu và dùng quá nhiều common sense (lẽ thường) trong khi rất khó làm cho máy hiểu những điều này. [2] 19 2.1.2. Phân loại tóm tắt văn bản Có nhiều cách phân loại tóm tắt văn bản khác nhau tuy nhiên sự phân loại chỉ mang tính tương đối, phụ thuộc vào việc tóm tắt trên cơ sở nào. Ở đây, khóa luận phân loại tóm tắt như dựa vào input, output, mục đích tóm tắt [9]. Nếu dựa vào input ta có tóm tắt đa văn bản, đơn văn bản; tóm tắt miền cụ thể và tóm tắt miền tổng quát; tóm tắt một kiểu văn bản cụ thể... Dựa vào mục đích thì tóm tắt được chia thành tóm tắt generic, query-based; tóm tắt indicative và information; hay tóm tắt background. Dựa vào output thì chia ra thành hai kiểu là extract và abstract. • Tóm tắt trên cơ sở input sẽ trả lời cho câu hỏi “Cái gì sẽ được tóm tắt”. Các chia này sẽ cho ta nhiều cách phân loại con khác nhau. Cụ thể như: - Kiểu văn bản (bài báo, bản tin, thư, báo cáo …). Với cách phân loại này, tóm tắt văn bản là bài báo sẽ khác với tóm tắt thư, tóm tắt báo cáo khoa học do những đặc trưng văn bản quy định. - Định dạng văn bản: tóm tắt văn bản free-form, tóm tắt văn bản có cấu trúc. Với văn bản có cấu trúc, tóm tắt văn bản thường sử dụng một mô hình học đã xây dựng từ trước. - Kích thước nguồn: tóm tắt đa văn bản, tóm tắt văn bản đơn. Một vài hệ thống sẽ tạo ra một bản tóm tắt dựa trên một tài liệu đơn, trong khi một vài hệ thống khác có thể sử dụng nhiều nguồn tài liệu. Những hệ thống này được biết như các hệ thống multi- document summarization. Tóm tắt nhiều nguồn văn bản dựa trên việc nối nhiều văn bản với nhau. - Miền cụ thể (y tế) hay tổng quát. • Tóm tắt trên cơ sở mục đích thực chất là làm rõ cách tóm tắt, mục đích tóm tắt là gì, tóm tắt phục vụ đối tượng nào ... - Nếu phụ thuộc vào đối tượng đọc tóm tắt thì tóm tắt cho chuyên gia khác cách tóm tắt cho các đối tượng đọc thông thường. - Tóm tắt sử dụng trong IR sẽ khác với tóm tắt phục vụ cho việc sắp xếp. 20 - Dựa trên mục đích tóm tắt, còn có thể chia ra thành tóm tắt Indicative và tóm tắt Informative. Tóm tắt Indicative chỉ ra loại của thông tin, ví dụ như là “alert”. Còn tóm tắt Informative chỉ ra nội dung của thông tin. - Tóm tắt Query-based hay tóm tắt General. Tóm tắt general mục đích chính là tìm ra một đoạn tóm tắt cho toàn bộ văn bản mà nội dung của đoạn văn bản sẽ bao quát toàn bộ nội dung của văn bản đó. Tóm tắt query-based sẽ tóm tắt dựa trên một truy vấn người dùng, tìm ra một đoạn trong văn bản phù hợp với truy vấn đó. • Tóm tắt trên cơ sở output cũng có nhiều cách phân loại. - Phân loại phụ thuộc vào ngôn ngữ lựa chọn cho tóm tắt (như tóm tắt tiếng Anh, tóm tắt tiếng Việt ...). - Phân loại phụ thuộc vào định dạng của kết quả tóm tắt như table, paragraph, key words. - Hay cách phân loại phổ biến là tóm tắt Extract và tóm tắt Abstract. Extract lập danh sách các đoạn của văn bản. Extract là một tóm tắt bao gồm toàn bộ các phần quan trọng được trích ra từ văn bản nguồn. Abstract là nhóm lại nội dung một cách mạch lạc, súc tích. Abstract là một tóm tắt ngắn gọn được viết lại từ văn bản nguồn dựa trên các ý chính đã trích rút. Extraction dễ hơn Abstraction, abstraction cần hiểu và viết lại. Ví dụ minh họa cho sự khác nhau giữa Extract và Abstract như sau: [18] 21 2.1.3. Tóm tắt văn bản đơn Đối tượng thực nghiệm của khóa luận là các văn bản đơn. Tóm tắt văn bản đơn cũng giống như các bài toán tóm tắt khác, là một quá trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn mô tả ngắn gọn nội dung chính của văn bản đầu vào đó. Tóm tắt văn bản đơn là bước đệm cho việc xử lý, tóm tắt đa văn bản và các bài toán tóm tắt phức tạp hơn. Văn bản đơn có thể là một trang Web, một bài báo, hoặc một tài liệu với định dạng xác định (ví dụ : .doc, .txt)… Những phương pháp tóm tắt văn bản ra đời đầu tiên đều là các phương pháp tóm tắt cho văn bản đơn. Chẳng hạn như với input là một trang Web, có thể tóm tắt sử dụng thêm câu truy vấn để đưa ra nội dung của bản tóm tắt. Cách làm này có ưu điểm là văn bản kết quả sẽ cho nội dung gần với mong muốn của người sử dụng hơn. Quá trình tóm tắt cụ thể sẽ xét mối liên hệ, sự tương đồng giữa các thành phần trong văn bản với câu truy vấn để tìm ra các phần quan trọng trong văn bản. Tuy nhiên, với tóm tắt một văn bản đơn không sử dụng truy vấn, quá trình tóm tắt sẽ xét sự tương đồng giữa các thành phần của văn bản với nhau. Điều này dẫn đến một vấn đề là chưa thể kết luận ngay các thành phần quan trọng của văn bản để có thể trích rút, đưa vào tóm tắt. 2.2. Các phương pháp tóm tắt văn bản đơn Những năm 50-70, tóm tắt văn bản chủ yếu dựa vào các kỹ thuật thống kê để tóm tắt các văn bản khoa học. Những năm 80, người ta sử dụng trí tuệ nhân tạo để tóm tắt các văn bản ngắn, các bản tin, các bài tường thuật. Đến những năm 90, các hệ thống lai (hybrid system) được sử dụng trong tóm tắt bản tin và một vài văn bản khoa học. Trong thực tế, một hệ thống tóm tắt có thể tổ hợp và sử dụng nhiều phương pháp. Các phương pháp này được gọi là phương pháp lai, ví dụ một phương pháp một phương pháp có thể là tổ hợp của các kỹ thuật thống kê. [9] Từ năm 2000 đến nay, tóm tắt tập trung vào các lĩnh vực như tóm tắt đa văn bản (các tin tức, trang Web, email, văn bản luật, y tế, …), sinh Headline; tóm tắt hỗ trợ các thiết bị cầm tay; tóm tắt đa phương tiện. Chiến lược tóm tắt văn bản phổ biến nhất vẫn là trích rút các phần quan trọng (các câu) trong văn bản rồi sắp xếp chúng theo thứ tự trong văn bản. Bên cạnh đó, tóm tắt văn 22 bản cũng bao gồm cả việc đơn giản hóa câu bằng cách thu ngắn câu lại, xóa đi các phần không quan trọng trong câu để làm cho văn bản ngắn gọn hơn. Người ta thường sử dụng các thông tin có trong văn bản để trích rút các phần quan trọng (các câu) trong văn bản. Cách tiếp cận truyền thống này chủ yếu dựa trên các phương pháp heuristic. Những thông tin trong văn bản có thể là tần số từ trong văn bản, đầu đề của văn bản, vị trí câu, cụm từ gợi ý, … Trích rút các phần quan trọng trong văn bản là kỹ thuật phổ biến được sử dụng trong tóm tắt văn bản. Trên thế giới cũng đã có nhiều công trình nghiên cứu về tóm tắt văn bản sử dụng các kỹ thuật này. 2.2.1. Phương pháp Word frequencies Hans Peter Luhn (1958) được coi là “cha đẻ của lĩnh vực Information Retrieval” và là tác giả của bài báo “The Automatic Creation of Literature Abstracts – 1958” [15]. Phương pháp của Luhn xuất phát từ một ý tưởng tóm tắt các tài liệu văn học chuyên ngành. Phương pháp dựa trên cơ sở giả thiết rằng: tần số của từ xuất hiện trong bài báo là một độ đo hữu ích về nghĩa của từ; vị trí tương đối của các từ có nghĩa trong phạm vi một câu cũng là độ đo hữu ích về nghĩa của từ. Tuy nhiên, cơ sở của phương pháp còn bị hạn chế do khả năng của máy tính không thể biểu diễn được được các thông tin ngữ nghĩa. Luhn sử dụng tần số từ cho tóm tắt bởi các từ quan trọng thường được lặp đi lặp lại nhiều lần trong văn bản. Thêm vào đó, thuật toán lại đơn giản, tốn ít thời gian xử lý nên chí phí rẻ. Một chú ý của phương pháp là các dạng khác nhau của cùng một từ được tính như cùng một từ. Thêm vào đó, việc tính toán tần số của từ sẽ dẫn đến việc, các từ có tần số quá thấp hoặc quá cao (như “the”, “and”,..). Những từ này đều là các từ không quan trọng. Giải pháp đặt ra ở đây là với các từ có tần số thấp, có thể dễ dàng loại bỏ bằng cách thiết lập một ngưỡng tần số nhỏ nhất. Với những từ phổ biến (có tần số cao), loại bỏ bằng cách thiết lập một ngưỡng tần số lớn nhất, so sánh các từ tần số cao với một danh sách từ phổ biến. Đây cũng chính là việc loại bỏ các từ dừng ( như “the”, “a”, “for”, “is” … ). Để tính tần số của từ quan trọng, Luhn tính phấn phối của mỗi từ trong tài liệu (tf) và phân phối của từ ở trong corpus (idf – inverted document frequency). NUMDOC: số tài liệu trong corpus 23 NUMDOC(term): số tài liệu mà có term xuất hiện. Nếu tf(term)*idf(term) vượt một ngưỡng xác định, các cụm từ khóa được tìm thấy và được gán trọng số. Các câu với tổng trọng số cụm cao nhất được chọn. 2.2.2. Phương pháp của Edmundson Phương pháp tóm tắt của Edmundson [11] dựa vào kỹ thuật trích rút các phần quan trọng văn bản sử dụng tổng hợp bốn thông tin gồm: các cụm từ gợi ý, từ khóa, title và vị trí của câu. Đây chính là cơ sở của phương pháp. Cụm từ gợi ý (cue) trong văn bản Có các cụm từ gợi ý có thể hoàn toàn liên quan hoặc không liên quan tới các câu quan trọng. Ví dụ với các cụm từ ‘In this paper, ‘In conclusion’, ‘our work’,… thường theo sau chúng chính là phần quan trọng trong văn bản. Hoặc như cụm từ ‘for example’ thường chỉ ra phần không quan trọng của văn bản. Tiêu đề (title) của văn bản Giả thuyết của cách trích rút này là “tiêu đề của văn bản thường chỉ ra nội dung của văn bản đó”. Vì thế các từ trong tiêu đề giúp tìm ra nội dung có liên quan [11]. Edmundson là người đầu tiên chỉ ra các từ trong title và heading thường xuất hiện nhiều trong các câu quan trọng hơn các câu không quan trọng. Các câu tiêu đề và đề mục (title và heading) được xem như là các tóm tắt ngắn gọn của văn bản. Các câu có chứa nội dung các từ trong đầu đề và tiêu đề là những câu quan trọng trong văn bản. Một câu chỉ có thể có một title và có thể không có title. Việc xác định title hiện tại dựa vào nhận xét: Title là câu duy nhất của đoạn đầu tiên. Nghĩa là ta xét đoạn đầu tiên của văn bản, nếu đây chỉ có một câu thì câu này là title, ngược lại, ta coi văn bản không có title. Cách xác định này phụ thuộc định dạng của văn bản đầu vào. Các từ trong title còn được dùng để đánh giá các câu khác trong văn bản, câu nào sát nghĩa với title, câu đó sẽ đựoc gán trọng số cao hơn so với các câu khác. [1] Vị trí (location) của câu Phương pháp đơn giản là dựa trên giả thiết rằng các câu xuất hiện ở đầu văn bản thường quan trọng hơn các câu xuất hiện ở giữa hoặc cuối văn bản. Cách đơn giản nhất để xây dựng một tóm tắt là luôn chọn câu đầu tiên trong văn bản hoặc chọn k câu đầu tiên 24 trong văn bản, khi mà có thêm yêu cầu tham số tỷ lệ tóm tắt. Mặc dù hiệu suất của phương pháp này phụ thuộc vào kiểu văn bản và tỉ lệ tóm tắt, phương pháp vẫn có khả năng nhận dạng khoảng 33% các câu quan trọng trong văn bản [9] Ngoài ra, các văn bản có xu hướng có cấu trúc phụ thuộc vào kiểu của chúng. Ví dụ như theo quy tắc báo chí, văn bản thường chia làm ba phần: Phần giới thiệu, phần chính, phần tóm lược lại. Trong văn bản kiểu này: - Các câu thuộc đề tài thường có xu hướng xuất hiện ở vị trí bắt đầu của các đoạn. - Các câu quan trọng có xu hướng xuất hiện ở cuối của văn bản. Từ ví dụ trên, phương pháp trích rút phần quan trọng trong văn bản sử dụng thông tin vị trí câu đòi hòi: Các câu quan trọng được đặt ở các vị trí “phụ thuộc vào kiểu văn bản”; những vị trí này có thể đuợc tìm thấy tự động thông qua việc huấn luyện [19]. Tần số từ trong văn bản Các câu quan trọng chứa nội dung các từ xuất hiện thường xuyên trong văn bản. Các từ xuất hiện thường xuyên trong văn bản có xu hướng chỉ ra chủ đề của văn bản. Mức độ quan trọng của từ được tính toán trên cơ sở tần số của chúng (tf-term frequency). Một mục từ xuất hiện trong văn bản nhiều hơn một ngưỡng nào đó thì được cọi là từ quan trọng. Mức độ quan trọng của các câu được tính toán dựa trên cơ sở tầm quan trọng của các từ mà câu đó chứa. [15] Từ những cơ sở trên, Edmundson tính trọng số của một câu là một tổ hợp tuyến tính của các trọng số nhận được từ bốn phương pháp trích rút các phần quan trọng: Các câu có trọng số cao nhất sẽ được đưa vào tóm tắt. Trong phương trình trên: • Các tham số được điều chỉnh phù hợp bằng cách sử dụng tập huấn luyện. • Trọng số Cue của câu: Σ (Trọng số Cue của mỗi từ trong câu) - So sánh mỗi từ trong câu với từ điển Cue. - Gán tất cả các từ có lợi với trọng số b>0, các từ nhiễu với trọng số s<0, các từ Null với n=0 )(.)(.)(.)(.)( SPositionSKeywordSCueSTitleSWeight δγβα +++= 25 • Trọng số Key của câu: Σ (Trọng số Key của mỗi từ trong câu) Trọng số Key của mỗi từ xác định dựa theo phương pháp của Luhn[15], tính tần số của các từ. • Trọng số Title của câu: Σ (Trọng số Title của mỗi từ trong câu) Để xác định trọng số Title của mỗi từ trong câu: - Tạo một bảng Title bao gồm tất cả các từ non-Null trong title, subtitle và heading của tài liệu. - Các từ được cho một trọng số title dương nếu chúng xuất hiện trong bảng Title này. - Các từ Title được cho trọng số lớn hơn các từ Heading. • Trọng số Location của câu: - Các câu của đoạn đầu tiên được đánh dấu trọng số O1 - Các câu của đoạn cuối cùng đựoc đánh dấu trọng số O2 - Câu đầu tiên trong một đoạn được đánh dấu trọng số O3 - Câu cuối cùng của đoạn được dánh dấu trọng số O4 Thứ tự trọng số của câu: O1 + O2 + O3 + O4 Đánh giá phương pháp này, kết quả chỉ ra rằng việc tổ hợp cả bốn cách trích rút của Edmundson không cho hiệu suất tốt nhất. Từ hình 2, có thể dễ dàng thấy phương pháp cho kết quả tốt nhất là khi tổ hợp ba thông tin: Cue, Title và Location. Phương pháp tổ hợp này có giá trị trung bình cao nhất, xấp xỉ 55%. 26 Hình 2. Giá trị trung bình của các phương pháp [11] 2.2.3. Tóm tắt văn bản tự động sử dụng trích chọn câu hai bước Hệ thống tóm tắt trong [13] dựa trên cơ sở các phương pháp thống kê và thực hiện trích chọn câu theo hai bước. Vì nó tổ hợp các phương pháp thống kê và làm giảm dữ liệu nhiễu thông qua hai bước để có thể thu được hiệu suất cao. Mục tiêu của tóm tắt văn bản là lấy thông tin, trích rút nội dung và biểu diễn những nội dung quan trọng nhất cho người sử dụng theo một form nào đó. Phương pháp có chi phí thấp và kiến trúc hệ thống vững chắc (robust) bởi vì nó không yêu cầu bất cứ nguồn ngôn ngữ nào cả. Hai bước tóm tắt cụ thể như sau: - Bước đầu tiên, tạo ra các câu giả bi-gram bằng cách tổ hợp hai câu kề nhau (adjacent) để giải quyết vấn đề rời rạc đặc trưng (feature sparseness); vấn đề này xuất hiện nếu tóm tắt văn bản trích chọn đặc trưng chỉ từ một câu. Sau đó, ước lượng trọng số quan trọng của các câu giả bi-gram bằng phương pháp tổ hợp Title và Location. Có thể nhận được nhiều câu giả có ích hơn thông qua việc xóa đi các câu giả bi-gram không có giá trị (xóa dữ liệu nhiễu). - Ở bước thứ hai, chia các câu giả bi-gram thành mỗi câu đơn gốc và biểu diễn trích chọn các câu quan trọng bằng phương pháp Aggregation Similarity. Bởi vì phương pháp Aggregation Similarity (độ tương đồng kết hợp) ước lượng các phần quan trọng nhất của câu bằng việc tính toán độ tương đồng của tất cả các câu khác trong một tài liệu, phương pháp Aggregation Similarity hiệu quả hơn sau khi xóa bỏ đi các câu nhiễu. Vì thế hệ 27 thống tóm tắt không yêu cầu nguồn ngôn ngữ như WordNet và bộ phân tích luật, nó cho chi phí thấp và vững chắc. [13] Hình 3. Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước [13] 2.2.3.1. Các phương pháp thống kê tổng quát Title Method Trọng số của các câu được tính bằng số từ phổ biến được sử dụng giữa câu và title. Tính toán này yêu cầu một truy vấn từ title trong mô hình không gian vector trọng số Boolean. Trong đó: Si là một câu thứ i và Q là một truy vấn từ title, wik là trọng số của từ thứ k trong câu và wqk là trọng số của từ thứ k trong truy vấn. Location Method Trọng số của câu được tính theo công thức: 28 Trong đó: Si là câu thứ i và N là tổng số câu trong văn bản. Aggregation Similarity Method Trọng số của một câu được tính bằng tổng độ tương đồng của câu đó với tất cả các vectors câu khác trong mô hình không gian vector tài liệu. Mỗi trọng số được tính như sau: Phương trình sim(Si, Sj) tính độ tương đồng giữa hai câu i và j, wik là trọng số của từ thứ k trong câu thứ i. Frequency Method Tần số của từ xuất hiện trong một tài liệu thường được sử dụng để tính toán độ quan trọng của các câu [15]. Trong phương pháp này, trọng số của một câu có thể được tính bằng tổng trọng số của các từ trong câu. Có thể dùng phương pháp TF.IDF truyền thống để tính trọng số wi của từ i như sau: Trong đó: tfi là tần số từ của từ i trong tài liệu, N là tổng số từ trong văn bản và dfi là tần số tài liệu của từ i trong toàn bộ tập dữ liệu. 2.2.3.2. Phương pháp TF-Based Query Như mô tả ở trên, title thường sử dụng cho một truy vấn và phương pháp Title chỉ ra hiệu suất cao hơn các phương pháp tổng quan khác. Tuy nhiên, trong trường hợp đặc biệt, nó có thể khó trích rút một title từ các tài liệu hoặc bất cứ kiểu tài liệu nào không có title. Đối với trường hợp này, chúng tôi đề xuất một phương pháp để trích rút các từ chủ để cho một truy vấn. Phương pháp truy vấn trên cơ sở TF sử dụng một truy vấn – truy vấn bao 29 gồm các từ với tần số từ cao nhất trong một tài liệu. Phương pháp coi các từ với tần số cao như các khái niệm quan trọng [15]. Giống như phương pháp Title, ma trận tích được sử dụng như độ đo tương đồng giữa một câu và một truy vấn trên cơ sở TF. Để biểu diễn các câu, chỉ các từ thích hợp và danh từ phổ biến được sử dụng sau khi loại bỏ từ dừng. Trong đó, tfik là các tần số từ của từ thứ k trong câu thứ i (trọng số Boolean) và Si là vector câu. Phương trình tính toán độ tương đồng giữa các câu và truy vấn trên cơ sở TF: n là số lượng từ trong một tài liệu. wik là trọng số của từ thứ k trong câu thứ i và wTFQk là trọng số của từ thứ k trong truy vấn trên cơ sở TF. 2.2.3.3. Tổ hợp các phương pháp thống kê trong hai bước Xóa đi các câu nhiễu trong bước đầu tiên (First Step) Phương trình đánh trọng số cho các câu giả bi-gram: Sau khi tất cả các câu giả bi-gram được đánh trọng số, khoảng 50% trong số chúng bị xóa bởi vì chúng bị xem là những câu nhiễu. Tóm tắt trích chọn trong bước thứ hai (Second Step) Phương trình cuối cùng như sau: Trong đó wa là giá trị trọng số phản ánh tầm quan trọng của phương pháp Aggregation Similarity. 30 Với trường hợp các tài liệu không có title, phương pháp truy vấn TF-based được sử dụng thay cho phương pháp Title. Phương trình cụ thể như sau: 2.2.3.4. Kết quả thực nghiệm Trong thực nghiệm, phương pháp sử dụng dữ liệu test gồm nhiều bài báo tin tức của Korea Research and Development Information Center(KORDIC). Mỗi tài liệu test có title, content, tóm tắt theo tỉ lệ 30% và 10%. Các tóm tắt theo tỉ lệ 30% và 10% của các tài liệu test được làm bằng cách trích rút câu từ nội dung bằng tay. Để đo hiệu suất của phương pháp, độ đo F1 được sử dụng như phương trình (13) sau: Trong đó P là độ chính xác, R là độ hồi tưởng Dưới đây là các kết quả thực nghiệm cụ thể của phương pháp Để xác định hiệu quả của phương pháp tổ hợp hai bước, bài báo [13] so sánh hiệu suất của phương pháp tổ hợp hai bước với các phương pháp khác như Title, Location, và DOCUSUM. 31 Hình 4. So sánh giữa phương pháp Two-step và các phương pháp khác (trường hợp sử dụng Title) [13] Như trên hình 4, hệ thống trích chọn câu hai bước đã chỉ ra hiệu suất tốt hơn phương pháp Title, Location và thậm chí là DOCUSUM. Thực nghiệm trong trường hợp no-title. cũng chỉ ra kết quả như vậy. Hình 5. So sánh giữa phương pháp Two-step và các phương pháp khác (trường hợp không sử dụng Title) [13] Tóm lại, phương pháp sử dụng các câu giả bi-gram để giải quyết vấn đề rời rạc đặc trưng và tổ hợp thống kê hai bước để cải thiện hiệu quả. Như kết quả, phương pháp thu được hiệu suất cao hơn các phương pháp thống kê khác và DOCUSUM. Phương pháp này không chỉ có hiệu suất cao mà còn có điểm mạnh là dễ thực hiện bởi vì nó chỉ sử dụng các phương pháp thống kê đơn giản. 32 Chương 3. Độ tương đồng câu và phương pháp tính độ tương đồng câu 3.1. Độ tương đồng Trong toán học, một độ đo là một hàm số cho tương ứng với một "chiều dài", một "thể tích" hoặc một "xác suất" với một phần nào đó của một tập hợp cho sẵn. Nó là một khái niệm quan trọng trong giải tích và trong lý thuyết xác suất. Ví dụ, độ đo đếm được định nghĩa bởi µ(S) = số phần tử của S Rất khó để đo sự giống nhau, sự tương đồng. Sự tương đồng là một đại lượng (con số) phản ánh cường độ của mối quan hệ giữa hai đối tượng hoặc hai đặc trưng. Đại lượng này thường ở trong phạm vi từ -1 đến 1 hoặc 0 đến 1. Như vậy, một độ đo tương đồng có thể coi là một loại scoring function (hàm tính điểm). Ví dụ, trong mô hình không gian vector, ta sử dụng độ đo cosine để tính độ tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector. Phân loại độ đo tương đồng, ở đây có thể liệt kê ra một số độ đo như độ đo tương đồng giữa các từ, độ đo tương đồng giữa các văn bản, độ đo tương đồng giữa nhiều ảnh, độ đo tương đồng giữa các ontology, … 3.2. Độ tương đồng câu Xét ví dụ gồm hai câu “Tôi là nam” và “Tôi là nữ”. Ta có thể nhận thấy hai câu trên có sự tương đồng cao, tuy nhiên chúng ta cần phải có một độ đo để có thể tính được độ tương đồng của chúng. Bài toán tính độ tương đồng câu được phát biểu như sau: Xét một tài liệu d gồm có n câu: d = s1,s2,… sn. Mục tiêu của bài toán là tìm ra được một giá trị của hàm S(si,sj) với S∈(0,1). Hàm S(si,sj) được gọi là độ tương đồng giữa hai câu si và sj. Giá trị này càng cao thì sự giống nhau về ngữ nghĩa của hai câu càng lớn. Độ tương đồng ngữ nghĩa là một giá trị tin cậy phản ánh mối quan hệ ngữ nghĩa giữa hai câu. Trên thực tế, khó có thể lấy một giá trị có chính xác cao bởi vì ngữ nghĩa chỉ được hiểu đầy đủ trong một ngữ cảnh cụ thể. 33 3.3. Phương pháp để đo độ tương đồng câu Như đã giới thiệu, hiện nay có hai phương pháp điển hình để đo độ tương đồng câu là phương pháp thống kê và phương pháp xử lý ngôn ngữ tự nhiên.. Với phương pháp thống kê, có một số phương pháp sử dụng các độ đo dựa vào tần suất xuất hiện của từ trong câu, nổi bật là phương pháp sử dụng độ đo cosin. Phương pháp này xử lý nhanh, tốn ít chi phí tuy nhiên vẫn chưa đảm bảo độ chính xác cao về mặt ngữ nghĩa. Còn các phương pháp sử dụng xử lý ngôn ngữ tự nhiên, một số cách tiếp cận đặc trưng được đưa ra là sử dụng phân tích cấu trúc ngữ pháp, sử dụng mạng ngữ nghĩa đối với từ, như sử dụng Wordnet corpus hoặc Brown corpus. Phương pháp xử lý ngôn ngữ tự nhiên xử lý chậm hơn, tốn nhiều chi phí hơn tuy nhiên khi xét về mặt ngữ nghĩa thì cao hơn phương pháp thống kê. Xét cho cùng, cả phương pháp xử lý ngôn ngữ tự nhiên cũng như phương pháp thống kê đều chỉ là những phương pháp “tạm thời” bởi vì chúng chưa đạt đến mức độ “thông minh” như con người mong muốn. 3.3.1. Phương pháp tính độ tương đồng câu sử dụng WordNet corpus 3.3.1.1. Mô hình của phương pháp Mô hình của phương pháp dựa trên mô hình được đề xuất trong báo cáo [16] để tính toán độ tương đồng câu tiếng Anh. 34 Hình 6. Lược đồ tính toán độ tương đồng câu [16] Về mặt cấu trúc, một đoạn văn bản gồm nhiều câu, mỗi câu được tạo thành bởi một chuỗi các từ mang các thông tin cần thiết. Phương pháp này được thực hiện dựa vào thông tin về ngữ nghĩa và cú pháp của các từ trong câu Dựa vào mô hình, giải quyết bài toán có 5 bước: Bước 1: Tiền xử lý - Tách mỗi câu thành một danh sách các từ tố (token): Mỗi câu được tách ra thành một danh sách các từ và xóa đi các từ dừng. Từ dừng là các từ xuất hiện thường xuyên, các từ không có ý nghĩa. - Xác định từ loại (part of speech: từ loại): Sau khi câu được tách thành danh sách các từ. Bước này sẽ xác định đúng từ loại (POS - như noun, verb, pronoun, adverb ...) của mỗi từ trong câu. Bước 2: Tính độ tương tự từ - Sau khi đã có danh sách các từ được gán nhãn, ta xác định được một tập từ chung cho hai câu. Tập từ chung này bao gồm tất cả những từ phân biệt có trong hai câu đó. - Dựa vào tập từ chung đồng thời sử dụng wordnet ta sẽ ước tính được độ tương đồng về ngữ nghĩa cho các từ trong mỗi câu với tập từ chung .Từ đó đưa ra được vector ngữ nghĩa cho hai câu. Bước 3: Tính độ tương đồng ngữ nghĩa cho hai câu Khi tính được độ tương tự từ, ta đưa ra được vector ngữ nghĩa si cho mỗi câu. Sử dụng vector ngữ nghĩa của hai câu để tính độ tương đồng về ngữ nghĩa cho hai câu đó. Bước 4: Tính độ tương đồng thứ tự từ Dựa tập từ chung ta xác định vector thứ tự từ cho mỗi câu. Bước 5: Tính độ tương đồng cho toàn bộ câu Kết hợp giữa vector ngữ nghĩa và vector

Các file đính kèm theo tài liệu này:

Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản.pdf