Đồ án Xây dựng ứng dụng tóm lược tự động văn bản tiếng Việt

MỤC LỤC

DANH MỤC TỪ VIẾT TẮT 1

DANH MỤC HÌNH VẼ 2

MỤC LỤC 3

LỜI NÓI ĐẦU 7

Chương 1. KHAI PHÁ VĂN BẢN 10

1.1. Khai phá dữ liệu 10

1.2. Khai phá văn bản 11

1.3. Biểu diễn văn bản 12

1.3.1. Mô hình boolean 13

1.3.2. Mô hình không gian vector 13

a. Mô hình không gian vector chuẩn 13

b. Kỹ thuật TFxIDF 14

c. Mô hình vector thưa và các mô hình không gian vector khác 15

1.3.3. Các mô hình biểu diễn văn bản khác 16

a. Mô hình Xác suất 16

b. Mô hình Mạng Bayes 16

c. Mô hình tập thô dung sai 17

1.4. Các bài toán Khai phá văn bản điển hình 17

1.4.1. Bài toán Phân lớp văn bản 17

1.4.2. Bài toán Phân nhóm văn bản 18

1.4.3. Bài toán Đánh chỉ mục - Tìm kiếm 19

1.4.4. Bài toán Tóm tắt văn bản 19

1.5. Kết chương 20

Chương 2. XỬ LÝ NGÔN NGỮ TỰ NHIÊN 21

2.1. Tổng quan về Xử lý ngôn ngữ tự nhiên. 21

2.2. Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên 23

2.2.1. Phân tách thuật ngữ - Phân tách đoạn và câu 23

2.2.2. Gán nhãn từ loại 24

2.2.3. Phân tích cú pháp 25

2.2.4. Phân tích ngữ nghĩa 26

2.3. Các đặc trưng ngôn ngữ của tiếng Việt 26

2.3.1 Đặc trưng về ngữ âm và âm vị 26

2.3.2 Đặc trưng về từ pháp và hình thái 27

2.3.3. Đặc trưng về ngữ pháp 28

2.4. Kết chương 30

Chương 3. BÀI TOÁN TÓM TẮT VĂN BẢN 31

3.1. Giới thiệu chung 31

3.1.1. Tóm tắt văn bản là gì ? 32

3.1.2. Các tiêu chí đánh giá 34

3.1.3. Phân loại bài toán Tóm tắt văn bản 35

3.2. Mô hình Tóm tắt văn bản 38

3.2.1. Mô hình chung 38

3.2.2. Các phương pháp áp dụng trong pha Phân tích 40

3.2.2.1. Phương pháp thống kê (Statistical Methods) 41

3.2.2.2 . Phương pháp cấu trúc 42

3.2.2.3. Kết luận về các phương pháp trong pha Phân tích 44

3.2.3. Các phương pháp áp dụng trong pha Biến đổi 45

3.2.3.1. Giản lược về cấu trúc câu ( Syntactic Condensation ) 45

3.2.3.2. Giản lược về mặt ngữ nghĩa ( Semantic Condensation) 46

3.2.3.3. Kết luận về các phương pháp trong pha Biến đổi 48

3.2.4. Các phương pháp áp dụng trong pha Generation 48

3.2.4.1. Phương pháp hiển thị phân đoạn ( Segmental Display ) 48

3.2.4.2. Phương pháp Hiển thị 50

3.2.4.3. Kết luận về các phương pháp trong pha Hiển thị 50

3.3. Đánh giá kết quả tóm tắt 51

3.3.1. Đánh giá bên trong (Intrinsic Evaluation) 52

3.3.1.1. Độ chặt chẽ mạch lạc ( Coherence ) 52

3.3.1.2. Độ hàm chứa thông tin ( Informationess ) 52

3.3.2. Đánh giá bên ngoài ( Extrinsic Evaluation ) 52

3.3.2.1. Độ phù hợp ( Relevance ) 52

3.3.2.2. Độ dễ đọc dễ hiểu ( Reading Comprehence ) 52

3.3.3. So sánh đánh giá bên trong - bên ngoài 52

3.3.4. Các phương pháp đánh giá 53

3.3.4.1. Độ chính xác (Precision ) và độ hồi tưởng (Recall) 53

3.3.4.2. Đánh giá độ tương tự về nội dung (Content-based Similarity) 54

3.3.4.2. Độ tương quan phù hợp (Relevance Correlation) 54

3.3.6. Các hệ đánh giá ứng dụng tóm tắt văn bản 55

3.4. Một số hệ thống tóm tắt văn bản trên thế giới 55

3.5. Kết chương 58

Chương 4. XÂY DỰNG ỨNG DỤNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT 59

4.1. Mô hình xây dựng ứng dụng 59

4.2. Cài đặt tiền xử lý văn bản tiếng Việt 61

4.2.1. Chuẩn hóa văn bản 61

4.2.2. Mô hình hóa văn bản. 61

4.2.3. Tách thuật ngữ. 62

4.3. Lựa chọn, cài đặt các kĩ thuật sử dụng trong bài toán Tóm tắt 65

4.3.1. Các phương pháp trong pha Phân tích 65

a. Phương pháp Title 66

b. Phương pháp Heading 67

c. Phương pháp NamedEntity - NE 68

d. Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence) 69

e. Phương pháp Tần suất xuất hiện của thuật ngữ 69

f. Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency) 70

4.3.2. Các phương pháp trong pha Biến đổi 71

4.3.2.1. Biến đổi nhờ vào rút gọn câu 71

4.3.2.2. Giản lược câu về mặt ngữ nghĩa 74

4.3.3. Các phương pháp trong pha Hiển thị 74

4.4. Kết chương 75

Chương 5. KIỂM THỬ VÀ ĐÁNH GIÁ ỨNG DỤNG 76

5.1. Giao diện kết quả thực nghiệm 76

5.2. Tập kiểm thử 81

5.3. Kết quả kiểm thử và đánh giá 82

5.3.1. Kiểm thử thuật toán tách term tiếng Việt 82

5.3.2. Kiểm thử thuật toán tách named Entity 83

5.3.3. Kiểm thử, đánh giá module chọn câu quan trọng 83

5.3.3.1. Phương pháp truyền thống 84

5.3.3.2. Phương pháp đánh giá theo độ tương tự nội dung 85

5.3.4. Kiểm thử đánh giá rút gọn câu 86

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 89

TÀI LIỆU THAM KHẢO 90

92 trang | Chia sẻ: maiphuongdc | Lượt xem: 3230 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Đồ án Xây dựng ứng dụng tóm lược tự động văn bản tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ăn sau ( được đánh số thứ tự câu ) : "Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ1. Ba anh em chúng em đã chờ những ngày này khá lâu rồi2. Chả là anh cả em được về phép thăm gia đình nhân dịp Tết3. Bố mẹ em rất vui, hai người chuẩn bị một mâm cơm thật thịnh soạn4. Căn phòng nhỏ tràn ngập tiếng cười và không khí gia đình5. Bữa ăn đã làm nên một cuối tuần tuyệt vời6" Văn bản kết quả của quá trình Trích rút : "Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ. Bữa ăn đã làm nên một cuối tuần tuyệt vời". Văn bản kết quả của quá trình Tóm lược : "Một buổi cuối tuần vui vẻ của gia đình em". Chúng ta có thể thấy văn bản kết quả của quá trình Trích rút thực ra là câu 1 và câu 6 của đoạn văn bản nguồn, và có cảm giác như đoạn kết quả không được trôi chảy lắm. Còn câu duy nhất của văn bản kết quả sau quá trình Tóm lược không hề trùng với bất cứ câu nào trong sáu câu của văn bản nguồn. Tuy nhiên nó vẫn thu gọn và giữ được ý chính của cả đoạn. Đây chính là sự khác biệt lớn giữa Trích rút và Tóm lược. Qua ví dụ này chúng ta cũng nhận ra rằng, để xây dựng một hệ thống Tóm lược khó hơn là xây dựng một hệ thống Trích rút. Khi xem xét mô hình chung của một hệ thống Tóm tắt văn bản ta sẽ thấy rõ hơn điều này. Tóm tắt chỉ định, tóm tắt thông tin và tóm tắt đánh giá Phân chia về chức năng, có ba loại ứng dụng tóm tắt sau : Tóm tắt chỉ định ( Indicative ) Là kiểu tóm tắt giúp người đọc quyết định xem có nên đọc tiếp, đọc sâu nữa không. Ví dụ như loại ứng dụng sinh tiêu đề, tóm lược kết quả tìm kiếm… Tóm tắt thông tin ( Informative ) Là kiểu tóm tắt tóm lược tất cả các nội dung quan trọng nhất của văn bản gốc, văn bản tạo ra có thể thay thế được cho văn bản gốc. Ví dụ như tóm tắt một tiểu thuyết thành đoạn văn năm bảy trang. Tóm tắt đánh giá ( Evaluative ) Là kiểu tóm tắt mà trong kết quả ra có cả đánh giá của người tóm tắt. Ví dụ như lời tựa một quyển sách hay bản thảo một bài báo. Kiểu tóm tắt này không gặp trong một hệ tóm tắt văn bản tự động. Tóm tắt chung và Tóm tắt hướng truy vấn Phân chia về mục đích, có hai loại là Tóm tắt chung và Tóm tắt hướng truy vấn Tóm tắt chung ( Generic ) Tóm tắt theo quan điểm ban đầu của tác giả văn bản gốc (khách quan). Tóm tắt hướng truy vấn ( Query-Oriented ) Tóm tắt theo quan điểm mong muốn của người dùng ứng dụng thông qua các tham số truyền vào câu truy vấn.Tóm tắt hướng truy vấn được cài đặt và áp dụng nhiều hơn nhưng trong lĩnh vực hẹp hơn, đi sâu vào các chuyên ngành cụ thể. Tóm tắt cơ bản và Tóm tắt chuyên môn Phân chia theo trình độ người dùng có Tóm tắt cơ bản và Tóm tắt chuyên môn. Tóm tắt cơ bản Tóm tắt này dành cho người thông thường. Ví dụ : Các ứng dụng tóm tắt thông thường, chung chung như tóm tắt trang tin, tóm tắt tiểu thuyết văn học… Tóm tắt chuyên môn Tóm tắt dành cho người đã có nền tảng, chuyên môn. Những bản tóm tắt ra chứa đựng những thuật ngữ, khái niệm, công việc chuyên môn. Ví dụ : ứng dụng hỗ trợ thông minh giúp bác sĩ tóm lược và so sánh các phương pháp điều trị, ứng dụng tóm tắt các bài báo về toán học… Tóm tắt đơn ngôn ngữ, Tóm tắt đa ngôn ngữ và Tóm tắt đan xen ngôn ngữ Dựa vào số lượng các ngôn ngữ trong văn bản nguồn và văn bản kết quả, có ba loại ứng dụng tóm tắt : Tóm tắt đơn ngôn ngữ Văn bản nguồn chỉ có một loại ngôn ngữ. Kết quả ra là văn bản ngôn ngữ đó. Tóm tắt đa ngôn ngữ Mỗi văn bản nguồn chỉ có một loại ngôn ngữ. Nhưng ứng dụng có khả năng tóm tắt trên nhiều loại ngôn ngữ. Tùy vào văn bản nguồn hoặc tham số đưa vào mà hệ thống tóm tắt trên một ngôn ngữ được chọn. Tóm tắt đan xen ngôn ngữ Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng và tóm tắt cho phù hợp. Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số lượng ngôn ngữ Ứng dụng trên Desktop và ứng dụng trên Web Phân theo môi trường cài đặt ứng dụng, ta có hai loại sau : Ứng dụng trên Desktop Ứng dụng phát triển trên máy để bàn, đòi hỏi độ chính xác cao, có khả năng Tóm lược (Abstract), độ nén không cao. Ứng dụng trên Web Ứng dụng phát triển trên môi trường Web, đòi hỏi thời gian thực hiện nhanh, nên thường là Trích rút (Extract), độ nén lớn. Ví dụ : Tóm tắt danh mục từ Search Engine, trang tin… 3.2. Mô hình Tóm tắt văn bản 3.2.1. Mô hình chung Một hệ thống tóm tắt văn bản nói chung gồm những pha sau : Phân tích ( Analysis ) Phân tích văn bản đầu vào để đưa ra những mô tả bao gồm các thông tin dùng để tìm kiếm, đánh giá các đơn vị ngữ liệu quan trọng cũng như các tham số đầu vào cho việc tóm tắt. Biến đổi ( Transformation ) Lựa chọn các thông tin trích chọn được, biến đổi để giản lược và thống nhất, kết quả là các đơn vị ngữ liệu đã được tóm tắt. Hiển thị ( Generation ) Từ các đơn vị ngữ liệu đã tóm tắt, liên kết chúng lại thành đoạn theo một thứ tự nào đó hoặc theo cấu kết ngữ pháp rồi hiển thị phù hợp với yêu cầu người dùng. Rút trích Phân tích (Analysis) Lựa chọn Biến đổi (Tranformation) Liên kết Hiển thị (Generation) HỆ TÓM TẮT VĂN BẢN Hình 3.5: Mô hình hệ Tóm tắt văn bản tổng quát Một hệ Tóm lược (Abstraction) bao gồm tất cả các pha trên, tuy nhiên một hệ Trích rút (Extraction) chỉ gồm pha Phân tích và Pha Hiển thị, không có pha biến đổi. Thậm chí trong các pha phân tích và hiển thị, chỉ có một số công đoạn được sử dụng. Phân tích thống kê (Statistical Analysis) Hiển thị phân đoạn (Fragmentary Display) MỘT HỆ TRÍCH RÚT VĂN BẢN ( EXTRACTOR ) Hình 3.6: Mô hình một hệ Trích rút văn bản Qua đây chúng ta thấy rằng một hệ Trích rút thì thường tiến hành ít bước hơn, tập trung vào pha Phân tích là chính. Các phương pháp thường dùng để cài đặt hệ Trích rút văn bản thường là các phương pháp thống kê, học trên ngữ liệu. Còn các hệ Tóm lược thì phải cài đặt nhiều hơn, đầy đủ ba pha của mô hình chung, và có sự kết hợp chặt chẽ giữa các phương pháp thống kê, học dựa ngữ liệu và các phương pháp của Xử lý ngôn ngữ tự nhiên. Vì vậy, kết quả của các Hệ Tóm lược thường thuyết phục hơn (về mặt dễ đọc, dễ hiểu, liên kết ngôn ngữ tốt, gần gũi với con người). Sau đây chúng ta sẽ đi sâu vào giới thiệu một số phương pháp được áp dụng trong các pha của mô hình Tóm tắt văn bản tự động, thông qua đó chúng ta cũng hiểu rõ hơn về những công việc thật sự, đầu vào và đầu ra của từng pha trong mô hình này. 3.2.2. Các phương pháp áp dụng trong pha Phân tích Như chúng ta đã đề cập, trong pha Phân tích (Analysis), văn bản nguồn (hay tập các văn bản nguồn) được phân tích để xác định các đơn vị ngữ liệu quan trọng đồng thời tiếp nhận các thông số đầu vào của hệ thống tóm tắt. Các thông số đầu vào được tiếp nhận ngay từ đây để hệ thống thông qua chúng sẽ áp dụng các phương pháp phù hợp, không chỉ trong pha Phân tích mà còn trong các pha Biến đổi (Tranformation) và Hiển thị (Generation) tiếp sau. Còn việc phân tích xác định các đơn vị ngữ liệu quan trọng là công việc của các phương pháp trong pha Phân tích này. Nói một cách gần gũi dễ hiểu, qua pha này, văn bản cần tóm tắt sẽ được tách ra thành các đoạn, các câu, và những đoạn hay câu quan trọng nhất sẽ được chọn ra thông qua một số tiêu chí, làm đầu vào cho pha tiếp sau. Các phương pháp áp dụng trong pha Phân tích được chia thành hai loại : Phương pháp thống kê và Phương pháp cấu trúc. Phương pháp thống kê là các phương pháp sử dụng các số liệu thống kê về độ quan trọng của các từ, ngữ, câu hay đoạn. Qua đây, hệ thống có thể sẽ giảm được số lượng các đối tượng phải xem xét và trích rút chính xác các đơn vị ngữ liệu cần tìm. Các thống kê có thể nhận được từ các nghiên cứu về ngôn ngữ học hay thông qua phương pháp học máy từ các tập mẫu có sẵn. Từ đó, các thống kê này được dùng cho các tính toán hiện thời trên văn bản đầu vào. Phương pháp cấu trúc là các phương pháp sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa để xác định các đơn vị ngữ liệu quan trọng. Tư tưởng chính của các phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên kết nhiều với các thành phần khác sẽ có độ quan trọng lớn. Việc đánh giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa, các quan hệ cú pháp hoặc thông qua các phương pháp xác định độ liên quan truyền thống. 3.2.2.1. Phương pháp thống kê (Statistical Methods) Các phương pháp thống kê là những phương pháp đầu tiên được sử dụng để cài đặt một hệ Tóm tắt văn bản. Các số liệu thống kê thường được thu thập thông qua việc học trên các tập mẫu khác nhau. Năm 1958, Luhn đã chọn ra các câu quan trọng từ văn bản thông qua phương pháp thống kê tần suất của từ. Năm 1969, Edminson đưa ra bốn phương pháp mới hơn, trong đó có một phương pháp khá giống với Luhn, để xây dựng nên một hệ tóm tắt văn bản. Edminson cũng đã kiểm thử kết quả của từng phương pháp cũng như các phương pháp áp dụng đồng thời với nhau. Sau đây là một số tư tuởng chính của các phương pháp thống kê : i. Phương pháp vị trí (Position-Based) Phương pháp vị trí bao gồm các phương pháp xác định độ quan trọng dựa trên thống kê về vị trí của từ, ngữ hay câu trong văn bản. Các thống kê này tất nhiên phụ thuộc vào thể loại văn bản… Chủ đề - Tiêu đề ( Title-based ) Chủ đề các đoạn văn bản hay tiêu đề các bảng thường chứa các từ và ngữ quan trọng, nên trích rút thông tin từ đây. Đầu - cuối đoạn ( First - Last Sentence ) Xác suất câu đầu đoạn hay câu cuối đoạn chứa ý chính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn. Ngoài ra, các đoạn đầu và cuối trong văn bản cũng quan trọng hơn các đoạn giữa. Minh họa - Chú thích ( Comments ) Trong các câu chú thích, câu minh họa cho ảnh hay đồ thị thường chứa các thông tin quan trọng. Tuy nhiên, các câu này thường chỉ được dùng để đánh giá độ quan trọng của các câu khác liên quan, chứ không được chọn làm đầu vào cho pha tiếp. ii. Phương pháp ngữ cố định (Cue phrases-Based) Các ngữ cố định có đặc điểm thống kê rất tốt. Sau các ngữ này thường là các câu hay từ có độ quan trọng là xác định. Người ta chia thành hai loại ngữ cố định, một loại mang lại độ quan trọng cho thành phần đi sau, được gọi là ngữ nhấn mạnh, một loại giúp ta loại bỏ, không xét đến những thành phần đi sau vì nó không có nhiều giá trị trong việc trích rút, được gọi là ngữ dư thừa : Ngữ nhấn mạnh ( Bonus phrase - Emphasizer ) Ngữ nhấn mạnh gồm các ngữ như “nói chung là…”, “đặc biệt là…”, "cuối cùng thì…”, “trong bài viết này em muốn chỉ ra…”, “bài viết nói về…”, “nội dung gồm…”,..v..v... Ngữ dư thừa ( Stigma phrases ) Một số ngữ dư thừa : “hiếm khi mà…”, "bài này không nói đến…”, "Không thể nào…”, ..v..v... iii. Phương pháp thống kê tần suất từ (Word frequency-Based) Độ quan trọng của từ phụ thuộc vào số lần xuất hiện của từ đó trong các văn bản liên quan. Các kỹ thuật như TFxIDF hay Tập thuật ngữ thường xuyên (Frequent Item Set) dùng cho công việc xác định tần suất của từ. 3.2.2.2 . Phương pháp cấu trúc i. Phương pháp quan hệ lẫn nhau P1 P2 P3 P4 P5 P6 P7 P8 P9 Hình 3.7: Quan hệ lẫn nhau giữa các đoạn trong văn bản Phương pháp này xác định mối quan hệ giữa các đoạn trong văn bản hay các câu trong đoạn với nhau thông qua các kỹ thuật thu thập thông tin ở mức văn bản. Các đoạn (câu) trong văn bản nguồn được tính toán độ liên quan lẫn nhau giữa chúng. Có thể dùng các kỹ thuật xác định độ liên quan lẫn nhau như Cosine, TFxIDF hay N-gram Overlap. Sau đó chọn ra đoạn (câu) có độ liên quan lớn nhất. ii. Phương pháp liên kết từ vựng ( Lexical Chains ) Phương pháp liên kết từ vựng sử dụng các từ điển quan hệ từ vựng đế xây dựng các chuỗi từ liên kết với nhau vể mặt ngữ nghĩa. Ví dụ "cây" là một loại "thực vật", có bộ phận là "lá", chất liệu là "gỗ". Các từ "cây", "thực vật", "lá", "gỗ" có quan hệ ngữ nghĩa nào đó với nhau. Sau khi xây dựng được các chuỗi từ này, đánh giá độ mạnh của chúng và có những trích chọn phù hợp. Các ứng dụng tóm tắt sử dụng phương pháp này đã được cài đặt bởi Regina Barzilay hay Cláudia Santos [19]. Tuy nhiên, có thể coi Morris và Hirst là những người đầu tiên đưa ra ý tưởng này vào năm 1991. Lexical Chains không những chỉ dùng trong Tóm tắt văn bản mà còn được coi là lý thuyết tổng quát của vấn đề ngữ nghĩa trong Xử lý ngôn ngữ tự nhiên. Sau này Chin-Yew Lin and Eduard Hovy đã phát triển thành một lý thuyết mới, rộng hơn, được gọi là Nhận dạng chủ đề (Topic Identification). iii. Phương pháp Liên kết tham chiếu ( Word Coreferences ) Phương pháp liên kết tham chiếu còn được gọi là phương pháp trích chọn trùng lặp (Anaphora-based Method). Theo phương pháp này, các cụm trùng lặp được chọn ra, phân rã xem đâu là từ (ngữ) tham chiếu và từ (ngữ) được tham chiếu. Ví dụ : "Tuấn hay đến thăm ngoại cậu ấy. Bà thường hay nấu cơm cho cậu ăn." Trong ví dụ trên, các cặp trùng lặp là "Tuấn"-"cậu ấy"-"cậu" và "ngoại cậu ấy"-"bà". Trong đó từ "cậu ấy" và "cậu" là từ tham chiếu, tham chiếu đến từ "Tuấn" là từ được tham chiếu. Cặp "ngoại cậu ấy"-"bà" cũng tương tự. Sau khi phân tách các cụm trùng lặp, chúng ta tạo chuỗi các từ (ngữ) tham chiếu đến cùng một từ được tham chiếu. Chuỗi dài nhất sẽ được coi là trọng tâm của đoạn, các câu chứa các từ trong chuỗi này có một độ ưu tiên nào đó khi xét trích chọn. Vấn đề này liên quan đến các bài toán Nhận biết các thực thể có tên, hợp giải tham chiếu - một lớp các bài toán thú vị khác của Xử lý ngôn ngữ tự nhiên. iv. Phương pháp quan hệ câu ( Discourse-Based ) Dựa trên các từ thể hiện mối quan hệ giữa các câu chúng ta cấu trúc hóa đoạn văn bản từ các đơn vị thành phần như ngữ, mệnh đề, câu... Sau đó đơn vị được coi như trung tâm sẽ được trích chọn. Phương pháp này dựa trên nghiên cứu và đề xuất nổi tiếng của Mann và Thompson về Lý thuyết cấu trúc tu từ ( Rhetorical Structure Theory - RST). Đoạn văn đang xét sẽ được cấu trúc hóa thành dạng cây từ các nút lá, gọi là Cây tu từ (Rhetorical Tree). Bằng cách biểu diễn các mối quan hệ giữa các câu về mặt ngữ nghĩa hay cú pháp như các mối quan hệ nền (Background), quan hệ dấu hiệu (Evidence), quan hệ phát sinh (Elaboration),...chúng ta có thể xác định các nút hạt nhân và các nút vệ tinh. Từ đó chọn các nút hạt nhân để xây dựng nên cấp thấp hơn của Cây tu từ. Gốc của Cây tu từ sẽ là đơn vị quan trọng nhất. Ví dụ, một cặp câu có quan hệ nguyên nhân, kết quả thì thường câu kết quả có độ quan trọng cho tóm tắt hơn. Một cặp câu khác có quan hệ minh họa thì câu minh họa rõ ràng không nên đưa vào tóm tắt so với câu nền tảng của nó. Cứ thế, thông qua các mối quan hệ này, chúng ta sẽ sắp thứ tự được các câu, các đoạn trong văn bản theo độ quan trọng tóm tắt. Sau đó ta trích ra những câu ở đầu danh sách này theo số lượng mong muốn. Đây là những ý tưởng cơ bản của Daniel Marcu trong việc sử dụng RST vào các ứng dụng Tóm tắt và Sinh ngôn ngữ tự nhiên (Natural Language Generating). 3.2.2.3. Kết luận về các phương pháp trong pha Phân tích Kết thúc pha Phân tích sẽ là việc tổng hợp các chỉ số đánh giá độ quan trọng của các đơn vị ngữ liệu theo các phương pháp trên đây và thực hiện việc chọn các đơn vị ngữ liệu nào có độ quan trọng lớn thành đầu vào cho pha sau. Thường thường độ quan trọng (trọng số) của các đơn vị ngữ liệu sẽ được xác định bởi một phương trình tuyến tính của các hệ số đánh giá độ quan trọng theo mỗi phương pháp. Trong đó các hệ số tuyến tính sẽ phụ thuộc vào tính chính xác của thuật toán khi áp dụng từng phương pháp và áp dụng đồng thời các phương pháp với nhau. Sở dĩ chúng ta phải xét đến cả việc áp dụng đồng thời các phương pháp với nhau vì thực tế cho thấy rằng khi sử dụng nhiều phương pháp đồng thời thì độ chính xác không bằng tổng độ chính xác khi dùng riêng rẽ, độ chính xác này luôn nhỏ hơn tổng độ chính xác, thậm chí còn nhỏ hơn các độ chính xác riêng rẽ ! Việc xác định các hệ số tuyến tính có thể thực hiện bằng nhiều cách. Nhiều hệ thống không xác định được chính xác, đã để các hệ số này bằng nhau và bằng một ! Một số hệ thống khác thì cẩn trọng hơn, đưa ra những tỉ lệ tương đối sao cho đảm bảo được việc phối hợp các phương pháp là tốt hơn việc dùng phương pháp chính xác nhất. Ngoài ra một số hệ thống lại dựa vào các tham số đưa vào để lựa chọn các phương pháp cần dùng. Ví dụ như một hệ Trích rút mang chức năng chỉ định và không cần độ chính xác cao chỉ cài đặt các phương pháp thống kê mà thôi. Tuy nhiên, có một phương pháp mang lại tính chính xác khá cao khi xác định các hệ số đó là phương pháp học từ tập mẫu (Corpus-based). Thông qua tập mẫu có thể xác định được các hệ số này khi cài đặt thuật toán và kiểm thử trên tập mẫu. Kết quả kiểm thử được đưa trở lại để cải tiến các hệ số tuyến tính cho đến khi đạt kết quả chấp nhận. Tất nhiên, cách này chỉ áp dụng được khi có những tập mẫu chính xác ! Trong các phương pháp được áp dụng ở pha Phân tích, chúng ta dễ dàng thấy rằng các phương pháp thống kê dễ cài đặt hơn các phương pháp cấu trúc. Việc cài đặt các phương pháp thống kê đơn thuần chỉ là các công thức toán học còn để cài đặt các phương pháp cấu trúc chúng ta cần thực hiện rất nhiều kỹ thuật về Cấu trúc dữ liệu, Tính toán khoa học thậm chí là các kỹ thuật trong lĩnh vực Trí tuệ nhân tạo. Đó là chưa kể đến những kiến thức nhất định về ngôn ngữ và xử lý ngôn ngữ. Tuy vậy, các phương pháp thống kê cho kết quả kém hơn nhiều các phương pháp cấu trúc. Đặc biệt hơn, qua một số quá trình tìm hiểu và kiểm thử không chính thức thì kết quả cho thấy các phương pháp thống kê tiếng Việt thậm chí không đạt được độ chính xác như khi áp dụng đối với tiếng Anh. Một khó khăn chung to lớn của hai loại phương pháp áp dụng cho tiếng Việt là các tài nguyên phục vụ cho các phương pháp này chưa có nhiều. Tài nguyên còn thiếu cho các phương pháp thống kê là các số liệu thống kê tiếng Việt về vị trí và từ điển ngữ cố định. Tài nguyên còn thiếu cho các phương pháp cấu trúc là các tập mẫu, các mạng ngữ nghĩa... Đã có một số nghiên cứu xây dựng tập mẫu hay các mạng ngữ nghĩa dành cho tiếng Việt nhưng chưa thành công, chưa đầy đủ hoặc chưa công bố chính thức. 3.2.3. Các phương pháp áp dụng trong pha Biến đổi Trong pha Biến đổi, các đoạn (câu) có độ quan trọng phù hợp đã được rút trích từ pha Phân tích sẽ được tiếp tục biến đổi, làm gọn lại cho pha Hiển thị tiếp theo. Như vậy trong pha này, hệ thống sẽ thực hiện rút gọn bản thân bên trong một câu, thường sử dụng các phương pháp rút gọn câu ( Sentence Reduction hay Sentence Condensation). Ngoài ra, một số ứng dụng còn gộp hai, ba câu lại để sinh ra một câu mới ngắn gọn hơn, tuy nhiên, thông qua pha Phân tích, các câu được rút trích thường không có các quan hệ đặc trưng với nhau về nghĩa hay cú pháp để chúng ta có thể gộp chúng lại theo một tiêu chí nào đó. Vì vậy các phương pháp rút gọn câu là các phương pháp chính trong pha này. Và như đã đề cập, pha Biến đổi không có trong các hệ thống Trích rút văn bản. Các phương pháp trong pha Biến đổi có thể chia thành hai loại : Giản lược về cấu trúc câu và giản lược về ngữ nghĩa câu. 3.2.3.1. Giản lược về cấu trúc câu ( Syntactic Condensation ) Giản lược về cấu trúc câu là việc lược bỏ trong câu các phần thừa, ít mang giá trị, làm cho cấu trúc câu thu gọn lại. Công việc này thường dựa trên phân tích cú pháp các thành phần trong câu. Đầu tiên câu được phân tích cú pháp bằng các phương pháp gán nhãn hay cấu trúc hóa thành cây cú pháp. Sau đó dựa trên việc phân tích cú pháp này, các thành phần thừa, ít phản ánh nội dung cốt yếu sẽ bị loại bỏ. Các thành phần bị loại bỏ có thể là các liên từ, các từ (ngữ) bổ nghĩa, các ngữ đồng vị hay các mệnh đề phụ ngầm định. Các thành phần này cũng hay có dấu hiệu nhận biết như nằm giữa các dấu phảy, nằm giữa các cặp ngoặc đơn... Ví dụ : Có câu văn sau : "Bill Gate, người giàu nhất thế giới, là chủ nhân của hãng máy tính Microsoft." Câu văn này sau khi loại bỏ ngữ đồng vị "người giàu nhất thế giới" nằm giữa hai dấu phảy ta sẽ thu được một câu gọn hơn mà không vi phạm về cấu trúc ngữ pháp và ngữ nghĩa : "Bil lGate là chủ nhân của hãng máy tính Microsoft." Ví dụ khác : Có câu sau : "Anh ta chạy một cách hết sức nhanh.". Ta có thể rút gọn lại thành : "Anh ta chạy nhanh.". Câu này đúng về mặt ngữ pháp nhưng không còn giữ được đúng ngữ nghĩa hoàn toàn. Tuy nhiên, xét trong một hệ Tóm lược văn bản với một yêu cầu cụ thể về độ rút gọn thì câu này có thể chấp nhận được vì nó vẫn giữ được ý chính của câu ban đầu. Hai trong số các phương pháp giản lược về cấy trúc câu hay được dùng là hai phương pháp do Kevin Knight and Daniel Marcu đề xuất năm 2000 [21]: dựa vào mô hình kênh nhiễu ( Noisy-Channel Model) và cây quyết định (Decision Tree). Hai phương pháp này đều học một tập mẫu gồm các cặp câu nguyên mẫu-tóm tắt và áp dụng vào việc rút gọn câu mới. Một hướng đi khác là các phương pháp dựa trên lý thuyết về cấu trúc F và văn phạm từ vựng-chức năng (Lexical-Functional Grammar LFG) của Trung tâm nghiên cứu Palo Alto. Ngoài ra việc rút gọn câu dựa vào các tập ngữ liệu song ngữ cũng là một hướng đi được nhiều nhà xử lý ngôn ngữ tự nhiên lựa chọn như Vandeghinste và Yi Pan [23,24]… Nói chung các phương pháp này đều đòi hỏi phải có tập mẫu để học gồm các cặp câu nguyên mẫu-tóm tắt, ngoài ra cần có một bộ phân tích cú pháp khá chính xác. Vì đây là các phương pháp thống kê nên chúng ta có thể áp dụng vào tiếng Việt với điều kiện phải có tập mẫu và bộ phân tích cú pháp dành cho tiếng Việt. 3.2.3.2. Giản lược về mặt ngữ nghĩa ( Semantic Condensation) Đây là các phương pháp thay thế các từ, ngữ bằng các từ, ngữ khác có quan hệ về nghĩa, về khái niệm. Tất nhiên các từ ngữ thay thế ngắn hơn các từ ngữ ban đầu. Nói chung các phương pháp này thường có các bước tiến hành như sau : Đầu tiên xây dựng các danh sách từ, ngữ có quan hệ về nghĩa (bằng các phương pháp thống kê hoặc xử lý ngôn ngữ tự nhiên). Sau đó, nhận dạng trong câu các từ ngữ kiểu này và thay thế tương ứng. Có nhiều phương pháp Giản lược nhờ sinh khái niệm nhưng sau đây là một số phương pháp tiêu biểu : i. Phương pháp trừu tượng hóa khái niệm Tư tưởng của phương pháp này là từ các khái niệm cụ thể thay thế bằng khái niệm chung. Ví dụ : "Em ăn dâu, táo và đào." => "Em ăn trái cây." Phương pháp này phải dựa trên các mạng ngữ nghĩa để xác định từ thay thế. Sau đây chúng ta đưa ra một mô tả cho một giải thuật đơn giản để biến đổi câu "Em ăn dâu, táo và đào." thành "Em ăn trái cây." Giả sử ta có một mạng ngữ nghĩa tiếng Việt. Xét một quan hệ nhỏ được biểu diễn trong mạng ngữ nghĩa theo dạng như sau : ( Lê, Đào, Dâu, Mận, Táo, Xoài,...) $===> ( Trái cây ) Dấu $ đi liền trước mũi tên chỉ đây là quan hệ ngữ nghĩa "...là một loại..." Câu ban đầu được tách danh từ (thông qua việc gán nhãn từ loại) ra được thành "Em", "dâu", "táo", "đào", dựa vào việc cùng từ loại là tân ngữ mà các danh từ "dâu", "táo", "đào" được xét riêng. Các danh từ này được đối sánh với các danh từ trong quan hệ nói trên, và được thay thế bởi danh từ có khái niệm chung là "trái cây". Các mạng ngữ nghĩa tất nhiên có nhiều cấp và việc lựa chọn thay thế ở cấp nào là các quy tắc riêng của giải thuật cài đặt. Ví dụ như trong trường hợp trên, giả sử "trái cây" là một loại của "thực vật", liệu chúng ta nên thay "dâu", "táo", "đào" bởi "trái cây" hay "thực vật" ? Rõ ràng về nghĩa chúng ta nên dùng "trái cây", điều này có thể thực hiện trong giải thuật bằng cách lấy khái niệm ở mức liền trên của "dâu", "táo", "đào"... ii. Phương pháp thay thế bộ phận Tư tưởng của phương pháp này là từ các khái niệm bộ phận thay thế bằng khái niệm toàn bộ. Ví dụ : "Xích, líp, ghi đông, bàn đạp … " => "Cái xe đạp…". Thuật toán khá giống với phương pháp sinh khái niệm và cũng dựa vào mạng ngữ nghĩa. Tất nhiên ở đây chúng ta chú ý đến quan hệ bộ phận - toàn thể của các danh từ, ngữ danh từ trong câu. iii. Phương pháp thay thế ngữ tương đương Tư tưởng của phương pháp này là các ngữ đóng vai trò như nhau trong câu được thay bằng một ngữ chung. Ví dụ : "Anh ấy bước vào, ngồi xuống ghế, xem thực đơn, gọi món, ăn, trả tiền và ra về" => "Anh ấy đi ăn tiệm". Đây chính là phương pháp sử dụng các ý tưởng về Nhận dạng chủ đề của Daniel Marcu đã được chúng ta đề cập đến trong pha Phân tích. Trước hết ta cần xây dựng những chữ ký chủ đề (Topic Signature). Mỗi chữ ký này là danh sách các từ, các ngữ cùng loại (về mặt từ loại, ngữ loại), có đại diện bởi tên chủ đề. Các chữ ký được xây dựng dựa trên các phương pháp khác nhau như thống kê tần suất, dịch mạng ngữ nghĩa... Sau đó, tìm kiếm trong câu đầu vào các thành viên của chữ ký và thay thế bởi tên chủ đề [21]. iv. Phương pháp thay thế từ, ngữ đồng nghĩa ngắn hơn Một phương pháp khác khá dễ hiểu đấy là việc thay thế một từ, ngữ bằng một từ, ngữ khác đồng nghĩa hoặc gần nghĩa nhưng có độ dài ngắn hơn. Điều này thường thông qua một từ điển các từ đồng nghĩa (Thesaurus). iv. Phương pháp thay thế bởi đại diện Tư tưởng của phương pháp này là thay thế một ngữ bằng một ngữ khác có ý nghĩa đại diện cho ngữ ban đầu. Ví dụ : "Nguời phát ngôn viên của chính phủ Hoa Kỳ thông báo…" => "Washington thông báo…". Phương pháp này rất khó cài đặt vì quan hệ giữa ngữ đại diện với ngữ bị thay thế là quan hệ lỏng, thường là tự định nghĩa và quan hệ này phụ thuộc nhiều vào ngữ cảnh và lĩnh vực. Các phương pháp Hợp giải tham chiếu thường được dùng để thực hiện. 3.2.3.3. Kết luận về các phương pháp trong pha

Các file đính kèm theo tài liệu này:

24813.doc