Luận văn Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản

MỤC LỤC

MỤC LỤC 1

BẢNG DANH MỤC HÌNH HOẠ 3

LỜI GIỚI THIỆU 4

I. Đặt vấn đề 6

II. Cơ sở lý thuyết 7

1. Khái niệm Text Mining 7

a. Khai phá dữ liệu (Data Mining) 7

b. Khai phá dữ liệu văn bản (Text Mining) 8

2. Bài toán phân loại văn bản (Text categorization) 10

a. Khái niệm phân loại văn bản 10

b. Các phương pháp phân loại văn bản 11

b.1. Sử dụng từ điển phân cấp chủ đề 11

b.1.1. Giải thuật phân lớp và phân cấp chủ đề 11

b.1.2. Sự phù hợp và sự phân biệt của các trọng số 12

b.2. Phương pháp cây quyết định (Decision tree) 13

3. Bài toán thu thập thông tin (Information retrieval - IR) 14

a. Khái niệm thu thập thông tin 14

b. Các phương pháp thu thập thông tin 16

b.1. Các phương pháp chuẩn 16

b.1.1. Mô hình Boolean 16

b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM) 18

b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method) 21

b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) 22

4. Một số công cụ phân tích văn bản tiếng Anh 26

III. Các giải pháp áp dụng cho Vietnamese Text Mining 29

1. Đặc trưng của văn bản tiếng Việt 29

a. Các đơn vị của tiếng Việt 29

a.1. Tiếng và đặc điểm của tiếng 29

a.1.1. Tiếng và giá trị ngữ âm 29

a.1.2. Tiếng và giá trị ngữ nghĩa 29

a.1.3. Tiếng và giá trị ngữ pháp 29

a.2. Từ và các đặc điểm của từ 30

a.2.1. Từ là đơn vị nhỏ nhất để đặt câu 30

a.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định 30

a.3. Câu và các đặc điểm của câu 30

a.3.1. Câu có ý nghĩa hoàn chỉnh 30

a.3.2. Câu có cấu tạo đa dạng. 30

b. Các phương tiện ngữ pháp của tiếng việt. 31

b.1. Trong phạm vi cấu tạo từ. 31

b.2. Trong phạm vi cấu tạo câu. 31

c. Từ tiếng việt 32

c.1. Từ đơn - từ ghép 32

c.2. Từ loại 32

c.3. Dùng từ cấu tạo ngữ 33

d. Câu tiếng việt 34

d.1. Câu đơn 34

d.2. Câu ghép 35

d.2.1. Câu ghép song song 35

d.2.2. Câu ghép qua lại 35

d.2.3. Các thành phần câu. 35

e. Các đặc điểm chính tả và văn bản tiếng Việt 36

2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt 36

a. Bài toán phân loại văn bản tiếng Việt 36

b. Bài toán thu thập thông tin từ văn bản tiếng Việt 37

IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 38

1. Chương trình và bài toán được giải quyết 38

2. Kết quả chạy chương trình 38

TÀI LIỆU THAM KHẢO 39

PHỤ LỤC 40

Các thông tin về báo cáo 40

Cách chạy chương trình demo 40

TỪ ĐIỂN THUẬT NGỮ 41

41 trang | Chia sẻ: maiphuongdc | Lượt xem: 5713 | Lượt tải: 2Free

Bạn đang xem trước 20 trang tài liệu Luận văn Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ì lúa mì lúa mì lúa mì lúa mì lúa mì lúa mì lúa mì Hình 1: Một ví dụ về cây quyết định Phương pháp phân lớp văn bản Cây quyết định (decision tree - DT) được Mitchell đưa ra vào năm 1996 [2]. Trên cây gồm các nút trong được gán nhãn bởi các thuật ngữ, các nhánh cây chứa nút được gán nhãn bằng các trọng số của thuật ngữ tương ứng đối với tài liệu mẫu, và các lá cây được gắn nhãn bởi các phân lớp. Một hệ thống phân lớp như vậy sẽ phân loại một tài liệu dj bởi phép thử đệ quy các trọng số mà các thuật ngữ được gán nhãn cho các nút trong với vec-tơ cho đến khi với tới một nút lá. Khi đó, nhãn của nút này được gán cho dj. Đa số các phướng pháp phân loại như vậy sử dụng biểu diễn văn bản ở dạng nhị phân, và như vậy các cây cũng được biểu diễn dưới dạng nhị phân. Một ví dụ về cây quyết định được minh hoạ trong Hình 1. Một phương pháp khả thi dùng để huấn luyện một cây quyết định phân loại ci nằm ở chiến lược “chia và trị” [2]. Chiến lược này sẽ kiểm tra xem liệu tất cả các khái niệm huấn luyện có cùng nhãn với nó (hoặc hoặc ); nếu không, lựa chọn một khái niệm tk, phân chia cây thành các lớp tài liệu có cùng giá trị tk và chèn vào mỗi lớp như vậy một cây con riêng biệt. Quá trình đệ quy lặp lại trên các cây con cho đến khi mỗi lá của cây phát sinh chứa các khái niệm huấn luyên gán cho cùng phạm trù ci, khi đó nó được chọn như là nhãn của lá đó. Bước quyết định là việc chọn thuật ngữ tk ở đó sẽ xảy ra thao tác chia, một phương pháp lựa chọn là chọn theo lợi ích thông tin hay entropi. Tuy nhiên, một cây "quá lớn lên" có thể bị sập, nếu như các nhánh cây quá đặc biệt với dữ liệu huấn luyện. Đa số các phướng pháp dạy cây quyết định như vậy bao gồm một phương pháp thêm cây và một phương pháp xén bớt cây để loại bỏ những nhánh quá đặc biệt [2]. 3. Bài toán thu thập thông tin (Information retrieval - IR) a. Khái niệm thu thập thông tin Thu thập thông tin (Information Retrieval) là một trong những bài toán khai phá dữ liệu văn bản. Bài toán này chủ yếu tập trung vào việc tìm ra các tài liệu trong một tập hợp các tài liệu có sẵn theo một điều kiện nào đó. Các điều kiện này có thể là một truy vấn hay một văn bản. Khi điều kiện đưa vào là một truy vấn, bài toán sẽ đưa ra các suy luận để tìm ra đặc trưng của câu truy vấn đó, sau đó so sánh với các đặc trưng của các tài liệu có sẵn để tìm ra các tài liệu phù hợp nhất với câu truy vấn đó. Trong bài toán này, mô hình của bài toán gần với bài toán Search Engine. Tuy nhiên, bài toán thu thập thông tin là bài toán được phát triển ở mức độ cao hơn. Đối với bài toán Search Engine, câu truy vấn đưa vào là tập hợp các niệm. Nhưng với bài toán thu thập thông tin, câu truy vấn đưa vào có thể là một câu văn có ngữ nghĩa. Hệ thống sẽ tìm cách phân tích ngữ nghĩa của câu truy vấn để tìm ra đặc trưng của nó. Thông tin cần thiết Truy vấn Gửi cho Hệ thống Nhận kết quả Đánh giá kết quả Tốt ? Dừng lại Đúng Công thức hoá lại Sai Hình 2. Mô hình thu thập thông tin chuẩn Khi thu thập dữ liệu, chúng ta thường cố gắng tìm kiếm các dữ liệu chính xác. Trong các trường hợp khác, chúng ta kiểm tra để xem một thông tin có trong một tệp tin hay không. Khi thu thập thông tin, kết quả chính xác thường được quan tâm, nhưng thông thường chúng ta muốn tìm kiếm một cách tương đối chính xác với một thông tin đặc biệt được đưa vào. Sau đó chúng ta sẽ tự chọn thông tin phù hợp nhất từ các kết quả của phép xử lý trước đó. Nếu chúng ta so sánh nó với các kiểu hệ thống khác nhau, chúng ta sẽ thấy rằng trong nội dung các truy vấn cơ sở dữ liệu, một phép tìm kiếm thực chất là để làm thoả mãn một truy vấn, là câu hỏi để tìm ra câu trả lời (được biết đến với khái niệm trích xuất thông tin) đặc biệt là với một câu hỏi đặc biệt. Trong thu thập thông tin, một phép tìm kiếm nhằm tìm ra một tài liệu mà người dùng đang cần. Các hệ thống thu thập thông tin (IR systems) được sử dụng để thu thập các tài liệu liên quan đến các yêu cầu rõ ràng. Vấn đề với thu thập thông tin là việc xử lý các văn bản có nội dung liên quan nội tại đến các văn bản được sử dụng trước đó. Hình 2 đưa ra một mô hình tương tác thu thập thông tin chuẩn. Hiển nhiên, việc thu thập thông tin là quá trình xử lý lặp lại, với xử lý đầu vào và đầu ra bao gồm vòng lặp tính toán lại yêu cầu. Thao tác này chuyển đổi truy vấn theo một chiến lược có sẵn nhằm tăng tính phù hợp của tài liệu đã nhận được. Việc thu thập thông tin có thể được định nghĩa cho bất cứ một loại thông tin nào ví dụ như kiểu văn bản, hình ảnh, âm thanh... Tuy nhiên, ở đây chúng ta chỉ đề cập đến việc thu thập văn bản bởi văn bản là một loại thông tin mà phương thức thực hiện và kỹ thuật xử lý đơn giản hơn. Có thể nhấn mạnh rằng các kỹ thuật này cũng có thể được áp dụng cho thu thập thông tin đa phương tiện. Các kỹ thuật thu thập thông tin có thể được chia ra thành hai loại: Các kỹ thuật chuẩn Các kỹ thuật có áp dụng trí tuệ nhân tạo. Nhóm đầu tiên bao gồm các kỹ thuật dựa trên các phương thức thuật toán và toán học truyền thống. Nhóm thứ hai cố gắng thu thập tri thức bằng các kỹ thuật áp dụng trí tuệ nhân tạo để giành được các kết quả tốt hơn. b. Các phương pháp thu thập thông tin Ngày nay, các thông tin đang được phát triển mạnh mẽ về số lượng và chủ yếu là từ Internet. Internet đã trở thành nơi lưu trữ, quản lý và đặc biệt là nơi thu nhận thông tin nhanh chóng và tiện lợi. Lợi ích trung tâm là các thông tin thu nhận được phù hợp với nhu cầu người dùng. Đó là lý do của các nghiên cứu chuyên sâu trong các lĩnh vực như khai phá dữ liệu (DataMining), trích xuất thông tin (Information Extraction), thu thập thông tin (Information Retrieval). Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà chúng đem lại khá tốt. Trong đó có rất nhiều phương pháp tồn tại ở dạng chuẩn. Các phương pháp này thường dựa theo các phương pháp toán học cổ điển. Một số phương pháp khác được phát triển theo hướng dựa trí tuệ nhân tạo. Sau đây, chúng ta sẽ tìm hiểu sâu hơn về các phương pháp thu thập thông tin. b.1. Các phương pháp chuẩn Phần lớn các kỹ thuật chuẩn được phát triển từ những năm 1960 đến những năm 1970, và phần lớn trong số chúng dựa trên các thuật toán và công thức toán học truyền thống. Trong bài nghiên cứu này chỉ đề cập đến các mô hình mô hình Boolean (Boolean model), mô hình không gian vec-tơ (vector space model). b.1.1. Mô hình Boolean Boolean là mô hình nghiên cứu chiến lượng, đơn giản nhất, và được thể hiện để đưa ra ý tưởng cơ bản cho các chiến lượng xa hơn [4]. Hầu hết đồng ý rằng tất cả các chiến lược nghiên cứu dựa trên việc so sánh giữa câu truy vấn và các tài liệu được lưu trữ. Mô hình Boolean nghiên cứu chiến lược thu thập các tài liệu được gán giá trị “true” ứng với truy vấn đó. Giả sử tài liệu dj được biểu diễn thành tập các thuật ngữ , ở đó ti là một thuật ngữ xuất hiện trong tài liệu dj. Một truy vấn được biểu diễn bằng một biểu thức logic của các thuật ngữ bao gồm các toán tử AND, OR, và NOT. Ví dụ với truy vấn: Q=(K1 AND (NOT K2)) OR K3 Ở đây phép tìm kiếm Boolean sẽ nhận được tất cả các tài liệu có liên kết với K1 nhưng không liên kết với K2 hoặc các tài liệu có liên kết với K3. Cụ thể hơn, với một câu truy vấn: Q=(“TextMining” AND ((“Information Retrieval”) AND (NOT “Categorization”)) Hệ thống sẽ cố gắng tìm ra tất cả các tài liệu thuộc chủ đề “TextMining”, mà cụ thể hơn là các phương pháp thu thập thông tin chứ không phải là các phương pháp phân lớp văn bản. b.1.1.1. Các hàm so sánh Liên kết giữa truy vấn và tài liệu có thể được hiểu theo nghĩa một hàm so sánh. Các hàm này thường rất đơn giản. Một triến lược được sử dụng gọi là chiến lược đơn giản hoá phép so sánh. Chiến lược này được sử dụng trong bộ biến đổi của phép tìm kiếm Boolean, ở đó chỉ có các toán tử logic AND. Ý tưởng chính của chiến lược này được đưa ra khi xem xét số lượng của các thuật ngữ chung trong câu truy vấn và trong tài liệu. Số này được gọi là mức đồng sắp xếp và có thể được sử dụng như một hàm so sánh. Ví dụ, các từ khoá K1, K2, K3 được liên kết với các tài liệu D1, D2, D3, D4 theo cách sau: K1 liên kết với D1, D2, D3, D4 K2 liên kết vơi D1, D2 K3 liên kết với D2, D3 và Q = K1 AND K2 AND K3 Với truy vấn Q, chúng ta sẽ có các mức đồng sắp xếp như sau: 3 D2 2 D1, D3 1 D4 b.1.1.2. Tìm kiếm tuần tự Kỹ thuât tìm kiếm tuần tự là cơ sở của mô hình Boolean. Tuy nhiên ngày nay nó rất thường xuyên được sử dụng mặc dù nó khá chậm. Nhưng với bất cứ cách nào, nó cho thấy cách mà các hàm so sánh được sử dụng [4]. Đưa ra một tập các tài liệu và một truy vấn và một truy vấn Q, chúng ta đi tính N giá trị của hàm so sánh M(Q,Di). Để nhận được các tài liệu liên quan, chúng ta cần sắp xếp các tài liệu giảm dần của hàm so sánh và bỏ đi tất cả các tài liệu ứng với hàm so sánh nhỏ hơn một ngưỡng cắt cho trước. Ngưỡng này có thể được định nghĩa như một giá trị hàm so sánh M hoặc là một gí trị so sánh với một văn bản nào đó. Thách thức lớn nhất của kỹ thuật này là tìm được cách chọn giá trị ngưỡng cắt phù hợp. Để thực hiện mô hình tìm kiếm Boolean, chúng ta có thể sử dụng một số kỹ thuật hiệu quả. Tuy nhiên, các thuật toán đó không được đề cập trong bài nghiên cứu này. b.1.1.3. Thực hiện Mỗi một tài liệu cần được đánh chỉ mục (index) bởi một số thuật ngữ, mỗi thuật ngữ này miêu tả nội dung của tài liêu. Các thuật ngữ này thường được gọi là các thuật ngữ đã gắn chỉ mục hay các từ khoá. Để việc thu thập được thực hiện nhanh chóng, chúng ta nên sắp xếp các từ này. Các từ khoá được lưu trữ trong tệp tin chỉ mục, và với mỗi từ khoá thuộc bộ từ vựng sẽ có danh sách các tài liệu chứa từ khoá này. Để thoả mãn một truy vấn, chúng ta sẽ thực hiện tìm kiếm trên file chỉ mục này. Kỹ thuật này được sử dụng bởi nhiều hệ thống thương mại với các độ tối ưu khác nhau của tệp tin chỉ mục tìm kiếm (ví dụ B-trees). Các nhược điểm của kỹ thuật này là: Lưu trữ quá nhiều (có thể cần không gian lưu trữ lên đến 300% so với kích thước ban đầu) Giá thành cập nhật và tổ chức lại chỉ mục cao Giá thành hợp các danh sách tài liệu cao nếu chúng quá dài Tuy nhiên, chúng cũng có các ưu điểm riêng: Thực hiện dễ dàng Tốc độ nhanh Dễ dàng hỗ trợ các từ đồng nghĩa b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM) Mô hình không gian vec-tơ được mở rộng từ mô hình Boolean trong việc thể hiện các thuật ngữ của tài liệu [4]. Giống như mô hình Boolean, chúng ta gán nhãn các tài liệu bởi tập các thuật ngữ. Nhưng trên thực tế, điểm khác nhau được ẩn trong việc biểu diễn tài liêu. Tài liệu D được biểu diễn bởi một vec-tơ m-chiều với các thông số ứng với mỗi chiều là trọng số ứng với từng thuật ngữ cụ thể. Trong trường hợp này, m là tổng sô thuật ngữ được đinh nghĩa để xác định nội dung của tài liệu. Trọng số được tính bởi xác suất xuất hiện và độ quan trọng của từ khoá. D=(w1, w2,..., wN) Ví dụ, khi phân tích hai tài liệu D1 và D2 là hai bài nghiên cứu, liên quan đến bệnh đâu đầu, ta có hai vec-tơ được hinh hoạ trên đồ thị 2-chiều như sau: Magê Đau đầu 1.0 1.0 D1(0.25, 0.75) D2(0.6, 0.2) Hình 3. Đồ thị biểu diễn các vec-tơ của bài báo D1 và D2 Các trọng số trên mỗi vec-tơ biểu diễn xác suất xuất hiện của các thuật ngữ trong mỗi bài báo. Tài liệu D1, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là 0.75, 0.25. Tài liệu D2, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là 0.2, 0.6. Trong mô hình này, một truy vấn được đối xử như một tài liệu [4] (xem hình 4). Hay nói cách khác, chúng ta sẽ biểu câu truy vấn bởi một vec-tơ trọng số của các thuật ngữ. Sau khi thực hiện việc phân tích câu truy vấn ta sẽ thu được một vec-tơ. Việc thực hiện câu truy vấn này thực chất là việc so sách vec-tơ của câu truy vấn với các vec-tơ đại diện cho các tài liệu theo một tiêu chuẩn nào đó. Kết quả ta sẽ thu được một danh sách các tài liệu có quan hệ “gần” với câu truy vấn đã đưa ra. Tất nhiên, các tài liệu đó sẽ được sắp xếp theo trình tự giảm dần và sẽ bị cắt ở một ngưỡng nào đó. 1.0 1.0 Magê Đau đầu D1 D2 query Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2 Để tính vec-tơ biểu diễn một tài liệu, các từ riêng biệt trong tài liệu được tổ hợp lại. Trên thực tế, việc thực hiện được thực hiện theo cách sau: Các từ phụ được soá đi Phân biệt các từ bởi khoảng trắng Đối với Anh ngữ hoặc Pháp ngữ, mỗi từ được tách biệt bởi các khoảng trắng. Nhưng ngôn ngữ tiếng Việt lại nảy sinh vấn đề từ đơn và từ ghép. Đây cũng là một vấn đề khó khăn khi phân tách từ trong tiếng Việt. Ví dụ, với từ company trong tiếng Anh, ứng với nó là từ công ty trong tiếng Việt. Do vấn đề về từ ghép nên gay nhiều hiểu nhầm trong tiếng Việt. Các vấn đề đó gọi là sự mập mờ trong tiếng Việt. Ví dụ, với câu thuộc địa bàn, ta có thể có hai cách phân tách thuộc địa|bàn và thuộc|địa bàn. Như vậy, đối với tiếng Việt, chúng ta cần có các phương pháp tách từ đặc biệt hơn. b.1.2.1. Tiếp cận phương thức TF * IDF Trọng số của một thuật ngữ có thể được xác định theo nhiều cách. Cách tiếp cận chung là sử dụng phương thức tf * idf, ở đó trọng số được tổng hợp bởi hai yếu tố: Xác suất thuật ngữ (term frequency - tf) - đặc trưng cho xác suất xuất hiện thuật ngữ trong tài liệu Nghịch đảo xác suất của tài liệu (inverse document frequency - idf) - đặc trưng cho xác suất của thuật ngữ trong toàn bộ tập hợp các tài liệu. Hay nói cách khác, một thuật ngữ hiếm khi xuất hiện trong các tài liệu thì idf sẽ cao, còn nếu nó xuất hiện thường xuyên trong các tài liệu thì idf sẽ thấp. Ví dụ: công thức dưới đây được đề xuất có thể được dùng để tính các giá trị đã nói ở trên [4]: [4] ở đó fi là xác suất xuất hiện thuật ngữ xi trong tài liệu. Phân số trong idf được tính toán bằng phương pháp giải tích với khả năng xuất hiện xi trong tài liệu này. b.1.2.2. Độ tương đồng (similarity) Khi các trọng số các thuật ngữ được xác định, chúng ta cần một hàm sắp xếp để định giá độ tương đồng giữa các vec-tơ truy vấn và tài liệu. Một số phép đo độ tương đồng được thể hiện dưới đây. Ở đó Q và D lần lượt là các tập thuật ngữ trong truy vấn và trong văn bản: công thức đơn giản nhất hệ số của Dice hệ số Jaccard hệ số consin hệ số nạp chồng Một đánh giá độ tương đồng thông thường, được biết đến như đánh giá consin [4], xác định góc giữa vec-tơ tài liệu và vec-tơ truy vấn bởi phép tính toán như một kết quả nội tại. Đặc biệt, đánh giá này thường được tính với độ dài của vec-tơ. Độ tương đồng được xác định theo công thức dưới đây [4]: Giả sử cả truy vấn và tài liệu được chuẩn hoá bởi độ dài của chúng, công thức sẽ trở nên đơn giản hơn: Sau khi tất cả các tài liệu được so sánh với truy vấn, chúng sẽ được sắp xếp giảm dần theo độ tương đồng, kết quả là một danh sách đã được sắp xếp của các tài liệu. Danh sách này có thể được xử lý bằng cách sử dụng các kỹ thuật khác nhau. b.1.2.3. Thực hiện Mô hình không gian vec-tơ rất tốn công khi thực hiện, do đó trong thực tế một số phép xấp xỉ đơn giản được sử dụng. Hiển nhiên là biểu hiện của các vec-tơ chỉ tồn tại khái niệm ngữ. Trong thực tế, các vec-tơ hiếm khi được lưu trữ đầy đủ dài do tính thưa của chúng. Ví dụ, có tất cả 300 thuật ngữ, tài liệu D chỉ đề cập đến 5 thuật ngữ, như vậy không cần thiết phải lưu trữ tất cả các thông số ứng với vec-tơ tương ứng với tài liệu này. Một mô hình không gian vec-tơ đầy đủ có thể được sử dụng hợp lệ để làm giảm độ phức tạp của thuật toán [4]. Ý tưởng của mô hình là lưu trữ vec-tơ trong một tệp tin đã được chuyển đổi. Tệp tin này trả về một danh sách các tài liệu với các từ khoá đặc biệt cùng với thông tin về xác suất. Bên cạnh việc truy xuất theo chỉ mục, tệp tin chuyển đổi cũng cải thiện các đặc tính thời gian của việc so sánh các vec-tơ. Kỹ thuật này cho ra một phép tính toán chấp nhận được với những truy vấn tương đối nhỏ, còn với những truy vấn lớn, phép tính phân số chuẩn hoá sẽ cực kì tốn kém. Nhược điểm thứ hai của kỹ thuật này là cần tính toán các các phân số chuẩn sau khi có sự thay đổi của idf. Điều đó rất có thể xảy ra trong thực tế, ví dụ khi ta thêm hoặc xoá đi một tài liệu trong tổ hợp. Để ước lượng hiệu quả của phép chuẩn hoá, chúng ta sử dụng bình phương số lượng các thuật ngữ trong một tài liệu như phân số chuẩn hoá. Với các trường hợp tài liệu ngắn thì phép tính xấp xỉ không được chính xác, tuy nhiên kỹ thuật này cũng có một số ưu điểm sau: Ảnh hưởng của kích thước tài liệu trở nên không có ý nghĩa với bất cứ loại chuẩn nào. Độ phức tạp tính toán nhỏ hơn rất nhiều so với các kỹ thuật trước đây Có thể tính toán trước Như vậy, độ tương đồng có thể được thực hiện bởi công thức sau: b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method) Các phương pháp trí tuệ nhân tạo thường dựa trí tuệ nhân tạo tập trung vào các giải thuật huấn luyện máy học. Hay nói rõ hơn, cần phải có một quá trình huấn luyện cho máy học phân loại văn bản trước khi sử dụng nó. Quá trình huấn luyện này rất quan trọng. Nếu các mẫu huấn luyện hợp lý, kết quả thu được sẽ có chất lượng rất tốt. Nhưng ngược lại, nếu quá trình huấn luyện không hợp lý thì có thể dẫn đến sụp đổ toàn bộ hệ thống. Các phương pháp này thường phải đối mặt với một số vấn đề sau: Giải thuật suy luận Phương pháp lưu trữ thông tin hợp lý Tránh sự sụp đổ sau một thời gian dài hoạt động Hầu hết các giải thuật dựa trí tuệ nhân tạo thường gắn cả quá trình tự học trong khi sử dụng. Yếu tố này quyết định độ thông minh của hệ thống. Nhưng sau một thời gian dài hoạt đông, có thể hệ thống sẽ lâm vào tình trạng sụp đổ do trí tuệ tích luỹ quá nhiều, quá trình tự học bị nhiễu, thông tin lưu trữ quá nhiều. Tất cả các lý do trên đều làm giảm hoạt động của hệ thống. Do đó, các phương pháp này cần có sự tự điều chỉnh trong hoạt động. Bên cạnh giải thuật tích luỹ trí tuệ cũng cần có giải thuật xén tri thức và loại nhiễu. Sau đây chúng ta sẽ nghiên cứu cụ thể hơn về các phương pháp bày. b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) Có thể nói tương đối mạnh rằng, các nghiên cứu gần đây về IR khá thành công trong các kỹ thuật được đề xuất để “hiểu” nội dung của tài liệu và truy vấn, hay nói cách khác là thực hiện được các phân tích ngữ nghĩa. Với mục tiêu này, hệ thống có thể áp dụng các lĩnh vực tri thức cho các xử lý để tìm kiếm và thu thập thông tin. Thành công này có được theo nghĩa đạt được khả năng học và khả năng tổng quát hoá của mạng Nơ-ron (Neural network). Với việc sử dụng mạng nơ-ron, chúng ta có thể biểu diễn một phần tượng trưng tri thức trong lĩnh vực của bài toán, và có thể được sử dụng thành công trong hệ thống thu thập thông tin. b.2.1.1. Tổng quan về mạng nơ-ron Để có thể hiểu làm thế nào mạng nơ-ron có thể áp dụng cho xử lý thu thập thông tin, chúng ta sẽ định nghĩa một số khái niệm được sử dụng trong lý thuyêt mạng nơ-ron. Xây dựng các khối của mô hình tính toán cho mạng nơ-ron thành các đơn vị gọi là nút mạng (neurode) mang rất nhiều các đặc tính của rơ-ron sinh học [4], hay nói đúng hơn là các nút mạng này được mô phỏng theo các nơ-ron của động vật. Ở các nút mạng ở Hình 5 thể hiện các phép toán logic AND. Đầu ra của nút mạng sẽ sáng nếu các đầu vào đều sáng. Nó được thực hiện bởi phép so sánh với giá trị ngưỡng (T) mà mọi đầu ra đều có. Hiển nhiên là việc thực hiện phép logic OR sẽ có giá trị ngưỡng giảm còn 0.5 (xem Hình 5.b). Các giá trị trong ngoặc được gọi là các trọng số, định nghĩa độ mạnh của liên kết. Trong mô hình tính toán của mạng nơ-ron, trọng số thường được định nghĩa là giá trị nằm trong khoảng [-1, 1]. Trong trường hợp phức tạp hơn, ví dụ khi thực hiện phép toán NOR, chúng ta cần nhiều hơn một đơn vị, các đơn vị đó gọi là đơn vị ẩn. Mô hình tính toán mạng nơ-ron được biểu diễn bởi các thuật ngữ về kết nối của nó (các mẫu kết nối) và trong các thuật ngữ về cách mà chúng được đào tạo (các luật sửa các trọng số). (1) (1) T= (1) (1) T= Hình 5. Mạng nơ-ron: toán tử AND (a) và toán tử OR (b) (a) (b) 0.5 1.5 1 1 -2 1 1 Hình 6. Mạng nơ-ron với lớp ẩn: toán tử NOR input b.2.1.2. Mô hình truyền ngược ba lớp Mô hình được đề xuất là một mô hình ba lớp: Lớp các thuật ngữ truy vấn (các nút mạng đầu vào) – Q layer Lớp các tài liệu (các nút mạng đầu ra) – D layer Lớp các chỉ mục (các nút ẩn) – T layer Trong hình 7, chúng ta có các ký hiệu sau: ti - chỉ mục thuật ngữ Di - tài liệu Qi - thuật ngữ truy vấn của người dùng pij - trọng số kết nối giữa ngăn của mạng thuật ngữ và một ngăn của mạng tài liệu qi - trọng số liên kết giữa thuật ngữ của truy vấn và thuật ngữ ti wij - giá trị liên kết giữa thuật ngữ ti và tj dij - trọng số liên kết giữa tài liệu Di và tài liệu Dj Hình 7: Mô hình biểu diễn mạng nơ-ron Lớp thuật ngữ truy vấn biểu diễn các yêu cầu người dùng. Mỗi một nút là một thuật ngữ trong truy vấn. Lớp tài liệu biểu diễn tập các tài liệu. Mỗi nút quy chiếu đến một tài liệu. Các nút trong lớp này có các liên kết hai chiều có trọng số, thể hiện sự tương đồng giữa các tài liệu. Giá trị tương đồng này được tính toán bởi trọng số ngữ nghĩa của các thuật ngữ trong mỗi tài liệu. Lớp các thuật ngữ là lớp động. Mỗi nút biểu diễn một thuật ngữ được đánh chỉ mục. Các liên kết có giá trị giữa các nút là các kết lối giữa các thuật ngữ trong pha truy vấn. Các liên kết có trọng số giữa các ngăn thuộc lớp thuật ngữ có chỉ dẫn và các ngăn thuộc lớp thuật ngữ pij biểu diễn khả năng hay ý nghĩa của thuật ngữ ti trong tài liệu Dj. Liên kết có trọng số qi định nghĩa độ quan trọng của thuật ngữ ti trong toàn bộ tổ hợp các tài liệu. Các giá trị khởi đầu của các trọng số này có thể được trọng ngẫu nhiên hoặc với bất cứ cách xác định nào. Nếu giá trị ngẫu nhiên được sử dụng, có thể ta sẽ phải đối mặt với các vấn đề sau: Thời gian học dài Khó đạt được sự hội tụ Để tìm ra trọng số wij (liên kết giữa ti và tj), chúng ta giả sử rằng độ liên kết giữa hai thuật ngữ tăng khi đồng xuất hiện trong một tài liệu, và giá trị này chỉ giảm khi có một lần xuất hiện trong một tài liệu. Liên kết giữa hai tài liệu được biểu diễn bởi công thức sau: b.2.1.3. Chức năng của mạng Chức năng mạng gồm hai pha: Pha thu thập thông tin Pha học Pha thu thập thông tin bắt đầu khi người dùng gửi cho hệ thống một yêu cầu (thường được viết dưới dạng ngôn ngữ tự nhiên). Yêu cầu này được phân tích và tương ứng lớp Q sẽ được xây dựng. Mỗi ngăn trong lớp Q được liên kết với một ngăn trong lớp T với cùng thuật ngữ. Liên kết này sẽ bắt đầu được kích hoạt dọc theo các mối liên kết qi. Mỗi ngăn của lớp T nhận một tín hiệu từ lớp Q sẽ tính toán rằng độ kích hoạt và sau đó truyền nó tới mạng. Trong trường hợp đó có hai khả năng có thể xảy ra: Truyền lan tín hiệu tới ngăn khác từ T (tự động tính toán lại yêu cầu) Truyền lan nó tới ngăn đó từ D Trong trường hợp thứ hai, mỗi ngăn của lớp D sẽ tính một giá trị kích hoạt phản xạ độ tương đồng giữa yêu cầu và tài liệu. Các tài liệu thu thập được sắp xếp theo giá trị kích hoạt của chúng. Khi đó, người dùng có những cơ hội để lan truyền lan sự kích hoạt của tài liệu tới những ngăn khác thuộc lớp D hoặc gây ra một sự lan truyền phản hồi của các ngăn thuộc lớp D tới các ngăn thuộc lớp T. Điều đó có nghĩa là sự lan truyền tài liệu phù hợp đến lớp T sẽ gây ra quá trình sự kích hoạt hay truyền lan trong lớp T và lớp D. Nhưng trong thực tế, quá trình này không mang bất kỳ tài liệu mới nào, nhưng dù sao đi nữa nó có thể giảm bớt số tài liệu ở đầu ra. Quá trình học bao gồm : Thay đổi các liên kết giữa các ngăn thuộc lớp D và lớp T Thay đổi liên kết trong một lớp Trước hết, áp dụng luật HEBB để sửa đổi các trọng số kết nối pi,j. Ý tưởng này sẽ tăng các giá trị trọng số của kết nối giữa các tài liệu bằng cách xem xét độ phù hợp và độ kích hoạt của các thuật ngữ, và giảm trọng số nếu các tài liệu được xét thấy không phù hợp. Các hoạt động này ảnh hưởng đến ý nghĩa của các thuật ngữ được so sánh với tài liệu theo sự phù hợp của tài liệu. Thứ đến, sửa đổi các liên kết giữa ti,j. Giải thuật sử dụng trong giai đoạn huấn luyện này phần lớn được dựa trên các nghiên cứu của Kohonen. Tóm lại, phương pháp này dực trên độ phù hợp của các tài liệu nhận được sau một truy vấn. Ở giai đoạn đầu tiên, có sự tăng giá trị của các kết nối thực chất là kích hoạt các ngăn với các tài liệu phù hợp và việc giảm giá trị nếu các kết giữa các ngăn với tài liệu là không phù hợp. Ở giai đoạn thứ hai, quá trình huấn luyện tạo ra kết nối giữa các thuật ngữ và kích hoạt các ngăn với các tài liệu phù hợp. Giải thuật này được sử dụng cho mục đích nhóm các thuật ngữ được liên kết tới tài liệu trên cùng chủ đề. Cách huấn luyện này có khả năng hướng việc mở rộng cách đối xử của các mạng nơ-ron, đặc biệt trong lĩnh vực thu thập thông tin. 4. Một số công cụ phân tích văn bản tiếng Anh Trong bài thực tập này em xin giới thiệu hai công cụ sử dụng cho TextAnalys và WebAnalys. Cả hai công cụ này đ

Các file đính kèm theo tài liệu này:

5.doc