MỤC LỤC
MỤC LỤC 1
BẢNG DANH MỤC HÌNH HOẠ 3
LỜI GIỚI THIỆU 4
I. Đặt vấn đề 6
II. Cơ sở lý thuyết 7
1. Khái niệm Text Mining 7
a. Khai phá dữ liệu (Data Mining) 7
b. Khai phá dữ liệu văn bản (Text Mining) 8
2. Bài toán phân loại văn bản (Text categorization) 10
a. Khái niệm phân loại văn bản 10
b. Các phương pháp phân loại văn bản 11
b.1. Sử dụng từ điển phân cấp chủ đề 11
b.1.1. Giải thuật phân lớp và phân cấp chủ đề 11
b.1.2. Sự phù hợp và sự phân biệt của các trọng số 12
b.2. Phương pháp cây quyết định (Decision tree) 13
3. Bài toán thu thập thông tin (Information retrieval - IR) 14
a. Khái niệm thu thập thông tin 14
b. Các phương pháp thu thập thông tin 16
b.1. Các phương pháp chuẩn 16
b.1.1. Mô hình Boolean 16
b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM) 18
b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method) 21
b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) 22
4. Một số công cụ phân tích văn bản tiếng Anh 26
III. Các giải pháp áp dụng cho Vietnamese Text Mining 29
1. Đặc trưng của văn bản tiếng Việt 29
a. Các đơn vị của tiếng Việt 29
a.1. Tiếng và đặc điểm của tiếng 29
a.1.1. Tiếng và giá trị ngữ âm 29
a.1.2. Tiếng và giá trị ngữ nghĩa 29
a.1.3. Tiếng và giá trị ngữ pháp 29
a.2. Từ và các đặc điểm của từ 30
a.2.1. Từ là đơn vị nhỏ nhất để đặt câu 30
a.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định 30
a.3. Câu và các đặc điểm của câu 30
a.3.1. Câu có ý nghĩa hoàn chỉnh 30
a.3.2. Câu có cấu tạo đa dạng. 30
b. Các phương tiện ngữ pháp của tiếng việt. 31
b.1. Trong phạm vi cấu tạo từ. 31
b.2. Trong phạm vi cấu tạo câu. 31
c. Từ tiếng việt 32
c.1. Từ đơn - từ ghép 32
c.2. Từ loại 32
c.3. Dùng từ cấu tạo ngữ 33
d. Câu tiếng việt 34
d.1. Câu đơn 34
d.2. Câu ghép 35
d.2.1. Câu ghép song song 35
d.2.2. Câu ghép qua lại 35
d.2.3. Các thành phần câu. 35
e. Các đặc điểm chính tả và văn bản tiếng Việt 36
2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt 36
a. Bài toán phân loại văn bản tiếng Việt 36
b. Bài toán thu thập thông tin từ văn bản tiếng Việt 37
IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 38
1. Chương trình và bài toán được giải quyết 38
2. Kết quả chạy chương trình 38
TÀI LIỆU THAM KHẢO 39
PHỤ LỤC 40
Các thông tin về báo cáo 40
Cách chạy chương trình demo 40
TỪ ĐIỂN THUẬT NGỮ 41
41 trang |
Chia sẻ: maiphuongdc | Lượt xem: 5207 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ì
lúa mì
lúa mì
lúa mì
lúa mì
lúa mì
lúa mì
lúa mì
Hình 1: Một ví dụ về cây quyết định
Phương pháp phân lớp văn bản Cây quyết định (decision tree - DT) được Mitchell đưa ra vào năm 1996 [2]. Trên cây gồm các nút trong được gán nhãn bởi các thuật ngữ, các nhánh cây chứa nút được gán nhãn bằng các trọng số của thuật ngữ tương ứng đối với tài liệu mẫu, và các lá cây được gắn nhãn bởi các phân lớp. Một hệ thống phân lớp như vậy sẽ phân loại một tài liệu dj bởi phép thử đệ quy các trọng số mà các thuật ngữ được gán nhãn cho các nút trong với vec-tơ cho đến khi với tới một nút lá. Khi đó, nhãn của nút này được gán cho dj. Đa số các phướng pháp phân loại như vậy sử dụng biểu diễn văn bản ở dạng nhị phân, và như vậy các cây cũng được biểu diễn dưới dạng nhị phân. Một ví dụ về cây quyết định được minh hoạ trong Hình 1.
Một phương pháp khả thi dùng để huấn luyện một cây quyết định phân loại ci nằm ở chiến lược “chia và trị” [2]. Chiến lược này sẽ kiểm tra xem liệu tất cả các khái niệm huấn luyện có cùng nhãn với nó (hoặc hoặc ); nếu không, lựa chọn một khái niệm tk, phân chia cây thành các lớp tài liệu có cùng giá trị tk và chèn vào mỗi lớp như vậy một cây con riêng biệt. Quá trình đệ quy lặp lại trên các cây con cho đến khi mỗi lá của cây phát sinh chứa các khái niệm huấn luyên gán cho cùng phạm trù ci, khi đó nó được chọn như là nhãn của lá đó. Bước quyết định là việc chọn thuật ngữ tk ở đó sẽ xảy ra thao tác chia, một phương pháp lựa chọn là chọn theo lợi ích thông tin hay entropi. Tuy nhiên, một cây "quá lớn lên" có thể bị sập, nếu như các nhánh cây quá đặc biệt với dữ liệu huấn luyện.
Đa số các phướng pháp dạy cây quyết định như vậy bao gồm một phương pháp thêm cây và một phương pháp xén bớt cây để loại bỏ những nhánh quá đặc biệt [2].
3. Bài toán thu thập thông tin (Information retrieval - IR)
a. Khái niệm thu thập thông tin
Thu thập thông tin (Information Retrieval) là một trong những bài toán khai phá dữ liệu văn bản. Bài toán này chủ yếu tập trung vào việc tìm ra các tài liệu trong một tập hợp các tài liệu có sẵn theo một điều kiện nào đó. Các điều kiện này có thể là một truy vấn hay một văn bản.
Khi điều kiện đưa vào là một truy vấn, bài toán sẽ đưa ra các suy luận để tìm ra đặc trưng của câu truy vấn đó, sau đó so sánh với các đặc trưng của các tài liệu có sẵn để tìm ra các tài liệu phù hợp nhất với câu truy vấn đó. Trong bài toán này, mô hình của bài toán gần với bài toán Search Engine. Tuy nhiên, bài toán thu thập thông tin là bài toán được phát triển ở mức độ cao hơn. Đối với bài toán Search Engine, câu truy vấn đưa vào là tập hợp các niệm. Nhưng với bài toán thu thập thông tin, câu truy vấn đưa vào có thể là một câu văn có ngữ nghĩa. Hệ thống sẽ tìm cách phân tích ngữ nghĩa của câu truy vấn để tìm ra đặc trưng của nó.
Thông tin cần thiết
Truy vấn
Gửi cho Hệ thống
Nhận kết quả
Đánh giá kết quả
Tốt ?
Dừng lại
Đúng
Công thức hoá lại
Sai
Hình 2. Mô hình thu thập thông tin chuẩn
Khi thu thập dữ liệu, chúng ta thường cố gắng tìm kiếm các dữ liệu chính xác. Trong các trường hợp khác, chúng ta kiểm tra để xem một thông tin có trong một tệp tin hay không. Khi thu thập thông tin, kết quả chính xác thường được quan tâm, nhưng thông thường chúng ta muốn tìm kiếm một cách tương đối chính xác với một thông tin đặc biệt được đưa vào. Sau đó chúng ta sẽ tự chọn thông tin phù hợp nhất từ các kết quả của phép xử lý trước đó. Nếu chúng ta so sánh nó với các kiểu hệ thống khác nhau, chúng ta sẽ thấy rằng trong nội dung các truy vấn cơ sở dữ liệu, một phép tìm kiếm thực chất là để làm thoả mãn một truy vấn, là câu hỏi để tìm ra câu trả lời (được biết đến với khái niệm trích xuất thông tin) đặc biệt là với một câu hỏi đặc biệt. Trong thu thập thông tin, một phép tìm kiếm nhằm tìm ra một tài liệu mà người dùng đang cần. Các hệ thống thu thập thông tin (IR systems) được sử dụng để thu thập các tài liệu liên quan đến các yêu cầu rõ ràng. Vấn đề với thu thập thông tin là việc xử lý các văn bản có nội dung liên quan nội tại đến các văn bản được sử dụng trước đó. Hình 2 đưa ra một mô hình tương tác thu thập thông tin chuẩn. Hiển nhiên, việc thu thập thông tin là quá trình xử lý lặp lại, với xử lý đầu vào và đầu ra bao gồm vòng lặp tính toán lại yêu cầu.
Thao tác này chuyển đổi truy vấn theo một chiến lược có sẵn nhằm tăng tính phù hợp của tài liệu đã nhận được.
Việc thu thập thông tin có thể được định nghĩa cho bất cứ một loại thông tin nào ví dụ như kiểu văn bản, hình ảnh, âm thanh... Tuy nhiên, ở đây chúng ta chỉ đề cập đến việc thu thập văn bản bởi văn bản là một loại thông tin mà phương thức thực hiện và kỹ thuật xử lý đơn giản hơn. Có thể nhấn mạnh rằng các kỹ thuật này cũng có thể được áp dụng cho thu thập thông tin đa phương tiện.
Các kỹ thuật thu thập thông tin có thể được chia ra thành hai loại:
Các kỹ thuật chuẩn
Các kỹ thuật có áp dụng trí tuệ nhân tạo.
Nhóm đầu tiên bao gồm các kỹ thuật dựa trên các phương thức thuật toán và toán học truyền thống. Nhóm thứ hai cố gắng thu thập tri thức bằng các kỹ thuật áp dụng trí tuệ nhân tạo để giành được các kết quả tốt hơn.
b. Các phương pháp thu thập thông tin
Ngày nay, các thông tin đang được phát triển mạnh mẽ về số lượng và chủ yếu là từ Internet. Internet đã trở thành nơi lưu trữ, quản lý và đặc biệt là nơi thu nhận thông tin nhanh chóng và tiện lợi. Lợi ích trung tâm là các thông tin thu nhận được phù hợp với nhu cầu người dùng. Đó là lý do của các nghiên cứu chuyên sâu trong các lĩnh vực như khai phá dữ liệu (DataMining), trích xuất thông tin (Information Extraction), thu thập thông tin (Information Retrieval).
Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà chúng đem lại khá tốt. Trong đó có rất nhiều phương pháp tồn tại ở dạng chuẩn. Các phương pháp này thường dựa theo các phương pháp toán học cổ điển. Một số phương pháp khác được phát triển theo hướng dựa trí tuệ nhân tạo. Sau đây, chúng ta sẽ tìm hiểu sâu hơn về các phương pháp thu thập thông tin.
b.1. Các phương pháp chuẩn
Phần lớn các kỹ thuật chuẩn được phát triển từ những năm 1960 đến những năm 1970, và phần lớn trong số chúng dựa trên các thuật toán và công thức toán học truyền thống. Trong bài nghiên cứu này chỉ đề cập đến các mô hình mô hình Boolean (Boolean model), mô hình không gian vec-tơ (vector space model).
b.1.1. Mô hình Boolean
Boolean là mô hình nghiên cứu chiến lượng, đơn giản nhất, và được thể hiện để đưa ra ý tưởng cơ bản cho các chiến lượng xa hơn [4]. Hầu hết đồng ý rằng tất cả các chiến lược nghiên cứu dựa trên việc so sánh giữa câu truy vấn và các tài liệu được lưu trữ. Mô hình Boolean nghiên cứu chiến lược thu thập các tài liệu được gán giá trị “true” ứng với truy vấn đó. Giả sử tài liệu dj được biểu diễn thành tập các thuật ngữ , ở đó ti là một thuật ngữ xuất hiện trong tài liệu dj. Một truy vấn được biểu diễn bằng một biểu thức logic của các thuật ngữ bao gồm các toán tử AND, OR, và NOT.
Ví dụ với truy vấn:
Q=(K1 AND (NOT K2)) OR K3
Ở đây phép tìm kiếm Boolean sẽ nhận được tất cả các tài liệu có liên kết với K1 nhưng không liên kết với K2 hoặc các tài liệu có liên kết với K3.
Cụ thể hơn, với một câu truy vấn:
Q=(“TextMining” AND ((“Information Retrieval”) AND (NOT “Categorization”))
Hệ thống sẽ cố gắng tìm ra tất cả các tài liệu thuộc chủ đề “TextMining”, mà cụ thể hơn là các phương pháp thu thập thông tin chứ không phải là các phương pháp phân lớp văn bản.
b.1.1.1. Các hàm so sánh
Liên kết giữa truy vấn và tài liệu có thể được hiểu theo nghĩa một hàm so sánh. Các hàm này thường rất đơn giản. Một triến lược được sử dụng gọi là chiến lược đơn giản hoá phép so sánh.
Chiến lược này được sử dụng trong bộ biến đổi của phép tìm kiếm Boolean, ở đó chỉ có các toán tử logic AND. Ý tưởng chính của chiến lược này được đưa ra khi xem xét số lượng của các thuật ngữ chung trong câu truy vấn và trong tài liệu. Số này được gọi là mức đồng sắp xếp và có thể được sử dụng như một hàm so sánh.
Ví dụ, các từ khoá K1, K2, K3 được liên kết với các tài liệu D1, D2, D3, D4 theo cách sau:
K1 liên kết với D1, D2, D3, D4
K2 liên kết vơi D1, D2
K3 liên kết với D2, D3
và Q = K1 AND K2 AND K3
Với truy vấn Q, chúng ta sẽ có các mức đồng sắp xếp như sau:
3 D2
2 D1, D3
1 D4
b.1.1.2. Tìm kiếm tuần tự
Kỹ thuât tìm kiếm tuần tự là cơ sở của mô hình Boolean. Tuy nhiên ngày nay nó rất thường xuyên được sử dụng mặc dù nó khá chậm. Nhưng với bất cứ cách nào, nó cho thấy cách mà các hàm so sánh được sử dụng [4].
Đưa ra một tập các tài liệu và một truy vấn và một truy vấn Q, chúng ta đi tính N giá trị của hàm so sánh M(Q,Di). Để nhận được các tài liệu liên quan, chúng ta cần sắp xếp các tài liệu giảm dần của hàm so sánh và bỏ đi tất cả các tài liệu ứng với hàm so sánh nhỏ hơn một ngưỡng cắt cho trước. Ngưỡng này có thể được định nghĩa như một giá trị hàm so sánh M hoặc là một gí trị so sánh với một văn bản nào đó. Thách thức lớn nhất của kỹ thuật này là tìm được cách chọn giá trị ngưỡng cắt phù hợp.
Để thực hiện mô hình tìm kiếm Boolean, chúng ta có thể sử dụng một số kỹ thuật hiệu quả. Tuy nhiên, các thuật toán đó không được đề cập trong bài nghiên cứu này.
b.1.1.3. Thực hiện
Mỗi một tài liệu cần được đánh chỉ mục (index) bởi một số thuật ngữ, mỗi thuật ngữ này miêu tả nội dung của tài liêu. Các thuật ngữ này thường được gọi là các thuật ngữ đã gắn chỉ mục hay các từ khoá. Để việc thu thập được thực hiện nhanh chóng, chúng ta nên sắp xếp các từ này. Các từ khoá được lưu trữ trong tệp tin chỉ mục, và với mỗi từ khoá thuộc bộ từ vựng sẽ có danh sách các tài liệu chứa từ khoá này. Để thoả mãn một truy vấn, chúng ta sẽ thực hiện tìm kiếm trên file chỉ mục này.
Kỹ thuật này được sử dụng bởi nhiều hệ thống thương mại với các độ tối ưu khác nhau của tệp tin chỉ mục tìm kiếm (ví dụ B-trees).
Các nhược điểm của kỹ thuật này là:
Lưu trữ quá nhiều (có thể cần không gian lưu trữ lên đến 300% so với kích thước ban đầu)
Giá thành cập nhật và tổ chức lại chỉ mục cao
Giá thành hợp các danh sách tài liệu cao nếu chúng quá dài
Tuy nhiên, chúng cũng có các ưu điểm riêng:
Thực hiện dễ dàng
Tốc độ nhanh
Dễ dàng hỗ trợ các từ đồng nghĩa
b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM)
Mô hình không gian vec-tơ được mở rộng từ mô hình Boolean trong việc thể hiện các thuật ngữ của tài liệu [4]. Giống như mô hình Boolean, chúng ta gán nhãn các tài liệu bởi tập các thuật ngữ. Nhưng trên thực tế, điểm khác nhau được ẩn trong việc biểu diễn tài liêu. Tài liệu D được biểu diễn bởi một vec-tơ m-chiều với các thông số ứng với mỗi chiều là trọng số ứng với từng thuật ngữ cụ thể. Trong trường hợp này, m là tổng sô thuật ngữ được đinh nghĩa để xác định nội dung của tài liệu. Trọng số được tính bởi xác suất xuất hiện và độ quan trọng của từ khoá.
D=(w1, w2,..., wN)
Ví dụ, khi phân tích hai tài liệu D1 và D2 là hai bài nghiên cứu, liên quan đến bệnh đâu đầu, ta có hai vec-tơ được hinh hoạ trên đồ thị 2-chiều như sau:
Magê
Đau đầu
1.0
1.0
D1(0.25, 0.75)
D2(0.6, 0.2)
Hình 3. Đồ thị biểu diễn các vec-tơ của bài báo D1 và D2
Các trọng số trên mỗi vec-tơ biểu diễn xác suất xuất hiện của các thuật ngữ trong mỗi bài báo. Tài liệu D1, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là 0.75, 0.25. Tài liệu D2, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là 0.2, 0.6.
Trong mô hình này, một truy vấn được đối xử như một tài liệu [4] (xem hình 4). Hay nói cách khác, chúng ta sẽ biểu câu truy vấn bởi một vec-tơ trọng số của các thuật ngữ. Sau khi thực hiện việc phân tích câu truy vấn ta sẽ thu được một vec-tơ. Việc thực hiện câu truy vấn này thực chất là việc so sách vec-tơ của câu truy vấn với các vec-tơ đại diện cho các tài liệu theo một tiêu chuẩn nào đó. Kết quả ta sẽ thu được một danh sách các tài liệu có quan hệ “gần” với câu truy vấn đã đưa ra. Tất nhiên, các tài liệu đó sẽ được sắp xếp theo trình tự giảm dần và sẽ bị cắt ở một ngưỡng nào đó.
1.0
1.0
Magê
Đau đầu
D1
D2
query
Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2
Để tính vec-tơ biểu diễn một tài liệu, các từ riêng biệt trong tài liệu được tổ hợp lại. Trên thực tế, việc thực hiện được thực hiện theo cách sau:
Các từ phụ được soá đi
Phân biệt các từ bởi khoảng trắng
Đối với Anh ngữ hoặc Pháp ngữ, mỗi từ được tách biệt bởi các khoảng trắng. Nhưng ngôn ngữ tiếng Việt lại nảy sinh vấn đề từ đơn và từ ghép. Đây cũng là một vấn đề khó khăn khi phân tách từ trong tiếng Việt. Ví dụ, với từ company trong tiếng Anh, ứng với nó là từ công ty trong tiếng Việt. Do vấn đề về từ ghép nên gay nhiều hiểu nhầm trong tiếng Việt. Các vấn đề đó gọi là sự mập mờ trong tiếng Việt. Ví dụ, với câu thuộc địa bàn, ta có thể có hai cách phân tách thuộc địa|bàn và thuộc|địa bàn.
Như vậy, đối với tiếng Việt, chúng ta cần có các phương pháp tách từ đặc biệt hơn.
b.1.2.1. Tiếp cận phương thức TF * IDF
Trọng số của một thuật ngữ có thể được xác định theo nhiều cách. Cách tiếp cận chung là sử dụng phương thức tf * idf, ở đó trọng số được tổng hợp bởi hai yếu tố:
Xác suất thuật ngữ (term frequency - tf) - đặc trưng cho xác suất xuất hiện thuật ngữ trong tài liệu
Nghịch đảo xác suất của tài liệu (inverse document frequency - idf) - đặc trưng cho xác suất của thuật ngữ trong toàn bộ tập hợp các tài liệu. Hay nói cách khác, một thuật ngữ hiếm khi xuất hiện trong các tài liệu thì idf sẽ cao, còn nếu nó xuất hiện thường xuyên trong các tài liệu thì idf sẽ thấp.
Ví dụ: công thức dưới đây được đề xuất có thể được dùng để tính các giá trị đã nói ở trên [4]:
[4]
ở đó fi là xác suất xuất hiện thuật ngữ xi trong tài liệu. Phân số trong idf được tính toán bằng phương pháp giải tích với khả năng xuất hiện xi trong tài liệu này.
b.1.2.2. Độ tương đồng (similarity)
Khi các trọng số các thuật ngữ được xác định, chúng ta cần một hàm sắp xếp để định giá độ tương đồng giữa các vec-tơ truy vấn và tài liệu. Một số phép đo độ tương đồng được thể hiện dưới đây. Ở đó Q và D lần lượt là các tập thuật ngữ trong truy vấn và trong văn bản:
công thức đơn giản nhất
hệ số của Dice
hệ số Jaccard
hệ số consin
hệ số nạp chồng
Một đánh giá độ tương đồng thông thường, được biết đến như đánh giá consin [4], xác định góc giữa vec-tơ tài liệu và vec-tơ truy vấn bởi phép tính toán như một kết quả nội tại. Đặc biệt, đánh giá này thường được tính với độ dài của vec-tơ. Độ tương đồng được xác định theo công thức dưới đây [4]:
Giả sử cả truy vấn và tài liệu được chuẩn hoá bởi độ dài của chúng, công thức sẽ trở nên đơn giản hơn:
Sau khi tất cả các tài liệu được so sánh với truy vấn, chúng sẽ được sắp xếp giảm dần theo độ tương đồng, kết quả là một danh sách đã được sắp xếp của các tài liệu. Danh sách này có thể được xử lý bằng cách sử dụng các kỹ thuật khác nhau.
b.1.2.3. Thực hiện
Mô hình không gian vec-tơ rất tốn công khi thực hiện, do đó trong thực tế một số phép xấp xỉ đơn giản được sử dụng. Hiển nhiên là biểu hiện của các vec-tơ chỉ tồn tại khái niệm ngữ. Trong thực tế, các vec-tơ hiếm khi được lưu trữ đầy đủ dài do tính thưa của chúng. Ví dụ, có tất cả 300 thuật ngữ, tài liệu D chỉ đề cập đến 5 thuật ngữ, như vậy không cần thiết phải lưu trữ tất cả các thông số ứng với vec-tơ tương ứng với tài liệu này.
Một mô hình không gian vec-tơ đầy đủ có thể được sử dụng hợp lệ để làm giảm độ phức tạp của thuật toán [4]. Ý tưởng của mô hình là lưu trữ vec-tơ trong một tệp tin đã được chuyển đổi. Tệp tin này trả về một danh sách các tài liệu với các từ khoá đặc biệt cùng với thông tin về xác suất. Bên cạnh việc truy xuất theo chỉ mục, tệp tin chuyển đổi cũng cải thiện các đặc tính thời gian của việc so sánh các vec-tơ. Kỹ thuật này cho ra một phép tính toán chấp nhận được với những truy vấn tương đối nhỏ, còn với những truy vấn lớn, phép tính phân số chuẩn hoá sẽ cực kì tốn kém. Nhược điểm thứ hai của kỹ thuật này là cần tính toán các các phân số chuẩn sau khi có sự thay đổi của idf. Điều đó rất có thể xảy ra trong thực tế, ví dụ khi ta thêm hoặc xoá đi một tài liệu trong tổ hợp.
Để ước lượng hiệu quả của phép chuẩn hoá, chúng ta sử dụng bình phương số lượng các thuật ngữ trong một tài liệu như phân số chuẩn hoá. Với các trường hợp tài liệu ngắn thì phép tính xấp xỉ không được chính xác, tuy nhiên kỹ thuật này cũng có một số ưu điểm sau:
Ảnh hưởng của kích thước tài liệu trở nên không có ý nghĩa với bất cứ loại chuẩn nào.
Độ phức tạp tính toán nhỏ hơn rất nhiều so với các kỹ thuật trước đây
Có thể tính toán trước
Như vậy, độ tương đồng có thể được thực hiện bởi công thức sau:
b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method)
Các phương pháp trí tuệ nhân tạo thường dựa trí tuệ nhân tạo tập trung vào các giải thuật huấn luyện máy học. Hay nói rõ hơn, cần phải có một quá trình huấn luyện cho máy học phân loại văn bản trước khi sử dụng nó. Quá trình huấn luyện này rất quan trọng. Nếu các mẫu huấn luyện hợp lý, kết quả thu được sẽ có chất lượng rất tốt. Nhưng ngược lại, nếu quá trình huấn luyện không hợp lý thì có thể dẫn đến sụp đổ toàn bộ hệ thống.
Các phương pháp này thường phải đối mặt với một số vấn đề sau:
Giải thuật suy luận
Phương pháp lưu trữ thông tin hợp lý
Tránh sự sụp đổ sau một thời gian dài hoạt động
Hầu hết các giải thuật dựa trí tuệ nhân tạo thường gắn cả quá trình tự học trong khi sử dụng. Yếu tố này quyết định độ thông minh của hệ thống. Nhưng sau một thời gian dài hoạt đông, có thể hệ thống sẽ lâm vào tình trạng sụp đổ do trí tuệ tích luỹ quá nhiều, quá trình tự học bị nhiễu, thông tin lưu trữ quá nhiều. Tất cả các lý do trên đều làm giảm hoạt động của hệ thống. Do đó, các phương pháp này cần có sự tự điều chỉnh trong hoạt động. Bên cạnh giải thuật tích luỹ trí tuệ cũng cần có giải thuật xén tri thức và loại nhiễu.
Sau đây chúng ta sẽ nghiên cứu cụ thể hơn về các phương pháp bày.
b.2.1 Kỹ thuật mạng Nơ-ron (Neural network)
Có thể nói tương đối mạnh rằng, các nghiên cứu gần đây về IR khá thành công trong các kỹ thuật được đề xuất để “hiểu” nội dung của tài liệu và truy vấn, hay nói cách khác là thực hiện được các phân tích ngữ nghĩa. Với mục tiêu này, hệ thống có thể áp dụng các lĩnh vực tri thức cho các xử lý để tìm kiếm và thu thập thông tin. Thành công này có được theo nghĩa đạt được khả năng học và khả năng tổng quát hoá của mạng Nơ-ron (Neural network).
Với việc sử dụng mạng nơ-ron, chúng ta có thể biểu diễn một phần tượng trưng tri thức trong lĩnh vực của bài toán, và có thể được sử dụng thành công trong hệ thống thu thập thông tin.
b.2.1.1. Tổng quan về mạng nơ-ron
Để có thể hiểu làm thế nào mạng nơ-ron có thể áp dụng cho xử lý thu thập thông tin, chúng ta sẽ định nghĩa một số khái niệm được sử dụng trong lý thuyêt mạng nơ-ron.
Xây dựng các khối của mô hình tính toán cho mạng nơ-ron thành các đơn vị gọi là nút mạng (neurode) mang rất nhiều các đặc tính của rơ-ron sinh học [4], hay nói đúng hơn là các nút mạng này được mô phỏng theo các nơ-ron của động vật.
Ở các nút mạng ở Hình 5 thể hiện các phép toán logic AND. Đầu ra của nút mạng sẽ sáng nếu các đầu vào đều sáng. Nó được thực hiện bởi phép so sánh với giá trị ngưỡng (T) mà mọi đầu ra đều có. Hiển nhiên là việc thực hiện phép logic OR sẽ có giá trị ngưỡng giảm còn 0.5 (xem Hình 5.b). Các giá trị trong ngoặc được gọi là các trọng số, định nghĩa độ mạnh của liên kết. Trong mô hình tính toán của mạng nơ-ron, trọng số thường được định nghĩa là giá trị nằm trong khoảng [-1, 1].
Trong trường hợp phức tạp hơn, ví dụ khi thực hiện phép toán NOR, chúng ta cần nhiều hơn một đơn vị, các đơn vị đó gọi là đơn vị ẩn.
Mô hình tính toán mạng nơ-ron được biểu diễn bởi các thuật ngữ về kết nối của nó (các mẫu kết nối) và trong các thuật ngữ về cách mà chúng được đào tạo (các luật sửa các trọng số).
(1)
(1)
T=
(1)
(1)
T=
Hình 5. Mạng nơ-ron: toán tử AND (a) và toán tử OR (b)
(a)
(b)
0.5
1.5
1
1
-2
1
1
Hình 6. Mạng nơ-ron với lớp ẩn: toán tử NOR
input
b.2.1.2. Mô hình truyền ngược ba lớp
Mô hình được đề xuất là một mô hình ba lớp:
Lớp các thuật ngữ truy vấn (các nút mạng đầu vào) – Q layer
Lớp các tài liệu (các nút mạng đầu ra) – D layer
Lớp các chỉ mục (các nút ẩn) – T layer
Trong hình 7, chúng ta có các ký hiệu sau:
ti - chỉ mục thuật ngữ
Di - tài liệu
Qi - thuật ngữ truy vấn của người dùng
pij - trọng số kết nối giữa ngăn của mạng thuật ngữ và một ngăn của mạng tài liệu
qi - trọng số liên kết giữa thuật ngữ của truy vấn và thuật ngữ ti
wij - giá trị liên kết giữa thuật ngữ ti và tj
dij - trọng số liên kết giữa tài liệu Di và tài liệu Dj
Hình 7: Mô hình biểu diễn mạng nơ-ron
Lớp thuật ngữ truy vấn biểu diễn các yêu cầu người dùng. Mỗi một nút là một thuật ngữ trong truy vấn. Lớp tài liệu biểu diễn tập các tài liệu. Mỗi nút quy chiếu đến một tài liệu. Các nút trong lớp này có các liên kết hai chiều có trọng số, thể hiện sự tương đồng giữa các tài liệu. Giá trị tương đồng này được tính toán bởi trọng số ngữ nghĩa của các thuật ngữ trong mỗi tài liệu. Lớp các thuật ngữ là lớp động. Mỗi nút biểu diễn một thuật ngữ được đánh chỉ mục. Các liên kết có giá trị giữa các nút là các kết lối giữa các thuật ngữ trong pha truy vấn.
Các liên kết có trọng số giữa các ngăn thuộc lớp thuật ngữ có chỉ dẫn và các ngăn thuộc lớp thuật ngữ pij biểu diễn khả năng hay ý nghĩa của thuật ngữ ti trong tài liệu Dj. Liên kết có trọng số qi định nghĩa độ quan trọng của thuật ngữ ti trong toàn bộ tổ hợp các tài liệu. Các giá trị khởi đầu của các trọng số này có thể được trọng ngẫu nhiên hoặc với bất cứ cách xác định nào. Nếu giá trị ngẫu nhiên được sử dụng, có thể ta sẽ phải đối mặt với các vấn đề sau:
Thời gian học dài
Khó đạt được sự hội tụ
Để tìm ra trọng số wij (liên kết giữa ti và tj), chúng ta giả sử rằng độ liên kết giữa hai thuật ngữ tăng khi đồng xuất hiện trong một tài liệu, và giá trị này chỉ giảm khi có một lần xuất hiện trong một tài liệu.
Liên kết giữa hai tài liệu được biểu diễn bởi công thức sau:
b.2.1.3. Chức năng của mạng
Chức năng mạng gồm hai pha:
Pha thu thập thông tin
Pha học
Pha thu thập thông tin bắt đầu khi người dùng gửi cho hệ thống một yêu cầu (thường được viết dưới dạng ngôn ngữ tự nhiên). Yêu cầu này được phân tích và tương ứng lớp Q sẽ được xây dựng. Mỗi ngăn trong lớp Q được liên kết với một ngăn trong lớp T với cùng thuật ngữ. Liên kết này sẽ bắt đầu được kích hoạt dọc theo các mối liên kết qi. Mỗi ngăn của lớp T nhận một tín hiệu từ lớp Q sẽ tính toán rằng độ kích hoạt và sau đó truyền nó tới mạng.
Trong trường hợp đó có hai khả năng có thể xảy ra:
Truyền lan tín hiệu tới ngăn khác từ T (tự động tính toán lại yêu cầu)
Truyền lan nó tới ngăn đó từ D
Trong trường hợp thứ hai, mỗi ngăn của lớp D sẽ tính một giá trị kích hoạt phản xạ độ tương đồng giữa yêu cầu và tài liệu. Các tài liệu thu thập được sắp xếp theo giá trị kích hoạt của chúng.
Khi đó, người dùng có những cơ hội để lan truyền lan sự kích hoạt của tài liệu tới những ngăn khác thuộc lớp D hoặc gây ra một sự lan truyền phản hồi của các ngăn thuộc lớp D tới các ngăn thuộc lớp T. Điều đó có nghĩa là sự lan truyền tài liệu phù hợp đến lớp T sẽ gây ra quá trình sự kích hoạt hay truyền lan trong lớp T và lớp D. Nhưng trong thực tế, quá trình này không mang bất kỳ tài liệu mới nào, nhưng dù sao đi nữa nó có thể giảm bớt số tài liệu ở đầu ra.
Quá trình học bao gồm :
Thay đổi các liên kết giữa các ngăn thuộc lớp D và lớp T
Thay đổi liên kết trong một lớp
Trước hết, áp dụng luật HEBB để sửa đổi các trọng số kết nối pi,j. Ý tưởng này sẽ tăng các giá trị trọng số của kết nối giữa các tài liệu bằng cách xem xét độ phù hợp và độ kích hoạt của các thuật ngữ, và giảm trọng số nếu các tài liệu được xét thấy không phù hợp. Các hoạt động này ảnh hưởng đến ý nghĩa của các thuật ngữ được so sánh với tài liệu theo sự phù hợp của tài liệu.
Thứ đến, sửa đổi các liên kết giữa ti,j. Giải thuật sử dụng trong giai đoạn huấn luyện này phần lớn được dựa trên các nghiên cứu của Kohonen. Tóm lại, phương pháp này dực trên độ phù hợp của các tài liệu nhận được sau một truy vấn.
Ở giai đoạn đầu tiên, có sự tăng giá trị của các kết nối thực chất là kích hoạt các ngăn với các tài liệu phù hợp và việc giảm giá trị nếu các kết giữa các ngăn với tài liệu là không phù hợp. Ở giai đoạn thứ hai, quá trình huấn luyện tạo ra kết nối giữa các thuật ngữ và kích hoạt các ngăn với các tài liệu phù hợp.
Giải thuật này được sử dụng cho mục đích nhóm các thuật ngữ được liên kết tới tài liệu trên cùng chủ đề.
Cách huấn luyện này có khả năng hướng việc mở rộng cách đối xử của các mạng nơ-ron, đặc biệt trong lĩnh vực thu thập thông tin.
4. Một số công cụ phân tích văn bản tiếng Anh
Trong bài thực tập này em xin giới thiệu hai công cụ sử dụng cho TextAnalys và WebAnalys. Cả hai công cụ này đ
Các file đính kèm theo tài liệu này:
- 5.doc