Mục lục
Lời cảm ơn 3
Tóm tắt nội dung 4
Bảng từ viết tắt 1
Mở đầu 2
CHƯƠNG 1. SƠ LƯỢC BÀI TOÁN TRÍCH CHỌN THỰC THỂ TÊN TỔ CHỨC 3
1.1. Tổng quan về trích chọn thông tin 3
1.2. Bài toán rút trích thực thể tên tổ chức 4
1.3. Ý nghĩa của bài toán rút trích thực thể tên tổ chức 5
CHƯƠNG 2. HƯỚNG TIẾP CẬN BÀI TOÁN TRÍCH CHỌN THỰC THỂ 6
2.1. Rút trích cặp quan hệ (title, author) của cuốn sách trong tài liệu web 6
2.1.1. Occurrences của sách 6
2.1.2. Patterns của sách 7
2.1.3. Quy trình rút trích 7
2.1.4. Thuật toán sinh Patterns 8
2.2. Thu thập tên và miền tương ứng từ tập tài liệu web 9
2.3. Hệ thống Snowball 13
2.3.1. Sinh patterns 13
2.3.2. Sinh cặp quan hệ 15
2.4. Tổng kết chương 16
CHƯƠNG 3. 17
3.1. Mô hình tổng quát 17
3.2. Mô hình chi tiết 19
3.2.1. Find_IndexsOfPrefixPattern 20
3.2.2. Extract_CandidateStrings 21
3.2.3. Trim 22
3.2.4. Filter_Entities 22
3.2.5. Find_PrefixStrings 23
3.2.6. Generate_NewPrefixPattern 23
3.3. Biểu diễn PrefixString và quy tắc cho PrefixPattern 24
3.3.1. Biểu diễn PrefixString 24
3.3.2. Thuật toán sinh PrefixPattern 25
3.4. Quy tắc cắt tỉa 27
3.4.1. Extract_By_Capitalize_Rule 29
3.4.2. Extract_By_Left_Rule 29
3.4.3. Extract_Standard_Name 30
3.4.4. Compare_Discard_Name 30
3.4.5. Các trường hợp cắt tỉa khác 30
CHƯƠNG 4. THỰC NGHIỆM 31
4.1. Chuẩn bị đầu vào 31
4.1.1. Thu thập dữ liệu 31
4.1.2. Xây dựng PrefixPattern (Initial) 31
4.1.3. Xây dựng các Luật (Rule) 31
4.2. Môi trường thực nghiệm 32
4.2.1. Phần cứng 32
4.2.2. Phần mềm 33
4.3. Kết quả thực nghiệm 33
4.4. Nhận xét 35
Kết Luận 35
Tài liệu tham khảo: 37
45 trang |
Chia sẻ: netpro | Lượt xem: 1803 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Khóa luận Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ành” hay lĩnh vực riêng thì vẫn tồn tại rất nhiều thực thể và miền của thực thể đó. Ví dụ như miền “Universities” có các thực thể “Harvard”, “Cambridge” …., hay miền “Programming” có “C++, Java …”. Nếu rút trích được các cặp tên miền và thực thể (C, N) rồi tích hợp vào các hệ thống như WordNet [1] thì sẽ tạo ra cơ sở tri thức hữu ích.
Dựa trên DIPRE, Marius Pasca đưa ra một mô hình để thu được cặp (C,N) từ tài tập liệu web [6]. C và N tương ứng viết tắt cho Category và named Entity ( miền và tên thực thể). Pattern được sử dụng có dạng :
[StartOfSent] X [such as|including] N [and|,|.]
Ở đây X là một “categorical fact” tạm hiểu nó là một xâu mà được coi là có chứa miền C. N là “potential instance name” tạm hiểu là thực thể cần tìm thuộc miền C. Một đặc điểm để nhận dạng N đó là nó là một danh từ riêng nên thường được viết hoa. Ánh xạ pattern này vào tài liệu sẽ thu được cặp (X,N). Ví dụ như câu sau :
“That is because software firewalls, including Zone Alarm, offer some semblance of this feature”.
Cặp (X,N ) thu được là (That is because software firewalls, Zone Alarm).
Cuối cùng, từ X rút trích ra cụm danh từ thỏa mãn là miền C của N. Nó được ước lượng là cụm danh từ không đệ quy phải nhất, sao cho thành phần cuối cùng của nó là một danh từ số nhiều. Như ví dụ câu trên, sẽ rút trích được cụm danh từ “software firewalls” nó chính miền C . Chiến lược ước lượng này tuân theo một số quy tắc :
Nếu không có cụm danh từ dạng số nhiều nằm gần cuối của “categorical fact”, thì cặp (X, N) bị loại bỏ.
Một cụm danh từ dạng số nhiều nằm gần cuối của “categorical fact” nhưng ngay trước nó cũng là một cụm danh từ số nhiều, thì cặp (X, N) bị loại bỏ.
Trường hợp còn lại thì (X, N) là phù hợp và thu được cặp (C,N).
Bảng dưới đây mô tả kết quả áp dụng các quy tắc nói trên:
Bảng 1: Sự lựa chọn cateogries từ cateogrical facts
Categorical fact and instance name
Selection
Anti-GMO food movements sprouted up Discard
in European nations in the 1990s, including Germany
Discard
Our customers’ chipsets compete with Discard
products from other vendors of standardsbased
and ADSL chipsets, including Alcatel
Discard
The venture is supported by a number of academics, including Noam Chomsky
Retain
(academics, Noam Chomsky)
API Adapter can be written in other
programming languages such as C++
Retain
(programming
languages,C++)
Để tăng số lượng cặp (C, N) rút trích được, mô hình đưa ra phương thức để “tự động” sinh ra những patterns mới. Bằng cách “ánh xạ” những cặp (C, N) đã được rút trích ở vòng lặp trước vào dữ liệu. Ý tưởng được mô tả như trong hình dưới :
Hình 3: Rút trích Patterns mới
Mỗi pattern có dạng:
LeftContext, InnerPattern và RightContext là dãy những phần tử liên tiếp trong câu. Pattern chỉ đoán nhận các xâu trong từng câu riêng biệt hay nói cách khác mỗi pattern “nằm” hoàn toàn trong 1 câu. Trong thực nghiệm này LeftContext, RightContext được biểu diễn theo dạng từ loại (POS –tag ) bởi Penn Treebank [5]. Kết quả xếp hạng top 15 patterns được liệt kê như bảng bên dưới:
Bảng 2 : Phân hạng các Pattern rút trích được
LeftContext
(POS tags)
InnerPattern
(words)
RightContext
(POS tags)
StartOfSent
Such asb
, NNP NNP , NNP
, NNP , NNP ,
and othera
. EndOfSent
IN NNP , NNP ,
and othera
. EndOfSent
StartOfSent
such asb
. EndOfSent
StartOfSent
such asb
, NNP , NNP ,
StartOfSent
, includingb
, NNP , NNP , NNP
StartOfSent IN
such asb
, NNP NNP , NNP
StartOfSent DT
includeb
, NNP , NNP ,
StartOfSent
, includingb
CC NNP NNP NNP NNP
NNP , NNP NNP ,
and othera
. EndOfSent
StartOfSent JJ
, includingb
CC NNP NNP , VBP
StartOfSent JJ
, includingb
, NNP NNP CC NNP
StartOfSent DT
areb
, NNP , NNP ,
Nhìn vào bảng trên ta thấy, ngoài việc tìm lại được” các InnerPaterns mồi là “such as” và “including” thủ tục trên còn “khám phá” ra những InnerPatterns hữu ích khác như “and other”, “include” và “are”. Những patterns mới này lại được sử dụng để rút trích thực thể cho vòng lặp tiếp theo.
Hệ thống Snowball
Cũng dựa trên tư tưởng của DIPRE, Eugene Agichtein và Luis Gravano đã xây dựng hệ thống Snowball [3] để rút trích cặp quan hệ (organization, location) – tổ chức và địa điểm. Biểu diễn mối quan hệ một tổ chức organization có trục sở đặt tại địa điểm location. Snowball đã đưa ra một kỹ thuật mới để sinh patterns và rút trích cặp quan hệ từ tài liệu. Snowball cũng có thêm chiến lược đánh giá chất lượng của mỗi patterns và cặp quan hệ, nếu cái nào đủ tin cậy thì mới được sử dụng cho các vòng lặp tiếp theo. Tuy nhiên Snowball cần đến sự hỗ trợ của NER (Named Entity Recognition).
Mô hình của Snowball được biểu diễn như dưới :
Hình 4: Hệ thống Snowball
Sinh patterns
Với mỗi cặp organization-location Snowball xác định nó trong tập tài liệu và phân tích các thành phần trái (left), giữa (middle) và phải (right) để sinh pattern. Pattern của Snowball là một bộ 5 thành phần :
Trong đó tag1, tag2 là các thẻ tên thực thể (cụ thể ở đây là và ) và left, middle, right là các vector liên kết “terms” và “weights”. (terms là xâu tùy ý hoặc kí tự trống, weights – trọng số biểu thị độ quan trọng của terms). Mỗi vector các terms có trọng số weights nằm trong khoảng từ 0 đến 1. Trọng số càng lớn thì độ ưu tiên của term đó càng cao.
Ví dụ : }, LOCATION, { , }, ORGANIZATION, {}>
Để sinh pattern, đầu tiên Snowball tìm tất cả sự xuất hiện (occurrences) của các bộ , biểu diễn dưới dạng giống như dạng của các pattern. Mỗi thành phần left, middle, right có một giới hạn m terms. Trọng số của mỗi term xác định dựa theo tần số của các terms trong ngữ cảnh tương ứng. Từ tập các occurrences, sử dụng thuật toán phân cụm đơn giản [8] để phân thành các cụm . Với mỗi cụm, các vector left được biểu diễn bằng vector trung tâm l’s , tương tự biểu diễn các vector middle, right bằng các vector trung tâm m’s, r’s .
Ví dụ từ tập các occurrences :
Sẽ được phân thành 2 cụm :
Tính toán vector trung tâm của mỗi cụm, thu được các patterns :
Sinh cặp quan hệ
Trước hết định nghĩa độ phù hợp của hai bộ tP = (t1, t2 là các thẻ) tS = (t’1, t’2 là các thẻ) theo công thức :
Sau khi sinh được các patterns, Snowball quét tập tài liệu để tìm ra những cặp (o, l) mới. Dùng MITRE Corporation’s Alembic Workbench [2] để nhận dạng những câu có chứa một organization và location. Phân tích nội dung xung quanh nó và sinh ra 1 bộ 5 trường t = theo quy tắc giống ở trên. Gọi cặp là cặp “ứng cử viên” nếu có một pattern tp thỏa mãn Match(t, tp) >= tsim (tsim là ngưỡng). Mỗi một cặp “ứng cử viên” được sinh bởi các patterns ứng với từng “độ phù hợp” (như giá trị Match(t , tp) trên ). Và mỗi một pattern cũng có một độ đo tính “chọn lọc” của nó. Snowball sẽ sử dụng hai thông số này để quyết định cặp “ứng cử viên” nào là thích hợp.
Tổng kết chương
Chương đã đưa ra 3 bài toán để rút trích các cặp quan hệ khác nhau.
Rút trích cặp quan hệ (title, author) là bài toán cơ bản nhất, kỹ thuật biểu diễn pattern và occurrence đơn giản, thuật toán để sinh pattern từ occurrence cũng không phức tạp. Độc đáo nhất ở bài toán là thuật toán DIPRE.
Bài toán của Pasca xuất phát là một pattern “mồi”, với cách thực hiện này hệ thống có thể rút trích được một lượng lớn cặp quan hệ ở vòng lặp đầu tiên, do đó sẽ có nhiều patterns mới được sinh ra cho vòng lặp tiếp theo. Với cách thực hiện này, thuật toán có thể sẽ phải thực hiện số vòng lặp ít hơn. Tuy nhiên nó cần sự hỗ trợ của POS - tag ( thẻ từ loại ) để biểu diễn pattern, đối với tiếng Việt thì vẫn chưa xây dựng được POS –tagger (gán nhãn từ loại ) hoàn chỉnh.
Hệ thống Snowball độc đáo với cách biểu diễn pattern mềm dẻo , cộng với sự hỗ trợ của thẻ tên thực thể (NER) nên có kết quả thu được tốt nhất. Tuy nhiên chỉ “học “ được ở Snowball chiến lược đánh giá pattern và cặp thực thể thu được để áp dụng vào khóa luận, còn để biểu diễn được pattern thì cần sự hỗ trợ của NER – trong khi bài toán trong khóa luận này bản chất chính là xây dựng NER.
CHƯƠNG 3. TRÍCH CHỌN TÊN CÁC TỔ CHỨC
Chương này sẽ luần lượt trình bày từ mô hình tổng quát đến các bước chi tiết của bài toán trích chọn. Dựa trên các bài toán ở chương 2, em sử dụng phương pháp “học gần không giám sát” kết hợp sự hỗ trợ của các luật để giải quyết bài toán của mình.
Các bài toán đã trình bày ở chương 2 là rút trích các cặp quan hệ, còn mục tiêu của khóa luận này là rút trích tên các tổ chức – đơn, nên khi áp dụng tư tưởng của các bài toán đó vào bài toán trích chọn tên các tổ chức, cần có sự thay đổi về dạng biểu diễn pattern và cách thức rút trích tên thực thể từ các pattern đó…
Mô hình tổng quát
Bài toán dựa trên bài toán của Sergey Brin về việc tìm ra cặp quan hệ (tên sách, tên tác giả) của cuốn sách, đặc biệt là kỹ thuật DIPRE. Cứ sau mỗi vòng lặp lại sinh ra những cặp thực thể mới và mẫu (patterns) mới. Các vòng lặp tiếp theo sử dụng kết quả của vòng lặp trước đó để thu được kết quả mới. Quá trình đó cứ tiếp tục quay vòng cho đến khi đạt được một yêu cầu đưa ra. Sergey Brin cho xuất phát bằng 5 cặp thực thể (tên sách, tên tác giả), từ cặp thực thể đó tìm ra sự xuất hiện (occurrences ) của chúng trên tài liệu Web và từ đó đưa ra quy tắc để sinh mẫu (pattern). Mỗi tập mẫu thu được lại tiếp tục tìm ra cặp thực thể (title, author) mới…
Với bài toán của chúng ta, ở mức tổng quát gồm các bước:
Xuất phát là một mẫu được xây dựng thủ công;
Rút trích ra các thực thể tên tổ chức trong tập tài liệu web dựa vào mẫu đó
“Ánh xạ” lại các thực thể vừa rút trích được vào tập tài liệu web để xác định sự xuất hiện (Occurrences) của chúng trên tài liệu.
Sinh mẫu mới từ Occurrences đó.
Quay lại bước thứ nhất với mẫu vừa được sinh ra
Do xuất phát không phải là tập các thực thể “mồi” mà là một mẫu, nên có thể rút trích được số lượng lớn các thực thể ngay ở vòng lặp đầu tiên, số lượng mẫu mới sinh ra cho vòng lặp tiếp theo cũng lớn… Điều đó giúp cho chương trình giảm được số lần thực hiện vòng lặp. Chương trình dừng lại khi độ chính xác của các thực thể rút trích được thấp dưới một ngưỡng cho phép.
Quy trình rút trích được mô tả như hình dưới đây :
Hình 5: Mô hình tổng quát
Có một điểm khác biệt giữa thực thể mà Brin rút trích với kiểu thực thể của chúng ta. Đó là Brin rút trích theo cặp thực thể quan hệ, cụ thể ở đây là cặp (tên sách, tên tác giả) của cuốn sách. Chúng có quan hệ là với mỗi cuốn sách sẽ có tên sách và tác giả viết ra cuốn sách đó. Do vậy cách biểu diễn nó trên tài liệu sẽ có một quy luật nào đó. Còn bài toán của chúng ta chỉ là rút trích ra tên thực thể đơn – tên tổ chức. Tuy nhiên, thường thì “tiền tố” của tên các tổ chức ở một dạng nhất định, trên một miền nhất định. Và có một đặc điểm thuận lợi nữa là tên tổ chức thường ở dạng kí tự đầu tiên của mỗi từ là viết hoa hoặc không thì từ cuối cùng của tên thường có ký tự đầu viết hoa ... Chính vì vậy, mấu chốt của bài toán là tìm ra đặc điểm của xâu ký tự bên trái (“ tiền tố “) của mỗi tên thực thể để sinh ra pattern hợp lý, và đưa ra những quy tắc cắt tỉa thích hợp, loại bỏ những trường hợp ngoại lệ thu để được tên hợp lý.
Trong mô hình Snowball, mỗi một cặp quan hệ được đánh giá dựa theo số lượng các pattern sinh ra nó, cũng như “tính chọn lọc” của mỗi pattern. Chỉ những cặp nào có độ đánh giá phù hợp thì mới được sử dụng như kết quả của qúa trình rút trích. Bài toán trong khóa luận này áp dụng ý tưởng đó cho việc sinh ra các patterns thích hợp dựa vào tập các thực thể liên quan. Chi tiết sẽ được trình bày ở mục tiếp theo.
Mô hình chi tiết
Tổng quát cho ý tưởng bài toán được mô tả như hình trên, trong mục này sẽ biểu diễn chi tiết hơn về các bước hoạt động của chương tình. Do sự khác nhau về kiểu đối tượng cần rút trích, nên cách biểu diễn pattern và cách thức rút trích thực thể dựa vào pattern cũng thay đổi. Các bước thực hiện được mô tả như hình bên dưới :
Hình 6. Mô hình bài toán
Các thủ tục trên được diễn giải như sau :
Input: PrefixPattern (Initial) – Xuất phát là một mẫu được xây dựng thủ công
IndexsOfPrefixPattern ß Find_IndexsOfPrefixPattern (PrefixPattern)
Ánh xạ PrefixPattern vào tập tài liệu để xác định các xâu mà mẫu này đoán nhận (PrefixStrings) và các vị trí tương ứng của chúng (IndexsOfPrefixPattern) trong mỗi file tài liệu.
CandidateStrings ß Extract_CandidateStrings (IndexsOfPrefixPattern, PrefixStrings, CandidateRegularExpression)
Biểu thức chính quy CandidateRegularExpression đoán nhận các xâu trong tập tài liệu từ các vị trí xuất phát trong mỗi file là (IndexsOfPrefixPattern + chiều dài của PrefixStrings tương ứng).
Entities ß Trim (CandidateStrings)
Thực hiện “cắt tỉa” CandidateStrings để thu được các thực thể (Entities) thích hợp.
RepresentativeEntities ß Filter_Entities ( Entities )
Từ Entities chọn ra những thực thể đại diện.
PrefixStrings ß Find_PrefixStrings(RepresentativeEntities, PrefixRegularExpression)
Sử dung biểu thức chính quy PrefixRegularExpression kết hợp với RepresentativeEntities để đoán nhận “tiền tố” của các RepresentativeEntities (PrefixStrings).
NewPrefixPattern ß Generate_NewPrefixPattern ( PrefixStrings )
Từ PrefixStrings sinh ra các mẫu mới.
Quy lại bước 1 (vòng lặp mới ) với NewPrefixPattern vừa được sinh ra.
Các mục dưới đây sẽ giải thích rõ ràng hơn.
Find_IndexsOfPrefixPattern
Để rút trích được một thực thể, cần phải biết được ngữ cảnh xung quanh nó. Ở bài toán này chỉ quan tâm đến “tiền tố” (prefix) của nó. Bởi vì đứng trước mỗi một thực thể tên tổ chức thường là các “tiền tố” có dạng đặc biệt, hoặc nằm trong miền giá trị cụ thể. Ví dụ như thường là : “Tổ chức, công ty, tập đoàn, phòng ….”. Còn đứng sau mỗi tên tổ chức thường không có một quy tắc nào xác định. PrefixPattern là biểu thức chính quy được dùng để đoán nhận các “tiền tố” đó. Đầu vào ban đầu của chương trình là PrefixPattern (Initial) được xây dựng bằng tay. PrefixPattern có dạng :
PrefixPattern = (A1|A2|A3 …An)
Nghĩa là PrefixPattern có thể là A1 hoặc là A2 … hoặc An. Trong đó A1, A2 … An là một từ, cụm từ tiếng Việt nào đó thể hiện tiền tố của tên tổ chức được xác định ban đầu (nằm trong file cấu hình). Ví dụ : PrefixPattern = (tổ chức|công ty|phòng).
Thủ tục Find_IndexsOfPrefixPattern với tham số đầu vào PrefixPattern sẽ tìm các xâu khớp (match) với PrefixPattern ,kết quả thu được là các xâu “tiền tố” PrefixStrings và các vị trí của chúng IndexsOfPrefixPattern.
Ví dụ nếu trong văn bản có đoạn “Thông tin Tổng công ty Hàng không Việt Nam thua kiện ở châu Âu … “, với PrefixPattern như trên (tổ chức|công ty|phòng) thì ánh xạ vào văn bản thu được PrefixString là “công ty” còn IndexOfPrefixPattern nhận giá trị là vị trí của xâu “công ty” (tức vị trí ký tự “c”) trong văn bản tính từ đầu file – nếu đoạn trên nằm ở đầu file thì IndexOfPrefixPattern là 15.
Extract_CandidateStrings
Ứng với mỗi xâu “tiền tố” xác định được ở bước trên, thì xâu con đứng ngay sau nó “được mong đợi” sẽ là một tên thực thể nào đó. Nhưng không có một quy tắc chính nào cho tên của các tổ chức, cũng như không xác định được độ dài số từ (word) của nó là bao nhiêu. Hướng tiếp cận để giải quyết vấn đề này là ước lượng xâu con đứng ngay sau mỗi “tiền tố” (số lượng từ tùy chọn), từ xâu đó đưa ra các quy tắc “cắt tỉa” để thu được tên mong đợi.
CandidateRegularExpression là biểu thức chính quy được dùng để đoán nhận xâu con đó. Nó có dạng :
([ |: ][\\-&a-zA-Z0-9à-ỵÀ-Ỵ]+){n,m}
Nghĩa là đoán nhận xâu gồm tối thiếu n, tối đa m từ tiếng Việt hay các số nguyên. Bất đầu xâu là dấu cách hoặc dấu hai chấm. Trong thực nghiệm n = 1, m = 8.
Với 3 tham số đầu vào IndexsOfPrefixPattern, PrefixStrings và CandidateRegularExpression thủ tục Extract_CandidateStrings sẽ thực đoán nhận các xâu con như nói ở trên, kết quả gọi là CandidateStrings.
Tiếp tục ví dụ trên với đoạn: “Thông tin Tổng công ty Hàng không Việt Nam thua kiện ở châu Âu … “. PrefixString là “công ty”, IndexOfPrefixPattern là vị trí của “công ty”. Nếu CandidateRegularExpression là ([ |: ][\\-&a-zA-Z0-9à-ỵÀ-Ỵ]+){1,8} thì CandidateString thu được là “ Hàng không Việt Nam thua kiện ở châu”.
Trim
Tập CandidateStrings được đoán nhận ở bước trên chỉ mới được “kỳ vọng” là có chứa các thực thể thích hợp. Cần “cắt tỉa” để hoặc thu được tên thực thể mong muốn hoặc loại bỏ nếu không chứa tên thích hợp. Thủ tục Trim thực hiện công việc đó trên CandidateStrings thu được tập thực thể Entities – tập thực thể được rút trích ở mỗi vòng lặp. Chi tiết về các quy tắc cắt tỉa sẽ được trình bày ở mục 3.4.
Filter_Entities
Tập thực thể sau khi được rút trích sẽ được ánh xạ ngược vào tập dữ liệu ở vòng lặp tiếp theo để tìm sự xuất hiện (Occurrences). Nhưng không phải tất cả các thực thể được dùng để ánh xạ. Bởi có 2 lý do. Thứ nhất nếu như sử dụng tất cả các thực thể, thì thời gian để tìm Occurrences là rất lâu. Thứ hai, không phải tất cả các thực thể được rút trích ra đều chính xác, và không phải tất cả đều “hiện diện” nhiều lần trong tập tài liệu, dẫn đến kết quả “sai lệch” đi. Những thực thể có số lần được rút trích ở mỗi vòng lặp càng lớn, thì xác suất nó là một thực thể hợp lý càng cao, và cũng có nghĩa nó có “độ ưu tiên cao” nên sẽ có nhiều cách để “biểu diễn” nó trên các tài liệu, dẫn đến tạo ra nhiều pattern mới hợp lý. Do đó, chỉ chọn lọc những thực thể mà có số lần được tìm thấy ở mỗi vòng lặp lớn hơn một ngưỡng nào đó.
Sự lựa chọn một ngưỡng phù hợp cho việc lấy thực thể “đại diện” là tương đối khó, bởi không có một quy tắc nào đó để quy định miền giá trị cho ngưỡng này. Kết quả chọn lọc ảnh hưởng đến số lượng, chất lượng của những patterns mới cũng như đối với những thực thể ở các vòng lặp tiếp theo. Để có thể tìm ra một ngưỡng hợp lý nhất thì nên tiến hành nhiều thử nghiệm với những ngưỡng khác nhau.
Thủ tục Filter_Entities thực hiện chọn các thực thể đại diện RepresentativeEntities từ Entities.
Find_PrefixStrings
Tập thực thể đại diện RepresentativeEntities đã được chọn lọc ở bước trên, cái cần quan tâm tiếp theo là “xâu tiền tố” (PrefixString) của những thực thể này.
Biểu thức chính quy PrefixRegularExpression kết hợp với RepresentativeEntities để đoán nhận “sự xuất hiện” (Occurrences) của các thực thể cũng như “tiền tố” của chúng. PrefixRegularExpression có dạng:
([a-zA-Z0-9à-ỵÀ-Ỵ]+[ |\\:]){n,m}
Có nghĩa là đoán nhận xâu gồm tối thiểu n, tối đa m từ (mỗi từ cấu tạo bởi các ký tự tiếng Việt hay chữ số). Kết thúc của xâu là dấu cách hoặc dấu hai chấm. Trong thực nghiệm n=1,m=3. Bởi vì chúng ta chỉ cần quan tâm tới xâu từ 1 đến 3 từ đứng liền trước tên thực thể, hay nói cách khác “tiền tố” chỉ là xâu dài từ 1 đến 3 từ.
Thủ tục Find_PrefixStrings dùng 2 tham số đầu vào PrefixRegularExpression và RepresentativeEntities để ánh xạ vào tài liệu tìm ra sự xuất hiện của các thực thể và rút trích ra các tiền tố. Kết quả các tiền tố trả về là PrefixStrings.
Giả sử trong văn bản có đoạn “Có phải Tập đoàn Điện lực Việt Nam đặt quyền lợi của mình lên trên tất cả”, thì với RepresentativeEntity là “Điện lực Việt Nam” và PrefixRegularExpression là ([a-zA-Z0-9à-ỵÀ-Ỵ]+[ |\\:]){1,3}, PrefixString nhận được là “phải Tập đoàn ”.
Generate_NewPrefixPattern
Thủ tục Generate_NewPrefixPattern thực hiện việc sinh ra NewPrefixPattern từ tập PrefixStrings đã được rút trích ở bước trước. Thuật toán sinh NewPrefixPattern cũng như cách biểu diễn của PrefixString để thuận tiện cho cài đặt thuật toán sẽ được trình bày kỹ ở mục 3.3. . NewPrefixPattern có “định dạng” giống như PrefixPattern (Initial), chúng tiếp tục được dùng để rút trích những thực thể mới.
Quy trình cứ tiếp tục thực hiện các vòng lặp như vậy cho đến khi đạt đến một điều kiện dừng. Có thể đưa ra nhiều điều kiện dừng như : Dừng khi không sinh ra được pattern mới, hoặc dừng khi độ chính xác của các thực thể rút trích được thấp… Trong bài toán này, chạy đến vòng thứ 3 thì kết quả thu được đã không như ý muốn do đó chỉ sử dụng kết quả của 2 vòng đầu như là những thực thể rút trích được.
Biểu diễn PrefixString và quy tắc cho PrefixPattern
Dựa vào quy trình thực hiện trong các bài toán của Brin, Pasca hay hệ thống Snowball, có thể thấy các thực thể được rút trích và patterns sinh ra có quan hệ tương hỗ với nhau. Nghĩa là “chất lượng” của cái này ảnh hưởng đến chất lượng của cái kia. Không những thế còn ảnh hưởng đến chất lượng của các vòng lặp tiếp theo. Bài toán rút trích thực thể tên tổ chức cũng như vậy, cụ thể ở đây là giữa PrefixPattern và thực thể tên tổ chức. Do đó, sinh ra một PrefixPattern tốt là điều quan trọng, nó ảnh hưởng đến chất lượng của toàn bộ quy trình.
PrefixString là dữ liệu vào cho thuật toán sinh PrefixPatern, nên nó cần có cách biểu diễn hợp lý để thuận tiện cho thuật toán sinh. Chi tiết về PrefixString và PrefixPattern được đề cập ở dưới đây.
Biểu diễn PrefixString
PrefixString là xâu “tiền tố” của tên thực thể, được đoán nhận bởi biểu thức chính quy PrefixRegularExpression. Trong văn bản, mỗi một thực thể có nhiều PrefixString và một xâu PrefixString có thể là “tiền tố” cho nhiều thực thể. Ứng với một thực thể, khi ánh xạ ngược nó vào tập dữ liệu ta thu được tập các PrefixString. Mỗi PrefixString đó được biểu diễn theo dạng :
S : Xâu nội dung của PrefixString – Tức xâu tiền tố của thực thể
N: Tên thực thể
C: Count – Số lần S là “tiền tố” của N
Biểu diễn theo cách này để thuận tiện cho thủ tục sinh PrefixPattern.
Bởi vì PrefixPattern coi như là “đại diện” cho tập các PrefixString để rút trích các thực thể mới nên pattern đó phải có quan hệ với các PrefixPattern. Mỗi PrefixString cũng có “độ ưu tiên” khác nhau trong việc lựa chọn tham gia sinh pattern. Độ ưu tiên đó dựa theo số lượng thực thể nhận nó làm tiền tố. Chi tiết hơn được trình bày ở mục dưới.
Thuật toán sinh PrefixPattern
PrefixPattern có dạng tổng quát là A1|A2|….|An Vấn đề là từ tập các PrefixStrings, tìm ra quy tắc hợp lý để sinh ra các thành phần A1, A2, … An đó. Một PrefixPattern được coi là tốt nếu mỗi thành phần A1, A2,…., An của nó được sinh ra từ nhiều PrefixStrings, và phải là các PrefixStrings của nhiều thực thể khác nhau để đảm bảo PrefixPattern đó không riêng biệt và không chung chung.
Thủ tục sinh ra các thành phần Ai được mô tả như sau:
procedure GeneratePattern ( D )
Đầu vào: tập các PrefixString D
Đầu ra: danh sách các {Ai}
Begin
L={};
Chia D thành các miền D1, D2, … Dk sao cho:
Di ∩ Dj = Ө ( i≠j)
Các PrefixString trong mỗi miền Di có thành phần S khớp với nhau “phải nhất” (tính từ cuối mỗi xâu) ít nhất một từ (word) – gọi là xâu Si .
For each Di Do
Gọi CNi là tổng số thực thể khác nhau trong Di.;
Gọi CCi = Ci0 + Ci1 + … + Cik (k = | Di | )
If (CNi > m) AND (CCi > n) Then
L=L+{Si};
End If
End For
Return L;
End
Xét ví dụ minh họa cho thủ tục trên:
D ban đầu gồm các PrefixStrings như sau :
{ ; ; ; }.
Sau bước thứ nhất sẽ chia làm 2 miền D1, D2 là:
D1 ={ ; }
D2 = { ; }
Và S1 = “công ty”, S2 = “Hiệp hội”;
Bước thứ 2 thu được:
CN1 = 1, CN2 = 2;
CC1 = 17, CC2 = 11;
Giả sử m = 1 và n = 10 thì kết quả trả về là L = { “Hiệp hội” }. Và PrefixPattern sinh ra là : PrefixPattern = (Hiệp hội)
Thủ tục trên tương đối đơn giản, các thành phần Ai chỉ là phần khớp nhau phải nhất ( Si ) trong mỗi miền Di . Do đó cần chọn lọc các Si tin cậy để gán cho Ai . Xác định độ tin cậy của mỗi Si theo biểu thức:
CNi > m AND CCi > n (như trong thủ tục trên)
m, n là “ngưỡng” tùy chọn – dựa vào thực nghiệm để tìm ra giá trị phù hợp nhất. Thỏa mãn thỏa mãn điều kiện CNi > m nghĩa là thành phần Ai được “sinh ra” bởi nhiều hơn m thực thể, tức là nó không riêng biệt cho một thực thể nào cả. Điều này rất cần thiết, bởi nó phải là sự “đóng góp” của nhiều thực thể thì mới thể hiện là “đại diện” cho tiền tố của các tên . Thỏa mãn CCi > n nghĩa là nó đại diện cho hơn n tiền tố của các thực thể. Do đó CCi càng lớn thì độ tin cậy càng cao.
Xác định ngưỡng m, n là không dễ dàng. Bằng nhiều thực nghiệm khác nhau với những cặp giá trị (m, n) thay đổi khác nhau và quan sát kết quả đạt được tương ứng để chọn ra giá trị m,n hợp lý nhất.
Vẫn có những trường hợp Ai đã được chọn lọc ở bước trên nhưng chúng là những từ “nghèo” giá trị hay chỉ là những từ với tính chất liệt kê, liên kết …. Do đó, tìm ra các quy tắc để chọn lọc tiếp sẽ thu được PrefixPattern tốt hơn. Liệt kê tất cả các trường hợp là điều khó khăn, trong khóa luận này em chỉ hạn chế theo một giới hạn nào đó. Cụ thể, nếu Ai của PrefixPattern chỉ là một xâu gồm một từ, mà từ đó chỉ gồm 2 ký tự sẽ bị loại bỏ. Ví dụ như các từ : “và, do, là …” sẽ bị loại bỏ. Kết quả thu được PrefixPattern hợp lý để sử dụng cho vòng lặp tiếp theo.
Quy tắc cắt tỉa
Như mục 3.3.2. đã trình bày, CandidateString là xâu được “kỳ vọng” là có chứa tên thực thể thích hợp. Ban đầu nó chỉ là một xâu bất kỳ được đoán nhận bởi biểu thức chính quy CandidateRegularExpression (như trên mỗi CandidateString có độ dài từ 1 đến 8 từ) nên cần phải cắt tỉa và chuẩn hóa để thu được tên chính xác.
Chính vì sự đa dạng trong cách viết của tiếng Việt, cũng như đôi khi những thông tin viết trên Web không thật sự theo chuẩn – chuẩn ngữ pháp, chuẩn chữ hoa chữ thường… khiến cho việc việc cắt tỉa gặp nhiều khó khăn, nên cần xét kỹ nhiều trường hợp để cắt tỉa một cách hợp lý nhất. Các bước cắt tỉa một CandidateString được mô tả
Các file đính kèm theo tài liệu này:
- Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức.doc