Khóa luận Nghiên cứu bài toán xác định collocation trong tiếng Việt

Mục lục

Lời mở đầu . 1

Chương 1. TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH COLLOCATION . 3

1.1. Khái niệm collocation . 3

1.1.1. Định nghĩa collocation . 3

1.1.2. Đặc trưng của collocation . 4

1.2. Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên . 4

Chương 2. CÁC PHưƠNG PHÁP XÁC ĐỊNH COLLOCATION . 6

2.1. Phương pháp Tần suất (Frequency) . 7

2.2. Phương pháp Kỳ vọng và Phương sai (Mean & Variance) . 11

2.3. Kiểm thử Giả thuyết (Hypothesis testing) . 16

2.3.1. Kiểm thử t (t test) . 17

2.3.2. Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp (Hypothesis

testing of differences) . 19

2.4. Kiểm thử khi-bình phương (Pearson’s chi-square test) . 21

2.5. Các tỉ lệ likelihood (Likelihood ratios) . 26

2.5.1. Tỉ lệ likelihood (Likelihood ratio) . 26

2.5.2. Các tỉ lệ tần suất tương đối (Relative Frequency Ratios) . 29

2.6. Thông tin tương hỗ MI (Mutual information) . 30

Chương 3. COLLOCATION TRONG TIẾNG VIỆT . 36

3.1. Đặc điểm từ vựng Tiếng Việt . 36

3.1.1. Đơn vị cấu tạo từ . 36

3.1.2. Phương thức cấu tạo từ . 36

3.1.3. Biến thể của từ . 37

3.1.4. Những quá trình diễn ra trong sự phát triển từ vựng Tiếng Việt . 38

3.2. Khái niệm collocation trong Tiếng Việt . 40

3.3. Bài toán xác định collocation trong Tiếng Việt . 41

Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ . 44

4.1. Dữ liệu thực nghiệm . 44

4.1.1. Chuẩn bị dữ liệu . 44

4.1.2. Tiền xử lý dữ liệu . 44

4.2. Thiết kế thực nghiệm . 45

4.2.1. Phương pháp thực nghiệm. 45

4.3. Kết quả thực nghiệm và đánh giá kết quả . 46

Kết luận . 49

Tài liệu tham khảo . 50

Tài liệu Tiếng Việt . 50

Tài liệu Tiếng Anh . 50

Phụ lục . 53

1. Bảng phân phối t . 53

2. Bảng phân phối . 54

63 trang | Chia sẻ: maiphuongdc | Lượt xem: 1661 | Lượt tải: 5

Bạn đang xem trước 20 trang tài liệu Khóa luận Nghiên cứu bài toán xác định collocation trong tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ủa strong với các “từ trung tâm”: opposition, support, for. Hình 2a. Phân bổ của strong đối với opposition có một đỉnh ở vị trí -1 (strong opposition). Vì vậy phƣơng sai thấp (s = 0.67), trung bình cho biết rằng strong thƣờng xuất hiện ở vị trí -1 so với opposition. Cần phải hạn chế các vị trí xung quanh từ trung tâm (bằng việc giới hạn kích thƣớc cửa sổ collocation) vì các collocation về cơ bản là cách dùng từ mang tính chất địa phƣơng. Hình 2b. Phân bổ của strong đối với support đƣợc rút ra từ một số vị trí âm có tần suất xuất hiện của cụm từ lớn. Ví dụ, đếm đƣợc khoảng 20 cụm từ ở vị trí -2 (strong leftist support hay strong business support). Bởi vậy chúng ta nhận đƣợc phƣơng sai cao hơn (s=1.07) và trung bình . 15 Hình 2c. Sự xuất hiện của strong cùng với for là một phân bổ đều hơn. Có xu hƣớng strong xuất hiện trƣớc for (vì vậy, trung bình là ), nhƣng thực ra nó có thể xuất hiện ở bất cứ vị trí nào xung quanh for. Độ chênh lệch cao s = 2.15 đã chỉ ra sự thay đổi này. Từ đó thấy rằng for và strong không tạo thành collocation. Bảng 5 đƣa ra các collocation có thể đƣợc tìm thấy bằng phƣơng pháp Kỳ vọng và phƣơng sai. Bảng 5. Tìm kiếm collocation dựa vào Kỳ vọng và phƣơng sai. Bảng này cho biết độ lệch mẫu s và trung bình mẫu của các khoảng cách giữa 12 cặp từ. Nếu trung bình gần với 1.0 và độ lệch thấp (nhƣ trƣờng hợp từ New York), phƣơng pháp Kỳ vọng và phƣơng sai cho kết quả tìm kiếm collocation không khác mấy so với phƣơng pháp Tần suất của Justeson và Katz. Nếu trung bình lớn hơn rất nhiều so với 1.0 thì độ lệch thấp sẽ cho biết các cụm từ nào đáng đƣợc quan tâm. Ví dụ: - Cặp từ previous / games (khoảng cách là 2) tƣơng ứng với các cụm từ nhƣ in the previous 10 games hoặc in the previous 15 games... - Cặp từ minus / points tƣơng ứng với các cụm từ nhƣ minus 2 percentage points, minus 3 percentage points... 16 Độ lệch cao chỉ ra rằng hai từ không có mối quan hệ mật thiết với nhau. Điều này đƣợc chứng minh qua nhóm thứ hai (gồm 4 cặp từ với giá trị phƣơng sai cao) trong ví dụ ở Bảng 5. Phƣơng pháp tìm kiếm collocation dựa vào giá trị kỳ vọng và phƣơng sai đƣợc trình bày ở trên là của Smadja [24]. Smadja chỉ ra rằng phƣơng pháp của ông khá thành công trong việc trích ra các thuật ngữ (với độ chính xác ƣớc lƣợng khoảng 80%) và trong việc xác định các cụm từ phù hợp cho việc sinh ngôn ngữ – natural language generation (Smadja và McKeown 1990 [23]). Tuy nhiên, sự kết hợp knocked / door không phải collocation ta muốn phân loại – mặc dù có thể nó rất có ích cho mục đích sinh văn bản (text generation). Phƣơng pháp phát hiện collocation dựa vào phƣơng sai là một phƣơng pháp phù hợp nếu chúng ta muốn tìm kiếm kiểu kết hợp từ nhƣ knocked... door. 2.3. Kiểm thử Giả thuyết (Hypothesis testing) Trong thực tế, có nhiều sự kết hợp từ mà giá trị tần suất cao và phƣơng sai thấp. Điều mà chúng ta cần tìm hiểu, đó là có hay không hai từ xuất hiện cùng với nhau thƣờng xuyên mà không phải là sự xuất hiện ngẫu nhiên. Việc đánh giá một biến cố có xảy ra hay không là một trong những bài toán kinh điển. Nó thƣờng bị ẩn đi trong các thuật ngữ của Kiểm thử Giả thuyết (hypothesis testing). Có một giả thuyết đƣợc gọi là Giả thuyết Không (null hypothesis) , chỉ xét sự kết hợp từ ngẫu nhiên. Ta sẽ tính toán xác suất p mà biến cố sẽ xảy ra nếu đúng, và sau đó loại nếu p quá nhỏ (p < 0.05, 0.01, 0.005, 0.001, thông thƣờng ngƣời ta lấy ngƣỡng là trong các thực nghiệm khoa học) hoặc giữ lại trong trƣờng hợp ngƣợc lại. Đây là một cách phân tích dữ liệu mà chúng ta phải xem xét cùng lúc hai việc. Trƣớc mắt, chúng ta sẽ đi tìm kiếm các mẫu đặc biệt trong dữ liệu, nhƣng bên cạnh đó, cần phải tính toán đƣợc lƣợng dữ liệu đã đƣợc quan sát. Thậm chí nếu có một mẫu rất tốt, thì chúng ta vẫn sẽ đánh giá thấp nó nếu nhƣ không có đủ dữ liệu quan sát để có thể chắc chắn rằng mẫu đó tồn tại không phải do ngẫu nhiên. Giả thuyết Không là đúng nếu hai từ không tạo thành một collocation. Giả sử rằng mỗi từ và đƣợc sinh ra một cách hoàn toàn độc lập với nhau, vì vậy khả năng chúng xuất hiện cùng nhau là: 17 Công thức cho thấy rằng xác suất cùng xuất hiện của hai từ chỉ là kết quả của các xác suất riêng của mỗi từ . 2.3.1. Kiểm thử t (t test) Cần phải có một phép thử thống kê để kiểm tra xác suất cùng xuất hiện của các từ. Phép thử đƣợc sử dụng rộng rãi trong việc tìm kiếm collocation là t test. T test xem xét trung bình và phƣơng sai của một mẫu các phép đo, mà theo Giả thuyết Không, mẫu đó đƣợc rút ra từ một phân bổ với trung bình μ. Phép thử xét sự khác nhau giữa trung bình đƣợc quan sát và trung bình kỳ vọng (đƣợc đo bằng phƣơng sai của dữ liệu) sẽ cho chúng ta một giá trị trung bình và phƣơng sai đặc biệt hơn, với giả thiết mẫu đƣợc rút ra từ một phân phối thông thƣờng với trung bình μ. Để xác định đƣợc xác suất của một mẫu đặc biệt, cần tính toán giá trị thống kê t: là trung bình mẫu là phƣơng sai mẫu là kích thƣớc mẫu là trung bình của phân phối Nếu t đủ lớn, chúng ta có thể loại bỏ Giả thuyết Không. Chúng ta có thể tìm ra chính xác là t cần phải lớn nhƣ thế nào bằng cách tra cứu trong Bảng phân phối t (Phụ lục). Để thấy rõ hơn việc sử dụng t test để tìm kiếm collocation, chúng ta sẽ tính giá trị t cho cụm từ new companies. Vấn đề là chúng ta sẽ đo giá trị trung bình và phƣơng sai của một mẫu nhƣ thế nào. Có một cách, là coi kho ngữ liệu nhƣ một chuỗi dài gồm N bigram, các mẫu sẽ đƣợc lấy bằng 1 nếu bigram đang kiểm tra xuất hiện, và bằng 0 trong trƣờng hợp ngƣợc lại. Các xác suất để new và companies xuất hiện trong kho ngữ liệu đƣợc tính nhƣ sau: 18 Trong kho ngữ liệu ví dụ, new xuất hiện 15828 lần, companies xuất hiện 4675 lần, và có tất cả 14307668 bigram. Giả thuyết Không quy ƣớc rằng sự xuất hiện các biến cố new và companies phải độc lập với nhau. Trung bình của phân phối này là và phƣơng sai là (xấp xỉ này đƣợc sử dụng cho tất cả các bigram có xác suất p nhỏ). Cụm từ new companies xuất hiện 8 lần trên tổng số 14307668 bigram trong kho ngữ liệu. Vì thế, đối với mẫu này, chúng ta có trung bình mẫu là . Theo công thức tính t: Vì số mẫu rất lớn nên có thể xem bậc tự do (degrees of freedom) df = ∞, với ngƣỡng cho xác suất p là , tra trong Bảng phân phối t (Phụ lục) đƣợc giá trị 2.57583. Dễ thấy t < 2.57583 nên không thể loại bỏ Giả thuyết Không (Giả thuyết Không là đúng vì new và companies tuy cùng xuất hiện nhƣng vẫn độc lập với nhau), vì vậy new companies không phải là collocation. Bảng 6 cho thấy các giá trị t của 10 bigram xuất hiện với tần suất 20 lần trong kho ngữ liệu. Đối với 5 bigram đầu tiên, chúng ta có thể loại bỏ Giả thuyết Không với , vì vậy các bigram này rất có thể là các collocation. Phép tính t cho 5 bigram cuối cùng không cho kết quả tốt, vì vậy có khả năng chúng không phải là collocation. 19 Bảng 6. Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t. Chú ý rằng phƣơng pháp Tần suất không thể xếp hạng đƣợc 10 bigram khi chúng xuất hiện với tần suất bằng nhau. Nhìn vào Bảng 6, có thể thấy phép thử t test tính số lần cùng xuất hiện của hai từ trong bigram. C( ) liên quan đến tần suất của các từ thành phần. Nếu tần suất của cả hai từ là cao (Ayatollah Ruhollah, videocassette recorder) hoặc ít nhất là tần suất của một trong hai từ (unsaled) trong bigram là rất cao thì giá trị t của chúng cũng cao. Đánh giá này dựa nhiều vào trực giác. Phép thử t test và các phép thử thống kê khác rất có ích trong một số phƣơng pháp xếp hạng collocation (ranking collocation). 2.3.2. Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp (Hypothesis testing of differences) Trong lĩnh vực từ điển học, công thức t test không thể tìm ra các từ để phân biệt tốt nhất nghĩa của strong và powerful. Church và Hanks (1989) [11] đã khắc phục điều này bằng việc đề xuất một công thức tính t khác. Bảng 7 liệt kê các từ đi cùng với powerful có ý nghĩa hơn là với strong (10 từ đầu), và các từ đi cùng với strong có ý nghĩa hơn là với powerful (10 từ cuối). 20 Bảng 7. Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất hiện có ý nghĩa với powerful và strong. Giá trị t trong trƣờng hợp này đƣợc tính toán bằng cách sử dụng mở rộng của phép thử t test để so sánh các trung bình của hai tập hợp: Ở đây, Giả thuyết Không quy định rằng sai khác trung bình bằng 0 (μ = 0), vì thế ta có . Mẫu số là tổng các giá trị phƣơng sai riêng của hai tập hợp đang đƣợc so sánh. Các giá trị t trong Bảng 7 đƣợc tính toán nhƣ sau: Nếu w là một từ có ý nghĩa (ví dụ, computers hoặc symbol) và , là các từ chúng ta sẽ so sánh (ví dụ, powerful và strong), thì ta có (sử dụng lại xấp xỉ với p rất nhỏ): 21 Rút gọn lại công thức trên, thu đƣợc: C(x) là số lần x xuất hiện trong văn bản. Công thức tính t do Church và Hanks (1989) [10] xây dựng rất có ích cho việc biên soạn từ điển. Khi biên soạn từ điển, ngoài việc nhìn vào ý nghĩa của từ, còn phải xem xét đến những đặc trƣng riêng về văn hóa. Ví dụ, ngƣời ta thƣờng nói strong tea, nhƣng mặt khác lại nói powerful drugs, sự khác nhau đã nói cho chúng ta biết về thói quen dùng từ nhiều hơn là về ngữ nghĩa của hai tính từ strong và powerful (Church 1991) [11]. 2.4. Kiểm thử khi-bình phƣơng (Pearson’s chi-square test) T test có nhƣợc điểm là nó thừa nhận các xác suất đƣợc phân bổ theo cách xấp xỉ thông thƣờng, điều này trong thực tế là không đúng (theo Church và Mercer 1993) [7]. Vào năm 1900, Karl Pearson đã phát triển một thống kê ( ) so sánh các giá trị đƣợc quan sát và kỳ vọng khi dữ liệu đƣợc chia thành các mục riêng biệt. Các giá trị quan sát (observed) và kỳ vọng (expected) có thể đƣợc giải thích trong phạm vi các giả thuyết kiểm tra (hypothesis testing). Tức là nếu dữ liệu đƣợc phân chia thành các mục riêng và có định nghĩa Giả thuyết Không trên dữ liệu đó thì giá trị đƣợc kỳ vọng là giá trị của mỗi mục nếu nhƣ Giả thuyết Không là đúng, giá trị đƣợc quan sát là giá trị mỗi mục mà ta quan sát từ dữ liệu mẫu [17]. Kiểm thử khi-bình phƣơng ( test) của Pearson là phép thử đáng tin cậy hơn phép Kiểm thử t [17]. Trong trƣờng hợp đơn giản nhất, phép thử khi-bình phƣơng đƣợc sử dụng với bảng 2x2 nhƣ minh họa ở Bảng 8. 22 8 (new companies) 4667 (e.g., old companies) 15820 (e.g., new machines) 14287173 (e.g., old machines) Bảng 8. Bảng 2x2 chỉ ra sự phụ thuộc của sự xuất hiện new và companies. Cụm new companies xuất hiện 8 lần trong kho ngữ liệu, có 4667 bigram mà từ thứ hai là companies và từ đầu tiên không phải là new, có 15820 bigram mà từ đầu tiên là new và từ thứ hai không phải là companies, và 14287181 bigram không chứa cả new và companies. Bản chất của phép thử là so sánh các giá trị tần suất đƣợc quan sát trong bảng với các giá trị tần suất đƣợc kỳ vọng cho sự độc lập. Nếu sự sai khác giữa các giá trị này là lớn thì chúng ta có thể loại bỏ Giả thuyết Không về tính độc lập. Bảng 8 cho thấy phân phối của new và companies trong kho ngữ liệu. Nhớ lại rằng , , , và có 14307668 bigram trong kho ngữ liệu. Điều đó có nghĩa là số lƣợng các bigram với từ tố đầu tiên khác new và từ tố thứ hai là companies là 4667 = 4675 – 8. Hai ô ở hàng cuối cùng đƣợc tính toán tƣơng tự. Thống kê cộng tổng các sai khác giữa giá trị tần suất quan sát đƣợc và giá trị tần suất đƣợc kỳ vọng trong tất cả các ô của bảng. Giá trị đƣợc tính theo công thức: i là các hàng j là các cột là giá trị tần suất quan sát đƣợc ở ô (i,j). là giá trị tần suất đƣợc kỳ vọng cho ô (i,j). 23 Các giá trị tần suất đƣợc kỳ vọng đƣợc tính toán từ các xác suất giới hạn, có nghĩa là từ toàn bộ các hàng và các cột của bảng. Sau đây là các tính toán chi tiết với ví dụ về cụm từ new companies: Giá trị tần suất quan sát đƣợc: Row total Column total Giá trị tần suất đƣợc kỳ vọng: Row total Column total Nếu new và companies xuất hiện hoàn toàn độc lập với nhau thì ta sẽ kỳ vọng tần suất xuất hiện trung bình của new companies trong kho ngữ liệu là . Áp dụng công thức tính giá trị : 24 Cách tính nhƣ trên có thể đƣợc ứng dụng với các bảng có kích thƣớc bất kỳ. Với bảng 2x2, công thức đƣợc khai triển nhƣ sau: Áp dụng công thức này để tính giá trị cho ví dụ ở Bảng 8: Bậc tự do (degrees of freedom): df = (row total - 1)(column total - 1) = (2 - 1)(2 - 1) = 1. Tra trong Bảng phân phối (Phụ lục), nếu chọn thì ứng với df = 1, giá trị tới hạn của là 3.84146. Vì vậy không thể loại bỏ Giả thuyết Không, có nghĩa là new và companies xuất hiện độc lập với nhau, chứng tỏ new companies rất có thể không phải là một collocation. Kết quả này tƣơng tự kết quả đạt đƣợc với thống kê t (trong phép thử t test). Thông thƣờng, đối với bài toán tìm kiếm collocation, sự khác nhau giữa thống kê t và không quá lớn. Ví dụ, 20 bigram với giá trị t lớn nhất trong kho ngữ liệu ví dụ cũng là 20 bigram có giá trị lớn nhất. Phép thử cũng phù hợp với các xác suất lớn, cho những giả thiết thông thƣờng mà phép thử t test thất bại. Điều này có lẽ là lý do khiến đƣợc ứng dụng trong những miền rộng hơn của bài toán tìm kiếm collocation. Một trong số các cách sử dụng phép thử trong lĩnh vực thống kê xử lý ngôn ngữ tự nhiên là nhận diện các cặp dịch trong tập các kho ngữ liệu tƣơng ứng (Church và Gale 1991 dùng một độ đo gọi là ) [7]. 25 Dữ liệu trong Bảng 9 đã đƣa ra một khẳng định chắc chắn rằng vache trong tiếng Pháp dịch sang tiếng Anh là cow. Ở đây, 59 là số các cặp câu tiếng Anh và câu tiếng Pháp có chứa tƣơng ứng cow và vache... Giá trị tính toán đƣợc ở đây rất cao: . Vì thế chúng ta có thể loại bỏ Giả thuyết Không, cow và vache xuất hiện một cách độc lập với nhau với một độ tin cậy cao. Cặp từ này là rất có thể là một cặp dịch. Bảng 9. Tƣơng ứng của vache và cow trong hai kho ngữ liệu đã sắp xếp tƣơng ứng. Bằng cách sử dụng phép thử cho bảng này, có thể chỉ ra rằng vache và cow là hai từ dịch ra của nhau trong tiếng Pháp và tiếng Anh. Một ứng dụng quan trọng của là sử dụng nhƣ một chuẩn đo (metric) sự tƣơng đồng kho ngữ liệu (Kilgarriﬀ và Rose 1998) [20]. Để làm đƣợc điều này, cần sử dụng một bảng nx2 với n rất lớn (ví dụ n = 500), 2 cột tƣơng ứng với hai kho ngữ liệu. Mỗi hàng ứng với một từ riêng biệt. Ví dụ đƣợc mô tả trong Bảng 10. Bảng 10. Phép thử cho sự độc lập của các từ trong các kho ngữ liệu khác nhau, sử dụng . Phép thử này có thể đƣợc sử dụng nhƣ là một chuẩn đo sự tƣơng đồng của các kho ngữ liệu. Nếu tỉ số các lần đếm gần nhƣ là bằng nhau (nhƣ trƣờng hợp trong Bảng 10, mỗi từ xuất hiện trong kho ngữ liệu 1 nhiều hơn trong kho ngữ liệu 2 khoảng 6 lần) thì chúng ta không thể loại bỏ Giả thuyết Không (Giả thuyết Không trong trƣờng hợp này quy ƣớc: cả hai kho ngữ liệu đƣợc rút ra dƣới cùng một nguồn). Mặt khác, nếu tỉ số khác nhau nhiều thì giá trị sẽ cao, điều này chứng tỏ độ không tƣơng đồng cao. 26 2.5. Các tỉ lệ likelihood (Likelihood ratios) 2.5.1. Tỉ lệ likelihood (Likelihood ratio) Likelihood ratio là phƣơng pháp khác để tìm kiếm collocation. Phƣơng pháp này phù hợp đối với các dữ liệu rải rác hơn là phép thử . Giá trị thống kê mà ta sẽ tính toán sau đây (likelihood ratio) dễ hiểu hơn là thống kê . Đơn giản, đó là một số đo cho chúng ta biết rằng, một Giả thuyết thích hợp hơn so với các Giả thuyết khác nhƣ thế nào. Để áp dụng phép thử likelihood radio cho việc tìm kiếm collocation, xem xét hai giả thuyết sau về tần suất xuất hiện của bigram (Dunning 1993) [13]: Giả thuyết 1. Giả thuyết 2. Giả thuyết 1 là hình thức hóa của tính độc lập (sự xuất hiện của không phụ thuộc vào việc đã xuất hiện hay chƣa). Giả thuyết 2 là hình thức hóa của tính phụ thuộc, là một dấu hiệu tốt cho sự xuất hiện một collocation (giả thiết rằng nếu Giả thuyết 2 đúng, hiếm có trƣờng hợp , nếu có, nó sẽ tạm thời đƣợc bỏ qua). Sử dụng các ƣớc lƣợng likelihood cực đại thông thƣờng cho và gán cho số lần xuất hiện của trong kho ngữ liệu: Công thức 1 (N = 14307668) Với phân phối nhị thức: Likelihood từ việc tính toán mà chúng ta đã quan sát thực sự là: (theo Giả thuyết 1) (theo Giả thuyết 2) Bảng 11 tổng kết lại những công thức tính toán này. 27 Bảng 11. Cách tính toán giá trị likelihood của Dunning. Ví dụ, likelihood của Giả thuyết là kết quả của hai dòng cuối cùng trong cột ngoài cùng bên phải. Ta thu đƣợc các likelihood và bằng cách nhân hai dòng cuối cùng, tƣơng ứng là các likelihood của số lần xuất hiện theo lý thuyết của và . Logarit của tỉ lệ giữa hai likelihood và là: Trong đó . Bảng 12 liệt kê 20 bigram chứa powerful có hạng cao nhất theo tỉ lệ likelihood khi phép thử likelihood ratio đƣợc ứng dụng trong kho ngữ liệu New York Times. Tất cả các bigram xuất hiện ở đây đều đƣợc xét đến, kể cả những bigram ít xuất hiện (ví dụ, powerful cudgels xuất hiện 2 lần). 28 Bảng 12. Các bigram có chứa powerful với hạng cao nhất theo phép thử likelihood ratio của Dunning. Phép thử likelihood ratio cũng có ƣu điểm là thích hợp dùng cho các dữ liệu rải rác hơn là phép thử . Nhƣng vấn đề là sử dụng phép thử likelihood ratio nhƣ thế nào? Nếu là tỉ số các giá trị likelihood của một “hình thái đặc biệt” thì đại lƣợng là phân bổ tiệm cận (Mood 1974) [20]. Vì thế có thể dùng các giá trị trong Bảng 12 để kiểm tra Giả thuyết và Giả thuyết . Ví dụ, có thể tra giá trị của phân phối cho powerful cudgels và loại bỏ Giả thuyết cho bigram này (với độ tin cậy thì giá trị xác suất giới hạn là 7.88). “Hình thái đặc biệt” của tỉ số likelihood cần tìm ở đây là tỉ số giữa ƣớc lƣợng likelihood cực đại trên một phần của không gian biến và tỉ số ƣớc lƣợng likelihood cực đại trên toàn bộ không gian biến. Đối với tỉ số likelihood trong công thức , toàn bộ miền không gian là không gian của cặp xác suất : là xác suất xuất hiện ở vị trí sau và là xác 29 suất xuất hiện sau một từ bất kỳ khác . Lấy likelihood cực đại cho dữ liệu đã quan sát nếu giả thiết rằng các ƣớc lƣợng likelihood cực đại đƣợc tính toán theo Công thức 1. Một phần không gian là tập con của các trƣờng hợp có . Ƣớc lƣợng trong Công thức 1 đƣa lại giá trị likelihood cực đại trên một phần không gian dữ liệu đã quan sát. Nếu là tỉ số của hai likelihood (likelihood cực đại trên một phần không gian, và trên toàn bộ miền không gian), thì là phân bổ tiệm cận . Khái niệm “tiệm cận” có thể hiểu là khi “một số đủ lớn”. Có hay không các số đủ lớn trong các trƣờng hợp riêng biệt là rất khó để xác định đƣợc. Nhƣng Dunning đã chỉ ra rằng phép thử likelihood ratio nói chung là phù hợp để trích chọn collocation hơn là phép thử của Pearson [20]. 2.5.2. Các tỉ lệ tần suất tƣơng đối (Relative Frequency Ratios) Phần trên đã trình bày một vài phƣơng pháp xác định collocation trong một kho ngữ liệu. Tỉ lệ tần suất tƣơng đối giữa hai hay nhiều kho ngữ liệu khác nhau có thể đƣợc sử dụng để phát hiện collocation đặc trƣng cho mỗi kho ngữ liệu khi so sánh với một kho ngữ liệu khác (Damerau 1993) [20]. Mặc dù các tỉ lệ tần suất không thích hợp lắm trong một hệ các Giả thuyết kiểm tra, nhƣng có thể xem tỉ lệ tần suất nhƣ là tỉ lệ của các likelihood. Bảng 13 liệt kê 10 bigram xuất hiện chính xác là 2 lần trong kho ngữ liệu. Các bigram này đƣợc xếp hạng dựa vào tỉ lệ các tần suất tƣơng đối của chúng trong kho ngữ liệu năm 1990 so với kho ngữ liệu năm 1989 (vẫn là ấn bản của tờ New York Times từ tháng 8 đến tháng 11). Ví dụ, Karim Obeid xuất hiện 68 lần trong kho ngữ liệu năm 1989. Vì thế tỉ số tần suất tƣơng đối r là: 30 Bảng 13. Phép thử tỉ lệ tần suất của Damerau. Các ví dụ cho thấy rằng các tỉ lệ tần suất đó chủ yếu có ích trong việc tìm kiếm các collocation có dạng chủ thể - đặc trƣng (subject-specific). Damerau đã ứng dụng điều này để so sánh văn bản nói chung với văn bản chủ thể - đặc trƣng. 2.6. Thông tin tƣơng hỗ MI (Mutual information) Một thông tin về mặt lý thuyết đã thúc đẩy tiêu chuẩn để đánh giá tìm kiếm collocation, đó là thông tin tƣơng hỗ theo từng điểm (pointwise mutual information) [20]. Fano (1961) [20] đã khởi đầu định nghĩa về thông tin tƣơng hỗ giữa các biến cố riêng x’ và y’, sự xuất hiện của các từ riêng biệt là: Công thức 2 Công thức 3 Công thức 4 31 Loại thông tin tƣơng hỗ này gần nhƣ là để đo lƣợng thông tin từ mà một từ cho biết về từ kia. Trong lý thuyết về thông tin, thông tin tƣơng hỗ thƣờng đƣợc định nghĩa là các biến ngẫu nhiên (random variable) chứ không phải là giá trị của các biến ngẫu nhiên (values of random variable) nhƣ định nghĩa ở đây. Bảng 14. Tìm kiếm collocation dựa vào thông tin tƣơng hỗ. Trên Bảng 14 là 10 bigram xuất hiện với tần suất 20, đƣợc xếp hạng dựa vào thông tin tƣơng hỗ. Khi chấp nhận định nghĩa này với 10 collocation ở Bảng 6, chúng ta có đƣợc cùng một thứ hạng nhƣ đối với phép thử t test (Bảng 14). Thông thƣờng, sử dụng các ƣớc lƣợng likelihood cực đại để tính toán các tần suất, ví dụ: Vậy định nghĩa thông tin tương hỗ chính xác là gì, đúng ra phải đƣợc tính theo Công thức 2, 3 hay 4? Theo Fano: Lƣợng thông tin đƣợc cung cấp bởi sự xuất hiện biến cố [y’] về sự xuất hiện của biến cố [x’] đƣợc định nghĩa nhƣ sau: (Công thức 3) 32 Ví dụ, độ đo thông tin tƣơng hỗ cho biết lƣợng thông tin có đƣợc về sự xuất hiện của Ayatollah tại vị trí thứ i trong kho ngữ liệu sẽ tăng thêm 18.38 bit nếu biết trƣớc rằng Ruhollah xuất hiện ở vị trí i+1. Nói cách khác, Công thức 3 và 4 là tƣơng đƣơng nhau, nên lƣợng thông tin có đƣợc về sự xuất hiện của Ruhollah ở vị trí i+1 trong kho ngữ liệu cũng tăng 18.38 bit nếu biết trƣớc rằng Ayatollah xuất hiện ở vị trí thứ i. Cũng có thể nói rằng, tính bất định bị giảm đi 18.83 bit. Có thể chắc chắn hơn nhiều rằng Ruhollah sẽ xuất hiện tiếp theo nếu biết rằng từ hiện tại là Ayatollah. Đáng tiếc là độ đo thông tin tăng thêm này (increased information) trong nhiều trƣờng hợp không phải là một độ đo tốt về sự phù hợp giữa hai biến cố. Xem xét hai ví dụ trong Bảng 15, về sự phù hợp giữa câu Tiếng Anh và Tiếng Pháp trong kho ngữ liệu Hansard – một kho ngữ liệu đã đƣợc đồng chỉnh bởi Nghị viện Canada (tƣơng tự Bảng 9) [20]. Bảng 15. Sự phù hợp của chambre và house, communes và house trong kho ngữ liệu. Thông tin tƣơng hỗ của communes và house cao hơn, trong khi phép thử cho giá trị cao hơn đối với cặp dịch đúng (chambre, house). Trong kho ngữ liệu Hansard, cụm House of Commons trong câu Tiếng Anh tƣơng ứng với cụm Chambre de communes trong câu Tiếng Pháp. Có thể giải thích sự khác nhau giữa hai độ đo MI và khá dễ dàng nếu nhìn vào định nghĩa (Công thức 3) về thông tin tƣơng hỗ và so sánh giá trị I(chambre,house) với I(communes,house): 33 Từ communes trong Tiếng Pháp phù hợp với house trong Tiếng Anh hơn là từ chambre. Giá trị thông tin tƣơng hỗ cho communes cao hơn chứng tỏ communes đã làm giảm tính bất định ở đây. Nhƣng nhƣ ví dụ cho thấy sự giảm tính bất định không mấy phù hợp với những gì chúng ta muốn đo. Ngƣợc lại, là một phép thử trực tiếp sự phụ thuộc xác suất, mà trong ngữ cảnh này là mức độ liên kết giữa hai từ. Bảng 16 minh họa việc sử dụng thông tin tƣơng hỗ để tìm kiếm collocation: nửa bên trái bảng là 10 bigram xuất hiện đúng 1 lần trong 1000 tài liệu đầu tiên trong kho ngữ liệu và giá trị thông tin tƣơng hỗ của chúng trên 1000 tài liệu đó. Nửa bên phải bảng cho biết thông tin tƣơng hỗ dựa trên toàn bộ kho ngữ liệu (23000 tài liệu). Bảng 16. Thông tin tƣơng hỗ từ các dữ liệu rải rác. Bảng chỉ ra 10 bigram xuất hiện một lần trong 1000 tài liệu đầu tiên trong kho ngữ liệu đƣợc xếp hạng theo giá trị thông tin tƣơng hỗ trong 1000 tài liệu đầu (nửa bên trái bảng) và xếp hạng theo giá trị thông tin tƣơng hỗ trong toàn bộ kho ngữ liệu (nửa bên phải bảng). Kho ngữ liệu rộng hơn gồm 23000 tài liệu tạo ra nhiều ƣớc lƣợng tốt hơn. Các bigram marijuana growing và new converts (các cụm đƣợc cho là các collocation) đƣợc chuyển lên trên, còn Reds survived (chắc chắn không phải collocation) đƣợc chuyển xuống dƣới. Tuy nhiên, điều đặc biệt là có 6 bigram chỉ xuất hiện một lần, kết quả là có 34 các ƣớc lƣợng likelihood cực đại, và các giá trị thông tin tƣơng hỗ MI sai. Cả 6 bigram đó đều không phải collocation và cần có một độ đo để xếp hạng chúng. Không độ đo nào có thể làm việc tốt với các biến cố có tần suất xuất hiện thấp. Rõ ràng sự rải rác dữ liệu là một vấn đề đặc biệt khó khăn đối với thông tin tƣơng hỗ. Để thấy đƣợc lý do tại sao, chú ý rằng thông tin tƣơng hỗ là logarit tỉ số likelihood của xác suất và kết quả của các xác suất riêng , . Có hai trƣờng hợp đặc biệt về sự xuất hiện hai từ: sự phụ thuộc hoàn toàn (hai từ chỉ xuất hiện cùng nhau) và sự hoàn toàn không phụ thuộc (sự xuất hiện của một từ không cho chúng ta chút thông tin nào về sự xuất hiện của từ kia). Đối với sự phụ thuộc hoàn toàn, ta có: Đối với các bigram phụ thuộc hoàn toàn, thông tin tƣơng hỗ của ch

Các file đính kèm theo tài liệu này:

Pham Thi Ngoc Bich_K50HTTT_Khoa luan tot nghiep dai hoc.pdf