Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet - Dương Trần Đức

TRANG PHỤ BÌA .i

LỜI CAM ĐOAN .ii

LỜI CẢM ƠN .iii

MỤC LỤC .iv

DANH MỤC BẢNG BIỂU .vii

DANH MỤC HÌNH VẼ .viii

DANH MỤC CÁC TỪ VIẾT TẮT .ix

MỞ ĐẦU .1

1. LÝ DO LỰA CHỌN ĐỀ TÀI.1

2. MỤC TIÊU CỦA LUẬN ÁN .3

3. PHẠM VI NGHIÊN CỨU.4

4. CÁC ĐÓNG GÓP CỦA LUẬN ÁN .4

5. BỐ CỤC CỦA LUẬN ÁN.5

CHƯƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG.1

1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH

VĂN BẢN.1

1.1.1 Giới thiệu.1

1.1.2 Đặc điểm của văn bản trực tuyến .4

1.1.3 Các dạng thức trong phân tích tác giả văn bản .5

1.1.4 Các kỹ thuật phân tích.11

1.1.5 Các đặc trưng nhận diện.15

1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH

HÀNH VI.24

1.2.1 Giới thiệu.24

1.2.2 Tập đặc trưng hành vi .25

1.2.3 Các kỹ thuật phân tích.28

1.2.4 Nhận xét và đánh giá .29v

1.3 CÔNG CỤ THỰC NGHIỆM .30

1.4 KẾT LUẬN CHƯƠNG.31

CHƯƠNG 2: XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG

VIỆT .33

2.1 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT

SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN.34

2.1.1 Giới thiệu.34

2.1.2 Phương pháp.35

2.1.3 Thực nghiệm.40

2.1.4 Kết luận .47

2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG .47

2.2.1 Giới thiệu.47

2.2.2 Phương pháp.48

2.2.3 Thực nghiệm.49

2.2.4 Kết luận .61

2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT .62

2.3.1 Giới thiệu.62

2.3.2 Tổng quan về các nghiên cứu phân tích tác giả sử dụng các đặc trưng

dựa trên từ vựng.63

2.3.3 Âm tiết và vần trong tiếng Việt.66

2.3.4 Phương pháp.68

2.3.5 Thực nghiệm.70

2.3.6 Kết luận .78

2.4 KẾT LUẬN CHƯƠNG.79

CHƯƠNG 3: XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU

LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ.81

3.1 PHƯƠNG PHÁP TÁI CHỌN MẪU .82

3.1.1 Giới thiệu.82

3.1.2 Phương pháp.82

3.1.3 Thực nghiệm.87vi

3.1.4 Kết luận .93

3.2 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIỂU DIỄN

CÂY .94

3.2.1 Giới thiệu.94

3.2.2 Phương pháp.95

3.2.3 Thực nghiệm.101

3.3 KẾT LUẬN CHƯƠNG.106

KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO . 107

1. KẾT LUẬN .107

2. HƯỚNG NGHIÊN CỨU TIẾP THEO.109

DANH MỤC CÔNG TRÌNH CÔNG BỐ. 110

TÀI LIỆU THAM KHẢO . 112

PHỤ LỤC 1: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM XÁC ĐỊNH ĐẶC ĐIỂM

TÁC GIẢ VĂN BẢN TIẾNG VIỆT.125

1.1 ĐẶT VẤN ĐỀ .125

1.2 MÔ TẢ HỆ THỐNG.126

1.2.1 Sơ đồ hệ thống.126

1.2.2 Chức năng Thu thập dữ liệu.126

1.2.3 Chức năng Xử lý dữ liệu.127

1.2.4 Chức năng Trích chọn đặc trưng.128

1.2.5 Chức năng Xây dựng mô hình nhận diện .129

1.2.6 Chức năng Xây dựng dịch vụ nhận diện.129

1.2.7 Chức năng Ứng dựng Web thử nghiệm sử dụng dịch vụ .129

1.3 XÂY DỰNG HỆ THỐNG.130

1.3.1 Mô đun Thu thập dữ liệu.130

1.3.2 Mô đun Xử lý dữ liệu và trích chọn đặc trưng.130

1.3.4 Mô đun Xây dựng dịch vụ nhận diện .133

1.3.5 Mô đun ứng dụng thử nghiệm sử dụng dịch vụ .133

1.4 KẾT LUẬN.135

153 trang | Chia sẻ: trungkhoi17 | Lượt xem: 692 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet - Dương Trần Đức, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

xây dựng mô hình nhận diện khoảng 4 giây). Đánh giá đặc trưng. Các thực nghiệm được thực hiện trên các tập con đặc trưng khác nhau cho phép đánh giá hiệu quả của từng loại đặc trưng. Bên cạnh tập 47 đặc trưng đầy đủ cho kết quả tốt nhất (do khai thác được nhiều nhất các đặc trưng phân biệt các tác giả), thì các đặc trưng dựa trên từ vựng cho thấy kết quả tốt hơn các đặc trưng dựa trên ngữ pháp (kể cả các từ chức năng) trong hầu hết các trường hợp, nhất là khi sử dụng các giải thuật có kết quả tốt như SMO. Điều này có thể cho thấy đối với các loại văn bản ngắn và tự do như bài viết diễn đàn, các cấu trúc ngữ pháp có khả năng phân biệt tác giả hạn chế hơn là thói quen sử dụng từ vựng và các thành phần liên quan đến từ vựng. 2.1.4 Kết luận Phần này trình bày kết quả nghiên cứu về sử dụng học xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt sử dụng các đặc trưng cơ bản. Các thực nghiệm được thực hiện trên tập dữ liệu thu thập từ các diễn đàn tiếng Việt và kiểm chứng trên 10 thuật toán học máy phổ biến, sử dụng phương pháp kiểm chứng chéo 10- fold. Các kết quả thực nghiệm cho thấy, các đặc trưng dựa trên từ vựng cho kết quả tốt hơn trong nhiều trường hợp và cần được mở rộng, khảo sát kỹ hơn trong các nghiên cứu tiếp theo. Mặc dù vậy, các đặc trưng ngữ pháp cũng cho kết quả tốt trong một số trường hợp và cũng cần có những thực nghiệm bổ sung để đánh giá kỹ hơn. Về hiệu quả của các thuật toán, SMO là thuật toán cho kết quả tốt hơn trong hầu hết trường hợp, nhưng một số thuật toán khác như Bayesian Networks và Random Forest cũng có tiềm năng và cần được nghiên cứu, thử nghiệm thêm trong các nghiên cứu tiếp theo. 2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG 2.2.1 Giới thiệu Trong phần này, các nghiên cứu về sử dụng các đặc trưng nâng cao hơn được thực hiện, trong đó các đặc trưng liên quan đến từ vựng như các từ nội dung được khai thác sâu hơn sau khi có kết quả khả quan của các đặc trưng loại này trong nghiên cứu ở phần 2.1. Bên cạnh đó, các đặc trưng sâu về ngữ pháp như các cặp ghép 2 và 3 của các từ loại cũng được khảo sát thêm nhằm đánh giá tính hiệu quả 48 của loại đặc trưng ngữ pháp trên các văn bản ngắn và phong cách tự do như bài viết diễn đàn. Các thuật toán học máy được sử dụng trong nghiên cứu này được lựa chọn từ các thuật toán cho kết quả tốt trong bước trước và thuộc các nhóm khác nhau (các thuật toán nổi bật nhất của các nhóm). Cụ thể, có ba thuật toán tiếp tục được thực nghiệm gồm thuật toán SVM/SMO thuộc nhóm functions, thuật toán Bayesian Networks thuộc nhóm bayes, và thuật toán Random Forest thuộc nhóm trees. Kết quả thực nghiệm cho thấy các đặc trưng nội dung cho kết quả vượt trội, trong khi các đặc trưng sâu về ngữ pháp tỏ ra chưa có hiệu quả. Ngoài ra, thuật toán SMO vẫn là thuật toán cho kết quả tốt nhất. 2.2.2 Phương pháp Trong nghiên cứu này, các thực nghiệm được tiến hành trên tập dữ liệu bài viết diễn đàn được sử dung trong nghiên cứu trước để tiện so sánh và đánh giá kết quả. Do vậy, các bước thu thập, xử lý dữ liệu được thực hiện tương tự như ở phần 2.1. Ngoài ra, phương pháp xây dựng mô hình phân loại cũng sử dụng học máy cùng với các kỹ thuật hỗ trợ như lựa chọn đặc trưng. Do đó, phần này sẽ trình bày chủ yếu về các đặc trưng được sử dụng trong nghiên cứu. Các đặc trưng dựa trên nội dung (content-based features) trong nghiên cứu này là các từ được lựa chọn từ chính tập dữ liệu huấn luyện. Đó là các từ có thể phân biệt tốt nhất các lớp của mỗi đặc điểm. Để chọn được các đặc trưng này, đầu tiên các từ có tần xuất sử dụng cao nhất trong tập dữ liệu được lựa chọn (chọn riêng rẽ theo từng lớp của mỗi đặc điểm tác giả). Sau đó, các thuật toán lựa chọn đặc trưng được sử dụng để chọn lọc ra các đặc trưng có độ phân biệt tốt nhất. Cụ thể, với đặc điểm giới tính, 2.000 từ được sử dụng nhiều nhất bởi tác giả nam và 2.000 từ được dùng nhiều nhất bởi tác giả nữ được lựa chọn từ tập dữ liệu. Sau khi loại bớt các từ giống nhau và áp dụng phương pháp lựa chọn đặc trưng, các từ có độ quan trọng cao nhất được lựa chọn để làm đặc trưng theo nội dung dành cho nhận diện giới tính. Thực hiện quá trình tương tự, các từ có độ quan trọng cao nhất được chọn lọc 49 làm đặc trưng theo nội dung để nhận diện các mặt đặc điểm khác như tuổi, vùng miền, nghề nghiệp (mỗi đặc điểm sử dụng một tập từ khác nhau). Quá trình trích chọn từ trong các bài viết phải qua một bước xử lý ngôn ngữ là tách từ trong tiếng Việt. Tương tự như ở nghiên cứu trước, công cụ tách từ vnTokenizer [90] được sử dụng. Bên cạnh đó, khoảng 170 từ không có trong từ điển được sử dụng trong các bài viết trong tập dữ liệu huấn luyện cũng được trích chọn. Đó có thể là các từ lóng (slang) hoặc các từ viết tắt được sử dụng bởi người dùng trên diễn đàn nhằm biểu thị cảm xúc hoặc tiết kiệm thời gian gõ ký tự (ví dụ như các từ “trùi”, “bit”, “bt”, “ae”, “cty”, v.v.). Một số từ trong số này có thể biểu thị ngữ nghĩa, nhưng có nhiều từ chỉ đóng vai trò như từ chức năng. Các từ loại này được phát hiện qua một bước so khớp với danh sách các từ trong từ điển. Danh mục từ trong từ điển được sử dụng trong nghiên cứu này là danh mục 72.000 từ được cung cấp bởi đề tài xử lý tiếng Việt VLSP (Vietnamese Language and Speech Processing) [108]. Các đặc trưng là các cặp ghép n từ loại (POS n-grams) cũng được trích chọn từ tập dữ liệu. Theo đó, các cặp ghép 2 và 3 của các từ loại có tần suất xuất hiện cao nhất được chọn lựa. Để trích chọn được các cặp ghép này, đầu tiên, các từ trong bài viết được gán nhãn từ loại bằng công cụ vnTagger [91]. Sau đó, các cặp ghép 2 và 3 từ loại có vị trí liên tiếp trong một câu sẽ được trích ra và thống kê tần suất. Cuối cùng, 1.000 cặp ghép có tần suất cao nhất sẽ được lựa chọn làm đặc trưng phân loại. Các thực nghiệm cũng được thực hiện trên các tập con đặc trưng khác nhau như tập các từ nội dung, các từ ngoài từ điển, các cặp ghép n từ loại, và kết hợp của các loại trên với các đặc trưng cơ bản, nhằm mục đích đánh giá hiệu suất của từng loại. 2.2.3 Thực nghiệm Như đã nói ở trên, nhằm tạo thuận tiện cho việc so sánh và đánh giá hiệu quả của phương pháp được đề xuất trong phần này với phương pháp được trình bày trong phần 2.1, nghiên cứu này sử dụng tập dữ liệu các bài viết diễn đàn đã dùng 50 trong nghiên cứu trước. Các thông tin về tập dữ liệu xin tham khảo tại phần 2.1.3. Các phần tiếp theo sẽ trình bày về các thuật toán học máy được sử dụng trong nghiên cứu cùng với các kết quả thực nghiệm và các phân tích, đánh giá. 2.2.3.1 Thuật toán học máy Như đã nói ở trên, các thuật toán học máy được sử dụng trong nghiên cứu này là các thuật toán đã cho kết quả tốt nhất trong các nhóm ở nghiên cứu trước. Ngoài ra, do số lượng đặc trưng lớn, các phương pháp lựa chọn đặc trưng cũng được áp dụng để làm giảm độ phức tạp mô hình và loại bớt các đặc trưng ít liên quan đến quá trình phân loại. 1) SVM (Support Vector Machine) – Máy véc tơ hỗ trợ SVM là một phuơng pháp phân lớp dựa trên lý thuyết học thống kê, được đề xuất bởi Vapnik (1995). Để đơn giản, xét bài toán phân loại nhị phân (2 lớp) trước, sau đó sẽ mở rộng ra bài toán phân loại nhiều lớp. Ý tưởng cơ bản của SVM là xây dựng một ranh giới phân chia tập dữ liệu huấn luyện thành 2 phần tương ứng với 2 lớp, sao cho khoảng cách từ các ví dụ huấn luyện với ranh giới là xa nhất có thể. Một hàm tuyến tính phân biệt hai lớp có dạng như sau: (2.2) Trong đó: - là véc tơ trọng số hay véc tơ chuẩn của siêu phẳng phân cách, T là kí hiệu chuyển vị. - là độ lệch - là véc tơ đặc trưng, làm hàm ánh xạ từ không gian đầu vào sang không gian đặc trưng. Giả sử tập dữ liệu đầu vào gồm N mẫu {x1, x2,...,xN}, với các giá trị nhãn tương ứng là {t1,,tN} trong đó . 51 Như đã nói ở trên, SVM tiếp cận giải quyết vấn đề này thông qua khái niệm gọi là lề (margin). Lề là khoảng cách nhỏ nhất từ đường phân cách đến mọi điểm dữ liệu hay là khoảng cách từ đường phân cách đến những điểm gần nhất, và đường ranh giới (hay siêu phẳng trong trường hợp đa chiều) tốt nhất chính là đường có khoảng cách lề lớn nhất. Ta có công thức tính khoảng cách từ điểm dữ liệu đến mặt phân cách như sau: Giả sử đường ranh giới phân chia được hoàn toàn tập dữ liệu huấn luyện thành 2 lớp riêng biệt, khi đó cho mọi n. Vì thế khoảng cách từ điểm xn đến mặt phân cách được viết lại như sau: (2.3) Lề là khoảng cách vuông góc đến điểm dữ liệu gần nhất xn từ tập dữ liệu, và chúng ta muốn tìm giá trị tối ưu của w và b bằng cách cực đại khoảng cách này. Vấn đề cần giải quyết sẽ được viết lại dưới dạng công thức sau: (2.4) Vấn đề tối ưu cực đại có thể được chuyển thành cực tiểu và thêm các nhân tử Lagrange, bài toán trên trở thành: (2.5) Trong đó là nhân tử Lagrange. Sau một số phép biến đổi lấy đạo hàm theo w và b, rồi tính w, b và thế vào, sẽ dẫn đến vấn đề tối ưu: 52 (2.6) Ở đây hàm nhân (kernel function) được định nghĩa là . Lưu ý rằng các điểm không nằm trên lề đều không ảnh hưởng đến giá trị hàm mục tiêu vì ta có thể chọn an = 0. Những điểm dữ liệu còn lại được gọi là véc tơ hỗ trợ là những thành phần được quan tâm trong quá trình huấn luyện của SVM. Việc phân lớp cho một điểm dữ liệu mới chỉ phụ thuộc vào các véc tơ hỗ trợ. Ta có thể xác định tham số b dựa vào các véc tơ hỗ trợ. Mặc dù chỉ cần sử dụng một điểm véc tơ hỗ trợ xn là có thể tìm ra b, nhưng để đảm bảo tính ổn định, b được tính theo cách lấy giá trị trung bình dựa trên các véc tơ hỗ trợ. (2.7) Trong đó Ns là tổng số véc tơ hỗ trợ. Đối với trường hợp phân loại nhiều lớp, có thể xây dựng quá trình phân loại dựa trên một số đường phân loại 2 lớp hoặc tiếp cận theo hướng xây dựng k hàm tuyến tính tương tự như ở trên. SVM có ưu điểm là có thể xử lý số lượng lớn các đặc trưng phân loại và không cần đến việc giảm bớt số lượng đặc trưng nhằm tránh vấn đề quá khớp (over- fitting). Đặc điểm này rất hữu ích khi xử lý các vấn đề có số chiều lớn thường gặp trong các lĩnh vực như phân tích văn bản [106]. SVM đã được sử dụng trong nhiều nghiên cứu trước đây về phân tích tác giả văn bản và trong đa số trường hợp cho kết quả tốt hơn so với các thuật toán khác. 2) RF (Random Forest) - Rừng ngẫu nhiên RF là một thuật toán học kết hợp sử dụng các tập con của dữ liệu và tập con đặc trưng để xây dựng nên các cây quyết định. RF xây dựng nhiều cây quyết định 53 như vậy và kết hợp chúng để cho kết quả phân loại cuối cùng có độ chính xác cao hơn. RF bắt nguồn từ thuật toán tổng hợp cây (tree bagging) theo cách xây dựng các cây trên tập con dữ liệu ngẫu nhiên và sau đó mở rộng thêm bằng cách lấy thêm tập con đặc trưng ngẫu nhiên. Giả sử có tập dữ liệu huấn luyện gồm N mẫu input vector {x1, x2,...,xN}, với các giá trị nhãn tương ứng là {t1,,tN}, thuật toán tree bagging sẽ thực hiện quá trình lặp xây dựng các cây từ các mẫu huấn luyện được chọn ngẫu nhiên. Sau khi các cây được xây dựng xong, việc dự đoán kết quả của dữ liệu mới được tính trung bình từ các dự đoán của các mô hình cây xây dựng được (hoặc thông qua chọn theo đa số). (2.8) Trong đó, B là số lần lặp, fb là cây ở bước b, x’ là mẫu dữ liệu mới. RF cải tiến thuật toán trên ở chỗ mỗi lần xây dựng cây trên tập con dữ liệu ngẫu nhiên, thuật toán này tiếp tục lựa chọn một tập ngẫu nhiên các đặc trưng từ bộ đặc trưng ban đầu. Số đặc trưng được lựa chọn là tùy ý, tuy nhiên, số đặc trưng điển hình cho bài toán phân loại với p đặc trưng ban đầu là trong khi với bài toán hồi quy thì là p/3. 3) BN (Bayesian Networks) – Mạng Bayes BN là một mô hình xác suất dạng đồ thị biểu thị sự phụ thuộc thống kê trên một tập hợp các biến ngẫu nghiên. Đây cũng là thuật toán được sử dụng khá phổ biến trong xây dựng các mô hình học máy [98]. Giả sử cho 1 tập các biến Xi, i {1,,N}. Một mạng Bayes là một đồ thị có hướng phi chu trình, trong đó các nút biểu diễn các biến và các cạnh biểu diễn các quan hệ phụ thuộc thống kê giữa các biến và phân phối xác suất địa phương cho mỗi giá trị nếu cho trước giá trị của các cha của nó. Nếu tập hợp các biến cha của Xi 54 là parents(Xi) thì phân phối có điều kiện phụ thuộc của các biến là tích của các phân phối địa phương: (2.9) 4) Các phương pháp lựa chọn đặc trưng Các phương pháp lựa chọn đặc trưng (Feature Selection – FS) được sử dụng trong nghiên cứu này bao gồm phương pháp dựa trên độ lợi thông tin (Information Gain - IG), χ2 (Chi-Square - CS), và dựa trên độ tương quan (Correlation – Corr). Information Gain sử dụng cách đo độ quan trọng của mỗi đặc trưng trong việc phân biệt các lớp phân loại và đã được ứng dụng trong nhiều nghiên cứu trước đây và cho kết quả tốt. Chi-Square là phép thử có thể đánh giá sự độc lập của hai biến trong thống kê, và được sử dụng để đo mức độ độc lập giữa một đặc trưng và lớp phân loại. Trong khi đó, phương pháp Correlation sử dụng độ đo tương tự giữa các đặc trưng với nhau và với lớp phân loại để đánh giá tập đặc trưng tốt [29]. Với mỗi thuật toán, 5 tập con đặc trưng được tiến hành thực nghiệm để đánh giá hiệu quả của các thuật toán và tập đặc trưng. 2.2.3.2 Kết quả và đánh giá Các thực nghiệm được thực hiện cho bốn đặc điểm của tác giả bài viết như đã đề cập ở trên, sử dụng công cụ Weka. Kết quả cũng được đánh giá bằng phương pháp kiểm chứng chéo 10-fold và độ đo chính xác (accuracy) như ở nghiên cứu trước. Bảng 2.4 cho biết kết quả của các thực nghiệm nhận diện đặc điểm tác giả theo cả bốn mặt đặc điểm. 55 Bảng 2.4. Kết quả thực nghiệm sử dụng các đặc trưng nâng cao (a) Đặc điểm giới tính Loại đặc trưng FS RF SVM BN Cơ bản (từ nghiên cứu trước) - 81.25 82.94 77.17 Từ nội dung IG 88.53 89.97 87.58 Từ ngoài từ điển - 72.68 73.18 69.89 Cặp ghép n từ loại IG 67.54 69.34 64.45 Kết hợp cơ bản - từ nội dung IG 89.30 90.47 87.35 Kết hợp cơ bản - từ ngoài từ điển - 85.03 86.23 80.11 Kết hợp cơ bản - cặp ghép n từ loại IG 81.30 82.20 77.20 Kết hợp tất cả đặc trưng IG 89.40 90.50 87.43 (b) Đặc điểm độ tuổi Loại đặc trưng FS RF SVM BN Cơ bản (từ nghiên cứu trước) - 61.94 62.14 56.17 Từ nội dung IG 61.22 61.74 62.55 Từ ngoài từ điển - 60.56 61.21 59.84 Cặp ghép n từ loại IG 54.20 54.27 52.12 Kết hợp cơ bản - từ nội dung IG 63.54 63.96 63.92 Kết hợp cơ bản - từ ngoài từ điển - 64.24 64.91 60.89 Kết hợp cơ bản - cặp ghép n từ loại CS 61.88 62.07 56.10 Kết hợp tất cả đặc trưng IG 63.64 64.05 64.14 56 (c) Đặc điểm vùng miền Loại đặc trưng FS RF SVM BN Cơ bản (từ nghiên cứu trước) - 70.22 70.39 66.99 Từ nội dung IG 79.23 79.39 75.01 Từ ngoài từ điển - 67.28 67.62 68.07 Cặp ghép n từ loại IG 62.21 62.78 60.36 Kết hợp cơ bản - từ nội dung IG 79.90 80.06 74.54 Kết hợp cơ bản - từ ngoài từ điển - 75.05 75.72 70.31 Kết hợp cơ bản - cặp ghép n từ loại IG 62.12 62.54 60.21 Kết hợp tất cả đặc trưng IG 79.96 80.09 74.61 (d) Đặc điểm nghề nghiệp Loại đặc trưng FS RF SVM BN Cơ bản (từ nghiên cứu trước) - 51.60 51.77 46.44 Từ nội dung IG 55.32 55.38 51.34 Từ ngoài từ điển - 44.41 44.70 40.60 Cặp ghép n từ loại IG 43.70 44.26 40.12 Kết hợp cơ bản - từ nội dung IG 56.41 56.98 50.65 Kết hợp cơ bản - từ ngoài từ điển - 51.81 51.95 45.29 Kết hợp cơ bản - cặp ghép n từ loại CS 43.56 44.02 40.05 Kết hợp tất cả đặc trưng IG 56.50 57.02 50.70 57 Từ các kết quả thực nghiệm trong bảng 2.4, có thể nhận thấy các đặc trưng dựa trên nội dung có kết quả vượt trội hơn so với các đặc trưng cơ bản và các loại đặc trưng khác khi sử dụng riêng rẽ. Mặc dù các đặc trưng dựa trên nội dung thường được xem có tính phụ thuộc vào lĩnh vực ở một mức độ nhất định và có thể làm giảm độ chính xác khi chuyển qua ứng dụng trên lĩnh vực khác, với độ chính xác tăng trung bình từ 5-9% so với các đặc trưng cơ bản, các kết quả trên vẫn có nhiều triển vọng khi được ứng dụng trong cùng lĩnh vực hoặc lĩnh vực tương tự. Hơn nữa, với thời gian huấn luyện khoảng 3-5 giây (với thuật toán SMO và 600 đặc trưng), mô hình phân loại hoàn toàn có thể nhanh chóng được xây dựng lại trên tập dữ liệu mới và đáp ứng được các ứng dụng với thời gian thực. Các từ ngoài từ điển có kết quả chưa tốt khi sử dụng riêng rẽ, tuy nhiên khi kết hợp với các đặc trưng cơ bản cho kết quả tốt hơn so với việc sử dụng các đặc trưng cơ bản riêng rẽ. Các đặc trưng cặp ghép 2 và 3 từ loại cho kết quả hạn chế, kể cả khi sử dụng riêng rẽ hoặc kết hợp với các đặc trưng cơ bản. Kết quả này củng cố thêm cho nhận định về việc các cấu trúc ngữ pháp khó phát huy hiệu quả nhận diện trên các bải viết ngắn và có phong cách tự do như bài viết diễn đàn. Cuối cùng, việc kết hợp tất cả các đặc trưng cho kết quả cao hơn các tập con khác, nhưng chỉ cao hơn không đáng kể so với các tập con tốt nhất (bao gồm các đặc trưng nội dung riêng rẽ và tập đặc trưng cơ bản kết hợp với đặc trưng nội dung). Về các phương pháp phân loại, thuật toán SMO có kết quả tốt hơn hai thuật toán còn lại trong đa số các trường hợp, trong đó thuật toán Random Forest cho kết quả tốt hơn Bayesian Networks nhưng có thời gian chạy lâu hơn nhiều. Đây là các kết quả hợp lý, và một lần nữa chứng minh SMO/SVM là thuật toán tốt nhất cho việc xác định đặc điểm tác giả văn bản. Ngoài ra, trong các thuật toán lựa chọn đặc trưng được thử nghiệm, ngoại trừ một số trường hợp ngoại lệ, thuật toán lựa chọn dựa trên độ đo Information Gain đều cho kết quả tốt nhất. 2.2.3.3 Phân tích đặc trưng nội dung 58 Từ các kết quả ban đầu trên, chúng tôi tiến hành thực hiện phân tích sâu hơn về các đặc trưng nội dung. Để cải tiến kết quả, các tham số của thuật toán SMO được điều chỉnh và trong một số trường hợp đã làm tăng độ chính xác lên tới 8% (chủ yếu với các kết quả trước đây có độ chính xác chưa cao như kết quả trên đặc điểm độ tuổi hoặc nghề nghiệp). Quá trình thực nghiệm cho thấy thuật toán SMO với nhân đa thức (PolyKernel) cho kết quả tốt nhất, do vậy hai tham số là c và exponent (bậc của đa thức) được tối ưu hóa. Bảng 2.5 cho thấy kết quả nhận diện trên thuật toán SMO sau khi đã điều chỉnh và lựa chọn tham số tốt nhất trên các tập đặc trưng cơ bản và dựa trên nội dung. Bảng 2.5. Kết quả trên thuật toán SMO sau khi điều chỉnh tham số Loại đặc trưng Giới tính Độ tuổi Vùng miền Nghề nghiệp Kết hợp cơ bản – nội dung 90.55 70.70 83.13 61.04 Cơ bản 83.47 62.76 71.22 52.46 Nội dung 90.01 70.05 82.98 60.99 Về ảnh hưởng của số lượng các đặc trưng được lựa chọn tới độ chính xác của mô hình, các thực nghiệm với các số lượng đặc trưng khác nhau được lựa chọn bởi thuật toán Information Gain được thực hiện (với số lượng đặc trưng nằm trong khoảng từ 100 đến 1000). Hình 2.2 cho thấy số lượng đặc trưng mang lại kết quả tốt nhất cho mỗi mặt đặc điểm. Theo kết quả như trong hình 2.2, độ chính xác cao nhất khi nhận diện giới tính đạt được khi số đặc trưng được lựa chọn là 600. Số lượng đặc trưng tốt nhất cho dự đoán độ tuổi và vùng miền là 400, trong khi số lượng đặc trưng tốt nhất cho dự đoán nghề nghiệp là 200. Nguyên nhân dẫn đến số lượng đặc trưng tốt nhất cho nghề nghiệp thấp có thể từ vấn đề nhiễu trong dữ liệu nghề nghiệp và không có nhiều từ nội dung có thể lựa chọn để phân biệt nghề nghiệp. 59 Hình 2.2. Độ chính xác nhận diện trên các số lượng đặc trưng khác nhau Trong các đặc trưng nội dung được lựa chọn, những đặc trưng có độ quan trọng hàng đầu được liệt kê trong bảng 2.6. Đối với những đặc điểm có hai lớp như giới tính, vùng miền, trọng số của lớp thứ nhất sẽ mang dấu âm và của lớp thứ 2 mang dấu dương. Trọng số càng có giá trị lớn về giá trị tuyệt đối thì đặc trưng càng quan trọng. Với các đặc điểm có hơn hai lớp như độ tuổi, nghề nghiệp, việc tính toán trọng số được chia theo cặp, trong đó từng lớp được ghép lớp cuối cùng với trọng số được trình bày như trong bảng. Từ bảng 2.6, có thể thấy nam giới thường có xu hướng trao đổi về các vấn đề công việc, thể thao, quy định, trong khi nữ giới thường nói về cuộc sống, sức khỏe, áp lực. Những người có độ tuổi dưới 22 (học sinh/sinh viên) thường thảo luận về học tập, hành động. Người có độ tuổi 24-27 (những người mới đi làm) thường trao đổi về nhu cầu, du lịch. Người trung niên thường trao đổi các quan điểm về tiêu dùng, luật pháp. Người dùng ở các vùng miền khác nhau thường sử dụng các từ địa phương khác nhau. Trong các thực nghiệm đã thực hiện, có thể nhận thấy có một số từ điển hình phân biệt vùng miền Bắc – Nam như trong bảng 2.6 (c). Bảng 2.6 (d) cho thấy người làm việc trong lĩnh vực kinh doanh/bán hàng thường thích trao đổi về lịch, cuộc hẹn, du lịch, trong khi người làm trong lĩnh vực kỹ thuật công nghệ có Số các từ nội dung Giới tính Tuổi Vùng miền Nghề nghiệp 60 xu hướng trao đổi về máy móc, phát triển, và người có nghề nghiệp thuộc lĩnh vực giáo dục/y tế thường trao đổi về các vấn đề xã hội, học tập, tâm lý, từ thiện .v.v. Bảng 2.6. Những đặc trưng nội dung (từ nội dung) quan trọng nhất (a) Các đặc trưng nội dung quan trọng cho xác định giới tính Nam Nữ Đặc trưng Trọng số Đặc trưng Trọng số Đặc trưng Trọng số Đặc trưng Trọng số mục tiêu -1.35 quy định -1.18 cảm ơn 1.91 hồng 1.46 dữ liệu -1.34 máy ảnh -1.09 khách sạn 1.79 bếp 1.43 doanh nghiệp -1.32 điện tử -1.07 cưới 1.76 sữa 1.31 kỹ thuật -1.31 triển khai -1.03 bác sĩ 1.56 chia sẻ 1.27 xử lý -1.26 kiểm tra -1.02 vải 1.51 áp lực 1.18 (b) Các đặc trưng nội dung quan trọng cho xác định độ tuổi Ít hơn 22 Từ 24 đến 27 Nhiều hơn 32 Đặc trưng Trọng số Đặc trưng Trọng số Đặc trưng Trọng số học hỏi -1.50 nhu cầu -1.29 xài 1.24 lịch sử -1.32 triệu -1.20 luật 1.11 nguyên do -1.25 khắp nơi -0.90 quy định 0.66 hành động -1.05 lang thang -0.74 chi phí 0.62 thể thao -0.80 bỏ qua -1.03 hỗ trợ 0.58 61 (c) Các đặc trưng nội dung quan trọng cho xác định vùng miền Bắc Nam Đặc trưng Trọng số Đặc trưng Trọng số Đặc trưng Trọng số Đặc trưng Trọng số buổi -1.22 rẽ -0.78 máy lạnh 1.52 gởi 1.09 đỗ -1.18 quay -0.73 coi 1.51 đậu 1.04 mạch -1.05 sinh -0.70 gạt 1.48 xài 1.00 liệu -1.00 ảnh -0.65 nhơn 1.46 uổng 1.00 nộp -1.00 chịu khó -0.53 quẹo 1.35 dơ 0.91 (d) Các đặc trưng quan trọng cho xác định nghề nghiệp Kinh doanh/Bán hàng Kỹ thuật/Công nghệ Giáo dục/Y tế Đặc trưng Trọng số Đặc trưng Trọng số Đặc trưng Trọng số lịch -1.64 phát triển -1.68 tâm lý 1.61 cuộc -1.62 cấu hình -1.60 hình ảnh 1.58 lang thang -1.21 kết hợp -1.53 xã hội 1.43 đến nơi -0.88 kỹ thuật -1.30 học 1.13 cung cấp -0.77 tài liệu -1.20 từ thiện 1.09 2.2.4 Kết luận Phần này thực hiện nghiên cứu về sử dụng các đặc trưng nội dung, cùng với các đặc trưng sâu về ngữ pháp như các cặp ghép từ loại để xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt. Kết quả thực nghiệm cho thấy các đặc trưng nội dung cho kết quả tốt, làm tăng độ chính xác nhận diện lên đáng kể so với các đặc trưng 62 cơ bản được sử dụng trong nghiên cứu trước, trong khi các đặc trưng cặp ghép từ loại chưa cho thấy hiệu quả. Các phân tích sâu hơn về các đặc trưng nội dung cũng được thực hiện trong nghiên cứu, chỉ ra số lượng các từ nội dung đem lại kết quả tốt nhất, và danh sách các từ nội dung quan trọng nhất cho các mặt đặc điểm. Các thực nghiệm được thực hiện đã cho các kết quả có nhiều triển vọng, mặc dù một số khía cạnh vẫn cần phải nghiên cứu cải tiến thêm như các giải pháp cho nhận diện nghề nghiệp khi có sự thay đổi nghề nghiệp hay các kết quả dự đoán độ tuổi cũng cần được cải tiến v.v. Kết quả thực nghiệm cũng một lần nữa chứng minh thuật toán SVM có kết quả tốt nhất khi thực hiện xử lý văn bản. Về các hướng phát triển tiếp theo, nghiên cứu có thể được mở rộng theo hướng khai thác các đặc trưng của tiếng Việt về từ vựng trong xác định tác giả văn bản cũng như khả năng trích chọn các đặc trưng nội dung tốt hơn. Ngoài ra, các nghiên cứu sang các loại văn bản trong các lĩnh vực khác như mạng xã hội hoặc các bình luận/đánh giá về sản phẩm/dịch vụ của người dùng cũng có nhiều triển vọng. Dữ liệu trong các lĩnh vực này thậm chí ngắn hơn và có tính tự do hơn so với bài viết diễn đàn và theo đó là một công việc nhiều thách thức hơn. Tuy nhiên, kết quả của các nghiên cứu này có những ứng dụng rất thiết thực trong một số lĩnh vực như thương mại, quảng cáo trực tuyến, phân tích thị trường v.v. 2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT 2.3.1 Giới thiệu Cho đến thời điểm hiện nay, các nghiên cứu về xác định đặc điểm tác giả văn bản chủ yếu khai thác và sử dụng các đặc điểm ngôn ngữ học để làm các đặc trưng phân loại. Như đã nói ở phần trước, các đặc trưng phân loại được chia làm hai loại, đó là đặc trưng dựa theo phong cách và đặc trưng dựa trên nội dung. Các đặc trưng dựa trên nội dung thường cho kết quả tốt hơn, nhưng được xem là có tính đặc thù miền (domain-specific), do các từ nội dung được chọn có thể là đặc thù trong lĩnh vực nghiên cứu. Để làm giảm mức độ đặc thù miền

Các file đính kèm theo tài liệu này:

luan_an_mot_so_phuong_phap_hoc_may_xac_dinh_dac_diem_nguoi_d.pdf