TRANG PHỤ BÌA .i
LỜI CAM ĐOAN .ii
LỜI CẢM ƠN .iii
MỤC LỤC .iv
DANH MỤC BẢNG BIỂU .vii
DANH MỤC HÌNH VẼ .viii
DANH MỤC CÁC TỪ VIẾT TẮT .ix
MỞ ĐẦU .1
1. LÝ DO LỰA CHỌN ĐỀ TÀI.1
2. MỤC TIÊU CỦA LUẬN ÁN .3
3. PHẠM VI NGHIÊN CỨU.4
4. CÁC ĐÓNG GÓP CỦA LUẬN ÁN .4
5. BỐ CỤC CỦA LUẬN ÁN.5
CHƯƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG.1
1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH
VĂN BẢN.1
1.1.1 Giới thiệu.1
1.1.2 Đặc điểm của văn bản trực tuyến .4
1.1.3 Các dạng thức trong phân tích tác giả văn bản .5
1.1.4 Các kỹ thuật phân tích.11
1.1.5 Các đặc trưng nhận diện.15
1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH
HÀNH VI.24
1.2.1 Giới thiệu.24
1.2.2 Tập đặc trưng hành vi .25
1.2.3 Các kỹ thuật phân tích.28
1.2.4 Nhận xét và đánh giá .29v
1.3 CÔNG CỤ THỰC NGHIỆM .30
1.4 KẾT LUẬN CHƯƠNG.31
CHƯƠNG 2: XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG
VIỆT .33
2.1 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT
SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN.34
2.1.1 Giới thiệu.34
2.1.2 Phương pháp.35
2.1.3 Thực nghiệm.40
2.1.4 Kết luận .47
2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG .47
2.2.1 Giới thiệu.47
2.2.2 Phương pháp.48
2.2.3 Thực nghiệm.49
2.2.4 Kết luận .61
2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT .62
2.3.1 Giới thiệu.62
2.3.2 Tổng quan về các nghiên cứu phân tích tác giả sử dụng các đặc trưng
dựa trên từ vựng.63
2.3.3 Âm tiết và vần trong tiếng Việt.66
2.3.4 Phương pháp.68
2.3.5 Thực nghiệm.70
2.3.6 Kết luận .78
2.4 KẾT LUẬN CHƯƠNG.79
CHƯƠNG 3: XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU
LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ.81
3.1 PHƯƠNG PHÁP TÁI CHỌN MẪU .82
3.1.1 Giới thiệu.82
3.1.2 Phương pháp.82
3.1.3 Thực nghiệm.87vi
3.1.4 Kết luận .93
3.2 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIỂU DIỄN
CÂY .94
3.2.1 Giới thiệu.94
3.2.2 Phương pháp.95
3.2.3 Thực nghiệm.101
3.3 KẾT LUẬN CHƯƠNG.106
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO . 107
1. KẾT LUẬN .107
2. HƯỚNG NGHIÊN CỨU TIẾP THEO.109
DANH MỤC CÔNG TRÌNH CÔNG BỐ. 110
TÀI LIỆU THAM KHẢO . 112
PHỤ LỤC 1: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM XÁC ĐỊNH ĐẶC ĐIỂM
TÁC GIẢ VĂN BẢN TIẾNG VIỆT.125
1.1 ĐẶT VẤN ĐỀ .125
1.2 MÔ TẢ HỆ THỐNG.126
1.2.1 Sơ đồ hệ thống.126
1.2.2 Chức năng Thu thập dữ liệu.126
1.2.3 Chức năng Xử lý dữ liệu.127
1.2.4 Chức năng Trích chọn đặc trưng.128
1.2.5 Chức năng Xây dựng mô hình nhận diện .129
1.2.6 Chức năng Xây dựng dịch vụ nhận diện.129
1.2.7 Chức năng Ứng dựng Web thử nghiệm sử dụng dịch vụ .129
1.3 XÂY DỰNG HỆ THỐNG.130
1.3.1 Mô đun Thu thập dữ liệu.130
1.3.2 Mô đun Xử lý dữ liệu và trích chọn đặc trưng.130
1.3.4 Mô đun Xây dựng dịch vụ nhận diện .133
1.3.5 Mô đun ứng dụng thử nghiệm sử dụng dịch vụ .133
1.4 KẾT LUẬN.135
153 trang |
Chia sẻ: trungkhoi17 | Lượt xem: 470 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet - Dương Trần Đức, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
xây dựng mô hình nhận diện khoảng 4 giây).
Đánh giá đặc trưng. Các thực nghiệm được thực hiện trên các tập con đặc
trưng khác nhau cho phép đánh giá hiệu quả của từng loại đặc trưng. Bên cạnh tập
47
đặc trưng đầy đủ cho kết quả tốt nhất (do khai thác được nhiều nhất các đặc trưng
phân biệt các tác giả), thì các đặc trưng dựa trên từ vựng cho thấy kết quả tốt hơn
các đặc trưng dựa trên ngữ pháp (kể cả các từ chức năng) trong hầu hết các trường
hợp, nhất là khi sử dụng các giải thuật có kết quả tốt như SMO. Điều này có thể cho
thấy đối với các loại văn bản ngắn và tự do như bài viết diễn đàn, các cấu trúc ngữ
pháp có khả năng phân biệt tác giả hạn chế hơn là thói quen sử dụng từ vựng và các
thành phần liên quan đến từ vựng.
2.1.4 Kết luận
Phần này trình bày kết quả nghiên cứu về sử dụng học xác định đặc điểm tác
giả bài viết diễn đàn tiếng Việt sử dụng các đặc trưng cơ bản. Các thực nghiệm
được thực hiện trên tập dữ liệu thu thập từ các diễn đàn tiếng Việt và kiểm chứng
trên 10 thuật toán học máy phổ biến, sử dụng phương pháp kiểm chứng chéo 10-
fold.
Các kết quả thực nghiệm cho thấy, các đặc trưng dựa trên từ vựng cho kết quả
tốt hơn trong nhiều trường hợp và cần được mở rộng, khảo sát kỹ hơn trong các
nghiên cứu tiếp theo. Mặc dù vậy, các đặc trưng ngữ pháp cũng cho kết quả tốt
trong một số trường hợp và cũng cần có những thực nghiệm bổ sung để đánh giá kỹ
hơn. Về hiệu quả của các thuật toán, SMO là thuật toán cho kết quả tốt hơn trong
hầu hết trường hợp, nhưng một số thuật toán khác như Bayesian Networks và
Random Forest cũng có tiềm năng và cần được nghiên cứu, thử nghiệm thêm trong
các nghiên cứu tiếp theo.
2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG
2.2.1 Giới thiệu
Trong phần này, các nghiên cứu về sử dụng các đặc trưng nâng cao hơn được
thực hiện, trong đó các đặc trưng liên quan đến từ vựng như các từ nội dung được
khai thác sâu hơn sau khi có kết quả khả quan của các đặc trưng loại này trong
nghiên cứu ở phần 2.1. Bên cạnh đó, các đặc trưng sâu về ngữ pháp như các cặp
ghép 2 và 3 của các từ loại cũng được khảo sát thêm nhằm đánh giá tính hiệu quả
48
của loại đặc trưng ngữ pháp trên các văn bản ngắn và phong cách tự do như bài viết
diễn đàn.
Các thuật toán học máy được sử dụng trong nghiên cứu này được lựa chọn từ
các thuật toán cho kết quả tốt trong bước trước và thuộc các nhóm khác nhau (các
thuật toán nổi bật nhất của các nhóm). Cụ thể, có ba thuật toán tiếp tục được thực
nghiệm gồm thuật toán SVM/SMO thuộc nhóm functions, thuật toán Bayesian
Networks thuộc nhóm bayes, và thuật toán Random Forest thuộc nhóm trees.
Kết quả thực nghiệm cho thấy các đặc trưng nội dung cho kết quả vượt trội,
trong khi các đặc trưng sâu về ngữ pháp tỏ ra chưa có hiệu quả. Ngoài ra, thuật toán
SMO vẫn là thuật toán cho kết quả tốt nhất.
2.2.2 Phương pháp
Trong nghiên cứu này, các thực nghiệm được tiến hành trên tập dữ liệu bài
viết diễn đàn được sử dung trong nghiên cứu trước để tiện so sánh và đánh giá kết
quả. Do vậy, các bước thu thập, xử lý dữ liệu được thực hiện tương tự như ở phần
2.1. Ngoài ra, phương pháp xây dựng mô hình phân loại cũng sử dụng học máy
cùng với các kỹ thuật hỗ trợ như lựa chọn đặc trưng. Do đó, phần này sẽ trình bày
chủ yếu về các đặc trưng được sử dụng trong nghiên cứu.
Các đặc trưng dựa trên nội dung (content-based features) trong nghiên cứu này
là các từ được lựa chọn từ chính tập dữ liệu huấn luyện. Đó là các từ có thể phân
biệt tốt nhất các lớp của mỗi đặc điểm. Để chọn được các đặc trưng này, đầu tiên
các từ có tần xuất sử dụng cao nhất trong tập dữ liệu được lựa chọn (chọn riêng rẽ
theo từng lớp của mỗi đặc điểm tác giả). Sau đó, các thuật toán lựa chọn đặc trưng
được sử dụng để chọn lọc ra các đặc trưng có độ phân biệt tốt nhất. Cụ thể, với đặc
điểm giới tính, 2.000 từ được sử dụng nhiều nhất bởi tác giả nam và 2.000 từ được
dùng nhiều nhất bởi tác giả nữ được lựa chọn từ tập dữ liệu. Sau khi loại bớt các từ
giống nhau và áp dụng phương pháp lựa chọn đặc trưng, các từ có độ quan trọng
cao nhất được lựa chọn để làm đặc trưng theo nội dung dành cho nhận diện giới
tính. Thực hiện quá trình tương tự, các từ có độ quan trọng cao nhất được chọn lọc
49
làm đặc trưng theo nội dung để nhận diện các mặt đặc điểm khác như tuổi, vùng
miền, nghề nghiệp (mỗi đặc điểm sử dụng một tập từ khác nhau). Quá trình trích
chọn từ trong các bài viết phải qua một bước xử lý ngôn ngữ là tách từ trong tiếng
Việt. Tương tự như ở nghiên cứu trước, công cụ tách từ vnTokenizer [90] được sử
dụng.
Bên cạnh đó, khoảng 170 từ không có trong từ điển được sử dụng trong các
bài viết trong tập dữ liệu huấn luyện cũng được trích chọn. Đó có thể là các từ lóng
(slang) hoặc các từ viết tắt được sử dụng bởi người dùng trên diễn đàn nhằm biểu
thị cảm xúc hoặc tiết kiệm thời gian gõ ký tự (ví dụ như các từ “trùi”, “bit”, “bt”,
“ae”, “cty”, v.v.). Một số từ trong số này có thể biểu thị ngữ nghĩa, nhưng có nhiều
từ chỉ đóng vai trò như từ chức năng. Các từ loại này được phát hiện qua một bước
so khớp với danh sách các từ trong từ điển. Danh mục từ trong từ điển được sử dụng
trong nghiên cứu này là danh mục 72.000 từ được cung cấp bởi đề tài xử lý tiếng
Việt VLSP (Vietnamese Language and Speech Processing) [108].
Các đặc trưng là các cặp ghép n từ loại (POS n-grams) cũng được trích chọn
từ tập dữ liệu. Theo đó, các cặp ghép 2 và 3 của các từ loại có tần suất xuất hiện cao
nhất được chọn lựa. Để trích chọn được các cặp ghép này, đầu tiên, các từ trong bài
viết được gán nhãn từ loại bằng công cụ vnTagger [91]. Sau đó, các cặp ghép 2 và 3
từ loại có vị trí liên tiếp trong một câu sẽ được trích ra và thống kê tần suất. Cuối
cùng, 1.000 cặp ghép có tần suất cao nhất sẽ được lựa chọn làm đặc trưng phân loại.
Các thực nghiệm cũng được thực hiện trên các tập con đặc trưng khác nhau
như tập các từ nội dung, các từ ngoài từ điển, các cặp ghép n từ loại, và kết hợp của
các loại trên với các đặc trưng cơ bản, nhằm mục đích đánh giá hiệu suất của từng
loại.
2.2.3 Thực nghiệm
Như đã nói ở trên, nhằm tạo thuận tiện cho việc so sánh và đánh giá hiệu quả
của phương pháp được đề xuất trong phần này với phương pháp được trình bày
trong phần 2.1, nghiên cứu này sử dụng tập dữ liệu các bài viết diễn đàn đã dùng
50
trong nghiên cứu trước. Các thông tin về tập dữ liệu xin tham khảo tại phần 2.1.3.
Các phần tiếp theo sẽ trình bày về các thuật toán học máy được sử dụng trong
nghiên cứu cùng với các kết quả thực nghiệm và các phân tích, đánh giá.
2.2.3.1 Thuật toán học máy
Như đã nói ở trên, các thuật toán học máy được sử dụng trong nghiên cứu này
là các thuật toán đã cho kết quả tốt nhất trong các nhóm ở nghiên cứu trước. Ngoài
ra, do số lượng đặc trưng lớn, các phương pháp lựa chọn đặc trưng cũng được áp
dụng để làm giảm độ phức tạp mô hình và loại bớt các đặc trưng ít liên quan đến
quá trình phân loại.
1) SVM (Support Vector Machine) – Máy véc tơ hỗ trợ
SVM là một phuơng pháp phân lớp dựa trên lý thuyết học thống kê, được đề
xuất bởi Vapnik (1995). Để đơn giản, xét bài toán phân loại nhị phân (2 lớp) trước,
sau đó sẽ mở rộng ra bài toán phân loại nhiều lớp. Ý tưởng cơ bản của SVM là xây
dựng một ranh giới phân chia tập dữ liệu huấn luyện thành 2 phần tương ứng với 2
lớp, sao cho khoảng cách từ các ví dụ huấn luyện với ranh giới là xa nhất có thể.
Một hàm tuyến tính phân biệt hai lớp có dạng như sau:
(2.2)
Trong đó:
- là véc tơ trọng số hay véc tơ chuẩn của siêu phẳng phân cách, T
là kí hiệu chuyển vị.
- là độ lệch
- là véc tơ đặc trưng, làm hàm ánh xạ từ không gian đầu vào
sang không gian đặc trưng.
Giả sử tập dữ liệu đầu vào gồm N mẫu {x1, x2,...,xN}, với các giá trị nhãn
tương ứng là {t1,,tN} trong đó .
51
Như đã nói ở trên, SVM tiếp cận giải quyết vấn đề này thông qua khái niệm
gọi là lề (margin). Lề là khoảng cách nhỏ nhất từ đường phân cách đến mọi điểm dữ
liệu hay là khoảng cách từ đường phân cách đến những điểm gần nhất, và đường
ranh giới (hay siêu phẳng trong trường hợp đa chiều) tốt nhất chính là đường có
khoảng cách lề lớn nhất.
Ta có công thức tính khoảng cách từ điểm dữ liệu đến mặt phân cách như sau:
Giả sử đường ranh giới phân chia được hoàn toàn tập dữ liệu huấn luyện thành
2 lớp riêng biệt, khi đó cho mọi n. Vì thế khoảng cách từ điểm xn đến
mặt phân cách được viết lại như sau:
(2.3)
Lề là khoảng cách vuông góc đến điểm dữ liệu gần nhất xn từ tập dữ liệu, và
chúng ta muốn tìm giá trị tối ưu của w và b bằng cách cực đại khoảng cách này.
Vấn đề cần giải quyết sẽ được viết lại dưới dạng công thức sau:
(2.4)
Vấn đề tối ưu cực đại có thể được chuyển thành cực tiểu và thêm
các nhân tử Lagrange, bài toán trên trở thành:
(2.5)
Trong đó là nhân tử Lagrange.
Sau một số phép biến đổi lấy đạo hàm theo w và b, rồi tính w, b và thế vào, sẽ
dẫn đến vấn đề tối ưu:
52
(2.6)
Ở đây hàm nhân (kernel function) được định nghĩa là .
Lưu ý rằng các điểm không nằm trên lề đều không ảnh hưởng đến giá trị hàm
mục tiêu vì ta có thể chọn an = 0. Những điểm dữ liệu còn lại được gọi là
véc tơ hỗ trợ là những thành phần được quan tâm trong quá trình huấn luyện của
SVM. Việc phân lớp cho một điểm dữ liệu mới chỉ phụ thuộc vào các véc tơ hỗ trợ.
Ta có thể xác định tham số b dựa vào các véc tơ hỗ trợ. Mặc dù chỉ cần sử
dụng một điểm véc tơ hỗ trợ xn là có thể tìm ra b, nhưng để đảm bảo tính ổn định, b
được tính theo cách lấy giá trị trung bình dựa trên các véc tơ hỗ trợ.
(2.7)
Trong đó Ns là tổng số véc tơ hỗ trợ.
Đối với trường hợp phân loại nhiều lớp, có thể xây dựng quá trình phân loại
dựa trên một số đường phân loại 2 lớp hoặc tiếp cận theo hướng xây dựng k hàm
tuyến tính tương tự như ở trên.
SVM có ưu điểm là có thể xử lý số lượng lớn các đặc trưng phân loại và
không cần đến việc giảm bớt số lượng đặc trưng nhằm tránh vấn đề quá khớp (over-
fitting). Đặc điểm này rất hữu ích khi xử lý các vấn đề có số chiều lớn thường gặp
trong các lĩnh vực như phân tích văn bản [106]. SVM đã được sử dụng trong nhiều
nghiên cứu trước đây về phân tích tác giả văn bản và trong đa số trường hợp cho kết
quả tốt hơn so với các thuật toán khác.
2) RF (Random Forest) - Rừng ngẫu nhiên
RF là một thuật toán học kết hợp sử dụng các tập con của dữ liệu và tập con
đặc trưng để xây dựng nên các cây quyết định. RF xây dựng nhiều cây quyết định
53
như vậy và kết hợp chúng để cho kết quả phân loại cuối cùng có độ chính xác cao
hơn.
RF bắt nguồn từ thuật toán tổng hợp cây (tree bagging) theo cách xây dựng
các cây trên tập con dữ liệu ngẫu nhiên và sau đó mở rộng thêm bằng cách lấy thêm
tập con đặc trưng ngẫu nhiên.
Giả sử có tập dữ liệu huấn luyện gồm N mẫu input vector {x1, x2,...,xN}, với
các giá trị nhãn tương ứng là {t1,,tN}, thuật toán tree bagging sẽ thực hiện quá
trình lặp xây dựng các cây từ các mẫu huấn luyện được chọn ngẫu nhiên. Sau khi
các cây được xây dựng xong, việc dự đoán kết quả của dữ liệu mới được tính trung
bình từ các dự đoán của các mô hình cây xây dựng được (hoặc thông qua chọn theo
đa số).
(2.8)
Trong đó, B là số lần lặp, fb là cây ở bước b, x’ là mẫu dữ liệu mới.
RF cải tiến thuật toán trên ở chỗ mỗi lần xây dựng cây trên tập con dữ liệu
ngẫu nhiên, thuật toán này tiếp tục lựa chọn một tập ngẫu nhiên các đặc trưng từ bộ
đặc trưng ban đầu. Số đặc trưng được lựa chọn là tùy ý, tuy nhiên, số đặc trưng điển
hình cho bài toán phân loại với p đặc trưng ban đầu là trong khi với bài toán hồi
quy thì là p/3.
3) BN (Bayesian Networks) – Mạng Bayes
BN là một mô hình xác suất dạng đồ thị biểu thị sự phụ thuộc thống kê trên
một tập hợp các biến ngẫu nghiên. Đây cũng là thuật toán được sử dụng khá phổ
biến trong xây dựng các mô hình học máy [98].
Giả sử cho 1 tập các biến Xi, i {1,,N}. Một mạng Bayes là một đồ thị có
hướng phi chu trình, trong đó các nút biểu diễn các biến và các cạnh biểu diễn các
quan hệ phụ thuộc thống kê giữa các biến và phân phối xác suất địa phương cho
mỗi giá trị nếu cho trước giá trị của các cha của nó. Nếu tập hợp các biến cha của Xi
54
là parents(Xi) thì phân phối có điều kiện phụ thuộc của các biến là tích của các phân
phối địa phương:
(2.9)
4) Các phương pháp lựa chọn đặc trưng
Các phương pháp lựa chọn đặc trưng (Feature Selection – FS) được sử dụng
trong nghiên cứu này bao gồm phương pháp dựa trên độ lợi thông tin (Information
Gain - IG), χ2 (Chi-Square - CS), và dựa trên độ tương quan (Correlation – Corr).
Information Gain sử dụng cách đo độ quan trọng của mỗi đặc trưng trong việc
phân biệt các lớp phân loại và đã được ứng dụng trong nhiều nghiên cứu trước đây
và cho kết quả tốt. Chi-Square là phép thử có thể đánh giá sự độc lập của hai biến
trong thống kê, và được sử dụng để đo mức độ độc lập giữa một đặc trưng và lớp
phân loại. Trong khi đó, phương pháp Correlation sử dụng độ đo tương tự giữa các
đặc trưng với nhau và với lớp phân loại để đánh giá tập đặc trưng tốt [29].
Với mỗi thuật toán, 5 tập con đặc trưng được tiến hành thực nghiệm để đánh
giá hiệu quả của các thuật toán và tập đặc trưng.
2.2.3.2 Kết quả và đánh giá
Các thực nghiệm được thực hiện cho bốn đặc điểm của tác giả bài viết như đã
đề cập ở trên, sử dụng công cụ Weka. Kết quả cũng được đánh giá bằng phương
pháp kiểm chứng chéo 10-fold và độ đo chính xác (accuracy) như ở nghiên cứu
trước.
Bảng 2.4 cho biết kết quả của các thực nghiệm nhận diện đặc điểm tác giả theo
cả bốn mặt đặc điểm.
55
Bảng 2.4. Kết quả thực nghiệm sử dụng các đặc trưng nâng cao
(a) Đặc điểm giới tính
Loại đặc trưng FS RF SVM BN
Cơ bản (từ nghiên cứu trước) - 81.25 82.94 77.17
Từ nội dung IG 88.53 89.97 87.58
Từ ngoài từ điển - 72.68 73.18 69.89
Cặp ghép n từ loại IG 67.54 69.34 64.45
Kết hợp cơ bản - từ nội dung IG 89.30 90.47 87.35
Kết hợp cơ bản - từ ngoài từ điển - 85.03 86.23 80.11
Kết hợp cơ bản - cặp ghép n từ loại IG 81.30 82.20 77.20
Kết hợp tất cả đặc trưng IG 89.40 90.50 87.43
(b) Đặc điểm độ tuổi
Loại đặc trưng FS RF SVM BN
Cơ bản (từ nghiên cứu trước) - 61.94 62.14 56.17
Từ nội dung IG 61.22 61.74 62.55
Từ ngoài từ điển - 60.56 61.21 59.84
Cặp ghép n từ loại IG 54.20 54.27 52.12
Kết hợp cơ bản - từ nội dung IG 63.54 63.96 63.92
Kết hợp cơ bản - từ ngoài từ điển - 64.24 64.91 60.89
Kết hợp cơ bản - cặp ghép n từ loại CS 61.88 62.07 56.10
Kết hợp tất cả đặc trưng IG 63.64 64.05 64.14
56
(c) Đặc điểm vùng miền
Loại đặc trưng FS RF SVM BN
Cơ bản (từ nghiên cứu trước) - 70.22 70.39 66.99
Từ nội dung IG 79.23 79.39 75.01
Từ ngoài từ điển - 67.28 67.62 68.07
Cặp ghép n từ loại IG 62.21 62.78 60.36
Kết hợp cơ bản - từ nội dung IG 79.90 80.06 74.54
Kết hợp cơ bản - từ ngoài từ điển - 75.05 75.72 70.31
Kết hợp cơ bản - cặp ghép n từ loại IG 62.12 62.54 60.21
Kết hợp tất cả đặc trưng IG 79.96 80.09 74.61
(d) Đặc điểm nghề nghiệp
Loại đặc trưng FS RF SVM BN
Cơ bản (từ nghiên cứu trước) - 51.60 51.77 46.44
Từ nội dung IG 55.32 55.38 51.34
Từ ngoài từ điển - 44.41 44.70 40.60
Cặp ghép n từ loại IG 43.70 44.26 40.12
Kết hợp cơ bản - từ nội dung IG 56.41 56.98 50.65
Kết hợp cơ bản - từ ngoài từ điển - 51.81 51.95 45.29
Kết hợp cơ bản - cặp ghép n từ loại CS 43.56 44.02 40.05
Kết hợp tất cả đặc trưng IG 56.50 57.02 50.70
57
Từ các kết quả thực nghiệm trong bảng 2.4, có thể nhận thấy các đặc trưng
dựa trên nội dung có kết quả vượt trội hơn so với các đặc trưng cơ bản và các loại
đặc trưng khác khi sử dụng riêng rẽ. Mặc dù các đặc trưng dựa trên nội dung thường
được xem có tính phụ thuộc vào lĩnh vực ở một mức độ nhất định và có thể làm
giảm độ chính xác khi chuyển qua ứng dụng trên lĩnh vực khác, với độ chính xác
tăng trung bình từ 5-9% so với các đặc trưng cơ bản, các kết quả trên vẫn có nhiều
triển vọng khi được ứng dụng trong cùng lĩnh vực hoặc lĩnh vực tương tự. Hơn nữa,
với thời gian huấn luyện khoảng 3-5 giây (với thuật toán SMO và 600 đặc trưng),
mô hình phân loại hoàn toàn có thể nhanh chóng được xây dựng lại trên tập dữ liệu
mới và đáp ứng được các ứng dụng với thời gian thực. Các từ ngoài từ điển có kết
quả chưa tốt khi sử dụng riêng rẽ, tuy nhiên khi kết hợp với các đặc trưng cơ bản
cho kết quả tốt hơn so với việc sử dụng các đặc trưng cơ bản riêng rẽ. Các đặc trưng
cặp ghép 2 và 3 từ loại cho kết quả hạn chế, kể cả khi sử dụng riêng rẽ hoặc kết hợp
với các đặc trưng cơ bản. Kết quả này củng cố thêm cho nhận định về việc các cấu
trúc ngữ pháp khó phát huy hiệu quả nhận diện trên các bải viết ngắn và có phong
cách tự do như bài viết diễn đàn. Cuối cùng, việc kết hợp tất cả các đặc trưng cho
kết quả cao hơn các tập con khác, nhưng chỉ cao hơn không đáng kể so với các tập
con tốt nhất (bao gồm các đặc trưng nội dung riêng rẽ và tập đặc trưng cơ bản kết
hợp với đặc trưng nội dung).
Về các phương pháp phân loại, thuật toán SMO có kết quả tốt hơn hai thuật
toán còn lại trong đa số các trường hợp, trong đó thuật toán Random Forest cho kết
quả tốt hơn Bayesian Networks nhưng có thời gian chạy lâu hơn nhiều. Đây là các
kết quả hợp lý, và một lần nữa chứng minh SMO/SVM là thuật toán tốt nhất cho
việc xác định đặc điểm tác giả văn bản. Ngoài ra, trong các thuật toán lựa chọn đặc
trưng được thử nghiệm, ngoại trừ một số trường hợp ngoại lệ, thuật toán lựa chọn
dựa trên độ đo Information Gain đều cho kết quả tốt nhất.
2.2.3.3 Phân tích đặc trưng nội dung
58
Từ các kết quả ban đầu trên, chúng tôi tiến hành thực hiện phân tích sâu hơn
về các đặc trưng nội dung. Để cải tiến kết quả, các tham số của thuật toán SMO
được điều chỉnh và trong một số trường hợp đã làm tăng độ chính xác lên tới 8%
(chủ yếu với các kết quả trước đây có độ chính xác chưa cao như kết quả trên đặc
điểm độ tuổi hoặc nghề nghiệp). Quá trình thực nghiệm cho thấy thuật toán SMO
với nhân đa thức (PolyKernel) cho kết quả tốt nhất, do vậy hai tham số là c và
exponent (bậc của đa thức) được tối ưu hóa. Bảng 2.5 cho thấy kết quả nhận diện
trên thuật toán SMO sau khi đã điều chỉnh và lựa chọn tham số tốt nhất trên các tập
đặc trưng cơ bản và dựa trên nội dung.
Bảng 2.5. Kết quả trên thuật toán SMO sau khi điều chỉnh tham số
Loại đặc trưng Giới tính Độ tuổi Vùng miền Nghề nghiệp
Kết hợp cơ bản – nội dung 90.55 70.70 83.13 61.04
Cơ bản 83.47 62.76 71.22 52.46
Nội dung 90.01 70.05 82.98 60.99
Về ảnh hưởng của số lượng các đặc trưng được lựa chọn tới độ chính xác của
mô hình, các thực nghiệm với các số lượng đặc trưng khác nhau được lựa chọn bởi
thuật toán Information Gain được thực hiện (với số lượng đặc trưng nằm trong
khoảng từ 100 đến 1000). Hình 2.2 cho thấy số lượng đặc trưng mang lại kết quả tốt
nhất cho mỗi mặt đặc điểm.
Theo kết quả như trong hình 2.2, độ chính xác cao nhất khi nhận diện giới tính
đạt được khi số đặc trưng được lựa chọn là 600. Số lượng đặc trưng tốt nhất cho dự
đoán độ tuổi và vùng miền là 400, trong khi số lượng đặc trưng tốt nhất cho dự đoán
nghề nghiệp là 200. Nguyên nhân dẫn đến số lượng đặc trưng tốt nhất cho nghề
nghiệp thấp có thể từ vấn đề nhiễu trong dữ liệu nghề nghiệp và không có nhiều từ
nội dung có thể lựa chọn để phân biệt nghề nghiệp.
59
Hình 2.2. Độ chính xác nhận diện trên các số lượng đặc trưng khác nhau
Trong các đặc trưng nội dung được lựa chọn, những đặc trưng có độ quan
trọng hàng đầu được liệt kê trong bảng 2.6. Đối với những đặc điểm có hai lớp như
giới tính, vùng miền, trọng số của lớp thứ nhất sẽ mang dấu âm và của lớp thứ 2
mang dấu dương. Trọng số càng có giá trị lớn về giá trị tuyệt đối thì đặc trưng càng
quan trọng. Với các đặc điểm có hơn hai lớp như độ tuổi, nghề nghiệp, việc tính
toán trọng số được chia theo cặp, trong đó từng lớp được ghép lớp cuối cùng với
trọng số được trình bày như trong bảng.
Từ bảng 2.6, có thể thấy nam giới thường có xu hướng trao đổi về các vấn đề
công việc, thể thao, quy định, trong khi nữ giới thường nói về cuộc sống, sức khỏe,
áp lực. Những người có độ tuổi dưới 22 (học sinh/sinh viên) thường thảo luận về
học tập, hành động. Người có độ tuổi 24-27 (những người mới đi làm) thường trao
đổi về nhu cầu, du lịch. Người trung niên thường trao đổi các quan điểm về tiêu
dùng, luật pháp. Người dùng ở các vùng miền khác nhau thường sử dụng các từ địa
phương khác nhau. Trong các thực nghiệm đã thực hiện, có thể nhận thấy có một số
từ điển hình phân biệt vùng miền Bắc – Nam như trong bảng 2.6 (c). Bảng 2.6 (d)
cho thấy người làm việc trong lĩnh vực kinh doanh/bán hàng thường thích trao đổi
về lịch, cuộc hẹn, du lịch, trong khi người làm trong lĩnh vực kỹ thuật công nghệ có
Số các từ nội dung
Giới tính Tuổi Vùng miền Nghề nghiệp
60
xu hướng trao đổi về máy móc, phát triển, và người có nghề nghiệp thuộc lĩnh vực
giáo dục/y tế thường trao đổi về các vấn đề xã hội, học tập, tâm lý, từ thiện .v.v.
Bảng 2.6. Những đặc trưng nội dung (từ nội dung) quan trọng nhất
(a) Các đặc trưng nội dung quan trọng cho xác định giới tính
Nam Nữ
Đặc trưng Trọng
số
Đặc trưng Trọng
số
Đặc trưng Trọng
số
Đặc trưng Trọng
số
mục tiêu -1.35 quy định -1.18 cảm ơn 1.91 hồng 1.46
dữ liệu -1.34 máy ảnh -1.09 khách sạn 1.79 bếp 1.43
doanh nghiệp -1.32 điện tử -1.07 cưới 1.76 sữa 1.31
kỹ thuật -1.31 triển khai -1.03 bác sĩ 1.56 chia sẻ 1.27
xử lý -1.26 kiểm tra -1.02 vải 1.51 áp lực 1.18
(b) Các đặc trưng nội dung quan trọng cho xác định độ tuổi
Ít hơn 22 Từ 24 đến 27 Nhiều hơn 32
Đặc trưng Trọng số Đặc trưng Trọng số Đặc trưng Trọng số
học hỏi -1.50 nhu cầu -1.29 xài 1.24
lịch sử -1.32 triệu -1.20 luật 1.11
nguyên do -1.25 khắp nơi -0.90 quy định 0.66
hành động -1.05 lang thang -0.74 chi phí 0.62
thể thao -0.80 bỏ qua -1.03 hỗ trợ 0.58
61
(c) Các đặc trưng nội dung quan trọng cho xác định vùng miền
Bắc Nam
Đặc trưng Trọng
số
Đặc trưng Trọng
số
Đặc trưng Trọng
số
Đặc trưng Trọng
số
buổi -1.22 rẽ -0.78 máy lạnh 1.52 gởi 1.09
đỗ -1.18 quay -0.73 coi 1.51 đậu 1.04
mạch -1.05 sinh -0.70 gạt 1.48 xài 1.00
liệu -1.00 ảnh -0.65 nhơn 1.46 uổng 1.00
nộp -1.00 chịu khó -0.53 quẹo 1.35 dơ 0.91
(d) Các đặc trưng quan trọng cho xác định nghề nghiệp
Kinh doanh/Bán hàng Kỹ thuật/Công nghệ Giáo dục/Y tế
Đặc trưng Trọng số Đặc trưng Trọng số Đặc trưng Trọng số
lịch -1.64 phát triển -1.68 tâm lý 1.61
cuộc -1.62 cấu hình -1.60 hình ảnh 1.58
lang thang -1.21 kết hợp -1.53 xã hội 1.43
đến nơi -0.88 kỹ thuật -1.30 học 1.13
cung cấp -0.77 tài liệu -1.20 từ thiện 1.09
2.2.4 Kết luận
Phần này thực hiện nghiên cứu về sử dụng các đặc trưng nội dung, cùng với
các đặc trưng sâu về ngữ pháp như các cặp ghép từ loại để xác định đặc điểm tác giả
bài viết diễn đàn tiếng Việt. Kết quả thực nghiệm cho thấy các đặc trưng nội dung
cho kết quả tốt, làm tăng độ chính xác nhận diện lên đáng kể so với các đặc trưng
62
cơ bản được sử dụng trong nghiên cứu trước, trong khi các đặc trưng cặp ghép từ
loại chưa cho thấy hiệu quả. Các phân tích sâu hơn về các đặc trưng nội dung cũng
được thực hiện trong nghiên cứu, chỉ ra số lượng các từ nội dung đem lại kết quả tốt
nhất, và danh sách các từ nội dung quan trọng nhất cho các mặt đặc điểm. Các thực
nghiệm được thực hiện đã cho các kết quả có nhiều triển vọng, mặc dù một số khía
cạnh vẫn cần phải nghiên cứu cải tiến thêm như các giải pháp cho nhận diện nghề
nghiệp khi có sự thay đổi nghề nghiệp hay các kết quả dự đoán độ tuổi cũng cần
được cải tiến v.v. Kết quả thực nghiệm cũng một lần nữa chứng minh thuật toán
SVM có kết quả tốt nhất khi thực hiện xử lý văn bản.
Về các hướng phát triển tiếp theo, nghiên cứu có thể được mở rộng theo
hướng khai thác các đặc trưng của tiếng Việt về từ vựng trong xác định tác giả văn
bản cũng như khả năng trích chọn các đặc trưng nội dung tốt hơn. Ngoài ra, các
nghiên cứu sang các loại văn bản trong các lĩnh vực khác như mạng xã hội hoặc các
bình luận/đánh giá về sản phẩm/dịch vụ của người dùng cũng có nhiều triển vọng.
Dữ liệu trong các lĩnh vực này thậm chí ngắn hơn và có tính tự do hơn so với bài
viết diễn đàn và theo đó là một công việc nhiều thách thức hơn. Tuy nhiên, kết quả
của các nghiên cứu này có những ứng dụng rất thiết thực trong một số lĩnh vực như
thương mại, quảng cáo trực tuyến, phân tích thị trường v.v.
2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT
2.3.1 Giới thiệu
Cho đến thời điểm hiện nay, các nghiên cứu về xác định đặc điểm tác giả văn
bản chủ yếu khai thác và sử dụng các đặc điểm ngôn ngữ học để làm các đặc trưng
phân loại. Như đã nói ở phần trước, các đặc trưng phân loại được chia làm hai loại,
đó là đặc trưng dựa theo phong cách và đặc trưng dựa trên nội dung. Các đặc trưng
dựa trên nội dung thường cho kết quả tốt hơn, nhưng được xem là có tính đặc thù
miền (domain-specific), do các từ nội dung được chọn có thể là đặc thù trong lĩnh
vực nghiên cứu. Để làm giảm mức độ đặc thù miền
Các file đính kèm theo tài liệu này:
- luan_an_mot_so_phuong_phap_hoc_may_xac_dinh_dac_diem_nguoi_d.pdf