Tóm tắt Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet - Dương Trần Đức

SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG

Trong phần này, các nghiên cứu về sử dụng các đặc trưng

nâng cao hơn được thực hiện, trong đó các đặc trưng liên quan đến từ

vựng như các từ nội dung được khai thác sâu hơn sau khi có kết quả

khả quan của các đặc trưng loại này trong nghiên cứu ở phần 2.1.

Bên cạnh đó, các đặc trưng sâu về ngữ pháp như các cặp ghép 2 và 3

của các từ loại cũng được khảo sát thêm nhằm đánh giá tính hiệu quả

của loại đặc trưng ngữ pháp trên các văn bản ngắn và phong cách tự

do như bài viết diễn đàn.

Các thuật toán học máy được sử dụng trong nghiên cứu này

được lựa chọn từ các thuật toán cho kết quả tốt trong bước trước và

thuộc các nhóm khác nhau (các thuật toán nổi bật nhất của các

nhóm). Cụ thể, có ba thuật toán tiếp tục được thực nghiệm gồm thuật

toán SVM/SMO thuộc nhóm functions, thuật toán Bayesian

Networks thuộc nhóm bayes, và thuật toán Random Forest thuộc

nhóm trees.11

Trong nghiên cứu này, các thực nghiệm được tiến hành trên

tập dữ liệu bài viết diễn đàn được sử dung trong nghiên cứu trước để

tiện so sánh và đánh giá kết quả. Do vậy, các bước thu thập, xử lý dữ

liệu được thực hiện tương tự như ở phần 2.1. Ngoài ra, phương pháp

xây dựng mô hình phân loại cũng sử dụng học máy cùng với các kỹ

thuật hỗ trợ như lựa chọn đặc trưng. Do đó, phần này sẽ trình bày

chủ yếu về các đặc trưng được sử dụng trong nghiên cứu.

Các đặc trưng dựa trên nội dung (content-based features) trong

nghiên cứu này là các từ được lựa chọn từ chính tập dữ liệu huấn

luyện. Đó là các từ có thể phân biệt tốt nhất các lớp của mỗi đặc

điểm. Để chọn được các đặc trưng này, đầu tiên các từ có tần xuất sử

dụng cao nhất trong tập dữ liệu được lựa chọn (chọn riêng rẽ theo

từng lớp của mỗi đặc điểm tác giả). Sau đó, các thuật toán lựa chọn

đặc trưng được sử dụng để chọn lọc ra các đặc trưng có độ phân biệt

tốt nhất. Bên cạnh đó, khoảng 170 từ không có trong từ điển được sử

dụng trong các bài viết trong tập dữ liệu huấn luyện cũng được trích

chọn. Các đặc trưng là các cặp ghép n từ loại (POS n-grams) cũng

được trích chọn từ tập dữ liệu. Theo đó, các cặp ghép 2 và 3 của các

từ loại có tần suất xuất hiện cao nhất được chọn lựa.

Các thực nghiệm cũng được thực hiện trên các tập con đặc

trưng khác nhau như tập các từ nội dung, các từ ngoài từ điển, các

cặp ghép n từ loại, và kết hợp của các loại trên với các đặc trưng cơ

bản, nhằm mục đích đánh giá hiệu suất của từng loại. Các thuật toán

học máy được sử dụng trong nghiên cứu này là các thuật toán đã cho

kết quả tốt nhất trong các nhóm ở nghiên cứu trước, bao gồm SVM,

Random Forest, và Bayesian Networks.12

28 trang | Chia sẻ: trungkhoi17 | Lượt xem: 404 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet - Dương Trần Đức, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ary invariant) và phân tích đa biến (multivariate analysis). Các phương pháp này có những hạn chế như khả năng xử lý số lượng lớn các đặc điểm hay sự ổn định trên nhiều lĩnh vực. Để giải quyết các vấn đề này, các kỹ thuật học máy đã được nghiên cứu áp dụng. Nhiều nghiên cứu về phân tích tác giả văn bản dựa trên các kỹ thuật học máy đã cho ra kết quả tốt, điển hình là các 5 thuật toán như máy véc tơ hỗ trợ (SVM - Support Vector Machine), mạng Bayes (Bayesian Networks), hay cây quyết định (Decision Trees). Tập đặc trưng có thể được xem như một phương pháp biểu diễn văn bản trên khía cạnh phong cách viết hoặc cách sử dụng từ. Đã có nhiều tập đặc trưng được thử nghiệm và được chia làm hai loại chính: đặc đặc trưng về phong cách và đặc trưng dựa trên nội dung. Đặc trưng về phong cách bao gồm các đặc điểm liên quan đến cách dùng ký tự, các tính chất từ (lexical), cách sử dụng các cấu trúc ngữ pháp (syntactic), hay về cấu trúc văn bản. Đặc trưng dựa trên nội dung bao gồm các từ nhất định hoặc các nội dung đặc biệt được sử dụng thường xuyên trong lĩnh vực đó hơn là các lĩnh vực khác. Các đặc trưng cũng có thể được phân loại thành các đặc trưng độc lập dữ liệu và phụ thuộc dữ liệu (liên quan đến quá trình xây dựng tập đặc trưng có cần tham chiếu đến tập dữ liệu hay không). Mặc dù việc lựa chọn thuật toán học máy phù hợp là một vấn đề quan trọng, các nghiên cứu trước đây cho thấy trong lĩnh vực phân tích tác giả văn bản, việc lựa chọn tập đặc trưng lại có tầm quan trọng cao hơn. Do vậy, các nghiên cứu gần đây tập trung khai thác, tìm kiếm các loại đặc trưng mới cho vấn đề phân tích tác giả văn bản. 1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH HÀNH VI Bên cạnh việc nhận diện người dùng thông qua phân tích văn bản, gần đây vấn đề nhận diện đặc điểm người dùng dựa trên phân tích hành vi cũng được quan tâm nhiều. Việc nhận diện đặc điểm 6 người dùng qua hành vi đặc biệt hữu ích khi hệ thống không có các mẫu văn bản của người dùng để có thể áp dụng các kỹ thuật phân tích văn bản, chẳng hạn trên các hệ thống thiên về quản lý hành vi như hệ thống thương mại điện tử, hệ thống mạng di động v.v. Khác với vấn đề xác định đặc điểm tác giả văn bản, các đặc trưng hành vi của người dùng trên các hệ thống là đa dạng hơn nhiều. Do vậy, các nghiên cứu trong lĩnh vực này đã sử dụng các tập đặc trưng khác nhau và phụ thuộc vào các hệ thống cụ thể. Phương pháp nhận diện chủ yếu sử dụng kỹ thuật học máy. Các nghiên cứu cũng tập trung vào việc tìm kiếm các phương pháp xây dựng tập đặc trưng hiệu quả và thử nghiệm các kỹ thuật phân tích phù hợp. 1.3 KẾT LUẬN CHƯƠNG Chương này đã trình bày các nghiên cứu, khảo sát, đánh giá về các công trình trong lĩnh vực xác định đặc điểm người dùng dựa trên phân tích văn bản và phân tích hành vi. Luận án thực hiện các nghiên cứu trên cả hai lĩnh vực này, bao gồm xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt và xác định giới tính người dùng dựa trên dữ liệu lịch sử truy cập hệ thống TMĐT. CHƯƠNG 2 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT 2.1 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN 7 Nghiên cứu này thực hiện xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt trên các đặc trưng cơ bản theo phong cách và một số thuật toán học máy phổ biến. Các đặc điểm cá nhân của tác giả bài viết được nhận diện bao gồm giới tính, độ tuổi, nghề nghiệp, và vùng miền. Các loại đặc trưng cơ bản được khảo sát trong nghiên cứu này gồm các đặc trưng dựa trên ký tự và tính chất từ, đặc trưng ngữ pháp, đặc trưng cấu trúc. Các thực nghiệm được thực hiện trên các tập con đặc trưng khác nhau để nghiên cứu sự phù hợp của từng loại đặc trưng với loại văn bản được nghiên cứu là bài viết diễn đàn tiếng Việt. Sau khi các đặc trưng được trích chọn từ tập dữ liệu đã xử lý, các thuật toán học máy được áp dụng để xây dựng mô hình phân loại. Các bước thực hiện xây dựng mô hình xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt sử dụng học máy được mô tả như trong hình 2.1. Theo đó, các bài viết diễn đàn tiếng Việt đã có thông tin về đặc điểm người viết được thu thập từ Internet thông qua mô đun Thu thập dữ liệu. Mô đun Xử lý dữ liệu tiến hành các thao tác tiền xử lý trước khi thực hiện trích chọn đặc trưng và tạo các tập dữ liệu huấn luyện tại mô đun Trích chọn đặc trưng. Cuối cùng, các bộ phân loại sẽ được xây dựng bằng các thuật toán học máy trên các tập dữ liệu tạo được. Các đặc trưng được sử dụng trong nghiên cứu này bao gồm 333 đặc trưng theo phong cách, được chia làm ba nhóm gồm các đặc trưng dựa trên từ vựng, dựa trên ngữ pháp, và dựa trên cấu trúc như đã nói ở phần trước. Các loại đặc trưng này lại được chia nhỏ hơn thành các nhóm con như đặc trưng theo ký tự, theo tính chất từ (thuộc nhóm từ vựng), đặc trưng theo loại từ, các từ chức năng (thuộc nhóm ngữ pháp). 8 Hình 2.1. Mô hình tổng quát của phương pháp Các nghiên cứu trong chương này được thực hiện trên cơ sở tập dữ liệu các bài viết chủ yếu từ diễn đàn Otofun.net.vn và bổ sung thêm các bài viết từ một số diễn đàn phổ biến khác như diễn đàn Webtretho.com, diễn đàn Tinhte.vn để đa dạng hóa nguồn dữ liệu. Sau các bước xử lý và làm sạch, tập dữ liệu thu thập được bao gồm có 6.831 bài viết từ 104 người dùng với tổng cộng có 736.252 từ và trung bình 107 từ/bài. Các bài viết được lựa chọn là các bài có ít nhất một thông tin về đặc điểm người viết, có thể dùng làm dữ liệu huấn luyện cho hệ thống. Bảng 2.2 cho thấy các thông số thông kê về tập dữ liệu huấn luyện theo diễn đàn và theo các lớp đặc điểm. Thuật toán học máy Internet Thu thập dữ liệu Xử lý dữ liệu Trích chọn đặc trưng Dữ liệu huấn luyện Dữ liệu thô Véc tơ đặc trưng Xây dựng mô hình Lựa chọn đặc trưng Bộ phân loại 9 Bảng 2.2. Thống kê về tập dữ liệu huấn luyện Đặc điểm Số bài viết Lớp đặc điểm Tỷ lệ Giới tính 4.474 Nam 54% Nữ 46% Độ tuổi 3.017 Ít hơn 22 21% Từ 24 đến 27 27% Nhiều hơn 32 52% Vùng miền 3.960 Bắc 57% Nam 43% Nghề nghiệp 3.453 Kinh doanh, bán hàng 36% Kỹ thuật, công nghệ 31% Giáo dục, y tế 33% Sau khi các đặc trưng được tính toán giá trị, có thể chuyển qua bước huấn luyện mô hình bằng các thuật toán học máy. Nhằm đánh giá và lựa chọn được các thuật toán học máy phù hợp nhất, công cụ Weka được sử dụng để tiến hành các thực nghiệm trên 10 thuật toán học máy phổ biến. Các thực nghiệm được thực hiện trên các thuật toán học máy và các tập con đặc trưng với độ đo chính xác (accuracy). Kết quả nhận diện tốt nhất của đặc điểm giới tính (82.94%), độ tuổi (62.14%), vùng miền (70.39%), nghề nghiệp (51.77%) cho thấy sự khả thi của việc áp dụng kỹ thuật học máy trong xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt. Nhóm thuật toán functions (bao gồm Logistic và SMO) đạt kết quả trung 10 bình tốt nhất trong hầu hết các trường hợp, trong đó SMO cho kết quả tốt hơn Logistic. Ngoài ra, bên cạnh tập đặc trưng đầy đủ cho kết quả tốt nhất (do khai thác được nhiều nhất các đặc trưng phân biệt các tác giả), thì các đặc trưng dựa trên từ vựng cho thấy kết quả tốt hơn các đặc trưng dựa trên ngữ pháp (kể cả các từ chức năng) trong hầu hết các trường hợp, nhất là khi sử dụng các giải thuật có kết quả tốt như SMO. Điều này có thể cho thấy đối với các loại văn bản ngắn và tự do như bài viết diễn đàn, các cấu trúc ngữ pháp có khả năng phân biệt tác giả hạn chế hơn là thói quen sử dụng từ vựng và các thành phần liên quan đến từ vựng. 2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG Trong phần này, các nghiên cứu về sử dụng các đặc trưng nâng cao hơn được thực hiện, trong đó các đặc trưng liên quan đến từ vựng như các từ nội dung được khai thác sâu hơn sau khi có kết quả khả quan của các đặc trưng loại này trong nghiên cứu ở phần 2.1. Bên cạnh đó, các đặc trưng sâu về ngữ pháp như các cặp ghép 2 và 3 của các từ loại cũng được khảo sát thêm nhằm đánh giá tính hiệu quả của loại đặc trưng ngữ pháp trên các văn bản ngắn và phong cách tự do như bài viết diễn đàn. Các thuật toán học máy được sử dụng trong nghiên cứu này được lựa chọn từ các thuật toán cho kết quả tốt trong bước trước và thuộc các nhóm khác nhau (các thuật toán nổi bật nhất của các nhóm). Cụ thể, có ba thuật toán tiếp tục được thực nghiệm gồm thuật toán SVM/SMO thuộc nhóm functions, thuật toán Bayesian Networks thuộc nhóm bayes, và thuật toán Random Forest thuộc nhóm trees. 11 Trong nghiên cứu này, các thực nghiệm được tiến hành trên tập dữ liệu bài viết diễn đàn được sử dung trong nghiên cứu trước để tiện so sánh và đánh giá kết quả. Do vậy, các bước thu thập, xử lý dữ liệu được thực hiện tương tự như ở phần 2.1. Ngoài ra, phương pháp xây dựng mô hình phân loại cũng sử dụng học máy cùng với các kỹ thuật hỗ trợ như lựa chọn đặc trưng. Do đó, phần này sẽ trình bày chủ yếu về các đặc trưng được sử dụng trong nghiên cứu. Các đặc trưng dựa trên nội dung (content-based features) trong nghiên cứu này là các từ được lựa chọn từ chính tập dữ liệu huấn luyện. Đó là các từ có thể phân biệt tốt nhất các lớp của mỗi đặc điểm. Để chọn được các đặc trưng này, đầu tiên các từ có tần xuất sử dụng cao nhất trong tập dữ liệu được lựa chọn (chọn riêng rẽ theo từng lớp của mỗi đặc điểm tác giả). Sau đó, các thuật toán lựa chọn đặc trưng được sử dụng để chọn lọc ra các đặc trưng có độ phân biệt tốt nhất. Bên cạnh đó, khoảng 170 từ không có trong từ điển được sử dụng trong các bài viết trong tập dữ liệu huấn luyện cũng được trích chọn. Các đặc trưng là các cặp ghép n từ loại (POS n-grams) cũng được trích chọn từ tập dữ liệu. Theo đó, các cặp ghép 2 và 3 của các từ loại có tần suất xuất hiện cao nhất được chọn lựa. Các thực nghiệm cũng được thực hiện trên các tập con đặc trưng khác nhau như tập các từ nội dung, các từ ngoài từ điển, các cặp ghép n từ loại, và kết hợp của các loại trên với các đặc trưng cơ bản, nhằm mục đích đánh giá hiệu suất của từng loại. Các thuật toán học máy được sử dụng trong nghiên cứu này là các thuật toán đã cho kết quả tốt nhất trong các nhóm ở nghiên cứu trước, bao gồm SVM, Random Forest, và Bayesian Networks. 12 Các kết quả thực nghiệm cho thấy các đặc trưng dựa trên nội dung có kết quả vượt trội hơn so với các đặc trưng cơ bản và các loại đặc trưng khác khi sử dụng riêng rẽ. Mặc dù các đặc trưng dựa trên nội dung thường được xem có tính phụ thuộc vào lĩnh vực ở một mức độ nhất định và có thể làm giảm độ chính xác khi chuyển qua ứng dụng trên lĩnh vực khác, với độ chính xác tăng trung bình từ 5- 9% so với các đặc trưng cơ bản, các kết quả trên vẫn có nhiều triển vọng khi được ứng dụng trong cùng lĩnh vực hoặc lĩnh vực tương tự. Hơn nữa, với thời gian huấn luyện khoảng 3-5 giây (với thuật toán SMO và 600 đặc trưng), mô hình phân loại hoàn toàn có thể nhanh chóng được xây dựng lại trên tập dữ liệu mới và đáp ứng được các ứng dụng với thời gian thực. Các từ ngoài từ điển có kết quả chưa tốt khi sử dụng riêng rẽ, tuy nhiên khi kết hợp với các đặc trưng cơ bản cho kết quả tốt hơn so với việc sử dụng các đặc trưng cơ bản riêng rẽ. Các đặc trưng cặp ghép 2 và 3 từ loại cho kết quả hạn chế, kể cả khi sử dụng riêng rẽ hoặc kết hợp với các đặc trưng cơ bản. Kết quả này củng cố thêm cho nhận định về việc các cấu trúc ngữ pháp khó phát huy hiệu quả nhận diện trên các bải viết ngắn và có phong cách tự do như bài viết diễn đàn. Cuối cùng, việc kết hợp tất cả các đặc trưng cho kết quả cao hơn các tập con khác. Về các phương pháp phân loại, thuật toán SMO có kết quả tốt hơn hai thuật toán còn lại trong đa số các trường hợp, trong đó thuật toán Random Forest cho kết quả tốt hơn Bayesian Networks nhưng có thời gian chạy lâu hơn nhiều. Phân tích sâu hơn về các đặc trưng nội dung có thể phát hiện ra một số xu hướng, chẳng hạn nam giới thường có xu hướng trao đổi về các vấn đề công việc, thể thao, quy định, trong khi nữ giới thường nói về cuộc sống, sức khỏe, áp lực. Những người có độ tuổi dưới 22 (học sinh/sinh viên) thường thảo luận về học tập, hành động. 13 Người có độ tuổi 24-27 (những người mới đi làm) thường trao đổi về nhu cầu, du lịch. Người trung niên thường trao đổi các quan điểm về tiêu dùng, luật pháp v.v. 2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT Các đặc trưng dựa trên nội dung thường cho kết quả tốt hơn, nhưng được xem là có tính đặc thù miền (domain-specific), do các từ nội dung được chọn có thể là đặc thù trong lĩnh vực nghiên cứu. Để làm giảm mức độ đặc thù miền của các đặc trưng nội dung, nghiên cứu này đề xuất một phương pháp xác định đặc điểm tác giả văn bản dựa trên loại đặc trưng mới chưa được nghiên cứu trước đây để xác định đặc điểm tác giả văn bản tiếng Việt, đó là các đặc trưng theo âm tiết và vần. Một từ tiếng Việt có thể chứa nhiều âm tiết, và một âm tiết chỉ chứa một vần. Do đó, âm tiết và vần mang ít ngữ nghĩa hơn nhiều so với các từ nội dung và khi sử dụng làm các đặc trưng phân loại sẽ có thể xem như là các đặc trưng có tính độc lập lĩnh vực hơn so với các từ nội dung. Ví dụ, từ ghép “đồng hồ” được tạo ra bởi 2 âm tiết là “đồng” và “hồ” và cả 2 âm tiết này đều cần thiết cho việc xác định ngữ nghĩa của từ. Từ ngữ nghĩa riêng rẽ của một âm tiết, trong nhiều trường hợp không thể xác định được nghĩa của từ. Ngoài ra, do các âm tiết và vần được xây dựng theo quy tắc từ vựng và ngôn ngữ mà không cần trích chọn từ tập dữ liệu, các đặc trưng này cũng có thể coi là có tính độc lập dữ liệu. Về khía cạnh hiệu năng xử lý, với khoảng 6.400 âm tiết và 450 vần được sử dụng làm đặc trưng phân loại, các thuật toán học máy phổ biến hiện nay như SVM hoàn toàn có thể xử lý mà không gặp nhiều khó khăn. 14 Nhìn chung, hầu hết các nghiên cứu trước đây đều khai thác các đặc trưng thuần phong cách hoặc các đặc trưng mang nhiều nội dung. Nghiên cứu này đề xuất phương pháp sử dụng các âm tiết và vần trong tiếng Việt làm đặc trưng nhận diện. Đây là các đặc trưng có mức độ ngữ nghĩa cao hơn các ký tự hoặc cụm ký tự ghép ngẫu nhiên, tuy nhiên mang ngữ nghĩa ít hơn nhiều so với các từ nội dung. Các đặc trưng này có thể coi như các cụm ký tự n-grams nhưng được kết hợp theo quy tắc từ vựng và ngôn ngữ thay vì kết hợp một cách ngẫu nhiên. Đến nay, chưa có nghiên cứu nào trong lĩnh vực phân tích tác giả văn bản được thực hiện trên loại đặc trưng này. Kết quả thực nghiệm cho thấy, khi sử dụng đặc trưng vần làm tăng độ chính xác lên khoảng 1-2%, trong khi sử dụng các đặc trưng âm tiết làm tăng khoảng 7% so với các đặc trưng cơ bản. Việc kết hợp đặc trưng theo phong cách và đặc trưng vần cũng như kết hợp đặc trưng phong cách và đặc trưng âm tiết làm tăng hiệu quả nhận diện lên 4%-8% tương ứng. So sánh với các từ nội dung, các đặc trưng theo âm tiết mặc dù mang ít ngữ nghĩa hơn và có tính độc lập dữ liệu hơn nhưng có kết quả nhận diện gần tương đương với các từ nội dung (đặc biệt ở đặc điểm giới tính và vùng miền). Mặc dù vẫn còn một số ngoại lệ, như các đặc trưng vần cho kết quả không tốt khi nhận diện các đặc điểm về độ tuổi và nghề nghiệp so với đặc trưng phong cách, hoặc các đặc trưng âm tiết cho kết quả kém khi nhận diện độ tuổi, có thể kết luận rằng các đặc trưng âm tiết và vần mang lại kết quả khả quan và tốt hơn đặc trưng phong cách. Hơn nữa, việc kết hợp tất cả các loại đặc trưng cho kết quả cao nhất chứng tỏ việc sử dụng các âm tiết và vần đã có những ảnh 15 hưởng tích cực tới kết quả nhận diện kể cả khi các từ nội dung được sử dụng. Bảng 2.9. Kết quả xác định đặc điểm tác giả sử dụng các đặc trưng vần và âm tiết Tập đặc trưng Giới tính Độ tuổi Nghề nghiệp Vùng miền Theo phong cách 83.47 62.76 52.46 71.22 Các vần 84.13 58.26 50.22 72.80 Âm tiết 89.98 66.24 57.43 80.38 Từ nội dung 90.01 70.05 60.99 82.98 Kết hợp phong cách và vần 86.56 60.90 54.30 75.70 Kết hợp phong cách và âm tiết 91.33 69.23 58.70 81.07 Kết hợp phong cách và nội dung 90.55 70.70 61.04 83.13 Kết hợp tất cả 91.72 71.26 61.43 84.28 2.4 KẾT LUẬN CHƯƠNG Chương này trình bày các kết quả nghiên cứu trong lĩnh vực xác định đặc điểm tác giả văn bản tiếng Việt, bao gồm nghiên cứu về 16 ứng dụng các đặc trưng cơ bản dựa theo phong cách, nghiên cứu, phân tích các đặc trưng dựa trên nội dung và nghiên cứu, đề xuất một phương pháp xác định đặc điểm tác giả dựa trên loại đặc trưng mới là âm tiết và vần trong tiếng Việt. CHƯƠNG 3 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ 3.1 PHƯƠNG PHÁP TÁI CHỌN MẪU Phần này trình bày nghiên cứu về dự đoán giới tính người dùng dựa trên dữ liệu lịch sử truy cập trên hệ thống TMĐT thông qua phương pháp tiếp cận tái chọn mẫu. Theo đó, mỗi mẫu danh sách sản phẩm được xem của một người dùng sẽ được chia tách ra làm nhiều mẫu tương ứng mỗi sản phẩm đơn lẻ. Kết quả cuối cùng sẽ được kết hợp dựa trên kết quả của các mẫu đơn lẻ này. Nghiên cứu sử dụng các thuật toán học máy thông dụng như SVM, Bayesian Networks, cây ngẫu nhiên (Random Tree) để huấn luyện và kiểm chứng mô hình trên các tập dữ liệu được cung cấp bởi tập đoàn FPT trong cuộc thi về khai phá dữ liệu trong khuôn khổ hội nghị về khai phá dữ liệu và phát hiện tri thức khu vực châu Á – Thái Bình Dương 2015 (PAKDD’15 – Pacific Asia Knowledge Discovery and Data Mining 2015). Nghiên cứu cũng tập trung vào việc sử dụng các kỹ thuật hỗ trợ để nâng cao độ chính xác cho các thuật toán học máy khi 17 xử lý vấn đề phân loại không cân bằng như tái chọn mẫu, học nhạy cảm chi phí, học kết hợp như đã nói ở trên. Tập các đặc trưng phân loại được sử dụng trong nghiên cứu này được chia làm hai loại chính: đặc trưng chung và đặc trưng dựa trên sản phẩm. Đặc trưng chung bao gồm các đặc trưng liên quan đến thời gian và tần suất của hành động xem sản phẩm. Các đặc trưng dựa trên sản phẩm bao gồm tất các cả đặc trưng liên quan đến sản phẩm và loại sản phẩm. Nghiên cứu này đề xuất một phương pháp tiếp cận đơn giản nhưng hiệu quả cho loại đặc trưng này. Trong mỗi lượt xem, người dùng có thể xem nhiều sản phẩm, tuy nhiên có nhiều người chỉ xem một sản phẩm duy nhất. Với các lượt xem có nhiều sản phẩm được xem, hệ thống sẽ tách ra làm nhiều lượt con chỉ chứa một sản phẩm được xem. Đây có thể xem như một phương pháp tái chọn mẫu, theo đó các mẫu mới cho tập dữ liệu huấn luyện được tạo ra bằng cách tách các lượt xem có nhiều sản phẩm được xem thành nhiều mẫu con chỉ có một sản phẩm được xem. Một mô hình dự đoán dựa trên học máy được xây dựng dựa trên tập dữ liệu huấn luyện này và được dùng để dự đoán đầu ra cho tất cả các dữ liệu về các lượt xem chỉ chứa một sản phẩm. Với các dữ liệu về các lượt xem chứa nhiều sản phẩm, mỗi sản phẩm sẽ được dự đoán riêng rẽ và sau đó kết quả được kết hợp lại để cho ra kết luận cuối cùng. Phương pháp kết hợp sử dụng kỹ thuật chọn đa số (voting) đơn giản: nếu số lượng nam được dự đoán nhiều hơn số lượng nữ, kết quả cuối cùng sẽ là nam và ngược lại kết quả sẽ là nữ. Ngoài ra, do tập dữ liệu huấn luyện có đặc điểm không cần bằng giữa các lớp (khoảng 80% là nữ và chỉ 20% nam), một số kỹ thuật hỗ trợ như tái chọn mẫu (resampling), học nhạy cảm chi phí (cost-sensitive 18 learning), học kết hợp (boosting) được áp dụng để nâng cao độ chính xác. Các kết quả thực nghiệm cho thấy, thuật toán Bayesian Networks cho kết quả tốt hơn so với các thuận toán còn lại, trong khi thuật toán SVM cho kết quả kém nhất. SVM được biết đến như một thuật toán phân loại tốt nhất trong nhiều trường hợp, trong đó có việc nhận diện đặc điểm cá nhân người dùng. Tuy nhiên, thuật toán này có thể không phát huy được thế mạnh khi áp dụng trên tập dữ liệu có số đặc trưng không lớn như tập dữ liệu hiện tại. Khi sử dụng Baysian Networks trên các thuật toán tái chọn mẫu khác nhau, thuật toán Resample với phương pháp tái chọn mẫu tăng cho kết quả tốt trong khi hai thuật toán còn lại là SpreadSubSample và SMOTE cho kết quả kém hơn. Khi kết hợp kỹ thuật tái chọn mẫu với các kỹ thuật hỗ trợ khác như học nhạy cảm chi phí, học kết hợp, cho thấy các kỹ thuật này đều có hiệu quả trong việc nâng cao hiệu suất của thuật toán cơ sở. Mỗi kỹ thuật giúp tăng độ chính xác lên khoảng 1-2%, trong khi kết hợp các kỹ thuật này có thể giúp tăng hiệu suất lên hơn 3%. 3.2 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIỂU DIỄN CÂY Phần này trình bày một phương pháp tiếp cận khác để giải quyết vấn đề dự đoán giới tính người dùng dựa trên dữ liệu lịch sử truy cập hệ TMĐT như ở phần 3.1. Ý tưởng của phương pháp là khai thác tối đa mối quan hệ giữa các sản phẩm/loại sản phẩm được xem trong cùng một lượt xem dựa trên một biểu diễn dạng cây của danh sách sản phẩm/loại sản phẩm. Theo đó, bên cạnh các đặc trưng cơ 19 bản như thời gian, tần suất xem, danh sách các sản phẩm/loại sản phẩm riêng rẽ, nghiên cứu này đề xuất sử dụng các đặc trưng như chuỗi các sản phẩm/loại sản phẩm được xem liên tiếp, các cặp chuyển tiếp sản phẩm/loại sản phẩm khác nhau trong cùng một lượt xem v.v. (gọi chung là các đặc trưng nâng cao). Với cấu trúc phân cấp nhiều cấp độ của danh mục sản phẩm/loại sản phẩm, chúng tôi sử dụng một phương pháp biểu diễn dạng cây để cung cấp khung nhìn tốt hơn về mối quan hệ giữa các sản phẩm/loại sản phẩm so với biểu diễn dạng liệt kê. Sau khi xây dựng được tập dữ liệu huấn luyện, các thuật toán học máy rừng ngẫu nhiên (Random Forest), máy véc tơ hỗ trợ (SVM), và mạng Bayes (Bayesian Networks) được sử dụng để xây dựng mô hình phân loại Các đặc trưng được sử dụng trong nghiên cứu này được chia làm hai loại, được gọi là các đặc trưng cơ bản và các đặc trưng nâng cao. Các đặc trưng cơ bản bao gồm các đặc trưng liên quan đến thời gian, tần suất xem sản phẩm và các đặc trưng về các sản phẩm/loại sản phẩm riêng rẽ. Các đặc trưng về thời gian và tần suất xem tương tự như ở phần 3.1. Đặc trưng về các sản phẩm/loại sản phẩm bao gồm tất cả các sản phẩm và loại sản phẩm có trong hệ thống. Để xây dựng danh mục các đặc trưng này, các mã sản phẩm/mã phân loại được trích ra từ trong tập dữ liệu và sử dụng chúng như các đặc trưng dạng số. Với mỗi sản phẩm/loại sản phẩm, thực hiện đếm số lần người dùng xem sản phẩm/loại sản phẩm đó trong lượt xem và sử dụng con số này làm giá trị của đặc trưng tương ứng. Bên cạnh các đặc trưng sản phẩm/loại sản phẩm riêng rẽ, chúng tôi đặt giả thiết rằng mối quan hệ giữa các sản phẩm/loại sản phẩm được xem trong cùng một lượt xem cũng là một yếu tố có thể 20 dùng để dự đoán giới tính người dùng. Chẳng hạn người dùng nam thường chỉ xem ít loại sản phẩm trong một lượt xem trong khi người dùng nữ có thể xem liên tiếp nhiều loại sản phẩm khác nhau. Trong file dữ liệu, danh sách các sản phẩm/loại sản phẩm đã xem trong một lượt xem được biểu thị dưới dang danh sách liệt kê như dưới đây: A00002/B00003/C00006/D19760/; A00002/B00001/C00010/D18416; A00002/B00001/C00004/D19764/;A00002/B00003/C00008/ D19761/; A00002/B00003/C00008/D08538/ Việc sử dụng danh sách liệt kê này có thể gây khó khăn cho việc trích chọn hiệu quả tất cả các thông tin về mối quan hệ giữa các sản phẩm/loại sản phẩm trong một lượt xem. Nghiên cứu này đề xuất một biểu diễn dạng cây nhằm cung cấp một khung nhìn tốt hơn về các quan hệ này. Theo biểu diễn này, loại sản phẩm ở mức chung nhất sẽ nằm ở gốc của cây, các sản phẩm cụ thể nằm ở phần lá của cây và các loại sản phẩm ở cấp độ trung gian nằm ở các tầng giữa của cây. Theo đó, danh mục sản phẩm/loại sản phẩm được biểu diễn dưới dạng danh sách liệt kê ở trên được chuyển đổi sang biểu diễn cây như trong hình 3.1. Từ biểu diễn dạng cây này, có thể dễ dàng chuyển đổi ngược trở lại biểu diễn dạng danh sách liệt kê bằng cách duyệt cây theo chiều sâu và từ trái sang phải. Ngoài ra, từ biểu diễn cây, có thể rút ra được các thông tin về quan hệ giữa các sản phẩm/loại sản phẩm bằng cách khai thác các thuộc tính của cây như các nút, các tầng, đường đi, nút kề v.v. Trong bài toán hiện tại, có thể sử dụng các thuộc tính của cây để làm đặc trưng về mối quan hệ như số nút tại mỗi tầng (số sản phẩm trong mỗi lượt xem), chuỗi các nút liên tiếp trên cùng tầng 21 (tương ứng với các chuỗi sản phẩm/loại sản phẩm được xem liền nhau trong cùng một lượt xem), cặp nút chuyển tại các tầng khác nhau (chuyển sản phẩm trong 1 lượt xem). Hình 3.1. Biểu diễn dạng cây của danh mục sản phẩm/loại sản phẩm được xem Nghiên cứu này cũng sử dụng học máy để xây dựng mô hình phân loại cùng với các kỹ thuật hỗ trợ giải quyết vấn đề không cân bằng nhóm trong phân loại như ở nghiên cứu trước. Ngoài ra, do số lượng các đặc trưng lớn (khoảng 3.500 đặc trưng), các kỹ thuật lựa chọn đặc trưng được áp dụng để giảm bớt độ phức tạp và loại bỏ đ

Các file đính kèm theo tài liệu này:

tom_tat_luan_an_mot_so_phuong_phap_hoc_may_xac_dinh_dac_diem.pdf