LỜI CẢM ƠN.ii
LỜI CAM ĐOAN. iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT.iv
DANH MỤC HÌNH VẼ.v
DANH MỤC BẢNG .vi
Chương 1: Giới thiệu khai phá dữ liệu trong lĩnh vực viễn thông .1
1.1 Giới thiệu.1
1.2 Khai phá dữ liệu trong lĩnh vực viễn thông .3
1.3 Nhóm bài toán về quản lý trải nghiệm khách hàng .4
1.4 Lựa chọn bài toán.11
Chương 2: Bài toán dự đoán khách hàng tiềm năng .12
2.1 Phát biểu bài toán dự đoán khách hàng tiềm năng.12
2.2 Phương pháp cây quyết định.13
2.3 Phương pháp SVM.15
2.4 Phương pháp kNN (k người láng giếng gần nhất).17
2.5 Phương pháp ghép nối các mô hình học máy .17
2.6 Phương pháp đánh giá.18
Chương 3: Mô hình đề xuất.20
3.1 Mô hình đề xuất.20
3.2 Tập dữ liệu và tiền xử lý dữ liệu .21
3.3 Tiền xử lý và trích xuất đặc trưng.27
Chương 4: Thực nghiệm và đánh giá .33
4.1 Môi trường và các công cụ thực nghiệm.33
4.2 Kịch bản thực nghiệm .34
4.3 Kết quả thực nghiệm và đánh giá.34
KẾT LUẬN.40
TÀI LIỆU THAM KHẢO.41
50 trang |
Chia sẻ: honganh20 | Lượt xem: 451 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
thuật dùng để
phân đoạn khách hàng được sử dụng là rời rác bằng phương pháp Bayesian
với rất nhiều đặc trưng đại diện cho thuê bao như nhân khẩu học và hành vi
thuê bao.
d) Khuyến mại mục tiêu
Mỗi nhà mạng sở hữu lượng lớn khách hàng trung thành, việc xây dựng
các thuật toán xác định sản phẩm/dịch vụ tiếp tục sử dụng của khách hàng sẽ
giúp nhà mạng đưa ra những đề xuất chính xác, tiếp tục bán được sản
phẩm/dịch vụ cho khách hàng cũ tốt hơn nhiều so với việc tìm kiếm và phát
triển trên khách hàng mới. Vì vậy việc xác định các sản phẩm/dịch vụ/gói
cước được mua cùng nhau, hoặc mua tuần tự trong một khoảng thời gian của
thuê bao dựa trên những thông tin được phân tích đưa ra các gói bán chéo
hoặc gợi ý sản phẩm mà khách hàng có thể có nhu cầu hết sức quan trọng với
mỗi nhà cung cấp dịch vụ trong thời điểm hiện tại [13, 21].
Mục đích:
- Từ dữ liệu thông tin khách hàng sử dụng dịch vụ, chúng ta đưa ra các
chiến dịch quảng cáo (sms, telesale,) đến tập khách hàng đang có
nhu cầu. Ví dụ: Khách hàng đang dùng các dòng thiết bị đời thấp
không hỗ trợ sử dụng data. Khi khách hàng có hành vi thực hiện đổi
máy điện thoại sang sử dụng smart phone, ngay lập tức nhà mạng
phát hiện được thông tin và đưa ra chương trình khuyến mại do dùng
thử data miễn phí, tạo ra khách hàng data mới, mang lại nguồn doanh
thu mới.
- Tăng doanh thu bán chéo, bán thêm các dịch vụ, nâng hiệu quả của
các chiến dịch truyền thông. Ví dụ: Từ dữ liệu thông tin khách hàng
cũ đã đang sử dụng dịch vụ internet, nhà mạng phân tích dữ liệu và
thực hiện truyền thông và đề xuất khuyến mại các gói cước truyền
hình internet.
Nhóm bài toán này giải quyết bằng nhiều kỹ thuật khác nhau như luật
liên kết, phân loại tự động, gom cụm tự động. Insani và Soemitro [13] áp
10
dụng kỹ thuật luật liên kết để xác định các nhóm dịch vụ phổ biến hay đi cùng
nhau để đưa ra các gói chiến dịch truyền thông phù hợp với nhu cầu của
khách hàng, các khách hàng có cùng tập luật hoặc đã từng mua các sản phẩm
nằm trong trong luật sẽ được gợi ý các sản phẩm tương ứng. Russell và
Lodwick [21] sử dụng phương pháp gom cụm mờ để phân tích các khách
hàng sẵn có của nhà mạng, qua đấy các đặc trưng nổi trội đại diện cho hành vi
của nhóm thuê bao hay dịch vụ sẽ được thể hiện qua các cụm cụ thể. Các
chiến dịch truyền thông sẽ tìm kiếm các thuê bao có đặc trưng tương tự với
các đặc trưng nổi trội nhằm tăng tỷ lệ chuyển đổi.
e) Dự đoán giá trị thuê bao
Nắm bắt được mức tiền tiêu dùng của khách hàng cho mỗi loại dịch vụ
có nghĩa hết sức quan trọng trong việc đưa ra các chương trình chăm sóc và
giữ chân khách hàng, vì vậy nhà mạng muốn biết khách hàng đã đóng góp
(tiêu dùng) giá trị như thế nào đối với dịch vụ trong N năm tới (3-5 năm).
Dựa trên giá trị dự đoán có thể biết được mức độ tiêu dùng dịch vụ viễn thông
của khách hàng là bao nhiêu, qua đấy đưa đến cho khách hàng những dịch vụ
phù hợp với nhu cầu tại thời điểm đấy, giúp tăng doanh thu và giữ chân được
khách hàng tiềm năng [14, 20].
Mục đích:
- Từ dữ liệu lịch sử sử dụng dịch vụ của khách hàng, xác định giá trị
của một khách hàng để bán thêm các dịch vụ khách hàng. Ví dụ:
Khách hàng VIP thường xuyên có mức tiêu dùng cao hàng tháng
trung bình 500.000. Cần có chương trình chăm sóc đặc biệt để giữ
chân khách hàng.
- Tăng doanh thu tiêu dùng gốc bằng cách xác định được giá trị thuê
bao, tập trung chăm sóc và hỗ trợ khàng hàng theo quy luật 20 – 80.
20 % số lượng khách hàng lớn nhất đem lại 80% doanh thu cho nhà
mạng.
Để giải quyết bài toán dự đoán giá trị thuê bao có hai hướng tiếp cận
chính là sử dụng kỹ thuật hồi quy và gom cụm phân tích tiêu dùng. Wang và
các cộng sự [14] áp dụng kỹ thuật mạng neural vào việc dự đoán giá trị mang
lại của khách hàng trong lĩnh vực viễn thông, mô hình sử dụng các biến dữ
11
liệu liên quan đến các đặc trưng liên quan đến tỷ lệ tăng trưởng, tỷ lệ rời dịch
vụ, tỷ lệ giữ chân khách hàng để đưa ra mô hình dự đoán giá trị mang lại của
thuê bao. Độ chính xác của mô hình dự đoán đạt 96.5% trên tập dữ liệu 12005
bản ghi. Kim và các cộng sự [20] sử dụng kỹ thuật gom cụm để gom nhóm
các thuê bao thành các tập dữ liệu có cùng nhóm giá trị, việc gom cụm dựa
trên các tiêu chí về giá trị mang lại, giá trị tiềm năng và độ trung thành của
thuê bao. Kết quả dự đoán được sinh ra theo từng cụm và là kết quả phân tích
chi tiết dựa trên mỗi cụm.
1.4 Lựa chọn bài toán
Trong phạm vi của luận văn, học viên lựa chọn giải quyết bài toán dự
đoán khách hàng tiềm năng cho các gói cước trong mạng di động, đây là
một bài có tính thời sự đối với các công ty viễn thông nói chung và với Tập
đoàn Công nghiệp – Viễn thông Quân đội Viettel nói riêng. Việc giải quyết
được bài toán với độ chính xác cao sẽ giúp tăng doanh thu và tiết kiệm chi phí
trên nhiều mảng khác nhau như:
- Doanh thu gói cước thoại
- Doanh thu gói cước sms
- Doanh thu gói cước data
- Doanh thu gói VAS
- Tiêu dùng gốc
- Giảm chi phí truyền thông
- Tránh gây khó chịu/làm phiền với thuê bao
- Giảm thuê bao rời dịch vụ
- Tăng tính trung thành của thuê bao
Bên cạnh yếu tố ứng dụng thì đây cũng là một bài toán có tính nghiên
cứu cao khi phải xử lý và phân tích một lượng dữ liệu lớn với độ mất cân
bằng cao về mặt phân bố giữa các lớp khác nhau.
Trong chương tiếp theo luận văn đi sâu vào việc phát biểu bài toán và
mô tả các kỹ thuật nhằm giải quyết bài toán.
12
Chương 2: Bài toán dự đoán khách hàng tiềm
năng
2.1 Phát biểu bài toán dự đoán khách hàng tiềm năng
Tại Việt Nam, doanh thu mang lại chủ yếu cho các nhà mạng là từ việc
bán các gói cước viễn thông như gói cước thoại, dữ liệu, tin nhắn, chỉ cần
10% số lượng thuê bao đăng ký mua một gói cước thì doanh thu mang lại
cũng lên đến hàng trăm tỷ đồng mỗi tháng cho nhà mạng. Việc tăng số lượng
người mua gói cước là mục tiêu quan trọng trong chiến lược kinh doanh của
mỗi một nhà mạng viễn thông, tuy nhiên việc tiếp cận các khách hàng đúng
mục tiêu, đúng thời điểm, không làm phiền là một bài toán phức tạp đòi hỏi
việc phân tích chuyên sâu từ các kỹ thuật khai phá dữ liệu. Với các phân tích
trên học viên đã lựa chọn bài toán dự đoán khách hàng tiềm năng cho các gói
cước là chủ đề nghiên cứu chính của luận văn. Bài toán này được phát biểu cụ
thể như sau:
Đầu vào:
- Thông tin của khách hàng bao gồm thông tin nhân khẩu học và thông
tin hành vi sử dụng dịch vụ viễn thông như số lượng cuộc gọi, tiêu
dùng hàng tháng, vị trí phát sinh cước nhiều nhất,
- Danh sách các gói cước viễn thông
Đầu ra:
- Mô hình khai phá dự đoán khách hàng có phải là khách hàng tiềm
năng hay không
Trong mô tả về bài toán trong mục 1.3.a, bài toán có hai hướng tiếp cận
giải quyết bài toán chính là phân lớp dữ liệu và luật liên kết [17, 19]. Hướng
tiếp cận dựa trên phân lớp tận dụng tốt hơn các thông tin chi tiết của thuê bao
khi đi sâu vào việc phân tích nhu cầu của khách hàng dựa trên các yếu tố về
nhân khẩu học và hành vi sử dụng dịch vụ viễn thông, trong khi hướng tiếp
cận luật liên kết chỉ sử dụng các đặc trưng về sự tương quan của các dịch vụ.
Qua các phân tích trên luận văn đánh giá hướng tiếp cận dựa trên phân lớp
phù hợp với phát biểu của bài toán hơn là tiếp cận còn lại. Luận văn sẽ giải
13
quyết bài toán này dưới dạng một bài toán phân loại dữ liệu đa lớp đơn nhãn,
với đầu ra sẽ là nhãn gói cước phù hợp nhất với khác hàng.
Trong phần tiếp theo luận văn, học viên sẽ giới thiệu một số kỹ thuật
phân lớp dữ liệu kinh điển thường được sử dụng trong các bài toán phân loại
dữ liệu viễn thông.
2.2 Phương pháp cây quyết định
Học bằng cây quyết định là phương pháp học có giám sát. Quá trình học
chính là quá trình xây dựng một cây định hướng. Nút gốc và mỗi nút trong
cây sẽ được dán một nhãn có giá trị là một từ có trong tài liệu và mỗi nhánh
xuất phát từ chúng được dán một nhãn tương ứng với giá trị của từ đó trong
tài liệu. Các lá được dán nhãn là giá trị phân loại mà ta cần thu được. Cây
quyết định được xây dựng bằng cách sử dụng chiến lược “chia để trị”. Mỗi
nút trong của cây được liên kết với một tập các trường hợp. Mỗi nút sẽ tương
ứng với một tập các ví dụ học. Gốc là toàn bộ dữ liệu học.
Hình 3: Ví dụ mô tả cây quyết định
Giải thuật học dựa trên cây quyết định hoạt động trên tập dữ liệu được
biểu diễn bằng các giá trị rời rạc, trong trường hợp dữ liệu được biểu diễn
bằng các thuộc tính có giá trị liên tục thì ta cần thực hiện các bước rời rạc
hóa. Các giải thuật phần lớn đều áp dụng cách tiếp cận tham ăn để xây dựng
cây theo chiều từ trên xuống. Tập dữ liệu huấn luyện sẽ được chia thành các
tập nhỏ hơn trong quá trình xây dựng cây chia để trị.
14
Dưới đây là mã giả của thuật toán xây dựng cây quyết định được lấy
nguồn từ tài liệu [2].
Bảng 1: Thuật toán xây dựng cây quyết định
Thuật toán xây dựng cây quyết định
Đầu vào: Tập D chứa dữ liệu huấn luyện attribute_list chứa danh sách
các thuộc tính ứng cử
Đầu ra: Cây quyết định Generate_decision_tree(D, attribute_list)
1. Tạo một nút gốc N cho cây quyết định
2. If toàn bộ dữ liệu trong D đều thuộc lớp C, return nút N là nút lá có
nhãn C
3. If attribute_list là rỗng, return nút N với nhãn là lớp xuất hiện nhiều
nhất trong D
4. splitting_attribute = attribute_selection_method(D, attribute_list)
Tìm thuộc tính phân chia tốt nhất
5. Gán cho nút N nhãn là splitting_attribute
6. attribute_list ← attribute_list \ {splitting_attribute} (loại bỏ thuộc tính
splitting_attribute khỏi attribute_list)
7. For each giá trị j của thuộc tính splitting_attribute
7.1. Gọi Dj là tập chứa các phần tử dữ liệu mà thuộc tính
splitting_attribute có giá j
7.2. If Dj là rỗng thì thêm một nút là Nj cho nút N có nhãn là nhãn phổ
biến nhất xuất hiện trong D
7.3. Else gắn cây trả về bởi Generate_decision_tree(D, attribute_list)
vào nút N
8. return N
15
Điểm quan trọng nhất trong giải thuật xây dựng cây quyết định phía
trên là hàm lựa chọn thuộc tính tốt nhất để phân chia dữ liệu. Có một số độ đo
được dùng để đánh giá “chất lượng” của các thuộc tính.
Sau khi xây dựng cây, cây này có thể chứa nhiều nhánh phản ánh sự
bất thường của dữ liệu huấn luyện. Điều này sẽ gây ra hệ quả là hiện tượng
cây thu được phù hợp trội (overfitting). Để giải quyết vấn đề này, ta có thể sử
dụng phương pháp tỉa cây để loại bỏ đi các nhánh ít tin cậy nhất.
2.3 Phương pháp SVM
Giải thuật máy vector hỗ trợ (SVMs) được giới thiệu bởi Vapnik và
cộng sự [5], dựa trên nguyên lý cực tiểu hóa rủi ro cấu trúc (Structural Risk
Minimization) trong lý thuyết thống kê. SVMs rất hiệu quả để giải quyết các
bài toán với dữ liệu có số chiều lớn như các vector biểu diễn văn bản. Ban
đầu, SVMs chỉ được thiết kế để giải quyết các bài toán phân lớp nhị phân.
Hiện nay, SVMs được đánh giá là bộ phân lớp chính xác nhất cho bài toán
phân lớp văn bản.
Xét bài toán phân lớp văn bản thành các lớp mẫu dương và mẫu âm:
D = {(xi, yi) i = 1, 2,, N, xi Rn, y = 1 }
Trong đó mẫu là các vector đối tượng được phân lớp thành các mẫu
dương và âm:
- Các mẫu dương là các mẫu xi được gán nhãn yi = 1
- Các mẫu âm là các mẫu xi được gán nhãn yi = -1
Thực chất phương pháp này là một bài toán tối ưu, mục tiêu là tìm ra
siêu phẳng quyết định H sao cho sai số phân lớp là thấp nhất. Trong trường
hợp này, tập phân lớp SVMs là mặt siêu phẳng phân tách các mẫu dương
khỏi các mẫu âm với độ chênh lệch cực đại, trong đó độ chênh lệch – còn gọi
là Lề (margin) xác định bằng khoảng cách giữa các mẫu dương và các mẫu
âm gần mặt siêu phẳng nhất. Mặt siêu phẳng này được gọi là mặt siêu phẳng
lề tối ưu.
Một siêu phẳng trong không gian có thể được biểu diễn như sau: w.x + b
= 0 trong đó w là vector trọng số, w = (w1, w2,, wn) với n là số đặc trưng, b
là độ lệch.
16
Bộ phân lớp SVMs được định nghĩa như sau: f(x) = sign(w.x + b)
Trong đó:
sign(x) = 1 nếu x 0
sign(x) = -1 nếu x < 0
Nếu f(x) = 1 thì x thuộc về lớp dương, ngược lại nó thuộc về lớp âm.
Khoảng cách từ mỗi điểm trong tập mẫu đến siêu phẳng bằng:
Mi =
||
).(
w
bw xy ii
Suy ra lề của siêu phẳng là
M =
i
min Mi =
i
min
||||
).(
w
bw xy ii
Các vector nằm trên hai siêu phẳng H1 và H2 song song với siêu phẳng
H và cách một khoảng M gọi là vector hỗ trợ (support vector).
Hình 4: Siêu phẳng H chia dữ liệu huấn luyện thành 2 lớp với khoảng
cách biên lớn nhất (các điểm gần H nhất nằm trên H1 và H2 là vector hỗ
trợ).
Bài toán tìm siêu phẳng có lề lớn nhất có thể phát biểu như một bài
toán tối ưu hóa
Mbw ,,
max M với các ràng buộc ).( bw xy ii M||w||, i = 1,, N
17
Một số hàm nhân thường dùng như:
- RBF Kernel: k(xi, xj) = exp(
2
2
2
|||| xx ji
)
- Kernel tuyến tính: k(xi, xj) = xi.xj
- Kernel đa thức: k(xi, xj) = (xiTxj + c)d
2.4 Phương pháp kNN (k người láng giếng gần nhất)
Đối với bài toán học có giám sát, có một phương pháp cục bộ đơn giản
để phân lớp đó là dùng quy tắc k – láng giềng gần nhất.
Giả sử ta có tập mẫu đã biết nhãn là D và số k cho trước. Với mỗi mẫu
đặc trưng x thuộc D, ta tìm k đối tượng trong D gần với nó nhất và gán nhãn
của lớp có nhiều phần tử nhất trong k đối tượng này. Phương pháp kNN tuy
đơn giản về giải thuật nhưng lại đòi hỏi chi phí tính toán cao.
Hình 2 được lấy từ tài liệu [1], mô tả việc áp dụng quy tắc kNN trên một
không gian đặc trưng 2 chiều với k=5 để gán nhãn cho điểm x.
Hình 5: Quy tắc k-NN trên không gian đặc trưng 2-chiều với k=5.
2.5 Phương pháp ghép nối các mô hình học máy
Phương pháp lai ghép các mô hình từ lâu đã nhận được nhiều quan tâm
từ cộng đồng nghiên cứu. Có khá nhiều tác giả đã sử dụng phương pháp này
18
cho các nghiên cứu nhằm giải quyết và cải thiện chất lượng bài toán của họ,
chẳng hạn [6, 7, 8, 9]
Liên quan tới việc áp dụng phương pháp lai ghép cho bài toán phân
lớp, nhóm các tác giả Wei Wu, Zheng Liu và Yan He đã sử dụng phương
pháp này cho bài toán phân loại lỗi của đường ống xử lý nước thải một cách
tự động [2]. Trong công trình này, nhóm tác giả đã chứng minh tính hiệu quả
của việc sử dụng phương pháp kết hợp bốn mô hình: AdaBoost, Rừng ngẫu
nhiên (Random Forest), Rừng xoay (Rotation Forest), và RotBoost trong bài
toán phát hiện tự động lỗi có thể thay thế sức người. Michiel van Wezel cùng
cộng sự [14] đưa ra cách cải thiện bài toán dự đoán trong các lựa chọn của
khách hàng sử dụng phương pháp lai ghép. Sajid Yousuf Bhat cùng cộng sự
[20] thì sử dụng phương pháp này cho bài toán phát hiện thư rác. Trong bài
báo này, tác giả đánh giá việc thực hiện một số phương pháp học kết hợp sử
dụng đặc điểm cấu trúc dựa vào nội dung của thư nhằm phát hiện thư rác trên
các trang mạng xã hội trực tuyến. Các tác giả đánh giá hiệu suất của ba bộ
phân loại bao gồm J48 (cây quyết định), IBK (kNN sử dụng k = 5 hàng xóm
gần nhất), và NaïveBayes sau đó sử dụng các kỹ thuật bagging, boosting và
stacking để đánh giá hiệu quả.
Đánh giá kết quả thu được, các học viên nhận xét rằng việc kết hợp
các bộ phân loại hỗ trợ rất nhiều trong việc cải thiện chất lượng bài toán
xác định ý định người dùng.
2.6 Phương pháp đánh giá
Việc đánh giá các thuật toán phân lớp thường sử dụng độ chính xác, độ
hồi tưởng, độ đo F-score (F1) để tính hiệu năng của mô hình học máy, trong
luận văn này các độ đo này cũng được sử dụng để đánh giá mô hình, cụ thể:
Độ hồi tưởng (Recall): Số dữ liệu do mô hình dự đoán đúng / Tổng số
dữ liệu thực tế.
Độ chính xác (Precision): Số dữ liệu do mô hình dự đoán đúng / Tổng số
dữ liệu do mô hình dự đoán ra.
F-score (F1): Độ đo hài hòa giữa độ chính xác và độ hồi tưởng.
19
Công thức: F1 = Recall +Precision
Recall ×Precision × 2
Phương pháp thường được sử dụng để đánh giá là kiểm thử chéo (cross
validation). Phương pháp này tiến hành chia ngẫu nhiên tập dữ liệu thành N
phần bằng nhau, mỗi một thực nghiệm sẽ tiến hành học trên N-1 phần và
đánh giá mô hình học trên phần còn lại. Kết quả cuối cùng sẽ được thống kê
từ N thực nghiệm ở trên.
20
Chương 3: Mô hình đề xuất
3.1 Mô hình đề xuất
Chương 2 đã trình bày các kiến thức cơ bản về các phương pháp khai
phá dữ liệu nhằm tiếp cận để giải quyết các bài toán phân tích dữ liệu viễn
thông. Tiếp thu các nghiên cứu đã có, luận văn đưa ra cách tiếp cận dựa trên
phân lớp dữ liệu để giải quyết bài toán dự đoán khách hàng tiềm năng cho các
gói cước trong mạng di động. Kỹ thuật được đề xuất dựa trên việc kết hợp
nhiều phương pháp học máy (ensemble models) cũng như việc trích xuất các
đặc trưng nổi trội cho các hành vi tiêu dùng viễn thông nhằm làm tăng độ
chính xác của mô hình dự đoán. Đây là một kỹ thuật cho phép kết quả mô
hình có thể tận dụng được các ưu điểm của các mô hình phân lớp thành phần
để cho ra hiệu quả tốt hơn so với các bộ phân lớp thành phần. Tương tư như
trong các nghiên cứu của Almana và các công sự [4] cũng như luận án của Li
[17] các bộ phân lớp thành phần cũng sử dụng các kỹ thuật kinh điển như
phân loại sử dụng cây quyết định, SVM và kNN. Mô hình phân loại được
thực hiện theo mô hình truyền thống gồm bước huấn luyện mô hình và kiểm
thử mô hình.
Hình 6: Mô hình dự đoán khách hàng tiềm năng cho các gói cước
21
Mô hình đề xuất bao gồm hai pha chính:
- Pha huấn luyện mô hình: thực hiện việc huấn luyện mô hình dự đoán
nhóm khách hàng tiềm năng bằng các kỹ thuật học máy là SVM, cây
quyết định và kNN (k người láng giềng gần nhất).
- Pha kiểm thử mô hình: pha này thực hiện việc kiểm chứng hiệu quả
của mô hình, dữ liệu kiểm thử được đưa qua các mô hình dự đoán,
kết quả dự đoán của 3 thuật toán SVM, cây quyết định và kNN sẽ
được kết hợp bằng kỹ thuật bình chọn (voting) cho ra kết quả dự
đoán cuối cùng.
3.2 Tập dữ liệu và tiền xử lý dữ liệu
Tập dữ liệu gồm 40.122 thuê bao, dữ liệu được thu thập trong 6 tháng từ
tháng 5/2018 đến tháng 10/2018, dữ liệu bao gồm 5 bảng cơ sở dữ liệu thô
với tổng số dữ liệu hơn 1 triệu dữ liệu thô được mô tả theo các trường cụ thể
trong bảng 2 dưới đây.
Bảng 2: Mô tả các trường của tập dữ liệu thuê bao
STT Trường thông tin Mô tả
A VOICE OUT Dữ liệu gọi điện
1 isdn Số thuê bao
2 from_phone_number Số điện thoại gọi thực hiện cuộc gọi
3 to_phone_number Số điện thoại nhận cuộc gọi
4 start_time Thời gian bắt đầu gọi
5 call_duration Số giây gọi
6 imei Mã định danh của máy điện thoại
7 cell_id_cl Thông tin trạm phát sóng nơi thuê bao đang
gọi hoặc nhận cuộc gọi
B CELL Thông tin các trạm
1 cell_id Mã trạm
2 province_name Tên tỉnh
22
STT Trường thông tin Mô tả
3 district_name Tên quận, huyện
C VAS PRE Dữ liệu VAS
1 isdn Số thuê bao
2 vas_service Dịch vụ VAS đăng ký
3 sta_datetime Thời gian bắt đầu đăng ký
4 tot_charge Tổng số cước đã thu đối với dịch vụ
5 description Mô tả
D TIEUDUNG PRE Dữ liệu tiêu dùng của thuê bao trả trước
1 thang_tieudung Tuổi đời thuê bao tính theo tháng
2 isdn Số thuê bao
3 tong_tdg Tổng tiêu dùng trong tháng
4 tdg_thoai Tổng tiêu dùng thoại
5 tdg_sms Tổng tiêu dùng sms
6 tdg_vas Tổng tiêu dùng VAS
7 tdg_data Tổng tiêu dùng dữ liệu data
E TIEUDUNG POST Dữ liệu tiêu dùng của thuê bao trả sau
1 thang_tieudung Tuổi đời thuê bao tính theo tháng
2 isdn Số thuê bao
3 tongpsinh Tổng cước phát sinh trong tháng
4 tongps_tru_kmdc Tổng cước phát sinh trong tháng trừ khuyến
mại
5 tdg_sms Tổng tiêu dùng thoại
6 tdg_thoai Tổng tiêu dùng sms
7 tdg_vas Tổng tiêu dùng VAS
23
STT Trường thông tin Mô tả
8 tdg_data Tổng tiêu dùng dữ liệu data
Nhãn của bài toán dự đoán tương ứng với nhãn product_code gồm 163
tên các gói cước viễn thông. Do có 153 gói cước có số lượng thuê bao đăng
ký thấp (nhỏ hơn 700 thuê bao), học viên tiến hành loại bỏ các gói cước có số
lượng thấp, dữ liệu còn 31.122 dữ liệu thuê bao với 10 nhóm gói cước.
Phân bố các gói cước được mô tả trong hình dưới đây:
Hình 7: Phân bố gói cước trong tập dữ liệu
Bảng 3: Mô tả các gói cước là nhãn dự báo
STT Gói cước Chính sách
1 TOM690
Gói cước Tom690 dành cho khách hàng ít di chuyển ra
khỏi địa bàn tỉnh/TP, với mức phí 690đ/phút - rẻ hơn
40% so với gói cước thông thường.
Cước phí được tính theo phạm vi tỉnh (zone tỉnh) và
không phân biệt giá cước nội mạng hay ngoại mạng.
*Lưu ý: giá cước áp dụng cho thuê bao hòa mạng mới
7513
4429 4409
3367 3365 2840
2185
1528
768 718
0
1000
2000
3000
4000
5000
6000
7000
8000
PHÂN BỐ GÓI CƯỚC
24
STT Gói cước Chính sách
2 TOM50
Gói cước Tomato là gói cước đại chúng nhất của
Viettel, đặc biệt dành cho nhóm khách hàng mong
muốn sử dụng điện thoại di động nhưng ít có nhu cầu
gọi mà nghe là chủ yếu. Gói cước không giới hạn thời
gian sử dụng, với mức cước hàng tháng bằng không.
Giá cước
- Giá cước thoại nội: 1590đ/p
- Giá cước thoại ngoại: 1790đ/p
- Giá cước SMS nội: 200đ/sms
- Giá cước SMS ngoại: 250đ/sms
3 TOM11
Gói cước Tomato là gói cước đại chúng nhất của
Viettel, đặc biệt dành cho nhóm khách hàng mong
muốn sử dụng điện thoại di động nhưng ít có nhu cầu
gọi mà nghe là chủ yếu. Gói cước không giới hạn thời
gian sử dụng, với mức cước hàng tháng bằng không.
Giá cước
- Giá cước thoại nội: 1590đ/p
- Giá cước thoại ngoại: 1790đ/p
- Giá cước SMS nội: 200đ/sms
- Giá cước SMS ngoại: 250đ/sms
4 POBAS
Gói cước Basic+ là gói cước trả sau thông dụng của
Viettel dành cho cá nhân.
- Giá cước gọi nội mạng: 890 đ/phút
- Giá cước gọi ngoại mạng: 990 đ/phút
- Giá cước nhắn tin nội mạng: 300 đ/tin
- Giá cước nhắn tin ngoại mạng: 350 đ/tin
25
STT Gói cước Chính sách
5 EXSTUDENT
Gói cước sinh viên là gói cước trả trước dành riêng cho
các thuê bao sinh viên của Viettel với những ưu đãi đặc
biệt và vô cùng hấp dẫn:
- Cộng 25.000đ/ tháng trong suốt thời sinh viên khi
thuê bao có tiêu dùng data tối thiểu 10.000đ trong tháng
liền trước
- Miễn phí tất cả các cuộc gọi dưới 10 phút (tối đa
1.000 phút/30 ngày) giữa các thuê bao trong cộng đồng
(là các thuê bao có đăng ký tính năng cộng đồng Sinh
viên).
- Data MimaxSV siêu khủng: chỉ 50.000đ có ngay 3GB
tốc độ cao trong 30 ngày. Hết lưu lượng tốc độ cao,
truy cập tốc độ thông thường. Soạn MIMAXSV gửi
191,bấm gọi *098# hoặc truy cập My Viettel.
- Giảm ngay 20.000đ khi đăng ký các gói data:
Mimax70, Mimax90, Mimax125, Mimax200,
Umax300. (Ngừng áp dụng giảm 20.000đ gói Umax300
cho thuê bao kích hoạt mới từ ngày 15/11/2018).
- Ưu đãi theo ngày – đăng ký KMSV5 chỉ 5.000đ/ngày
có 300SMS nội mạng, 300MB data và gọi nội mạng
giảm còn 300đ/phút. Soạn KMSV5 gửi 109, bấm gọi
*098# hoặc truy cập My Viettel.
6 ECO50
Economy là gói cước trả trước đơn giản, thuận tiện và
dễ sử dụng nhất của Viettel Telecom. Gói cước
Economy có cước thoại thấp, dành cho khách hàng cá
nhân gọi nhiều với mức sử dụng dưới 150.000 đ/tháng.
Giá cước:
- Giá cước thoại nội: 1.190 đ/p
- Giá cước thoại ngoại: 1.390 đ/p
- Giá cước SMS nội: 300đ/sms
- Giá cước SMS ngoại: 350đ/sms.
26
STT Gói cước Chính sách
7 TOMA1
Gói cước Tomato là gói cước đại chúng nhất của
Viettel, đặc biệt dành cho nhóm khách hàng mong
muốn sử dụng điện thoại di động nhưng ít có nhu cầu
gọi mà nghe là chủ yếu. Gói cước không giới hạn thời
gian sử dụng, với mức cước hàng tháng bằng không.
Giá cước
- Giá cước thoại nội: 1590đ/p
- Giá cước thoại ngoại: 1790đ/p
- Giá cước SMS nội: 200đ/sms
- Giá cước SMS ngoại: 250đ/sms
8 TOMCD
Gói cước Tomato là gói cước đại chúng nhất của
Viettel, đặc biệt dành cho nhóm khách hàng mong
muốn sử dụng điện thoại di động nhưng ít có nhu cầu
gọi mà nghe là chủ yếu. Gói cước không giới hạn thời
gian sử dụng, với mức cước hàng tháng bằng không.
Giá cước
- Giá cước thoại nội: 1590đ/p
- Giá cước thoại ngoại: 1790đ/p
- Giá cước SMS nội: 200đ/sms
- Giá cước SMS ngoại: 250đ/sms
9 ECD50
Economy là gói cước trả trước đơn giản, thuận tiện và
dễ sử dụng nhất của Viettel Telecom. Gói cước
Economy có cước thoại thấp, dành cho khách hàng cá
nhân gọi nhiều với mức sử dụng dưới 150.000 đ/tháng.
Giá cước:
- Giá cước thoại nội: 1.190 đ/p
- Giá cước thoại ngoại: 1.390 đ/p
- Giá cước SMS nội: 300đ/sms
- Giá cước SMS ngoại: 350đ/sms.
27
STT Gói cước Chính sách
10 ECOM1
Gói cước Tomato là gói cước đại chúng nhất của
Viettel, đặc biệt dành cho nhóm khách hàng mong
muốn sử dụng điện thoại di động nhưng ít có nhu cầu
gọi mà nghe là chủ yếu. Gói cước không giới hạn thời
gian sử dụng, với mức cước hàng tháng bằng không.
Giá cước
- Giá cước thoại nội: 1590đ/p
- Giá cước thoại ngoại: 1790đ/p
- Giá cước SMS nội: 200đ/sms
- Giá cước SMS ngoại: 250đ/sms
3.3 Tiền xử lý và trích xuất đặc trưng
Dữ liệu thô từ nhiều bảng dữ liệu được tổng hợp thành 37 trường thông
tin tương ứng với từng thuê bao.
Bảng 4: Bảng danh sách các trường thông tin tổng hợp kết quả
STT Thông tin Mô tả
1 sta_date Ngày bắt đầu sử d
Các file đính kèm theo tài liệu này:
- luan_van_xay_dung_mo_hinh_du_doan_khach_hang_tiem_nang_cho_c.pdf