Luận văn Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

LỜI CẢM ƠN.i

LỜI CAM ĐOAN.i

MỤC LỤC .i

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .iv

DANH MỤC CÁC BẢNG.i

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .iii

MỞ ĐẦU .1

CHƯƠNG 1. TỔNG QUAN .5

1.1. CÁC KHÁI NIỆM CƠ BẢN .5

1.1.1. Khái niệm chung về dữ liệu lớn.5

1.1.2. Các khái niệm lưu trữ dữ liệu lớn.6

1.1.3 Các khái niệm về xử lý dữ liệu lớn.10

1.1.4. Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu.13

1.2. Hệ thống phân tích dữ liệu lớn.17

1.2.1. Công nghệ lưu trữ dữ liệu trong BigData.17

1.2.1.1. Công nghệ lưu trữ trên đĩa cứng .17

1.2.1.2. Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases).19

1.2.2. Xử lý dữ liệu trong BigData .22

1.2.2.1. Xử lý dữ liệu với mô hình Map-Reduce .22

1.2.2.2. Các tác vụ Map và Reduce.23

1.2.3. Kỹ thuật phân tích bigdata hiện nay. .25

1.3. Các BÀI TOÁN PHÂN TÍCH DỰ BÁO.28

1.3.1. Bài toán phân tích dự báo .28

1.3.2. Các mô hình dự báo cơ bản. .28

1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quyết định: .28

1.3.2.2. Mô hình dự báo Gradient Boosting.30

1.3.3. Các kỹ thuật phân tích dự báo .31

1.3.3.1. Tạo biến đặc trưng.31

1.3.3.2. Kỹ thuật lựa chọn đặc trưng .32

1.3.3.3. Huấn luyện và xác thực trong các mô hình dự báo.34

1.3.3.4. Đánh giá mô hình dự báo .35

1.3.4. Giới thiệu công cụ phân tích Rapidminer.42

CHƯƠNG 2.44

114 trang | Chia sẻ: honganh20 | Lượt xem: 533 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Luận văn Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ợc đưa vào giai đoạn trích chọn thuộc tính (feature selection) - đây mới là giai đoạn nhằm mục đích giảm tính chiều của không gian thuộc tính. Mặc dù quá trình tạo biến không phải giảm kích thước, nhưng chắc chắn phải cẩn thận để không tạo ra một số lượng lớn các thuộc tính mới [13]. Để minh họa tầm quan trọng của việc tạo biến, hãy xem xét ví dụ sau trong Bảng 1.1. Ở đây chúng ta có thể thấy thuộc tính ban đầu Date và thuộc tính phụ thuộc Visitors. Đây là hai thuộc tính biểu diễn ngày và số lượng khách truy cập tương ứng. Nếu chỉ nhìn vào các thuộc tính này, dường như không có một quan hệ rõ ràng nào để dự đoán dựa vào các thuộc tính phụ thuộc. Với thuộc tính tạo mới, chúng tôi có thể trích xuất và phân loại ngày nào, được hiển thị trong cột IsWeekendDay. Điều này cho chúng ta biết ngày đó có phải là một ngày cuối tuần hay không. Bây giờ chúng ta có thể thấy rõ ràng rằng số lượng khách truy cập vào ngày cuối tuần cao hơn đáng kể so với các ngày trong tuần. Bảng 1.1. Các thuộc tính ví dụ Ngày và Khách truy cập và thuộc tính được trích xuất IsWeek-endDayfDayg 32 Một tình huống khác mà việc tạo biến có thể cải thiện hiệu suất là khi có sự tương tác thuộc tính. Trong đó, hai (hoặc nhiều) thuộc tính không liên quan hoặc tương quan với thuộc tính phụ thuộc của riêng chúng, nhưng nếu cùng nhau chúng có ảnh hưởng (cao) đến thuộc tính phụ thuộc. Ví dụ: lấy thuộc tính giá cả và chất lượng của sản phẩm. Nếu tách biệt, họ sẽ không đưa ra nhiều dấu hiệu cho thấy một sản phẩm được mua thường xuyên. Nhưng nếu kết hợp thi chúng có mối tương quan nhiều đến việc mua sản phẩm. Nếu giá thấp và chất lượng cao, thì sản phẩm sẽ được mua thường xuyên. Tuy nhiên, giá thấp hoặc chất lượng cao mà không biết giá trị khác không thể đảm bảo rằng sản phẩm sẽ được mua thường xuyên. Nếu cả giá cả và chất lượng đều thấp thì sản phẩm sẽ không được nhiều khách hàng mua. Điều tương tự có thể được nói khi cả giá cả và chất lượng đều cao. 1.3.3.2. Kỹ thuật lựa chọn đặc trưng Lựa chọn đặc trưng (feature selection) hay còn gọi là trích chọn thuộc tính là nhiệm vụ rất quan trọng giai đoạn tiền xử lý dữ liệu khi triển khai các mô hình khai phá dữ liệu. Một vấn đề gặp phải là các dataset dùng để xây dựng các Data Mining Models thường chứa nhiều thông tin không cần thiết (thậm chí gây nhiễu) cho việc xây dựng mô hình. Chẳn hạn, một dataset gồm hàng trăm thuộc tính dùng để mô tả về khách hàng của một doanh nghiệp được thu thập, tuy nhiên khi xây dựng một Data mining model nào đó chỉ cần khoảng 50 thuộc tính từ hàng trăm thuộc tính đó. Nếu ta sử dụng tất cả các thuộc tính này của khách hàng để xây dựng mô hình thì ta cần nhiều CPU, nhiều bộ nhớ trong quá trình Training model, thậm chí các thuộc tính không cần thiết đó còn làm giảm độ chính xác của mô hình và gây khó khăn trong việc phát hiện tri thức [13]. Các phương pháp trích chọn thuộc tính thường tính trọng số (score) của các thuộc tính và sau đó chỉ chọn các thuộc tính có trọng số tốt nhất để sử dụng cho mô hình. Các phương pháp này cho phép bạn hiệu chỉnh ngưỡng (threshold) để lấy ra các thuộc tính có Score trên ngưỡng cho phép. Quá trình trích chọn thuộc tính luôn được thực hiện trước quá trình Training Model. 33 Có rất nhiều phương pháp để lựa chọn thuộc tính tùy thuộc vào cấu trúc của dữ liệu dùng cho mô hình và thuật toán được dùng để xây dựng mô hình. Sau đây là một số phương pháp phổ biến dùng trong trích chọn thuộc tính: - Interestingness score: Được sử dụng để xếp hạng (rank) các thuộc tính đối với các thuộc tính có kiểu dữ liệu liên tục (continuous). Một thuộc tính được xem là Interesting nếu nó mang một vài thông tin hữu ích. Để đo lường mức độ interestingness, người ta thường dựa vào entropy. Một thuộc tính với phân bố ngẫu nhiên có entropy cao hơn và có information gain (độ lợi thông tin) thấp hơn vì vậy các thuộc tính đó gọi là less interesting. Entropy của một thuộc tính nào đó sẽ được so sánh với entropy của tất cả các thuộc tính còn lại theo công thức sau: Interestingness(Attr) = - (m - Entropy(Attr))*(m - Entropy(Attr)) Trong đó: Attr = Attribute là thuộc tính, m được gọi là entropy trung tâm (Central entropy- entropy của toàn bộ tập thuộc tính) - Shannon's Entropy: Được sử dụng đối với các dữ liệu kiểu rời rạc (discretized data). Shannon's entropy đo lường độ bất định (uncertainty) của biến ngẫu nhiên đối với một kết quả cụ thể (particular outcome). Ví dụ, entropy của việc tung một đồng xu có thể biểu diễn bằng một hàm của xác suất của khả năng xuất hiện mặt sấp hay ngửa. Shannon's entropy được tính theo công thức sau: H(X) = -∑ P(xi) log(P(xi)) Ngoài interestingness score và Shannon's entropy, một số phương pháp khác cũng thường được sử dụng trong lựa chọn thuộc tính như Bayesian with K2 Prior, Bayesian Dirichlet Equivalent with Uniform Prior. Bảng 1.2 dưới đây là các phương pháp trích chọn thuộc tính được triển khai. Bảng 1.2. Các phương pháp trích chọn thuộc tính 34 1.3.3.3. Huấn luyện và xác thực trong các mô hình dự báo Phân chia training set/validation set là một trong những bước quan trọng nhất của một mô hình dự báo. Để làm điều này chúng ta thường sử dụng các thư việc có sẵn để phân chia ngẫu nhiên 2 tập dữ liệu này dựa trên một tỉ lệ nào đó. * Vai trò của mô hình và từng tập dữ liệu: Hình 1.26. Vai trò của mô hình và từng tập dữ liệu - Training set Training set bao gồm dữ liệu đầu vào và nhãn. Với training set, mô hình có thể nhìn thấy cả dữ liệu và nhãn. Nó sử dụng dữ liệu này để tối ưu loss function thông qua việc điều chỉnh parameter. - Validation set Validation set cũng có dữ liệu giống như traning set. Nhưng mô hình không hề nhìn thấy nhãn. Mô hình đơn thuần dùng dữ liệu đầu vào của validation set để tính toán ra output. Sau đó nó so sánh với nhãn để tính loss function. Parameter hoàn toàn không được điều chỉnh ở bước này. Validation set là bộ dữ liệu để chúng ta giám sát mô hình. Chúng ta sử dụng kết quả của mô hình ở training set và validation set để đưa ra các quyết định như điều chỉnh hyperparameter, bổ sung thêm dữ liệu... Mô hình cần phải dự đoán tốt ở validation set. Tức là nó phải làm tốt với những dữ liệu mà nó chưa từng nhìn thấy. - Test set Test set chỉ có dữ liệu đầu vào mà không có nhãn. Nó giống như những dữ liệu đến từ tương lai mà cả mô hình và chúng ta đều không biết được kết quả. Hiệu quả của mô hình khi dự đoán test set là thước đo xem mô hình có thực sự tốt trong thực tế hay không. Nếu mô hình chỉ làm tốt ở training set và validaiton set mà không tốt ở test set thì việc sử dụng mô hình trong thực tế không có nhiều ý nghĩa. 35 1.3.3.4. Đánh giá mô hình dự báo Làm gì cũng vậy, đều có công đoạn mang tên là đánh giá. Dự báo cũng không có ngoại lệ, khi xây dựng mô hình(model) có rất nhiều mô hình ta có thể sử dụng. Câu hỏi đặt ra là model này có tốt không. Một model tốt sẽ cho kết quả chính xác khi dự đoán kết quả với dữ liệu mới. Nên việc đánh giá model là một bước rất quan trọng để có thể xác định model có thể sử dụng được không. Từ đó có thể tiếp tục tiến hành điều chỉnh tham số (tuning parameter), chọn lựa lại thuộc tính (feature selection) hay sử dụng mô hình khác Không có model nào là tốt nhất với tất cả các hoàn cảnh, nó phụ thuộc vào đặc trưng của model, đặc trưng của dữ liệu, nên việc thử data của mình trên nhiều loại model là cần thiết. Để đánh giá mô hình, có 2 khái niệm rất quan trọng chính là Overfitting và Underfit. * Khái niệm Overfitting, Underfitting: Hình 1.27. Overfitting, Underfitting Như trên hình 1.27 (bài toán đang phân loại O và X), bạn có thể dùng mô hình Logistic Regression để giải quyết. Theo thứ tự từ trái sang phải lần lượt là ví dụ về Underfitting, bình thường và Overfitting. - Trong trường hợp Underfitting, model quá đơn giản nên rất nhiều X không được phân loại nên độ chính xác ngay cả trên tập Training Data rất tệ. - Ngược lại với trường hợp Overfitting thì khi nhìn vào hình, bạn có thể thấy model lại quá phức tạp, mô tả cả noise data (2 dấu X nằm trong phần O) nên độ chính xác trên tập Training là 100% nhưng thực tế với data mới (không có trong tập Training Data) thì độ chính xác rất tồi tệ. Do vậy 1 model lý tưởng là model không quá đơn giản, không quá phức tạp và không dễ bị ảnh hưởng do nhiễu. 36 * Phương pháp đánh giá Cross Validation: Đầu tiên phải kể đến phương pháp cross validation, được đánh giá là phương pháp nổi tiếng nhất. Thông thường chúng ta chia data thành 2 phần, Training Data và Test Data. Tiến hành dùng Training Data để tạo model, dùng Test Data để dự đoán rồi xác định tỷ lệ đoán thành công. Thông thường tỷ lệ khi chia data Training: Test = 70:30 Tuy nhiên, có trường hợp một model cho cross validation tốt nhưng áp dụng với data mới thì kết quả lại không được như ý muốn. Giả dụ trường hợp Overfitting, là hiện tượng mô hình tìm được quá khớp với dữ liệu training. Khớp quá nên mô hình có xu hướng mô tả cả nhiễu, thành ra khi cho test data vào toạch vô số kể. Thường xảy ra khi lượng data quá nhỏ so với độ phức tạp của model. Độ phức tạp của mô hình có thể được coi là bậc của đa thức cần tìm. Tóm lại, việc chia data làm 2 phần Training Data và Test Data thì vẫn chưa thể đưa ra kết luận chính xác cho model được. Vậy nên chúng ta khắc phục bằng cách sau:  Ở bước chia dữ liệu, không chỉ chia làm 2 phần Training, Test mà chia thêm 1 phần là cross validation. Tỷ lệ thông thường: 60:20:20.  Sử dụng Training Data để tìm tham số và tạo mô hình.  Sử dụng Cross validation để đánh giá độ chính xác của mô hình. Nếu độ chính xác thấp, điều chỉnh tham số để nâng cao độ chính xác của mô hình.  Sau khi thu được mô hình cuối cùng thì tiến hành đánh giá độ chính xác với Test data. * Phương pháp sử dụng Precision & Recall (Confusion Matrix): Cách đánh giá này thường được áp dụng cho các bài toán phân lớp có hai lớp dữ liệu. Cụ thể hơn, trong hai lớp dữ liệu này có một lớp nghiêm trọng hơn lớp kia và cần được dự đoán chính xác. Hình 1.28. Confusion Matrix 37 Một ví dụ như việc xác định mail spam, việc nhầm mail quan trọng thành mail spam nguy hiểm hơn là bỏ sót mail spam. Trong những bài toán này, người ta thường định nghĩa lớp dữ liệu quan trọng cần được xác định đúng là lớp Positive (P-dương tính), lớp còn lại được gọi là Negative (N-âm tính). Ta định nghĩa True Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) dựa trên confusion matrix như trên. Tỷ lệ chính xác (Precision) và tỷ lệ tái hiện (Recall) được tính theo công thức: Trong đó, tỷ lệ chính xác (Precision) và tỷ lệ tái hiện (Recall) có giá trị càng cao, các tốt [17]. * Phương pháp đánh giá Bias & Variance: Như đã đề cập, một mô hình lý tưởng là mô hình có cả Training Set, Cross Validation Set, Test Set có độ lỗi thấp. Lúc này mô hình được xem là Underfit hay còn gọi là High Bias. Trường hợp mô hình có Training Set lỗi thấp nhưng trên Cross Validation, Test Set lỗi lớn thì được gọi là Overfit hoặc High variance. Lỗi của một mô hình được tính theo công thức sau: Trong đó, hθ(x) là giá trị dự báo, m là số data samples, θ là tham số (parameter) để training, y là giá trị thực tế tại các data point. Bài toán đặt ra ở đây là tìm kiếm giá trị tham số θ sao cho J(θ) nhỏ nhất nhưng để không xảy ra tình trạng Overfitting. Để thực hiện chúng ta sẽ sử dụng thêm tham số chuẩn hóa λ (regularization parameter) đưa vào công thức sau: Bằng cách này sẽ tránh được trường hợp giá trị θ lớn sẽ khó tìm được J(θ) nhỏ nhất, sẽ tránh được overfitting (high variance). Câu hỏi đặt ra là lựa chọn λ như thế nào là hợp lý? Với câu hỏi trên, giả sử trục tung là độ lỗi, trục hoành là λ, biểu diễn trên đồ thị ta sẽ được câu trả lời. 38 Hình 1.29. Phương pháp Bias & Variance Do λ nhỏ quá thì sẽ bị overfitting (high variance), Jtrain(θ) của Training Data sẽ nhỏ, độ lỗi Jcv của Cross Validation Set trở nên lớn. Ngược lại λ lớn quá model sẽ bị Underfit hoặc high bias. Cả 2 độ lỗi của Training Data, Cross Validation Set sẽ cùng trở nên lớn. Do vậy chọn λ tại điểm khoanh đỏ sẽ cho JCV(θ) nhỏ nhất. Tóm lại, qua các phân tích nói trên để tránh được các hiện tượng Underfitting và Overfitting, chúng ta có những phương pháp sau: Phương pháp khắc phục Underfitting (High bias):  Tìm kiếm biến đặc trưng (feature) khác.  Thêm vào các đặc trưng dạng (x21, x22, x1x2)  Giảm tham số chuẩn hóa λ. Phương pháp khắc phục Overfitting (High variance)  Tăng số lượng dữ liệu Training Data  Giảm số lượng biến đặc trưng (feature)  Tăng độ lớn của tham số chuẩn hóa λ Như biểu đồ trên, khi High Variance thì độ lỗi trên tập train sẽ thấp nhưng khi đó trên Test Data độ lỗi lớn chính là hiện tượng Overfitting. Ngược lại khi High Bias thì độ lỗi trên Training Data lớn và đương nhiên độ lỗi trên Test Data cũng sẽ lớn. Cũng chính là hiện tượng Underfitting [17]. * Phương pháp đường cong AUC-ROC: Trong lĩnh vực Machine Learning, việc tính toán hiệu suất của mô hình là một điều rất quan trọng. Trong các bài toán phân loại, ngoài phương pháp phổ biến là sử dụng Confusion Matrix thì còn phải nhắc đến một phương pháp rất quan trọng khác, đó là đường cong AUC – ROC [17] AUC - ROC là một phương pháp tính toán hiệu suất của một mô hình phân loại theo các ngưỡng phân loại khác nhau. Giả sử với bài toán phân loại nhị phân (2 lớp) sử dụng hồi quy logistic (logistic regression), việc chọn các ngưỡng phân loại [0...1] khác nhau sẽ ảnh hưởng đến khả năng phân loại của mô hình và ta cần 39 tính toán được mức độ ảnh hưởng của các ngưỡng. AUC là từ viết tắt của Area Under the Curve còn ROC viết tắt của Receiver Operating Characteristics. ROC là một đường cong biểu diễn xác suất và AUC biểu diễn mức độ phân loại của mô hình. AUC-ROC còn được biết đến dưới cái tên AUROC (Area Under the Receiver Operating Characteristics) [19]. Ý nghĩa của AUROC có thể diễn giải như sau: Là xác suất rằng một mẫu dương tính được lấy ngẫu nhiên sẽ được xếp hạng cao hơn một mẫu âm tính được lấy ngẫu nhiên. Biểu diễn theo công thức, ta có AUC = P(score(x+) > score(x-)). Chỉ số AUC càng cao thì mô hình càng chính xác trong việc phân loại các lớp. Hình 1.30. Phương pháp đường cong AUC-ROC Đường cong ROC biểu diễn các cặp chỉ số (TPR, FPR) tại mỗi ngưỡng với TPR là trục tục và FPR là trục hoành. Các chỉ số sử dụng trong AUC – ROC bao gồm:  TPR (True Positive Rate/Sentivity/Recall): Biểu diễn tỷ lệ phân loại chính xác các mẫu dương tính trên tất cả các mẫu dương tính, được tính theo công thức: TPR càng cao thì các mẫu dương tính càng được phân loại chính xác.  Specificity: Biểu diễn tỷ lệ phân loại chính xác các mẫu âm tính trên tất cả các mâu âm tính, được tính theo công thức:  FPR (False Positive Rate/Fall-out): Biểu diễn tỷ lệ gắn nhãn sai các mẫu âm tính thành dương tính trên tất cả các mẫu âm tính, được tính theo công thức: 40 Có thể thấy Specificity tỷ lệ nghịch với FPR. FPR càng cao thì Specificity càng giảm và số lượng các mẫu âm tính bị gắn nhãn sai càng lớn. Đây chính là các chỉ số dùng để tính toán hiệu suất phân loại của mô hình. Để hợp chúng lại thành 1 chỉ số duy nhất, ta sử dụng đường cong ROC để hiển thị từng cặp (TPR, FPR) cho các ngưỡng khác nhau với mỗi điểm trên đường cong biểu diễn 1 cặp (TPR, FPR) cho 1 ngưỡng, sau đó tính chỉ số AUC cho đường cong này. Chỉ số AUC chính là con số thể hiện hiệu suất phân loại của mô hình. Sentivity và Specificity là 2 chỉ số tỷ lệ nghịch với nhau. Khi chỉ số Sentivity tăng thì chỉ số Specificity giảm và ngược lại. Khi ta tăng ngưỡng phân loại, số lượng mẫu được gắn nhãn âm tính sẽ tăng lên, từ đó chỉ số Specificity tăng và chỉ số Sentivity giảm. Điều ngược lại cũng đúng. Vì Sentivity/TFP và FPR đều tỉ lệ nghịch với Specificity nên TFP tỷ lệ thuận với FPR. - Đánh giá mô hình qua chỉ số AUC: Như đã nói ở trên, chỉ số AUC càng gần 1 thì mô hình càng phân loại chính xác. AUC càng gần 0.5 thì hiệu suất phân loại càng tệ còn nếu gần 0 thì mô hình sẽ phân loại ngược kết quả (phân loại dương tính thành âm tính và ngược lại). Giờ ta sẽ biểu diễn các trường hợp này qua các đồ thị trong hình 1.31 – 1.34. Đường cong màu đỏ biểu diễn phân phối của các mẫu dương tính, đường cong màu xanh lá biểu diễn phân phối của các mẫu âm tính.  Trường hợp 1 - Hình 1.31: Đây là trường hợp tốt nhất. Mô hình phân loại hoàn toàn chính xác khi 2 đường cong không chồng lên nhau. Tuy nhiên trường hợp này rất khó xảy ra và chỉ tồn tại trên lý thuyết. Hình 1.31. Trường hợp tốt nhất khi 2 đường cong không chồng lên nhau.  Trường hợp 2 – Hình 1.32: Khi 2 đường cong chồng lên nhau, việc phân loại sẽ xảy ra 2 dạng lỗi đó là FP (Type 1 Error) và FN (Type 2 Error). Ta có thể thay đổi giá trị của 2 chỉ số lỗi này bằng cách thay đổi ngưỡng. Có 41 thể thấy đường cong ROC đã hạ xuống một chút, tuy nhiên nó vẫn nằm ở góc trên bên trái của đồ thị, tức là hiệu suất phân loại vẫn ổn định. Hình 1.32. Trường hợp khi 2 đường cong có chồng lên nhau.  Trường hợp 3 – Hình 1.33: Đây là trường hợp tệ nhất. Mô hình hoàn toàn không có khả năng phân loại giữa 2 lớp. Đường cong ROC ở trường hợp này là một đường thẳng tạo với Ox một góc 45 độ, biểu diễn một mô hình phân loại một cách ngẫu nhiên. Mô hình phân loại ngẫu nhiên thường được sử dụng như một đường cơ sở để so sánh giữa các mô hình. Hình 1.33. Trường hợp tệ nhất khi 2 đường cong hoàn toàn chồng lên nhau.  Trường hợp 4 - Hình 1.34: Khi AUC xâp xỉ 0, mô hình phân loại ngược hoàn toàn 2 lớp với việc phân loại âm tính thành dương tính - dương tính thành âm tính. Để sửa điều này ta chỉ cần đảo ngược đầu ra của mô hình. Hình 1.34. Trường hợp AUC xấp xỉ 0. 42 1.3.4. Giới thiệu công cụ phân tích Rapidminer Rapid Miner là một nền tảng phần mềm khoa học dữ liệu cung cấp một môi trường tích hợp để chuẩn bị dữ liệu, học máy, học sâu, khai thác văn bản và phân tích dự đoán. Đây là một trong những hệ thống mã nguồn mở hàng đầu cho khai thác dữ liệu. Chương trình được viết hoàn toàn bằng ngôn ngữ lập trình Java. Chương trình cung cấp một tùy chọn để thử xung quanh với một số lượng lớn các toán tử tùy ý có thể lồng được chi tiết trong các tệp XML và được thực hiện với sự can thiệp của người dùng đồ họa của người khai thác nhanh. Rapidminer là một mã nguồn mở, là một môi trường cho Machine learning và Data mining và được viết bằng ngôn ngữ lập trình Java. Chúng sử dụng mô hình Client/Server với máy chủ là on-premise hoặc public cloud hoặc private cloud [6]. Rapidminer cung cấp các lược đồ Learning Schemas, các mô hình và các thuật toán, và có thể được mở rộng bằng ngôn ngữ R và Python. Các thuật toán trong Data mining được chia thành 2 loại: - Thuật toán Learning được giám sát: Là các thuật toán yêu cầu đã có đầu ra Output (hoặc gọi là Label hay Target). Một số mô hình thuộc thuật toán này có thể kể đến như: Naïve Bayes, cây quyết định (Decision Tree), mạng thần kinh (Neural Networks), SVM (Support Vector Machine), mô hình hồi quy (Logistic Regression), [19]... - Thuật toán Learning không được giám sát: Là các thuật toán không bắt buộc phải biết trước đầu ra Output nhưng có thể tìm kiếm các khuôn mẫu hoặc các xu hướng mà không có Label hoặc Target, như mô hình K-Mean Clustering, Anomaly Detection, Association Mining. Với Rapidminer, có thể giúp bạn: - Tải và chuyển đổi dữ liệu (Extract, Transform, Load (ETL)) - Xử lý dữ liệu và trực quan dữ liệu - Xây dựng các mô hình dự báo và phân tích thống kê - Đánh giá và triển khai dữ liệu * Một số thuật ngữ trong Rapidminer:  Thuộc tính (Attribute): mô tả thông tin của các yếu tố trong 1 kịch bản. Thuộc tính là các cột của bảng dữ liệu. Ví dụ: giới tính, độ tuổi, phương thức thanh toán, mức độ tương tác, churn (mất khách hàng)  Tập dữ liệu (Data set): Training set được sử dụng để khám phá ra mối quan hệ và các mô hình đào tạo. Test set là dữ liệu được sử dụng để kiểm tra độ 43 chính xác và ý nghĩa của mô hình dự báo (được phát hiện bằng cách sử dụng tập huấn luyện – training set)  Exmaple: đặc trưng bới các thuộc tính của nó, một example có thể được so sánh với các example khác. Example là các dòng của một bảng dữ liệu. Ví dụ 1 tập data về customer – churn bao gồm 993 example nói cách khác là 993 dòng. Chúng được xác định bởi số dòng mà Rapidminer prepend.  Example set: bảng được tạo ra từ các attribute (column) và các example (row). Còn được gọi là data hoặc data set. Ví dụ: example set được sử dụng ở đây là customer-churn, lấy từ file excel customer-churn.xlsx  Label: thuộc tính nhận diện liên quan đến câu hỏi hiện tại. Mục tiêu là để biết hoặc tìm giá trị của thuộc tính (label’s) hoặc tìm hiểu các nguyên tắc để Đôi khi được gọi là biến mục tiêu hoặc thuộc tính mực tiêu, đây là điều kiện để đưa ra dự đoán cho các example chư được mô tả. Mỗi data set chỉ có 1 label. Ví dụ ‘churn’ là label của data customer-churn  Model (mô hình): phương pháp khai thác dữ liệu hoặc hướng dẫn dự đoán. Một mô hình giải thích các quy luật được phát hiện và (hoặc) dự đoán các tình huống ở hiện tại hoặc tương lai. Ví dụ, ban tạo ra một mô hình dự báo một khách hàng đặt hàng có hủy bỏ hay không. Mô hình sẽ trả về kết quả cho bạn là tỷ lệ người đó đặt hàng hay không.  Operator: các khổi xây dựng được nhóm lại theo chức năng, được sử dụng để tạo ra các tiến trình của Rapidminer. Một operator có cổng input và cổng output. Hành động đầu vào sẽ dẫn đến kết quả của đầu ra. Các tham số (parameter) của operator sẽ kiểm soát những hành động đó. Hiện có hơn 1500 operator trong Rapidminer. Trong hướng dẫn này, bạn sử dụng Retrieve (lấy ra tập dữ liệu) cho toán tử ‘Filter Examples’. 44 CHƯƠNG 2. PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN 2.1. CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG 2.1.1. Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay Là một ngành công nghiệp với khối lượng dữ liệu cần xử lý rất lớn, ngành công nghiệp viễn thông đã nhanh chóng phát triển từ cung cấp dịch vụ điện thoại cố định để cung cấp nhiều dịch vụ thông tin liên lạc toàn diện khác. Chúng bao gồm di động, điện thoại thông minh, truy cập Internet, email, tin nhắn văn bản, hình ảnh, máy tính và truyền dữ liệu web và các dữ liệu giao thông. Sự hội nhập của viễn thông, mạng máy tính, Internet và nhiều phương tiện truyền thông khác đã được tiến hành, thay đổi bộ mặt của viễn thông và điện toán. Điều này đã tạo ra một nhu cầu lớn về khai thác dữ liệu để giúp hiểu số liệu kinh doanh, xác định mô hình viễn thông, xác định các hoạt động gian lận, sử dụng tốt hơn các nguồn lực và cải thiện chất lượng dịch vụ [7, 8]. Hình 2.1. Các lĩnh vực phân tích dữ liệu lớn trong viễn thông. Bài toán khai thác dữ liệu trong viễn thông có điểm tương đồng với những người trong ngành công nghiệp bán lẻ. Bài toán thường gặp bao gồm xây dựng kho dữ liệu quy mô lớn, thực hiện biểu diễn đa chiều trực quan, OLAP và phân tích chuyên sâu về các xu hướng, mẫu của khách hàng và các mẫu tuần tự. Các bài toán này góp phần cải thiện kinh doanh, giảm chi phí, duy trì khách hàng, phân tích gian lận và tìm hiểu về đối thủ cạnh tranh. Có rất nhiều bài toán phân tích dữ 45 liệu lớn cùng với các công cụ khai thác dữ liệu cho viễn thông đã được biết đến và sẽ đóng vai trò ngày càng quan trọng trong kinh doanh ngày nay. Một số bài toán cụ thể như sau [7, 12]: - Quản lý trải nghiệm khách hàng (Customer Experience Mgmt): - Giám sát, quản lý và tối ưu mạng lưới (Network OAM) - Phân tích hoạt động (Operation Analytics). - Kiếm tiền từ dữ liệu (Data Monetization) Hình 2.2. Mức độ ứng dụng phân tích dữ liệu lớn trong viễn thông. Source: Heavy Reading Survey - Thought Leadership Council (n=12), Nov.2017 2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) Quản lý trải nghiệm khách hàng là quá trình quản lý tất cả các điểm tiếp xúc với khách hàng nhằm đảm bảo mối quan hệ tích cực giữa khách hàng với thương hiệu. CEM được hiểu là việc “chủ động thiết kế và quản trị tất cả các trải nghiệm khách hàng từ các trải nghiệm về thương hiệu, trải n

Các file đính kèm theo tài liệu này:

luan_van_to_chuc_va_tich_hop_he_thong_phan_tich_du_lieu_lon.pdf