Khai phá đồthịdữliệu (Graph mining)
Tìm ra các đồthịcon (các phần của đồthịban đầu), các cây (dữ
liệuXML) cáccấu trúc con (dữliệu Web) thường xuyên xảyra liệu XML), các cấu trúc con (dữ liệu Web) thường xuyên xảy ra
Phân tích mạng thông tin (Information network analysis)
Các mạng xã hội: các tác nhân (các đối tượng, các nút) và các 
mối quan hệ (các cạnh) q ệ( ạ )
 Vd: Mạng các tác giả(học giả) trong lĩnh vực Trí tuệnhân tạo
Các mạng hỗn tạp (khác nhau)
 Vd: Một người có thểtham gia nhiều mạng khác nhau (bạn bè, gia 
đình bạn cùng lớp/trường những người cùng sởthích nghe nhạc đình, bạn cùng lớp/trường, những người cùng sở thích nghe nhạc
Rock, )
Các liên kết (links) mang rất nhiều thông tin ngữnghĩa: Khai phá 
các liên kết (Link mining)
Kh i há W b (W b i i ) Khaiphá Web (Webmining)
WWW là một mạng thông tin khổng lồ: PageRank (Google)
Phân tích các mạng thông tin Web
Khám phá cộngđồng Web Khai phá ý kiến (Opinion mining) Khai  Khám phá cộng đồng Web, Khai phá ý kiến (Opinion mining), Khai
phá dữliệu truy cập Web (usage mining
                
              
                                            
                                
            
 
            
                 30 trang
30 trang | 
Chia sẻ: maiphuongdc | Lượt xem: 7154 | Lượt tải: 1 
              
            Bạn đang xem trước 20 trang tài liệu Bài giảng Khái phá dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Khai Phá Dữ Liệu
Nguyễn Nhật Quang
quangnn-fit@mail.hut.edu.vn
Viện Công nghệ Thông tin và Truyền thông
Trường Đại học Bách Khoa Hà Nội
Năm học 2010-2011
Nội dung môn học:
 Giới thiệu về Khai phá dữ liệu
ề Giới thiệu v công cụ WEKA
 Tiền xử lý dữ liệu
 Phát hiện các luật kết hợp
 Các kỹ thuật phân lớp và dự đoán 
 Các kỹ thuật phân nhóm
2
Khai Phá Dữ Liệu
Tại sao cần khai phá dữ liệu?
 Sự gia tăng bùng nổ của dữ liệu: Từ mức độ terabytes đến 
mức độ petabytes
Th hậ d liệ à ồ i ủ d liệ u t p ữ u v sự t n tạ c a ữ u
 Các công cụ thu thập dữ liệu tự động, các hệ thống cơ sở dữ 
liệu, World Wide Web, xã hội số
Cá ồ dữ liệ h hú c ngu n u p ong p
 Kinh doanh: Internet, thương mại điện tử, giao dịch thương 
mại, chứng khoán,…
 Khoa học: Tín hiệu cảm biến tin sinh thí nghiệm mô , , 
phỏng/giả lập,…
 Xã hội: Tin tức, máy ảnh số, các mạng xã hội
Chúng ta bị tràn ngập trong dữ liệu Nhưng lại thiếu (cần) tri – 
thức
 Khai phá dữ liệu: Giúp tự động phân tích các tập dữ liệu rất 
lớn để khám phá ra các tri thức, 
3Khai Phá Dữ Liệu
Khai phá dữ liệu – Định nghĩa
 Khai phá dữ liệu (Data mining – DM) – Khám phá tri thức 
từ dữ liệu (Knowledge discovery from data)
ẫ Là việc trích rút ra được các m u hoặc tri thức quan trọng từ một 
lượng dữ liệu (rất) lớn
 quan trọng = không tầm thường, ẩn, chưa được biết đến, và 
có thể hữu ích 
 Các tên gọi khác
 Khám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery 
in databases KDD) -
 Trích rút tri thức (Knowledge extraction)
 Phân tích mẫu/dữ liệu (Data/pattern analysis)
 …
 Khai phá dữ liệu khác với…
 Tìm kiếm thông tin (Information retrieval)
ấ ố Xử lý các câu truy v n (SQL) đ i với các cơ sở dữ liệu
4Khai Phá Dữ Liệu
DM: Lịch sử phát triển
 1989 IJCAI Workshop on Knowledge Discovery in Databases 
 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. 
Frawley, 1991)
 1991-1994 Workshops on Knowledge Discovery in Databases
 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. 
Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
 1995-1998 International Conferences on Knowledge Discovery in 
Databases and Data Mining (KDD’95-98) 
 Journal of Data Mining and Knowledge Discovery (1997)
 ACM SIGKDD conferences since 1998 and (Journal) SIGKDD Explorations
 More conferences on data mining
 PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM 
(2001), etc.
 ACM Transactions on KDD starting in 2007
5Khai Phá Dữ Liệu
Các bước của quá trình KD
1.Tìm hiểu lĩnh vực của bài toán (ứng dụng)
 Các mục đích của bài toán, các tri thức cụ thể của lĩnh vực
2.Tạo nên (thu thập) một tập dữ liệu phù hợp
3.Làm sạch và tiền xử lý dữ liệu
4.Giảm kích thước của dữ liệu, chuyển đổi dữ liệu
 Xác định các thuộc tính quan trọng, giảm số chiều (số thuộc tính), 
biểu diễn bất biến
5.Lựa chọn chức năng khai phá dữ liệu
Tóm tắt hóa (s mmari ation) phân loại/phân lớp hồi q /d u z , , uy ự 
đoán, kết hợp, phân cụm
6.Lựa chọn/Phát triển (các) giải thuật khai phá dữ liệu phù hợp
7 Tiến hành quá trình khai phá dữ liệu. 
8.Đánh giá mẫu thu được và biểu diễn tri thức
 Hiển thị hóa, chuyển đổi, bỏ đi các mẫu dư thừa, …
9 Sử dụng các tri thức được khám phá. 
6Khai Phá Dữ Liệu
Quá trình khám phá tri thức (1)
 Đây là cách nhìn của giới 
nghiên cứu về các hệ thống dữ 
liệu và kho dữ liệu 
 Khai phá dữ liệu đóng vai trò 
quan trọng trong quá trình 
khám phá tri thức
Pattern Evaluation
Task-relevant Data
Data Mining
Data Cleaning
Data Warehouse Selection
Data Integration
7Khai Phá Dữ Liệu
Databases (Han and Kamber - Data mining: Concepts and Techniques)
Quá trình khám phá tri thức (2)
(Han and Kamber - Data mining: Concepts and Techniques)
Input Data Data 
Mining
Data Pre-
Processing
Post-
Processing
Data integration
Normalization
Feature selection
Dimension reduction
Pattern discovery
Association & correlation
Classification
Clustering
Pattern evaluation
Pattern selection
Pattern interpretation
Pattern visualization
 Đây là cách nhìn của giới nghiên cứu về học máy và 
thố kê
 Outlier analysis
… … … …
ng 
8Khai Phá Dữ Liệu
Kiến trúc hệ thống khai phá dữ liệu
Graphical User Interface
Pattern Evaluation
Knowledge
Database or Data 
Data Mining Engine base
data cleaning, integration, and selection
Warehouse Server
Database Data Warehouse
World-Wide
Web
Other Info
Repositories (Han and Kamber -
Data mining: Concepts
9Khai Phá Dữ Liệu
and Techniques)
Khai phá dữ liệu cho kinh doanh
Increasing potential
to support
business decisions End User
Business
Decision
Making
Data Presentation
Analyst
Data
Analyst
Visualization Techniques
Data Mining
Information Discovery 
Data Exploration
Statistical Summary, Querying, and Reporting
DBA
Data Preprocessing/Integration, Data Warehouses
Data Sources
10Khai Phá Dữ Liệu
Paper, Files, Web documents, Scientific experiments, Database Systems
(Han and Kamber - Data mining: 
Concepts and Techniques)
DM – Các lĩnh vực liên quan
 Công nghệ cơ sở dữ liệu (Database technology)
 Giải thuật (Algorithm)
 Thống kê (Statistics)
 Học máy (Machine learning)
 Nhận dạng mẫu (Pattern recognition) 
 Hiển thị hóa (Visualization)
 Tính toán hiệu năng cao (High-performance computing)
11Khai Phá Dữ Liệu
Phân tích dữ liệu
 Lượng dữ liệu rất lớn
 Các giải thuật (phân tích dữ liệu) cần phải hoạt động tốt với 
những tập dữ liệu lên đến hàng terabytes hoặc thậm chí , 
petabytes
 Dữ liệu được biểu diễn trong không gian nhiều chiều (số 
lượng rất lớn các thuộc tính)
 Vd: Dữ liệu trong lĩnh vực tin sinh (bioinformatics) có thể được 
biểu diễn bởi hàng chục ngàn thuộc tính
 Dữ liệu có độ phức tạp (rất) cao
Cá l ồ dữ liệ à dữ liệ th hậ từ á ả biế c u ng u v u u n n c c mạng c m n
 Dữ liệu liên tục theo thời gian, dữ liệu phụ thuộc theo thời gian, 
chuỗi dữ liệu
 Dữ liệu có cấu trúc, dữ liệu dạng đồ thị, các mạng xã hội 
 Các cơ sở dữ liệu hỗn tạp
 Dữ liệu phụ thuộc không gian/thời gian, dữ liệu đa phương tiện
 Cần các chương trình (ứng dụng) phân tích dữ liệu mới, phức 
tạp hơn
12Khai Phá Dữ Liệu
DM – Nhiều cách nhìn (quan điểm)
 Dữ liệu được khai phá
 Dữ liệu quan hệ, kho dữ liệu, dữ liệu giao dịch, luồng dữ liệu, dữ 
liệ h ớ đối t dữ liệ h th ộ khô i dữ liệ liêu ư ng ượng, u p ụ u c ng g an, u n 
tục theo thời gian, dữ liệu dạng văn bản, dữ liệu đa phương tiện, 
dữ liệu hỗn tạp, dữ liệu trên WWW, …
T i thứ đ khá há r c ược m p
 Sự đặc trưng, sự phân biệt, luật kết hợp, phân lớp, phân cụm, xu 
hướng/dịch chuyển, phân tích ngoại lai (outlier)
 Các kỹ thuật được sử dụng
 Dựa trên cơ sở dữ liệu, phân tích kho dữ liệu, học máy, thống kê, 
hiển thị hóa, …
 Các ứng dụng (bài toán) thực tế
 Kinh doanh bán lẻ, viễn thông, ngân hàng, phát hiện gian lận tài 
chính, khai phá dữ liệu sinh học, phân tích thị trường chứng 
ảkhoán, khai phá văn b n, khai phá Web, …
13Khai Phá Dữ Liệu
DM – Các cách phân biệt
 Theo chức năng tổng quát
 Khai phá dữ liệu mô tả: Tìm các mẫu (mà con người có thể 
hiểu/diễn giải được) biểu diễn/mô tả dữ liệu
 Khai phá dữ liệu dự đoán: Sử dụng một số biến để dự đoán giá 
trị (chưa biết, hoặc trong tương lai) của các biến khác
 Các cách nhìn (quan điểm) khác nhau dẫn đến các cách 
phân biệt khác nhau về Khai phá dữ liệu
ể Dựa theo dữ liệu: Những ki u dữ liệu nào được khai phá?
 Dựa theo tri thức: Những kiểu tri thức nào được khám phá?
 Dựa theo phương pháp: Những kiểu kỹ thuật nào được áp dụng? 
 Dựa theo ứng dụng (bài toán): Những kiểu ứng dụng (bài toán) 
nào phù hợp để giải quyết?
14Khai Phá Dữ Liệu
DM: Khái quát hóa
 Tích hợp thông tin và xây dựng các kho dữ liệu
 Làm sạch dữ liệu, chuyển đổi dữ liệu, tích hợp dữ liệu, và mô 
hì h d liệ hiề hiề ( l i di i l d d l)n ữ u n u c u mu t - mens ona ata mo e
 Công nghệ khối dữ liệu (data cube)
ể ế ề ề Các phương pháp hiệu quả đ tính toán k t hợp nhi u chi u của 
dữ liệu
 Xử lý phân tích trực tuyến (Online analytical processing – OLAP)
 Mô tả khái niệm theo nhiều chiều: Sự đặc trưng và sự 
phân biệt
 Tổng quát hóa tóm tắt và tương phản các đặc tính của dữ liệu , , 
 Vd: Các vùng khô vs. các vùng ướt
15Khai Phá Dữ Liệu
DM: Phân tích kết hợp và tương quan
 Các mẫu hoặc các tập mục (itemsets) thường xuyên
 Những mục (sản phẩm) nào thường xuyên được mua
cùng nhau, trong siêu thị BigC?
 Kết hợp (association), tương quan (correlation), và
nguyên nhân (causality)
 Ví dụ về một luật kết hợp (association rule)
 Bánh mỳÆ Sữa [0.5%, 75%] (độ hỗ trợ – support,
độ ti ậ fid )n c y – con ence
 Các mục kết hợp ở mức cao, thì cũng tương quan ở 
mức cao?
 Làm thế nào để khám phá các mẫu (luật) như vậy trong
các tập dữ liệu lớn?
16Khai Phá Dữ Liệu
DM: Phân lớp và dự đoán
 Phân lớp (classification) và dự đoán (prediction)
 Xây dựng các mô hình (các hàm mục tiêu) dựa trên một số ví dụ 
h /h ấ l ệọc u n uy n
 Mô tả và phân biệt các lớp (các khái niệm) cho việc dự đoán trong 
tương lai
 Phân lớp các ví dụ mới hoặc dự đoán các giá trị kiểu số , 
 Các phương pháp điển hình
 Cây quyết định (Decision tree learning), Phân lớp Naïve Bayes 
(Naïve Bayes classification) Máy vectơ hỗ trợ (Support vector , 
machine), Mạng nơ-ron nhân tạo (Artificial neural networks), Học 
quy nạp luật (Rule induction), Hồi quy tuyến tính (Linear 
regression), …
 Các ứng dụng điển hình
 Phát hiện gian lận thẻ tín dụng, quảng cáo trực tiếp (phù hợp với 
từng người), phân loại/dự đoán các loại bệnh, phân loại các trang 
Web, …
17Khai Phá Dữ Liệu
DM: Phân cụm và phân tích ngoại lai
 Phân cụm (Cluster analysis)
 Phương pháp học không giám sát (unsupervised learning) –
khô ó hô i ề h lớng c t ng t n v n ãn p
 Nhóm dữ liệu lại thành các cụm (clusters)
 Nguyên tắc: Cực đại hóa sự tương tự giữa các đối tượng trong 
cùng một cụm nhưng cực tiểu hóa sự tương tự giữa các đối – 
tượng khác cụm
 Có rất nhiều phương pháp và ứng dụng (bài toán)
 Phân tích ngoại lai (Outlier analysis/detection)
 Ngoại lai (Outlier): Một đối tượng rất khác biệt với các đối tượng 
khác (trong một cụm)
Nhiễ ủ dữ liệ h là i lệ? u c a u, ay ngoạ 
 Các phương pháp: phân cụm, phân tích hồi quy, …
 Rất hữu ích trong các bài toán phát hiện gian lận (giả mạo), hoặc 
phân tích các sự kiện hiếm khi xảy ra 
18Khai Phá Dữ Liệu
DM: Phân tích xu hướng và tiến triển
 Phân tích chuỗi (sequence), xu hướng (trend), và tiến 
triển (evolution)
 Phân tích xu hướng và sự dịch chuyển (khỏi xu hướng)
 Khai phá các mẫu kiểu chuỗi (sequential patterns)
Vd: Đầu tiên mua máy ảnh số sau đó mua các thẻ nhớ SD , 
dung lượng lớn, …
 Phân tích tính chu kỳ (Periodicity analysis)
Phâ tí h h ỗi dữ liệ liê t th thời i (ti i ) à n c c u u n ục eo g an me-ser es v 
chuỗi dữ liệu sinh học
 Phân tích dựa trên sự tương tự (Similarity-based analysis)
 Khai phá các luồng dữ liệu
 Có thứ tự, thay đổi theo thời gian, có thể vô hạn, các luồng dữ 
liệu
19Khai Phá Dữ Liệu
DM: Phân tích mạng và cấu trúc
 Khai phá đồ thị dữ liệu (Graph mining)
 Tìm ra các đồ thị con (các phần của đồ thị ban đầu), các cây (dữ 
liệu XML) các cấu trúc con (dữ liệu Web) thường xuyên xảy ra , … 
 Phân tích mạng thông tin (Information network analysis)
 Các mạng xã hội: các tác nhân (các đối tượng, các nút) và các 
mối quan hệ (các cạnh)
 Vd: Mạng các tác giả (học giả) trong lĩnh vực Trí tuệ nhân tạo
 Các mạng hỗn tạp (khác nhau)
 Vd: Một người có thể tham gia nhiều mạng khác nhau (bạn bè, gia 
đình bạn cùng lớp/trường những người cùng sở thích nghe nhạc, , 
Rock,…)
 Các liên kết (links) mang rất nhiều thông tin ngữ nghĩa: Khai phá 
các liên kết (Link mining)
Kh i há W b (W b i i ) a p e e m n ng
 WWW là một mạng thông tin khổng lồ: PageRank (Google)
 Phân tích các mạng thông tin Web
Khám phá cộng đồng Web Khai phá ý kiến (Opinion mining) Khai , , 
phá dữ liệu truy cập Web (usage mining)
20Khai Phá Dữ Liệu
Tất cả các mẫu đều quan trọng?
 Quá trình khai phá dữ liệu có thể sinh (phát hiện) ra hàng 
ngàn mẫu – Không phải tất cả các mẫu đều quan trọng
 Các đánh giá về mức độ quan trọng của các mẫu
 Một mẫu là quan trọng, nếu nó: dễ hiểu đối với người dùng, vẫn 
đúng đối với các dữ liệu mới (ở một mức độ chắc chắn nhất 
đị h) hữ d ới ẻ h ặ iú á hậ ột iả thiết à đón , u ụng, m m , o c g p x c n n m g n o 
của một người dùng
 Các đánh giá dựa trên mục tiêu (objective) và dựa trên 
chủ quan (subjective)
 Dựa trên mục tiêu (objective): dựa trên sự thống kê và các cấu 
trúc của các mẫu
Vd: dựa trên các giá trị độ hỗ trợ (support) độ tin cậy , 
(confidence)
 Dựa trên chủ quan (subjective): dựa trên sự tin cậy của người 
dùng đối với dữ liệu
 Vd: sự ngạc nhiên, sự mới mẻ, … đối với người dùng
21Khai Phá Dữ Liệu
Đánh giá mức độ quan trọng của mẫu
 Mức độ đơn giản (Simplicity)
 Độ dài của các luật kết hợp 
 Kích thước của cây quyết định học được
 Mức độ tin cậy (Certainty/Confidence)
 Độ tin cậy (confidence) của các luật kết hợp
 Độ chính xác của phân lớp học được
 Mức độ tiện ích (Utility): khả năng hữu ích của mẫu
 Độ hỗ trợ của các luật kết hợp
 Ngưỡng nhiễu đối với phân lớp học được 
 Tính mới mẻ (Novelty): mẫu mới, chưa bao giờ được 
biết đến
22Khai Phá Dữ Liệu
Tìm tất cả các mẫu quan trọng?
 Tìm tất cả các mẫu quan trọng: Tính hoàn chỉnh 
(completeness)
 Một hệ thống khai phá dữ liệu có thể tìm được tất cả các mẫu 
quan trọng không?
 Chúng ta có cần phải tìm tất cả các mẫu quan trọng không?
 Tìm kiếm vét cạn (exhaustive) vs. heuristic
 Chỉ tìm các mẫu quan trọng: Bài toán tối ưu
 Một hệ thống khai phá dữ liệu có thể tìm chỉ các mẫu quan trọng?
 Các phương pháp
 Trước hết cứ sinh (tìm) ra tất cả các mẫu sau đó loại bỏ đi các , 
mẫu không quan trọng
 (Trong quá trình khai phá dữ liệu) Chỉ sinh ra các mẫu quan 
trọng
23Khai Phá Dữ Liệu
Hiển thị các mẫu tìm được
 Các người dùng khác nhau, các mục đích sử dụng khác 
nhau sẽ yêu cầu các dạng hiển thị khác nhau đối với các 
ẫ tì đm u m ược
 Hiển thị bằng: các luật, các bảng, biểu đồ so sánh, …
 Phân cấp khái niệm 
 Tri thức khám phá được có thể sẽ dễ hiểu hơn khi được biểu diễn 
ở mức khái quát hóa cao hơn
 Sự phân cấp khái niệm cho phép nhìn (xét) dữ liệu theo các cách 
hì khá hn n c n au
 Các kiểu tri thức khác nhau đòi hỏi các cách biểu diễn 
khác nhau (đối với các mẫu tìm được)
 Luật kết hợp
 Phân lớp,
 Phân cụm
 …
24Khai Phá Dữ Liệu
DM: Các ứng dụng tiềm năng
 Phân tích dữ liệu và hỗ trợ quyết định
 Phân tích và quản lý thị trường
 Quảng cáo cá nhân (target marketing), quản lý quan hệ khách 
hàng (CRM), phân tích giỏ hàng, bán hàng liên quan (cross-
selling), phân chia thị trường
Phâ tí h à ả lý ủi n c v qu n r ro
 Dự đoán, giữ khách hàng, phân tích cạnh tranh
 Phát hiện gian lận và phát hiện các mẫu bất thường (outliers)
 Các ứng dụng khác
 Khai phá văn bản (nhóm tin – news group, email, tài liệu)
Khai phá Web 
 Khai phá dữ liệu luồng (chuỗi)
 Phân tích dữ liệu sinh học và tin sinh
25Khai Phá Dữ Liệu
Ứng dụng: Phân tích thị trường (1)
 Nguồn của dữ liệu từ đâu?
 Các giao dịch sử dụng thẻ tín dụng, các thẻ khách hàng thường 
ê á hiế iả iá á ộ i hà à ủ khá hxuy n, c c p u g m g , c c cu c gọ p n n n c a c 
hàng
 Quảng cáo cá nhân (Target marketing)
 Tìm ra (xác định) những nhóm khách hàng “mẫu” có cùng các đặc 
điểm về sở thích, mức thu nhập, thói quen chi tiêu, …
 Xác định các mẫu (kiểu) chi trả/mua bán thường xuyên
 Phân tích thị trường (Cross-market analysis)
 Tìm ra các mối liên kết/tương quan giữa các sản phẩm bán ra 
(hoặc giữa các đợt bán hàng), để đưa ra các dự đoán
 Lập hồ sơ khách hàng (Customer profiling)
 Những kiểu khách hàng nào mua những mặt hàng nào (phân 
nhóm, hoặc phân loại) 
26Khai Phá Dữ Liệu
Ứng dụng: Phân tích thị trường (2)
 Phân tích yêu cầu khách hàng
 Xác định các sản phẩm phù hợp nhất cho các nhóm khách hàng 
khác nhau
 Dự đoán những yếu tố nào sẽ thu hút được các khách hàng mới
ấ ắ Cung c p những thông tin tóm t t
 Các báo cáo tóm tắt theo nhiều chiều (yếu tố)
 Các thông tin thống kê (xu hướng dịch chuyển) , 
27Khai Phá Dữ Liệu
Ứng dụng: Quản lý rủi ro
 Lập kế hoạch tài chính và đánh giá tài sản
 Phân tích và dự đoán luồng tiền mặt 
 Phân tích các tuyên bố tài chính của doanh nghiệp để đánh giá tài 
sản
 Phân tích các chuỗi dữ liệu tài chính 
 Lập kế hoạch sử dụng tài nguyên
 Tóm tắt và so sánh các tài nguyên và sự khai thác (sử dụng)
 Cạnh tranh trong kinh doanh
 Theo dõi các đối thủ cạnh tranh trong kinh doanh và các xu 
hướng của thị trường 
 Nhóm các khách hàng theo từng lớp, và định giá cho từng lớp
 Xây dựng chiến lược giá trong một thị trường cạnh tranh cao
28Khai Phá Dữ Liệu
Ứng dụng: Phát hiện gian lận
 Các phương pháp: Phân cụm và xây dựng mô hình dự 
đoán gian lận, phân tích ngoại lai (outlier)
 Các ứng dụng: Chăm sóc sức khỏe, bán lẻ, các dịch vụ 
sử dụng thẻ tín dụng, viễn thông
ể ỗ Bảo hi m ô-tô: “kịch bản” một chu i các va chạm
 Rửa tiền: các giao dịch chuyển tiền đáng ngờ
 Bảo hiểm y tế: sự móc nối giữa bệnh nhân và bác sỹ các xét , 
nghiệm không cần thiết
 Viễn thông: các kiểu cuộc gọi bất thường
 Công nghiệp bán lẻ: phát hiện các người làm thuê gian lận 
 Chống khủng bố
29Khai Phá Dữ Liệu
DM: Các vấn đề thách thức
 Tính hiệu quả (efficiency) và tính ổn định (scalability) của các 
giải thuật khai phá dữ liệu
Cá á á ệ ồ c phương ph p khai ph dữ li u song song, phân tán, lu ng 
(stream), và tăng cường (incremental)
 Xử lý với dữ liệu có số chiều (số thuộc tính) lớn
 Xử lý với dữ liệu chứa nhiễu (lỗi), không chắc chắn, không 
hoàn chỉnh
 Đưa (tích hợp) vào quá trình khai phá dữ liệu các ràng buộc tri , 
thức chuyên gia, tri thức nền tảng (background knowledge)
 Đánh giá mẫu và tích hợp tri thức
Kh i há á kiể dữ liệ ất khá h (dữ liệ ti i h W b a p c c u u r c n au u n s n , e , 
mạng thông tin,…)
 Tích hợp khai phá dữ liệu vào các thiết bị hoạt động
 Bảo đảm tính an ninh, toàn vẹn, riêng tư trong khai phá dữ liệu
30Khai Phá Dữ Liệu
            Các file đính kèm theo tài liệu này:
 L1-Gioi_thieu_khai_pha_du_lieu.pdf L1-Gioi_thieu_khai_pha_du_lieu.pdf