Luận văn Khai phá dữ liệu Web bằng kỹ thuật phân cụm
MỤC LỤC MỤC LỤC . i DANH SÁCH CÁC HÌNH . v DANH SÁCH CÁC BẢNG BIỂU . vi CÁC CỤM TỪ VIẾT TẮT. vii LỜI MỞ ĐẦU . 1 Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU . 3 1.1. Khai phá dữ liệu và phát hiện tri thức . 3 1.1.1. Khai phá dữ liệu . 3 1.1.2. Quá trình khám phá tri thức . 4 1.1.3. Khai phá dữ liệu và các lĩnh vực liên quan . 5 1.1.4. Các kỹ thuật áp dụng trong khai phá dữ liệu . 5 1.1.5. Những chức năng chính của khai phá dữ liệu . 7 1.1.6. Ứng dụng của khai phá dữ liệu . 9 1.2. Kỹ thuật phân cụm trong khai phá dữ liệu . 10 1.2.1. Tổng quan về kỹ thuật phân cụm . 10 1.2.2. Ứng dụng của phân cụm dữ liệu . 13 1.2.3. Các yêu cầu đối với kỹ thuật phân cụm dữ liệu . 13 1.2.4. Các kiểu dữ liệu và độ đo tương tự . 15 1.2.4.1. Phân loại kiểu dữ liệu dựa trên kích thước miền . 15 1.2.4.2. Phân loại kiểu dữ liệu dựa trên hệ đo . 15 1.2.4.3. Khái niệm và phép đo độ tương tự, phi tương tự. 17 1.3. Khai phá Web . 20 1.3.1. Lợi ích của khai phá Web . 20 1.3.2. Khai phá Web . 21 1.3.3. Các kiểu dữ liệu Web . 22 1.4. Xử lý dữ liệu văn bản ứng dụng trong khai phá dữ liệu Web . 23 1.4.1. Dữ liệu văn bản . 23 1.4.2. Một số vấn đề trong xử lý dữ liệu văn bản . 23 1.4.2.1. Loại bỏ từ dừng . 24 1.4.2.2. Định luật Zipf . 25 1.4.3. Các mô hình biểu diễn dữ liệu văn bản . 26 1.4.3.1. Mô hình Boolean . 26 1.4.3.2. Mô hình tần số . 27 1.5. Tổng kết chương 1 . 30 Chương 2. MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU . 31 2.1. Phân cụm phân hoạch . 31 2.1.1. Thuật toán k-means . 32 2.1.2. Thuật toán PAM . 34 2.1.3. Thuật toán CLARA . 38 2.1.4. Thuật toán CLARANS. 39 2.2. Phân cụm phân cấp . 41 2.2.1. Thuật toán BIRCH . 42 2.2.2. Thuật toán CURE . 45 2.3. Phân cụm dựa trên mật độ . 47 2.3.1 Thuật toán DBSCAN . 47 2.3.2. Thuật toán OPTICS . 51 2.3.3. Thuật toán DENCLUE . 52 2.4. Phân cụm dựa trên lưới. 54 2.4.1 Thuật toán STING . 55 2.4.2 Thuật toán CLIQUE. 56 2.5. Phân cụm dữ liệu dựa trên mô hình. 57 2.5.1. Thuật toán EM . 58 2.5.2. Thuật toán COBWEB . 59 2.6. Phân cụm dữ liệu mờ . 59 2.7. Tổng kết chương 2 . 60 Chương 3. KHAI PHÁ DỮ LIỆU WEB . 62 3.1. Khai phá nội dung Web . 62 3.1.1. Khai phá kết quả tìm kiếm . 63 3.1.2. Khai phá văn bản Web . 63 3.1.2.1. Lựa chọn dữ liệu . 64 3.1.2.2. Tiền xử lý dữ liệu . 64 3.1.2.3. Biểu điễn văn bản . 65 3.1.2.4. Trích rút các từ đặc trưng . 65 3.1.2.5. Khai phá văn bản . 66 3.1.3. Đánh giá chất lượng mẫu . 68 3.2. Khai phá theo sử dụng Web . 69 3.2.1. Ứng dụng của khai phá theo sử dụng Web . 70 3.2.2. Các kỹ thuật được sử dụng trong khai phá theo sử dụng Web . 71 3.2.3. Những vấn đề trong khai khá theo sử dụng Web. . 71 3.2.3.1. Chứng thực phiên người dùng . 71 3.2.3.2. Đăng nhập Web và xác định phiên chuyển hướng người dùng . 72 3.2.3.3. Các vấn đề đối với việc xử lý Web log . 72 3.2.3.4. Phương pháp chứng thực phiên làm việc và truy cập Web . 73 3.2.4. Quá trình khai phá theo sử dụng Web . 73 3.2.4.1. Tiền xử lý dữ liệu . 73 3.2.4.2. Khai phá dữ liệu . 73 3.2.4.3. Phân tích đánh giá . 75 3.2.5. Ví dụ khai phá theo sử dụng Web . 75 3.3. Khai phá cấu trúc Web . 77 3.3.1. Tiêu chuẩn đánh giá độ tương tự . 79 3.3.2. Khai phá và quản lý cộng đồng Web . 80 3.3.2.1. Thuật toán PageRank . 81 3.3.2.2. Phương pháp phân cụm nhờ thuật toán HITS . 82 3.4. Áp dụng thuật toán phân cụm dữ liệu trong tìm kiếm và PCDL Web . 85 3.4.1. Hướng tiếp cận bằng kỹ thuật phân cụm . 85 3.4.2. Quá trình tìm kiếm và phần cụm tài liệu . 87 3.4.2.1. Tìm kiếm dữ liệu trên Web . 87 3.4.2.2. Tiền xử lý dữ liệu . 88 3.4.2.3. Xây dựng từ điển . 89 3.4.2.4. Tách từ, số hóa văn bản và biểu diễn tài liệu . 90 3.4.2.5. Phân cụm tài liệu . 90 3.4.6. Kết quả thực nghiệm . 92 3.5. Tổng kết chương 3 . 93 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN . 94 PHỤ LỤC . 96 TÀI LIỆU THAM KHẢO . 102
Các file đính kèm theo tài liệu này:
- Khai phá dữ liệu Web bằng kỹ thuật phân cụm.pdf