Luận văn Phương pháp phân cụm và ứng dụng

MỤC LỤC

TRANG

LỜI C ẢM ƠN 5

LỜI MỞ ĐẦU 6

CHưƠNG I : TỔNG QUAN THUYẾT VỀ PHÂN CỤM DỮ LIỆU 7

1. Phân cụm dữ liệu 7

1.1 Định nghĩa về phân cụm dữ liệu 7

1.2 Một số ví dụ về phân cụm dữ liệu 7

2. Một số kiểu dữ liệu 10

2.1 Dữ liệu Categorical 10

2.2 Dữ liệu nhị phân 13

2.3 Dữ liệu giao dịch 14

2.4 Dữ liệu Symbolic 15

2.5 Chuỗi thời gian(Time Series) 16

3. Phép Biến đổi và Chuẩn hóa dữ liệu 16

3.1 Phép chuẩn hóa dữ liệu 17

3.2 Biến đổi dữ liệu 21

3.2.1 Phân tích thành phần chính 21

3.2.2 SVD 23

3.2.3 Phép biến đổi Karhunen-Loève 24

CHưƠNG II. CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 28

1. Thuật toán phân cụm dữ liệu dựa vào phân cụm phân cấp 28

1.1 Thuật toán BIRCH 28

1.2 Thuật toán CURE 30

1.3 Thuật toán ANGNES 32

1.4 Thuật toán DIANA 33

1.5 Thuật toán ROCK 33

1.6 Thuật toán Chameleon 34

2. Thuật toán phân cụm dữ liệu mờ 35

2.1 Thuật toán FCM 36

2.2 Thuật toán εFCM 37

3. Thuật toán phân cụm dữ liệu dựa vào cụm trung tâm 37

3.1 . Thuật toán K – MEANS 37

3.2 Thuật toán PAM 41

3.3 Thuật toán CLARA 42

3.4 Thuật toán CLARANS 44

4. Thuật toán phân cụm dữ liệu dựa vào tìm kiếm 46

4.1 Thuật toán di truyền (GAS) 46

4.2 J- Means 48

5. Thuật toán phân cụm dữ liệu dựa vào lưới 49

5.1 STING 49

5.2. Thuật toán CLIQUE 51

5.3. Thuật toán WaveCluster 52

6. Thuật toán phân cụm dữ liệu dựa vào mật độ 53

6.1 Thuật toán DBSCAN 53

6.2. Thuật toán OPTICS 57

6.3. Thuật toán DENCLUDE 58

7. Thuật toán phân cụm dữ liệu dựa trên mẫu 60

7.1 Thuật toán EM 60

7.2 Thuật toán COBWEB 61

CHưƠNG III :ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU 62

1. Phân đoạn ảnh 62

1.1. Định nghĩa Phân đoạn ảnh 63

1.2 Phân đoạn ảnh dựa vào phân cụm dữ liệu 65

2. Nhận dạng đối tượng và ký tự 71

2.1 Nhận dạng đối tượng 71

2.2 Nhận dạng ký tự. 75

3. Truy hồi thông tin 76

3.1 Biểu diễn mẫu 78

3.2 Phép đo tương tự 79

3.3 Một giải thuật cho phân cụm dữ liệu sách 80

4. Khai phá dữ liệu 81

4.1 Khai phá dữ liệu bằng Phương pháp tiếp cận. 82

4.2 Khai phá dữ liệu có cấu trúc lớn. 83

4.3 Khai phá dữ liệu trong Cơ sở dữ liệu địa chất. 84

4.4 Tóm tắt 86

KẾT LUẬN ,HưỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 90

PHỤ LỤC 91

TÀI LIỆU THAM KHẢO

100 trang | Chia sẻ: maiphuongdc | Lượt xem: 5250 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận văn Phương pháp phân cụm và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

đề xuất bởi Holland (1975) là một họ tính toán mô hình lấy cảm hứng từ tương tự của sự tiến hóa và di truyền dân số. Gas vốn song song và đặc biệt thích hợp cho việc giải quyết vấn đề tối ưu hóa phức tạp.Filho et al. (1994) trình bày một cuộc khảo sát của khí cùng với một GA đơn giản viết bằng C ngôn ngữ. Thông thường, chỉ có hai thành phần chính của GAS được vấn đề phụ thuộc: các vấn đề mã hóa và chức năng đánh giá (ví dụ, khách quan chức năng). Ngay cả đối với cùng một vấn đề, có thể sử dụng mã hóa khác nhau. Ví dụ, trong các k-có nghĩa là thuật toán di truyền, Krishna và Narasimha (1999) làm việc string-of-group-số mã hóa, trong khi Maulik và Bandyopadhyay (2000) được mã hóa các chuỗi sao cho mỗi chuỗi là một chuỗi các thực số đại diện cho các trung tâm cụm. Trong GAS, các tham số của không gian tìm kiếm được mã hoá trong các hình thức gọi là chuỗi nhiễm sắc thể. AGA maintains dân (set) của N chuỗi mã hoá cho một số dân số cố định kích thước N và tiến hóa qua các thế hệ. Trong mỗi thế hệ, ba nhà khai thác di truyền, nghĩa là, tự nhiên, lựa chọn, xuyên chéo , và đột biến, được áp dụng cho dân số hiện nay để sản xuất một số dân mới. Mỗi chuỗi trong dân số liên kết với một giá trị thể dục tùy thuộc vào giá trị của hàm mục tiêu. Dựa trên nguyên tắc sống còn của các lắp rắp , -47- một chuỗi vài trong số dân hiện hành được lựa chọn và từng được phân công một số bản sao, và sau đó một thế hệ mới của dây đang mang lại bằng cách áp dụng chéo và đột biến để các chuỗi được chọn. Nói chung, một GA điển hình có những năm thành phần cơ bản: mã hóa, khởi tạo, lựa chọn, crossover, và đột biến. Mã hóa là phụ thuộc vào vấn đề dưới xem xét. Trong giai đoạn khởi, dân số (set) của chuỗi sẽ được ngẫu nhiên tạo ra. Sau giai đoạn khởi, có một lặp của các thế hệ. Số lượng của các thế hệ được xác định bởi người sử dụng. Trong khí, chuỗi tốt nhất thu được cho đến nay được lưu trữ trong một vị trí riêng biệt bên ngoài dân số và sản lượng cuối cùng là chuỗi tốt nhất trong số tất cả có thể có chuỗi kiểm tra trong toàn bộ quá trình. Murthy và Chowdhury (1996) đề xuất một GA trong một nỗ lực để đạt được tối ưu giải pháp cho các vấn đề clustering. Trong thuật toán này, các chức năng đánh giá được xác định như là tổng của bình phương khoảng cách Euclide của các điểm dữ liệu từ các cụm tương ứng của họ trung tâm. Ngoài ra, đơn điểm chéo (Michalewicz, 1992), nghĩa là, các nhà điều hành chéo giữa hai dây, được thực hiện tại một vị trí, và các chiến lược elitist, nghĩa là, các chuỗi hay nhất được mang từ trước đến dân số kế tiếp, được sử dụng. Tseng và Yang (2001) đề xuất một cách tiếp cận di truyền được gọi là clustering đến tự động phân nhóm vấn đề. Clustering là phù hợp với phân nhóm dữ liệu với nhỏ gọn cụm hình cầu, và số cụm có thể được kiểm soát gián tiếp bởi một tham số w. Thuật toán sẽ sản xuất một số lượng lớn các cụm nhỏ gọn với một giá trị nhỏ của w và nó sẽ sản xuất một số lượng nhỏ hơn của cụm lỏng hơn với một giá trị lớn của w. A di truyền phân nhóm dựa trên thuật toán nhằm tìm ra các cụm nonspherical đã được đề xuất bởi Tseng và Yang (2000). Garai và Chaudhuri (2004) đề xuất một phân nhóm di truyền được hướng dẫn theo cấp bậc thuật toán mà có thể tìm thấy tùy tiện có hình cụm. Thuật toán này bao gồm hai giai đoạn. Lúc đầu, tập dữ liệu gốc là bị phân hủy thành một số nhóm phân mảnh để lây lan trong quá trình GAsearch ở giai đoạn thứ hai trong toàn bộ không gian. Sau đó, các thứ bậc Cụm trộn thuật toán (HCMA) được sử dụng. Trong quá trình sát nhập, một kỹ thuật gọi là các -48- cluster liền kề kiểm tra thuật toán (ACCA) được sử dụng để thử nghiệm kề của hai cụm phân đoạn để họ có thể được sáp nhập vào một nhóm. Krishna và Narasimha (1999) và Bandyopadhyay và Maulik (2002) đề xuất hai thuật toán phân nhóm khác nhau dựa trên GAS và k phổ biến có nghĩa là thuật toán. Trong di truyền k-có nghĩa là thuật toán (GKA), Krishna và Narasimha (1999) được sử dụng k-có nghĩa là nhà điều hành thay vì các nhà điều hành chéo để tăng tốc độ hội tụ, trong khi ở kga-clustering, Bandyopadhyay và Maulik (2002) được sử dụng các nhà điều hành crossover- đơn điểm. Cowgill et al. (1999) đề xuất một thuật toán-based clustering di truyền được gọi là COWCLUS. Trong COWCLUS, chức năng đánh giá là tỷ lệ phương sai (VR) được định nghĩa trong điều kiện cô lập cụm bên ngoài và tính đồng nhất cụm nội bộ. Mục tiêu của thuật toán là để tìm các phân vùng với VR tối đa. 4.2 J- Means Cho  1 2, , , nD x x x  là một tập đối tượng và SD được hiểu là tất cả các phần của D. 2 1 min D D i k i P S i x C x z     Nơi k là số lượng cụm , . được hiểu là Euclidean chuẩn tắc, và zi là tâm của cụm Ci 1 i i x Ci Z x C    Với i = 1, 2,…k Thuật toán J-mean : Bước 1 (khởi) Hãy để PD = (C1, C2,. . . , Ck) là một phân vùng ban đầu của D, zi là trọng tâm của cụm Ci, và fopt được mục tiêu hiện chức năng giá trị; S2 (điểm chiếm đóng) Tìm điểm trống, nghĩa là, điểm trong D không trùng với một cụm trọng tâm trong một dung sai nhỏ; -49- S3 (Bước khu phố) Tìm phân vùng tốt nhất DP và mục tiêu tương ứngchức năng giá trị f  trong các khu phố nhảy của giải pháp hiện tại PD: S31 (khai phá láng giềng) Đối với mỗi j (j = 1, 2,..., N), lặp lại sau bước sau: (a) tái định cư. Thêm một cụm mới centroid Z k+1 tại một số điểm trống xj vị trí và tìm thấy những chỉ số i của trọng tâm tốt nhất để xóa; cho vij biểu sự thay đổi trong giá trị hàm mục tiêu; (b) Giữ tốt nhất. Giữ đôi chỉ số i và j nơi vij là tối thiểu; S32 (chuyển hay thay thế) Nếu trọng tâm zi’ bởi xj và cập nhật các thành viên nhóm cho phù hợp để có được P phân vùng mới DP ; đặt ' ': opt i jf f v   S4 (Chấm dứt hoặc di chuyển) Nếu optf f  , dừng; nếu không, di chuyển đến láng giềng tốt nhất Giải pháp DP ; đặt DP là giải pháp hiện hành và quay về bước S2. 5. Thuật toán phân cụm dữ liệu dựa vào lƣới 5.1 STING STING là kỹ thuật phân cụm đa phân giải dựa trên lưới, trong đó vùng không gian dữ liệu được phân rã thành số hữu hạn các cells chữ nhât, điều này có ý nghĩa là các cells lưới được hình thành từ các cells lưới con để thực hiện phân cụm. Có nhiều mức của các cells chữ nhật tương ứng với các mức khác nhau của phân giải trong cấu trúc lưới, và các cells này hình thành cấu trúc phân cấp : mỗi cells ở mức cao được phân hoạch thành các số các cells nhỏ ở mức thấp hơn tiếp theo trong cấu trúc phân cấp. Các điểm dữ liệu được nạp từ CSDL, giá trị của các tham số thống kê cho các thuộc tính của đối tượng dữ liệu trong mỗi ô lưới được tính toán từ dữ liệu và lưu trữ thông qua các tham số thống kê ở các cell mức thấp hơn (điều này giống với cây CF). Các giá trị của các tham số thống kê gồm : số trung bình – mean, số tối đa – max, số tối thiểu – min, số đếm –count , độ lệch chuẩn –s,… Các đối tượng dữ liệu lần lượt được chèn vào lưới và các tham số thống kê ở trên được tính trực tiếp thông qua các đối tượng dữ liệu này. Các truy vấn không gian được thực hiện bằng cách xét các cells thích hợp tại mỗi mức -50- phân cấp. Một truy vấn không gian được xác định như là một thông tin khôi phục lại của dữ liệu không gian và các quan hệ của chúng. STING có khả năng mở rộng cao , nhưng do sử dụng phương pháp đa phân giải nên nó phụ thuộc chặt chẽ vào trọng tâm của mức thấp nhất. Đa phân giải là khả năng phân rã tập dữ liệu thành các mức chi tiết khác nhau. Khi hòa nhập các cells của cấu trúc lưới để hình thành các cụm, nó không xem xét quan hệ không gian giữa các nút của mức con không được hòa nhập phù hợp( do chúng chỉ tương ứng với các cha của nó) và hình dạng của các cụm dữ liệu khám phá là isothetic, tất cả ranh giới của các cụm có các biên ngang và dọc, theo biên của các cells và không có đường biên chéo được phát hiện ra. Các lợi thế của cách tiếp cận này so với các phương pháp phân cụm dữ liêu khác : - Tính toán dựa trên lưới là truy vấn độc lập vi thông tin thống kê được bảo quản trong mỗi cells đại diện nên chỉ cần thông tin tóm tắt của dữ liệu trong cells chứ không phải là dữ liệu thực tế và không phụ thuộc vào câu truy vấn. - Cấu trúc dữ liệu lưới thuận tiện cho quá trình xử lý song song và cập nhật liên tục. - Duyệt toàn bộ CSDL một lần để tính toán các đại lượng thống kê cho mỗi cells, nên nó hiệu quả và do đó độ phức tạp thời gian để tạo các cụm xấp xỉ O(n), trong đó n là tổng số các đối tượng. Sau khi xây dựng cấu trúc phân cấp, thời gian xử lý cho các truy vấn là O(g), trong đó g là tổng số cells lưới ở mức thấp (g<<n) Các hạn chế của thuật toán này : - Trong khi sử dụng cách tiếp cận đa phân giải để thực hiện phân tích cụm chất lượng của phân cụm STING hoàn toàn phụ thuộc vào tính chất hộp ở mức thấp nhất của cấu trúc lưới. Nếu tính chất hộp là mịn, dẫn đến chi phí thời gian xử lý tăng, tính toán trở nên phức tạp và nếu mức dưới cùng là quá thô thì nó có thể làm giảm bớt chất lượng và độ chính xác của phân tích cụm. Thuật toán STING : 1. Xác định tầng để bắt đầu 2. Với mỗi cái của tầng này, tính toán khoảng tin cậy (hoặc ước lượng khoảng) của xác suất mà cells này liên quan tới truy vấn 3. Từ khoảng tin cậy của tính toán trên,gán nhãn cho là có liên quan hoặc -51- không liên quan. 4. Nếu lớp này là lớp cuối cùng , chuyển sang Bước 6; nếu khác thì chuyển sang Bước 5 5. Duyệt xuống dưới của cấu trúc cây phân cấp một mức. Chuyển sang Bước 2 cho các cells mà hình thành các cells liên quan của lớp có mức cao hơn. 6. Nếu đặc tả được câu truy vấn, chuyển sang bước 8; nếu không thì chuyển sang bước 7. 7. Truy lục lại dữ liệu vào trong các cells liên quan và thực hiện xử lý. Trả lại kết quả phù hợp yêu cầu của truy vấn. Chuyển sang Bước 9. 8. Tìm thấy các miền có các cells liên quan. Trả lại miền mà phù hợp với yêu cầu của truy vấn. Chuyển sang bước 9 9. Dừng 5.2. Thuật toán CLIQUE Trong không gian đa chiều, các cụm có thể tồn tại trong tập con của các chiều hay còn gọi là không gian con. Thuật toán CLIQUE là thuật toán hữu ích cho PCDL không gian đa chiều trong các CSDL lớn thành các không gian con. Thuật toán này bao gồm các bước : - Cho n là tập lớn của các điểm dữ liệu đa chiều; không gian dữ liệu thường là không giống nhau bởi các điểm dữ liệu. Phương pháp này xác định những vùng gần, thưa và “đặc” trong không gian dữ liệu nhất định, bằng cách đó phát hiện ra toàn thể phân bố mẫu của tập dữ liệu. - Một đơn vị là dày đặc nếu phần nhỏ của tất cả các điểm dữ liệu chứa trong nó vượt quá tham số mẫu đưa vào. Trong thuật toán CLIQUE, cụm được định nghĩa là tập tối đa liên thông các đơn vị dày đặc. Các đặc trƣng của CLINQUE - Tự động tìm kiếm không gian con của không gian đa chiều, sao cho mật độ đặc của các cụm tồn tại trong không gian con. - Mẫn cảm với thứ tự của dữ liệu vào và không phù hợp với bất kỳ quy tắc phân bố dữ liệu nào. - Phương pháp này tỷ lệ tuyến tính với kích thước vào và có tính biến đổi tốt khi số chiều của dữ liệu tăng. -52- Nó phân hoạch tập dữ liệu thành các hình hộp chữ nhật và tìm các hình hộp chữ nhật đặc, nghĩa là các hình hộp này chứa một số các đối tượng dữ liệu trong số các đối tượng láng giếng cho trước. Hợp các hình hộp này tạo thành các cụm dữ liệu. Tuy nhiên , CLINQUE được bắt đầu bằng cách tiếp cận đơn giản do đó chính xác của kết quả phân cụm có thể bị ảnh hưởng dẫn tới chất lượng của các phương pháp này có thể giảm. Phương pháp bắt đầu nhận dạng các cells đặc đơn chiều trong không gian dữ liệu và tim kiếm phân bố của dữ liệu, tiếp đến CLINQUE lần lượt tìm các hình chữ nhật 2 chiều, 3 chiều,…., cho đến khi hình hộp chữ nhật đặc k chiều được tìm thấy, độ phức tạp tính toán của CLIQUE là O(n) 5.3. Thuật toán WaveCluster Thuật toán WaveCluster là phương pháp gần giống với STING, tuy nhiên thuật toán sử dụng phép biến đổi dạng sóng đẻ tìm ô đặc trong không gian. Đầu tiên kỹ thuật này tóm tắt dữ liệu bằng việc tận dụng cấu trúc dạng lưới đa chiều lên trên không gian dữ liệu. Tiếp theo nó sử dụng phép biến đổi dạng sóng để biến đổi không gian có đặc trưng gốc, tìm kiếm ô đặc trong không gian đã được biến đổi. Phương pháp này là phức tạp với các phương pháp khác chính là ở phép biến đổi. Ở đây, mỗi cells lưới tóm tắt thông tin các điểm của một nhóm ánh xạ vào trong cells. Đây là thông tin tiêu biểu thích hợp đưa vào bộ nhớ chính để sử dụng phép biến đổi dạng sóng đa phân giải và tiếp theo là phân tích cụm. Một phép biến đổi dạng sóng là kỹ thuật dựa trên cơ sở xử lý tín hiệu và xử lý ảnh bằng phân tích tín hiệu với tần số xuất hiện trong bộ nhớ chính. Bằng việc thực hiện một loạt các phép biến đổi ngược phức tạp cho nhóm này,nó cho phép các cụm trong dữ liệu trở thành rõ ràng hơn. Các cụm này có thể được xác định bằng tìm kiếm ô đặc trong vùng mới. Phương pháp này phức tạp, nhưng lại có những lợi thế : - Cung cấp cụm không giám sát, khử nhiễu các thông tin bên ngoài biên của cụm. Theo cách đó, vùng đặc trong không gian đặc trưng gốc hút các điểm ở gần và ngăn chặn các điểm ở xa. Vì vậy, các cụm tự động nổi bật và làm sạch khu vực xung quanh nó, do đó các kết quả tự động loại phần tử ngoại lai. -53- - Đa phân giải là thuộc tính hỗ trợ dò tìm các cụm có các mức biến đổi chính xác. - Thực hiện nhanh với độ phức tạp của thuật toán là O(n), trong đó n là số đối tượng trong CSDL. Thuật toán có thể thích hợp với xử lý song song. - Xử lý tập dữ liệu lớn có hiệu quả, khám phá các cụm có hình dạng bất kỳ, xử lý phần tử ngoại lai, mẫn cảm với thứ tự vào, và không phụ thuộc vào các tham số vào như số các cụm hoặc bán kính láng giềng. 6. Thuật toán phân cụm dữ liệu dựa vào mật độ 6.1 Thuật toán DBSCAN Thuật toán DBSCAN thích nghi với mật độ dầy để phân cụm và khám phá ra các cụm có hình dạng bất kỳ trong không gian CSDL có nhiễu. Nó có định nghĩa cụm là tập tối đa các điểm liên thông mật độ. Phân cụm dựa vào mật độ là tập các đối tương liên thông mật độ mà tối đa về liên lạc mật độ; mỗi đối tượng không được chứa trong cụm là được xem xét nhiễu. Trên thực tế DBSCAN tìm kiếm cho các cụm bằng cách kiểm tra các đối tượng mà có số đối tượng láng giềng nhỏ hơn một ngưỡng tối thiểu, tức là có tối thiểu MinPts đối tượng và mối đối tượng trong cụm tồn tại một đối tượng khác trong cụm giống nhau với khoảng cách nhỏ một ngưỡng Eps. Tìm tất cả các đối tượng mà các láng giềng của nó thuộc về lớp các đối tượng đã xác định ở trên, một cụm được xác định bằng một tập tất cả các đối tượng liên thông mật độ các láng giềng của nó. DBSCAN lặp lại tìm kiếm ngay khi các đối tượng liên lạc mật độ từ các đối tượng trung tâm, nó có thể bao gồm việc kết hợp một số cụm có mật độ liên lạc. Quá trình kết thúc khi không tìm được điểm mới nào có thể thêm vào bất cứ cụm nào. DBSCAN có thể tìm ra các cụm với hình thù bất kỳ, trong khi đo tại cùng một thời điểm ít bị ảnh hưởng bởi thứ tự của các đối tượng dữ liệu nhập vào. Khi có một đối tượng được chèn vào chỉ tác động đến một láng giếng xác định. Mặt khác , DBSCAN sử dụng tham số Eps và MinPts trong thuật toán để kiểm soát mật độ của các cụm . DBSCAN bắt đầu với một điểm tùy ý và xây dựng mật độ láng giềng có thể được đối với Eps và MinPts, Vì vậy, DBSCAN yêu cầu người dùng xác định bán kính Eps của láng giềng và số các láng giềng tối thiểu MinPts, các tham số này khó mà xác định được tối ưu, thông thường nó được xác định bằng phép chọn ngẫu nhiên hoặc theo kinh -54- nghiệm. Độ phức tạp của DBSCAN là O(n2), nhưng nếu áp dụng chỉ số không gian để giúp xác định các láng giềng của một đối tượng dữ liệu thì độ phức của DBSCAN được cải tiến là O(nlogn). Thuật toán DBSCAN có thể áp dụng cho các tập dữ liệu không gian lớn đa chiều, khoảng cách Eucle có thể áp dụng cho tập dữ liệu không gián lớn đa chiều, khoảng cách Eclide được sử dụng để đo sự tương tự giữa các đối tượng nhưng không hiệu quả đối với dữ liệu đa chiều [10][15] - Định nghĩa 1 : Lân cận với ngưỡng Eps của một điểm p ký hiệu NEps(p) được xác định như sau : NEps(p)={q D} khoảng cách dist(p,q)  Eps. D là tập dữ liệu cho trước. Một điểm p muốn nằm trong một cụm C nào đó thì NEps(p) phải có tối thiểu MinPts điểm. Số điểm tối thiểu được chọn là bao nhiêu cũng là bài toán khó vì nếu số điểm tối thiểu lớn thì chỉ những điểm nằm thực sự trong cụm C mới đạt đủ tiêu chuẩn, trong khi đó những điểm nằm ngoài biên của cụm không thể đạt được điều đó. Ngược lại, nếu số điểm tối thiểu là nhỏ thì mọi điểm sẽ rơi vào một cụm. Theo định nghĩa trên, chỉ những điểm nằm trong cụm mới thỏa mãn điều kiện là điểm thuộc vào cụm. Những điểm nằm ở biên của cụm thì không thỏa mãn điều kiện đó, bởi vì thông thường thì lân cận với ngưỡng Eps của điểm biên thì bé hơn lân cận với ngưỡng của Eps của điểm nhân. Để tránh được điều này, có thể đưa ra một tiêu chuẩn khác để định nghĩa một điểm thuộc vào một cụm như sau : Nếu một điểm p muốn thuộc một cụm C phải tồn tại một điểm thuộc một cụm như sau: Nếu một điểm p muốn thuộc một cụm C phải tồn tại một điểm q mà p  NEps (q) và số điểm trong p  NEps (q) phải lớn hơn điểm tối thiểu. Điều này dẫn ba phép đo được sử dụng để mô tả thuộc tính cảu các điểm dữ liệu, là mật độ liên lạc trực tiếp, mật độ liên lạc và mật độ liên lạc và mật độ liên thông được định nghĩa như sau : - Định nghĩa 2 : Mật độ liên lạc trực tiếp Một điểm p được gọi là liên lạc trực tiếp từ điểm q với ngưỡng Eps nếu : 1. p  NEps (q) 2.  EspN q MinPts (điều kiện nhân), điểm q gọi là điểm nhân. -55- Có thể thấy liên lạc trực tiếp là một hàm phản xạ và đối xứng với hai điểm nhân và bất đối xứng nếu một trong hai điểm đó không phải là điểm nhân. - Định nghĩa 3 : Mật độ liên lạc Một điểm p được gọi là liên lạc từ một điểm q theo tham số Eps và MinPts nếu tồn tại một dãy p = p1, p2,…, pn = q thỏa mãn pi+1 là có thêm liên lạc trực tiếp từ pi với 1 1i n   Hai điểm biên của một cụm C có thể không liên lạc được với nhau bởi vì cả hai đều không thỏa mãn điều kiện nhân. - Định nghĩa 4 : Mật độ liên thông Một điểm p được gọi là liên thông với điểm q theo tham số Eps và MinPts nếu tồn tại một điểm O mà cả hai điểm p, q đều có thể liên lạc được theo tham số Eps và MinPts. Mật độ liên thông có tính chất đối xứng và phản xạ. - Định nghĩa 5 : Cụm Giả sử D là một tập cá điểm dữ liệu. Một tập con C khác rỗng của D được gọi là một cụm theo Eps và MinPts nếu thỏa mãn hai điều kiện : 1. Với ,p q D , nếu p C và q có thể liên lạc được từ p theo Eps và MinPts thì q C 2. Với ,p q C ,p liên thông với q theo Eps và MinPts. - Định nghĩa 6 : Nhiễu Giả sử C1, C2, …. , Ck là các cụm trong tập dữ liệu D theo tham số Eps và MinPts, điểm dữ liệu nhiễu là điểm dữ liệu không thuộc vào cụm nào trong các cụm C1, C2, …. , Ck, tức là N ={p/ với mọi I = 1,…,k  Ci}. Với hai tham số Eps và MinPts cho trước, có thể khám phá các cụm theo hai bước : - Bước 1 : Chọn một điểm bất kỳ từ tập dữ liệu ban đầu thỏa mãn điều kiện nhân. - Bước 2 : Lấy tất cả các điểm liên lạc với điểm nhân đã chọn để tạo thành cụm. Bổ đề 1 : Giả sử p là một điểm trong D, Es ( )pN p MinPts tập O ={o/o  D và có thể liên lạc từ p theo Eps và MinPts} là một cụm theo Eps và MinPts. Như vậy, cụm C không hoàn toàn là duy nhất, tuy nhiên, mỗi điểm trong C liên lạc từ bất cứ một điểm nhân nào của C, vì vậy C chứa đúng một số điểm liên thông với điểm nhân tùy ý. -56- Bổ đề 2 : Giả sử C là một cum theo Eps và MinPts, p là một điểm bất kỳ trong C với Es ( )pN p MinPts . Khi đó, C trùng với tập O ={o/o  D và o có thể liên lạc từ p theo Eps và MinPts}. Thuật toán : DBSCAN khởi tạo điểm p tùy ý và lấy tất cả các điểm liên lạc mật độ từ p tới Eps và MinPts. Nếu p là điểm nhân thì thủ tục trên tạo ra một cụm theo Eps và MinPts ( bổ đề 2), nếu p là một điểm biên, không có điểm nào liên lạc mật độ từ p và DBSCAN sẽ đi thăm điểm tiếp theo của tập dữ liệu. Nếu sử dụng giá trị toàn cục Eps và Minpts, DBSCAN có thể hòa nhập hai cụm ( Định nghĩa 5) thành một cụm nếu mật độ của hai cụm gần bằng nhau. Giả sử khoảng cách giữa hai tập dữ liệu S1 và S2 được định nghĩa là dist(S1, S2) = min{dist(p, q) {p  S1 và p  S2}. Thuật toán DBSCAN --------------main Module---------------- DBSCAN(SetOfPoints, Eps, MinOts) //SetOfPoints is UNCLASSIFIED Clusterid:=NextId(NOISE); FOR i FROM 1 TO SetOfPoints.size DO Point := SetOfPoints.get(i); IF PointClId = UNCLASSIFIED THEN IF ExpandCluster (SetOfPoints, Point, ClusterId, Eps, MinPts ) THEN ClusterId.= nextld(ClusterId) END IF END IF END FOR FOR END; I/DBSCAN --------ExpandCluster Procedure ------- ExpandClusster(SetOfPoints, Points, ClId, Eps, MinPts): Boolean; seeds:= SetOfPoints.regionQuery(Point, E ps) IF seeds.size < MinPts THEN // no core point SetOfPoints.changeclId(Point, NOISE), RETURN False; ELSE //all points in seeds are density-reachable from Point SetOfPoints.changeClId(seeds, ClId); seeds.delete(Point); WHILE -57- seeds Empty DO currentP:= seeds.firstO; result:= SetOfPoints.regionQuery(CurrentP, Eps); IF result.size >= MinPts THEN FOR i FROM 1 to result.size 00 resultpP:= result.get(i); IF resultp.ClId IN {UNCLASSIFIED, NOISE) THEN IF resultp.ClId = UNCLASSIFIED THEN seeds.append(resultP); END IF SetOfPoints.changeC1Id(resultP, C1Id), ENDIF; //UNCLASSIFIED or NOISE END FOR; END IF ;// result.size >= Minpts Seed.delete(CurrentP) END WHILE ;//seeds Empty RETURN True; END IF; END ;//ExpandCluster Trong đó SetOfPoints hoặc là tập dữ liệu ban đầu hoặc là cụm được khám phá từ bước trước, C1Id (ClusterId) là nhãn đánh dấu phần tử dữ liệu nhiễu có thể thay đổi nếu chúng có thể liên lạc mật độ từ một điểm khác trong CSDL, điều này chỉ xảy ra đối với các điểm biên của dữ liệu. hàm SetOfPoints.get(i) trả về phần tử thứ I của SetofPoints. Thủ tục SetOfPoints.regionQuery(Point, Eps) trả về một danh sách các điểm dữ liệu lân cận với điểm Point trong ngưỡng Eps từ tập dữ liệu SetOfPoint. Trừ một số trường hợp ngoại lệ, kết quả của DBSCAN là độc lập với thứ tự duyệt các đối tượng dữ liệu. Eps và MinPts là hai tham số toàn cục được xác định bằng thủ công hoặc theo kinh nghiệm. Tham số Eps được đưa vào là nhỏ so với kích thước của không gian dữ liệu, thì độ phức tạp tính toán trung bình của mỗi truy vấn là O(logn). 6.2. Thuật toán OPTICS Thuật toán này là mở rộng của DBSCAN, tuy nhiên nó cải tiến bằng cách giảm bớt các tham số đầu vào. Thuật toán này không phân cụm các điểm -58- dữ liệu mà thực hiện tính toán và sắp xếp trên các điểm dữ liệu theo thứ tự tăng dần nhằm tự động PCDL và phân tích cụm tương tác hơn là đưa ra phân cụm một tập dữ liệu rõ ràng. Đây là thứ tự mô tả cấu trúc phân dữ liệu cụm dựa trên mật độ của dữ liệu, nó chứa thông tin tương ứng với phân cụm dựa trên mật độ từ một dãy các tham số được thiết lập và tạo thứ tự của các đối tượng trong CSDL, đồng thời lưu trữ khoản cách lõi và khoảng cách liên lạc phù hợp của mỗi đối tượng. Hơn nữa, thuật toán được đề xuất rút ra các cụm dựa trên thứ tự thông tin. Như vậy thông tin đủ cho trích ra tất cả các cụm dựa trên mật độ khoảng cách bất kỳ  mà nhỏ hơn khoảng cách  được sử dụng trong sinh thứ tự. Việc sắp xếp thứ tự được xác định bởi hai thuộc tính riêng của các điểm dữ liệu đó là khoảng cách nhân và khoảng cách liên lạc. Các phép đo này chính là kích thước mà có liên quan đến quá trình của thuật toán DBSCAN, tuy nhiên, chúng được sử dụng để xác định thứ tự của các điểm dữ liệu đã được xắp xếp. Thứ tự dựa tren cơ sở các điểm dữ liệu mà có khoảng cách nhân nhỏ nhất và tăng dần độ lớn. Điều duy nhất về phương pháp này là người sử dụng không phải xác định giá trị  hoặc MinPts phù hợp. Thuật toán này có thể phân cụm các đối tượng đã cho với các tham số đầu vào như  và MinPts, nhưng nó vẫn cho phép người sử dụng tùy ý lựa chon các giá trị tham số mà sẽ dãn đến khám phá các cụm chấp nhận được. Các thiết lập tham số thường dựa theo kinh nghiệm tập hợp và khó xác định, đặc biệt là với các tập dữ liệu đa chiều. Tuy nhiên, nó cũng có độ phức tạp thời gian thực hiện như DBSCAN bởi vì có cấu trúc tương đương với DBSCAN : O(nlogn)- n là kích thước của tập dữ liệu. Thứ tự cụm của tập dữ liệu có thể được biểu diễn bằng đồ thị, và được minh họa trong hình sau, có thể thấy ba cụm, giá trị  quyết định số cụm 6.3. Thuật toán DENCLUDE DENCLUDE đưa ra cách tiếp cận khác với các thuật toán phân cụm dựa trên mật độ trước đó, cách tiếp cận này xem xét mô hình được sử dụng một công thức toán để mô tả mỗi điểm dữ liệu sẽ ảnh hưởng trong mô hình như thế nào được gọi là hàm ảnh hưởng có thể xem như một h

Các file đính kèm theo tài liệu này:

15LV09_CNTTNguyenTrungSon.pdf