Luận văn Nghiên cứu khai phá top - K mẫu dãy thường xuyên trọng số với khoảng cách thời gian

Danh mục các chữ viết tắt.

Danh mục các bảng .

Danh mục các hình vẽ .

MỤC LỤC.1

MỞ ĐẦU.3

CHƯƠNG 1. TỔNG QUAN.6

1.1. TỔNG QUAN KHAI PHÁ DỮ LIỆU.6

1.1.1. Tập mục .6

1.1.2. Định nghĩa luật kết hợp .6

1.1.3. Độ hỗ trợ tập mục.7

1.1.4. Độ tin cậy của luật kết hợp.8

1.1.5. Tập mục thường xuyên.8

1.1.6. Quá trình tìm kiếm luật kết hợp .8

1.2. KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN VÀ MỘT SỐ MỞ RỘNG.10

1.2.1. Bài toán khai phá mẫu dãy thường xuyên và một số khái niệm cơ bản

trong khai phá mẫu dãy thường xuyên .10

1.2.2. Mẫu dãy thường xuyên có trọng số.12

1.2.3. Mẫu dãy thường xuyên với khoảng cách thời gian .12

1.3. THUẬT TOÁN APRIORIALL .13

1.4. THUẬT TOÁN PREFIXSPAN .18

CHƯƠNG 2. TOP-K MẪU DÃY THƯỜNG XUYÊN TRỌNG SỐ VỚI KHOẢNG

CÁCH THỜI GIAN .29

2.1. GIỚI THIỆU .29

2.2. BÀI TOÁN KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN CÓ TRỌNG SỐ.30

2.2.1. Các thuật ngữ mô tả bài toán khai phá mẫu dãy thường xuyên với trọng

số chuẩn hóa .30

2.2.2. CSDL điều kiện trong khai phá mẫu dãy thường xuyên với trọng số

chuẩn hóa.31

2.2.3. Ví dụ khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa sử dụng

CSDL điều kiện theo tiền tố .32

2.2.4. Thuật toán khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa sử

dụng CSDL điều kiện theo tiền tố (WPrefixSpan).39

84 trang | Chia sẻ: honganh20 | Lượt xem: 594 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu khai phá top - K mẫu dãy thường xuyên trọng số với khoảng cách thời gian, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

- Với mỗi dãy α với tiền tố , support (α) trên S = support (α) trên S|α - Kích thước của CSDL điều kiện với tiền tố  không vượt quá S Thuật toán PrefixSpan Đầu vào : - CSDL dãy : S, - Ngưỡng hỗ trợ : min_sup, Đầu ra: Tập các mẫu dãy thường xuyên L 21 Thủ tục PrefixSpan (α,l,S|α ) Tham số: - α là một dãy thường xuyên - l là độ dài của dãy α - S|α là CSDL điều kiện với tiền tố α. S là trường hợp α =  Bắt đầu: (1). Duyệt S|α, đếm độ hỗ trợ của mỗi mục và tìm các mục thường xuyên  sao cho: Với mỗi : (a)  có thể được ghép làm thành phần cuối cùng của α để tạo thành một mẫu dãy thường xuyên hoặc (b) có thể được nối vào với α để tạo thành một mẫu dãy thường xuyên - Kiểm tra các tập mục ứng viên  trong Ck để tìm mẫu dãy thường xuyên có trọng số chuẩn hóa thỏa mãn tính chất support()*NW()  wmin_sup, nạp vào L (2). Lặp với mỗi mẫu dãy thường xuyên  - Ghép  với α để tạo thành một mẫu dãy α’ và đầu ra là α’ (3). Lặp với mỗi α’ - Xây dựng CSDL điều kiện với tiền tố α’ là S|α’ . - Thực hiện đệ quy thủ tục PrefixSpan(α’,l+1,S|α’) Kết thúc. 22 Ví dụ thuật toán PrefixSpan Cho một CSDL dãy SDB như Bảng 1.4, giá trị minsup =2. Khi đó việc khai phá các mẫu dãy thường xuyên trong CSDL dãy S theo phương pháp PrefixSpan được thực hiện theo các bước như sau: Bảng 1.4. Cơ sở dữ liệu dãy SDB ví dụ thuật toán PrefixSpan SID Dãy dữ liệu 1 2 3 4 Bước 1: Tìm các dãy thường xuyên có độ dài 1 Duyệt CSDL dãy SDB lần đầu tiên để tìm tất cả các mẫu dãy thường xuyên có độ dài 1, đếm độ hỗ trợ của mỗi mục. Khi đó ta có các giá trị độ hỗ trợ của mỗi mục tương ứng như sau: : 4, : 4, : 4, :3, : 3, : 3, Kiểm tra độ hỗ trợ mỗi mục với giá trị minsup =2. Ta có tập L: L = , , , , , Bước 2: Chia không gian tìm kiếm Toàn bộ các mẫu dãy thường xuyên được khai phá trong các phân vùng gồm 6 vùng tương ứng với 6 tiền tố như sau: (1) Mẫu dãy với tiền tố (2) Mẫu dãy với tiền tố (3) Mẫu dãy với tiền tố (4) Mẫu dãy với tiền tố (5) Mẫu dãy với tiền tố (6) Mẫu dãy với tiền tố Bước 3: Khai phá các mẫu dãy thường xuyên Các tập con mẫu dãy thường xuyên được khai phá bằng cách xây dựng các CSDL điều kiện tương ứng với các tiền tố, và khai phá chúng bằng phương 23 pháp đệ quy. Các bước thực hiện như sau: A. Tìm các các mẫu dãy thường xuyên với tiền tố Trong một dãy có chứa , chỉ có các dãy bắt đầu bằng sự xuất hiện đầu tiên của nên được lựa chọn. Ví dụ, trong chuỗi , chỉ có dãy được lựa chọn, tương tự với dãy , chỉ có dãy (~ d) c (bc) (ae) bc> được lựa chọn. Khi đó, CSDL điều kiện với tiền tố bao gồm 4 dãy sau Bảng 1.5. Cơ sở dữ liệu điều kiện với tiền tố SID Dãy dữ liệu 1 2 3 4 Bằng cách quét CSDL điều kiện với tiền tố , độ hỗ trợ của các mục dữ liệu của nó tương ứng là a: 2, b: 4, c: 4, d: 2, e:1, f: 2, (~b): 2, (~c): 0 , (~d): 1, (~ e): 0 và (~ f): 1. Kiểm tra độ hỗ trợ mỗi mục với giá trị minsup=2. Khi đó, ta có các mục dữ liệu bị tỉa là e, (~c), (~d), (~e), (~f). Các mục dữ liệu được phát hiện là a,b,c,d,f,(~b) L = L  {, , , , , } Theo tính chất đệ quy, các mẫu dãy thường xuyên với tiền tố sẽ tiếp tục được chia thành 6 vùng tương ứng với 6 tiền tố gồm: (1) Mẫu dãy với tiền tố (2) Mẫu dãy với tiền tố (3) Mẫu dãy với tiền tố (4) Mẫu dãy với tiền tố 24 (5) Mẫu dãy với tiền tố (6) Mẫu dãy với tiền tố A.1. Đối với mẫu dãy với tiền tố , ta xây dựng CSDL điều kiện với tiền tố . Khi đó Bảng 1.6. Cơ sở dữ liệu điều kiện với tiền tố SID Dãy dữ liệu 1 2 Bằng cách quét CSDL điều kiện với tiền tố , độ hỗ trợ của các mục dữ liệu của nó là a:1, c:1, d:1, f:1, (~b):1, (~e): 1. Kiểm tra độ hỗ trợ mỗi mục với giá trị minsup = 2. Khi đó, không có dãy thường xuyên với tiền tố được phát hiện. Dừng thực hiện đối với tiền tố A.2. Đối với mẫu dãy với tiền tố , ta xây dựng CSDL điều kiện với tiền tố . Khi đó: Bảng 1.7. Cơ sở dữ liệu điều kiện với tiền tố SID Dãy dữ liệu 1 2 3 Bằng cách quét CSDL điều kiện với tiền tố , độ hỗ trợ của các mục dữ liệu của nó là a:2, c:2, d:1, e:1,f:1, (~c):2. Kiểm tra độ hỗ trợ mỗi mục với giá trị minsup = 2. Các mục dữ liệu được phát hiện là: a, c, (~c) L = L  {, , } Theo tính chất đệ quy, mẫu dãy thường xuyên với tiền tố sẽ tiếp tục được chia thành 3 vùng tương ứng với tiền tố gồm: (1) Mẫu dãy với tiền tố 25 (2) Mẫu dãy với tiền tố (3) Mẫu dãy với tiền tố A.2.1. Đối với mẫu dãy với tiền tố , ta xây dựng CSDL điều kiện với tiền tố . Khi đó CSDL điều kiện với tiền tố là Bảng 1.8. Cơ sở dữ liệu điều kiện với tiền tố SID Dãy dữ liệu 1 2 Bằng cách quét CSDL điều kiện với tiền tố , độ hỗ trợ của các mục dữ liệu của nó là c:1, d:1, f:1, (~c):1, (~e):1. Kiểm tra độ hỗ trợ mỗi mục với giá trị minsup = 2. Khi đó, không có dãy thường xuyên với tiền tố được phát hiện. Dừng thực hiện đối với tiền tố . A.2.2. Đối với mẫu dãy với tiền tố , ta xây dựng CSDL điều kiện với tiền tố . Khi đó CSDL điều kiện với tiền tố là {}. Không có dãy thường xuyên với tiền tố được phát hiện. Dừng thực hiện đối với tiền tố A.2.3. Đối với mẫu dãy với tiền tố , ta xây dựng CSDL điều kiện với tiền tố . Khi đó CSDL điều kiện với tiền tố là Bảng 1.9. Cơ sở dữ liệu điều kiện với tiền tố SID Dãy dữ liệu 1 2 Bằng cách quét CSDL điều kiện với tiền tố , độ hỗ trợ của các mục dữ liệu của nó là a:2,c:1, d:1,e:1, f:1. Kiểm tra độ hỗ trợ mỗi mục với giá trị minsup=2. Các mục dữ liệu được phát hiện là: a 26 L = L  { } Theo tính chất đệ quy, mẫu dãy thường xuyên với tiền tố sẽ tiếp tục được chia thành 1 vùng tương ứng với tiền tố gồm: (1) Mẫu dãy với tiền tố A.2.3.1. Đối với mẫu dãy với tiền tố , ta xây dựng CSDL điều kiện với tiền tố . Khi đó CSDL điều kiện với tiền tố là {}. Không có dãy thường xuyên với tiền tố được phát hiện. Dừng thực hiện đối với tiền tố / A.3. Đối với mẫu dãy với tiền tố tương tự , , , <(ab), ta xây dựng CSDL điều kiện với tiền tố tương ứng và thực hiện khai phá mẫu dãy thường xuyên tương tự như các bước A.1 và bước A.2 B. Tìm tương tự đối với các mẫu dãy thường xuyên với tiền tố , , , , Đối với mẫu dãy với tiền tố ,,,,, ta xây dựng các CSDL điều kiện với các tiền tố tương ứng. Cách khai phá mẫu dãy thường xuyên với mỗi tiền tố tương ứng cũng thực hiện tương tự như bước A, và thực hiện khai phá theo phương pháp đệ quy. Bước 4: Kết quả là các mẫu dãy thường xuyên trong CSDL dãy S Các mẫu dãy thường xuyên được khai phá lần lượt trong quá trình đệ quy đối với từng tiền tố. Bảng 1.10. Kết quả mẫu dãy thường xuyên theo thuật toán PrefixSpan Tiền tố (Prefix) CSDL điều kiện theo tiền tố Mẫu dãy thường xuyên , , , , ,, , , , , 27 Tiền tố (Prefix) CSDL điều kiện theo tiền tố Mẫu dãy thường xuyên , , , , , , , , , , , , , 28 Tiền tố (Prefix) CSDL điều kiện theo tiền tố Mẫu dãy thường xuyên , , Nhận xét thuật toán PrefĩxSpan: Thuật toán PrefixSpan [9]: Giải thuật dựa trên phương pháp phát triển mẫu dãy, phát triển những mẫu dãy dài từ những mẫu dãy có độ dài ngắn hơn đã có, đồng thời kết hợp với phương pháp chia nhỏ không gian tìm kiếm theo tiền tố. Thuật toán phát triển mẫu dãy không cần phát sinh thêm ứng viên giống như giải thuật AprioriAll [6]. Mặt khác thực hiện phép chiếu CSDL theo tiền tố nên không gian tìm kiếm giảm đáng kể. Nhờ vậy tiết kiệm bộ nhớ và việc thực hiện đếm độ hỗ trợ được nhanh hơn. 29 CHƯƠNG 2. TOP-K MẪU DÃY THƯỜNG XUYÊN TRỌNG SỐ VỚI KHOẢNG CÁCH THỜI GIAN 2.1. GIỚI THIỆU Mục tiêu của khai phá mẫu thường xuyên [6, 7, 8] là tìm ra các mẫu dãy xuất hiện nhiều lần trong 1 CSDL dãy. Tuy nhiên, các mẫu dãy thường xuyên không thể hiện được mức độ quan trọng của từng mục dữ liệu. Do đó, bài toán khai phá mẫu dãy thường xuyên có trọng số ra đời để giải quyết vấn đề về mức độ quan trọng của các mục. Một số thuật toán có thể kể tới là [19, 23, 24, 25, 17, 26, 27]. Trong các thuật toán này, không chỉ tần xuất mà mức độ quan trọng của các mục trong mẫu dãy cũng được tính tới. Để thể hiện mức độ quan trọng của các mục, mỗi mục được gán 1 giá trị thực dương (thường là trong khoảng 0-1). Tập các giá trị này được lưu vào 1 bảng gọi là bảng trọng số. Do trong các mẫu dãy có trọng số, độ hỗ trợ không còn tính phản đơn điệu nên trong các thuật toán khai phá mẫu dãy với trọng số, để duy trì tính phản đơn điệu, giá trị support*maxW được sử dụng làm cận trên của các mẫu dãy có trọng số. Một vấn đề khác của các mẫu dãy thường xuyên là không chứa thông tin về thời gian của các giao dịch. Tuy nhiên, dữ liệu trong thực tế thường có loại thông tin này. Ví dụ: dữ liệu mua sắm có thời gian của các giao dịch mua hàng, dữ liệu duyệt web lưu thời gian của các lần truy cập Khai phá mẫu dãy thường xuyên sử dụng một ngưỡng tối thiểu để tìm ra các mẫu dãy có giá trị. Ngưỡng này được đặt bởi người sử dụng như một giá trị đầu vào. Tuy nhiên, không dễ để chọn 1 ngưỡng phù hợp, nếu đặt ngưỡng quá cao sẽ tìm được ít mẫu dãy có giá trị, nếu đặt ngưỡng quá thấp sẽ dẫn tới quá nhiều mẫu dãy được tìm ra. Vì vậy, bài toán top-k ra đời để giải quyết vấn đề này. Trong bài toán top-k [28, 29, 30, 31, 32, 33], người sử dụng không cần phải đặt ngưỡng tối thiểu mà chỉ cần đưa vào giá trị k. Ngưỡng tối thiểu sẽ được tăng dần cho tới khi tìm ra được k mẫu dãy có giá trị nhất. 30 2.2. BÀI TOÁN KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN CÓ TRỌNG SỐ 2.2.1. Các thuật ngữ mô tả bài toán khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa Cho I = {i1, i2, , in} là tập hợp các mục dữ liệu. Mỗi mục ij  I được gán một trọng số wj, j = 1,.....,n. Một dãy Sm là một danh sách được sắp xếp theo thứ tự của các mục dữ liệu {s1, s2, , sm} với sj  I là một tập mục được gọi là thành phần của dãy. Khi đó, S = {s1, s2, , sm} và sj có dạng (i1i2 ik) và it là một mục dữ liệu. Một dãy S bị loại nếu chỉ có duy nhất một mục dữ liệu. Một mục dữ liệu chỉ xuất hiện 1 lần trong 1 thành phần của một dãy sj, nhưng có thể xuất hiện nhiều lần trong các thành phần của một dãy S. Kích thước |S| của một dãy là số lượng của các thành phần trong dãy S. Độ dài l(S) của dãy là tổng số mục dữ liệu trong dãy S. Một cơ sở dữ liệu dãy S = {S1, S2, , Sn} là một tập các bộ dữ liệu (sid,Sk) với sid là định danh của một dãy và Sk là một dãy dữ liệu. Định nghĩa 5. Độ hỗ trợ của một dãy: Độ hỗ trợ của dãy Sa trong cơ sở dữ liệu dãy S là số lượng các bản ghi trong S có chứa dãy Sa Định nghĩa 6. Trọng số chuẩn hóa của dãy: Cho I = {i1, i2, , in} là tập hợp các mục dữ liệu. Mỗi mục ij  I được gán một trọng số wj, j = 1,.....,n. Khi đó trọng số chuẩn hóa của một dãy  = được tính bằng công thức 𝑁𝑊() = 1 𝑛 ∑ 𝑤𝑗 𝑖𝑗 ∈  Định nghĩa 7. Độ hỗ trợ với trọng số chuẩn hóa của dãy: Ta gọi đại lượng NWsupport() của dãy  là độ hỗ trợ với trọng số chuẩn hóa của dãy  𝑁𝑊𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝛼) = 𝑁𝑊(𝛼) ∗ 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝛼) = ( 1 𝑛 ∑ 𝑤𝑗 𝑖𝑗 ∈𝛼 ) ∗ 𝑆𝐶(𝛼) 31 Định nghĩa 8. Mẫu dãy thường xuyên với trọng số chuẩn hóa: Cho một CSDL dãy S, một ngưỡng hỗ trợ tối thiểu wmin_sup. Một dãy α được gọi là mẫu dãy thường xuyên với trọng số chuẩn hóa nếu thỏa mãn tính chất. NWSupport(α)  wmin_sup Khi đó, bài toán khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa sử dụng CSDL điều kiện theo tiền tố được phát biểu như sau: • Cho CSDL dãy S, mỗi mục ij ⊆ I được gán một trọng số wj , ngưỡng hỗ trợ tối thiểu wmin_sup. Tìm tất cả các mẫu dãy thường xuyên với trọng số chuẩn hóa trong S, tức là tìm tập L : L = {Sa ⊆ S | NWsupport(Sa )  wmin_sup} • Mẫu dãy thường xuyên với trọng số chuẩn hóa không thỏa mãn tính chất phản đơn điệu, nghĩa là tập con của một mẫu dãy thường xuyên với trọng số chuẩn hóa không nhất thiết phải là mẫu dãy thường xuyên với trọng số chuẩn hóa. 2.2.2. CSDL điều kiện trong khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa Thuật toán khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa WPrefixSpan [34] trong đó cách tiếp cận chính là đẩy các ràng buộc trọng số và độ hỗ trợ trong thuật toán khai phá mẫu dãy và đảm bảo tính chất phản đơn điệu. Để tránh phải thực hiện kiểm tra tất cả khả năng kết hợp của một dãy các ứng viên tiềm năng, ta có thể thay thế các thứ tự của các mục dữ liệu trong từng thành phần trong dãy. Khi đó, các mục trong một thành phần của một dãy có thể được liệt kê theo 1 trật tự mà không mất tính tổng quát, ta có thể giả định rằng thứ tự này luôn luôn được liệt kê theo thứ tự bảng chữ cái. Ví dụ như dãy thay vì . Với quy ước như vậy, sự biểu hiện của một dãy là duy nhất. Nếu ta theo thứ tự của các tiền tố của một dãy và CSDL điều kiện của tiền tố đó chỉ có các hậu tố của một dãy, thì ta có thể kiểm tra các dãy con theo thứ 32 tự sắp xếp trên và CSDL điều kiện theo tiền tố đó. Định nghĩa 9. Mẫu dãy ứng viên: Cho một ngưỡng hỗ trợ tối thiểu wmin_sup. Một dãy α được gọi là dãy ứng viên mẫu dãy thường xuyên với trọng số chuẩn hóa nếu thỏa mãn tính chất Support(α) * MaxW  wmin_sup Với MaxW là giá trị lớn nhất của trọng số trong các mục trong S. Mẫu dãy ứng viên được xây dựng nhằm mục đích tỉa bớt không gian tìm kiếm mà vẫn đảm bảo tính phản đơn điệu trong khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa. 2.2.3. Ví dụ khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa sử dụng CSDL điều kiện theo tiền tố Cho một CSDL dãy S như Bảng 2.1, giá trị các trọng số của các mục dữ liệu như Bảng 2.2, giá trị wmin_sup = 2. Khi đó việc khai phá các mẫu dãy thường xuyên với trọng số chuẩn hóa trong CSDL dãy S theo phương pháp WPrefixSpan [34] được thực hiện theo các bước như sau: Bảng 2.1. Cơ sở dữ liệu dãy S Bảng 2.2. Giá trị trọng số của các mục dữ liệu Dãy dữ liệu Tên mục Trọng số a 0.9 b 0.75 c 0.8 d 0.85 e 0.75 f 0.7 g 0.85 h 0.8 33 Bước 1: Tìm các ứng viên của mẫu dãy thường xuyên với trọng số chuẩn hóa có độ dài 1 Duyệt CSDL dãy S lần đầu tiên để tìm tất cả các ứng viên của mẫu dãy thường xuyên có trọng số chuẩn hóa có độ dài 1, đếm độ hỗ trợ của mỗi mục. Một mục có độ dài 1 có thể không phải là một mẫu dãy thường xuyên có trọng số chuẩn hóa nhưng có thể kết hợp với các mục khác có độ hỗ trợ lớn hơn hoặc trọng số lớn hơn để trở thành mẫu dãy thường xuyên có trọng số trong các mẫu có độ dài lớn hơn. Khi đó ta có các giá trị độ hỗ trợ của mỗi mục như sau: : 6, : 6, : 6, : 5, : 4, : 3, : 2, : 1 Giá trị trọng số là (a: 0,9 ; b: 0,75 ; c: 0,8 ; d: 0,85 ; e: 0,75 ; f: 0,7 ; g: 0,85 ; h: 0,8) Giá trị MaxW = 0.9 Kiểm tra theo Định nghĩa 9, loại mục g và h do giá trị: support(g)*MaxW = 2*0.9=1.8 < wmin_sup và support(h)*MaxW = 1*0.9=0.9 < wmin_sup Khi đó, ta có các ứng viên mẫu dãy thường xuyên với trọng số chuẩn hóa có độ dài 1 là C1 = , , , , , Kiểm tra theo Định nghĩa 8 với các ứng viên, Khi đó, ta có các mẫu dãy thường xuyên với trọng số chuẩn hóa có độ dài 1 là: NWsupport(a) = 6*0,9 = 5,4 NWsupport(b) = 6*0,75 = 4,5 NWsupport(c) = 6*0,8 = 4,8 NWsupport(d) = 5*0,85 = 4,25 NWsupport(e) = 4*0,75 = 3 NWsupport(f) = 3*0,7 = 2,1 Ta có: L = , , , , , Bước 2: Chia không gian tìm kiếm Toàn bộ các ứng viên và mẫu dãy thường xuyên với trọng số chuẩn hóa được khai phá trong các phân vùng gồm 6 vùng tương ứng với 6 tiền tố gồm: 34 (1) Mẫu dãy với tiền tố (2) Mẫu dãy với tiền tố (3) Mẫu dãy với tiền tố (4) Mẫu dãy với tiền tố (5) Mẫu dãy với tiền tố (6) Mẫu dãy với tiền tố Bước 3: Khai phá các tập con ứng viên và mẫu dãy thường xuyên với trọng số chuẩn hóa Các tập con ứng viên và mẫu dãy thường xuyên với trọng số chuẩn hóa được khai phá bằng cách xây dựng các CSDL điều kiện tương ứng với các tiền tố, và khai phá chúng bằng phương pháp đệ quy. Các bước thực hiện như sau: A. Tìm các ứng viên và các mẫu dãy thường xuyên với trọng số chuẩn hóa với tiền tố Trong một dãy có chứa , chỉ có các dãy bắt đầu bằng sự xuất hiện đầu tiên của nên được lựa chọn. Ví dụ, trong chuỗi , chỉ có dãy được lựa chọn, tương tự với dãy , chỉ có dãy (~ d) c (bc) (ae) bc> được lựa chọn. Khi đó, CSDL điều kiện với tiền tố bao gồm 6 dãy sau: Bảng 2.3. Cơ sở dữ liệu điều kiện với tiền tố SID Dãy dữ liệu 1 2 3 4 5 6 Bằng cách quét CSDL điều kiện với tiền tố , độ hỗ trợ của các mục dữ liệu của nó là a: 4, b: 6, c: 6, d: 4, e: 2, f: 2, (~b): 4, (~d): 1 , (~ e): 1 và (~ f): 1. Kiểm tra theo Định nghĩa 9, tìm các mẫu ứng viên có độ dài 2 với tiền tố 35 support(a)*MaxW = 4*0.9 = 3.6 support(b)*MaxW = 6*0.9 = 5.4 support(c)*MaxW = 6*0.9 = 5.4 support(d)*MaxW = 4*0.9 = 3.6 support(e)*MaxW = 2*0.9 = 1.8 support(f)*MaxW = 2*0.9 = 1.8 support((~b))*MaxW = 4*0.9 = 3.6 support((~d))*MaxW =1*0.9= 0.9 support((~e))*MaxW = 1*0.9 = 0.9 support((~f))*MaxW =1*0.9= 0.9 Khi đó, ta có các mục dữ liệu bị tỉa là , , , , . Các ứng viên mẫu dãy thường xuyên với trọng số chuẩn hóa có độ dài 2 với tiền tố là C2 = , , , , Kiểm tra theo Định nghĩa 8 với các ứng viên trong C2 , Khi đó, ta có các mẫu dãy thường xuyên với trọng số chuẩn hóa có độ dài 2 với tiền tố là: NWsupport(aa) = 4*(0,9+0,9)/2 = 5,4 NWsupport(ab) = 6*(0,9+0,75)/2 = 4,95 NWsupport(ac) = 6*(0,9+0,8)/2 = 5,1 NWsupport(ad) = 4*(0,9+0,85)/2 = 3,5 NWsupport((ab)) = 4*(0,9+0,9+0,75)/3 = 3,4 L = L  {, , , , } Theo tính chất đệ quy, các ứng viên và mẫu dãy thường xuyên với trọng số chuẩn hóa với tiền tố sẽ tiếp tục được chia thành 5 vùng tương ứng với 5 tiền tố gồm: (1) Mẫu dãy với tiền tố (2) Mẫu dãy với tiền tố (3) Mẫu dãy với tiền tố (4) Mẫu dãy với tiền tố (5) Mẫu dãy với tiền tố A.1. Đối với mẫu dãy với tiền tố , ta xây dựng CSDL điều kiện với 36 tiền tố với các mục dữ liệu trong tập ứng viên trong C2 . Khi đó Bảng 2.4. Cơ sở dữ liệu điều kiện với tiền tố SID Dãy dữ liệu 1 2 3 4 Bằng cách quét CSDL điều kiện với tiền tố , độ hỗ trợ của các mục dữ liệu của nó là a: 1, b: 2, c: 4, d: 2, (~b): 3, (~c): 1. Kiểm tra theo Định nghĩa 9, tìm các mẫu ứng viên có độ dài 3 với tiền tố support(a)*MaxW = 1*0.9=0.9 support(b)*MaxW = 2*0.9=1.8 support(c)*MaxW = 4*0.9 = 3.6 support(d)*MaxW = 2*0.9 = 1.8 support((~b))*MaxW = 3*0.9 = 2.7 support((~c))*MaxW = 1*0.9 = 0.9 Khi đó, ta có các mục dữ liệu bị tỉa là , , , Các ứng viên mẫu dãy thường xuyên với trọng số chuẩn hóa có độ dài 3 với tiền tố là C3 = , Kiểm tra theo Định nghĩa 8 với các ứng viên trong C3 , Khi đó, ta có các mẫu dãy thường xuyên với trọng số chuẩn hóa có độ dài 3 với tiền tố là: NWsupport(aac) = 4*(0,9+0,9+0,8)/3 = 3,46 NWsupport(a(ab)) = 3*(0,9+0,9+0,75)/3 = 2,55 L = L  {, } Theo tính chất đệ quy, các ứng viên và mẫu dãy thường xuyên với trọng số chuẩn hóa với tiền tố sẽ tiếp tục được chia thành 2 vùng tương ứng với 2 tiền tố gồm: 37 (1) Mẫu dãy với tiền tố (2) Mẫu dãy với tiền tố A.1.1. Đối với mẫu dãy với tiền tố , ta xây dựng CSDL điều kiện với tiền tố với các mục dữ liệu trong tập ứng viên trong C3 . Khi đó CSDL điều kiện với tiền tố chỉ có 1 dãy là c. A.1.2. Đối với mẫu dãy với tiền tố , ta xây dựng CSDL điều kiện với tiền tố với các mục dữ liệu trong tập ứng viên trong C3 . Khi đó CSDL điều kiện với tiền tố có các dãy là Bảng 2.5. Cơ sở dữ liệu điều kiện với tiền tố SID Dãy dữ liệu 1 2 3 Bằng cách quét CSDL điều kiện với tiền tố , độ hỗ trợ của các mục dữ liệu của nó là a: 1, b: 1, c: 3, (~d): 1, (~c): 1. Kiểm tra theo Định nghĩa 9, tìm các mẫu ứng viên có độ dài 4 với tiền tố support(a)*MaxW = 1*0.9 = 0.9 support(b)*MaxW = 1*0.9 = 0.9 support(c)*MaxW = 3*0.9 = 2.7 support((~d))*MaxW = 1*0.9 = 0.9 support((~c))*MaxW = 1*0.9 = 0.9 Khi đó, ta có các mục dữ liệu bị tỉa là , , , Các ứng viên mẫu dãy thường xuyên với trọng số chuẩn hóa có độ dài 4 với tiền tố là C4 = Kiểm tra theo Định nghĩa 8 với các ứng viên trong C4 , Khi đó, ta có các mẫu dãy thường xuyên với trọng số chuẩn hóa có độ dài 4 với tiền tố là: 38 NWsupport(a(ab)c) = 3*(0,9+0,9+0,75+0,8)/4 = 2,51 L = L  {} Theo tính chất đệ quy, các ứng viên và mẫu dãy thường xuyên với trọng số chuẩn hóa với tiền tố sẽ tiếp tục được chia thành 1 vùng tương ứng với 1 tiền tố gồm: (1) Mẫu dãy với tiền tố A.1.2.1. Đối với mẫu dãy với tiền tố , ta xây dựng CSDL điều kiện với tiền tố với các mục dữ liệu trong tập ứng viên trong C4 . Khi đó CSDL điều kiện với tiền tố chỉ có 1 dãy là . A.2. Đối với mẫu dãy với tiền tố , tiền tố , tiền tố , tiền tố , ta xây dựng CSDL điều kiện với các tiền tố tương ứng với các mục dữ liệu trong tập ứng viên trong C2 . Cách khai phá mẫu dãy thường xuyên có trọng số chuẩn hóa với mỗi tiền tố tương ứng cũng thực hiện tương tự như bước A.1. B. Tìm tương tự với các ứng viên và các mẫu dãy thường xuyên với trọng số chuẩn hóa với tiền tố ,,,, Đối với mẫu dãy với tiền tố ,,,,, ta xây dựng các CSDL điều kiện với các tiền tố tương ứng với các mục dữ liệu trong tập ứng viên trong C1. Cách khai phá mẫu dãy thường xuyên có trọng số chuẩn hóa với mỗi tiền tố tương ứng cũng thực hiện tương tự như bước A, và thực hiện đệ khai phá theo phương pháp đệ quy. Bước 4: Kết quả là các mẫu dãy thường xuyên với trọng số chuẩn hóa trong CSDL dãy S Các mẫu dãy thường xuyên có trọng số chuẩn hóa được khai phá lần lượt trong quá trình đệ quy đối với từng tiền tố. Trong phương pháp khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa này, kết quả sẽ ít hơn các mẫu dãy thường xuyên khi không gắn thêm yếu tố trọng số của các mục dữ liệu. 39 2.2.4. Thuật toán khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa sử dụng CSDL điều kiện theo tiền tố (WPrefixSpan) - Đầu vào : (1) CSDL dãy : S, (2) Ngưỡng hỗ trợ : wmin_sup, (3) Trọng số của các mục: wi, - Đầu ra: Tập các mẫu dãy thường xuyên với trọng số chuẩn hóa L Thuật toán WPrefixSpan Bắt đầu 1. Duyệt CSDL S lần đầu, tính độ hỗ trợ và tìm các mục ứng viên có kích thước 1 thỏa mãn tính chất: Một tập mục P là tập mục ứng viên nếu thỏa mãn điều kiện 1.1, P sẽ được nạp vào Ck Điều kiện 1.1: support (P)* MaxW  wmin_sup 2. Kiểm tra các tập mục ứng ứng viên trong Ck để tìm mẫu dãy thường xuyên có trọng số chuẩn hóa thỏa mãn tính chất support(P)*NW(P)  wmin_sup, nạp vào L 3. Lặp với mỗi mục trọng số chuẩn hóa P, trong CSDL dãy S Thực hiện hàm đệ quy WPrefixSpan(,l,S|P) Kết thúc lặp Kết thúc 40 Thủ tục WPrefixSpan (α,l,S|α ) Tham số: (1) α là một dãy ứng viên với trọng số chuẩn hóa thỏa điều kiện 1.1 (2) l là độ dài của α (3) S|α là CSDL điều kiện với tiền tố α. S là trường hợp α =  Bắt đầu: 1. Duyệt S|α, đếm độ hỗ trợ của mỗi mục và tìm các mục ứng viên trọng số chuẩn hóa  trong các dãy. Một mục ứng viên trọng số chuẩn hóa  thỏa mãn tính chất 1.1, nạp vào Ck Điều kiện 1.1: support ()* MaxW  wmin_sup - Với mỗi  trong Ck : (a)  có thể được ghép làm thành phần cuối cùng của α để tạo thành ứng viên cho một mẫu dãy thường xuyên với trọng số chuẩn hóa hoặc (b) có thể được nối vào với α để tạo thành ứng viên cho một mẫu dãy thường xuyên với trọng số chuẩn hóa - Kiểm tra các tập mục ứng viên  trong Ck để tìm mẫu dãy thường xuyên có trọng số chuẩn hóa thỏa mãn tính chất support()*NW()  wmin_sup, nạp vào L 2. Lặp với mỗi ứng viên mẫu dãy thường xuyên với trọng số chuẩn hóa  - Ghép  với α để tạo thành ứng viên một mẫu dãy thường xuyên α’ và đầu ra là α’ 3. Lặp với mỗi α’ - Xây dựng CSDL điều kiện với tiền tố α’ là S|α’ . - Thực hiện đệ quy thủ tục WPrefixSpan(α’,l+1,S|α’) Kết thúc. 41 2.3. BÀI TOÁN MẪU DÃY THƯỜNG XUYÊN TRỌNG SỐ VỚI KHOẢNG CÁCH THỜI GIAN Phần này trình bày thuật toán WIPrefixSpan [35] khai phá mẫu dãy thường xuyên trọng số với khoảng cách thời gian. Thuật toán WIPrefixSpan [35] không chỉ quan tâm tới trọng số của các mục trong CSDL mà còn cả khoảng cách thời gian giữa các tập mục. 2.3.1. Mô tả bài toán Cho I = {i1, i2, , in} là tập hợp các mục dữ liệu. Mỗi mục ij  I được gán một trọng số wj, j = 1,.....,n. Một dãy Sm là một danh sách được sắp xếp theo thứ tự của các mục dữ liệu dạng { (t1,1,s1), (t1,2,s2), (t1,3,s3),..., (t1,m,sm)} với sj  I trong đó (1 ≤ j ≤ m) là một tập mục được gọi là thành phần của dãy và sj có dạng (i1i2 ik) và it là một mục dữ liệu thuộc I , và t, là khoảng cách thời gian giữa dãy s và s. Một dãy Sm bị loại nếu chỉ có duy nhất một mục dữ liệu it  I . Một mục dữ liệu chỉ xuất hiện 1 lần trong thành phần của một dãy sj, nhưng có thể xuất hiện nhiều lần trong các thành phần của một dãy Sm. Kích thước |Sm| của một dãy là số lượng của các thành phần trong dãy Sm. Độ dài l(Sm) của dãy là tổng số mục dữ liệu trong dãy Sm. Một cơ sở dữ liệu dãy S = {S1, S2, , Sn} là một tập các bộ dữ liệu (sid,Sk) với sid là định danh của một dãy và Sk là một dãy dữ liệu có dạng {(t1,1,s1), (t1,2,s2), (t1,3,s3),..., (t1,m,sm)}. Định nghĩa 1. (Dãy dữ liệu có khoả

Các file đính kèm theo tài liệu này:

luan_van_nghien_cuu_khai_pha_top_k_mau_day_thuong_xuyen_tron.pdf