Khóa luận Phát hiện luật bằng cách sử dụng siêu phẳng tối ưu theo hướng tiếp cân tập thô

MỤC LỤC

MỤC LỤC .2

PHẦN MỞ ĐẦU .5

Chương 1 TỔNG QUAN VỀKHAI PHÁ TRI THỨC .8

1.1 .Khai phá tri thức.8

1.1.1. Định nghĩa khai phá tri thức .8

1.1.2.Các giai đoạn của quá trình khai phá tri thức.8

1.1.3.Khai phá dữliệu.10

1.2 .Khai phá tri thức theo cách tiếp cận tập thô.12

1.2.1.Một sốkhái niệm .12

1.2.1.1. Khái niệm hệthông tin .12

1.2.1.2. Khái niêm vềbảng quyết định.13

1.2.1.3. Khái niệm quan hệkhông phân biệt được trong hệthông tin. .15

1.2.1.4. Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định.16

1.2.1.5. Tập thô trong không gian xấp xỉ. .17

1.2.2.Khai phá tri thức theo cách tiếp cận tập thô. .19

1.2.2.1. Sựrời rạc hoá dữliệu theo cách tiếp cận tập thô. .19

1.2.2.2. Lựa chọn thuộc tính dựa trên tập thô.19

1.2.2.3. Khám phá luật bới bảng phân bốtổng quát dựa trên tập thô. .20

1.2.2.4. Khám phá mẫu trong hệthông tin.20

1.3 .Kết luận. .21

Chương 2 KHAI PHÁ LUẬT KẾT HỢP.22

2.1 .Khai phá luật kết hợp trong cơsởdữliệu. .22

2.1.1.Bài toán xuất phát.22

2.1.2.Mô hình hoá bài toán.22

2.1.3.Thuật toán khai phá luật kết hợp. .25

2.1.3.1. Tập phổbiến.25

2.1.3.2. Khai phá luật dựa trên tập mục phổbiến.25

2.1.4.Kết luận.28

2.2 .Sinh cây quyết định từhệthông tin.29

2.2.1.Thuật toán học cây quyết định.29

2.2.2.Một sốphương pháp giải quyết vấn đềrời rạc hoá. .35

2.2.2.1. Maximal Discernibility (MD) Heuristic.35

2.2.2.2. Sựrời rạc hoá định nghĩa bằng siêu phẳng. .36

2.2.2.3. Những tính chất của phương thức MD.39

2.2.2.4. Xây dựng cây quyết định không đối xứng. .43

2.2.3.Kết luận.50

Chương 3 CHƯƠNG TRÌNH THỬNGHIỆM. .51

3.1 .Mô tảdữliệu. .51

3.2 .Xây dựng chương trình. .53

3.3 .Kết quảthửnghiệm. .57

3.4 .Nhận xét. .61

KẾT LUẬN. .62

Tài liêu tham khảo:.63

63 trang | Chia sẻ: oanh_nt | Lượt xem: 1922 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Khóa luận Phát hiện luật bằng cách sử dụng siêu phẳng tối ưu theo hướng tiếp cân tập thô, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

thể tham gia cùng. 1.2.2.2. Lựa chọn thuộc tính dựa trên tập thô Các cơ sở dữ liệu trong thực tế thương có rất nhiều thuộc tính, những thuộc tính cần thiết cho lĩnh vực mà bài toán khai phá dữ liệu mà chúng ta đang xử lý không phải là tất cả. Việc lựa chọn những thuộc tính phù hợp để tiến hành các phương pháp khai phá dữ liệu là rất cần thiết. Các thuộc tính dư thừa không cần thiết trong quá trình khai phá tri thức không chỉ làm cho bài toán trở lên phức tạp mà còn dẫn đền một thực , )( )( )( XB XB XB =α tế là số tri thức được phát hiện sẽ không nhiều vì phải phụ thuộc vào cả những thuộc tính không được coi là đặc trưng của bài toán. Mục tiêu của việc lựa chọn thuộc tính là phải đưa ra được một tập tối ưu các thuộc tính trong cơ sở dữ liệu. Từ đó các luật sinh ra trong cơ sở dữ liệu sẽ đạt được hiệu quả cao nhất, dữ liệu mà chúng ta thực sự phải làm việc sẽ nhỏ đi rất nhiều. Có hai phương pháp lựa chọn thuộc tính thường được sử dụng là lọc và bọc. Trong đó thì phương pháp lọc thực chất là tìm những thuộc tính tối thiểu trong tập các thuộc tính, chọn ra các thuộc tính có độ phù hợp cao hơn theo tiêu chuẩn sau: − Lựa chọn những thuộc tính là cho số trường hợp thoả mãn tăng nhanh. − Chọn những thuộc tính có it giá trị khác nhau. Phương pháp này là khá đơn giản và tốc độ là tương đối nhanh. Phương pháp thứ hai sử dụng thuật toán quy nạp đánh giá. Tư tưởng của thuật toán này là sử dụng 3 cách tìm kiếm: tìm kiếm toàn bộ, tìm kiếm kinh nghiệm và tìm kiếm không xác định. Phương pháp này sử dụng các thuật toán quy nạp nên độ phức tạp lớn nhưng bù lại thì kết quả mang lại sẽ chính xác và toàn diện hơn. 1.2.2.3. Khám phá luật bới bảng phân bố tổng quát dựa trên tập thô Bảng phân bố tổng quát có những đặc điểm sau: − Bảng phân bố tổng quát mô tả quan hệ xác suất giữa các trường hợp có thể và các bộ sinh có thể. − Những trường hợp không thấy trong quá trình khai phá dữ liệu sự không chắc chắn của luật bao gồm cả khả năng dự đoán trước các trường hợp nó không được thể hiện rõ ràng trong độ mạnh của luật. − Có thể sử dụng tri thức nền làm cơ sở cho việc lập bảng phân bố tổng quát và quá trình khai phá. A. Skowronvà Ning Zong [2] đã đưa ra phương pháp khám phá luật sư dụng bảng phân bố tổng quát dựa trên tập thô với ý tưởng như sau: − Từ bảng quyết định xây dựng bảng phân bố tổng quát. − Dựa trên các bảng phân bố tổng quát này sinh các vector phân biệt được. − Tạo ra các tập rút gọn được từ các tập vector phân biệt được. − Sinh ra các luật bao phủ tất cả các trường hợp. 1.2.2.4. Khám phá mẫu trong hệ thông tin Việc tìm những mẫu quan hệ phức tạp được phát hiện trong những cơ sở dữ liệu lớn một cách tự động là một trong những hướng nghiên cứu đang được chú trọng trên thế giới. Trong trường hợp đơn giản thì mẫu chỉ là một vector có giá trị độ dài đủ lớn của một sô thuộc tính được hỗ trợ của một lượng đủ lớn các đối tượng. Các bài toán tìm mẫu thường có độ phức tạp lớn đòi hỏi những thuật toán tối ưu, thuật toán đánh giá kinh nghiệm đủ tốt để có thể rút ra các mẫu gần tối ưu từ những cơ sở dữ liệu lớn. Một lớp quan trọng của của phương pháp tìm kiếm mẫu là dựa trên những khuôn mẫu quan hệ. Những khuôn mẫu này được xác định từ một bảng dữ liệu cho trước sử dụng quan hệ thứ lỗi trong một số lớp quan hệ thứ lỗi giả định trước. Một quan hệ thứ lỗi là tối ưu nếu tập các tham số miêu tả quan hệ này cho phép xây dựng những khuôn mẫu dữ liệu thích hợp trên những bảng dữ liệu cho trước. Có rất nhiêu ứng dụng cho việc phát hiện những khuôn mẫu trong hệ thông tin. Một số có thể dùng để tách các bảng dữ liệu lớn, bảng dữ liệu lớn có thể được phân chia thành một cây nhị phân của các mẫu và khuôn mẫu. Mỗi nút của cây phụ thuộc vào một bước phân tách. Quá trình phân chia dừng lai khi thu được những bảng có kích thước đủ nhỏ để có thể áp dụng nhưng phương pháp khai phá tri thức khác. Người ta áp dụng những phương pháp tìm kiếm mẫu quyết định từ những bảng quyết đinh gắn với các lá đã có dựa trên cách tiếp cận tập thô. Quá trình phân lớp cho một đối tượng mới bắt đầu bằng việc tìm ra đường đi trên cây bằng cách so sánh các mẫu. Sau đó, đối tượng được phân lớp dựa trên luật quyết định được sinh ra từ bảng con gắn với các lá ở trên đường đó. Việc lựa chon một chiến lược tìm kiếm khuôn mẫu có trong các lớp quyết định đã được thảo luận rất nhiều. Quá trình này có thể coi là quá trình tìm luật quyết định xấp xỉ mạnh ngầm định. Các phương pháp này cũng có thể dùng để tìm luật quyết định xấp xỉ tổng hợp từ các bảng dữ liệu. Bản chất xấp xỉ của những luật này được mô tả bởi một số rằng buộc. 1.3 . Kết luận Trên đây chúng tôi đã trình bày một số khái niêm cơ bản về khai phá tri thức, và đăc biệc là khai phá tri thức theo cách tiếp cận tập thô. Khai phá tri thức có thể được hiểu đơn giản là quá trình tìm kiếm nhưng thông tin mới trong cơ sở dữ liêu. Nó bao gồm 5 quá trình, trong đó quá trình khai phá dữ liệu là quan trong nhất. Các kỹ thuật khai phá tri thức được chia thành 3 mảng chính: phân cụm và phân lớp dữ liệu,khai phá các luật kết hợp, khai phá chuỗi. Lý thuyết tập thô do P. Pawlak đưa ra trong những năm đầu của thập kỷ 80 đã tỏ ra là rất hiệu quả trong lĩnh vực khai phá tri thức. Nó tỏ ra thực sự hiểu quả trong các bài toán thực tế, những bài toán có dữ liệu thương ở dạng thô, chưa qua xử lý, trong dữ liệu có nhiều thông tin dư thừa. Chương 2 KHAI PHÁ LUẬT KẾT HỢP Khai phá luật kết hợp là một kỹ thuật quan trọng và phát triển mạnh mẽ trong những năm gần đây. Lần đầu tiên được Rakesh Agrawal, Tomasz Imielinski, Arun Swami đề xuất năm 1993 [6]. Sau đó được nhiều nhà khoa học phát triển và cải tiến. 2.1 . Khai phá luật kết hợp trong cơ sở dữ liệu 2.1.1. Bài toán xuất phát Cho trước một cơ sở dữ liệu lưu thông tin bán hàng của một siêu thị. Với lượng dữ liệu được lưu giữ là tương đối lớn, người sử dụng mong muốn có những tri thức từ cơ sở dữ liệu trên để có thể hoạch định kế hoạch kinh doanh phù hợp: Những câu hỏi được đặt ra như nên đầu tư cho những mặt hàng nào, số lượng là bao nhiêu? Sắp xếp các mặt hàng trong siêu thị như thế nào là hợp lý v . v ? Với những câu hỏi như trên thì người sử dụng mong muốn có những thông tin như là: ”75% những người mua bánh mì sẽ mua sữa”, hoặc “5% những người mua rượu sẽ mua lạc”. Những phát biểu trên được gọi là các luật kết hợp. Bản thân nó ngầm định một số quan hệ kết hợp một tập các đối tượng cùng tham gia mua hàng. Từ những luật dạng trên thì người sử dụng có thể dùng để hỗ trợ những quyết định của họ trong kinh doanh. Họ sẽ có chiến lược chẳng hạn như đầu tư lượng bánh mi và sữa gần bằng nhau sao cho hiệu quả. Trong phần này chúng tôi chỉ giải quyết ở mức độ là người khách hàng đó có mua mặt hàng đó hay không, khi đó thì mỗi thuộc tính chỉ có 2 giá tri khác nhau là 0 ứng với trường hợp người đó không mua mặt hàng này và bằng 1 nếu người đó có mua mặt hàng đó. 2.1.2. Mô hình hoá bài toán Trước tiên ta có một số định nghĩa như sau: I = {i1,i2,....,im} là tập toàn bộ các mục (chính là các mặt hàng trong bài toán trên). D : là cơ sở dữ liệu, nó bao gồm các tác vụ, trong đó mỗi tác vụ có thể coi như là một vector t=(t1, t2, . . .,tm) với ti = 0 nếu tác vụ t mua mặt hàng i, i=1, . . .,m. Với những định nghĩa trên thì cơ sở dữ liệu bán hàng của một siêu thị sẽ được biệt diễn là một tập D các tác vụ t. Trong đó I là tập các thuộc tính hay tập các mặt hàng. Ta có định nghĩa luật kết hợp như sau: Định nghĩa 11: Luật kết hợp là biểu thức có dạng X⇒Y trong đó X ⊂ I, Y ⊂ I và X∩Y=∅. Trong đinh nghĩa trên thì X được gọi là tiên đề. Y được gọi là kết quả của luật. Định nghĩa 12: Độ hỗ trợ của một tập mục X, ký hiệu là Supp(X), là tỉ số giữa số các tác vụ mà tập mục đó xuất hiện trên tổng số các tác vụ. Với định nghĩa trên thì ta dễ dàng có tính chất: Nếu A ⊆ B thì Supp(A)≥Supp(B). Định nghĩa 13: Độ hỗ trợ của luật X⇒Y , ký hiệu là Supp(X⇒Y) được xác định như sau: Supp(X⇒Y)= Supp(X∪Y). Định nghĩa 14: Độ tin cậy của luật dạng r=X⇒Y, ký hiệu là conf(X⇒Y) được định nghĩa: Conf(X⇒Y)=Supp(X∪Y)/Supp(X).ư Ta thấy độ tin cậy của một luật chính là xác suất có điều kiện của tác vụ chứa Y xét trong điều kiện chứa X Ví dụ: Để hiểu rõ hơn các định nghĩa trên chúng ta xét ví dụ sau: Cho một cơ sở dữ liệu như bảng sau: ID Tác vụ Các mục T1 A, C, D T2 B, E T3 A, B, C, E T4 B, E T5 B, D, F Bảng 3. Ví dụ về một cơ sở dữ liệu. Trong cơ sở dứ liệu trên gồm 5 tác vụ thao tác trên 6 tập mục là A, B, C, D, E, F. Khi đó thì độ hỗ trợ tương ứng của từng mục sẽ là: Ở đây tổng số tác vụ là 5, trong khi mục A xuất hiện trong 2 tác vụ là T1 và T3 nên có độ hỗ trợ là 2/5=40% { }( ) )( : )( Dcard TXTcard XSupp ∈= Mục Số tác vụ chứa mục Độ hỗ trợ A 2 40% B 3 80% C 2 40% D 2 40% E 3 60% F 1 20% Bảng 4. Độ hỗ trợ tương ứng của từng mục đơn. Tiếp tục tính độ hỗ trợ của các tập mục lớn hơn với mỗi tập gồm 2 mục ta có bảng : Mục Số tác vụ chứa mục Độ hỗ trợ A, C 2 40% A, B 1 20% B, D 1 20% C, D 1 20% A, B, C 1 20% A, B, E 1 20% A, C, D 1 20% B, D, F 1 20% A, B, C, E 1 20% Bảng 5. Độ hỗ trợ tương ứng của các tập mục khác Ta xét một số luật sinh từ các tập mục phổ biến trên trong bảng sau. Trong các luật của bảng ta xét luật A⇒B thì supp({A, B})=20%, supp(A)=40% vì vậy conf(A⇒B)=50%. Luật kết hợp Độ tin cậy conf(X⇒Y) A⇒C 100% A⇒B 50% B⇒D 25% A,B⇒C 100% A,C⇒B 50% B,E⇒A 33% Bảng 6. Độ tin cậy của các luật. 2.1.3. Thuật toán khai phá luật kết hợp. 2.1.3.1. Tập phổ biến. Định nghĩa 15: Tâp mục X⊆I được gọi phổ biến nếu thoả mãn supp(X) ≥ minsup. Trong đó minsup là một độ hỗ trợ tối thiểu cho trước. Khái niệm phổ biến này cho phép chúng ta chỉ xét những tập mục xuất hiện trong cơ sở dữ liệu là đủ lớn, lớn hơn một minsup nào đó. Khi đó luật của chúng ta sinh ra sẽ đáng tin cậy hơn. Ta có hệ quả sau: Cho A và B là hai tập mục, A⊆B. a. Nếu B là tập mục phổ biến thì A cũng là tập mục phổ biến. b. Nếu A là tập mục không phổ biến thì B cũng là tập mục không phổ biến. 2.1.3.2. Khai phá luật dựa trên tập mục phổ biến. Việc tìm kiếm luật kết hợp trong cơ sở dữ liệu được quy về 2 giai đoạn [7]: − Tìm tất cả các luật có độ hỗ trợ lớn hơn một minssup. Các tập mục này chính những tập mục phổ biến. Các thuật toán Apriori và AprioriTid nhằm giải quyết vấn đề này. − Từ các tập mục tìm được ở trên tiến hành sinh những luật có độ tin cậy lớn hơn một minconf nào đó. Hai tham số minsupp và minconf được người sử dụng đưa vào khi hệ thống khai phá tri thức. Các giá trị này thường được đưa ra bởi các chuyên gia kinh tế hoặc những người có kinh nghiệm. Ở trong giai đoạn nhất việc phát hiện những tập mục phổ biến tiến hành duyệt dữ liệu rất nhiều lần. Việc tìm các tập mục phổ biến thực hiện dựa trên hệ quả của định nghĩa 14 trình bày ở trên. Và thực hiện lần luợt các bước sau: − Đầu tiên người ta khởi tạo một tập thật giống các tập mục phổ biến và sinh các tập mục phổ biến dựa trên tập mục hạt giống này. − Từ các tập mục phổ biến người ta thực hiện ghép các tập mục phổ biến để được các tập mục lớn hơn, các tập mục này được gọi là tập ứng cử viên. − Để tính được độ hỗ trợ của các tập mục phổ biến người ta phải thực hiện duyệt toàn bộ dữ liệu. Khi đó sẽ tìm được những tập mục ứng cử viên là tập mục phổ biến. − Tập các tập mục ứng cử viên là phổ biến này được sử dụng là tập hạt giống cho bước tiếp theo. Cụ thể các thuật toán Apriori và AprioriTid sinh ra các tập ứng cử viên đó được tính trong một lần duyệt bằng việc sử dụng các tập mục được coi là phổ biến trong lần duyệt trước mà không cần quan tâm tới các tác vụ trong cơ sở dữ liệu. Việc chỉ xét các tập mục là phổ biến trong lần trước để sinh các tập mục ứng cử viên dựa hệ quả rút ra từ định nghĩa 14 đã trình bày ở trên: “Bất kỳ tập con của một tập mục phổ biến nào cũng là tập mục phổ biến”. Vì vậy tập ứng cử viên có k mục có thể sinh ra bởi tập các tập mục phổ biến có k-1 mục. Điều này có thể dẫn đến việc giảm đáng kể các tập mục ứng cử viên, là giảm độ phức tạp trong tính toán. Thuật toán Apriori: Đây là thuật toán dùng để phát sinh các tập mục phổ biến. − Lk là tập các tập mục phổ biến có kích thước k. − Ck là tập ứng cử viên, là các tập mục có tiềm năng trở thành tập mục phổ biến. − Thuật toán được tiến hành cho đến khi không tìm được một tập mục phổ biến nào trong một lần duyệt. Các bước của thuật toán được trình bày dưới đây: Lần duyệt 1 1. Phát sinh các ứng cử viên C1. Thực chất tất cả các tập mục đơn của cơ sở dữ liệu. 2. Kiểm tra và ghi lại những tập mục thuộc C1 là tập mục phổ biến và L1. Lần duyệt thứ k: 1. Phát sinh các tập ứng cử viên từ các tập mục phổ biến Lk-1. a. Kết hợp các Lk-1 để được tất cả các Ck. b. Với mỗi ứng cử viên Ck phát sinh tất cả k-1 tập con của Ck. c. Tỉa tất cả các ứng cử viên từ Ck trong đó có tập con (k-1) của nó không có trong tập mục phổ biến Lk-1. 2. Duyệt trong cơ sở dữ liệu để xác định độ hỗ trợ của các tập ứng cử viên Ck. 3. Ghi lại các tập mục phổ biến Lk. Trong bước thứ 2 của mỗi lần duyệt, để có thể tính độ hỗ trợ của các tập ứng cử viên thì thuật toán phải tiến hành duyệt lại toàn bộ cớ sở dữ liệu. Quá trình này là thực sự đáng kể với những cơ sở dữ liệu lớn. Khắc phục hạn chế trên thuật toán ApriporiTid đã lưu lai thông tin về các tác vụ gắn liền với mỗi tập mục phổ biến. Điều này có thể giúp chúng ta khắc phục được hạn chế về việc phải đọc dữ liệu nhiều lần tuy nhiên lại gây khó khăn hơn cho chúng ta khi tổ chức bộ nhớ chương trình. Ở giai đoạn 2, giai đoạn sinh luật với mỗi tập mục phổ biến l ta tiến hành xây dựng những luật dạng ( )ala −→ ở đây a là tập con của l sao cho ( ) ( ) confap lp min sup sup ≥ Ta có, với một tập aa ⊂* thì ( ) ( )apap sup*sup ≥ nên độ tin cây của luật dạng ( )** ala −→ không thể lớn hơn luật dạng ( )ala −→ . Do đó nếu luật ( )ala −→ không được chấp nhận thì luật dạng ( )** ala −→ cũng không thể chấp nhận được. Nhờ tính chất này mà ta có thể tiến hành xây dựng các luật chỉ có một tập mục ở phía phải sau đó kết hợp các luật thành dạng có 2 mục, 3 mục, ... ở phia phải 2.1.4. Kết luận. Việc tìm kiếm các luật kết hợp trong cơ sở dữ liệu được thực hiện theo thuật toán nguyên thuỷ Apriori và AprioriTid. Tuy nhiên một thực tế là số tập mục phổ biến có thể là rất nhiều, khắc phục hạn chế này chúng ta có thể dùng thuật toán CHARM được Mohammed .J Zaki và Ching-jui Hsiao đưa ra trong năm 2000 [13]. Thuật toán CHARM không tiến hành tìm những tập mục phổ biến mà tiến hành tìm những tập mục phổ biến đóng. Điều này dẫn đến số tập mục phổ biến tìm được là giảm đi rất nhiều và tại các bước của thuật toán việc cắt nhánh trong quá trình thực hiện là rất hiệu quả. Một hạn chế đáng kể của các thuật toán trình bày ở trên là chỉ làm việc với dữ liệu ở dạng nhị phân, tức là giá trị của các thuộc tính chỉ nhận 2 giá trị là 0 và 1. Điều đó dẫn đến việc thuật toán khó có thể áp dụng trực tiếp trên những cơ sở dữ liệu tự nhiên. Muốn thực hiện được thuật toán cần phải định lượng các thuộc tính thành dạng nhị phân. Quá trinh này làm giảm tính chính xác của kết quả thu được. Trong chương sau chúng tôi sẽ trình bày một thuật toán có thể làm việc được với dữ liệu là đa trị, dữ liêu là dạng số thực. 2.2 . Sinh cây quyết định từ hệ thông tin. 2.2.1. Thuật toán học cây quyết định. Phương pháp học cây quyết định là một trong những phương pháp được sử dụng rông rãi nhất cho việc học quy nạp từ một tập mẫu lớn [11]. Đây là phương pháp xấp xỉ các hàm mục tiêu có giá trị rời rạc. Mặt khác cây quyết định còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật Nếu – Thì (if ... then). Xét một ví dụ về cây quyết định. Cho một bảng dữ liệu sau: Doc ai timetable system patallel relation database process graphic Class AI D1 1 1 0 0 0 0 0 0 1 D2 1 0 0 0 0 0 0 0 1 D3 0 1 0 0 1 1 1 1 1 D4 1 0 0 0 0 0 0 1 1 D5 1 1 1 1 1 0 0 1 1 D6 0 0 1 1 0 0 0 0 0 D7 0 0 1 0 0 0 0 1 0 D8 0 0 1 0 1 1 0 0 0 D9 1 0 1 1 0 1 0 0 0 D10 1 1 0 0 1 1 1 0 0 Bảng 6. Các ví dụ huấn luyện tron cây quyết định. Ta có cây quyết định: Hình trên là một ví dụ về cây quyết định phân lớp AI các mẫu đưa vào theo bảng 5. Mỗi nút của cây biểu diễn một thuộc tính trong các mẫu, mỗi một nhánh tới nút tương ứng với một trong những giá trị cụ thể cho thuộc tính này. Để đơn giản ta chỉ xét các thuộc tính nhị phân, tức là chỉ lấy giá trị là 0 và 1. Trong bảng 5, dữ liệu huấn luyện là 10 văn bản (trong các bài toán thực tế thì số lượng văn bản có thể lên tới hàng nghìn). Mỗi văn bản có 8 thuộc tính nhị phân tương ứng với việc văn bản đó có hay không có từ đó. Đó là các thuộc tính ai, system, paralell, relation, database, process, graphics.Thuộc tính cuối Class AI cùng là thuộc tính quyết định. Đó là hàm mục tiêu của chúng ta, nó nhận giá trị 1 tức là văn bản đó thuộc lớp AI, 0 tức là văn bản đó không thuộc lớp AI. Mặt khác, từ cây quyết định trên chúng ta có thể sinh ra được các luật như sau: 1) Nếu (System=1) và (Timetable =1 ) thì class AI =Yes. 2) Nếu (System=1) và (Timetable =0 ) thì class AI =No. 3) Nếu (System=0) và (Process =1 ) thì class AI =No. 4) Nếu (System=0) và ( Process=0 ) thì class AI =Yes. System Process Timetable 0 1 0 1 0 1 Yes No Yes No Hình 2.Một ví dụ về cây quyết đinh. Giải thích cụ thể hơn ta có: 1) Nếu văn bản có từ System và từ Timetable thì thuộc lớp AI. 2) Nếu văn bản có từ System và không có từ Timetable thì không thuộc lớp AI. 3) Nếu văn bản không có từ System và có từ Process thì không thuộc lớp AI. 4) Nếu văn bản không có từ System và không có từ Process thì thuộc lớp AI. Những bài toán nên sử dụng việc học cây quyết định: Trong [10], Mitchel đã chỉ việc sử dụng cây quyết định phù hợp với việc giải quyết các bài toán sau: − Các mẫu huấn luyện được biểu diễn thành những cặp giá trị - thuộc tính, các thuộc tính là một tập cố định. Các giá trị thuộc tính là rời rạc. Tuy nhiên trong các thuật toán sinh cây quyết định cải tiến sau này cho phép các thuộc tính nhận giá trị là giá trị thực. Đặc biệt là thuật toán sinh cây quyết định sử dụng siêu phẳng được đưa ra trong[9] sẽ được trình chi tiết sau. − Hàm mục tiêu phải có giá trị rời rạc, trong bài toán phân lớp văn bản trên thì hàm mục tiêu có thể mở rộng thành nhiều giá trị đầu ra. − Trong trường hợp cần biểu diễn kết quả thu được dưới dạng các mô tả: Chẳng hạn như là dưới dạng luật thì cấu trúc cây quyết định có thể chuyển sang một cách dễ dàng. − Tập dữ liệu huấn luyện có thể chứa lỗi: Phương pháp học cây quyết định có thể thực hiện tốt trên các tập dữ liệu chứa lỗi, cả trên các lỗi trong phân lớp ví dụ huấn luyện cũng như lỗi trên các giá trị thuộc tính trong các ví dụ này. − Tập dữ liệu có thể có những giá trị bị thiếu. Phương pháp cây quyết định có thể được sử dụng trong các trường hợp các ví dụ huấn luyện có những giá trị chưa biết. Thuật toán ID3 Đây là một thuật toán cơ bản nhất trong lĩnh vực học cây quyết đinh, hầu hết các thuật toán học cây quyết đinh cải tiến sau này đều dựa trên nó. ID3 và các thuật toán cải tiến của nó đều dựa vào cách tiếp cận từ trên xuống. Trong các thuật toán học cây quyết định thì thuật toán ID3 và thuật toán C4.5 là phổ biến nhất. Thuật toán ID3 lần đầu tiên được Quinlan giới thiệu năm 1975 trong tạp trí Machine Learning, Vol 1, No.1.Sau đây chúng tôi trình bày thuật toán ID3, thuật toán được mô tả như sau [9]: ID3(Examples, Target attribute, Attributes) Examples: Tập các ví dụ huấn luyện. Target attribute: là thuộc tính đầu ra cho cây quyết định. Attributes:Danh sách các thuộc tính. Kết quả trả về là một câu quyết định phân lớp đúng các mẫu ví dụ đưa ra. • Tạo một nút gốc Root cho cây quyết định. • Nếu toàn bộ Examples là ví dụ dương. Trả về cây Root một nút đơn, với nhãn +. • Nếu toàn bộ Examples là ví dụ âm. Trả về cây Root một nút đơn, với nhãn - . • Nếu tập thuộc tính là rỗng thì trả lại cây Root một nút đơn với nhãn bằng giá trị phổ biến nhất của Target_attribute trong Examples. • Ngược lại:Begin o A ←Thuộc tính từ tập Attributes mà phân lớp tốt nhất tập Examples. o Thuộc tính quyết định cho Root ←A. o For Mỗi giá trị cụ thể vi của A, Thêm một nhánh cây con ở dưới Root, phù hợp với biểu thức kiểm tra A=vi . Đặt Examplesvi là tập các ví dụ có giá trị của thuộc tính A là vi . Nếu Examplesvi rỗng • thì dưới nhánh mới thêm gán một nút lá với nhãn = giá trị phổ biến nhất của Target_attribute trong tập Examples. • ngược lại thì dưới nhánh mới này thêm một cây con: ID3(Examplesvi,Target_attribute,Attribute-{A}. • End. • Return Root. Chọn lựa thuộc tính tốt nhất Vấn đề quan trọng nhất của thuật toán ID3 là làm sao chọn lựa được thuộc tính tốt nhất để đưa vào các nút của cây. Để giải quyết vấn đề này, người ta sử dụng kết quả của lý thuyết thông tin là các độ đo là infomation gain và entropy. Entropy: Đây là đại lượng hết sức quan trọng trong lý thuyết thông tin. Entropy là đại lượng đo tính đồng nhất hay thuần tuý của các mẫu. Trước tiên ta xem xét trường hợp các thuộc tính của tập các mẫu huấn luyện S của cây quyết định chỉ có hai lớp phân biệt là mẫu ví dụ dương (possotive) và mẫu ví dụ âm (Negative). Khi đó Entropy của tập S được định nghĩa như sau: Entropy(S)≡-p⊕ log2p⊕--pΘ log2pΘ. Trong đó: p⊕ : là phân bố của các ví dụ dương trong S. pΘ : là phân bố của các ví dụ dương trong S. Chúng ta quy đinh 0log20 =0. Ví dụ: Xét trong ví dụ bảng 5, có10 mẫu huấn luyện, trong đó có 5 mẫu huấn luyện dương(Class AI=1) và 5 ví dụ âm (Class Ai=0). Khi đó đại lương Entropy S liên quan tới sự phân bố 2 lớp dương và âm của tập S là: Entropy(S) = -(5/10)log2(5/10)-(5/10)log2(5/10)= =1.0 Trong trường hợp tổng quát thì đại lượng Entropy được tính như sau: Trong đó: pi :là phân bố của lớp thứ i trong S. c : là số lớp trong S. Tương tự: Entropy(Sai=1) = -(4/6)log2(4/6)-(2/6)log2(2/6)=0,918. Entropy(Sai=0) = -(1/4)log2(1/4)-(3/4)log2(3/4)=0,812. ( ) ∑ = −= c i ii ppSEntropy 1 2log Information Gain Trong khi Entropy là đại lượng đo độ không đồng nhất của các mẫu, người ta đưa ra một độ đo sự ảnh hưởng của một thuộc tính trong mẫu đó trong việc phân lớp là information gain. Information gain của một thuộc tính A được tính như sau: Trong đó Sv là tập các phần tử mà thuộc tính A có giá trị là v. Ví dụ: Tiếp tục xét ví dụ trong bảng 5 ta có. Gain(S,ai) = Entropy(S)-(6/10)Entropy(Sai=1)-(4/10)Entropy(Sai=0) = 1.0-(6/10).0,918-(4/10).0,812 = 0,1244 Tương tự ta có thể xét các Gain của các thuôc tính khác có giá trị như bảng sau. Attribute ai timetable system parallel relation database process graphic Gain 0,1244 0,1244 0,2871 0,0349 0,0 0,1244 0,0 0,1244 Bảng 7. Giá trị informatin Gain của các thuộc tính. Khi đó theo thuật toán ID3 thì thuộc tính đầu tiên được chọn là thuộc tính system vì có giá trị information Gain là lớn nhất. ∑ ∈ −≡ )( )()(),( AValuesV V V SEntropy S S SEntropyASGain ( ) )()(, }1,0{ v v v SEntropy S S SEntropyaiSGain ∑ ∈ −= 2.2.2. Một số phương pháp giải quyết vấn đề rời rạc hoá 2.2.2.1. Maximal Discernibility (MD) Heuristic Theo như định nghĩa 8 được trình bày trong Chương 1 phần 1.2.1.4 trên một bảng quyết định bất kỳ ta luôn có thể định nghĩa một tập các nhát cắt. Từ tính chất này ta có thể xây dựng thuật toán sau: Từ một bảng quyết định A =(U, A∪{d}), chúng ta xây dựng một bẳng quyết định mới. A* =(U*, A*∪{d*}) như sau: • U* ={(u, v)∈ U2 : d(u)≠d(v)} ∪ {⊥}. • A* ={c: c là một nhát cắt trên A}. c(⊥)=0; c((ui, uj))=1 nếu c phân biệt được ui và uj. 0 nếu ngược lại. • d(⊥) và d*(ui, uj)=1. Ta thu được bảng quyết định dạng sau: A* c1 c2 . . . ck . . . d* (u1, u2) 1 0 . . . 0 . . . 1 (u1, u2) 1 1 . . . 1 . . . 1 . . (u1, u2) 0 1 1 . . . . ⊥ 0 0 . . . 0 . . . 0 Bảng 8. Một dạng của bảng quyết định dạng A* Như vậy việc tìm kiếm một sự rời rạc hoá tối ưu bảng quyết định A tương đương với việc tìm tập rút gọn nhỏ nhất trong bảng quyết định A*. Thuật toán MD[9] được xây dựng dựa trên việc tìm kiếm nhát cắt với số cặp đối tượng được phân biệt bởi nhát cắt là nhỏ nhất được mô tả như sau: Từ tập tất cả các nhát cắt A*, nhát cắt phân biệt số lớn nhất các cặp đối tượng thuộc những lớp quyết định khác nhau sẽ được chọn. Quá trình thực hiện đến khi hai đối tượng bất kỳ từ những lớp quyết định khác nhau đều bị phân biệt bởi một hoặc vài nhát cắt. Phương pháp này rất hiệu quả vì để tìm được nhát cắt với sự phân biệt là lớn nhất chúng ta chỉ cần O(nk) bước, trong đó n là số đối tượng và k là số thuộc tính.Vì thế tổng thời gian rời rạc hoá là O(nk.| P |), với P là tập nhát cắt cuối cùng tìm được. 2.2.2.2. Sự rời rạc hoá định nghĩa bằ

Các file đính kèm theo tài liệu này:

Phát hiện luật bằng cách sử dụng siêu phẳng tối ưu theo hướng tiếp cân tập thô.pdf