Luận văn Nghiên cứu áp dụng kĩ thuật mạng nơron để dự báo khả năng theo học của học viên đào tạo từ xa

LỜI CAM ĐOAN . 01

LỜI CẢM ƠN . 02

MỤC LỤC. 03

DANH MỤC CÁC TỪ VIẾT TẮT . 05

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ . 06

LỜI NÓI ĐẦU . 08

CHưƠNG 1. TIẾP CẬN VẤN ĐỀ THEO HỌC TRONG CÁC CƠ SỞ

ĐÀO TẠO TỪ XA. 10

1.1. Nguyên nhân dẫn đến tình trạng thôi học ở các cơ sở đào tạo từ xa . 11

1.2. Tổng quan về khai phá dữ liệu. 13

1.3. Một số hướng giải quyết cho vấn đề theo học của học viên đào tạo từ

xa . 14

1.4. Phân tích khả năng theo học của các học viên hệ đào tạo từ xa . 15

CHưƠNG 2. MẠNG NƠRON TRONG KHAI PHÁ DỮ LIỆU. 17

2.1. Nguồn gốc, ý tưởng của mạng Nơron. 17

2.2. Mô hình và quá trình xử lý trong nơron nhân tạo . 18

2.2.1. Nơron nhân tạo . 18

2.2.2. Hàm truyền trong nơron . 20

2.3. Cấu trúc và phân loại mạng nơron . 25

2.4. Học và lan truyền trong mạng . 36

2.4.1. Học và tổng quát hoá . 36

2.4.2. Phương pháp học. 37

2.5. Thuật toán luyện mạng. 43

2.6. Cách thức huấn luyện. 45

2.7. Mạng Perceptron và qui tắc học Perceptron . 45

103 trang | Chia sẻ: honganh20 | Lượt xem: 441 | Lượt tải: 3

Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu áp dụng kĩ thuật mạng nơron để dự báo khả năng theo học của học viên đào tạo từ xa, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

chọn đặc trƣng nhƣ Stopword remover, tính độ tƣơng quan giữa tần suất của từ và nhãn, thì từ bình luận ban đầu ta sẽ thu đƣợc một vector X có k chiều với các chiều đƣợc tính theo công thức sau: Việc huấn luyện mạng Perceptron thực chất là quá trình thay đổi các trọng số của mạng (weights) để có đƣợc kết quả mong muốn. Quá trình huấn luyện mạng Perceptron đƣợc em thực hiện theo phƣơng pháp Online-learning, nghĩa là các trọng số của mạng (weights) đƣợc cập nhật ngay lập tức sau khi một input pattern đƣợc đƣa vào mạng. Với mỗi một đầu vào là một vector X k chiều nhƣ ở trên, trọng số của mạng Perceptron đƣợc cập nhật theo các bƣớc sau: Xét các cặp huấn luyện (Xi, si): Tính đầu ra thực tế 48 Cập nhật từng trọng số Sau khi duyệt tất cả tập huấn luyện ta tính đƣợc tổng lỗi trung bình Lặp lại quá trình cho đến khi tổng lỗi trung bình nhỏ hơn e, lƣu lại giá trị của các trọng số ta thu đƣợc mô hình học máy theo Perceptrons. Cấu trúc của mạng Perceptron nhiều lớp Mạng Perceptron nhiều lớp là mạng nơron có cấu trúc nhiều lớp, nghĩa là các nơron đƣợc phân thành nhiều lớp (số nơron ở mỗi lớp có thể khác nhau), các lớp đƣợc sắp xếp theo một thứ tự nào đó, các nơron ở lớp trƣớc đƣợc liên kết đầy đủ với cái nơron ở ngay lớp phía sau. 49 Hình 17: Mô hình mạng Perceptron nhiều lớp 2.8. T uật to n l n tru ền n ợ Các mạng nơron truyền thẳng nhiều lớp đƣợc huấn luyện bằng phƣơng pháp học có giám sát. Phƣơng pháp này căn bản dựa trên việc yêu cầu mạng thực hiện chức năng của nó và sau đó trả lại kết quả, kết hợp kết quả này với các đầu ra mong muốn để điều chỉnh các tham số của mạng [12]. Về căn bản, thuật toán lan truyền ngƣợc là dạng tổng quát của thuật toán trung bình bình phƣơng tối thiếu (Least Means Square - LMS) bởi lẽ nó cùng sử dụng kỹ thuật giảm theo hƣớng véctơ gradient nhƣng với độ phức tạp của hàm lỗi lớn hơn. Thuật toán này thuộc dạng thuật toán xấp xỉ để tìm các điểm mà tại đó hiệu năng của mạng là tối ƣu. Chỉ số tối ƣu (performance index) thƣờng đƣợc xác định bởi một hàm số của ma trận trọng số và các đầu vào nào đó mà trong quá trình tìm hiểu bài toán đặt ra 2.8.1 Mô tả thuật toán Ta sẽ sử dụng dạng tổng quát của mạng nơron truyền thẳng nhiều lớp. Khi đó đầu ra của một lớp trở thành đầu vào của lớp kế tiếp: 50 ở đây M là số lớp trong mạng, các nơron lớp thứ nhất nhận tín hiệu từ bên ngoài: a 0 =p đầu ra của lớp cuối cùng là đầu ra của mạng: a=am Chỉ số hiệu năng (performance index) Thuật toán lan truyền ngƣợc sử dụng chỉ số hiệu năng là trung bình bình phƣơng lỗi của đầu ra so với giá trị đích. Đầu vào của mạng là tập ví dụ huấn luyện: {(p1,t1),(p2,t2), . . .(pq,tq)} ở đây pi là đầu vào và ti là đầu ra đích tƣơng ứng (với i=1,2,...q). Mỗi đầu vào đƣa vào mạng, sau khi tính toán cho đầu ra, đầu ra này đƣợc đem so sánh với đầu ra mong muốn. Thuật toán sẽ điều chỉnh các tham số của mạng để tối thiểu hoá trung bình bình phƣơng lỗi: ở đây x là biến đƣợc tạo thành bởi các trọng số và độ lệch, E là ký hiệu kỳ vọng toán học. Nếu nhƣ mạng có nhiều đầu ra, ta có thể viết lại phƣơng trình trên ở dạng ma trận nhƣ sau: Ký hiệu ̂(x) là giá trị xấp xỉ của F(x) thì ta có xấp xỉ của trung bình bình phƣơng lỗi nhƣ sau: Trong đó kỳ vọng toán học của bình phƣơng lỗi đƣợc thay bởi bình phƣơng lỗi tại bƣớc thứ k. Thuật toán giảm theo hƣớng cho trung bình bình phƣơng lỗi xấp xỉ là: 51 ở đây α là hệ số học Luật xích (Chain Rule) Đối với mạng nơron truyền thẳng nhiều lớp, lỗi không chỉ là một hàm của chỉ các trọng số trong lớp n, do vậy việc tính các đạo hàm từng phần này là không đơn giản. Chính vì lý do đó mà ta phải sử dụng luật xích để tính. Luật này đƣợc mô tả nhƣ sau: Giả sử ta có f là hàm của biến n, ta muốn đạo hàm của f có liên quan đến một biến w khác, luật xích này nhƣ sau: Vậy đạo hàm trong (1) và (2) sẽ là : Trong đó hạng thức thứ hai ở vế phải của phƣơng trình (1’) và (2’) đƣợc tính một cách dễ dàng, bởi vì đầu vào của lớp m của mạng là một hàm của trọng số và độ lệch trong tầng đó: Do vậy : 52 Ta ký hiệu độ nhạy cảm của ̂ đối với các thay đổi của phần tử thứ j của đầu vào của mạng tại lớp thứ m là Khi đó ta có: Thuật toán giảm theo hƣớng đƣợc biểu diễn nhƣ sau: Ở dạng ma trận : Ở đây : 53 Lan truyền ngược độ nhạy cảm Bây giờ ta cần tính toán nốt ma trận độ nhạy cảm sm . Để thực hiện điều này cần sử dụng một áp dụng khác của luật xích. Quá trình này cho ta khái niệm về sự “Lan truyền ngƣợc” bởi vì nó mô tả mối quan hệ hồi qui trong đó độ nhạy cảm sm đƣợc tính qua độ nhạy cảm sm+1 của lớp m+1. Để dẫn đến quan hệ đó, ta sẽ sử dụng ma trận Jacobian: 54 Xét thành phần thứ j,i của ma trận trên : Ở đây : Nhƣ vậy ma trận Jacobian có thể viết lại nhƣ sau: Ở đây : Bây giờ ta viết lại quan hệ hồi qui cho độ nhạy cảm dƣới dạng ma trận: Bây giờ ta có thể thấy độ nhạy cảm đƣợc lan truyền ngƣợc qua mạng từ lớp cuối cùng trở về lớp đầu tiên: Cần nhấn mạnh rằng ở đây thuật toán lan truyền ngƣợc lỗi sử dụng cùng một 55 kỹ thuật giảm theo hƣớng nhƣ thuật toán LMS. Sự phức tạp duy nhất là ở chỗ để tính gradient ta cần phải lan truyền ngƣợc độ nhạy cảm từ các lớp về các lớp trƣớc. Bây giờ ta cần biết điểm bắt đầu lan truyền ngƣợc, xét độ nhạy cảm s m tại lớp cuối cùng: Do : Nên ta có thể viết : Biểu diễn dƣới dạng ma trận : Thuật toán lan truyền ngược có thể biểu diễn như sau : Xem xét một mạng với Q lớp lan truyền ngƣợc, q=1,2,...,Q; với qneti và q yi lần lƣợt là đầu vào và đầu ra của khối trong lớp thứ q. Mạng có m nơron đầu vào, l nơron ở lớp n, và n nơron đầu ra. Với qwij là trọng số nối từ q-1 wj đến qyi. Đầu vào: các cặp huấn luyện {x(k), d(k) | k=1,2,...,p}, ở đó giá trị đầu vào của phần tử cuối cùng bằng -1, tức là 1)( 1  k mx . ớ 0 (Đặt giá trị n ầu) - Lựa chọn bƣớc tính (Hằng số học) 0<η<1 và Emax (sai số lớn nhất cho phép). 56 - Chọn các trọng số ban đầu nối từ phần tử thứ j của lớp (q – 1) đến phần tử thứ i của lớp q là qwij có giá trị nhỏ và ngẫu nhiên. - Cho sai số E = 0 và k = 1. ớc 1 (Vòng lặp huấn luyện) Áp dụng mẫu vào thứ k, cho lớp đầu vào q=1. Khi đó ta có: q yi = 1 yi = xi (k) cho tất cả các i = 1,2,3,,m. ớc 2 (Lan truyền thẳng) Lan truyền tín hiệu thẳng xuyên suốt mạng sử dụng công thức (1.35) cho mỗi i và q cho tới khi các đầu ra của lớp đầu ra Qyi đƣợc thực hiện. ).()( 1  j j q ij q i q i q ywanetay ớ 3 (Đo l ờng sai số ầu ra) Tính toán giá trị sai lệch và tín hiệu sai lệch i Q cho lớp đầu ra nhƣ sau: EydE i Q n i k i    2 1 )( )( 2 1 ; )'().( )( i Q i Qk ii Q netayd  Trong đó: i Q là tín hiệu sai lệch của nơron thứ i cho lớp ra Q; là đạo hàm của hàm truyền a(.) theo tổng trọng số của phần tử i của lớp đầu ra là . )( )'( i Qi Q netd da neta  ớc 4 (lan truyền n ợc sai số) 57 Các sai số lan truyền ngƣợc với mục đích để cập nhật các trọng số và tính toán các tín hiệu sai lệch i q 1 cho các lớp xử lý: j q i q ij q yw 1..   ; ij qold ij qnew ij q www  j j q ji q i q i q wneta    )( 1'1 ; với q=Q,Q-1,...,2 Trong đó: - là sai lệch tại thời điểm tính của giá trị trọng số liên kết cập nhật mới và cũ, liên kết từ phần tử thứ j của lớp q-1 đến phần tử i của lớp q. - là giá trị trọng số liên kết cập nhật mới từ phần tử thứ j của lớp (q-1) đến phần tử i của lớp q. - là giá trị trọng số liên kết cũ từ phần tử thứ j của lớp (q-1) đến phần tử i của lớp q. - là tín hiệu ra của phần tử j của lớp (q-1). ớc 5 (Sau mỗi vòng lặp) Kiểm tra xem đã lặp hết các giá trị mẫu huấn luyện chƣa, nếu chƣa quay vòng hết (tức là k<p) tăng k=k+1, và nhảy tới bƣớc 1, ngƣợc lại (tức k=p) thì chuyển sang bƣớc 6. ớc 6 (Kiểm tra tổng sai số) Kiểm tra sự khác nhau giữa tổng sai số và sai số cho phép: - Nếu tổng sai số nhỏ hơn sai số cho phép (tức là E<Emax) thì kết thúc quá trình huấn luyện, và ghi lại các giá trị trọng số cuối cùng. - Trái lại, thì lại gán E=0, k=1 và bắt đầu một quá trình huấn luyện mới bằng cách nhảy tới bƣớc 1. 58 2.8.2 Sử dụng thuật toán lan truyền ngược Chọn lựa cấu trúc mạng Thuật toán lan truyền ngƣợc có thể đƣợc sử dụng để xấp xỉ bất kỳ một hàm số học nào nếu nhƣ ta có đủ số nơron trong các lớp n. mặc dù vậy, phát biểu trên chƣa cho ta đƣợc một số cụ thể các lớp và số nơron trong mỗi lớp cần sử dụng. Ta sẽ dùng một ví dụ để có cái nhìn chi tiết hơn về vấn đề này. Ví dụ, ta muốn xấp xỉ hàm số sau: Trong đó i nhận các giá trị 1,2,4 và 8. Khi i tăng thì hàm số cần xét sẽ trở nên phức tạp hơn do ta sẽ nhận đƣợc nhiều chu kỳ của hình sin trong phạm vi [- 2,2]. Khi đó, mạng nơron với một số nơron cố định sẽ khó có thể xấp xỉ đƣợc hàm nếu i tăng. Ta sẽ sử dụng ví dụ Function approximation trong thƣ viện của bộ Matlab 6.0 (tệp nnd11fa.m). Ở đây mạng sử dụng có một lớp n, một lớp ra, mạng có một đầu vào và một đầu ra. Lớp n sử dụng hàm Sigmoid, lớp ra dùng hàm tuyến tính. Số nơron trong lớp n là 3, kết quả xấp xỉ của mạng trong các trƣờng hợp i=1,2,4,8 nhƣ trong các hình dƣới đây 59 Hình 18: Kết quả xấp xỉ của mạng trong các trường hợp i=1 Hình 19: Kết quả xấp xỉ của mạng trong các trường hợp i=2 60 Hình 20: Kết quả xấp xỉ của mạng trong các trường hợp i=4 Hình 21: Kết quả xấp xỉ của mạng trong các trường hợp i=8 Xấp xỉ hàm với -2≤x≤2 Khi ta tăng số nơron trong lớp n lên thì khả năng xấp xỉ hàm số của mạng sẽ 61 tốt hơn. Chẳng hạn, xét trƣờng hợp sử dụng 8 nơron trong lớp n và i=8 ta có đƣợc kết quả sau: Hình 22: Kết quả xấp xỉ của mạng trong các trường hợp i=8, số nơron lớp ẩn là 8 Xấp xỉ hàm với -2≤x≤2 khi tăng số nơron Nhƣ vậy nếu ta muốn xấp xỉ một hàm số mà có số điểm cần xấp xỉ là lớn thì ta sẽ cần số nơron lớn hơn trong lớp n. 2.9. Đ n về m n n ron Mạng nơron là một công cụ hữu hiệu trong các mô hình tính toán thông minh với những đặc điểm chính sau: - Cho phép xây dựng một mô hình tính toán có khả năng học dữ liệu cao: Chỉ cần đƣa cho mạng một tập dữ liệu sử dụng trong quá trình học là mạng có thể phát hiện ra những mối liên kết trong dữ liệu, áp dụng và sử dụng những mối liên kết này này mà không cần thêm bất kỳ tri thức nào khác. Khả năng này của mạng nơron giúp cho việc xây dựng mô hình dữ liệu dễ dàng. 62 - Xử lý các quá trình phi tuyến: Mạng nơron xấp xỉ những ánh xạ phi tuyến tuỳ ý cho nên hoàn toàn có thể giải đƣợc các bài toán phi tuyến phức tạp. Nó có thể thực hiện nhiều phép lọc mà những bộ lọc tuyến tính thông thƣờng không thể thực hiện đƣợc. Đặc trƣng này của mạng nơron rất quan trọng. Ví dụ nhƣ trong miễn nhiễu, phân lớp và xấp xỉ mạng. - Khả năng của những quá trình xử song song và phân tán: Có thể đƣa vào mạng nơron số lƣợng lớn các nơron liên kết với có kiến trúc khác nhau và theo những lƣợc đồ khác nhau. Mạng nơron có cấu trúc song song rất lớn, nó có khả năng tăng tốc độ tính toán và có thể sẽ đáp ứng đƣợc những yêu cầu của các hệ thống cần có độ chính xác cao hơn so với các hệ thống truyền thống. - Mạng nơron có khả năng dung thứ lỗi cao: Mạng nơron đƣợc xây dựng bằng cách mô phỏng hoạt động của não cho nên có thể bắt chƣớc khả năng dung thứ lỗi của não, có nghĩa là hệ thống có thể tiếp tục làm việc và điều chỉnh khi có một phần thông tin bị thiếu hoặc sai lệch trong tín hiệu vào. - Mạng nơron có khả năng thích nghi và tự tổ chức Dựa trên những đặc điểm trên thì mạng nơron có một số ƣu điểm đáng chú ý nhƣ : + Mạng nơron có thể tự động tìm kiếm tất cả các mối quan hệ có thể có giữa các nhân tố chính + Mô hình hóa tự động các bài toán phức tạp mà không cần biết trƣớc độ phức tạp của nó nhƣ thế nào + Có khả năng đƣa ra những thông tin nhanh hơn nhiều so với các công cụ khác Tuy nhiên mạng nơron vẫn có một số nhƣợc điểm nhƣ: + Mạng nơron chỉ có thể làm việc với các dữ liệu số + Để đạt đƣợc hiệu quả thì cần bộ dữ liệu mẫu rất lớn phục vụ cho quá trình học + Mạng nơron chỉ có tính chất nội suy, khả năng ngoại suy rất yếu + Không đƣa ra đƣợc cơ chế giải thích 63 CHƯƠNG 3 KẾT QUẢ NGHIÊN CỨU VÀ PHÁT TRIỂN 3.1. T u t ập ữ l ệu Dựa theo các nghiên cứu về vấn đề theo học của học viên từ xa thì chúng ta có thể phần chia các nguyên nhân ảnh hƣởng đến vấn đề theo học ra thành nguyên nhân chung và nguyên nhân riêng. Nguyên nhân chung là các nguyên nhân từ cơ sở đào tạo nhƣ chất lƣợng học tập, trình độ giảng dạy, thiếu sót trong tổ chức . . . và các nguyên nhân ảnh hƣởng từ xã hội. Nguyên nhân riêng là các nguyên nhân của chính học viên nhƣ vấn đề về tài chính, áp lực gia đình, thành tích học tập . . . Bởi vì các nguyên nhân chung ảnh hƣởng tới tất cả các học viên và các cơ sở đào tạo có thể tự chủ động thay đổi để khắc phục tình trạng này. Do đó chúng ta sẽ sử dụng các dữ liệu liên quan trực tiếp tới học viên để thực hiện dự báo khả năng theo học của học viên. Do mặt hạn chế về thu thập dữ liệu, cho nên dữ liệu về hồ sơ học viên đƣợc sử dụng gồm có 964 học viên bao gồm 14 thuộc tính về: Tuổi, giới tính, đối tƣợng học, ngành học, ngành tốt nghiệp, tình trạng đóng học phí, các thuộc tính về tình trạng học tập . . . 3.2. C m n ự o Dựa theo quá trình tìm hiểu và nghiên cứu, có một số mô hình dự báo để triển khai nhƣ sau: Mô hình Đầu v o Đầu r Dự báo tình trạng thôi của học viên Hồ sơ của những học viên đã tốt nghiệp và những học viên đã thôi Tr n t ọ v n 0 – Thôi học 64 học 1 – Tốt nghiệp Dự báo tình trạng học tập của học viên qua 1 kỳ xác định (Ký hiệu: kỳ x =2,3,4) Hồ sơ của những học viên đã học qua kỳ x và những học viên đã THÔI HỌC trƣớc kỳ x Tr n t ọ v n 0 – Thôi học 1 – Học vƣợt qua kỳ x Dự báo khả năng theo học của học viên trong quá trình học Kỳ x; Tr n t ọ v n Hồ sơ học viên; Màu xanh (Học thêm đƣợc ít nhất 2 kỳ nữa) Qui mô lớp; Màu vàng (Kỳ tới sẽ thôi học) Điểm tích lũy trung bình; Màu đỏ (Kỳ này thôi học) Số lần đăng nhập website, diễn đàn . . . của cơ sở đào tạo Tỉ lệ thôi học kỳ trƣớc 3.3. S n p m p ần mềm v ớ ử lý 3.3.1 Khái niệm tiền xử lý tập dữ liệu Tiền xử lý dữ liệu là thay đổi giá trị của tập dữ liệu trƣớc khi đƣa vào một mạng nơron. Tiền xử lý sẽ biến đổi dữ liệu để làm cho tập dữ liệu đó thích hợp với hệ thống mạng nơron. Ví dụ, chuyển giá trị văn bản thành số. Sau tiền xử lý (post-preprocessing) là thay đổi đầu ra của mạng nơron để ngƣời dùng dễ hiểu hoặc phù hợp với môi trƣờng thế giới thực. Định lại tỉ lệ giá trị hoặc mã hóa lại các danh mục (categories). Mạng nơron chỉ làm việc với dữ liệu số. Cho nên những dữ liệu nhƣ giống kiểu văn bản về thời gian nhƣ ngày tháng cần phải xử lý. Do đó, chuyển đổi dữ liệu rất cần thiết trƣớc khi đƣa chúng tới đầu vào của mạng (preprocessing) và sau đó nhận chúng tại đầu ra (post-preprocessing). 65 Giá trị văn bản có thể chỉ đƣợc sử dụng nếu giá trị văn bản đó đại diện cho một tập giá trị cuối cùng. Cột có các giá trị đó đƣợc gọi là categories columns. Chúng cần đƣợc chuyển thành giá trị số trƣớc khi đƣa vào luyện mạng. Cần định lại tỉ lệ của các giá trị số trƣớc khi đƣa chúng vào luyện mạng, bởi vì các nơron nhân tạo có một khoảng giá trị giới hạn các giá trị tính toán. Do đó, thông tin đầu vào nên đƣợc giảm xuống khoảng giá trị này và thông tin đầu ra cũng nhận đƣợc từ mạng bằng việc biến đổi ngƣợc lại. Các Cột với những thông tin về ngày tháng và thời gian thƣờng đƣợc mã hóa theo chu kỳ, bởi vì trong nhiều trƣờng hợp các dữ liệu đó sẽ ảnh hƣởng đến vấn đề định kỳ và xác định chu kỳ. Chu kỳ của các dữ liệu cần phải đƣợc mã hóa thông thƣờng nhất cần đƣợc xác định một cách rõ ràng. 3.3.2 Các thao tác tiền xử lý Định lại tỉ lệ cột dữ liệu số (Scaling Numeric Columns) a) Cột dữ liệu số đƣợc định lại tỉ lệ theo công thức sau ( max min) max min min ( min)* SR SR SF X X Xp SR X X SF       Trong đó,  X – giá trị thực của dữ liệu  Xmin – giá trị thực nhỏ nhất của cột dữ liệu (minimum actual value)  Xmax – giá trị thực lớn nhất của cột dữ liệu (maximum actual value)  SRmin – giới hạn dƣới của khoảng tỉ lệ mới (lower scaling range)  Srmax – giới hạn trên của khoảng tỉ lệ mới (upper scaling range)  SF – Hệ số tỉ lệ 66 b) Khoảng định tỉ lệ  Đối với cột dữ liệu vào đƣợc định lại tỉ lệ trong khoảng [-1 .. 1].  Đối với cột đích khoảng định tỉ lệ phụ thuộc vào hàm kích hoạt sử dụng ở lớp xuất (output layer): Output layer activation function Scaling range Linear [-1 .. 1] Logistic [0 .. 1] Hyperbolic Tangent [-1 .. 1] Softmax [0 .. 1]  Cột đích sẽ đƣợc tiền xử lý lại tự động nếu hàm kích hoạt thay đổi trong bƣớc tinh chỉnh mạng ở lớp xuất (output layer). c) Mặc định, Xmin và Xmax đƣợc lấy từ tập dữ liệu đầu vào. 3.3.3 Mã hóa cột dữ liệu văn bản (Encoding Categorical Columns) Cột dữ liệu văn bản đƣợc tự động mã hóa trong quá trình tiền xử lý dữ liệu sử dụng mã hóa dạng One-of-N, Binary hoặc Numeric. Mã hóa dạng One-of-N nghĩa là 1 cột với N giá trị văn bản (categories values) khác nhau đƣợc mã thành tập N cột số, với mỗi một cột tƣơng ứng mỗi giá trị trong N giá trị. Ví dụ, có cột Capacity với các giá trị “Low”, “Medium” and “High”. Vậy “Low” sẽ đƣợc biểu diễn (mã hóa) thành {1, 0, 0}, “Medium” thành {0, 1, 0}, “High” thành {0, 0, 1}. Mã hóa dạng Binary nghĩa là 1 cột với N giá trị văn bản (categories values) khác nhau đƣợc mã thành tập M cột nhị phân, trong đó M bằng với độ dài số nhị phân đƣợc dùng có thể biểu diễn đƣợc N giá trị khác nhau. Ví dụ, cột Color có các giá trị “Red”, “Yellow”, “Green”, “Blue”, và “White” sẽ đƣợc mã thành 3 cột nhị phân. Và Red sẽ đƣợc biểu diễn thành {0, 0, 0}, 67 Yellow là {0, 0, 1}, Green là {0, 1, 0}, Blue là {0, 1, 1}, và White là {1, 0, 0}. Ta luôn có đƣợc M <= N (dấu bằng xảy ra khi M = N = 1). Mã hóa dạng Numeric nghĩa là 1 cột với N giá trị văn bản (categories values) khác nhau đƣợc mã thành 1 cột số, với 1 số nguyên sẽ đƣợc gán cho 1 giá trị văn bản. Ví dụ, cột Capacity có các giá trị “Low”, “Medium”, và “High”. Vậy Low đƣợc đại diện bởi giá trị {1}, Medium là {2}, và High là {3}. Kiểu mã hóa dạng One-of-N đƣợc khuyến cáo sử dụng bởi tính trực quan hóa. Mã hóa dạng Binary là lựa chọn tốt để giảm số nút nhập và mã hóa dạng Numeric có thể đƣợc sử dụng cho dữ liệu văn bản có thứ tự (ordered categories). Chú ý: trong mã hóa dạng One-of-N và Binary thì -1 có thể đƣợc sử dụng thay cho 0 phụ thuộc vào hàm kích hoạt. 3.3.4 Mã hóa cột dữ liệu Date/Time (Encoding Date/Time Columns) Thƣờng thì cột date/time chỉ là các trƣờng hợp định danh và không hữu ích cho việc nâng cao tính chính xác dự báo. Tuy nhiên, đôi khi chúng lại thể hiện thống tin quan trọng hữu ích cho việc giảm lỗi dự báo. Ví dụ, doanh số bán hàng có thể phụ thuộc vào ngày trong tuần hoặc theo mùa. Nếu nhƣ chúng ta mã giá trị date/time bằng những con số, thì chúng ta mất thông tin quan trọng về tính chu kỳ. Ví dụ, nếu chúng ta mã Sunday là 1 và Saturday là 7, mạng nơron sẽ “nghĩ” rằng Sunday và Saturday một cách mơ màng, điều đó là sai. Chúng ta cần mã hóa chu kỳ để đƣa giá trị date/time một cách chính xác cho mạng nơron sử dụng. Các cột Date và time đƣợc tự động mã hóa trong quá trình tiền xử lý. Kiểu dữ liệu Date/Time đƣợc mã trong 2 cột. Các giá trị trong các cột mới đƣợc tính bởi công thức sau: 68 _1 sin(2 ) _ 2 os(2 ) X Column P X Column c P     Trong đó, X – cột giá trị P – tính chu kỳ Ví dụ, để mã hóa một chu kỳ theo tuần P nên đƣợc gán là 7. Đối với cột Time thì P luôn đƣợc gán là 24. Các cột dữ liệu kiểu Date cũng có thể đƣợc mã nhƣ kiểu dữ liệu văn bản (categories) bằng cách sử dụng mã hóa dạng One-of-N. 3.3.5 ản phẩm ph n mềm Mục đích của chƣơng trình là chạy kiểm thử tập dữ liệu đã thu thập đƣợc, kiểm chứng độ chính xác của các kết quả mà những mô hình thực hiện trong đề tài đã đƣa ra. Với mục đích là giải quyết vấn đề của thế giới thực, cho nên chƣơng trình chỉ bao gồm một số tính năng cơ bản dễ sử dụng nhƣ phân tích tập dữ liệu, tiền xử lý dữ liệu, luyện mạng, thiết lập kiến trúc mạng, kiểm tra kết quả luyện mạng . . . 69 Hình 23: Giao diện chính của chương trình Ch c năng phân t ch Dữ liệu thu thập đƣợc sẽ đƣợc đƣa vào chƣơng trình tại tab Analysis, những bản ghi nhiễu, thiếu hoặc dị thƣờng sẽ đƣợc chƣơng trình tự động lọc ở đây trƣớc khi chuyển sang bƣớc tiền xử lý dữ liệu. Tại tab này các cột (thuộc tính) dữ liệu sẽ tự động nhận dạng kiểu dữ liệu (cũng có thể tùy chỉnh bằng tay). Đồng thời tập dữ liệu sẽ đƣợc chia thành ba phần dữ liệu tƣơng ứng với tập dữ liệu luyện mạng màu xanh nhạt, tập dữ liệu đánh giá mạng màu xanh đậm, và tập dữ liệu kiểm tra mạng màu đỏ, đồng thời đƣợc mặc định chia tỉ lệ 0.68:0.16:0.16. 70 Hình 24: hức năng phân tích tập d liệu Ch c năng Tiền xử lý Các dữ liệu đã đƣợc xử lý tự động từ quá trình phân tích tập dữ liệu tại bƣớc trƣớc, sẽ đƣợc chuyển đổi từ các kiểu dữ liệu phổ thông thành những kiểu dữ liệu phù hợp với mạng. Ví dụ nhƣ xác định lại tỉ lệ của kiểu dữ liệu có thứ tự, mã hóa các dữ liệu văn bản, dữ liệu ngày tháng . . . 71 Hình 25: hức năng tiền xử l d liệu Ch c năng Huấn luyện Sau khi phân tích và xử lý bộ dữ liệu đã thu thập đƣợc. Chƣơng trình sẽ tự động thiết kế cấu trúc mạng mặc định, các tham số mạng và kiến trúc mạng có thể đƣợc thay đổi bởi ngƣời dùng từ trƣớc khi bắt đầu luyện mạng, điều này giúp cho mạng có thể hoạt động hiệu quả nhất. Hình 26: Tùy chỉnh tham số mạng Sau khi ngƣời dùng thiếp lập các tham số mạng thì mạng sẽ đƣợc tự động luyện. Kết quả của quá trình luyện màn sẽ đƣợc thể hiện trực quan bằng 72 đồ thị hàm lỗi của mạng dựa trên các tập dữ liệu đã tham gia trong quá trình luyện mạng. Có thể thấy đƣợc rằng đồ thị hàm lỗi của tập dữ liệu luyện mạng (training set) thấp hơn nhiều só với đồ thị hàm lỗi của tập dữ liệu kiểm tra mạng (validation set). Bởi vì mạng có khả năng làm cho các bộ trọng của mạng khớp nhất với những gì mà mạng đã đƣợc học. Chính vì thế cần đƣa thêm vào mạng tập dữ liệu kiểm tra mạng. Khi lỗi trên tập dữ liệu kiểm tra mạng không giảm mà bắt đầu tăng thì sẽ có đƣợc mạng với bộ trọng tốt nhất, và có khả năng dự báo với độ chính xác cao nhất. Hình 27: Đồ thị hàm lỗi của mạng trên các tập d liệu Ch c năng Thi t lập ki n trúc mạng 73 Hình 28: Thiết lập kiến trúc mạng Ch c năng Ki m tra k t quả luyện mạng Với mạng đƣợc chọn thì kết quả dự báo trên các tập dữ liệu là khác nhai. Phần trăm đúng trên tập dữ liệu Test sẽ đƣợc sử dụng để dự báo trên dữ liệu của các học viên mới. Hình 29: Phần trăm đúng trên các tập d liệu tham gia luyện mạng 74 Ch c năng ki m tra t nh ph hợp của mạng Hình 30: Phần trăm đúng dựa trên d liệu xác minh Ch c năng Ki m tra Hình 31: Phần trăm đúng dựa trên tập d liệu Test Ch c năng Truy vấn k t quả Nếu muốn dự báo trạng thái của một học viên tại kỳ 4 nhƣ thế nào 75 Ví dụ1: ta có hồ sơ của một học viên nhƣ sau. Tuổi 34 Giới tính Nam Đối tƣợng Văn bằng 2 Khác ngành Yes Ngành Kinh tế Số môn thi lại kỳ 1 0 Số môn học lại kỳ 1 0 Số môn thi lại kỳ 2 1 Số môn học lại kỳ 2 1 Số môn thi lại kỳ 3 2 Số môn học lại kỳ 3 1 Tình trạng hôn nhân Đã kết hôn Kết quả PTTH Trung bình Tình trạng học phí Nợ học phí Hình 32: ết quả truy vấn Ví dụ2: Ta có hồ sơ của một học viên nhƣ sau. Tuổi 34 Giới tính Nam Đối tƣợng Cao đẳng Khác ngành No Ngành Kinh tế Số môn thi lại kỳ 1 0 Số môn học lại kỳ 1 0 Số môn thi lại kỳ 2 1 Số môn học lại kỳ 2 1 Số môn thi lại kỳ 3 0 Số môn học lại kỳ 3 0 Tình trạng hôn nhân Chƣa kết hôn Kết quả PTTH Giỏi 76 Tình trạng học phí Không nợ học phí Hình 33: ết quả truy vấn 2 3.4 o o p n t ữ l ệu Dựa trên các dữ liệu đã thu thập đƣợc, sau quá trình tiền xử lý và đƣa vào mô hình mạng nơron để luyện thì nhận đƣợc kết quả nhƣ sau: Dữ l ệu m u Tỷ lệ m u THÔI HỌC YN THÔI HỌC SAU KỲ Kỳ 2 Kỳ 3 Kỳ 4 Tập ữ l ệu t u t ập 100% 52 964 930 912 Tập ữ l ệu lu ện 68% 36 654 632 620 Tập ữ l ệu ểm tr p ù ợp 16% 8 155 149 146 Tập ữ l ệu ểm tr 16% 8 155 149 146 Kết qu ự o ún 91.67% 68.81% 77.68% 86.00% 77 KẾT LUẬN VÀ KIẾN NGHỊ Kết qu t ợc Phƣơng pháp ứng dụng khai phá dữ liệu để dự báo khả năng theo học của học viên đào tạo từ xa giúp tự động hóa quá trình phát hiện khả năng theo học của học viên trong tƣơng lai. Thay vì phải sàng lọc thủ công từng hồ sơ của học viên mất rất nhiều thời gian công sức thì ngƣời dùng chỉ cần đƣa thông tin hồ sơ của học viên vào chƣơng trình để kiểm tra xem học viên đó có khả năng theo học hay không. Phƣơng pháp này giúp cho các cơ sở đào tạo chủ động trong việc tƣ vấn và hỗ trợ cho học viên để họ có thể hoàn thành khóa học. H ớng nghiên cứu Tích hợp với các hệ thống thu thập dữ liệu của cơ sở đào tạo để có thể

Các file đính kèm theo tài liệu này:

luan_van_nghien_cuu_ap_dung_ki_thuat_mang_noron_de_du_bao_kh.pdf