Luận văn Nghiên cứu phương pháp phát hiện sự kiện cực hiếm bằng mô hình autoencoder và ứng dụng vào dự báo trước sự cố trong nhà máy giấy

LỜI CAM ĐOAN . 2

LỜI CẢM ƠN. 3

Danh mục các ký hiệu và chữ viết tắt. 4

Danh mục các bảng . 5

Danh mục các hình vẽ, đồ thị. 6

MỤC LỤC. 8

MỞ ĐẦU . 10

1. Lý do chọn đề tài. 10

2. Mục đích nghiên cứu . 13

3. Nhiệm vụ nghiên cứu. 13

4. Đối tượng và phạm vi nghiên cứu. 13

5. Phương pháp nghiên cứu. 13

Chương 1. TỔNG QUAN VỀ SỰ KIỆN HIẾM. 14

1.1. KHÁI NIỆM VỀ SỰ KIỆN HIẾM. 14

1.1.1. Định nghĩa sự kiện hiếm. 14

1.1.2. Các sự kiện hiếm trong tự nhiên và xã hội. 15

1.2. BÀI TOÁN DỰ BÁO TRƯỚC SỰ KIỆN HIẾM. 17

Chương 2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM. 19

2.1. TÌM HIỂU CÁC PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM. 19

2.1.1. Nhân bản mẫu dương tính. 19

2.1.2. Giảm số lượng mẫu âm tính . 20

2.1.3. Tạo thêm các mẫu dương tính bằng thuật toán. 21

2.1.4. Điều chỉnh trọng số học tập các mẫu . 22

2.1.5. Đánh giá các phương pháp cân bằng số lượng mẫu. 22

pdf71 trang | Chia sẻ: honganh20 | Lượt xem: 580 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu phương pháp phát hiện sự kiện cực hiếm bằng mô hình autoencoder và ứng dụng vào dự báo trước sự cố trong nhà máy giấy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ụng một phương pháp cân bằng số lượng mẫu mỗi lớp một 23 cách riêng lẻ mà cần sử dụng kết hợp các phương pháp lại. Điều này sẽ đem lại độ hiệu quả cao hơn nhiều, khắc phục bớt khuyết điểm của mỗi phương pháp riêng rẽ. Bên cạnh đó, do một tỉ lệ lớn các bài toán sự kiện hiếm là các sự kiện diễn ra theo thứ tự thời gian được lấy mẫu định kỳ. Chính vì vậy việc sử dụng các mô hình dự báo cho chuỗi thời gian đa biến, như mô hình mạng nơ-ron bộ nhớ ngắn hạn LSTM(Long short-term memory) hay mạng nơ-ron đơn vị hồi quy có kiểm soát (Gated Recurrent Units - GRU), kết hợp với các phương pháp cân bằng số mẫu thường cải thiện độ hiệu quả cho mô hình. Việc sử dụng các phương pháp cân bằng số mẫu tương đối hiệu quả khi dự báo các sự kiện hiếm (số mẫu dương tính chiếm 5-10%) và một số sự kiện rất hiếm (số mẫu dương tính chiếm 1-5%). Tuy nhiên đối với các sự kiện cực hiếm (số mẫu dương tính nhỏ hơn 1%) thì việc sử dụng kết hợp tất cả các giải pháp trên cũng không thực sự hiệu quả rõ ràng. Chính vì thế cần sử dụng mô hình đặc biệt khác để dự báo sự kiện hiếm: Mô hình bộ mã hóa tự động Autoencoder. 24 2.2. PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM BẰNG MÔ HÌNH AUTOENCODER 2.2.1. Mô hình Autoencoder 2.2.1.1. Định nghĩa mô hình Autoencoder Autoencoder hay còn gọi là bộ mã hóa tự động không phải là một mô hình mạng nơ-ron có cấu trúc cụ thể mà là một khái niệm chỉ các mô hình mạng nơ-ron nhân tạo phân loại 1 lớp, có đầu ra giống với đầu vào. Mô hình này được sử dụng để tìm ra các đặc trưng nén hiệu quả nhất của bộ dữ liệu bằng phương pháp học không giám sát. Autoencoder thường có 3 thành phần chính là khối mã hóa, mã và khối giải mã (như hình 2.4). Mục đích của khối mã hóa của Autoencoder là tìm cách biểu diễn (mã hóa) cho bất kỳ dữ liệu đầu vào nào thành mã. Đồng thời, khối giải mã của Autoencoder có chức năng cố gắng tái tạo lại dữ liệu [18] ban đầu từ dữ liệu đã mã hóa sao cho dữ liệu giải mã càng giống với đầu vào càng tốt. Do bộ mã hóa tự động có đầu vào tương tự đầu ra nên không cần phải mất thời gian và công sức để dán nhãn dữ liệu như các mô hình khác, vì thế có thể đào tạo mô hình bằng phương pháp học không giám sát. Hình 2.4. Mô hình Autoencoder mã hóa tự động số 4 Mô hình Autoencoder không quy định kích thước mã phải nhỏ hơn hay lớn hơn kích thước đầu vào. Tuy nhiên sử dụng trong thực tế đại đa số các mạng Autoencoder đều hướng tới việc đặt kích thước mã nhỏ hơn kích thước đầu vào nhiều lần. Việc thiết lập kích thước mã nhỏ sẽ có tác dụng khuyến khích mô hình mạng bỏ qua tín hiệu nhiễu, chỉ giữ lại những đặc trưng quan trọng nhất của dữ liệu đầu vào. Đồng thời giảm kích thước cũng rất thuận lợi cho việc lưu 25 trữ mã trong các ứng dụng cần nén dữ liệu có mất mát. Sử dụng mã làm đầu vào cho các mô hình huấn luyện khác giúp làm tăng tốc độ hội tụ và khả năng khái quát của mạng, giúp cải thiện độ chính xác so với dữ liệu gốc làm đầu vào, đặc biệt hiệu quả với những bài toán bộ dữ liệu đầu vào là đa biến và mật độ dữ liệu mỗi biến thưa thớt. Chính vì vậy khi nhắc đến Autoencoder mặc định là ám chỉ các bộ mã hóa tự động có kích thước mã nhỏ hơn nhiều so với kích thước đầu vào. Điều này tạo ra một nút thắt cổ chai (bottleneck) cho toàn bộ mạng nơ-ron ở vị trí mã. Hình 2.5. Kiến trúc mạng nơ-ron Autoencoder 2.2.1.2. Kiến trúc mạng nơ-ron Autoencoder Như thể hiện trên hình 2.5, kiến trúc một bộ mã hóa tự động Autoencoder bao gồm 3 thành phần chính: − Khối mã hóa (encoder): Khối mã hóa sẽ nhận đầu vào là vec-tơ biểu diễn dữ liệu n chiều, đầu ra là vec-tơ mã hóa trong không gian ẩn m chiều. Thông thường khi nhắc đến Autoencoder nếu không nhắc tới cụ thể kích thước khối mã thì ngầm hiểu m < n. Do đó đây cũng là một phương pháp để giảm số chiều của dữ liệu vào. 26 − Mã (code): Đây là một vec-tơ trong không gian m chiều. Mã chính là vetor của lớp ẩn nằm chính giữa bộ mã hóa tự động, có số chiều nhỏ nhất trong tất cả các lớp, cũng chính là nút thắt cổ chai có chủ đích của toàn mạng. Chính nhờ nút thắt cổ chai này mà mạng nơ-ron nhân tạo có khuynh hướng chỉ giữ lại những đặc điểm quan trọng nhất của dữ liệu và loại bỏ các thành phần nhiễu và các thành phần dư thừa. Đây chính là kết quả đầu ra của khối mã hóa và được dùng làm đầu vào của khối giải mã. − Khối giải mã (decoder): Khối giải mã nhận đầu vào là thành phần mã (vec-tơ m chiều) và có nhiệm vụ cố gắng tái tạo lại dữ liệu ban đầu (vec- tơ n chiều đầu vào của khối mã hóa). Vì thế trong quá trình huấn luyện cho mạng nơ-ron, đầu ra của khối giải mã cũng chính là đầu vào của khối mã hóa ban đầu. Để đào tạo một bộ mã hóa tự động, chúng ta không cần phải dán nhãn dữ liệu bởi vì đầu ra của bộ mã hóa tự động cũng chính là dữ liệu đầu vào của nó. Chính vì thế bộ mã hóa tự động được coi là một mạng nơ-ron học không giám sát, không cần nhãn rõ ràng để đào tạo. Trong một số mô hình Autoencoder dùng để khử nhiễu của ảnh, trong quá trình đào tạo tín hiệu đầu ra có thể khác đầu vào, thường đầu vào là những bức ảnh đã bị nhiễu, đầu ra là những bức ảnh tốt hơn chưa bị nhiễu ảnh hưởng. Có thể hình dung Autoencoder là một mô hình nén dữ liệu có mất mát một tín hiệu đầu vào và khôi phục lại tín hiệu đó. Để khôi phục lại được tín hiệu gốc ít mất mát nhất, mã phải học được cách lưu giữ các thông tin quan trọng nhất, hiệu quả nhất của tín hiệu đầu vào, đồng thời cũng loại bỏ được một số thành phần tín hiệu nhiễu, thành phần ít quan trọng hơn. 2.2.1.3. Phân loại mạng Autoencoder Vì Autoencoder không phải là một mô hình mạng nơ-ron có cấu trúc cụ thể mà là một khái niệm chỉ các mô hình mạng nơ-ron nhân tạo phân loại 1 lớp có đầu ra giống với đầu vào nên khi kết hợp vào các kiến trúc mạng nơ-ron khác tạo ra các mô hình bộ mã hóa tự động khác nhau như dưới đây: 27 Bộ mã hóa tự động MLP Autoencoder Hình 2.6. Kiến trúc mạng MLP Autoencoder MLP Autoencoder (Multi-layer Perceptron) hay còn gọi là bộ mã hóa tự động Perceptron đa lớp là sự kết hợp giữa kiến trúc mạng nơ-ron Perceptron đa lớp và mô hình Autoencoder. Đây là kiến trúc đơn giản nhất của một Autoencoder, là một mạng nơ-ron MLP được xây dựng để huấn luyện không giám sát với đầu ra chính là đầu vào. Mạng được xây dựng với một nút thắt cổ chai là lớp mã ở chính giữa. Kích thước các lớp ẩn giảm dần ở khối mã hóa (từ đầu vào đến lớp mã) và tăng dần trở lại ở khối giải mã (từ lớp mã đến đầu ra). Kích thước các lớp ẩn thường được lựa chọn đối xứng qua lớp mã với ý tưởng là mỗi lớp ở khối giải mã là ảnh phản chiếu của một lớp ở khối mã hóa. Thực tế là chúng ta không có ràng buộc dữ liệu ở các lớp ẩn trong khối giải mã phải bằng với dữ liệu ở các lớp tương ứng trong khối mã nên hoàn toàn có thể xây dựng khối giải mã có số lớp và số nút khác với khối mã hóa. Tuy nhiên việc xây dựng mô hình các lớp đối xứng qua lớp mã thường được khuyến khích lựa chọn vì giúp quá trình tối ưu tham số trở nên hiệu quả và dễ dàng hơn và trông mô hình đẹp và có cấu trúc hơn. Mô hình MLP Autoencoder thường được ứng dụng trong các bài toán phân loại và dự báo với đầu vào đa biến. Đây cũng là mô hình có kiến trúc đơn giản nhất nên có thể dễ dàng xây dựng để làm chuẩn so sánh với các mô hình truyền thống và Autoencoder khác. 28 Bộ mã hóa tự động LSTM Autoencoder Hình 2.7. Kiến trúc mạng LSTM Autoencoder LSTM Autoencoder (Long short-term memory) hay còn gọi là bộ mã hóa tự động bộ nhớ ngắn hạn LSTM là sự kết hợp giữa kiến trúc mạng nơ-ron bộ nhớ ngắn hạn LSTM và mô hình Autoencoder. Mô hình LSTM Autoencoder có khối mã hóa và khối giải mã là 2 mạng nơ-ron LSTM đề chứa n mẫu dữ liệu giống nhau liên tiếp theo thời gian (hình 2.7). Kết nối giữa 2 khối mã hóa và giải mã là lớp mã m chiều, chứa các đặc trưng đã được mã hóa của n mẫu này, và cũng là nút thắt cổ chai của toàn mạng. Mạng Autoencoder sẽ mã hóa n mẫu đầu vào và cố gắng tái tạo lại n mẫu này từ vec-tơ mã. Bộ mã hóa LSTM Autoencoder được xây dựng trên kiến trúc mạng nơ- ron LSTM nên chuyên dùng để xử lý các bài toán chuỗi thời gian đa biến : xử lý các bộ dữ liệu được lấy mẫu định kỳ theo thời gian, xử lý tín hiệu âm thanh, video 29 Bộ mã hóa tự động Convolutional Autoencoder Hình 2.8. Kiến trúc mạng Convolutional Autoencoder Convolutional Autoencoder [19] hay còn gọi là bộ mã hóa tự động xoắn là sự kết hợp giữa kiến trúc mạng nơ-ron xoắn và mô hình Autoencoder. Mô hình Convolutional Autoencoder có kiến trúc tương tự như MLP Autoencoder nhưng thay thế các lớp kết nối đầy đủ bằng các lớp xoắn convolution (bao gồm lớp gộp - pooling layer) (hình 2.8). Kích thức mỗi lớp xoắn giảm dần trong khối mã hóa và tăng dần trong khối giải mã tương tự như MLP Autoencoder. Bộ mã hóa Convolutional Autoencoder được xây dựng trên kiến trúc mạng nơ-ron xoắn nên chuyên dùng để xử lý các bài toán phân lớp hình ảnh, video. Các bộ mã hóa tự động khác Ngoài 3 kiến trúc kể trên mô hình Autoencoder còn kết hợp được với rất nhiều cấu trúc mạng nơ-ron khác để xử lý các bài toán cụ thể. Điểm chung của các mô hình này là sử dụng các kiến trúc huấn luyện đặc thù cho từng bài toán kết hợp với ưu điểm huấn luyện không giám sát, tạo nút thắt cổ chai để tăng tính khái quát hóa và giảm ảnh hưởng nhiễu của mô hình Autoencoder. 2.2.1.4. Xây dựng mô hình Autoencoder cho bài toán cụ thể Để xây dựng một bộ mã hóa tự động cụ thể, bước đầu tiên cần làm là phải tìm được mô hình Autoencoder nào phù hợp để xử lý dữ liệu cho bài toán (xem các mô hình Autoencoder nêu trong mục 2.2.1.3). Sau khi xác định được mô hình phù hợp, thông quá quá trình thử nghiệm chúng ta cần xác định 4 thành phần tham số chính sau đây để tối ưu cho mạng nơ-ron Autoencoder: 30 − Kích thước mã: kích thước mã là số lượng nút trong lớp giữa. Kích thước mã nhỏ hơn dẫn đến tỉ lệ nén nhiều hơn, khả năng mạng sẽ tìm được những đặc trưng quan trọng nhất tốt hơn. Tuy nhiên nếu kích thước mã xuống quá thấp thì không đủ khả năng lưu trữ được các dữ liệu cần thiết dẫn tới việc giải mã ở đầu ra rất khác đầu vào. Với những ứng dụng nén ảnh khi biết tỉ lệ nén trước ta có thể xác định kích thước mã ngay từ lúc xây dựng mô hình mạng, với những ứng dụng chưa biết trước kích thước mã ta cần quá trình thử nghiệm để xác định kích thước tối ưu. − Số lớp ẩn, hàm kích hoạt: bộ mã hóa tự động có thể có số lượng lớp bất kỳ như chúng ta muốn. Như trong hình 2.6 minh họa về kiến trúc MLP Autoencoder có 2 lớp ẩn kết nối đầu đủ trong cả khối mã hóa và khối giải mã (không tính lớp đầu vào và đầu ra). Thông thường chỉ cần 2 lớp ẩn trong khối mã hóa và khối giải mã là đủ hiệu quả cho mô hình đào tạo, tuy nhiên tùy theo đặc trưng bài toán có thể tăng giảm số lớp ẩn cho phù hợp và hiệu quả. Hàm kích hoạt ở mỗi lớp thường là các hàm phi tuyến (sigmoid, tanh, relu ) ngoại trừ ở lớp ẩn cuối cùng sát với đầu ra chúng ta không nên sử dụng hàm kích hoạt (tương đương với sử dụng hàm kích hoạt tuyến tính) để mạng nơ-ron dễ dàng giải mã tín hiệu đầu ra tương tự tín hiệu đầu vào. − Số lượng nút trên mỗi lớp ẩn: Chúng ta có toàn quyền kiểm soát các tham số số lượng nút trên mỗi lớp ẩn mà không có ràng buộc nào. Tuy nhiên như phân tích ở mục 2.2.1.2, thông thường để tăng độ hiệu quả đào tạo mạng, khuyến khích mạng giữ lại những đặc trưng quan trọng nhất và giảm nhiễu, số lượng nút của lớp mã nhỏ hơn nhiều so với đầu vào. Vì vậy số lượng nút trên mỗi lớp ẩn nên được thiết kế giảm dần theo từng lớp trong khối mã hóa và tăng dần trở lại trong khối giải mã. Kích thước mỗi lớp ẩn có thể được xác định tối ưu thông qua quá trình thử nghiệm, nhưng không quan trọng bằng việc xác định kích thước mã. − Hàm mất mát: hàm mất mát cho các mô hình Autoencoder thường được sử dụng là hàm lỗi bình phương trung bình (mean squared error - mse) hoặc hàm crossentropy hay crossentropy nhị phân. Nếu các giá trị đầu vào 31 nằm trong phạm vi [0, 1] thì chúng ta thường sử dụng hàm crossentropy, nếu không, chúng ta sử dụng lỗi bình phương trung bình. Ngoài ra tùy vào bài toán chúng ta có thể sử dụng các hàm mất mát khác cho phù hợp và hiệu quả. Từ kiến trúc mạng nơ-ron Autoencoder, chúng ta thấy khối mã hóa có mục tiêu tương tự với phương pháp phân tích thành phần chính (Principal Component Analysis - PCA). Nếu kích hoạt tuyến tính được sử dụng ở mỗi lớp, thì chúng ta nhận được đầu ra ở lớp mã có giá trị gần như tương tự với kết quả chúng ta nhận được khi dùng PCA giảm số chiều đầu vào từ n chiều xuống m chiều như hình 2.9. Hình 2.9. Kết quả mã hóa bộ dữ liệu MNIST bằng PCA và Linear Autoencoder Tuy nhiên, tiềm năng của Autoencoder nằm ở tính phi tuyến tính của bộ mã hóa tự động, cho phép mô hình học cách khái quát hóa mạnh hơn nhiều so với PCA và có khả năng tái tạo lại dữ liệu đầu vào với mức độ mất thông tin thấp hơn đáng kể. Điều này thể hiện rất rõ trên hình 2.10 khi với cùng tỉ lệ nén, hình ảnh khôi phục từ bộ mã hóa tự động Autoencoder trông rõ ràng hơn rất nhiều so với hình ảnh khôi phục từ PCA. 32 Hình 2.10. Hình ảnh được khôi phục sau khi nén bằng PCA và Autoencoder 2.2.1.5. Các ứng dụng mô hình Autoencoder Do bộ tự động mã hóa Autoencoder là một mô hình khái niệm linh hoạt kết hợp với rất nhiều mô hình cụ thể khác tạo ra mô hình có rất nhiều ưu điểm như giảm số chiều, khử nhiễu, học không giám sát nên đã được ứng dụng vào rất nhiều bài toán khác nhau. Dưới đây là một số ứng dụng điển hình của mô hình Autoencoder: Giảm kích thước, giảm số chiều Giảm kích thước đầu vào là một trong những ứng dụng đầu tiên và là một trong những động lực ban đầu để nghiên cứu bộ mã hóa tự động Autoencoder. Mục tiêu ban đầu của Autoencoder là tìm ra một phương pháp chiếu thích hợp để ánh xạ dữ liệu từ không gian có số chiều cao sang không gian có số chiều thấp hơn. Nhờ việc giảm kích thước, bộ mã hóa tự động có thể được ứng dụng để giảm kích thước đầu vào với các bộ dữ liệu có kích thước đầu vào hàng trăm, hàng ngàn biến xuống nhiều lần để làm đầu vào mới cho các mô hình huấn luyện tiếp theo. Ngoài ra khi chúng ta cần đào tạo các mạng có đầu vào là các vec-tơ thưa việc giảm số chiều giúp chúng ta biến đổi đầu vào thành các vec- tơ có mật độ dữ liệu nhiều hơn [20], tạo thuận lợi cho các mô hình đào tạo. Truy xuất thông tin Lợi ích truy xuất thông tin thước trong tìm kiếm cũng đến từ đặc điểm giảm kích thước đầu vào của Autoencoder. Điều này có thể trở nên cực kỳ hiệu quả khi chúng ta giảm kích thước đầu vào xuống không gian khối mã có số chiều thấp nhất định (vừa đủ để phân biệt các dữ liệu thông tin vừa đủ nhỏ để 33 tăng tốc độ truy xuất). Nhờ thế, bộ mã hóa tự động thực sự đã được ứng dụng tạo ra các mã băm ngữ nghĩa , được đề xuất bởi Salakhutdinov và Hinton vào năm 2009 [21]. Mô hình đã tạo ra các mã nhị phân (chỉ có 2 giá trị 0 và 1) có số chiều thấp, sau đó tất cả các mục cơ sở dữ liệu có thể được lưu trữ trong một vec-tơ mã nhị phân ánh xạ bảng băm. Bảng này sau đó sẽ cho phép thực hiện truy xuất thông tin bằng cách trả về tất cả các mục có cùng mã nhị phân như truy vấn hoặc các mục tương tự có sai lệch số bit thấp nhất so với bộ mã của truy vấn. Xử lý ảnh Các đặc điểm đặc biệt của bộ mã hóa tự động đã khiến cho mô hình này cực kỳ hữu ích trong việc xử lý hình ảnh với nhiều ứng dụng khác nhau. Ứng dụng đầu tiên dễ thấy nhất là dùng bộ mã hóa tự động để nén ảnh có mất mát. Trong nhiều nghiên cứu, các bộ mã hóa tự động thể hiện tiềm năng vượt trội so với các phương pháp khác và được chứng minh hoàn toàn đủ sức cạnh tranh với chuẩn nén ảnh JPEG 2000. Một ứng dụng hữu ích khác của bộ mã hóa tự động trong lĩnh vực xử lý hình ảnh là khử nhiễu hình ảnh [22] (hình 2.11 và hình 2.12). Nhu cầu về các phương pháp phục hồi hình ảnh hiệu quả đã tăng lên với việc sản xuất hàng loạt hình ảnh và phim kỹ thuật số các loại, thường được thực hiện trong điều kiện tồi tệ. Hình 2.11. Mô hình đào tạo mạng Autoencoder để khử nhiễu hình ảnh 34 Hình 2.12. Hình ảnh sử dụng Autoencoder để khử nhiễu Không chỉ dừng lại ở việc khử nhiễu, khôi phục lại chất lượng hình ảnh ban đầu, bộ mã hóa tự động còn có thể được ứng dụng để tăng chất lượng hình ảnh vượt qua cả hình ảnh gốc. Một số ứng dụng quan trọng nhất là sử dụng Autoencoder tăng chất lượng hình ảnh là: tô màu hình (hình 2.13), tăng độ phân giải hình ảnh [23] (hình 2.14), tăng độ tương phản, xoay hình ảnh trong không gian 3D Hình 2.13. Dử dụng Autoencoder để tô màu hình ảnh 35 Hình 2.14. Tăng độ phân giải hình ảnh với Convolutional Autoencoder Chuẩn đoán bệnh trong y tế Trong lĩnh vực chẩn đoán từ hình ảnh trong y tế, một số nghiên cứu sử dụng bộ mã hóa tự động Convolutional Autoencoder để khử nhiễu hình ảnh siêu âm, X-quang [24], phát hiện các tế bào trong sinh thiết tủy xương [25], phát hiện ung thư vú [26] hoặc thậm chí mô hình hóa mối quan hệ giữa sự suy giảm nhận thức của Bệnh Alzheimer [27] dựa trên các ưu điểm của Convolutional Autoencoder được đào tạo với MRI. Dịch máy Autoencoder đã được áp dụng thành công vào lĩnh vực dịch máy ngôn ngữ tự nhiên, tạo nên các là máy dịch nơ-ron (Neural Machine Translation - NMT) Autoencoder. Trong NMT, các văn bản ngôn ngữ được coi là chuỗi được mã hóa đưa vào quy trình học tập, trong khi ở phía bộ giải mã, các ngôn ngữ đích sẽ được tạo. 36 2.2.2. Sử dụng Autoencoder phát hiện sự kiện hiếm Với ưu điểm phân loại một lớp bằng phương pháp học không giám sát cùng sự linh hoạt kết hợp với các kiến trúc mạng nơ-ron khác, bộ mã hóa tự động Autoencoder hoàn toàn có thể ứng dụng vào bài toán phát hiện và dự báo sự kiện hiếm, sự kiện bất thường. Hình 2.15. Mô hình MLP Autoencoder dự đoán sự kiện hiếm Chúng ta có thể xây dựng một mô hình mạng Autoencoder điển hình phù hợp với bài toán (như hình 2.15 mô hình MLP Autoencode) có một nút thắt cổ chai ở lớp chính giữa làm mô hình phát hiện sự kiện hiếm. Trong quá trình huấn luyện, chúng ta chỉ cho mạng Autoencoder học các sự kiện bình thường, bỏ qua các sự kiện hiếm. Bằng cách này, mô hình Autoencoder được khuyến khích học cách tái tạo chính xác các đặc điểm của các sự kiện bình thường, mà không học được cách tái tạo các đặc điểm của sự kiện hiếm. Do mạng Autoencoder có nút thắt cổ chai, mạng sẽ có xu hướng học tập và giữ lại các đặc trưng quan trọng, khái quát nhất của các sự kiện bình thường và bỏ qua các nhiễu bất thường. Sau quá trình đào tạo, bộ mã hóa tự động có thể xây dựng lại các dữ liệu bình thường rất tốt, trong khi đó không thực hiện được tương tự với dữ liệu bất thường mà bộ mã hóa tự động không gặp phải. Vì thế các sự kiện hiếm này sẽ sinh ra tỉ lệ lỗi lớn giữa đầu ra và đầu vào. Chúng ta có thể dùng lỗi tái cấu trúc này làm giá trị đo độ bất thường, từ đó có thể đặt ra ngưỡng lỗi để phát hiện và dự báo các sự kiện bất thường. 37 Ngoài sử dụng mô hình MLP Autoencoder điển hình, do đặc điểm rất nhiều bộ dữ liệu của bài toán dự đoán sự kiện hiếm là chuỗi thời gian đa biến được lấy mẫu định kỳ nên có thể sử dụng Autoencoder kết hợp với một mạng thần kinh hồi quy (như RNN, LSTM – hình 2.16, GRU) làm mô hình dự báo sự kiện hiếm cho bài toán. Hình 2.16. Mô hình LSTM Encoder dự đoán sự kiện hiếm 38 CHƯƠNG 3. ỨNG DỤNG MÔ HÌNH AUTOENCODER ĐỂ DỰ BÁO TRƯỚC SỰ CỐ TRONG NHÀ MÁY GIẤY Chương 3 bài luận văn tập trung vào nghiên cứu, áp dụng thử nghiệm và cải tiến mô hình Autoencoder để dự báo sự kiện cực hiếm vào một bài toán thực tế là dự báo trước sự cố trong dây chuyền sản xuất của nhà máy giấy. Đây là một bài toán dự báo sự kiện cực hiếm điển hình và cũng rất thách thức nên nếu kết quả dự báo khả quan chứng tỏ mô hình Autoencoder hoàn toàn có thể áp dụng vào các bài toán dự báo sự kiện hiếm và cực hiếm khác cả trong tự nhiên, xã hội hay môi trường sản xuất kinh doanh. 3.1. BÀI TOÁN DỰ BÁO SỰ CỐ TRONG NHÀ MÁY GIẤY 3.1.1. Phát biểu bài toán Bài luận văn sử dụng mô hình Autoencoder để dự báo các sự cố trong dây chuyền sản xuất của nhà máy giấy, sử dụng dữ liệu được thu thập trực tiếp từ một nhà máy giấy trong thực tế. Để sản xuất ra những tấm giấy, các nhà máy giấy có một dây chuyền gồm rất nhiều bộ phận (hình 3.1) hoạt động liên tục suốt ngày đêm. Tuy nhiên do đặc điểm là các tấm giấy rất mỏng, dễ bị đứt, nên khi có một bộ phận nào đó của dây chuyền trục trặc, sự đồng bộ giữa các bộ phận không còn trơn tru, các tấm giấy lớn sẽ bị phá vỡ. Bất cứ khi nào xảy ra sự cố phá vỡ các tấm giấy, toàn bộ dây chuyền sản xuất của nhà máy sẽ phải dừng lại để kiểm tra và khôi phục. Thông thường phải mất hơn một giờ để máycó thể khôi phục hoạt động trở lại bình thường. Trong khoảng thời gian chết này, nhà máy thiệt hại khoảng 10 nghìn đô-la và các kỹ sư phải vào những khu vực nguy hiểm để kiểm tra và khôi phục lại dây chuyền sản xuất. Trung bình sự cố xảy ra một vài lần mỗi ngày, gây tổn thất cho doanh nghiệp hàng triệu đô-la mỗi năm, kèm theo mối nguy hiểm, rủi ro cho sức khỏe của công nhân phục hồi hệ thống. Chính vì thế ngay cả việc giảm được 5% số sự cố cũng mang lại lợi ích đáng kể trong nhà máy cả về kinh tế lẫn sức khỏe nhân viên. 39 Hình 3.1. Hình ảnh về một dây chuyền sản xuất trong nhà máy giấy Để phục vụ việc dự báo trước sự cố phá vỡ các tấm giấy, doanh nghiệp đã cho lắp đặt 60 cảm biến đặt ở các bộ phận khác nhau dọc theo dây chuyền. Các cảm biến được lấy mẫu tự động và định kỳ với tần suất 2 phút/lần tạo ra các mẫu dữ liệu. Vì thế trong một ngày, hệ thống sẽ tự động sinh ra đều đặn 720 mẫu dữ liệu, mỗi mẫu gồm 60 giá trị thu được từ các cảm biến. Khi nào có sự cố trong dây chuyền sản xuất, mẫu dữ liệu đầu tiên sau khi xảy ra sự cố sẽ được đánh dấu dương tính và loại bỏ qua các mẫu thu thập được trong khoảng thời gian nghỉ để khắc phục sự cố. Chính vì thế số lượng mẫu dương tính trong bộ dữ liệu thu thập được từ các cảm biến chiếm tỉ lệ cực kỳ thấp, trung bình chỉ chiếm khoảng 0.67% tổng số mẫu. Nhà máy giấy mong muốn từ dữ liệu thu thập được từ các cảm biến có thể xây dựng được mô hình dự đoán trước sự cố phá vỡ tấm giấy trong dây chuyền sản xuất của nhà máy giấy và xác định bộ phận có khả năng gây ra sự cố. 3.1.2. Bộ dữ liệu nhà máy giấy Nguồn bộ dữ liệu nhà máy giấy được nhóm tác giả Chitta Ranjan, Mahendranath Reddy, Markku Mustonen, Kamran Paynabar, Karim Pourak 40 phối hợp với 1 nhà máy giấy thu thập và cung cấp bộ dữ liệu cho các nhà nghiên cứu bài toán phân loại sự kiện hiếm trong chuỗi thời gian đa biến [28]. Bộ dữ liệu nhà máy giấy bao gồm các mẫu được thu thập từ 60 cảm biến trong khoảng thời gian một tháng với tần suất lấy mẫu 2 phút/lần. Sau khi loại trừ các mẫu dữ liệu thu thập trong khoảng thời gian khắc phục sự cố ta có bộ dữ liệu gồm: − Bộ dữ liệu gồm 18396 mẫu dữ liệu, trong đó có 123 mẫu dương tính (chiếm 0.67% tổng số mẫu) và 18273 mẫu âm tính (chiếm 99.33% tổng số mẫu). − Mỗi mẫu dữ liệu bao gồm các trường giá trị : + Trường thời gian “time”: chứa thời điểm lấy mẫu. + Nhãn sự kiện “y” : mẫu đánh dấu thời điểm bắt đầu xảy ra sự cố (nhãn dương tính) mang giá trị 1, không xảy ra sự cố (nhãn âm tính) mang giá trị 0. + “x1” đến “x60” : giá trị được ghi nhận từ 60 cảm biến. 3.1.3. Mục tiêu của bài toán Từ bộ dữ liệu của bài toán xây dựng mô hình đạt được 2 mục tiêu chính : − Dự đoán trước sự kiện phá hủy giấy trước khi nó xảy ra. − Xác định vị trí bộ phận có khả năng cao gây ra sự cố để có thể nhanh chóng bảo trì và ngăn chặn sự phá hủy giấy diễn ra. 41 3.2. ỨNG DỤNG MÔ HÌNH MLP AUTOENCODER CHO BÀI TOÁN 3.2.1. Tiếp cận bài toán với mô hình MLP Autoencoder Đầu tiên bài luận văn cố gắng tiếp cận bài toán dự báo sự cố trong dây chuyền sản xuất của nhà máy giấy bằng bộ mã hóa tự động đơn giản và điển hình nhất: MLP Autoencoder. Chỉ với các kết nối đầy đủ giữa các lớp, mô hình MLP Autoencoder có thể xử lý tương đối hiệu quả rất nhiều bài toán khác nhau mà chưa cần xây dựng bộ mã hóa tự động đặc thù phụ thuộc vào đặc điểm bộ dữ liệu (các bộ mã hóa tự động như LSTM Autoencoder, Convolutional Autoencoder, ). Kết quả của mô hình MLP Autoencoder thường được đặt làm tiêu chuẩn để so sánh với các mô hình dự đoán khác. 3.2.2. Xây dựng mô hình MLP Autoencoder cho bài toán Bài luận văn lựa chọn kiến trúc MLP Autoencoder điển hình nhất và dự đoán hiệu quả cho nhiều bài toán là mô hình có 2 lớp ẩn ở mỗi khối mã hóa và giải mã, số lượng nút các lớp mã hóa và giải mã sẽ đối xứng nhau qua lớp mã (như hình 3.2). Hình 3.2. MLP Autoencoder 2 lớp ẩn ở khối mã hóa và giải mã Các tham số của mô hình được lựa chọn như sau: 42 − Số lớp, hàm kích hoạt: có 2 lớp ẩn trong khối mã hóa và 2 lớp ẩn trong khối giải mã. Hàm kích hoạt của các lớp được lựa chọn là hàm Rectified Linear Unit (ReLU), ngoại trừ ở lớp cuối cùng dùng hàm tuyến tính (Linear). − Kích thước mã: bài luận văn sẽ khảo sát kích thước mã sẽ biến đổi từ 1, 2, 4, 8, 16 nút

Các file đính kèm theo tài liệu này:

  • pdfluan_van_nghien_cuu_phuong_phap_phat_hien_su_kien_cuc_hiem_b.pdf
Tài liệu liên quan