Luận án Áp dụng các phương pháp giải tích và tối ưu toán học vào phân lớp nhị phân và phân đoạn hình ảnh trong học máy

MỤC LỤC

LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

DANH MỤC CÁC KÍ HIỆU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

DANH MỤC CÁC CHỮ VIẾT TẮT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

DANH MỤC CÁC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

DANH MỤC CÁC THUẬT NGỮ CƠ BẢN . . . . . . . . . . . . . . . . . . . . . . . . 8

DANH MỤC CÁC ĐỊNH NGHĨA QUAN TRỌNG . . . . . . . . . . . . . . . . . . . . 10

MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Chương 1. KIẾN THỨC CHUẨN BỊ 20

1.1 Mô hình chung của quá trình học máy . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.2 Dữ liệu cho học máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.3 Các “đặc trưng” trong học máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.4 Kiểm tra hiệu quả của máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.5 Biểu quyết và kiểm định chéo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.6 Tối ưu dựa trên Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

1.7 Phép tích chập và mạng nơ-ron tích chập . . . . . . . . . . . . . . . . . . . . . . . . 35

1.8 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Chương 2. ĐỘ CHÍNH XÁC CỦA MÁY PHÂN LOẠI NHỊ PHÂN 38

2.1 Các thước đo độ chính xác của máy phân loại nhị phân . . . . . . . . . . . . . . . . 38

2.1.1 Âm tính, dương tính và ba tỉ lệ cơ bản . . . . . . . . . . . . . . . . . . . . . . 38

2.1.2 Độ chính xác có trọng số (weighted accuracy) . . . . . . . . . . . . . . . . . . 41

2.1.3 Độ chính xác cân bằng (balanced accuracy) . . . . . . . . . . . . . . . . . . . 42

2.1.4 Điểm số F (F-score) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.2 Đường cong ROC và các thước đo độ chính xác của các máy phân loại nhị phân mềm 45

2.3 Phép chiếu thông tin, hàm sigmoid và máy tối ưu . . . . . . . . . . . . . . . . . . . . 50

2.4 Cải thiện độ chính xác bằng biểu quyết . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.5 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Chương 3. ẢNH HƯỞNG CỦA HÀM MẤT MÁT ĐẾN CÁC BÀI TOÁN PHÂN LOẠI NHỊ PHÂN 57

3.1 Tổng quan về các hàm mất mát (loss function) . . . . . . . . . . . . . . . . . . . . . 57

3.1.1 Các hàm mất mát hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.1.2 Các hàm mất mát phân loại (phân lớp) . . . . . . . . . . . . . . . . . . . . . 59

3.1.3 Các hàm mất mát thường dùng trong bài toán phân đoạn hình ảnh . . . . . 60

3.2 Học máy vi phân và hàm mất mát . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.3 Hàm mất mát lồi và xác suất bị bóp méo . . . . . . . . . . . . . . . . . . . . . . . . 67

3.4 Các hàm mất mát không lồi và các bẫy ngẫu nhiên . . . . . . . . . . . . . . . . . . . 69

3.5 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Chương 4. TỐI ƯU HÓA PHÂN ĐOẠN HÌNH ẢNH BẰNG BIỂU QUYẾT TÔ-PÔ 76

4.1 Phương pháp biểu quyết tô-pô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.1.1 Phân đoạn hình ảnh và khoảng cách Jaccard . . . . . . . . . . . . . . . . . . 77

4.1.2 Biểu quyết số học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.1.3 Biểu quyết tô-pô: Dạng đơn giản nhất . . . . . . . . . . . . . . . . . . . . . . 80

4.1.4 Biểu quyết tô-pô địa phương . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.1.5 Biểu quyết kết hợp (biểu quyết lai): tô-pô và số học . . . . . . . . . . . . . . 83

4.2 Tính hợp lý của biểu quyết tô-pô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.2.1 Trường hợp một chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.2.2 Trường hợp hai chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.3 Các kết quả thực nghiệm của biểu quyết tô-pô . . . . . . . . . . . . . . . . . . . . . 93

4.3.1 Phân đoạn muối trong các hình ảnh địa chấn . . . . . . . . . . . . . . . . . . 93

4.3.2 Phân đoạn khuôn mặt người . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

4.3.3 Phân đoạn mạch máu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.4 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

KIẾN NGHỊ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ CỦA LUẬN ÁN . . . . . . . . . . . . 109

TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

pdf120 trang | Chia sẻ: minhanh6 | Ngày: 13/05/2023 | Lượt xem: 378 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Luận án Áp dụng các phương pháp giải tích và tối ưu toán học vào phân lớp nhị phân và phân đoạn hình ảnh trong học máy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
iếu thông tin, hàm sigmoid và máy tối ưu Chúng ta có thể mô tả một máy nhị phân mềm M như một hợp thành của hai ánh xạ: M = Σ ◦ ϕ, (2.14) trong đó ϕ : Ω→ Φ (2.15) được gọi là phép chiếu thông tin (information projection map) từ không gian dữ liệu gốc Ω đến một không gian các thuộc tính chắt lọc (distilled features space) hoặc có thể gọi là không gian thông tin Φ, và Σ : Φ→ [0, 1] (2.16) là một hàm từ không gian thông tin Φ tới đoạn [0, 1] hay hàm sigmoid suy rộng (generalized sigmoid function), tương tự như hàm sigmoid cổ điển sigmoid(z) = exp(z)/(exp(z)+ exp(−z)) thường sử dụng trong lớp cuối cùng của mạng nơ-ron trong học sâu, mặc dù hàm Σ nói chung là một hàm nhiều biến. 50 Ý tưởng là, trong hầu hết các trường hợp, ta không thể biết mọi thứ về một phần tử (dữ liệu) x ∈ Ω mà chỉ có thể biết một vài thông tin về x, và những thông tin đó được cho bởi phép chiếu ϕ. Dựa trên các thông tin ϕ(x) có được về x, ta phải đưa ra quyết định, thông qua giá trị M(x) = Σ(ϕ(x)), rằng x là “âm tính” hay “dương tính”. Ngay cả khi biết mọi thứ về x (ví dụ như khi x là hình ảnh kĩ thuật số), lượng thông tin chứa trong x có thể quá lớn (hàng triệu bit cho một hình ảnh), vì thế trước tiên phải “chắt lọc” thông tin thành một thứ gì đó nhỏ hơn (gọi nó là ϕ(x)) để kiểm soát dễ dàng hơn. Giả sử rằng không gian thông tin Φ và ánh xạ chiếu ϕ : Ω → Φ đã được cố định và thứ mà chúng ta cần chọn chỉ là hàm sigmoid, Σ : Φ → [0, 1]. Độ đo xác suất PΦ trên Φ là push-forwward của độ đo xác suất PΩ trên Ω qua ánh xạ chiếu ϕ. Có nghĩa là, A ⊂ Φ là đo được nếu ϕ−1(A) ⊂ Ω là đo được và khi đó PΦ(A) = PΩ(ϕ −1(A)). Trong các tài liệu về trí tuệ nhân tạo, số M(x) = Σ(ϕ(x)) thường được gọi là xác suất (probability) của x với điều kiện (thông tin) ϕ(x), mặc dù điều đó nói chung là không đúng vì Σ có thể được chọn khá tùy ý, và luận án sẽ chỉ ra trong chương sau rằng, thậm chí các máy tối ưu thu được bằng phương pháp học máy thường cho giá trị mà trong luận án gọi là “xác suất bị bóp méo” (distorted probabilities) thay cho “xác suất thực” (real probabilities). Tuy nhiên, trong số tất cả những máy M có thể có (tất cả những hàm sigmoid có thể có Σ : Φ → [0, 1]), có một máy tự nhiên hơn những máy khác, gọi nó là máy xác suất thực (real probability machine): Định nghĩa 2.6. Với các ký hiệu như trên, hàm xác suất có điều kiện Σproba : Φ→ [0, 1] cho bởi công thức Σproba(φ) = P (Y (x) = 1|ϕ(x) = φ) (2.17) (với mỗi φ ∈ Φ) được gọi là hàm sigmoid xác suất thực (probability sigmoid function), và máy Mproba = Σproba ◦ ϕ (2.18) được gọi là máy xác suất thực. 51 Nếu thay đổi hàm sigmoid Σ bằng cách hợp nó với một hàm khác , Σ′ = θ◦Σ, trong đó θ : [0, 1]→ [0, 1] là một hàm tăng ngặt, thì Σ và Σ′ cho cùng một đường cong ROC với tham số hóa bởi θ. Nói theo cách khác, chúng ta có thể thay đổi một giá trị sigmoid thành một giá trị khác bất kì bằng cách hợp nó với một hàm, mà không làm thay đổi độ chính xác của hệ thống. Điều này là một lí do nữa giải thích tại sao nói chung các giá trị sigmoid không nên được coi là xác suất. Định lý 2.2. Với các kí hiệu như trên, ta có: (i) Nếu hàm sigmoid Σ : Φ → [0, 1] là một hàm tùy ý, thì máy xác suất thực Mproba = Σproba ◦ ϕ chính xác hơn (hoặc ít nhất là chính xác bằng) máy M = Σ ◦ ϕ, theo nghĩa đường cong ROC của Mproba nằm phía trên đường cong ROC của M . Nói cách khác, đối với bất kỳ mức dương tính giả α ∈ (0, 1) nào, nếu σ và σproba là các mức tương ứng sao cho FPMproba(σproba) = FPM (σ) = α, (2.19) thì TPMproba(σproba) ≥ TPM (σ). (2.20) (ii) Đường cong ROC của máy xác suất thực Mproba là lồi. Chứng minh. Cố định một mức dương tính giả tùy ý α ∈ (0, 1) và gọi σproba, σ ∈ (0, 1) là hai giá trị mức tương ứng như trong định lý. Khi đó, ta có các công thức sau: α = ∫ {φ∈Φ|Σproba(φ)≥σproba}(1− Σproba(φ))dφ∫ Φ (1− Σproba(φ))dφ = ∫ {φ∈Φ|Σ(φ)≥σ}(1− Σproba(φ))dφ∫ Φ (1− Σproba(φ))dφ , (2.21) (trong đó ∫ Φ (1 − Σproba(φ))dφ = PΩ(Y = 0) là độ đo xác suất của tập âm tính {x ∈ Ω | Y (x) = 0}), cũng có nghĩa là ∫ {φ∈Φ|Σproba(φ)≥σproba} (1− Σproba(φ))dφ = ∫ {φ∈Φ|Σ(φ)≥σ} (1− Σproba(φ))dφ. (2.22) Để đơn giản hóa các kí hiệu, ta đặt: A = {φ ∈ Φ|Σproba(φ) ≥ σproba} và B = {φ ∈ Φ|Σ(φ) ≥ σ}. (2.23) 52 Khi đó, ta có∫ A (1− Σproba(φ))dφ = ∫ B (1− Σproba(φ))dφ, cũng có nghĩa là∫ A\B (1− Σproba(φ))dφ = ∫ B\A (1− Σproba(φ))dφ. (2.24) Vì 1 − Σproba(φ) ≤ 1 − σproba trên A \ B , trong khi (1− Σproba(φ)) > 1 − σproba trên B \ A, nên chúng ta có P (A \B) ≥ P (B \ A), nghĩa là∫ A\B Σproba(φ)dφ ≥ σprobaP (A\B) ≥ σprobaP (B \A) ≥ ∫ B\A Σproba(φ)dφ, (2.25) tức là ∫ A Σproba(φ)dφ ≥ ∫ B Σproba(φ)dφ. (2.26) Bất đẳng thức (2.26) có nghĩa là mức dương tính thật của Σproba tại mức dương tính giả α lớn hơn hoặc bằng mức dương tính thật của Σ tại cùng mức dương tính giả đó. Nói cách khác, đường ROC của hàm sigmoid xác suất Σproba nằm phía trên của đường ROC của hàm Σ. Hai đường ROC trùng nhau nếu và chỉ nếu trong công thức trên B trùng với A hầu khắp mọi nơi (chỉ có thể khác nhau trên một tập có độ đo bằng 0) với mọi mức dương tính giả α. Về cơ bản có nghĩa là Σ thu được từ Σproba bằng cách hợp nó với một hàm đơn điệu, nghĩa là Σproba là hàm sigmoid tối ưu. Nói cách khác, nếu không tính đến việc tham số hóa lại các giá trị sigmoid thì hàm sigmoid xác suất là hàm sigmoid tối ưu duy nhất. Tính lồi của đường ROC của hàm sigmoid xác suất Σ = Σproba suy ra trực tiếp từ tính chất sau: Hàm xác suất có điều kiện P (σ) = P (Y (x) = 1)|Σ(ϕ(x)) = σ) là hàm không giảm theo σ. Điều này là hiển nhiên đối với hàm Σproba vì theo định nghĩa xác suất có điều kiện này chính bằng σ, (xem Định lý 3 của [5]). Thật vậy, ta kí hiệu α(σ) = ∫ {φ∈Φ|p(φ)≥σ}(1− Σproba(φ))dφ∫ Φ (1− Σproba(φ))dφ và β(σ) = ∫ {φ∈Φ|Σproba(φ)≥σ} p(φ)dφ∫ Φ Σproba(φ)dφ (2.27) là mức âm tính giả và dương tính giả tại ngưỡng σ cho hàm sigmoid xác suất 53 Σproba, khi đó ta có dβ dα = ∫ Φ (1− Σproba(φ))dφ∫ Φ Σproba(φ)dφ · σ 1− σ (2.28) là một hàm tăng đối với σ, nhưng là một hàm giảm đối với α, vì bản thân α là một hàm giảm đối với σ. Do đó β là một hàm lõm đối với α, cũng có nghĩa là đường cong ROC là lồi. 2 2.4 Cải thiện độ chính xác bằng biểu quyết Phương pháp biểu quyết (voting method) là một phương pháp thông dụng trong đời sống cũng như trong học máy, để cải thiện độ chính xác của các đánh giá và quyết định, (xem thêm trong [51]). Chương 4 sẽ trình bày các kết quả về một phương pháp biểu quyết mới cho bài toán phân đoạn hình ảnh. Mục này chỉ thảo luận về tốc độ và khả năng tăng của độ chính xác của máy phân lớp nhị phân thông qua biểu quyết n máy, khi n tăng đến vô cùng. Giả sử chúng ta có n chuyên gia (n máy) khác nhau Y1, Y2, . . . , Yn cùng dự đoán cho một vấn đề phân lớp nhị phân Y : Ω → {0, 1}. Để đơn giản, giả sử mỗi chuyên gia đều có độ chính xác có trọng, (WA, với trọng số cố định) bằng p > 1 2 (nếu p < 1 2 thì còn kém cả máy trả lời ngẫu nhiên và không thể gọi là “chuyên gia” nữa), và “độ sai” là q = 1− p < 1 2 . Chúng ta sẽ gọi các chuyên gia là độc lập với nhau và không thiên vị (no bias), nếu như bộ các biến ngẫu nhiên Y, Y1, Y2, ..., Yn : Ω → {0, 1} là một bộ độc lập. Điều kiện không thiên vị có nghĩa là tỉ lệ đoán đúng trong các trường hợp dương tính cũng bằng tỉ lệ đoán đúng trong các trường hợp âm tính, hay nói cách khác, TP = TN. Đây cũng là một điều kiện quá lí tưởng, nhưng để cho đơn giản, ta tạm coi như vậy. Với các giả thuyết lí tưởng như trên, phân bố về số lượng các chuyên gia có dự đoán đúng cho một trường hợp x ∈ Ω ngẫu nhiên là một phân bố nhị thức. P (k) = Cknp kqn−k(0 ≤ k ≤ n). Theo định lý giới hạn trung tâm, khi n đủ lớn thì phân phối nhị thức xấp xỉ bằng phân phối chuẩn với trung bình là np và phương sai là npq. Do vậy xác 54 suất Sn có ít nhất n/2 dự đoán đúng (trong số n chuyên gia) xấp xỉ bằng Sn ≈ Φ( √ n(p− 1/2)√ pq ) trong đó Φ(x) = 1√ 2π ∫ x −∞ e−x 2/2dx (2.29) Sn cũng là độ chính xác dự kiến của quyết định tập thể bằng cách biểu quyết (1 chuyên gia có 1 phiếu bầu), và ta thấy rằng limn→∞ Sn = 1. Điều đó có nghĩa là khi các chuyên gia không thiên vị và độc lập với nhau, thì bằng cách biểu quyết độ chính xác của máy phân lớp nhị phân sẽ tăng đến 1 (hoàn toàn chính xác) khi số chuyên gia tăng đến vô cùng và tốc độ hội tụ về 1 là √ n (độ sai giảm theo 1√ n ). Tuy nhiên trong thực tế, chúng ta không thể có các chuyên gia hoàn toàn độc lập và không thiên vị. Nói chung các chuyên gia sẽ có những điểm mù thông thường (common blind spots). Để đơn giản, ta xem xét một mô hình chỉ có hai loại điểm mù, đó là nửa mù (half-blind), tức là các quyết định ở đó là ngẫu nhiên nửa đúng nửa sai và mù hoàn toàn (completely blind), tức là các quyết định thường luôn bị sai. Tập dữ liệu Ω được chia thành 3 phần như sau: Ω = Ωblind ∪ Ωhb ∪ Ωl (2.30) Trên Ωblind mọi chuyên gia đều sai, trên Ωhb các quyết định là ngẫu nhiên, nửa đúng nửa sai, và trên Ωl (tập có thể học được) các chuyên gia là độc lập và có tỷ lệ sai sót q. Công thức gần đúng cho độ chính xác của quyết định tập thể bằng biểu quyết khi đó sẽ là: Sn ≈ Φ( √ n(p− 1/2)√ pq )(1−Pblind −Phb) + 1 2 Phb (2.31) Ta có công thức giới hạn sau: lim n→∞Sn = 1−Pblind − 1 2 Phb (2.32) Việc chứng minh các công thức (2.31) và (2.32) suy ra trực tiếp từ định lí giới hạn trung tâm. Công thức (2.32) tuy đơn giản nhưng nó cho thấy dù có biểu quyết đến mấy thì ta cũng không kì vọng đạt độ chính xác tuyệt đối, do có những “điểm mù” thông thường mà chúng ta không thể vượt qua. 55 2.5 Kết luận và bình luận cuối chương Chương 2 trình bày hai kết quả chính. Thứ nhất là: Định lý 2.1 trình bày các bất đẳng thức giữa các thước đo độ chính xác: AUC ROC, MBA, MWA, từ đó kết luận các thước đo này tương đương về mặt tô-pô, theo nghĩa nếu một trong các thước đo đó có giá trị dần đến 1 thì các thước đo khác cũng có giá trị dần đến 1. Điều này có ý nghĩa là các thước đo độ chính xác AUC ROC, MWA và MBA có thể dùng thay thế cho nhau trong học máy. Thứ hai là: Định lý 2.2 kết luận máy xác suất thực đối với một không gian thông tin đã cho là máy tối ưu, tức là nó có độ chính xác cao nhất trong số tất cả các máy có thể. Hơn nữa đường cong ROC của máy xác suất thực luôn là đường lồi. Kết quả này giúp ta tin tưởng khi sử dụng máy xác suất thực đối với bài toán phân lớp nhị phân vì máy này cho độ chính xác cao nhất trong số tất cả các máy có thể và đường cong ROC của nó đã được chứng minh là lồi. Hơn thế nữa, nó cho thấy nếu mô hình học máy có đường ROC lồi (hoặc gần như lồi) thì mô hình đó hiệu quả với bộ dữ liệu đang có. Nếu mô hình học máy cho đường ROC không lồi (hoặc không tương tự lồi) thì chương trình học máy còn có thể cải thiện thêm dựa trên bộ dữ liệu đã có. Đây cũng là một dấu hiệu để ta dừng quá trình học vào thời điểm hợp lý. 56 Chương 3 ẢNH HƯỞNG CỦA HÀM MẤT MÁT ĐẾN CÁC BÀI TOÁN PHÂN LOẠI NHỊ PHÂN Các hàm mất mát đã được nghiên cứu trong các tài liệu [6, 7, 8, 9, 10, 11]. Luận án nghiên cứu các hàm mất mát trong học máy ảnh hưởng đến các máy phân loại nhị phân (tức là các mô hình AI để dự đoán các vấn đề phân loại nhị phân) như thế nào và đã đạt các kết quả sau: 1. Hàm mất mát cross-entropy và hàm mất mát bình phương là các hàm mất mát tự nhiên nhất. Cụ thể hơn, chúng có tính chất sau: máy xác suất thực được định nghĩa trong Chương 2 chính là cực tiểu của chúng. 2. Cực tiểu của một hàm mất mát lồi nghiêm ngặt tùy ý là một máy tối ưu và có thể đưa về máy xác suất thực qua một phép biến đổi tham số. Hơn nữa, nếu hàm mất mát không lồi, thì cực tiểu của nó nói chung sẽ không phải là một máy tối ưu. Các kết quả này đã được đăng trong các bài báo [T1], [T3], [T4]. 3.1 Tổng quan về các hàm mất mát (loss function) Nhắc lại rằng, hàm mất mát là hàm dùng để đo xem một máy cho ra kết quả khác với “sự thật cơ bản” hay khác với “máy lí tưởng” chừng nào, để rồi phản hồi lại thông tin đó cho máy (feedback), tìm cách thay đổi các tham số của máy nhằm giảm mất mát đi, khiến cho máy trở nên chính xác hay hiệu quả hơn. Khi kết quả mà máy cho ra là Ypredict và sự thật cơ bản là Ytrue, thì hàm mất mát là một hàm có dạng l(Ytrue, Ypredict) đo khoảng cách hay độ chênh lệch giữa Ypredict và Ytrue. Ngay cả khi kết quả do máy tạo ra có tính chất sáng tạo (ví dụ như một bản nhạc) và không có sự thật cơ bản nào cả, thì vẫn cần có cách phản hồi (feedback) cho máy, dựa 57 trên các hàm mất mát gián tiếp, kiểu như l(ϕ(Youtput), ϕreference) trong đó Youtput là kết quả output của máy, ϕ là một hàm tính một số đặc trưng của kết quả đó, còn ϕreference là các giá trị đặc trưng dùng làm chuẩn. Mỗi một loại bài toán học máy có những hàm mất mát thích ứng của nó. Có ba loại bài toán học máy có giám sát phổ biến nhất, và một số loại hàm mất mát phổ biến dùng cho ba loại bài toán đó. • Bài toán hồi quy (ước lượng các giá trị số); • Bài toán phân loại (phân loại dữ liệu theo các lớp cho trước); • Bài toán phân đoạn (phân vùng) hình ảnh. 3.1.1 Các hàm mất mát hồi quy Một bài toán hồi quy là một bài toán tìm hàm số thực: Ypredict : Ω −→ R sao cho gần đúng nhất với giá trị thực tế: Ytrue : Ω −→ R thể hiện một quan hệ nào đó. Ví dụ Ω là một tập các căn hộ, y là giá của căn hộ đó và Ypredict là hàm dự đoán y dựa trên các thông tin về căn hộ như diện tích, số phòng, năm xây dựng, vị trí địa lí,v.v.. Với mỗi x ∈ Ω ta có một giá trị mất mát l(Ypredict(x), Ytrue(x)) nào đó cho đầu vào x . Còn trên toàn bộ Ω ta có thể tính hàm mất mát của Ypredict bằng cách lấy tích phân: L(Ypredict) = ∫ x∈Ω l(Ypredict(x), Ytrue(x))dPΩ Trong thực tế, Ω là một tập rời rạc, và tích phân chính là giá trị trung bình. Kí hiệu Ω = {x1, x2, ..., xn}; Ytrue(xi) = yi; Ypredict(xi) = y˜i, khi đó : L = 1 n n∑ i=1 l(y˜i, yi). 58 Hàm mất mát phổ biến nhất là hàm mất mát bình phương, với l(y˜i, yi) = (y˜i − yi)2, và L =MSE = 1 n n∑ i=1 (y˜i − yi)2. Hàm mất mát này còn được gọi là sai số bình phương trung bình (MSE, mean square error), hay là hàm mất mát L2 (theo chuẩn L2 trong giải tích hàm). Nếu thay vì bình phương (y˜i − yi)2, ta dùng giá trị tuyệt đối |y˜i − yi| cho độ chênh lệch giữa y˜i và yi, thì được hàm mất mát gọi là sai số tuyệt đối trung bình (MAE, mean absolute error). MAE = 1 n n∑ i=1 |y˜i − yi|. 3.1.2 Các hàm mất mát phân loại (phân lớp) Một hàm phân loại là một ánh xạ từ tập dữ liệu Ω vào một tập thường là hữu hạn các loại, ví dụ như: Y : Ω −→ {chó, mèo, gà}. Chúng ta có thể đánh số các loại, ví dụ như chó = 0, mèo = 1, gà = 2, v.v, và biến một bài toán phân loại thành một bài toán hồi quy: Y : Ω −→ {0, 1, 2} ⊂ R. Coi Ypredict là hàm giá trị thực (thay vì chỉ nhận giá trị rời rạc) và sử dụng các hàm mất mát hồi quy cho bài toán phân loại, đặc biệt là hàm mất mát bình phương. Một hàm mất mát rất phổ biến khác (và có lẽ là phổ biến nhất) cho bài toán phân loại gọi là hàm cross-entropy. Trong trường hợp phân loại nhị phân, nó được gọi là hàm cross-entropy nhị phân, và công thức của nó như sau: l(y, y˜) = −(y ln(y˜) + (1− y) ln(1− y˜)) (3.1) trong đó y là sự thật cơ bản (lớp thật sự) của một dữ liệu, chỉ nhận một trong hai giá trị 0 hoặc 1, còn y˜ là dự đoán của y˜ ở dạng “xác suất” (giá trị sigmoid), nhận giá trị trong khoảng từ 0 đến 1. 59 Thành phần −y ln(y˜) trong công thức trên có thể gọi là phần mất mát ứng với lớp “âm tính”, còn −(1−y) ln(1−y˜) là phần mất mát ứng với lớp “dương tính”. Nếu số lớp lớn hơn 2, thì ta tính thành phần mất mát cho từng lớp theo công thức tương tự như trên rồi lấy tổng các kết quả để được hàm mất mát: l(x) = − k∑ c=1 yc ln(y˜c) (3.2) trong đó vec-tơ (y1, . . . , yk) là vec-tơ “one-hot” của sự thật cơ bản: yi = 1 nếu lớp của dữ liệu được xét là lớp i, và yi = 0 nếu lớp của dữ liệu được xét khác lớp i; (y˜1, . . . , y˜) là dự đoán cho sự thật cơ bản ở dạng “phân bố xác suất” (các số này đều không âm và có tổng bằng 1). Có một loại hàm mất mát phổ biến khác cho các bài toán phân loại nhị phân, gọi là Hàm mất mát bản lề (Hinge loss). Nó hay được dùng với các phương pháp học máy kiểu SVM, (xem thêm trong [36]). Ý tưởng chính của hàm mất mát bản lề cho máy SVM như sau: Ta tạo các đặc trưng sao cho qua phép chiếu từ không gian các dữ liệu lên trên không gian các đặc trưng, các điểm dương tính sẽ nằm hầu hết ở một nửa không gian (gọi là nửa không gian dương tính), các điểm âm tính sẽ nằm hầu hết ở nửa còn lại (nửa không gian âm tính), và hai nửa được phân chia bởi một siêu phẳng (hyperplane). Siêu phẳng đó là “bản lề”. Nếu một điểm dương tính mà rơi vào nửa không gian dương tính qua phép chiếu và có khoảng cách tới bản lề ít nhất là 1, thì ta coi mất mát của nó bằng 0 (nó nằm đủ cách xa bản lề để mà “yên tâm”), còn nếu nó nằm gần bản lề hoặc “nằm nhầm” sang nửa không gian dương tính thì nó có mất mát là dương, càng nằm sâu vào nửa không gian âm tính thì dương càng cao. Đối với các điểm âm tính thì cũng tính mất mát tương tự như vậy, chỉ có điều đổi âm thành dương, dương thành âm. Tổng mất mát của các điểm cho ta mất mát của toàn bộ máy, và quá trình học máy SVM chính là quá trình xoay và dịch bản lề để giảm thiểu mất mát,(xem thêm trong [34]). 3.1.3 Các hàm mất mát thường dùng trong bài toán phân đoạn hình ảnh Trong bài toán phân đoạn hình ảnh, tùy theo nhu cầu quan tâm khác nhau, người ta sử dụng các hàm mất mát khác nhau (xem trong [35, 37, 38, 39, 40, 60 Hình 3.1: Các hàm mất mát thường dùng trong bài toán phân đoạn hình ảnh. 41, 14]). Các hàm mất mát thường dùng trong phân đoạn hình ảnh được tóm tắt bằng sơ đồ như trong Hình 3.1. Trong Chương 4 tác giả sẽ sử dụng một số hàm mất mát trong sơ đồ này để thiết kế mô hình học máy cho bài toán phân đoạn hình ảnh. • Distribution-based Loss: Mất mát theo phân phối là thước đo sự khác biệt giữa hai phân phối. Nó thường được áp dụng khi xử lý các bộ dữ liệu mất cân bằng lớn. • Region-based Loss: Mất mát theo khu vực, được sử dụng để tối thiểu hóa vùng khác hay tối đa hóa vùng trùng nhau giữa sự thật cơ bản và phân đoạn được dự đoán. • Boundary-based Loss: Mất mát theo biên, nhằm mục đích cực tiểu hóa khoảng cách giữa biên của sự thật cơ bản và biên của phân đoạn dự báo. 3.2 Học máy vi phân và hàm mất mát Nhắc lại rằng, ý tưởng chính của học máy là chúng ta không chỉ có một máy mà có một họ lớn các máy Mθ : Ω→ [0, 1] phụ thuộc vào một véc-tơ tham số θ ∈ Θ, trong đó Θ là một không gian nhiều chiều, và quá trình học chính là quá trình thay đổi tham số θ qua từng bước, ví dụ như: θ = θ0 7→ θ1 7→ θ2 7→ . . . 7→ θn 7→ . . . (3.3) để cải thiện hiệu suất hay độ chính xác của máy Mθ. 61 Trong học máy vi phân, chúng ta xây dựng một hàm mất mát L : Θ→ R (3.4) làm đại diện cho độ chính xác của máy (ý tưởng là độ mất mát L(θ) càng thấp thì độ chính xác của máy Mθ càng cao), rồi sử dụng phương pháp giảm theo gradient để tìm điểm cực tiểu (hoặc điểm gần cực tiểu) θm của hàm mất mát L. Điểm cực tiểu (hoặc gần cực tiểu) θm này về mặt lo-gic sẽ tương ứng với máy tối ưu (hoặc gần tối ưu) Mθm, (xem thêm trong [39, 40, 42, 43]). Thông thường, do không gian các tình huống có thể xảy ra là một không gian lớn và phức tạp, chúng ta không thể tính toán một cách hoàn toàn chính xác trên không gian đó mà chỉ có thể tính toán xấp xỉ qua các phương pháp thống kê ngẫu nhiên như Monte Carlo, nên phương pháp giảm theo gradient trong học máy vi phân thường được gọi là phương pháp giảm theo gradient ngẫu nhiên - stochastic gradient descent. Về mặt lý thuyết, hàm mất mát L bằng tích phân trên toàn bộ không gian dữ liệu Ω của một hàm mất mát ℓ theo từng điểm (pointwise) : L(θ) = ∫ x∈Ω ℓ(Mθ(x), Y (x))dPΩ (3.5) Nói chung, người ta có thể chọn hàm mất mát ℓ một cách khá là tùy ý, chỉ có một hạn chế tự nhiên duy nhất là giá trị m = Mθ(x) càng cách xa sự thật cơ bản y = Y (x), thì giá trị ℓ(m, y) của hàm mất mát càng cao, và nếu m = y thì không có mất mát, tức là ℓ(y, y) = 0. Hai hàm mất mát phổ biến nhất là hàm mất mát bình phương và hàm mất mát cross-entropy nhị phân. Hai hàm này được định nghĩa như sau: Định nghĩa 3.1. Hàmmất mát bình phương là hàm có công thức như sau: ℓquadratic(m, y) = (m− y)2 (3.6) Định nghĩa 3.2. Hàm mất mát cross-entropy nhị phân là hàm có công thức như sau: ℓcrossentropy(m, y) = − ln(1− |m− y|) (3.7) tương tự như công thức (3.1). 62 Định nghĩa 3.3. Hàm mất mát cross-entropy nhị phân được điều chỉnh là hàm có công thức như sau: ℓcrossentropyR(m, y) = − ln(1− |m− y|+ ε) (3.8) Tuy nhiên, chúng ta có thể chọn nhiều hàm mất mát khác. Ví dụ như hàm mất mát bậc bốn sau cũng cho kết quả tốt trong nhiều bài toán. Định nghĩa 3.4. Hàm mất mát bậc bốn là hàm có công thức như sau: ℓquartic(m, y) = (m− y)2 + (m− y)4 (3.9) Hình 3.2 minh họa dáng điệu của một số hàm mất mát lồi. Hình 3.2: Dáng điệu một số hàm mất mát lồi. Hàm mất mát cross-entropy (hàm log) đã được điều chỉnh bằng cách cho thêm một số dương epsilon rất nhỏ vào đó để tránh tình huống ln 0. Người ta thậm chí có thể sử dụng hàm mất mát không trơn, không lồi, ví dụ như hàm mất mát gãy khúc có công thức như sau: ℓbroken(m, y) = min(|m− y|; 0,5)2 +max(|m− y| − 0,25; 0) (3.10) Sau đây tác giả đưa ra giải thích về mặt lý thuyết cho các khẳng định sau: 1. Hàm mất mát bình phương và hàm mất mát cross-entropy là hai hàm mất mát tự nhiên nhất; 2. Các hàm mất mát lồi như ℓquartic là các hàm mất mát tốt theo nghĩa cực tiểu của chúng là những máy tối ưu về độ chính xác; 63 3. Các hàm mất mát không lồi như ℓbroken có thể dẫn đến các hiện tượng kỳ quái và kết quả tồi, kiểu như là các bẫy ngẫu nhiên (stochastic traps) trong học máy. Chúng ta có thể viết lại hàm mất mát L(M) = ∫ x∈Ω ℓ(Σ(ϕ(x)), Y (x))dPΩ của một máy nhị phân M = Σ ◦ ϕ như một tích phân trên không gian thông tin Φ và về sau ta gọi nó là mất mát của hàm sigmoid Σ, như sau: L(Σ) = ∫ Φ [ (1− Σproba(φ)) · ℓ(Σ(φ), 0) + Σproba(φ) · ℓ(Σ(φ), 1) ] dφ. (3.11) Thật vậy, với mỗi φ đã cho, giá trị của ℓ(Σ(ϕ(x)), Y (x)) với điều kiện ϕ(x) = φ sẽ bằng ℓ(Σ(φ), 0) với xác suất (1 − Σproba(φ)) và bằng ℓ(Σ(φ), 1) với xác suất Σproba(φ). Biểu thức (1 − Σproba(φ)) · ℓ(Σ(φ), 0) + Σproba(φ) · ℓ(Σ(φ), 1) trong công thức trên chính là tích phân của ℓ(Σ(ϕ(x)), Y (x)) trên không gian {x ∈ Ω, ϕ(x) = φ}) theo độ đo xác suất có điều kiện trên không gian đó nên ta có công thức (3.11). Ví dụ 3.1. Trong trường hợp hàm mất mát cross-entropy, ta có công thức tích phân như sau: Lcrossentropy(Σ) = ∫ Φ − [(1− Σproba(φ)) · ln(1− Σ(φ)) + Σproba(φ) · ln(Σ(φ))] dφ. (3.12) Các hàm mất mát đã đề cập là các hàm mất mát đối xứng (symmetric), theo nghĩa là chúng xử lý mất mát trong các trường hợp âm tính tức là y = 0 và mất mát trong các trường hợp dương tính tức là y = 1 là như nhau. Tuy nhiên, do sự mất cân bằng dữ liệu quá lớn trong một số bài toán (chẳng hạn như khi số trường hợp dương tính chỉ bằng 1/1000 số các trường hợp âm tính), trong thực tế có những lúc sẽ tốt hơn nếu chúng ta sử dụng các hàm mất mát không đối xứng thay cho các hàm mất mát đối xứng. 64 Định nghĩa 3.5. Cho hàm: f : [0, 1]→ R (3.13) là một hàm tăng thỏa mãn điều kiện f(0) = 0. Họ các hàm mất mát không đối xứng ℓc phụ thuộc vào một hệ số mất đối xứng c > 0, được cho bởi công thức sau: ℓc(m, y) = (1− y)f(m) + cyf(1−m). (3.14) Do sự thật cơ bản chỉ nhận hai giá trị là y = 0 và y = 1 nên công thức ở trên nghĩa là khoản mất mát bằng f(m) nếu y = 0 và bằng cf(1 − m) nếu y = 1. Vì vậy các trường hợp âm tính và các trường hợp dương tính có tỉ trọng khác nhau trong tổng số mất mát. Ví dụ khi c = 100 nó giống như các trường hợp dương tính được tính 100 lần trong khi các trường hợp âm tính chỉ tính 1 lần. Như vậy hệ số mất đối xứng có thể được sử dụng để bù đắp sự mất cân bằng dữ liệu. Hai công thức (3.11) và (3.14) dẫn đến công thức sau đối với một hàm mất mát của một máy M = Σ ◦ ϕ với một hàm sinh (generating function) f đã cho và một hệ số mất đối xứng c: L(Σ) = ∫ Φ [ (1− Σproba(φ)) · f(Σ(φ)) + cΣproba(φ) · f(1− Σ(φ)) ] dφ. (3.15) Đối với mỗi φ ∈ Φ cho trước, hàm dưới dấu tích phân (1− Σproba(φ)) · f(Σ(φ)) + cΣproba(φ) · f(1− Σ(φ)) có thể được viết như hàm số một biến σ = Σ(φ) và một tham số p = Σproba(φ): g(σ) := (1− p)f(σ) + cpf(1− σ). (3.16) Ta không thể thay đổi p, nhưng có thể chọn hàm sigmoid Σ, cũng có nghĩa là chọn σ sao cho hàm mất mát g(σ) đạt cực tiểu. Giảm thiểu mất mát L(Σ) có nghĩa là giảm thiểu g(σ) với mỗi φ. Nói cách khác, một hàm sigmoid Σ là một cực tiểu của hàm mất mát L(Σ) được cho bởi công thức (3.15) nếu và chỉ nếu (hầu khắp mọi nơi, trừ ra một tập có độ đo bằng 0) với mọi p ∈ [0, 1] và mọi φ ∈ Ω thỏa mãn Σproba(φ) = p, ta có Σ(φ) = argmin σ [(1− p)f(σ) + cpf(1− σ)] (3.17) 65 Phương trình (3.17) cho ta kết quả thú vị về tính tự nhiên của hàm mất mát bình phương cổ điển (trường hợp f(σ) = σ2 và c = 1) và hàm mất mát cross-entropy nhị phân (trường hợp f(σ) = − ln(1− σ) và c = 1): Định lý 3.1. Với các kí hiệu như trên, ta có: (i) Máy xác suất thực là điểm cực tiểu duy nhất của hàm mất mát bình phương. (ii

Các file đính kèm theo tài liệu này:

  • pdfluan_an_ap_dung_cac_phuong_phap_giai_tich_va_toi_uu_toan_hoc.pdf
  • pdf2.TomTat_LA_BP.pdf
  • docx3.TrichYeuLA.docx
  • pdf3.TrichYeuLA.pdf
  • doc4.ThongTinDuaLenMang.doc
  • pdf4.ThongTinDuaLenMang.pdf
Tài liệu liên quan