MỤC LỤC
LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
DANH MỤC CÁC KÍ HIỆU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
DANH MỤC CÁC CHỮ VIẾT TẮT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
DANH MỤC CÁC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
DANH MỤC CÁC THUẬT NGỮ CƠ BẢN . . . . . . . . . . . . . . . . . . . . . . . . 8
DANH MỤC CÁC ĐỊNH NGHĨA QUAN TRỌNG . . . . . . . . . . . . . . . . . . . . 10
MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Chương 1. KIẾN THỨC CHUẨN BỊ 20
1.1 Mô hình chung của quá trình học máy . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2 Dữ liệu cho học máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3 Các “đặc trưng” trong học máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.4 Kiểm tra hiệu quả của máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.5 Biểu quyết và kiểm định chéo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.6 Tối ưu dựa trên Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.7 Phép tích chập và mạng nơ-ron tích chập . . . . . . . . . . . . . . . . . . . . . . . . 35
1.8 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Chương 2. ĐỘ CHÍNH XÁC CỦA MÁY PHÂN LOẠI NHỊ PHÂN 38
2.1 Các thước đo độ chính xác của máy phân loại nhị phân . . . . . . . . . . . . . . . . 38
2.1.1 Âm tính, dương tính và ba tỉ lệ cơ bản . . . . . . . . . . . . . . . . . . . . . . 38
2.1.2 Độ chính xác có trọng số (weighted accuracy) . . . . . . . . . . . . . . . . . . 41
2.1.3 Độ chính xác cân bằng (balanced accuracy) . . . . . . . . . . . . . . . . . . . 42
2.1.4 Điểm số F (F-score) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2 Đường cong ROC và các thước đo độ chính xác của các máy phân loại nhị phân mềm 45
2.3 Phép chiếu thông tin, hàm sigmoid và máy tối ưu . . . . . . . . . . . . . . . . . . . . 50
2.4 Cải thiện độ chính xác bằng biểu quyết . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.5 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Chương 3. ẢNH HƯỞNG CỦA HÀM MẤT MÁT ĐẾN CÁC BÀI TOÁN PHÂN LOẠI NHỊ PHÂN 57
3.1 Tổng quan về các hàm mất mát (loss function) . . . . . . . . . . . . . . . . . . . . . 57
3.1.1 Các hàm mất mát hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1.2 Các hàm mất mát phân loại (phân lớp) . . . . . . . . . . . . . . . . . . . . . 59
3.1.3 Các hàm mất mát thường dùng trong bài toán phân đoạn hình ảnh . . . . . 60
3.2 Học máy vi phân và hàm mất mát . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3 Hàm mất mát lồi và xác suất bị bóp méo . . . . . . . . . . . . . . . . . . . . . . . . 67
3.4 Các hàm mất mát không lồi và các bẫy ngẫu nhiên . . . . . . . . . . . . . . . . . . . 69
3.5 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Chương 4. TỐI ƯU HÓA PHÂN ĐOẠN HÌNH ẢNH BẰNG BIỂU QUYẾT TÔ-PÔ 76
4.1 Phương pháp biểu quyết tô-pô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.1.1 Phân đoạn hình ảnh và khoảng cách Jaccard . . . . . . . . . . . . . . . . . . 77
4.1.2 Biểu quyết số học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.1.3 Biểu quyết tô-pô: Dạng đơn giản nhất . . . . . . . . . . . . . . . . . . . . . . 80
4.1.4 Biểu quyết tô-pô địa phương . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.1.5 Biểu quyết kết hợp (biểu quyết lai): tô-pô và số học . . . . . . . . . . . . . . 83
4.2 Tính hợp lý của biểu quyết tô-pô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2.1 Trường hợp một chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2.2 Trường hợp hai chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3 Các kết quả thực nghiệm của biểu quyết tô-pô . . . . . . . . . . . . . . . . . . . . . 93
4.3.1 Phân đoạn muối trong các hình ảnh địa chấn . . . . . . . . . . . . . . . . . . 93
4.3.2 Phân đoạn khuôn mặt người . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.3.3 Phân đoạn mạch máu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.4 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
KIẾN NGHỊ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ CỦA LUẬN ÁN . . . . . . . . . . . . 109
TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
120 trang |
Chia sẻ: minhanh6 | Ngày: 13/05/2023 | Lượt xem: 615 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận án Áp dụng các phương pháp giải tích và tối ưu toán học vào phân lớp nhị phân và phân đoạn hình ảnh trong học máy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
iếu thông tin, hàm sigmoid và máy tối ưu
Chúng ta có thể mô tả một máy nhị phân mềm M như một hợp thành của
hai ánh xạ:
M = Σ ◦ ϕ, (2.14)
trong đó
ϕ : Ω→ Φ (2.15)
được gọi là phép chiếu thông tin (information projection map) từ không
gian dữ liệu gốc Ω đến một không gian các thuộc tính chắt lọc (distilled features
space) hoặc có thể gọi là không gian thông tin Φ, và
Σ : Φ→ [0, 1] (2.16)
là một hàm từ không gian thông tin Φ tới đoạn [0, 1] hay hàm sigmoid suy
rộng (generalized sigmoid function), tương tự như hàm sigmoid cổ điển
sigmoid(z) = exp(z)/(exp(z)+ exp(−z)) thường sử dụng trong lớp cuối cùng của
mạng nơ-ron trong học sâu, mặc dù hàm Σ nói chung là một hàm nhiều biến.
50
Ý tưởng là, trong hầu hết các trường hợp, ta không thể biết mọi thứ về
một phần tử (dữ liệu) x ∈ Ω mà chỉ có thể biết một vài thông tin về x, và
những thông tin đó được cho bởi phép chiếu ϕ. Dựa trên các thông tin ϕ(x) có
được về x, ta phải đưa ra quyết định, thông qua giá trị M(x) = Σ(ϕ(x)), rằng
x là “âm tính” hay “dương tính”.
Ngay cả khi biết mọi thứ về x (ví dụ như khi x là hình ảnh kĩ thuật số),
lượng thông tin chứa trong x có thể quá lớn (hàng triệu bit cho một hình ảnh),
vì thế trước tiên phải “chắt lọc” thông tin thành một thứ gì đó nhỏ hơn (gọi
nó là ϕ(x)) để kiểm soát dễ dàng hơn.
Giả sử rằng không gian thông tin Φ và ánh xạ chiếu ϕ : Ω → Φ đã được cố
định và thứ mà chúng ta cần chọn chỉ là hàm sigmoid, Σ : Φ → [0, 1]. Độ đo
xác suất PΦ trên Φ là push-forwward của độ đo xác suất PΩ trên Ω qua ánh xạ
chiếu ϕ. Có nghĩa là, A ⊂ Φ là đo được nếu ϕ−1(A) ⊂ Ω là đo được và khi đó
PΦ(A) = PΩ(ϕ
−1(A)).
Trong các tài liệu về trí tuệ nhân tạo, số M(x) = Σ(ϕ(x)) thường được gọi
là xác suất (probability) của x với điều kiện (thông tin) ϕ(x), mặc dù điều đó
nói chung là không đúng vì Σ có thể được chọn khá tùy ý, và luận án sẽ chỉ ra
trong chương sau rằng, thậm chí các máy tối ưu thu được bằng phương pháp
học máy thường cho giá trị mà trong luận án gọi là “xác suất bị bóp méo”
(distorted probabilities) thay cho “xác suất thực” (real probabilities).
Tuy nhiên, trong số tất cả những máy M có thể có (tất cả những hàm
sigmoid có thể có Σ : Φ → [0, 1]), có một máy tự nhiên hơn những máy khác,
gọi nó là máy xác suất thực (real probability machine):
Định nghĩa 2.6. Với các ký hiệu như trên, hàm xác suất có điều kiện Σproba :
Φ→ [0, 1] cho bởi công thức
Σproba(φ) = P (Y (x) = 1|ϕ(x) = φ) (2.17)
(với mỗi φ ∈ Φ) được gọi là hàm sigmoid xác suất thực (probability
sigmoid function), và máy
Mproba = Σproba ◦ ϕ (2.18)
được gọi là máy xác suất thực.
51
Nếu thay đổi hàm sigmoid Σ bằng cách hợp nó với một hàm khác , Σ′ = θ◦Σ,
trong đó θ : [0, 1]→ [0, 1] là một hàm tăng ngặt, thì Σ và Σ′ cho cùng một đường
cong ROC với tham số hóa bởi θ. Nói theo cách khác, chúng ta có thể thay đổi
một giá trị sigmoid thành một giá trị khác bất kì bằng cách hợp nó với một
hàm, mà không làm thay đổi độ chính xác của hệ thống. Điều này là một lí
do nữa giải thích tại sao nói chung các giá trị sigmoid không nên được coi là
xác suất.
Định lý 2.2. Với các kí hiệu như trên, ta có:
(i) Nếu hàm sigmoid Σ : Φ → [0, 1] là một hàm tùy ý, thì máy xác suất
thực Mproba = Σproba ◦ ϕ chính xác hơn (hoặc ít nhất là chính xác bằng) máy
M = Σ ◦ ϕ, theo nghĩa đường cong ROC của Mproba nằm phía trên đường cong
ROC của M . Nói cách khác, đối với bất kỳ mức dương tính giả α ∈ (0, 1) nào,
nếu σ và σproba là các mức tương ứng sao cho
FPMproba(σproba) = FPM (σ) = α, (2.19)
thì
TPMproba(σproba) ≥ TPM (σ). (2.20)
(ii) Đường cong ROC của máy xác suất thực Mproba là lồi.
Chứng minh. Cố định một mức dương tính giả tùy ý α ∈ (0, 1) và gọi σproba, σ ∈
(0, 1) là hai giá trị mức tương ứng như trong định lý. Khi đó, ta có các công
thức sau:
α =
∫
{φ∈Φ|Σproba(φ)≥σproba}(1− Σproba(φ))dφ∫
Φ
(1− Σproba(φ))dφ
=
∫
{φ∈Φ|Σ(φ)≥σ}(1− Σproba(φ))dφ∫
Φ
(1− Σproba(φ))dφ
,
(2.21)
(trong đó
∫
Φ
(1 − Σproba(φ))dφ = PΩ(Y = 0) là độ đo xác suất của tập âm tính
{x ∈ Ω | Y (x) = 0}), cũng có nghĩa là
∫
{φ∈Φ|Σproba(φ)≥σproba}
(1− Σproba(φ))dφ =
∫
{φ∈Φ|Σ(φ)≥σ}
(1− Σproba(φ))dφ. (2.22)
Để đơn giản hóa các kí hiệu, ta đặt:
A = {φ ∈ Φ|Σproba(φ) ≥ σproba} và B = {φ ∈ Φ|Σ(φ) ≥ σ}. (2.23)
52
Khi đó, ta có∫
A
(1− Σproba(φ))dφ =
∫
B
(1− Σproba(φ))dφ, cũng có nghĩa là∫
A\B
(1− Σproba(φ))dφ =
∫
B\A
(1− Σproba(φ))dφ. (2.24)
Vì 1 − Σproba(φ) ≤ 1 − σproba trên A \ B , trong khi (1− Σproba(φ)) > 1 − σproba
trên B \ A, nên chúng ta có P (A \B) ≥ P (B \ A), nghĩa là∫
A\B
Σproba(φ)dφ ≥ σprobaP (A\B) ≥ σprobaP (B \A) ≥
∫
B\A
Σproba(φ)dφ, (2.25)
tức là ∫
A
Σproba(φ)dφ ≥
∫
B
Σproba(φ)dφ. (2.26)
Bất đẳng thức (2.26) có nghĩa là mức dương tính thật của Σproba tại mức dương
tính giả α lớn hơn hoặc bằng mức dương tính thật của Σ tại cùng mức dương
tính giả đó. Nói cách khác, đường ROC của hàm sigmoid xác suất Σproba nằm
phía trên của đường ROC của hàm Σ. Hai đường ROC trùng nhau nếu và chỉ
nếu trong công thức trên B trùng với A hầu khắp mọi nơi (chỉ có thể khác
nhau trên một tập có độ đo bằng 0) với mọi mức dương tính giả α. Về cơ bản
có nghĩa là Σ thu được từ Σproba bằng cách hợp nó với một hàm đơn điệu,
nghĩa là Σproba là hàm sigmoid tối ưu. Nói cách khác, nếu không tính đến việc
tham số hóa lại các giá trị sigmoid thì hàm sigmoid xác suất là hàm sigmoid
tối ưu duy nhất.
Tính lồi của đường ROC của hàm sigmoid xác suất Σ = Σproba suy ra trực
tiếp từ tính chất sau:
Hàm xác suất có điều kiện P (σ) = P (Y (x) = 1)|Σ(ϕ(x)) = σ) là hàm không
giảm theo σ. Điều này là hiển nhiên đối với hàm Σproba vì theo định nghĩa
xác suất có điều kiện này chính bằng σ, (xem Định lý 3 của [5]). Thật vậy, ta
kí hiệu
α(σ) =
∫
{φ∈Φ|p(φ)≥σ}(1− Σproba(φ))dφ∫
Φ
(1− Σproba(φ))dφ
và β(σ) =
∫
{φ∈Φ|Σproba(φ)≥σ} p(φ)dφ∫
Φ
Σproba(φ)dφ
(2.27)
là mức âm tính giả và dương tính giả tại ngưỡng σ cho hàm sigmoid xác suất
53
Σproba, khi đó ta có
dβ
dα
=
∫
Φ
(1− Σproba(φ))dφ∫
Φ
Σproba(φ)dφ
· σ
1− σ (2.28)
là một hàm tăng đối với σ, nhưng là một hàm giảm đối với α, vì bản thân α
là một hàm giảm đối với σ. Do đó β là một hàm lõm đối với α, cũng có nghĩa
là đường cong ROC là lồi. 2
2.4 Cải thiện độ chính xác bằng biểu quyết
Phương pháp biểu quyết (voting method) là một phương pháp thông dụng
trong đời sống cũng như trong học máy, để cải thiện độ chính xác của các đánh
giá và quyết định, (xem thêm trong [51]). Chương 4 sẽ trình bày các kết quả
về một phương pháp biểu quyết mới cho bài toán phân đoạn hình ảnh. Mục
này chỉ thảo luận về tốc độ và khả năng tăng của độ chính xác của máy phân
lớp nhị phân thông qua biểu quyết n máy, khi n tăng đến vô cùng.
Giả sử chúng ta có n chuyên gia (n máy) khác nhau Y1, Y2, . . . , Yn cùng dự
đoán cho một vấn đề phân lớp nhị phân Y : Ω → {0, 1}. Để đơn giản, giả sử
mỗi chuyên gia đều có độ chính xác có trọng, (WA, với trọng số cố định) bằng
p >
1
2
(nếu p <
1
2
thì còn kém cả máy trả lời ngẫu nhiên và không thể gọi là
“chuyên gia” nữa), và “độ sai” là q = 1− p < 1
2
.
Chúng ta sẽ gọi các chuyên gia là độc lập với nhau và không thiên vị (no
bias), nếu như bộ các biến ngẫu nhiên Y, Y1, Y2, ..., Yn : Ω → {0, 1} là một bộ
độc lập. Điều kiện không thiên vị có nghĩa là tỉ lệ đoán đúng trong các trường
hợp dương tính cũng bằng tỉ lệ đoán đúng trong các trường hợp âm tính, hay
nói cách khác, TP = TN. Đây cũng là một điều kiện quá lí tưởng, nhưng để
cho đơn giản, ta tạm coi như vậy.
Với các giả thuyết lí tưởng như trên, phân bố về số lượng các chuyên gia có
dự đoán đúng cho một trường hợp x ∈ Ω ngẫu nhiên là một phân bố nhị thức.
P (k) = Cknp
kqn−k(0 ≤ k ≤ n).
Theo định lý giới hạn trung tâm, khi n đủ lớn thì phân phối nhị thức xấp xỉ
bằng phân phối chuẩn với trung bình là np và phương sai là npq. Do vậy xác
54
suất Sn có ít nhất n/2 dự đoán đúng (trong số n chuyên gia) xấp xỉ bằng
Sn ≈ Φ(
√
n(p− 1/2)√
pq
) trong đó Φ(x) =
1√
2π
∫ x
−∞
e−x
2/2dx (2.29)
Sn cũng là độ chính xác dự kiến của quyết định tập thể bằng cách biểu quyết
(1 chuyên gia có 1 phiếu bầu), và ta thấy rằng limn→∞ Sn = 1. Điều đó có nghĩa
là khi các chuyên gia không thiên vị và độc lập với nhau, thì bằng cách biểu
quyết độ chính xác của máy phân lớp nhị phân sẽ tăng đến 1 (hoàn toàn chính
xác) khi số chuyên gia tăng đến vô cùng và tốc độ hội tụ về 1 là
√
n (độ sai
giảm theo
1√
n
).
Tuy nhiên trong thực tế, chúng ta không thể có các chuyên gia hoàn toàn
độc lập và không thiên vị. Nói chung các chuyên gia sẽ có những điểm mù thông
thường (common blind spots).
Để đơn giản, ta xem xét một mô hình chỉ có hai loại điểm mù, đó là nửa
mù (half-blind), tức là các quyết định ở đó là ngẫu nhiên nửa đúng nửa sai
và mù hoàn toàn (completely blind), tức là các quyết định thường luôn bị sai.
Tập dữ liệu Ω được chia thành 3 phần như sau:
Ω = Ωblind ∪ Ωhb ∪ Ωl (2.30)
Trên Ωblind mọi chuyên gia đều sai, trên Ωhb các quyết định là ngẫu nhiên, nửa
đúng nửa sai, và trên Ωl (tập có thể học được) các chuyên gia là độc lập và có
tỷ lệ sai sót q. Công thức gần đúng cho độ chính xác của quyết định tập thể
bằng biểu quyết khi đó sẽ là:
Sn ≈ Φ(
√
n(p− 1/2)√
pq
)(1−Pblind −Phb) + 1
2
Phb (2.31)
Ta có công thức giới hạn sau:
lim
n→∞Sn = 1−Pblind −
1
2
Phb (2.32)
Việc chứng minh các công thức (2.31) và (2.32) suy ra trực tiếp từ định lí giới
hạn trung tâm. Công thức (2.32) tuy đơn giản nhưng nó cho thấy dù có biểu
quyết đến mấy thì ta cũng không kì vọng đạt độ chính xác tuyệt đối, do có
những “điểm mù” thông thường mà chúng ta không thể vượt qua.
55
2.5 Kết luận và bình luận cuối chương
Chương 2 trình bày hai kết quả chính.
Thứ nhất là: Định lý 2.1 trình bày các bất đẳng thức giữa các thước đo độ
chính xác: AUC ROC, MBA, MWA, từ đó kết luận các thước đo này tương
đương về mặt tô-pô, theo nghĩa nếu một trong các thước đo đó có giá trị dần
đến 1 thì các thước đo khác cũng có giá trị dần đến 1. Điều này có ý nghĩa là
các thước đo độ chính xác AUC ROC, MWA và MBA có thể dùng thay thế
cho nhau trong học máy.
Thứ hai là: Định lý 2.2 kết luận máy xác suất thực đối với một không gian
thông tin đã cho là máy tối ưu, tức là nó có độ chính xác cao nhất trong số
tất cả các máy có thể. Hơn nữa đường cong ROC của máy xác suất thực luôn
là đường lồi. Kết quả này giúp ta tin tưởng khi sử dụng máy xác suất thực đối
với bài toán phân lớp nhị phân vì máy này cho độ chính xác cao nhất trong
số tất cả các máy có thể và đường cong ROC của nó đã được chứng minh là
lồi. Hơn thế nữa, nó cho thấy nếu mô hình học máy có đường ROC lồi (hoặc
gần như lồi) thì mô hình đó hiệu quả với bộ dữ liệu đang có. Nếu mô hình học
máy cho đường ROC không lồi (hoặc không tương tự lồi) thì chương trình học
máy còn có thể cải thiện thêm dựa trên bộ dữ liệu đã có. Đây cũng là một dấu
hiệu để ta dừng quá trình học vào thời điểm hợp lý.
56
Chương 3
ẢNH HƯỞNG CỦA HÀM MẤT MÁT
ĐẾN CÁC BÀI TOÁN PHÂN LOẠI NHỊ PHÂN
Các hàm mất mát đã được nghiên cứu trong các tài liệu [6, 7, 8, 9, 10, 11].
Luận án nghiên cứu các hàm mất mát trong học máy ảnh hưởng đến các máy
phân loại nhị phân (tức là các mô hình AI để dự đoán các vấn đề phân loại
nhị phân) như thế nào và đã đạt các kết quả sau:
1. Hàm mất mát cross-entropy và hàm mất mát bình phương là các hàm
mất mát tự nhiên nhất. Cụ thể hơn, chúng có tính chất sau: máy xác suất
thực được định nghĩa trong Chương 2 chính là cực tiểu của chúng.
2. Cực tiểu của một hàm mất mát lồi nghiêm ngặt tùy ý là một máy tối ưu
và có thể đưa về máy xác suất thực qua một phép biến đổi tham số. Hơn
nữa, nếu hàm mất mát không lồi, thì cực tiểu của nó nói chung sẽ không
phải là một máy tối ưu.
Các kết quả này đã được đăng trong các bài báo [T1], [T3], [T4].
3.1 Tổng quan về các hàm mất mát (loss function)
Nhắc lại rằng, hàm mất mát là hàm dùng để đo xem một máy cho ra kết
quả khác với “sự thật cơ bản” hay khác với “máy lí tưởng” chừng nào, để rồi
phản hồi lại thông tin đó cho máy (feedback), tìm cách thay đổi các tham số
của máy nhằm giảm mất mát đi, khiến cho máy trở nên chính xác hay hiệu
quả hơn. Khi kết quả mà máy cho ra là Ypredict và sự thật cơ bản là Ytrue, thì
hàm mất mát là một hàm có dạng
l(Ytrue, Ypredict)
đo khoảng cách hay độ chênh lệch giữa Ypredict và Ytrue. Ngay cả khi kết quả
do máy tạo ra có tính chất sáng tạo (ví dụ như một bản nhạc) và không có
sự thật cơ bản nào cả, thì vẫn cần có cách phản hồi (feedback) cho máy, dựa
57
trên các hàm mất mát gián tiếp, kiểu như
l(ϕ(Youtput), ϕreference)
trong đó Youtput là kết quả output của máy, ϕ là một hàm tính một số đặc
trưng của kết quả đó, còn ϕreference là các giá trị đặc trưng dùng làm chuẩn.
Mỗi một loại bài toán học máy có những hàm mất mát thích ứng của nó.
Có ba loại bài toán học máy có giám sát phổ biến nhất, và một số loại hàm
mất mát phổ biến dùng cho ba loại bài toán đó.
• Bài toán hồi quy (ước lượng các giá trị số);
• Bài toán phân loại (phân loại dữ liệu theo các lớp cho trước);
• Bài toán phân đoạn (phân vùng) hình ảnh.
3.1.1 Các hàm mất mát hồi quy
Một bài toán hồi quy là một bài toán tìm hàm số thực:
Ypredict : Ω −→ R
sao cho gần đúng nhất với giá trị thực tế:
Ytrue : Ω −→ R
thể hiện một quan hệ nào đó. Ví dụ Ω là một tập các căn hộ, y là giá của căn
hộ đó và Ypredict là hàm dự đoán y dựa trên các thông tin về căn hộ như diện
tích, số phòng, năm xây dựng, vị trí địa lí,v.v..
Với mỗi x ∈ Ω ta có một giá trị mất mát l(Ypredict(x), Ytrue(x)) nào đó cho
đầu vào x . Còn trên toàn bộ Ω ta có thể tính hàm mất mát của Ypredict bằng
cách lấy tích phân:
L(Ypredict) =
∫
x∈Ω
l(Ypredict(x), Ytrue(x))dPΩ
Trong thực tế, Ω là một tập rời rạc, và tích phân chính là giá trị trung bình.
Kí hiệu Ω = {x1, x2, ..., xn}; Ytrue(xi) = yi; Ypredict(xi) = y˜i, khi đó :
L =
1
n
n∑
i=1
l(y˜i, yi).
58
Hàm mất mát phổ biến nhất là hàm mất mát bình phương, với l(y˜i, yi) =
(y˜i − yi)2, và
L =MSE =
1
n
n∑
i=1
(y˜i − yi)2.
Hàm mất mát này còn được gọi là sai số bình phương trung bình (MSE,
mean square error), hay là hàm mất mát L2 (theo chuẩn L2 trong giải tích
hàm).
Nếu thay vì bình phương (y˜i − yi)2, ta dùng giá trị tuyệt đối |y˜i − yi| cho độ
chênh lệch giữa y˜i và yi, thì được hàm mất mát gọi là sai số tuyệt đối trung
bình (MAE, mean absolute error).
MAE =
1
n
n∑
i=1
|y˜i − yi|.
3.1.2 Các hàm mất mát phân loại (phân lớp)
Một hàm phân loại là một ánh xạ từ tập dữ liệu Ω vào một tập thường là
hữu hạn các loại, ví dụ như:
Y : Ω −→ {chó, mèo, gà}.
Chúng ta có thể đánh số các loại, ví dụ như chó = 0, mèo = 1, gà = 2, v.v,
và biến một bài toán phân loại thành một bài toán hồi quy:
Y : Ω −→ {0, 1, 2} ⊂ R.
Coi Ypredict là hàm giá trị thực (thay vì chỉ nhận giá trị rời rạc) và sử dụng
các hàm mất mát hồi quy cho bài toán phân loại, đặc biệt là hàm mất mát
bình phương.
Một hàm mất mát rất phổ biến khác (và có lẽ là phổ biến nhất) cho bài
toán phân loại gọi là hàm cross-entropy. Trong trường hợp phân loại nhị phân,
nó được gọi là hàm cross-entropy nhị phân, và công thức của nó như sau:
l(y, y˜) = −(y ln(y˜) + (1− y) ln(1− y˜)) (3.1)
trong đó y là sự thật cơ bản (lớp thật sự) của một dữ liệu, chỉ nhận một trong
hai giá trị 0 hoặc 1, còn y˜ là dự đoán của y˜ ở dạng “xác suất” (giá trị sigmoid),
nhận giá trị trong khoảng từ 0 đến 1.
59
Thành phần −y ln(y˜) trong công thức trên có thể gọi là phần mất mát ứng
với lớp “âm tính”, còn −(1−y) ln(1−y˜) là phần mất mát ứng với lớp “dương tính”.
Nếu số lớp lớn hơn 2, thì ta tính thành phần mất mát cho từng lớp theo
công thức tương tự như trên rồi lấy tổng các kết quả để được hàm mất mát:
l(x) = −
k∑
c=1
yc ln(y˜c) (3.2)
trong đó vec-tơ (y1, . . . , yk) là vec-tơ “one-hot” của sự thật cơ bản: yi = 1 nếu
lớp của dữ liệu được xét là lớp i, và yi = 0 nếu lớp của dữ liệu được xét khác
lớp i; (y˜1, . . . , y˜) là dự đoán cho sự thật cơ bản ở dạng “phân bố xác suất” (các
số này đều không âm và có tổng bằng 1).
Có một loại hàm mất mát phổ biến khác cho các bài toán phân loại nhị
phân, gọi là Hàm mất mát bản lề (Hinge loss). Nó hay được dùng với các
phương pháp học máy kiểu SVM, (xem thêm trong [36]). Ý tưởng chính của
hàm mất mát bản lề cho máy SVM như sau:
Ta tạo các đặc trưng sao cho qua phép chiếu từ không gian các dữ liệu lên
trên không gian các đặc trưng, các điểm dương tính sẽ nằm hầu hết ở một nửa
không gian (gọi là nửa không gian dương tính), các điểm âm tính sẽ nằm hầu
hết ở nửa còn lại (nửa không gian âm tính), và hai nửa được phân chia bởi
một siêu phẳng (hyperplane). Siêu phẳng đó là “bản lề”. Nếu một điểm dương
tính mà rơi vào nửa không gian dương tính qua phép chiếu và có khoảng cách
tới bản lề ít nhất là 1, thì ta coi mất mát của nó bằng 0 (nó nằm đủ cách
xa bản lề để mà “yên tâm”), còn nếu nó nằm gần bản lề hoặc “nằm nhầm”
sang nửa không gian dương tính thì nó có mất mát là dương, càng nằm sâu
vào nửa không gian âm tính thì dương càng cao. Đối với các điểm âm tính thì
cũng tính mất mát tương tự như vậy, chỉ có điều đổi âm thành dương, dương
thành âm. Tổng mất mát của các điểm cho ta mất mát của toàn bộ máy, và
quá trình học máy SVM chính là quá trình xoay và dịch bản lề để giảm thiểu
mất mát,(xem thêm trong [34]).
3.1.3 Các hàm mất mát thường dùng trong bài toán phân đoạn hình ảnh
Trong bài toán phân đoạn hình ảnh, tùy theo nhu cầu quan tâm khác nhau,
người ta sử dụng các hàm mất mát khác nhau (xem trong [35, 37, 38, 39, 40,
60
Hình 3.1: Các hàm mất mát thường dùng trong bài toán phân đoạn hình ảnh.
41, 14]). Các hàm mất mát thường dùng trong phân đoạn hình ảnh được tóm
tắt bằng sơ đồ như trong Hình 3.1. Trong Chương 4 tác giả sẽ sử dụng một số
hàm mất mát trong sơ đồ này để thiết kế mô hình học máy cho bài toán phân
đoạn hình ảnh.
• Distribution-based Loss: Mất mát theo phân phối là thước đo sự khác biệt
giữa hai phân phối. Nó thường được áp dụng khi xử lý các bộ dữ liệu mất
cân bằng lớn.
• Region-based Loss: Mất mát theo khu vực, được sử dụng để tối thiểu hóa
vùng khác hay tối đa hóa vùng trùng nhau giữa sự thật cơ bản và phân
đoạn được dự đoán.
• Boundary-based Loss: Mất mát theo biên, nhằm mục đích cực tiểu hóa
khoảng cách giữa biên của sự thật cơ bản và biên của phân đoạn dự báo.
3.2 Học máy vi phân và hàm mất mát
Nhắc lại rằng, ý tưởng chính của học máy là chúng ta không chỉ có một
máy mà có một họ lớn các máy Mθ : Ω→ [0, 1] phụ thuộc vào một véc-tơ tham
số θ ∈ Θ, trong đó Θ là một không gian nhiều chiều, và quá trình học chính là
quá trình thay đổi tham số θ qua từng bước, ví dụ như:
θ = θ0 7→ θ1 7→ θ2 7→ . . . 7→ θn 7→ . . . (3.3)
để cải thiện hiệu suất hay độ chính xác của máy Mθ.
61
Trong học máy vi phân, chúng ta xây dựng một hàm mất mát
L : Θ→ R (3.4)
làm đại diện cho độ chính xác của máy (ý tưởng là độ mất mát L(θ) càng thấp
thì độ chính xác của máy Mθ càng cao), rồi sử dụng phương pháp giảm theo
gradient để tìm điểm cực tiểu (hoặc điểm gần cực tiểu) θm của hàm mất mát
L. Điểm cực tiểu (hoặc gần cực tiểu) θm này về mặt lo-gic sẽ tương ứng với
máy tối ưu (hoặc gần tối ưu) Mθm, (xem thêm trong [39, 40, 42, 43]).
Thông thường, do không gian các tình huống có thể xảy ra là một không
gian lớn và phức tạp, chúng ta không thể tính toán một cách hoàn toàn chính
xác trên không gian đó mà chỉ có thể tính toán xấp xỉ qua các phương pháp
thống kê ngẫu nhiên như Monte Carlo, nên phương pháp giảm theo gradient
trong học máy vi phân thường được gọi là phương pháp giảm theo gradient
ngẫu nhiên - stochastic gradient descent.
Về mặt lý thuyết, hàm mất mát L bằng tích phân trên toàn bộ không gian
dữ liệu Ω của một hàm mất mát ℓ theo từng điểm (pointwise) :
L(θ) =
∫
x∈Ω
ℓ(Mθ(x), Y (x))dPΩ (3.5)
Nói chung, người ta có thể chọn hàm mất mát ℓ một cách khá là tùy ý, chỉ có
một hạn chế tự nhiên duy nhất là giá trị m = Mθ(x) càng cách xa sự thật cơ
bản y = Y (x), thì giá trị ℓ(m, y) của hàm mất mát càng cao, và nếu m = y thì
không có mất mát, tức là ℓ(y, y) = 0. Hai hàm mất mát phổ biến nhất là hàm
mất mát bình phương và hàm mất mát cross-entropy nhị phân. Hai
hàm này được định nghĩa như sau:
Định nghĩa 3.1. Hàmmất mát bình phương là hàm có công thức như sau:
ℓquadratic(m, y) = (m− y)2 (3.6)
Định nghĩa 3.2. Hàm mất mát cross-entropy nhị phân là hàm có công
thức như sau:
ℓcrossentropy(m, y) = − ln(1− |m− y|) (3.7)
tương tự như công thức (3.1).
62
Định nghĩa 3.3. Hàm mất mát cross-entropy nhị phân được điều
chỉnh là hàm có công thức như sau:
ℓcrossentropyR(m, y) = − ln(1− |m− y|+ ε) (3.8)
Tuy nhiên, chúng ta có thể chọn nhiều hàm mất mát khác. Ví dụ như hàm
mất mát bậc bốn sau cũng cho kết quả tốt trong nhiều bài toán.
Định nghĩa 3.4. Hàm mất mát bậc bốn là hàm có công thức như sau:
ℓquartic(m, y) = (m− y)2 + (m− y)4 (3.9)
Hình 3.2 minh họa dáng điệu của một số hàm mất mát lồi.
Hình 3.2: Dáng điệu một số hàm mất mát lồi. Hàm mất mát cross-entropy (hàm log) đã được điều
chỉnh bằng cách cho thêm một số dương epsilon rất nhỏ vào đó để tránh tình huống ln 0.
Người ta thậm chí có thể sử dụng hàm mất mát không trơn, không lồi, ví
dụ như hàm mất mát gãy khúc có công thức như sau:
ℓbroken(m, y) = min(|m− y|; 0,5)2 +max(|m− y| − 0,25; 0) (3.10)
Sau đây tác giả đưa ra giải thích về mặt lý thuyết cho các khẳng định sau:
1. Hàm mất mát bình phương và hàm mất mát cross-entropy là hai hàm mất
mát tự nhiên nhất;
2. Các hàm mất mát lồi như ℓquartic là các hàm mất mát tốt theo nghĩa cực
tiểu của chúng là những máy tối ưu về độ chính xác;
63
3. Các hàm mất mát không lồi như ℓbroken có thể dẫn đến các hiện tượng
kỳ quái và kết quả tồi, kiểu như là các bẫy ngẫu nhiên (stochastic traps)
trong học máy.
Chúng ta có thể viết lại hàm mất mát
L(M) =
∫
x∈Ω
ℓ(Σ(ϕ(x)), Y (x))dPΩ
của một máy nhị phân M = Σ ◦ ϕ như một tích phân trên không gian thông
tin Φ và về sau ta gọi nó là mất mát của hàm sigmoid Σ, như sau:
L(Σ) =
∫
Φ
[
(1− Σproba(φ)) · ℓ(Σ(φ), 0) + Σproba(φ) · ℓ(Σ(φ), 1)
]
dφ. (3.11)
Thật vậy, với mỗi φ đã cho, giá trị của ℓ(Σ(ϕ(x)), Y (x)) với điều kiện ϕ(x) = φ
sẽ bằng ℓ(Σ(φ), 0) với xác suất (1 − Σproba(φ)) và bằng ℓ(Σ(φ), 1) với xác suất
Σproba(φ).
Biểu thức (1 − Σproba(φ)) · ℓ(Σ(φ), 0) + Σproba(φ) · ℓ(Σ(φ), 1) trong công thức
trên chính là tích phân của ℓ(Σ(ϕ(x)), Y (x)) trên không gian {x ∈ Ω, ϕ(x) = φ})
theo độ đo xác suất có điều kiện trên không gian đó nên ta có công thức (3.11).
Ví dụ 3.1. Trong trường hợp hàm mất mát cross-entropy, ta có công thức
tích phân như sau:
Lcrossentropy(Σ) =
∫
Φ
− [(1− Σproba(φ)) · ln(1− Σ(φ)) + Σproba(φ) · ln(Σ(φ))] dφ.
(3.12)
Các hàm mất mát đã đề cập là các hàm mất mát đối xứng (symmetric), theo
nghĩa là chúng xử lý mất mát trong các trường hợp âm tính tức là y = 0 và
mất mát trong các trường hợp dương tính tức là y = 1 là như nhau. Tuy nhiên,
do sự mất cân bằng dữ liệu quá lớn trong một số bài toán (chẳng hạn như khi
số trường hợp dương tính chỉ bằng 1/1000 số các trường hợp âm tính), trong
thực tế có những lúc sẽ tốt hơn nếu chúng ta sử dụng các hàm mất mát không
đối xứng thay cho các hàm mất mát đối xứng.
64
Định nghĩa 3.5. Cho hàm:
f : [0, 1]→ R (3.13)
là một hàm tăng thỏa mãn điều kiện f(0) = 0. Họ các hàm mất mát không
đối xứng ℓc phụ thuộc vào một hệ số mất đối xứng c > 0, được cho bởi
công thức sau:
ℓc(m, y) = (1− y)f(m) + cyf(1−m). (3.14)
Do sự thật cơ bản chỉ nhận hai giá trị là y = 0 và y = 1 nên công thức ở trên
nghĩa là khoản mất mát bằng f(m) nếu y = 0 và bằng cf(1 − m) nếu y = 1.
Vì vậy các trường hợp âm tính và các trường hợp dương tính có tỉ trọng khác
nhau trong tổng số mất mát. Ví dụ khi c = 100 nó giống như các trường hợp
dương tính được tính 100 lần trong khi các trường hợp âm tính chỉ tính 1 lần.
Như vậy hệ số mất đối xứng có thể được sử dụng để bù đắp sự mất cân bằng
dữ liệu.
Hai công thức (3.11) và (3.14) dẫn đến công thức sau đối với một hàm mất
mát của một máy M = Σ ◦ ϕ với một hàm sinh (generating function) f đã cho
và một hệ số mất đối xứng c:
L(Σ) =
∫
Φ
[
(1− Σproba(φ)) · f(Σ(φ)) + cΣproba(φ) · f(1− Σ(φ))
]
dφ. (3.15)
Đối với mỗi φ ∈ Φ cho trước, hàm dưới dấu tích phân
(1− Σproba(φ)) · f(Σ(φ)) + cΣproba(φ) · f(1− Σ(φ))
có thể được viết như hàm số một biến σ = Σ(φ) và một tham số p = Σproba(φ):
g(σ) := (1− p)f(σ) + cpf(1− σ). (3.16)
Ta không thể thay đổi p, nhưng có thể chọn hàm sigmoid Σ, cũng có nghĩa là
chọn σ sao cho hàm mất mát g(σ) đạt cực tiểu. Giảm thiểu mất mát L(Σ) có
nghĩa là giảm thiểu g(σ) với mỗi φ. Nói cách khác, một hàm sigmoid Σ là một
cực tiểu của hàm mất mát L(Σ) được cho bởi công thức (3.15) nếu và chỉ nếu
(hầu khắp mọi nơi, trừ ra một tập có độ đo bằng 0) với mọi p ∈ [0, 1] và mọi
φ ∈ Ω thỏa mãn Σproba(φ) = p, ta có
Σ(φ) = argmin
σ
[(1− p)f(σ) + cpf(1− σ)] (3.17)
65
Phương trình (3.17) cho ta kết quả thú vị về tính tự nhiên của hàm mất
mát bình phương cổ điển (trường hợp f(σ) = σ2 và c = 1) và hàm mất mát
cross-entropy nhị phân (trường hợp f(σ) = − ln(1− σ) và c = 1):
Định lý 3.1. Với các kí hiệu như trên, ta có:
(i) Máy xác suất thực là điểm cực tiểu duy nhất của hàm mất mát bình phương.
(ii