FN (False Negative): Số trường hợp chẩn đoán âm tính sai, (là
khi bệnh nhân ốm nhưng chẩn đoán là bình thường);
TN (True Negative): Số trường hợp chẩn đoán âm tính đúng;
FP (False Positive): Số trường hợp chẩn đoán dương tính sai,
tức là trường hợp người bình thường nhưng chẩn đoán có bệnh;
TP (True Positive): Số trường hợp chẩn đoán dương tính đúng;
Sensitivity: Tỷ lệ chẩn đoán dương tính đúng,
Specificity: Tỷ lệ chẩn đoán âm tính đúng,
Mô hình nhận dạng có chất lượng và độ tin cậy cao khi số mẫu
nhận dạng sai, số chẩn đoán dương tính sai FP, số chẩn đoán âm
tính sai FN thấp, và tỷ lệ chẩn đoán dương tính đúng Sensitivity,
tỷ lệ chẩn đoán âm tính đúng Specificity càng cao.
27 trang |
Chia sẻ: honganh20 | Ngày: 23/02/2022 | Lượt xem: 352 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Xây dựng mô hình nhận dạng kết hợp nhằm nâng cao độ chính xác phân loại tín hiệu điện tim loạn nhịp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
của luận án, tóm tắt về
nội dung nghiên cứu, những đóng góp và bố cục của luận án.
Chương I: Trình bày tổng quan về tín hiệu điện tim ECG,
một số yếu tố ảnh hưởng đến tín hiệu ECG, tham khảo các công
trình nghiên cứu và các phương pháp nâng cao chất lượng nhận
dạng tín hiệu điện tim ECG, chương này còn đề xuất các định
hướng nghiên cứu của luận án và trình bày khái quát các bộ cơ sở
dữ liệu được sử dụng trong luận án.
Chương II: Chương này sẽ trình bày chi tiết về các khối: Thu
thập, tiền xử lý và phương pháp trích chọn đặc tính.
Chương III: Đây là nội dung nghiên cứu chính của luận án,
phần đầu trình bày về giải pháp sử dụng cây quyết định để kết hợp
kết quả của các hệ thống nhận dạng đơn. Tiếp theo, trình bày về
các mô hình nhận dạng đơn đó là mạng nơ-rôn truyền thẳng nhiều
lớp MLP, mạng nơ-rôn logic mờ TSK, máy véc-tơ hỗ trợ SVM và
rừng ngẫu nhiên RF. Cuối cùng, đề xuất phương án thiết kế phần
cứng cho thiết bị đo tín hiệu điện tim.
- 5 -
Chương IV: Chương này trình bày về phương pháp tạo bộ dữ
liệu học và kiểm tra từ bộ hai cơ sở dữ liệu MIT-BIH và
MGH/MF. Kết quả xây dựng mô hình nhận dạng tín hiệu ECG,
các kết quả thử nghiệm, đánh giải pháp đề xuất của luận án.
Phần cuối cùng, là kết luận và hướng phát triển, danh mục các
tài liệu tham khảo, các công trình đã công bố của luận án.
CHƯƠNG I: TỔNG QUAN CÁC PHƯƠNG PHÁP
NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG ECG
1.1. Tổng quan về tín hiệu điện tim ECG
Mục này giới thiệu tổng quan về tín hiệu điện tim ECG, một số
yếu tố ảnh hưởng đến tín hiệu điện tim.
1.2. Tình hình nghiên cứu và phương pháp nâng cao chất
lượngnhận dạng tín hiệu điện tim ECG
1.2.1. Tình hình nghiên cứu
Mục này giới thiệu tóm tắt một số công trình nghiên cứu về tín
hiệu điện tim trong những năm vừa qua.
1.2.2. Một số giải pháp nâng cao chất lượng nhận dạng
Giới thiệu một số giải pháp nâng cao chất lượng nhận dạng tín
hiệu điện tim, cụ thể:
Khối tiền xử lý: Một số thuật toán lọc nhiễu cho tín hiệu
đo được đề xuất sử dụng kết hợp làm tăng độ chính xác của
kết quả nhận dạng, như nghiên cứu gần đây trong luận án
của TS. Nguyễn Đức Thảo (năm 2016 [4]) sử dụng wavelet
để loại bỏ ảnh hưởng của nhịp thở của bệnh nhân đã giảm
sai số xuống 11,43% khi thử nghiệm nhận dạng 7 loại bệnh
tim trong bộ cơ sở dữ liệu MIT-BIH và giảm sai số xuống
11,29% khi thử nghiệm nhận dạng 3 loại bệnh tim trong bộ
cơ sở dữ liệu MGH/MF.
Khối trích chọn đặc tính: Là khối cũng ảnh hưởng lớn
đến kết quả nhận dạng, như đã trình bày ở trên thì có nhiều
phương pháp trích chọn đặc tính, trong đó phương pháp
- 6 -
được nhiều nghiên cứu áp dụng là sử dụng các hệ số khai
triển phức bộ QRS bằng wavelet hay bằng các hàm
Hermite cơ sở để tạo các véc-tơ đặc tính.
Hệ thống nhận dạng tín hiệu điện tim: Độ chính xác của
kết quả nhận dạng phụ thuộc lớn vào khối nhận dạng phi
tuyến. Đã có nhiều nghiên cứu áp dụng các loại mô hình
nhận dạng phi tuyến để cải thiện chất lượng nhận dạng tín
hiệu điện tim, từ các mô hình nhận dạng kinh điển như nơ-
rôn MLP (Multi Layer Perceptron), mạng logic mờ TSK
(Takaga-Sugeno-Kang), cho đến đến các công cụ mới như
máy véc-tơ hỗ trợ SVM (Support Vector Machines) và rừng
ngẫu nhiên RF (Random Forest), Deep Learning... cũng đã
được sử dụng, thông thường những mô hình nhận dạng phí
tuyến mới có chất lượng nhận dạng tốt hơn so với các mô
hình cũ, ví dụ [78] các hệ thống nhận dạng 7 loại nhịp tim
sử dụng các hàm cơ sở Hermite để trích chọn đặc tính, các
kết quả thử nghiệm với mô hình TSK, SVM trên bộ cơ sở
dữ liệu MIT-BIH, kết quả sai số nhận dạng được giảm từ
3,26% khi dùng mạng TSK xuống 1,96 % khi dùng SVM.
1.2.3. Nâng cao độ chính xác bằng mô hình kết hợp
Do kết quả chẩn đoán các bệnh về tim mạch ảnh hưởng trực
tiếp đến sức khỏe bệnh nhân, nên các hệ thống nhận dạng tự động
tín hiệu điện tim có yêu cầu về độ chính xác, ổn định, tin cậy ngày
càng cao. Khi nhận dạng và kiểm tra một đối tượng đầu vào thì
mỗi một giải pháp sẽ có thuật toán xử lý riêng để đưa ra các kết
quả nhận dạng riêng. Các giải pháp khác nhau có thể đưa ra các
kết quả khác nhau (nếu nhiều mô hình đều đưa ra một kết quả
thống nhất thì kết quả này thường có độ tin cậy khá cao). Do đối
với các bài toán thực tế, ta thường không có giải pháp nhận dạng
có độ chính xác tuyệt đối, nên bất cứ giải pháp đơn lẻ nào đều có
xác suất gây lỗi (mỗi giải pháp sẽ bị lỗi nhận dạng sai với một
nhóm mẫu khác nhau). Từ nguyên nhân chính này mà có nhiều tác
giả đã đề xuất ra giải pháp “mô hình kết hợp” tức là sử dụng đồng
thời nhiều mô hình nhận dạng đơn và đưa thêm một khâu xử lý
nữa, nhiệm vụ của khâu xử lý thêm này là kết hợp các kết quả của
- 7 -
các mô hình nhận dạng đơn để đưa ra một kết luận cuối cùng. Một
số ưu điểm của “mô hình kết hợp”:
Mỗi “mô hình đơn” được coi như một chuyên gia độc lập,
việc kết hợp nhiều chuyên gia sẽ cho kết quả đáng tin cậy
hơn, cũng như tận dụng được ưu điểm của từng mô hình
đơn;
Sử dụng các đánh giá từ nhiều góc độ, từ nhiều phương
pháp khác nhau nên thông tin có thể phong phú hơn dẫn tới
chất lượng quyết định sẽ cao hơn.
Ý tưởng của mô hình kết hợp đã được áp dụng ở trong các lĩnh
vực khác như: [68] Cho nhận dạng hình ảnh, [17] sinh trắc học
như nhận dạng khuôn mặt, [89] áp dụng cho hệ thống đo nồng độ
khí đa năng,... Tuy nhiên, phương pháp kết hợp có nhược điểm
chính là làm hệ thống nhận cồng kềnh và phức tạp hơn, chỉ nên áp
dụng đối với các bài toán nhận dạng phức tạp, yêu cầu độ chính
xác cao. Trên hình 1.4 là sơ đồ khối tổng quát của hệ thống nhận
dạng tín hiệu điện tim sử dụng mô hình kết hợp, trong đó có M mô
hình nhận dạng đơn, kết quả của các mô hình nhận dạng đơn là yi,
z là kết luận cuối cùng sau khối kết hợp kết quả.
Hình 1.4: Sơ đồ chung của mô hình kết hợp
Trong nghiên cứu [22] tác giả sử dụng mô hình kết hợp các ba
mô hình nhận dạng SVM đơn để nhận dạng sáu loại nhịp tim làm
độ chính xác tăng khoảng 0,2%, trong nghiên cứu [31] tác giả kết
hợp 15 mô hình nhận dạng SVM đơn có độ chính xác trong dải
98% ÷ 98,77%, kết quả của mô hình kết hợp có độ chính xác
98,65 % tuy thấp hơn so với kết quả cao nhất của mô hình SVM
đơn là 98,77 nhưng lại có độ ổn định cao hơn, hay trong [12] tác
- 8 -
giả đã sử dụng mạng nơ-rôn MLP làm mô hình nhận dạng thành
phần, thử nghiệm trên bộ cơ sở dữ liệu MIT-BIH có độ chính xác
tăng thêm khoảng 1,5%.
Xu hướng hiện nay là dùng các mô hình nhận dạng đơn lẻ sử
dụng các thuật toán khác nhau là phổ biến hơn so với việc sử dụng
cùng loại như ở các ví dụ trên. Xu hướng này khá hợp lý bởi vì nó
sẽ nâng cao ưu điểm của từng mô hình nhận dạng đơn lẻ. Như
trong nghiên cứu [25] tác giả đã sử dụng hai thuật toán phân loại
khác nhau là SVM và PSO (Particles Swarm Optimization) gọi là
hệ thống nhận dạng PSO-SVM, kết quả thử nghiệm trên bộ cơ sở
dữ liệu MIT-BIH có độ chính xác tăng khoảng 4%, trong [23] tác
giả kết hợp mạng logic mờ Fuzzy KNN (Fuzzy K Nearest
Neighbors) và mạng MLP cho kết quả có độ chính xác được cải
thiện từ 97.3% lên 98%.
Một số giải pháp phối hợp kết quả thông dụng đã được đề xuất
như: Biểu quyết theo đa số [22, 31], biểu quyết có trọng số [78,
103], tổng hợp theo xác suất điều kiện Bayes [78] Các giải pháp
kết hợp này khá đơn giản, điều này cũng dễ hiểu do mô hình kết
hợp khá phức tạp vì dùng nhiều mô hình nhận dạng đơn, khối
lượng tính toán lớn nên ở khâu kết hợp các tác giả thường lựa
chọn các giải pháp đơn giản, hay dùng nhất là giải pháp biểu
quyết theo đa số.
Về số lượng mô hình đơn, thực tế ít sử dụng kết hợp hai mô
hình đơn vì khi xảy ra mẫu thuẫn trong kết quả từ hai hệ đơn ta
không có cơ sở chắc chắn để kết luận hệ đơn nào đúng, hệ đơn
nào sai. Vì thế, đa số các mô hình kết hợp đều sử dụng số lượng
mô hình cơ sở từ ba hệ thành phần trở lên (nhiều công trình
khuyến cáo sử dụng số mô hình đơn là số lẻ để có thể đưa ra kết
luận cuối cùng, nhất là trong trường hợp biểu quyết theo đa số).
1.3. Định hướng nghiên cứu của luận án
Từ các phân tích ở trên, nghiên cứu sinh định hướng sử dụng
mô hình kết hợp để cải thiện chất lượng nhận dạng tín hiệu điện
tim ECG. Các giải pháp đơn sẽ là các giải pháp có chất lượng cao
đã được sử dụng trong các nghiên cứu trước đây, hình 1.5 là sơ đồ
khối của mô hình đề xuất của luận án, trong đó Ci là các mô hình
- 9 -
nhận dạng cơ sơ (với i=1, 2,, M), tương ứng với các kết quả
nhận dạng yi.
Hình 1.5: Hệ thống nhận dạng tín hiệu ECG đề xuất của luận án
Ý tưởng và giải pháp đề xuất cụ thể:
Áp dụng cây quyết định DT (Decision Tree) để tổng hợp kết
quả từ các kết quả đầu ra của các mô hình nhận dạng cơ sở;
Các mô hình nhận dạng đơn sử dụng chung các khối thu thập
tín hiệu, tiền xử lý và trích chọn đặc tính;
Sử dụng bốn mô hình nhận dạng: Mạng nơ-rôn MLP (Multi-
Layer Perceptron), mạng logic mờ TSK (Takagi–Sugeno–
Kang), máy véc-tơ hỗ trợ SVM (Support Vector Machines)
và rừng ngẫu nhiên RF (Random Forest) để xây dựng thành
các mô hình nhận dạng cơ sở;
Lựa chọn các đặc tính của tín hiệu điện tim:
- Sử dụng các hàm cơ sở Hermite (Hermite Basis
Functions) để khai triển các phức bộ QRS nhằm lấy các
hệ số khai triển này làm đặc tính;
- Sử dụng thêm hai đặc tính về thời gian: Khoảng cách
giữa hai đỉnh R liên tiếp (R-R), giá trị trung bình của
mười khoảng cách R-R cuối cùng.
Thử nghiệm mô hình nhận dạng trên các bộ cơ sở dữ liệu
mẫu MIT-BIH và MGH/MF có thể tải về từ trang web
Thiết kế, chế tạo thiết bị đo điện tim cầm tay, sử dụng công
nghệ ARM đời mới để chạy thử nghiệm chương trình nhận
- 10 -
dạng, kiểm tra khả năng đáp ứng được về mặt tốc độ tính
toán theo thời gian thực.
1.4. Cơ sở dữ liệu sử dụng trong luận án
Để kiểm chứng chất lượng của các giải pháp trong luận án,
NCS sử dụng CSDL chuẩn MIT-BIH (Massachusetts Institute of
Technology, Boston’s Beth Israel Hospital) và MGH/MF, cả hai
bộ cơ sở dữ liệu điện tim này đều có thể tải về từ trang web
CHƯƠNG II: THU THẬP, TIỀN XỬ LÝ VÀ TRÍCH CHỌN
ĐẶC TÍNH TÍN HIỆU ECG
2.1. Thu thập và tiền xử lý tín hiệu điện tim
Nhiệm vụ của khối này là chuẩn hóa tín hiệu điện áp tương tự
thu được từ các điện cực ECG về dải biến thiên trong khoảng
0÷5V hoặc trong khoảng 0÷3,3V, tín hiệu từ các điện cực ECG
thường được xử lý tuần tự qua các khâu: Tiền khuếch đại, khuếch
đại.
Nhiệm vụ thứ 2 là loại bỏ các nhiễu nằm ngoài dải tần số điện
tim quan tâm là 0,1÷100Hz, bằng các bộ lọc thông thấp có tần số
cắt 100Hz và bộ lọc thông cao có tần số cắt 0,1Hz. Loại bỏ các
nhiễu do điện lưới gây ra bằng bộ lọc Notch 50Hz (bộ lọc triệt tần
50Hz).
2.2. Trích chọn đặc tính để nhận dạng
Trích chọn đặc tính của luận án thể hiện trong hình 2.4 sau đây:
inx
18x
Hình 2.4: Sơ đồ quy trình xây dựng véc tơ đặc tính cho tín hiệu điện tim
Phức bộ QRS trong tín hiệu điện tim ECG tuy không chứa toàn
bộ các thông tin để đánh giá tín hiệu điện tim, nhưng cũng chứa
đựng khá nhiều các thông tin hữu ích và được nhiều tác giả trong
nước và quốc tế sử dụng. Do đó, như đã trình bày ở trên, luận án
- 11 -
sử dụng số liệu phân tích từ phức bộ QRS và hai giá trị thời gian
là khoảng cách R-R, trung bình 10 khoảng cách R-R cuối cùng để
làm cơ sở nhận dạng. Theo khảo sát, phức bộ QRS kéo dài khoảng
100ms, tuy nhiên trong trường hợp bệnh lý phức bộ này có thể
kéo dài gấp vài lần. Vì vậy, NCS lựa chọn độ dài 250ms xung
quanh đỉnh R là đủ rộng để chứa toàn bộ đoạn QRS, nếu tần số
lấy mẫu tín hiệu điện tim là 360Hz thì 250ms tương ứng với
khoảng 91 giá trị xung quanh đỉnh R (ta lấy 45 giá trị liền trước
đỉnh và 45 giá trị từ đỉnh về phía sau).
Để phát hiện đỉnh R trong các giải pháp cho thiết bị cầm tay,
trong luận án áp dụng thuật toán đã được Pan và Tompkins đưa ra
vào năm 1985 [36] và được phát triển tiếp vào năm 1986 [62].
Véc-tơ đặc tính 180 15, , , ,last meanc c RR RR x của
mỗi nhịp (phức bộ QRS) gồm 18 thành phần:
16 hệ số khai triển ic 0 15i của tín hiệu điện tim
ECG theo các hàm Hermite;
2 đặc tính trong miền thời gian của tín hiệu điện tim, là
lastRR khoảng cách giữa hai đỉnh R liên tiếp (còn gọi là
khoảng cách R-R), và meanRR giá trị trung bình của 10
khoảng cách R-R cuối cùng.
CHƯƠNG III. GIẢI PHÁP KẾT HỢP CÁC MÔ HÌNH
NHẬN DẠNG ĐỂ CẢI THIỆN CHẤT LƯỢNG
3.1. Kết hợp kết quả bằng mô hình cây quyết định
3.1.1. Mô hình chung để kết hợp nhiều giải pháp nhận dạng
Hình 3.1 biểu diễn sơ đồ chung của mô hình kết hợp sử dụng
nhiều mô hình nhận dạng đơn, trong đó, M số mô hình nhận
dạng đơn, in x tín hiệu điện tim ECG đầu vào, i P là các khối
tiền xử lý và trích chọn đặc tính, i C các khối phân loại, z kết
quả nhận dạng cuối cùng tương ứng với tín hiệu điện tim đầu vào
inx .
- 12 -
Hình 3.1: Sơ đồ chung của mô hình kết hợp sử dụng nhiều
mô hình nhận dạng đơn
Nhìn chung, các mô hình nhận dạng cơ sở làm việc độc lập
với tín hiệu điện tim đầu vào inx có thể từ các chuyển đạo khác
nhau, các khối tiền xử lý và trích chọn đặc tính Pi dùng các
phương pháp khác nhau. Như đã trình bày ở phần mở đầu, định
hướng nghiên cứu của luận án là sử dụng chung một phương pháp
tiền xử lý và trích chọn đặc tính 1 2 M P P P cho các mô
hình nhận dạng đơn Ci (như đã miêu tả trên hình 1.5).
Nếu bài toán nhận dạng N loại nhịp tim khác nhau, thì mỗi
mô hình nhận dạng đơn iC (với i=1, 2,, M) sẽ có M kết quả iy
(với i=1, 2,, M) biểu diễn dưới dạng véc-tơ, một véc-tơ yi lý
tưởng khi có một giá trị bằng ‘1’ và tất cả các giá trị còn lại đều
bằng ‘0’, nhưng thông thường các giá trị của chúng thường dao
động trong khoảng [0, 1]. Trong luận án, các kết quả đầu ra iy từ
các mô hình nhận dạng cơ sở được hợp lại thành một véc-tơ tổng
Y (có kích thước M K ) và được tiếp tục xử lý tại khối tổng hợp kết quả để đưa ra kết luận cuối cùng là véc-tơ z (có kích thước K) tương ứng với mã của K loại nhịp tim khác nhau.
- 13 -
1 11 12 1... Ky y yy 1 2...M M M MKy y yy 2 21 22 2... Ky y yy
1 2 11 12 1 21 22 2 1 2M K K M M MKy y y y y y y y y y y yY
M KY
180 15, , , ,last meanc c RR RR x
Hình 3.2: Sơ đồ khối chung của hệ thống kết hợp
song song nhiều mô hình đơn
3.1.2. Quy trình xây dựng cây quyết định DT cho khối tổng
hợp kết quả
3.1.3. Cây quyết định
Cây quyết định là một mô hình xử lý tín hiệu kinh điển đã được
sử dụng rất rộng rãi trong nhiều ứng dụng thực tế. Cây là một đồ
thị không có chu trình. Đồ thị G được định nghĩa chung bởi hai
tập hợp G=(V,E), trong đó V là tập hợp các nút (vertex) còn E là
tập hợp các cạnh (edge) nối hai nút của tập V. Đối với các cây, ta
sử dụng trường hợp cạnh có hướng. Khi đó nếu đồ thị G không có
chu trình kín thì được gọi là cây. Với mỗi cây ta có [2]:
Tồn tại một nút được gọi là nút gốc;
- 14 -
Các nút được nối với nhau bởi các nhánh có hướng còn gọi
là cành. Với mỗi cành, nút gốc được gọi nút cha/mẹ, nút
ngọn là nút con;
Mỗi nút trong cây có thể có từ một đến nhiều nút con. Các
nút không có nút con còn được gọi là (nút) lá/ngọn của cây.
3.2. Các mô hình nhận dạng đơn
Nội dung chính của mục này là giới thiệu 4 mô hình nhận dạng
đơn: MLP, TSK, SVM và RF.
3.3. Đề xuất mô hình thiết bị có tích hợp chức năng nhận dạng
CHƯƠNG IV: KẾT QUẢ TÍNH TOÁN VÀ MÔ PHỎNG
4.1 Xây dựng các bộ số liệu mẫu
4.1.1. Cơ sở dữ liệu MIT-BIH
Để nhằm mục đích so sánh với các công trình trước đây, luận
án sẽ sử dụng cùng bộ mẫu số liệu như trong các nghiên cứu [4,
78], cụ thể là nhận dạng chứng rối loạn nhịp tim xuất phát từ bộ
cơ sở là các đoạn QRS của tín hiệu điện tim từ 19 bệnh nhân. Số
lượng chi tiết số mẫu sử dụng được thống kê chi tiết trong các
bảng 4.1 và bảng 4.2 dưới đây:
Bảng 4.1: Bảng phân chia số lượng mẫu học và mẫu kiểm tra
của 7 loại rối loạn nhịp tim từ CSDL MIT-BIH
Loại nhịp Tổng số mẫu Số mẫu học Số mẫu kiểm tra
N 2000 1065 935
L 1200 639 561
R 1000 515 485
A 902 504 398
V 964 549 451
I 472 271 201
E 105 68 37
Tổng 6643 3611 3068
- 15 -
Bảng 4.2: Bảng phân chia số lượng mẫu học và mẫu kiểm tra của 2
loại nhịp
Loại nhịp Tổng số mẫu Số mẫu học Số mẫu kiểm tra
Normal 2000 1065 935
Abnormal 4643 2546 2133
Tổng 6643 3611 3068
4.1.2. Cơ sở dữ liệu MGH/MF
Luận án lựa chọn sử dụng các mẫu tín hiệu ECG của 20 bản
ghi có mã số là: 029, 030, 058, 105, 106, 107, 108, 110, 111, 114,
117, 119, 121, 123, 124, 125, 128, 131, 137, 142. Số lượng chi tiết
số mẫu sử dụng được thống kê chi tiết trong bảng 4.3 và bảng 4.4
dưới đây:
Bảng 4.3: Bảng phân chia số lượng mẫu học và mẫu kiểm tra
của 3 loại nhịp
Loại nhịp Tổng số mẫu Số mẫu học Số mẫu kiểm tra
N 3000 1997 1003
S 750 502 248
V 750 501 249
Tổng 4500 3000 1500
Bảng 4.4: Bảng phân chia số lượng mẫu học và mẫu kiểm tra
của 2 loại nhịp
Loại nhịp Tổng số mẫu Số mẫu học Số mẫu kiểm tra
Normal 3000 1997 1003
Abnormal 1500 1003 497
Tổng 4500 3000 1500
4.2. Cách đánh giá chất lượng mô hình nhận dạng
Các mô hình nhận dạng (các mô hình đơn và cả mô hình kết
hợp) được đánh giá thông qua các chỉ tiêu đánh giá như sau:
Số mẫu nhận dạng sai;
- 16 -
FN (False Negative): Số trường hợp chẩn đoán âm tính sai, (là
khi bệnh nhân ốm nhưng chẩn đoán là bình thường);
TN (True Negative): Số trường hợp chẩn đoán âm tính đúng;
FP (False Positive): Số trường hợp chẩn đoán dương tính sai,
tức là trường hợp người bình thường nhưng chẩn đoán có bệnh;
TP (True Positive): Số trường hợp chẩn đoán dương tính đúng;
Sensitivity: Tỷ lệ chẩn đoán dương tính đúng,
Specificity: Tỷ lệ chẩn đoán âm tính đúng,
Mô hình nhận dạng có chất lượng và độ tin cậy cao khi số mẫu
nhận dạng sai, số chẩn đoán dương tính sai FP, số chẩn đoán âm
tính sai FN thấp, và tỷ lệ chẩn đoán dương tính đúng Sensitivity,
tỷ lệ chẩn đoán âm tính đúng Specificity càng cao.
4.4. Kết quả thử nghiệm với các mô hình kết hợp bằng cây
quyết định
4.4.1. Thử nghiệm kết hợp giữa ba mạng cơ sở MLP, TSK và SVM
Khi sử dụng ba mô hình nhận dạng cơ sở là MLP, TSK và
SVM thì ta có hệ thống kết hợp thu được kết quả trong bảng 4.18
sau đây.
Bảng 4.18: Ma trận phân bố kết quả nhận dạng 7 loại mẫu nhịp
bằng mô hình kết hợp MLP, TSK, SVM
Mẫu
Kết quả N L R A V I E
N 928 1 1 10 0 0 0
L 1 557 0 2 3 1 0
R 1 0 481 1 0 2 0
A 5 0 3 383 1 0 0
V 0 2 0 1 446 0 0
I 0 0 0 1 1 198 0
E 0 1 0 0 0 0 37
Tổng sai số 7 4 4 15 5 3 0
- 17 -
Bảng 4.19: Các thông số đánh giá chất lượng của 3 mô hình cơ sở và
mô hình kết hợp MLP-TSK-SVM khi nhận dạng 7 loại nhịp
Loại mô hình Sai số
Sai số
(%) FN TN FP TP
Sens
(%)
Spec
(%)
MLP 110 3,59 18 905 30 2115 99,16 96,79
TSK 100 3,26 23 920 15 2110 98,92 98,40
SVM 60 1,96 15 919 16 2118 99,30 98,29
MLP-TSK-SVM 38 1,24 12 928 7 2121 99,44 99,25
Nhận xét kết quả
Trong bảng 4.18 là ma trận phân bố kết quả của mô hình
kết hợp (MLP-TSK-SVM), ta thấy hầu hết các trường hợp
nhận nhầm là giữa loại A và N (số lần nhận nhầm A thành
N là 10), nguyên nhân là do hình dạng của nhịp loại A và N
khá giống nhau, còn các lỗi nhầm lẫn khác là không đáng
kế (≤ 3 lỗi);
Trong bảng 4.19 là tổng hợp các thông số chất lượng của
các mô hình nhận dạng đơn và mô hình kết hợp. Ta thấy,
trong ba mô hình nhận dạng cơ sở thì SVM có chất lượng
cao nhất, nhưng kết quả nhận dạng tiếp tục được cải thiện
khi sử dụng của mô hình kết hợp MLP-TSK-SVM bằng cây
quyết định DT, nếu so sánh với mô hình cơ sở tốt nhất là
SVM thì tất cả các tiêu chí đánh giá chất lượng đều có kết
quả tốt hơn, cụ thể:
- Sai số kiểm tra đã giảm 22 mẫu (từ 60 mẫu xuống còn
38 mẫu);
- Số trường hợp chẩn đoán âm tính sai FN đã giảm 3 mẫu
(từ 15 mẫu xuống 12 mẫu);
- Số trường hợp chẩn đoán dương tính sai FP đã giảm 9
mẫu (từ 16 mẫu xuống 7 mẫu);
- Tỷ lệ chẩn đoán dương tính đúng Sensitivity đã được
cải thiện thêm khoảng 0,14%;
- Tỷ lệ chẩn đoán âm tính tính đúng Specificity đã được
cải thiện thêm khoảng 0,96%;
- 18 -
Tiếp tục so sánh với các giải pháp kết hợp kết quả phổ biến
khác như: Majority voting (biểu quyết theo đa số), weighted
voting (bỏ phiếu có trọng số), Kullback–Leibler (theo xác suất
thông kê), và modified Bayes (theo xác suất điều kiện Bayes), các
kết quả này lấy trong nghiên cứu của Osowski và cộng sự [78], từ
kết quả trong bảng 4.7 ta rút ra một số nhận xét sau:
Tất cả các hệ thống nhận dạng sử dụng mô hình kết hợp
đều có kết quả nhận dạng tốt hơn so với các hệ thống nhận
dạng sử dụng một mô hình nhận dạng, trường hợp kết quả
kém nhất là 1,63% - trường hợp biểu quyết theo đa số
(majority voting), nhưng vẫn cao hơn so với mô hình nhận
dạng đơn tốt nhất là SVM (1,96% trong bảng 4.6);
Mô hình kết hợp dùng cây quyết định DT có kết quả nhận
dạng tốt nhất với tỷ lệ nhận dạng sai là 1,24%.
Bảng 4.20: Bảng kết quả của các mô hình kết hợp kết quả của ba
mô hình nhận dạng đơn MLP-TSK-SVM
Phương pháp tổng hợp Sai số % Sai số
Majority voting 50 1,63
Weighted voting 42 1,37
Kullback–Leibler 45 1,47
Modified Bayes 48 1,56
Decision tree 38 1,24
Kết luận:
Qua các kết quả thử nghiệm trên bộ cơ sở dữ liệu MIT-BIH
(là được các nhóm nghiên cứu quốc tế thường dùng để
tham chiếu), nghiên cứu sinh đã minh chứng được giải
pháp kết hợp song song ba mô hình nhận dạng cơ sở (MLP,
TSK, SVM) bằng cây quyết định DT đã tiếp tục nâng cao
chất lượng kết quả nhận dạng tín hiệu điện tim ECG;
Kết quả này đã được báo cáo trên tạp chí AMCS
(International Journal of Applied Mathematics and
Computer Science) (ISI/SCIE).
- 19 -
4.4.2. Các thử nghiệm kết hợp khác
Ngoài các kết quả đã trình bày ở mục trên (4.4.1), luận án còn
tiến hành thêm có một số thử nghiệm sau:
Luận án khảo sát thêm mô hình nhận dạng cơ sở thứ 4 là
rừng ngẫu nhiên RF, để có thêm nhiều trường hợp thử
nghiệm khác như, ví dụ ta sẽ tạo ra các trường hợp kết hợp
như: (1) MLP-TSK-SVM, (2) MLP-TSK-RF, (3) MLP-RF-
SVM, (4) RF-TSK-SVM, (5) MLP-TSK-SVM-RF;
Thử nghiệm kết quả thêm với bộ cơ sở dữ liệu MGH/MF;
Thử nghiệm kết quả khi nhận dạng hai loại nhịp (bình
thường và bất thường);
Cụ thể sẽ tiến hành thêm bốn thử nghiệm:
Thử nghiệm 1: Trên bộ cơ sở dữ liệu MIT-BIH (cụ thể trong
bảng 4.1), có kết quả như trong bảng 4.21, để thuận tiện cho việc
so sánh các thông số giữa các mô hình nhận dạng cơ sở và các mô
hình kết hợp, nghiên cứu sinh đưa lại kết quả của các mô hình
nhận dạng cơ sở.
Bảng 4.21: Kết quả nhận dạng 7 loại nhịp (CSDL MIT-BIH) bằng
các mô hình đơn và các mô hình kết hợp
Loại mô hình Sai số
Sai số
(%)
FN TN FP TP
Sens
(%)
Spec
(%)
MLP 110 3,59 18 905 30 2115 99,16 96,79
TSK 100 3,26 23 920 15 2110 98,92 98,40
SVM 60 1,96 15 919 16 2118 99,30 98,29
RF 70 2,28 20 914 21 2113 99,06 97,75
MLP-TSK-SVM 38 1,24 12 928 7 2121 99,44 99,25
MLP-TSK-RF 43 1,40 16 927 8 2117 99,25 99,14
MLP-RF-SVM 40 1,30 13 923 12 2120 99,39 98,72
RF-TSK-SVM 39 1,27 10 920 15 2123 99,53 98,40
MLP-TSK-SVM-RF 37 1,21 4 916 19 2129 99,81 97,97
- 20 -
Thử nghiệm 2: Trên bộ cơ sở dữ liệu MIT-BIH (cụ thể trong
bảng 4.2), nhận dạng hai loại nhịp (bình thường và bất thường).
Bảng 4.22: Kết quả nhận dạng 2 loại nhịp (CSDL MIT-BIH) bằng
các mô hình đơn và các mô hình kết hợp
Loại mô hình Sai
số
Sai số
(%)
FN TN FP TP
Sens
(%)
Spec
(%)
MLP 39 1,27 14 910 25 2119 99,34 97,33
TSK 41 1,34 17 911 24 2116 99,20 97,43
SVM 26 0,85 8 917 18 2125 99,62 98,07
RF 37 1,21 13 911 24 2120 99,39 97,43
MLP-TSK-SVM 21 0,68 6 920 15 2127 99,72 98,40
MLP-TSK-RF 22 0,72 8 921 14 2125 99,62 98,50
MLP-RF-SVM 23 0,75 9 921 14 2124 99,58 98,50
RF-TSK-SVM 16 0,52 5 924 11 2128 99,77 98,82
MLP-TSK-SVM-RF 15 0,49 7 927 8 2126 99,67 99,14
Thử nghiệm 3: Trên bộ cơ sở dữ liệu MGH/MF (cụ thể trong
bảng 4.3), nhận dạng ba loại nhịp N, S, V.
Bảng 4.23: Kết quả nhận dạng 3 loại nhịp (CSDL MGH/MF) bằng
các mô hình đơn và các mô hình kết hợp
Loại mô hình Sai số
Sai số
(%)
FN TN FP TP
Sens
(%)
Spec
(%)
MLP 66 4,40 26 979 24 471 94,77 97,61
TSK 73 4,87 44 983 20 453 91,15 98,01
SVM 32 2,13 6 991 12 491 98,79 98,80
RF 96 6,40 70 982 21 427 85,92 97,91
MLP-TSK-SVM 25 1,67 3 994 9 494 99,40 99,10
MLP-TSK-RF 30 2,00 10 992 11 487 97,99 98,90
MLP-RF-SVM 25 1,67 6 996 7 491 98,79 99,30
RF-TSK-SVM 25 1,67 5 994 9 492 98,99 99,10
MLP-TSK-SVM-RF 21 1,40 5 996 7 492 98,99 99,30
- 21 -
Thử nghiệm 4: Trên bộ cơ sở dữ liệu MGH/MF (cụ thể trong
bảng 4.4), nhận dạng hai loại nhịp (bình thường và bất thường).
Bảng 4.24: Kết quả nhận dạng 2 loại nhịp (CSDL MGH/MF)
Loại mô hình Sai số
Sai số
(%)
FN TN FP TP
Sens
(%)
Spec
(%)
MLP 37 2,47 22 988 15 475 95,57 98,50
TSK 62 4,13 37 978 25 460 92,56 97,51
SVM 20 1,33 6 989 14 491 98,79 98,60
RF 78 5,20 54 979
Các file đính kèm theo tài liệu này:
- tom_tat_luan_an_xay_dung_mo_hinh_nhan_dang_ket_hop_nham_nang.pdf