Tóm tắt Luận án Xây dựng mô hình nhận dạng kết hợp nhằm nâng cao độ chính xác phân loại tín hiệu điện tim loạn nhịp

 FN (False Negative): Số trường hợp chẩn đoán âm tính sai, (là

khi bệnh nhân ốm nhưng chẩn đoán là bình thường);

 TN (True Negative): Số trường hợp chẩn đoán âm tính đúng;

 FP (False Positive): Số trường hợp chẩn đoán dương tính sai,

tức là trường hợp người bình thường nhưng chẩn đoán có bệnh;

 TP (True Positive): Số trường hợp chẩn đoán dương tính đúng;

 Sensitivity: Tỷ lệ chẩn đoán dương tính đúng,

 Specificity: Tỷ lệ chẩn đoán âm tính đúng,

Mô hình nhận dạng có chất lượng và độ tin cậy cao khi số mẫu

nhận dạng sai, số chẩn đoán dương tính sai FP, số chẩn đoán âm

tính sai FN thấp, và tỷ lệ chẩn đoán dương tính đúng Sensitivity,

tỷ lệ chẩn đoán âm tính đúng Specificity càng cao.

27 trang | Chia sẻ: honganh20 | Lượt xem: 498 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Xây dựng mô hình nhận dạng kết hợp nhằm nâng cao độ chính xác phân loại tín hiệu điện tim loạn nhịp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

của luận án, tóm tắt về nội dung nghiên cứu, những đóng góp và bố cục của luận án. Chương I: Trình bày tổng quan về tín hiệu điện tim ECG, một số yếu tố ảnh hưởng đến tín hiệu ECG, tham khảo các công trình nghiên cứu và các phương pháp nâng cao chất lượng nhận dạng tín hiệu điện tim ECG, chương này còn đề xuất các định hướng nghiên cứu của luận án và trình bày khái quát các bộ cơ sở dữ liệu được sử dụng trong luận án. Chương II: Chương này sẽ trình bày chi tiết về các khối: Thu thập, tiền xử lý và phương pháp trích chọn đặc tính. Chương III: Đây là nội dung nghiên cứu chính của luận án, phần đầu trình bày về giải pháp sử dụng cây quyết định để kết hợp kết quả của các hệ thống nhận dạng đơn. Tiếp theo, trình bày về các mô hình nhận dạng đơn đó là mạng nơ-rôn truyền thẳng nhiều lớp MLP, mạng nơ-rôn logic mờ TSK, máy véc-tơ hỗ trợ SVM và rừng ngẫu nhiên RF. Cuối cùng, đề xuất phương án thiết kế phần cứng cho thiết bị đo tín hiệu điện tim. - 5 - Chương IV: Chương này trình bày về phương pháp tạo bộ dữ liệu học và kiểm tra từ bộ hai cơ sở dữ liệu MIT-BIH và MGH/MF. Kết quả xây dựng mô hình nhận dạng tín hiệu ECG, các kết quả thử nghiệm, đánh giải pháp đề xuất của luận án. Phần cuối cùng, là kết luận và hướng phát triển, danh mục các tài liệu tham khảo, các công trình đã công bố của luận án. CHƯƠNG I: TỔNG QUAN CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG ECG 1.1. Tổng quan về tín hiệu điện tim ECG Mục này giới thiệu tổng quan về tín hiệu điện tim ECG, một số yếu tố ảnh hưởng đến tín hiệu điện tim. 1.2. Tình hình nghiên cứu và phương pháp nâng cao chất lượngnhận dạng tín hiệu điện tim ECG 1.2.1. Tình hình nghiên cứu Mục này giới thiệu tóm tắt một số công trình nghiên cứu về tín hiệu điện tim trong những năm vừa qua. 1.2.2. Một số giải pháp nâng cao chất lượng nhận dạng Giới thiệu một số giải pháp nâng cao chất lượng nhận dạng tín hiệu điện tim, cụ thể:  Khối tiền xử lý: Một số thuật toán lọc nhiễu cho tín hiệu đo được đề xuất sử dụng kết hợp làm tăng độ chính xác của kết quả nhận dạng, như nghiên cứu gần đây trong luận án của TS. Nguyễn Đức Thảo (năm 2016 [4]) sử dụng wavelet để loại bỏ ảnh hưởng của nhịp thở của bệnh nhân đã giảm sai số xuống 11,43% khi thử nghiệm nhận dạng 7 loại bệnh tim trong bộ cơ sở dữ liệu MIT-BIH và giảm sai số xuống 11,29% khi thử nghiệm nhận dạng 3 loại bệnh tim trong bộ cơ sở dữ liệu MGH/MF.  Khối trích chọn đặc tính: Là khối cũng ảnh hưởng lớn đến kết quả nhận dạng, như đã trình bày ở trên thì có nhiều phương pháp trích chọn đặc tính, trong đó phương pháp - 6 - được nhiều nghiên cứu áp dụng là sử dụng các hệ số khai triển phức bộ QRS bằng wavelet hay bằng các hàm Hermite cơ sở để tạo các véc-tơ đặc tính.  Hệ thống nhận dạng tín hiệu điện tim: Độ chính xác của kết quả nhận dạng phụ thuộc lớn vào khối nhận dạng phi tuyến. Đã có nhiều nghiên cứu áp dụng các loại mô hình nhận dạng phi tuyến để cải thiện chất lượng nhận dạng tín hiệu điện tim, từ các mô hình nhận dạng kinh điển như nơ- rôn MLP (Multi Layer Perceptron), mạng logic mờ TSK (Takaga-Sugeno-Kang), cho đến đến các công cụ mới như máy véc-tơ hỗ trợ SVM (Support Vector Machines) và rừng ngẫu nhiên RF (Random Forest), Deep Learning... cũng đã được sử dụng, thông thường những mô hình nhận dạng phí tuyến mới có chất lượng nhận dạng tốt hơn so với các mô hình cũ, ví dụ [78] các hệ thống nhận dạng 7 loại nhịp tim sử dụng các hàm cơ sở Hermite để trích chọn đặc tính, các kết quả thử nghiệm với mô hình TSK, SVM trên bộ cơ sở dữ liệu MIT-BIH, kết quả sai số nhận dạng được giảm từ 3,26% khi dùng mạng TSK xuống 1,96 % khi dùng SVM. 1.2.3. Nâng cao độ chính xác bằng mô hình kết hợp Do kết quả chẩn đoán các bệnh về tim mạch ảnh hưởng trực tiếp đến sức khỏe bệnh nhân, nên các hệ thống nhận dạng tự động tín hiệu điện tim có yêu cầu về độ chính xác, ổn định, tin cậy ngày càng cao. Khi nhận dạng và kiểm tra một đối tượng đầu vào thì mỗi một giải pháp sẽ có thuật toán xử lý riêng để đưa ra các kết quả nhận dạng riêng. Các giải pháp khác nhau có thể đưa ra các kết quả khác nhau (nếu nhiều mô hình đều đưa ra một kết quả thống nhất thì kết quả này thường có độ tin cậy khá cao). Do đối với các bài toán thực tế, ta thường không có giải pháp nhận dạng có độ chính xác tuyệt đối, nên bất cứ giải pháp đơn lẻ nào đều có xác suất gây lỗi (mỗi giải pháp sẽ bị lỗi nhận dạng sai với một nhóm mẫu khác nhau). Từ nguyên nhân chính này mà có nhiều tác giả đã đề xuất ra giải pháp “mô hình kết hợp” tức là sử dụng đồng thời nhiều mô hình nhận dạng đơn và đưa thêm một khâu xử lý nữa, nhiệm vụ của khâu xử lý thêm này là kết hợp các kết quả của - 7 - các mô hình nhận dạng đơn để đưa ra một kết luận cuối cùng. Một số ưu điểm của “mô hình kết hợp”:  Mỗi “mô hình đơn” được coi như một chuyên gia độc lập, việc kết hợp nhiều chuyên gia sẽ cho kết quả đáng tin cậy hơn, cũng như tận dụng được ưu điểm của từng mô hình đơn;  Sử dụng các đánh giá từ nhiều góc độ, từ nhiều phương pháp khác nhau nên thông tin có thể phong phú hơn dẫn tới chất lượng quyết định sẽ cao hơn. Ý tưởng của mô hình kết hợp đã được áp dụng ở trong các lĩnh vực khác như: [68] Cho nhận dạng hình ảnh, [17] sinh trắc học như nhận dạng khuôn mặt, [89] áp dụng cho hệ thống đo nồng độ khí đa năng,... Tuy nhiên, phương pháp kết hợp có nhược điểm chính là làm hệ thống nhận cồng kềnh và phức tạp hơn, chỉ nên áp dụng đối với các bài toán nhận dạng phức tạp, yêu cầu độ chính xác cao. Trên hình 1.4 là sơ đồ khối tổng quát của hệ thống nhận dạng tín hiệu điện tim sử dụng mô hình kết hợp, trong đó có M mô hình nhận dạng đơn, kết quả của các mô hình nhận dạng đơn là yi, z là kết luận cuối cùng sau khối kết hợp kết quả. Hình 1.4: Sơ đồ chung của mô hình kết hợp Trong nghiên cứu [22] tác giả sử dụng mô hình kết hợp các ba mô hình nhận dạng SVM đơn để nhận dạng sáu loại nhịp tim làm độ chính xác tăng khoảng 0,2%, trong nghiên cứu [31] tác giả kết hợp 15 mô hình nhận dạng SVM đơn có độ chính xác trong dải 98% ÷ 98,77%, kết quả của mô hình kết hợp có độ chính xác 98,65 % tuy thấp hơn so với kết quả cao nhất của mô hình SVM đơn là 98,77 nhưng lại có độ ổn định cao hơn, hay trong [12] tác - 8 - giả đã sử dụng mạng nơ-rôn MLP làm mô hình nhận dạng thành phần, thử nghiệm trên bộ cơ sở dữ liệu MIT-BIH có độ chính xác tăng thêm khoảng 1,5%. Xu hướng hiện nay là dùng các mô hình nhận dạng đơn lẻ sử dụng các thuật toán khác nhau là phổ biến hơn so với việc sử dụng cùng loại như ở các ví dụ trên. Xu hướng này khá hợp lý bởi vì nó sẽ nâng cao ưu điểm của từng mô hình nhận dạng đơn lẻ. Như trong nghiên cứu [25] tác giả đã sử dụng hai thuật toán phân loại khác nhau là SVM và PSO (Particles Swarm Optimization) gọi là hệ thống nhận dạng PSO-SVM, kết quả thử nghiệm trên bộ cơ sở dữ liệu MIT-BIH có độ chính xác tăng khoảng 4%, trong [23] tác giả kết hợp mạng logic mờ Fuzzy KNN (Fuzzy K Nearest Neighbors) và mạng MLP cho kết quả có độ chính xác được cải thiện từ 97.3% lên 98%. Một số giải pháp phối hợp kết quả thông dụng đã được đề xuất như: Biểu quyết theo đa số [22, 31], biểu quyết có trọng số [78, 103], tổng hợp theo xác suất điều kiện Bayes [78] Các giải pháp kết hợp này khá đơn giản, điều này cũng dễ hiểu do mô hình kết hợp khá phức tạp vì dùng nhiều mô hình nhận dạng đơn, khối lượng tính toán lớn nên ở khâu kết hợp các tác giả thường lựa chọn các giải pháp đơn giản, hay dùng nhất là giải pháp biểu quyết theo đa số. Về số lượng mô hình đơn, thực tế ít sử dụng kết hợp hai mô hình đơn vì khi xảy ra mẫu thuẫn trong kết quả từ hai hệ đơn ta không có cơ sở chắc chắn để kết luận hệ đơn nào đúng, hệ đơn nào sai. Vì thế, đa số các mô hình kết hợp đều sử dụng số lượng mô hình cơ sở từ ba hệ thành phần trở lên (nhiều công trình khuyến cáo sử dụng số mô hình đơn là số lẻ để có thể đưa ra kết luận cuối cùng, nhất là trong trường hợp biểu quyết theo đa số). 1.3. Định hướng nghiên cứu của luận án Từ các phân tích ở trên, nghiên cứu sinh định hướng sử dụng mô hình kết hợp để cải thiện chất lượng nhận dạng tín hiệu điện tim ECG. Các giải pháp đơn sẽ là các giải pháp có chất lượng cao đã được sử dụng trong các nghiên cứu trước đây, hình 1.5 là sơ đồ khối của mô hình đề xuất của luận án, trong đó Ci là các mô hình - 9 - nhận dạng cơ sơ (với i=1, 2,, M), tương ứng với các kết quả nhận dạng yi. Hình 1.5: Hệ thống nhận dạng tín hiệu ECG đề xuất của luận án Ý tưởng và giải pháp đề xuất cụ thể:  Áp dụng cây quyết định DT (Decision Tree) để tổng hợp kết quả từ các kết quả đầu ra của các mô hình nhận dạng cơ sở;  Các mô hình nhận dạng đơn sử dụng chung các khối thu thập tín hiệu, tiền xử lý và trích chọn đặc tính;  Sử dụng bốn mô hình nhận dạng: Mạng nơ-rôn MLP (Multi- Layer Perceptron), mạng logic mờ TSK (Takagi–Sugeno– Kang), máy véc-tơ hỗ trợ SVM (Support Vector Machines) và rừng ngẫu nhiên RF (Random Forest) để xây dựng thành các mô hình nhận dạng cơ sở;  Lựa chọn các đặc tính của tín hiệu điện tim: - Sử dụng các hàm cơ sở Hermite (Hermite Basis Functions) để khai triển các phức bộ QRS nhằm lấy các hệ số khai triển này làm đặc tính; - Sử dụng thêm hai đặc tính về thời gian: Khoảng cách giữa hai đỉnh R liên tiếp (R-R), giá trị trung bình của mười khoảng cách R-R cuối cùng.  Thử nghiệm mô hình nhận dạng trên các bộ cơ sở dữ liệu mẫu MIT-BIH và MGH/MF có thể tải về từ trang web  Thiết kế, chế tạo thiết bị đo điện tim cầm tay, sử dụng công nghệ ARM đời mới để chạy thử nghiệm chương trình nhận - 10 - dạng, kiểm tra khả năng đáp ứng được về mặt tốc độ tính toán theo thời gian thực. 1.4. Cơ sở dữ liệu sử dụng trong luận án Để kiểm chứng chất lượng của các giải pháp trong luận án, NCS sử dụng CSDL chuẩn MIT-BIH (Massachusetts Institute of Technology, Boston’s Beth Israel Hospital) và MGH/MF, cả hai bộ cơ sở dữ liệu điện tim này đều có thể tải về từ trang web CHƯƠNG II: THU THẬP, TIỀN XỬ LÝ VÀ TRÍCH CHỌN ĐẶC TÍNH TÍN HIỆU ECG 2.1. Thu thập và tiền xử lý tín hiệu điện tim Nhiệm vụ của khối này là chuẩn hóa tín hiệu điện áp tương tự thu được từ các điện cực ECG về dải biến thiên trong khoảng 0÷5V hoặc trong khoảng 0÷3,3V, tín hiệu từ các điện cực ECG thường được xử lý tuần tự qua các khâu: Tiền khuếch đại, khuếch đại. Nhiệm vụ thứ 2 là loại bỏ các nhiễu nằm ngoài dải tần số điện tim quan tâm là 0,1÷100Hz, bằng các bộ lọc thông thấp có tần số cắt 100Hz và bộ lọc thông cao có tần số cắt 0,1Hz. Loại bỏ các nhiễu do điện lưới gây ra bằng bộ lọc Notch 50Hz (bộ lọc triệt tần 50Hz). 2.2. Trích chọn đặc tính để nhận dạng Trích chọn đặc tính của luận án thể hiện trong hình 2.4 sau đây: inx 18x  Hình 2.4: Sơ đồ quy trình xây dựng véc tơ đặc tính cho tín hiệu điện tim Phức bộ QRS trong tín hiệu điện tim ECG tuy không chứa toàn bộ các thông tin để đánh giá tín hiệu điện tim, nhưng cũng chứa đựng khá nhiều các thông tin hữu ích và được nhiều tác giả trong nước và quốc tế sử dụng. Do đó, như đã trình bày ở trên, luận án - 11 - sử dụng số liệu phân tích từ phức bộ QRS và hai giá trị thời gian là khoảng cách R-R, trung bình 10 khoảng cách R-R cuối cùng để làm cơ sở nhận dạng. Theo khảo sát, phức bộ QRS kéo dài khoảng 100ms, tuy nhiên trong trường hợp bệnh lý phức bộ này có thể kéo dài gấp vài lần. Vì vậy, NCS lựa chọn độ dài 250ms xung quanh đỉnh R là đủ rộng để chứa toàn bộ đoạn QRS, nếu tần số lấy mẫu tín hiệu điện tim là 360Hz thì 250ms tương ứng với khoảng 91 giá trị xung quanh đỉnh R (ta lấy 45 giá trị liền trước đỉnh và 45 giá trị từ đỉnh về phía sau). Để phát hiện đỉnh R trong các giải pháp cho thiết bị cầm tay, trong luận án áp dụng thuật toán đã được Pan và Tompkins đưa ra vào năm 1985 [36] và được phát triển tiếp vào năm 1986 [62]. Véc-tơ đặc tính   180 15, , , ,last meanc c RR RR x   của mỗi nhịp (phức bộ QRS) gồm 18 thành phần:  16 hệ số khai triển ic  0 15i   của tín hiệu điện tim ECG theo các hàm Hermite;  2 đặc tính trong miền thời gian của tín hiệu điện tim, là lastRR  khoảng cách giữa hai đỉnh R liên tiếp (còn gọi là khoảng cách R-R), và meanRR  giá trị trung bình của 10 khoảng cách R-R cuối cùng. CHƯƠNG III. GIẢI PHÁP KẾT HỢP CÁC MÔ HÌNH NHẬN DẠNG ĐỂ CẢI THIỆN CHẤT LƯỢNG 3.1. Kết hợp kết quả bằng mô hình cây quyết định 3.1.1. Mô hình chung để kết hợp nhiều giải pháp nhận dạng Hình 3.1 biểu diễn sơ đồ chung của mô hình kết hợp sử dụng nhiều mô hình nhận dạng đơn, trong đó, M  số mô hình nhận dạng đơn, in x tín hiệu điện tim ECG đầu vào, i P là các khối tiền xử lý và trích chọn đặc tính, i C các khối phân loại, z kết quả nhận dạng cuối cùng tương ứng với tín hiệu điện tim đầu vào inx . - 12 - Hình 3.1: Sơ đồ chung của mô hình kết hợp sử dụng nhiều mô hình nhận dạng đơn Nhìn chung, các mô hình nhận dạng cơ sở làm việc độc lập với tín hiệu điện tim đầu vào inx có thể từ các chuyển đạo khác nhau, các khối tiền xử lý và trích chọn đặc tính Pi dùng các phương pháp khác nhau. Như đã trình bày ở phần mở đầu, định hướng nghiên cứu của luận án là sử dụng chung một phương pháp tiền xử lý và trích chọn đặc tính  1 2 M  P P P cho các mô hình nhận dạng đơn Ci (như đã miêu tả trên hình 1.5). Nếu bài toán nhận dạng N loại nhịp tim khác nhau, thì mỗi mô hình nhận dạng đơn iC (với i=1, 2,, M) sẽ có M kết quả iy (với i=1, 2,, M) biểu diễn dưới dạng véc-tơ, một véc-tơ yi lý tưởng khi có một giá trị bằng ‘1’ và tất cả các giá trị còn lại đều bằng ‘0’, nhưng thông thường các giá trị của chúng thường dao động trong khoảng [0, 1]. Trong luận án, các kết quả đầu ra iy từ các mô hình nhận dạng cơ sở được hợp lại thành một véc-tơ tổng Y (có kích thước M K ) và được tiếp tục xử lý tại khối tổng hợp kết quả để đưa ra kết luận cuối cùng là véc-tơ z (có kích thước K) tương ứng với mã của K loại nhịp tim khác nhau. - 13 -  1 11 12 1... Ky y yy  1 2...M M M MKy y yy 2 21 22 2... Ky y yy    1 2 11 12 1 21 22 2 1 2M K K M M MKy y y y y y y y y y y yY      M KY    180 15, , , ,last meanc c RR RR x   Hình 3.2: Sơ đồ khối chung của hệ thống kết hợp song song nhiều mô hình đơn 3.1.2. Quy trình xây dựng cây quyết định DT cho khối tổng hợp kết quả 3.1.3. Cây quyết định Cây quyết định là một mô hình xử lý tín hiệu kinh điển đã được sử dụng rất rộng rãi trong nhiều ứng dụng thực tế. Cây là một đồ thị không có chu trình. Đồ thị G được định nghĩa chung bởi hai tập hợp G=(V,E), trong đó V là tập hợp các nút (vertex) còn E là tập hợp các cạnh (edge) nối hai nút của tập V. Đối với các cây, ta sử dụng trường hợp cạnh có hướng. Khi đó nếu đồ thị G không có chu trình kín thì được gọi là cây. Với mỗi cây ta có [2]:  Tồn tại một nút được gọi là nút gốc; - 14 -  Các nút được nối với nhau bởi các nhánh có hướng còn gọi là cành. Với mỗi cành, nút gốc được gọi nút cha/mẹ, nút ngọn là nút con;  Mỗi nút trong cây có thể có từ một đến nhiều nút con. Các nút không có nút con còn được gọi là (nút) lá/ngọn của cây. 3.2. Các mô hình nhận dạng đơn Nội dung chính của mục này là giới thiệu 4 mô hình nhận dạng đơn: MLP, TSK, SVM và RF. 3.3. Đề xuất mô hình thiết bị có tích hợp chức năng nhận dạng CHƯƠNG IV: KẾT QUẢ TÍNH TOÁN VÀ MÔ PHỎNG 4.1 Xây dựng các bộ số liệu mẫu 4.1.1. Cơ sở dữ liệu MIT-BIH Để nhằm mục đích so sánh với các công trình trước đây, luận án sẽ sử dụng cùng bộ mẫu số liệu như trong các nghiên cứu [4, 78], cụ thể là nhận dạng chứng rối loạn nhịp tim xuất phát từ bộ cơ sở là các đoạn QRS của tín hiệu điện tim từ 19 bệnh nhân. Số lượng chi tiết số mẫu sử dụng được thống kê chi tiết trong các bảng 4.1 và bảng 4.2 dưới đây: Bảng 4.1: Bảng phân chia số lượng mẫu học và mẫu kiểm tra của 7 loại rối loạn nhịp tim từ CSDL MIT-BIH Loại nhịp Tổng số mẫu Số mẫu học Số mẫu kiểm tra N 2000 1065 935 L 1200 639 561 R 1000 515 485 A 902 504 398 V 964 549 451 I 472 271 201 E 105 68 37 Tổng 6643 3611 3068 - 15 - Bảng 4.2: Bảng phân chia số lượng mẫu học và mẫu kiểm tra của 2 loại nhịp Loại nhịp Tổng số mẫu Số mẫu học Số mẫu kiểm tra Normal 2000 1065 935 Abnormal 4643 2546 2133 Tổng 6643 3611 3068 4.1.2. Cơ sở dữ liệu MGH/MF Luận án lựa chọn sử dụng các mẫu tín hiệu ECG của 20 bản ghi có mã số là: 029, 030, 058, 105, 106, 107, 108, 110, 111, 114, 117, 119, 121, 123, 124, 125, 128, 131, 137, 142. Số lượng chi tiết số mẫu sử dụng được thống kê chi tiết trong bảng 4.3 và bảng 4.4 dưới đây: Bảng 4.3: Bảng phân chia số lượng mẫu học và mẫu kiểm tra của 3 loại nhịp Loại nhịp Tổng số mẫu Số mẫu học Số mẫu kiểm tra N 3000 1997 1003 S 750 502 248 V 750 501 249 Tổng 4500 3000 1500 Bảng 4.4: Bảng phân chia số lượng mẫu học và mẫu kiểm tra của 2 loại nhịp Loại nhịp Tổng số mẫu Số mẫu học Số mẫu kiểm tra Normal 3000 1997 1003 Abnormal 1500 1003 497 Tổng 4500 3000 1500 4.2. Cách đánh giá chất lượng mô hình nhận dạng Các mô hình nhận dạng (các mô hình đơn và cả mô hình kết hợp) được đánh giá thông qua các chỉ tiêu đánh giá như sau:  Số mẫu nhận dạng sai; - 16 -  FN (False Negative): Số trường hợp chẩn đoán âm tính sai, (là khi bệnh nhân ốm nhưng chẩn đoán là bình thường);  TN (True Negative): Số trường hợp chẩn đoán âm tính đúng;  FP (False Positive): Số trường hợp chẩn đoán dương tính sai, tức là trường hợp người bình thường nhưng chẩn đoán có bệnh;  TP (True Positive): Số trường hợp chẩn đoán dương tính đúng;  Sensitivity: Tỷ lệ chẩn đoán dương tính đúng,  Specificity: Tỷ lệ chẩn đoán âm tính đúng, Mô hình nhận dạng có chất lượng và độ tin cậy cao khi số mẫu nhận dạng sai, số chẩn đoán dương tính sai FP, số chẩn đoán âm tính sai FN thấp, và tỷ lệ chẩn đoán dương tính đúng Sensitivity, tỷ lệ chẩn đoán âm tính đúng Specificity càng cao. 4.4. Kết quả thử nghiệm với các mô hình kết hợp bằng cây quyết định 4.4.1. Thử nghiệm kết hợp giữa ba mạng cơ sở MLP, TSK và SVM Khi sử dụng ba mô hình nhận dạng cơ sở là MLP, TSK và SVM thì ta có hệ thống kết hợp thu được kết quả trong bảng 4.18 sau đây. Bảng 4.18: Ma trận phân bố kết quả nhận dạng 7 loại mẫu nhịp bằng mô hình kết hợp MLP, TSK, SVM Mẫu Kết quả N L R A V I E N 928 1 1 10 0 0 0 L 1 557 0 2 3 1 0 R 1 0 481 1 0 2 0 A 5 0 3 383 1 0 0 V 0 2 0 1 446 0 0 I 0 0 0 1 1 198 0 E 0 1 0 0 0 0 37 Tổng sai số 7 4 4 15 5 3 0 - 17 - Bảng 4.19: Các thông số đánh giá chất lượng của 3 mô hình cơ sở và mô hình kết hợp MLP-TSK-SVM khi nhận dạng 7 loại nhịp Loại mô hình Sai số Sai số (%) FN TN FP TP Sens (%) Spec (%) MLP 110 3,59 18 905 30 2115 99,16 96,79 TSK 100 3,26 23 920 15 2110 98,92 98,40 SVM 60 1,96 15 919 16 2118 99,30 98,29 MLP-TSK-SVM 38 1,24 12 928 7 2121 99,44 99,25 Nhận xét kết quả  Trong bảng 4.18 là ma trận phân bố kết quả của mô hình kết hợp (MLP-TSK-SVM), ta thấy hầu hết các trường hợp nhận nhầm là giữa loại A và N (số lần nhận nhầm A thành N là 10), nguyên nhân là do hình dạng của nhịp loại A và N khá giống nhau, còn các lỗi nhầm lẫn khác là không đáng kế (≤ 3 lỗi);  Trong bảng 4.19 là tổng hợp các thông số chất lượng của các mô hình nhận dạng đơn và mô hình kết hợp. Ta thấy, trong ba mô hình nhận dạng cơ sở thì SVM có chất lượng cao nhất, nhưng kết quả nhận dạng tiếp tục được cải thiện khi sử dụng của mô hình kết hợp MLP-TSK-SVM bằng cây quyết định DT, nếu so sánh với mô hình cơ sở tốt nhất là SVM thì tất cả các tiêu chí đánh giá chất lượng đều có kết quả tốt hơn, cụ thể: - Sai số kiểm tra đã giảm 22 mẫu (từ 60 mẫu xuống còn 38 mẫu); - Số trường hợp chẩn đoán âm tính sai FN đã giảm 3 mẫu (từ 15 mẫu xuống 12 mẫu); - Số trường hợp chẩn đoán dương tính sai FP đã giảm 9 mẫu (từ 16 mẫu xuống 7 mẫu); - Tỷ lệ chẩn đoán dương tính đúng Sensitivity đã được cải thiện thêm khoảng 0,14%; - Tỷ lệ chẩn đoán âm tính tính đúng Specificity đã được cải thiện thêm khoảng 0,96%; - 18 - Tiếp tục so sánh với các giải pháp kết hợp kết quả phổ biến khác như: Majority voting (biểu quyết theo đa số), weighted voting (bỏ phiếu có trọng số), Kullback–Leibler (theo xác suất thông kê), và modiﬁed Bayes (theo xác suất điều kiện Bayes), các kết quả này lấy trong nghiên cứu của Osowski và cộng sự [78], từ kết quả trong bảng 4.7 ta rút ra một số nhận xét sau:  Tất cả các hệ thống nhận dạng sử dụng mô hình kết hợp đều có kết quả nhận dạng tốt hơn so với các hệ thống nhận dạng sử dụng một mô hình nhận dạng, trường hợp kết quả kém nhất là 1,63% - trường hợp biểu quyết theo đa số (majority voting), nhưng vẫn cao hơn so với mô hình nhận dạng đơn tốt nhất là SVM (1,96% trong bảng 4.6);  Mô hình kết hợp dùng cây quyết định DT có kết quả nhận dạng tốt nhất với tỷ lệ nhận dạng sai là 1,24%. Bảng 4.20: Bảng kết quả của các mô hình kết hợp kết quả của ba mô hình nhận dạng đơn MLP-TSK-SVM Phương pháp tổng hợp Sai số % Sai số Majority voting 50 1,63 Weighted voting 42 1,37 Kullback–Leibler 45 1,47 Modiﬁed Bayes 48 1,56 Decision tree 38 1,24 Kết luận:  Qua các kết quả thử nghiệm trên bộ cơ sở dữ liệu MIT-BIH (là được các nhóm nghiên cứu quốc tế thường dùng để tham chiếu), nghiên cứu sinh đã minh chứng được giải pháp kết hợp song song ba mô hình nhận dạng cơ sở (MLP, TSK, SVM) bằng cây quyết định DT đã tiếp tục nâng cao chất lượng kết quả nhận dạng tín hiệu điện tim ECG;  Kết quả này đã được báo cáo trên tạp chí AMCS (International Journal of Applied Mathematics and Computer Science) (ISI/SCIE). - 19 - 4.4.2. Các thử nghiệm kết hợp khác Ngoài các kết quả đã trình bày ở mục trên (4.4.1), luận án còn tiến hành thêm có một số thử nghiệm sau:  Luận án khảo sát thêm mô hình nhận dạng cơ sở thứ 4 là rừng ngẫu nhiên RF, để có thêm nhiều trường hợp thử nghiệm khác như, ví dụ ta sẽ tạo ra các trường hợp kết hợp như: (1) MLP-TSK-SVM, (2) MLP-TSK-RF, (3) MLP-RF- SVM, (4) RF-TSK-SVM, (5) MLP-TSK-SVM-RF;  Thử nghiệm kết quả thêm với bộ cơ sở dữ liệu MGH/MF;  Thử nghiệm kết quả khi nhận dạng hai loại nhịp (bình thường và bất thường); Cụ thể sẽ tiến hành thêm bốn thử nghiệm: Thử nghiệm 1: Trên bộ cơ sở dữ liệu MIT-BIH (cụ thể trong bảng 4.1), có kết quả như trong bảng 4.21, để thuận tiện cho việc so sánh các thông số giữa các mô hình nhận dạng cơ sở và các mô hình kết hợp, nghiên cứu sinh đưa lại kết quả của các mô hình nhận dạng cơ sở. Bảng 4.21: Kết quả nhận dạng 7 loại nhịp (CSDL MIT-BIH) bằng các mô hình đơn và các mô hình kết hợp Loại mô hình Sai số Sai số (%) FN TN FP TP Sens (%) Spec (%) MLP 110 3,59 18 905 30 2115 99,16 96,79 TSK 100 3,26 23 920 15 2110 98,92 98,40 SVM 60 1,96 15 919 16 2118 99,30 98,29 RF 70 2,28 20 914 21 2113 99,06 97,75 MLP-TSK-SVM 38 1,24 12 928 7 2121 99,44 99,25 MLP-TSK-RF 43 1,40 16 927 8 2117 99,25 99,14 MLP-RF-SVM 40 1,30 13 923 12 2120 99,39 98,72 RF-TSK-SVM 39 1,27 10 920 15 2123 99,53 98,40 MLP-TSK-SVM-RF 37 1,21 4 916 19 2129 99,81 97,97 - 20 - Thử nghiệm 2: Trên bộ cơ sở dữ liệu MIT-BIH (cụ thể trong bảng 4.2), nhận dạng hai loại nhịp (bình thường và bất thường). Bảng 4.22: Kết quả nhận dạng 2 loại nhịp (CSDL MIT-BIH) bằng các mô hình đơn và các mô hình kết hợp Loại mô hình Sai số Sai số (%) FN TN FP TP Sens (%) Spec (%) MLP 39 1,27 14 910 25 2119 99,34 97,33 TSK 41 1,34 17 911 24 2116 99,20 97,43 SVM 26 0,85 8 917 18 2125 99,62 98,07 RF 37 1,21 13 911 24 2120 99,39 97,43 MLP-TSK-SVM 21 0,68 6 920 15 2127 99,72 98,40 MLP-TSK-RF 22 0,72 8 921 14 2125 99,62 98,50 MLP-RF-SVM 23 0,75 9 921 14 2124 99,58 98,50 RF-TSK-SVM 16 0,52 5 924 11 2128 99,77 98,82 MLP-TSK-SVM-RF 15 0,49 7 927 8 2126 99,67 99,14 Thử nghiệm 3: Trên bộ cơ sở dữ liệu MGH/MF (cụ thể trong bảng 4.3), nhận dạng ba loại nhịp N, S, V. Bảng 4.23: Kết quả nhận dạng 3 loại nhịp (CSDL MGH/MF) bằng các mô hình đơn và các mô hình kết hợp Loại mô hình Sai số Sai số (%) FN TN FP TP Sens (%) Spec (%) MLP 66 4,40 26 979 24 471 94,77 97,61 TSK 73 4,87 44 983 20 453 91,15 98,01 SVM 32 2,13 6 991 12 491 98,79 98,80 RF 96 6,40 70 982 21 427 85,92 97,91 MLP-TSK-SVM 25 1,67 3 994 9 494 99,40 99,10 MLP-TSK-RF 30 2,00 10 992 11 487 97,99 98,90 MLP-RF-SVM 25 1,67 6 996 7 491 98,79 99,30 RF-TSK-SVM 25 1,67 5 994 9 492 98,99 99,10 MLP-TSK-SVM-RF 21 1,40 5 996 7 492 98,99 99,30 - 21 - Thử nghiệm 4: Trên bộ cơ sở dữ liệu MGH/MF (cụ thể trong bảng 4.4), nhận dạng hai loại nhịp (bình thường và bất thường). Bảng 4.24: Kết quả nhận dạng 2 loại nhịp (CSDL MGH/MF) Loại mô hình Sai số Sai số (%) FN TN FP TP Sens (%) Spec (%) MLP 37 2,47 22 988 15 475 95,57 98,50 TSK 62 4,13 37 978 25 460 92,56 97,51 SVM 20 1,33 6 989 14 491 98,79 98,60 RF 78 5,20 54 979

Các file đính kèm theo tài liệu này:

tom_tat_luan_an_xay_dung_mo_hinh_nhan_dang_ket_hop_nham_nang.pdf