Luận văn Mô hình nơron – mờ kiểu ANFIS

MỤC LỤC

LỜI CẢM ƠN .1

LỜI NÓI ĐẦU .2

MỤC LỤC.5

DANH MỤC HÌNH ẢNH .6

DANH MỤC BẢNG BIỂU .7

BẢNG KÝ HIỆU CÁC CHỮVIẾT TẮT .8

Chương 1: TỔNG QUAN .9

1.1. Giới thiệu sơlược đềtài .9

1.2. Mục đích của đềtài .10

1.3. Mẫu xét nghiệm Pap.11

1.4. Một sốnguyên nhân dẫn đến chẩn đoán sai.16

1.5. Một sốhệthống phân lớp tếbào tự động và bán tự động.17

1.6. Phát biểu vấn đề.19

1.7. Các tiêu chuẩn đánh giá mức độthực hiện hệthống .20

Chương 2: HỆSUY LUẬN MỜDỰA TRÊN MẠNG THÍCH NGHI .22

2.1. Giới thiệu sơlược vềmô hình nơron - mờ.22

2.2. Hệthống suy luận mờ.23

2.3. Mạng thích nghi .27

2.4. Hệthống suy luận mờdựa trên mạng thích nghi .33

Chương 3: TRÍCH CHỌN ĐẶC TRƯNG .37

3.1. Giới thiệu sơlược vềtrích đặc trưng .37

3.2. Dữliệu nhập của hệthống .37

3.3. Dữliệu xuất của hệthống .39

3.4. Trích chọn đặc trưng .40

3.5. Các đặc trưng rút trích.46

Chương 4: PHÂN LOẠI TẾBÀO CỔTỬCUNG SỬDỤNG MÔ HÌNH ANFIS48

4.1. Cấu trúc ANFIS trong phân loại tếbào cổtửcung.48

4.2. Các hệthống luật mờtrong phân loại tếbào .54

Chương 5: TỔNG KẾT .59

5.1. Chương trình .59

5.2. Mức độthực hiện chương trình.66

5.3. Đánh giá đềtài .75

5.4. Hướng phát triển cho đềtài.75

PHỤLỤC .76

PHỤLỤC A: MỘT SỐKIẾN THỨC Y KHOA CƠBẢN .76

PHỤLỤC B: PHÂN ĐOẠN ẢNH.80

PHỤLỤC C: PHƯƠNG PHÁP LỌC KALMAN .82

TÀI LIỆU THAM KHẢO .84

pdf86 trang | Chia sẻ: maiphuongdc | Lượt xem: 2015 | Lượt tải: 5download
Bạn đang xem trước 20 trang tài liệu Luận văn Mô hình nơron – mờ kiểu ANFIS, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
của tín hiệu giữa các nút chứ không chứa trọng số. Để phản ánh các khả năng thích nghi khác nhau, các nút hình tròn và hình vuông được dùng trong mạng thích nghi. Một nút hình vuông (nút thích nghi) có chứa tham số còn một nút hình tròn (nút cố định) thì không. Tập tham số của mạng thích nghi là hợp của các tập tham số của mỗi nút thích nghi. Để thu được ánh xạ nhập – xuất đích, các tham số này được cập nhật theo dữ liệu huấn luyện đã cho và thủ tục học dựa trên gradient được mô tả ở phần sau. 2.3.2.Các luật học cơ bản Giả sử rằng một mạng thích nghi đã cho có L lớp và lớp thứ k có #(k) nút. Chúng ta có thể biểu thị vị trí nút thứ i trong lớp thứ k bằng (k, i), và hàm nút của nó (dữ liệu xuất của nút) bằng kiO . Khi một đầu ra của nút dựa trên tín hiệu vào và tập các tham số của nó, chúng ta có: ( )( ),...,,,,... 1 1#11 cbaOOOO k kkkiki − −−= (2.1) trong đó a, b, c,…là các tham số gắn liền với nút; kiO được dùng cho cả dữ liệu nhập và dữ liệu xuất của nút và hàm nút. Giả sử rằng dữ liệu huấn luyện đã cho có P mục, chúng ta có thể định nghĩa độ đo lỗi (hoặc hàm năng lượng) cho mục thứ p (1 ≤ p ≤ P) của mục dữ liệu huấn luyện như tổng các lỗi bình phương: ( )( ) 2# 1 ,,∑ = −= L m L pmpmp OTE (2.2) trong đó pmT , là thành phần thứ m của vectơ ra đích thứ p, và L pmO , thành phần thứ m của vectơ ra thực sự của vectơ vào thứ p. Vì vậy độ đo lỗi toàn cục là ∑ = = P p pEE 1 . KH OA C NT T – Đ H KH TN Trang 29 Để phát triển thủ tục học thực hiện giảm gradient trong E toàn bộ không gian tham số, đầu tiên phải tính tỷ lệ lỗi O E p ∂ ∂ cho dữ liệu huấn luyện thứ p và cho mỗi đầu ra của nút O. Tỷ lệ lỗi cho nút đầu ra tại (L, i) được suy ra từ phương trình (2.2) là: ( )LpipiL pi p OT O E ,, , 2 −−=∂ ∂ (2.3) Đối với nút ẩn tại (k, i), tỷ lệ lỗi được tính theo chuỗi vi phân: ( ) k pi k pm k m k pm p k pi p O O O E O E , 1 , 1# 1 1 ,, ∂ ∂ ∂ ∂=∂ ∂ ++ = +∑ (2.4) trong đó 1 ≤ k ≤ L – 1. Chính là, tỷ lệ lỗi của nút ẩn có thể được mô tả như một tổ hợp tuyến tính các tỷ lệ lỗi của các nút trong lớp kế tiếp. Vì vậy ∀k, ∀i, sao cho 1 ≤ k ≤ L và 1 ≤ i ≤ #(k), chúng ta có thể tính k pi p O E ,∂ ∂ qua phương trình (2.3) và (2.4). Nếu α là một tham số của mạng thích nghi đã cho, ta có: ∑ ∈ ∗ ∗∗ ∂ ∂ ∂ ∂=∂ ∂ SO pp O O EE αα (2.5) trong đó S là tập các nút mà đầu ra của nó phụ thuộc α; Thì đạo hàm độ đo lỗi toàn cục E tương ứng α là: ∑ = ∂ ∂=∂ ∂ P p pEE 1 αα (2.6) Suy ra, công thức cập nhật cho tham số chung α là: αηα ∂ ∂−=∆ E (2.7) trong đó η là tốc độ học được tính bằng: ∑ ⎟⎠⎞⎜⎝⎛ ∂ ∂ = α α η 2E k (2.8) KH OA C NT T – Đ H KH TN Trang 30 với k là kích thước bước, độ dài của mỗi thời kì chuyển tiếp gradient trong không gian tham số. Thông thường, chúng ta có thể thay đổi giá trị của k để biến đổi tốc độ hội tụ của thuật toán học. Có hai mô hình học cho mạng thích nghi. Với học theo khối (hoặc học ngoại tuyến), công thức cập nhật tham số α dựa trên phương trình (2.6) và hành động cập nhật chỉ xảy ra sau khi toàn bộ tập dữ liệu huấn luyện được đưa vào, tức là sau mỗi chu kì huấn luyện. Ngược lại, nếu cập nhật các tham số ngay khi dữ liệu nhập – xuất được đưa vào, thì công thức cập nhật dựa trên phương trình (2.5) và dựa theo học theo mẫu (hoặc học trực tuyến). 2.3.3.Luật học lai theo khối (học ngoại tuyến) Mặc dù chúng ta có thể áp dụng phương pháp gradient để xác định các tham số trong mạng thích nghi, nhưng phương pháp này nhìn chung rất chậm và có thể bị rơi vào tình trạng cực tiểu địa phương. Ở đây, việc kết hợp phương pháp gradient và phương pháp ước lượng bình phương cực tiểu (LSE) được dùng để xác định và điều chỉnh các tham số của mạng. Để đơn giản, giả sử rằng mạng thích nghi đang xét chỉ có một đầu ra: ( )SIFoutput ,= (2.9) trong đó I là tập các biến và S là tập các tham số. Nếu tồn tại một hàm H để FH o tuyến tính trong một số phần tử của S, thì các phần tử này có thể được định nghĩa bằng phương pháp bình phương cực tiểu. Thông thường, tập tham số S có thể được phân tích thành hai tập 21 SSS ⊕= (2.10) (⊕ là phép tổng trực tiếp) để cho FH o là tuyến tính trong tập S2, sau đó áp dụng H vào phương trình (2.9) ta có: ( ) ( )SIFHoutputH ,o= (2.11) KH OA C NT T – Đ H KH TN Trang 31 là tuyến tính trong tập S2. Dựa vào các giá trị đã cho của những phần tử S1, chúng ta có thể chia dữ liệu huấn luyện P vào phương trình (2.11) và thu được phương trình ma trận: AX = B (2.12) trong đó X là vectơ chưa biết mà các phần tử của nó là các tham số trong S2. Đặt |S2| = M, thì kích thước tương ứng của A, X, và B là P × M, M × 1, và P × 1. Do P (số lượng cặp dữ liệu huấn luyện) thường lớn hơn M (số lượng tham số tuyến tính), nên cần phải có một giải pháp thực hiện tính phương trình (2.12). Một ước lượng bình phương cực tiểu (LSE) của X và X*, được tìm để cực tiểu hóa lỗi bình phương ||AX – B||2; đây là chuẩn để thiết lập cơ sở cho hồi qui tuyến tính, lọc thích nghi và xử lý tín hiệu. X* được tính bằng cách sử dụng nghịch đảo giả của X: ( ) BAAAX TT 1−∗ = (2.13) trong đó AT là ma trận chuyển vị của A, và (ATA)-1AT là ma trận nghịch đảo giả của A. Mặc dù phương trình (2.13) rất ngắn gọn nhưng chi phí tính toán để xử lý nghịch đảo ma trận lại quá lớn. Ở đây, công thức dãy được dùng để tính LSE của X. Phương pháp dãy này hiệu quả hơn (đặc biệt khi M nhỏ) và có thể thay đổi dễ dàng thành một thuật toán học trực tuyến (xem phần sau) cho hệ thống thay đổi đặc tính. Đặc biệt, nếu gọi vectơ hàng thứ i của ma trận A được định nghĩa trong phương trình (2.12) là Tia , và thành phần thứ i của B là Tib , thì X có thể được tính lặp đi lặp lại, dùng công thức dãy mở rộng như sau: ( ) ⎪⎭ ⎪⎬ ⎫ −=+−= −+= ++ ++ + +++++ 1,...,1,0, 1 11 11 1 11111 Pi aSa SaaSSS XabaSXX ii T i i T iii ii i T i T iiiii (2.14) trong đó Si thường được gọi là ma trận hiệp phương sai và ước lượng bình phương cực tiểu X* bằng Xp. Các điều kiện khởi tạo cho phương trình (2.14) là 00 =X và IS γ=0 , trong đó γ là một số dương lớn (chọn γ = 106) và I là ma trận đồng nhất kích KH OA C NT T – Đ H KH TN Trang 32 thước MM × . Khi giải quyết các mạng thích nghi nhiều dữ liệu xuất (dữ liệu xuất trong phương trình (2.9) là một vectơ cột), phương trình (2.14) vẫn được áp dụng ngoại trừ T ib là hàng thứ i của ma trận B. Bây giờ chúng ta có thể kết hợp phương pháp gradient và ước lượng bình phương cực tiểu để cập nhật các tham số trong mạng thích nghi. Mỗi chu kì huấn luyện của thủ tục học lai này bao gồm quá trình tiến và quá trình lùi. Trong quá trình tiến, chúng ta cung cấp dữ liệu nhập và các tín hiệu hàm số đi tới để tính dữ liệu xuất của mỗi nút cho đến khi thu được các ma trận A, B trong phương trình (2.12), và các tham số trong S2 được xác định bởi phương trình (2.14). Sau khi xác định các tham số trong S2, các tín hiệu hàm vẫn tiếp tục đi tới cho đến khi tính được độ đo lỗi. Trong quá trình lùi, các tỷ lệ lỗi (phương trình (2.3) và (2.4)) truyền từ đầu ra cuối đến đầu ra đầu, và các tham số trong S1 được cập nhật bằng phương pháp gradient theo phương trình (2.7). Đối với các giá trị cố định của các tham số trong S1, tham số trong S2 do đó được bảo đảm là điểm tối ưu toàn cục trong không gian tham số S2 dựa trên việc lựa chọn độ đo lỗi bình phương. Luật học này không chỉ giảm kích thước không gian tìm kiếm trong phương pháp gradient mà về cơ bản nó còn giảm bớt thời gian hội tụ. 2.3.4.Luật học lai theo mẫu Nếu các tham số được cập nhật sau mỗi biểu diễn dữ liệu, chúng ta có kiểu học theo mẫu hoặc học trực tuyến. Mô hình học này quan trọng đối với việc xác định tham số trực tuyến cho hệ thống đối với các hệ thống thay đổi. Để thay đổi luật học theo khối thành trực tuyến, rõ ràng việc giảm gradient nên dựa theo Ep (phương trình (2.5)) thay vì dựa vào E. Nói cách khác, học theo mẫu không phải là thủ tục tìm kiếm gradient đích thực để cực tiểu hoá E, nó sẽ xấp xỉ E nếu tốc độ học nhỏ. Đối với công thức dãy bình phương cực tiểu dùng để giải thích các đặc tính biến đổi theo thời gian của dữ liệu vào, chúng ta cần phân huỷ các ảnh hưởng của cặp dữ KH OA C NT T – Đ H KH TN Trang 33 liệu cũ khi có cặp dữ liệu mới xuất hiện. Điều kiện của “hệ số quên” λ cho công thức dãy tổng quát: ( ) ⎪⎭ ⎪⎬ ⎫ ⎥⎦ ⎤⎢⎣ ⎡ +−= −+= ++ ++ + +++++ 11 11 1 11111 1 ii T i i T iii ii i T i T iiiii aSa SaaSSS XabaSXX λλ (2.16) trong đó giá trị [ ]1,0∈λ . Lambda càng nhỏ thì ảnh hưởng của việc phân huỷ dữ liệu cũ càng nhanh. Nhưng lambda nhỏ thỉnh thoảng gây tình trạng không ổn định về mặt số học, nên tránh trường hợp này. 2.4.Hệ thống suy luận mờ dựa trên mạng thích nghi 2.4.1.Cấu trúc ANFIS Không mất tính tổng quát, xét hệ thống suy luận mờ có hai dữ liệu nhập x và y, và một dữ liệu xuất z. Giả sử rằng cơ sở luật chứa hai luật mờ loại Sugeno: Nếu x là A1 và y là B1 thì f1 = p1x + q1y + r1. Nếu x là A2 và y là B2 thì f2 = p2x + q2y + r2. thì suy luận mờ loại 3 trong hình 2.4a sẽ tương ứng với cấu trúc ANFIS ở hình 2.4b. Chú ý rằng, các hàm nút trong cùng một lớp có dạng hàm như nhau. Lớp 1: Mọi nút i trong lớp này là nút hình vuông với hàm nút: ( )xO iAi µ=1 (2.17) trong đó, x là dữ liệu nhập cho nút i, và Ai là nhãn ngôn ngữ (cao, nhỏ…) liên quan đến hàm nút. Như vậy, 1iO còn gọi là hàm thành viên của Ai và thể hiện mức độ x thỏa Ai. Thông thường, ( )xAµ có dạng hình chuông và nằm trong khoảng [0, 1]: ( ) ii b i i A a cx x ⎥⎥⎦ ⎤ ⎢⎢⎣ ⎡ ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −+ = 2 1 1µ (2.18) KH OA C NT T – Đ H KH TN Trang 34 Hay ( ) ib i i i a cx A ex 2 ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −−=µ (2.19) trong đó {ai, bi, ci} là tập tham số Lớp 2: Mỗi nút trong lớp này là nút tròn, được gán nhãn ∏ có dữ liệu xuất là tích các dữ liệu nhập: ( ) ( ) .2,1,2 =×== iyxwO ii BAii µµ (2.20) Dữ liệu xuất của mỗi nút biểu diễn ngưỡng kích hoạt của luật. Hình 2-4: (a) Suy luận mờ loại 3, (b) cấu trúc ANFIS tương ứng Lớp 3: Mỗi nút trong lớp này là nút tròn, được gán nhãn N. Nút thứ i tính tỷ lệ ngưỡng kích hoạt của luật thứ i so với tổng tất cả các ngưỡng kích hoạt của tất cả các luật: .2,1, 21 3 =+== iww w wO iii (2.21) Dữ liệu xuất của lớp này được gọi là ngưỡng kích hoạt chuẩn hóa. KH OA C NT T – Đ H KH TN Trang 35 Lớp 4: Mọi nút i trong lớp này là nút vuông có hàm nút: ( )iiiiiii ryqxpwfwO ++==4 (2.22) Trong đó iw là dữ liệu xuất của lớp 3, và {ai, bi, ci} là tập tham số kết quả. Lớp 5: Nút duy nhất trong lớp này là nút tròn được gán nhãn ∑, để tính tổng dữ liệu xuất: ∑ ∑∑ == i i ii i ii w fw fwO51 (2.23) Trên đây vừa giới thiệu mô hình ANFIS áp dụng hệ thống suy luận mờ loại 3. Những hệ thống suy luận mờ khác cũng thực hiện gần giống như hệ thống loại này. 2.4.2.Thuật toán học lai Từ cấu trúc ANFIS trên (hình 2.4), giả sử đã có các tham số giả thuyết, như vậy tổng dữ liệu xuất có thể xem như một tổ hợp tuyến tính các tham số kết quả. Dữ liệu xuất f có thể được viết lại: ( ) ( ) ( ) ( ) ( ) ( ) 222222111111 22112 21 2 1 21 1 rwqywpxwrwqywpxw fwfwf ww wf ww wf +++++= +=+++= (2.24) là tuyến tính theo các tham số kết quả (p1, q1, r1, p2, q2 và r2). Kết quả là, chúng ta có: S = tập toàn bộ tham số S1 = tập tham số giả thuyết S2 = tập tham số kết quả trong phương trình 2.10; H(.) là hàm đồng nhất và F(., .) là hàm của hệ thống suy luận mờ. Do đó mà thuật toán học lai được trình bày ở phần trước có thể được áp dụng trực tiếp. Cụ thể hơn, trong quá trình lan truyền tiến của thuật toán học lai, tín hiệu hàm truyền đến lớp 4 và các tham số kết quả được xác định bằng LSE. Trong quá trình lan KH OA C NT T – Đ H KH TN Trang 36 truyền ngược, tỷ lệ lỗi truyền ngược lại và các tham số giả thuyết được cập nhật bằng phương pháp giảm gradient. Bảng 2.1 tóm tắt hoạt động của mỗi quá trình. - Quá trình tiến Quá trình lùi tham số giả thuyết cố định giảm gradient tham số kết quả LSE cố định tín hiệu dữ liệu xuất của nút tỷ lệ lỗi Bảng 2-1: Hai quá trình trong thuật toán học lai KH OA C NT T – Đ H KH TN Trang 37 Chương 3: TRÍCH CHỌN ĐẶC TRƯNG Để có thể thực hiện mô hình ANFIS, trước hết cần phải chuyển tất cả các dạng dữ liệu nhập vào hệ thống sang dạng số. Chương này sẽ giới thiệu về dữ liệu nhập cho hệ thống và cách thực hiện trích đặc trưng trên bộ dữ liệu lấy mẫu để tạo thành một cơ sở dữ liệu chứa các con số đặc trưng cho dữ liệu nhập. 3.1.Giới thiệu sơ lược về trích đặc trưng Trích chọn đặc trưng là chuyển đổi một ảnh đã phân đoạn thành tập hợp các con số mô tả nội dung của đối tượng cần nhận dạng. Trong mẫu xét nghiệm Pap, nhân và bào tương phải được nhận dạng đúng để phân biệt tế bào bình thường và tế bào bất thường, cũng như để phân biệt được các loại tế bào khác nhau. 3.2.Dữ liệu nhập của hệ thống 3.2.1.Tạo dữ liệu Các yêu cầu khi tạo dữ liệu ảnh tế bào: ¾ độ phản chiếu giữa nền và đối tượng có độ dao động thấp: điều chỉnh tự động bằng camera và kính hiển vi ¾ độ phân giải của ảnh: sử dụng độ phóng đại kính hiển vi 400X và độ phân giải 384 * 284 điểm ảnh 24 bit màu. Độ co giãn là 0.201µm / điểm ảnh. ¾ chỉ tạo ảnh gồm các tế bào đơn, không chứa cụm tế bào Trong mẫu Pap, ngoài các tế bào cổ tử cung, còn có rất nhiều loại tế bào phụ khác như hồng cầu, bạch cầu, xác tế bào, vi trùng,… Để đơn giản, dữ liệu nhập chỉ giới hạn trong các loại sau: tế bào trụ, tế bào gai cận đáy, tế bào gai trung gian và tế bào gai KH OA C NT T – Đ H KH TN Trang 38 bề mặt, tế bào loạn sản nhẹ chưa sưng hoá, tế bào loạn sản vừa, tế bào loạn sản nặng. Dữ liệu được tạo ra bằng cách quét một lượng lớn các mẫu xét nghiệm vào máy tính. Dữ liệu này được thực hiện bởi bác sĩ khoa giải phẫu học của đại học Y khoa Herlev, bằng cách sử dụng camera kĩ thuật số kết nối với kính hiển vi và máy tính. 3.2.2.Dữ liệu Cơ sở dữ liệu ảnh bao gồm: ¾ 50 ảnh tế bào trụ ¾ 50 ảnh tế bào gai cận đáy ¾ 50 ảnh tế bào gai trung gian ¾ 50 ảnh tế bào gai bề mặt ¾ 100 ảnh tế bào loạn sản nhẹ chưa sừng hoá ¾ 100 ảnh tế bào loạn sản vừa chưa sừng hoá ¾ 100 ảnh tế bào loạn sản nặng chưa sừng hoá Như vậy, cơ sở dữ liệu ảnh này gồm 200 ảnh tế bào bình thường và 300 ảnh tế bào loạn sản. Trước khi sử dụng dữ liệu để xây dựng mô hình phân lớp, cơ sở dữ liệu được chia thành hai tập bằng nhau: tập huấn luyện và tập kiểm nghiệm. Dữ liệu huấn luyện dùng để xây dựng mô hình phân lớp tế bào. Dữ liệu kiểm nghiệm dùng để đánh giá mức độ thực hiện của mô hình. 3.2.3.Các đặc tính tế bào học Các đặc tính của tế bào được dùng để tạo cơ sở dữ liệu cho mô hình ANFIS: ¾ Diện tích nhân ¾ Diện tích bào tương ¾ Độ sáng nhân ¾ Độ sáng bào tương ¾ Đường kính ngắn nhất của nhân KH OA C NT T – Đ H KH TN Trang 39 ¾ Đường kính dài nhất của nhân ¾ Đường kính ngắn nhất của bào tương ¾ Đường kính dài nhất của bào tương ¾ Chu vi nhân ¾ Chu vi bào tương ¾ Vị trí nhân ¾ Vị trí bào tương ¾ Cực đại trong nhân ¾ Cực tiểu trong nhân ¾ Cực đại trong bào tương ¾ Cực tiểu trong bào tương 3.3.Dữ liệu xuất của hệ thống Cơ sở dữ liệu được tạo ra với 20 đặc trưng cùng với đặc trưng thứ 21, là con số tượng trưng cho phân lớp của tế bào: ¾ 1: tế bào trụ ¾ 2: tế bào gai cận đáy ¾ 3: tế bào gai trung gian ¾ 4: tế bào gai bề mặt ¾ 5: tế bào loạn sản nhẹ chưa sừng hoá ¾ 6: tế bào loạn sản vừa chưa sừng hoá ¾ 7: tế bào loạn sản nặng chưa sừng hoá Đây chính là dữ liệu xuất dùng cho phân lớp tế bào. Nếu chỉ phân lớp là âm tính (tương ứng 1, 2, 3, 4 ở trên) hoặc dương tính (tương ứng 4, 6, 7) thì đặc trưng phân lớp tế bào sẽ gồm: ¾ 1: tế bào bình thường ¾ 2: tế bào loạn sản KH OA C NT T – Đ H KH TN Trang 40 3.4.Trích chọn đặc trưng Hình 3-1: Ảnh đã phân đoạn Hãy xem hình 3.1 như một ví dụ về ảnh đã được phân đoạn. Ảnh được phân đoạn thành 3 phần, tượng trưng cho nhân, bào tương và nền, trong đó mỗi phần đánh dấu bằng một màu tương ứng. Trong ảnh này, màu xám sáng biểu thị cho nhân, màu xám tối là bào tương và màu trắng là nền. Như vậy hình 3.1 có thể được gán nhãn lại như hình 3.2. Hình 3-2: Ảnh đã gán nhãn Đối với những ảnh trong cơ sở dữ liệu này, ta có chiều dài một điểm ảnh là: pixelm pixels m width width a pixel m /201.0 384 16051.77 µµµ === (3.1) Sau đây, các đặc trưng khác nhau sẽ được giải thích và mô phỏng bằng công thức. Qui ước đặt tên cho các đặc trưng là nếu một đặc trưng bắt đầu bằng chữ N thì nó mô tả nhân, C là bào tương. KH OA C NT T – Đ H KH TN Trang 41 3.4.1.Diện tích và tỉ lệ diện tích Diện tích là số điểm ảnh thuộc một lớp nào đó của đối tượng. Hệ số phép biến đổi được sử dụng để tính diện tích theo kích thước vật lý (µm2) bằng cách nhân số điểm ảnh với a2. Tỷ lệ giữa diện tích nhân Narea và diện tích bào tương Carea được định nghĩa: CareaNarea NareaCN +=/ (3.2) Ví dụ: Hình 3-3: Các phép tính diện tích Hình 3.3 chỉ ra số điểm ảnh trong lớp nhân và lớp bào tương. Ta có: 297.0 818.1768.0 768.0/ 818.145 768.019 22 2 22 22 =+=+= =⋅= =⋅= mm m CareaNarea NareaCN maCarea maNarea µµ µ µ µ 3.4.2.Độ sáng Độ sáng là cường độ sáng trung bình của các điểm ảnh của lớp. Mỗi điểm ảnh chứa thông tin về dải màu đỏ (R), xanh lá cây (G), xanh lục (B) với cường độ từ 0 đến 255. Cường độ sáng (I) của một điểm ảnh là trung bình của 3 dải màu này: Blue * 0.114 +Green * 0.587 + Red * .2990=I (3.3) KH OA C NT T – Đ H KH TN Trang 42 Cường độ sáng trung bình được tính: ∑ ∈ == componentyx yx p I N CcolNcolbrightness , , 1)( (3.4) trong đó, Np là số lượng điểm ảnh thuộc lớp. 3.4.3.Đường kính Gồm hai loại: đường kính lớn nhất và đường kính nhỏ nhất. Đường kính lớn nhất là khoảng cách lớn nhất giữa hai điểm tính từ biên. Đường kính nhỏ nhất thẳng góc với đường kính lớn nhất và chiều dài vừa với một hình chữ nhật bao ngoài lớp. Các đường kính được tìm thấy dựa theo biên của mỗi thành phần. Khoảng cách Euclide của tất cả các điểm trên biên được tính và khoảng cách xa nhất chính là đường kính lớn nhất. Đường kính nhỏ nhất ở một phía được tính bằng khoảng cách vuông góc tính từ biên đến đường kính lớn nhất. Cuối cùng, đường kính nhỏ nhất được định nghĩa là tổng hai khoảng cách lớn nhất từ hai phía của đường kính lớn nhất. Các đường kính được tính theo kích thước vật lý bằng cách nhân với a. Ví dụ: Hình 3-4: Vị trí đường kính nhỏ nhất và lớn nhất Trong hình 3.4 các đường kính tính cho bào tương được xác định theo phương pháp trên. Chú ý hai đường kính nhỏ nhất đều thẳng góc với đường kính lớn nhất. Đường kính nhỏ nhất và lớn nhất được tính theo khoảng cách Euclide: KH OA C NT T – Đ H KH TN Trang 43 ( ) ( ) ( ) ( ) ma yyxxaClong µ100.244.10201.036100 2max_1max_2max_1max_ 22 22 =⋅=−+−⋅= −+−⋅= ( ) ( ) ( ) ( ) ma yyxxaCshort µ025.110.5201.05043 12min_11min_12min_11min_1 22 22 =⋅=−+−⋅= −+−⋅= ( ) ( ) ( ) ( ) ma yyxxaCshort µ636.016.3201.04767 22min_21min_22min_21min_2 22 22 =⋅=−+−⋅= −+−⋅= mCshortCshortCshort µ660.1636.0205.121 =+=+= 3.4.4.Chu vi Chu vi là số điểm ảnh nằm ở biên của lớp. Biên được tính theo µm bằng cách nhân với a. Ví dụ: Biên của bào tương được xác định khi tính đường kính lớn nhất và nhỏ nhất của nó (xem hình 3.4). Như hình vẽ, biên của bào tương gồm 26 điểm ảnh. Như vậy chu vi bào tương là: maCperi µ225.526 =⋅= 3.4.5.Vị trí nhân Tâm của một lớp ( )yx ˆ,ˆ được xem như tâm của trọng lực. Để tính tâm của trọng lực, trước tiên cần tính các mô men: ∑ ∈ ⋅= componentyx qp qp yxM , , (3.5) areaM componentyx == ∑ ∈, 0,0 1 (3.6) ∑ ∈ = componentyx xM , 0,1 (3.7) ∑ ∈ = componentyx yM , 1,0 (3.8) KH OA C NT T – Đ H KH TN Trang 44 0,0 0,1ˆ M M x = (3.9) 0,0 1,0ˆ M M y = (3.10) Khi các tâm được tính cho cả nhân ( )nn yx ˆ,ˆ và bào tương ( )cc yx ˆ,ˆ , một vị trí tương quan được tính theo đường kính lớn nhất cho bào tương: ( ) ( ) Clong yyxxa Npos cncn 22 ˆˆˆˆ2 −+−⋅= (3.11) Đặc trưng này chứng tỏ vị trí của nhân trong bào tương. Ví dụ: Hình 3-5: Tâm của trọng lực đối với nhân và bào tương Trong hình 3.5 tâm của trọng lực được tính cho cả lớp nhân và bào tương: 59.4 45 220ˆ ≈==cx 48.3 45 173ˆ ≈==cy 51.5 19 98ˆ ≈==nx 34.3 19 66ˆ ≈==ny KH OA C NT T – Đ H KH TN Trang 45 Cho nên, vị trí tương quan được tính: ( ) ( ) ( ) ( ) 191.0 100.2 4355201.02 ˆˆˆˆ2 22 22 =−+−⋅= −+−⋅= Clong yyxxa Npos cncn 3.4.6.Độ giãn dài Độ giãn dài là tỷ lệ giữa chiều dài đường kính nhỏ nhất và chiều dài đường kính lớn nhất. Khi tỷ lệ này tiến đến 1 thì lớp gần như là hình vuông. long shortelong = (3.12) Ví dụ: Đường kính lớn nhất và nhỏ nhất của bào tương được dùng để tính độ giãn dài: 79.0 100.2 660.1 === Clong CshortCelong 3.4.7.Độ tròn Độ tròn là tỷ lệ giữa diện tích đường tròn bao và diện tích lớp. Đường tròn bao lấy đường kính lớn nhất của thành phần làm đường kính. Nếu tỷ lệ tiến đến 1 thì lớp là tròn, và nếu tỷ lệ tiến đến 0 thì lớp gần như là đường thẳng. 22 4 2 long area long arearound ⋅ ⋅= ⎟⎠ ⎞⎜⎝ ⎛⋅ = ππ (3.13) KH OA C NT T – Đ H KH TN Trang 46 Ví dụ: Hình 3-6: Đường tròn cực tiểu cho nhân Trong hình 3.6 đường tròn bao được sử dụng cho lớp nhân. Độ tròn được tính sử dụng đường kính lớn nhất 1.35µm (chưa tính trong ví dụ trước), và diện tích nhân 0.768µm2 (từ ví dụ diện tích): 54.0 35.1 768.044 22 =⋅ ⋅=⋅ ⋅= ππ Nlong NareaNround 3.4.8.Cực đại, cực tiểu Cực đại, cực tiểu là giá trị số lượng giá trị cường độ xám lớn nhất, nhỏ nhất thuộc đối tượng (nhân, bào tương). Chương trình sẽ kiểm tra tất cả các điểm ảnh thuộc đối tượng. Nếu điểm ảnh có giá trị cường độ sáng lớn nhất / nhỏ nhất khi so sánh với các điểm ảnh nằm trong bán kính 3 điểm ảnh, thì biến đếm tăng lên 1. 3.5.Các đặc trưng rút trích STT Đặc trưng Viết tắt Được tính từ 1 Diện tích nhân Narea 2 Diện tích bào tương Carea 3 Tỷ lệ nhân / bào tương N/C Narea, Carea 4 Độ sáng nhân Ncol KH OA C NT T – Đ H KH TN Trang 47 5 Độ sáng bào tương Ccol 6 Đường kính ngắn nhất của nhân Nshort 7 Đường kính dài nhất của nhân Nlong 8 Độ giãn dài của nhân Nelong Nshort, Nlong 9 Độ tròn của nhân Nround Narea, Nlong 10 Đường kính ngắn nhất bào tương Cshort 11 Đường kính dài nhất của bào tương Clong 12 Độ giãn dài của bào tương Celong Cshort, Clong 13 Độ tròn của bào tương Cround Carea, Clong 14 Chu vi nhân Nperim 15 Chu vi bào tương Cperim 16 Vị trí nhân Npos 17 Cực đại trong nhân Nmax 18 Cực tiểu trong nhân Nmin 19 Cực đại trong bào tương Cmax 20 Cực tiểu trong bào tương Cmin Bảng 3-1 : Danh sách các đặc trưng trích chọn vào cơ sở dữ liệu KH OA C NT T – Đ H KH TN Trang 48 Chương 4: PHÂN LOẠI TẾ BÀO CỔ TỬ CUNG SỬ DỤNG MÔ HÌNH ANFIS Phân loại tế bào ung thư cổ tử cung là giai đoạn quan trọng nhất trong hệ thống khám sàng lọc tự động. Việc phân loại sử dụng mô hình ANFIS sẽ cho kết quả tốt hơn những phương pháp gom cụm thông thường khác như: k – trung bình, láng giềng gần nhất, gom cụm mờ… Chương này sẽ giới thiệu những hệ thống cơ sở luật mà ANFIS thực hiện để cho kết quả tốt nhất có thể. 4.1.Cấu trúc ANFIS trong phân loại tế bào cổ tử cung 4.1.1.Hệ thống suy luận mờ Không mất tính tổng quát, xét một hệ suy luận gồm 2 đặc trưng của nhân: kích thước, độ sáng và 4 luật chuyên gia sau: Luật Diện tích nhân Độ sáng nhân Phân lớp 1 nhỏ tối bình thường 2 lớn sáng loạn sản nhẹ 3 lớn trung bình loạn sản 4 lớn sáng loạn sản nặng Bảng 4-1: Ví dụ luật mờ phân loại tế bào Như vậy với cơ sở luật như trên thì các luật Sugeno bậc 0 tương ứng là: 1. Nếu x là A1 và y là B3 thì z1 = p1 2. Nếu x là A2 và y là B1 thì z2 = p2 KH OA C NT T – Đ H KH TN Trang 49 3. Nếu x là A2 và y là B2 thì z3 = p3 4. Nếu x là A2 và y là B3 thì z4 = p4 với x là diện tích nhân và y là độ sáng nhân, và zi là dữ liệu xuất của luật thứ i. Ngưỡng kích hoạt wi của mỗi luật được xác định trong phần giả thiết của luật và được tính bằng: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )yxw yxw yxw yxw BA BA BA BA 32 22 12 31 4 3 2 1 µµ µµ µµ µµ ×= ×= ×= ×= (4.1) trong đó ( )xA 2,1µ và ( )yB 3,2,1µ là các hàm thành viên của dữ liệu nhập x và y, chúng thể hiện mức độ thỏa mãn của dữ liệu nhập với tập A = {A1,A2,B1,B2,B3}. Các hàm thành viên này được chọn theo dạng chuông: ib i i A a cx 2)(1 1 −+ =µ (4.2) với {ai,bi,ci} là các tham số giả thiết, xác định hình dạng thật sự của các hàm thành viên (Hình 4.1). Với một bộ dữ liệu nhập bất kì, toàn bộ dữ liệu xuất z của hệ thống suy luận mờ được xác định bằng cách dùng các ngưỡng

Các file đính kèm theo tài liệu này:

  • pdf0012185.pdf