MỤC LỤC
LỜI CẢM ƠN .1
LỜI NÓI ĐẦU .2
MỤC LỤC.5
DANH MỤC HÌNH ẢNH .6
DANH MỤC BẢNG BIỂU .7
BẢNG KÝ HIỆU CÁC CHỮVIẾT TẮT .8
Chương 1: TỔNG QUAN .9
1.1. Giới thiệu sơlược đềtài .9
1.2. Mục đích của đềtài .10
1.3. Mẫu xét nghiệm Pap.11
1.4. Một sốnguyên nhân dẫn đến chẩn đoán sai.16
1.5. Một sốhệthống phân lớp tếbào tự động và bán tự động.17
1.6. Phát biểu vấn đề.19
1.7. Các tiêu chuẩn đánh giá mức độthực hiện hệthống .20
Chương 2: HỆSUY LUẬN MỜDỰA TRÊN MẠNG THÍCH NGHI .22
2.1. Giới thiệu sơlược vềmô hình nơron - mờ.22
2.2. Hệthống suy luận mờ.23
2.3. Mạng thích nghi .27
2.4. Hệthống suy luận mờdựa trên mạng thích nghi .33
Chương 3: TRÍCH CHỌN ĐẶC TRƯNG .37
3.1. Giới thiệu sơlược vềtrích đặc trưng .37
3.2. Dữliệu nhập của hệthống .37
3.3. Dữliệu xuất của hệthống .39
3.4. Trích chọn đặc trưng .40
3.5. Các đặc trưng rút trích.46
Chương 4: PHÂN LOẠI TẾBÀO CỔTỬCUNG SỬDỤNG MÔ HÌNH ANFIS48
4.1. Cấu trúc ANFIS trong phân loại tếbào cổtửcung.48
4.2. Các hệthống luật mờtrong phân loại tếbào .54
Chương 5: TỔNG KẾT .59
5.1. Chương trình .59
5.2. Mức độthực hiện chương trình.66
5.3. Đánh giá đềtài .75
5.4. Hướng phát triển cho đềtài.75
PHỤLỤC .76
PHỤLỤC A: MỘT SỐKIẾN THỨC Y KHOA CƠBẢN .76
PHỤLỤC B: PHÂN ĐOẠN ẢNH.80
PHỤLỤC C: PHƯƠNG PHÁP LỌC KALMAN .82
TÀI LIỆU THAM KHẢO .84
86 trang |
Chia sẻ: maiphuongdc | Lượt xem: 2027 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Luận văn Mô hình nơron – mờ kiểu ANFIS, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
của tín hiệu giữa các nút chứ không chứa trọng
số.
Để phản ánh các khả năng thích nghi khác nhau, các nút hình tròn và hình
vuông được dùng trong mạng thích nghi. Một nút hình vuông (nút thích nghi) có chứa
tham số còn một nút hình tròn (nút cố định) thì không. Tập tham số của mạng thích
nghi là hợp của các tập tham số của mỗi nút thích nghi. Để thu được ánh xạ nhập –
xuất đích, các tham số này được cập nhật theo dữ liệu huấn luyện đã cho và thủ tục học
dựa trên gradient được mô tả ở phần sau.
2.3.2.Các luật học cơ bản
Giả sử rằng một mạng thích nghi đã cho có L lớp và lớp thứ k có #(k) nút.
Chúng ta có thể biểu thị vị trí nút thứ i trong lớp thứ k bằng (k, i), và hàm nút của nó
(dữ liệu xuất của nút) bằng kiO . Khi một đầu ra của nút dựa trên tín hiệu vào và tập các
tham số của nó, chúng ta có:
( )( ),...,,,,... 1 1#11 cbaOOOO k kkkiki − −−= (2.1)
trong đó a, b, c,…là các tham số gắn liền với nút; kiO được dùng cho cả dữ liệu
nhập và dữ liệu xuất của nút và hàm nút.
Giả sử rằng dữ liệu huấn luyện đã cho có P mục, chúng ta có thể định nghĩa độ
đo lỗi (hoặc hàm năng lượng) cho mục thứ p (1 ≤ p ≤ P) của mục dữ liệu huấn luyện
như tổng các lỗi bình phương:
( )( ) 2#
1
,,∑
=
−=
L
m
L
pmpmp OTE (2.2)
trong đó pmT , là thành phần thứ m của vectơ ra đích thứ p, và L pmO , thành phần thứ m
của vectơ ra thực sự của vectơ vào thứ p. Vì vậy độ đo lỗi toàn cục là ∑
=
=
P
p
pEE
1
.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 29
Để phát triển thủ tục học thực hiện giảm gradient trong E toàn bộ không gian
tham số, đầu tiên phải tính tỷ lệ lỗi
O
E p
∂
∂
cho dữ liệu huấn luyện thứ p và cho mỗi đầu
ra của nút O. Tỷ lệ lỗi cho nút đầu ra tại (L, i) được suy ra từ phương trình (2.2) là:
( )LpipiL
pi
p OT
O
E
,,
,
2 −−=∂
∂
(2.3)
Đối với nút ẩn tại (k, i), tỷ lệ lỗi được tính theo chuỗi vi phân:
( )
k
pi
k
pm
k
m
k
pm
p
k
pi
p
O
O
O
E
O
E
,
1
,
1#
1
1
,, ∂
∂
∂
∂=∂
∂ ++
=
+∑ (2.4)
trong đó 1 ≤ k ≤ L – 1. Chính là, tỷ lệ lỗi của nút ẩn có thể được mô tả như một tổ hợp
tuyến tính các tỷ lệ lỗi của các nút trong lớp kế tiếp. Vì vậy ∀k, ∀i, sao cho 1 ≤ k ≤ L
và 1 ≤ i ≤ #(k), chúng ta có thể tính k
pi
p
O
E
,∂
∂
qua phương trình (2.3) và (2.4).
Nếu α là một tham số của mạng thích nghi đã cho, ta có:
∑
∈
∗
∗∗ ∂
∂
∂
∂=∂
∂
SO
pp O
O
EE
αα (2.5)
trong đó S là tập các nút mà đầu ra của nó phụ thuộc α; Thì đạo hàm độ đo lỗi toàn cục
E tương ứng α là:
∑
= ∂
∂=∂
∂ P
p
pEE
1 αα (2.6)
Suy ra, công thức cập nhật cho tham số chung α là:
αηα ∂
∂−=∆ E (2.7)
trong đó η là tốc độ học được tính bằng:
∑ ⎟⎠⎞⎜⎝⎛ ∂
∂
=
α α
η
2E
k (2.8)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 30
với k là kích thước bước, độ dài của mỗi thời kì chuyển tiếp gradient trong không gian
tham số. Thông thường, chúng ta có thể thay đổi giá trị của k để biến đổi tốc độ hội tụ
của thuật toán học.
Có hai mô hình học cho mạng thích nghi. Với học theo khối (hoặc học ngoại
tuyến), công thức cập nhật tham số α dựa trên phương trình (2.6) và hành động cập
nhật chỉ xảy ra sau khi toàn bộ tập dữ liệu huấn luyện được đưa vào, tức là sau mỗi chu
kì huấn luyện. Ngược lại, nếu cập nhật các tham số ngay khi dữ liệu nhập – xuất được
đưa vào, thì công thức cập nhật dựa trên phương trình (2.5) và dựa theo học theo mẫu
(hoặc học trực tuyến).
2.3.3.Luật học lai theo khối (học ngoại tuyến)
Mặc dù chúng ta có thể áp dụng phương pháp gradient để xác định các tham số
trong mạng thích nghi, nhưng phương pháp này nhìn chung rất chậm và có thể bị rơi
vào tình trạng cực tiểu địa phương. Ở đây, việc kết hợp phương pháp gradient và
phương pháp ước lượng bình phương cực tiểu (LSE) được dùng để xác định và điều
chỉnh các tham số của mạng.
Để đơn giản, giả sử rằng mạng thích nghi đang xét chỉ có một đầu ra:
( )SIFoutput ,= (2.9)
trong đó I là tập các biến và S là tập các tham số. Nếu tồn tại một hàm H để FH o
tuyến tính trong một số phần tử của S, thì các phần tử này có thể được định nghĩa bằng
phương pháp bình phương cực tiểu. Thông thường, tập tham số S có thể được phân tích
thành hai tập
21 SSS ⊕= (2.10)
(⊕ là phép tổng trực tiếp) để cho FH o là tuyến tính trong tập S2, sau đó áp dụng H
vào phương trình (2.9) ta có:
( ) ( )SIFHoutputH ,o= (2.11)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 31
là tuyến tính trong tập S2. Dựa vào các giá trị đã cho của những phần tử S1, chúng ta có
thể chia dữ liệu huấn luyện P vào phương trình (2.11) và thu được phương trình ma
trận:
AX = B (2.12)
trong đó X là vectơ chưa biết mà các phần tử của nó là các tham số trong S2. Đặt |S2| =
M, thì kích thước tương ứng của A, X, và B là P × M, M × 1, và P × 1. Do P (số lượng
cặp dữ liệu huấn luyện) thường lớn hơn M (số lượng tham số tuyến tính), nên cần phải
có một giải pháp thực hiện tính phương trình (2.12). Một ước lượng bình phương cực
tiểu (LSE) của X và X*, được tìm để cực tiểu hóa lỗi bình phương ||AX – B||2; đây là
chuẩn để thiết lập cơ sở cho hồi qui tuyến tính, lọc thích nghi và xử lý tín hiệu. X* được
tính bằng cách sử dụng nghịch đảo giả của X:
( ) BAAAX TT 1−∗ = (2.13)
trong đó AT là ma trận chuyển vị của A, và (ATA)-1AT là ma trận nghịch đảo giả của A.
Mặc dù phương trình (2.13) rất ngắn gọn nhưng chi phí tính toán để xử lý nghịch đảo
ma trận lại quá lớn. Ở đây, công thức dãy được dùng để tính LSE của X. Phương pháp
dãy này hiệu quả hơn (đặc biệt khi M nhỏ) và có thể thay đổi dễ dàng thành một thuật
toán học trực tuyến (xem phần sau) cho hệ thống thay đổi đặc tính. Đặc biệt, nếu gọi
vectơ hàng thứ i của ma trận A được định nghĩa trong phương trình (2.12) là Tia , và
thành phần thứ i của B là Tib , thì X có thể được tính lặp đi lặp lại, dùng công thức dãy
mở rộng như sau:
( )
⎪⎭
⎪⎬
⎫
−=+−=
−+=
++
++
+
+++++
1,...,1,0,
1 11
11
1
11111
Pi
aSa
SaaSSS
XabaSXX
ii
T
i
i
T
iii
ii
i
T
i
T
iiiii
(2.14)
trong đó Si thường được gọi là ma trận hiệp phương sai và ước lượng bình phương cực
tiểu X* bằng Xp. Các điều kiện khởi tạo cho phương trình (2.14) là 00 =X và IS γ=0 ,
trong đó γ là một số dương lớn (chọn γ = 106) và I là ma trận đồng nhất kích
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 32
thước MM × . Khi giải quyết các mạng thích nghi nhiều dữ liệu xuất (dữ liệu xuất trong
phương trình (2.9) là một vectơ cột), phương trình (2.14) vẫn được áp dụng ngoại trừ
T
ib là hàng thứ i của ma trận B.
Bây giờ chúng ta có thể kết hợp phương pháp gradient và ước lượng bình
phương cực tiểu để cập nhật các tham số trong mạng thích nghi. Mỗi chu kì huấn luyện
của thủ tục học lai này bao gồm quá trình tiến và quá trình lùi. Trong quá trình tiến,
chúng ta cung cấp dữ liệu nhập và các tín hiệu hàm số đi tới để tính dữ liệu xuất của
mỗi nút cho đến khi thu được các ma trận A, B trong phương trình (2.12), và các tham
số trong S2 được xác định bởi phương trình (2.14). Sau khi xác định các tham số trong
S2, các tín hiệu hàm vẫn tiếp tục đi tới cho đến khi tính được độ đo lỗi. Trong quá trình
lùi, các tỷ lệ lỗi (phương trình (2.3) và (2.4)) truyền từ đầu ra cuối đến đầu ra đầu, và
các tham số trong S1 được cập nhật bằng phương pháp gradient theo phương trình
(2.7).
Đối với các giá trị cố định của các tham số trong S1, tham số trong S2 do đó
được bảo đảm là điểm tối ưu toàn cục trong không gian tham số S2 dựa trên việc lựa
chọn độ đo lỗi bình phương. Luật học này không chỉ giảm kích thước không gian tìm
kiếm trong phương pháp gradient mà về cơ bản nó còn giảm bớt thời gian hội tụ.
2.3.4.Luật học lai theo mẫu
Nếu các tham số được cập nhật sau mỗi biểu diễn dữ liệu, chúng ta có kiểu học
theo mẫu hoặc học trực tuyến. Mô hình học này quan trọng đối với việc xác định tham
số trực tuyến cho hệ thống đối với các hệ thống thay đổi. Để thay đổi luật học theo
khối thành trực tuyến, rõ ràng việc giảm gradient nên dựa theo Ep (phương trình (2.5))
thay vì dựa vào E. Nói cách khác, học theo mẫu không phải là thủ tục tìm kiếm
gradient đích thực để cực tiểu hoá E, nó sẽ xấp xỉ E nếu tốc độ học nhỏ.
Đối với công thức dãy bình phương cực tiểu dùng để giải thích các đặc tính biến
đổi theo thời gian của dữ liệu vào, chúng ta cần phân huỷ các ảnh hưởng của cặp dữ
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 33
liệu cũ khi có cặp dữ liệu mới xuất hiện. Điều kiện của “hệ số quên” λ cho công thức
dãy tổng quát:
( )
⎪⎭
⎪⎬
⎫
⎥⎦
⎤⎢⎣
⎡
+−=
−+=
++
++
+
+++++
11
11
1
11111
1
ii
T
i
i
T
iii
ii
i
T
i
T
iiiii
aSa
SaaSSS
XabaSXX
λλ
(2.16)
trong đó giá trị [ ]1,0∈λ . Lambda càng nhỏ thì ảnh hưởng của việc phân huỷ dữ liệu cũ
càng nhanh. Nhưng lambda nhỏ thỉnh thoảng gây tình trạng không ổn định về mặt số
học, nên tránh trường hợp này.
2.4.Hệ thống suy luận mờ dựa trên mạng thích nghi
2.4.1.Cấu trúc ANFIS
Không mất tính tổng quát, xét hệ thống suy luận mờ có hai dữ liệu nhập x và y,
và một dữ liệu xuất z. Giả sử rằng cơ sở luật chứa hai luật mờ loại Sugeno:
Nếu x là A1 và y là B1 thì f1 = p1x + q1y + r1.
Nếu x là A2 và y là B2 thì f2 = p2x + q2y + r2.
thì suy luận mờ loại 3 trong hình 2.4a sẽ tương ứng với cấu trúc ANFIS ở hình 2.4b.
Chú ý rằng, các hàm nút trong cùng một lớp có dạng hàm như nhau.
Lớp 1: Mọi nút i trong lớp này là nút hình vuông với hàm nút:
( )xO
iAi
µ=1 (2.17)
trong đó, x là dữ liệu nhập cho nút i, và Ai là nhãn ngôn ngữ (cao, nhỏ…) liên quan đến
hàm nút. Như vậy, 1iO còn gọi là hàm thành viên của Ai và thể hiện mức độ x thỏa Ai.
Thông thường, ( )xAµ có dạng hình chuông và nằm trong khoảng [0, 1]:
( )
ii b
i
i
A
a
cx
x
⎥⎥⎦
⎤
⎢⎢⎣
⎡
⎟⎟⎠
⎞
⎜⎜⎝
⎛ −+
=
2
1
1µ (2.18)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 34
Hay
( )
ib
i
i
i
a
cx
A ex
2
⎟⎟⎠
⎞
⎜⎜⎝
⎛ −−=µ (2.19)
trong đó {ai, bi, ci} là tập tham số
Lớp 2: Mỗi nút trong lớp này là nút tròn, được gán nhãn ∏ có dữ liệu xuất là
tích các dữ liệu nhập:
( ) ( ) .2,1,2 =×== iyxwO
ii BAii
µµ (2.20)
Dữ liệu xuất của mỗi nút biểu diễn ngưỡng kích hoạt của luật.
Hình 2-4: (a) Suy luận mờ loại 3, (b) cấu trúc ANFIS tương ứng
Lớp 3: Mỗi nút trong lớp này là nút tròn, được gán nhãn N. Nút thứ i tính tỷ lệ
ngưỡng kích hoạt của luật thứ i so với tổng tất cả các ngưỡng kích hoạt của tất cả các
luật:
.2,1,
21
3 =+== iww
w
wO iii (2.21)
Dữ liệu xuất của lớp này được gọi là ngưỡng kích hoạt chuẩn hóa.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 35
Lớp 4: Mọi nút i trong lớp này là nút vuông có hàm nút:
( )iiiiiii ryqxpwfwO ++==4 (2.22)
Trong đó iw là dữ liệu xuất của lớp 3, và {ai, bi, ci} là tập tham số kết quả.
Lớp 5: Nút duy nhất trong lớp này là nút tròn được gán nhãn ∑, để tính tổng dữ
liệu xuất:
∑
∑∑ ==
i
i ii
i
ii w
fw
fwO51 (2.23)
Trên đây vừa giới thiệu mô hình ANFIS áp dụng hệ thống suy luận mờ loại 3.
Những hệ thống suy luận mờ khác cũng thực hiện gần giống như hệ thống loại này.
2.4.2.Thuật toán học lai
Từ cấu trúc ANFIS trên (hình 2.4), giả sử đã có các tham số giả thuyết, như vậy
tổng dữ liệu xuất có thể xem như một tổ hợp tuyến tính các tham số kết quả. Dữ liệu
xuất f có thể được viết lại:
( ) ( ) ( ) ( ) ( ) ( ) 222222111111
22112
21
2
1
21
1
rwqywpxwrwqywpxw
fwfwf
ww
wf
ww
wf
+++++=
+=+++= (2.24)
là tuyến tính theo các tham số kết quả (p1, q1, r1, p2, q2 và r2). Kết quả là, chúng ta có:
S = tập toàn bộ tham số
S1 = tập tham số giả thuyết
S2 = tập tham số kết quả
trong phương trình 2.10; H(.) là hàm đồng nhất và F(., .) là hàm của hệ thống suy luận
mờ. Do đó mà thuật toán học lai được trình bày ở phần trước có thể được áp dụng trực
tiếp. Cụ thể hơn, trong quá trình lan truyền tiến của thuật toán học lai, tín hiệu hàm
truyền đến lớp 4 và các tham số kết quả được xác định bằng LSE. Trong quá trình lan
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 36
truyền ngược, tỷ lệ lỗi truyền ngược lại và các tham số giả thuyết được cập nhật bằng
phương pháp giảm gradient. Bảng 2.1 tóm tắt hoạt động của mỗi quá trình.
- Quá trình tiến Quá trình lùi
tham số giả thuyết cố định giảm gradient
tham số kết quả LSE cố định
tín hiệu dữ liệu xuất của nút tỷ lệ lỗi
Bảng 2-1: Hai quá trình trong thuật toán học lai
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 37
Chương 3: TRÍCH CHỌN ĐẶC TRƯNG
Để có thể thực hiện mô hình ANFIS, trước hết cần phải chuyển tất cả các dạng
dữ liệu nhập vào hệ thống sang dạng số. Chương này sẽ giới thiệu về dữ liệu nhập cho
hệ thống và cách thực hiện trích đặc trưng trên bộ dữ liệu lấy mẫu để tạo thành một cơ
sở dữ liệu chứa các con số đặc trưng cho dữ liệu nhập.
3.1.Giới thiệu sơ lược về trích đặc trưng
Trích chọn đặc trưng là chuyển đổi một ảnh đã phân đoạn thành tập hợp các con
số mô tả nội dung của đối tượng cần nhận dạng. Trong mẫu xét nghiệm Pap, nhân và
bào tương phải được nhận dạng đúng để phân biệt tế bào bình thường và tế bào bất
thường, cũng như để phân biệt được các loại tế bào khác nhau.
3.2.Dữ liệu nhập của hệ thống
3.2.1.Tạo dữ liệu
Các yêu cầu khi tạo dữ liệu ảnh tế bào:
¾ độ phản chiếu giữa nền và đối tượng có độ dao động thấp: điều chỉnh tự
động bằng camera và kính hiển vi
¾ độ phân giải của ảnh: sử dụng độ phóng đại kính hiển vi 400X và độ phân
giải 384 * 284 điểm ảnh 24 bit màu. Độ co giãn là 0.201µm / điểm ảnh.
¾ chỉ tạo ảnh gồm các tế bào đơn, không chứa cụm tế bào
Trong mẫu Pap, ngoài các tế bào cổ tử cung, còn có rất nhiều loại tế bào phụ
khác như hồng cầu, bạch cầu, xác tế bào, vi trùng,… Để đơn giản, dữ liệu nhập chỉ giới
hạn trong các loại sau: tế bào trụ, tế bào gai cận đáy, tế bào gai trung gian và tế bào gai
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 38
bề mặt, tế bào loạn sản nhẹ chưa sưng hoá, tế bào loạn sản vừa, tế bào loạn sản nặng.
Dữ liệu được tạo ra bằng cách quét một lượng lớn các mẫu xét nghiệm vào máy tính.
Dữ liệu này được thực hiện bởi bác sĩ khoa giải phẫu học của đại học Y khoa Herlev,
bằng cách sử dụng camera kĩ thuật số kết nối với kính hiển vi và máy tính.
3.2.2.Dữ liệu
Cơ sở dữ liệu ảnh bao gồm:
¾ 50 ảnh tế bào trụ
¾ 50 ảnh tế bào gai cận đáy
¾ 50 ảnh tế bào gai trung gian
¾ 50 ảnh tế bào gai bề mặt
¾ 100 ảnh tế bào loạn sản nhẹ chưa sừng hoá
¾ 100 ảnh tế bào loạn sản vừa chưa sừng hoá
¾ 100 ảnh tế bào loạn sản nặng chưa sừng hoá
Như vậy, cơ sở dữ liệu ảnh này gồm 200 ảnh tế bào bình thường và 300 ảnh tế
bào loạn sản. Trước khi sử dụng dữ liệu để xây dựng mô hình phân lớp, cơ sở dữ liệu
được chia thành hai tập bằng nhau: tập huấn luyện và tập kiểm nghiệm. Dữ liệu huấn
luyện dùng để xây dựng mô hình phân lớp tế bào. Dữ liệu kiểm nghiệm dùng để đánh
giá mức độ thực hiện của mô hình.
3.2.3.Các đặc tính tế bào học
Các đặc tính của tế bào được dùng để tạo cơ sở dữ liệu cho mô hình ANFIS:
¾ Diện tích nhân
¾ Diện tích bào tương
¾ Độ sáng nhân
¾ Độ sáng bào tương
¾ Đường kính ngắn nhất của nhân
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 39
¾ Đường kính dài nhất của nhân
¾ Đường kính ngắn nhất của bào tương
¾ Đường kính dài nhất của bào tương
¾ Chu vi nhân
¾ Chu vi bào tương
¾ Vị trí nhân
¾ Vị trí bào tương
¾ Cực đại trong nhân
¾ Cực tiểu trong nhân
¾ Cực đại trong bào tương
¾ Cực tiểu trong bào tương
3.3.Dữ liệu xuất của hệ thống
Cơ sở dữ liệu được tạo ra với 20 đặc trưng cùng với đặc trưng thứ 21, là con số
tượng trưng cho phân lớp của tế bào:
¾ 1: tế bào trụ
¾ 2: tế bào gai cận đáy
¾ 3: tế bào gai trung gian
¾ 4: tế bào gai bề mặt
¾ 5: tế bào loạn sản nhẹ chưa sừng hoá
¾ 6: tế bào loạn sản vừa chưa sừng hoá
¾ 7: tế bào loạn sản nặng chưa sừng hoá
Đây chính là dữ liệu xuất dùng cho phân lớp tế bào. Nếu chỉ phân lớp là âm tính
(tương ứng 1, 2, 3, 4 ở trên) hoặc dương tính (tương ứng 4, 6, 7) thì đặc trưng phân lớp
tế bào sẽ gồm:
¾ 1: tế bào bình thường
¾ 2: tế bào loạn sản
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 40
3.4.Trích chọn đặc trưng
Hình 3-1: Ảnh đã phân đoạn
Hãy xem hình 3.1 như một ví dụ về ảnh đã được phân đoạn. Ảnh được phân
đoạn thành 3 phần, tượng trưng cho nhân, bào tương và nền, trong đó mỗi phần đánh
dấu bằng một màu tương ứng. Trong ảnh này, màu xám sáng biểu thị cho nhân, màu
xám tối là bào tương và màu trắng là nền. Như vậy hình 3.1 có thể được gán nhãn lại
như hình 3.2.
Hình 3-2: Ảnh đã gán nhãn
Đối với những ảnh trong cơ sở dữ liệu này, ta có chiều dài một điểm ảnh là:
pixelm
pixels
m
width
width
a
pixel
m /201.0
384
16051.77 µµµ === (3.1)
Sau đây, các đặc trưng khác nhau sẽ được giải thích và mô phỏng bằng công
thức. Qui ước đặt tên cho các đặc trưng là nếu một đặc trưng bắt đầu bằng chữ N thì nó
mô tả nhân, C là bào tương.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 41
3.4.1.Diện tích và tỉ lệ diện tích
Diện tích là số điểm ảnh thuộc một lớp nào đó của đối tượng. Hệ số phép biến
đổi được sử dụng để tính diện tích theo kích thước vật lý (µm2) bằng cách nhân số điểm
ảnh với a2.
Tỷ lệ giữa diện tích nhân Narea và diện tích bào tương Carea được định nghĩa:
CareaNarea
NareaCN +=/ (3.2)
Ví dụ:
Hình 3-3: Các phép tính diện tích
Hình 3.3 chỉ ra số điểm ảnh trong lớp nhân và lớp bào tương. Ta có:
297.0
818.1768.0
768.0/
818.145
768.019
22
2
22
22
=+=+=
=⋅=
=⋅=
mm
m
CareaNarea
NareaCN
maCarea
maNarea
µµ
µ
µ
µ
3.4.2.Độ sáng
Độ sáng là cường độ sáng trung bình của các điểm ảnh của lớp. Mỗi điểm ảnh
chứa thông tin về dải màu đỏ (R), xanh lá cây (G), xanh lục (B) với cường độ từ 0 đến
255.
Cường độ sáng (I) của một điểm ảnh là trung bình của 3 dải màu này:
Blue * 0.114 +Green * 0.587 + Red * .2990=I (3.3)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 42
Cường độ sáng trung bình được tính:
∑
∈
==
componentyx
yx
p
I
N
CcolNcolbrightness
,
,
1)( (3.4)
trong đó, Np là số lượng điểm ảnh thuộc lớp.
3.4.3.Đường kính
Gồm hai loại: đường kính lớn nhất và đường kính nhỏ nhất. Đường kính lớn
nhất là khoảng cách lớn nhất giữa hai điểm tính từ biên. Đường kính nhỏ nhất thẳng
góc với đường kính lớn nhất và chiều dài vừa với một hình chữ nhật bao ngoài lớp.
Các đường kính được tìm thấy dựa theo biên của mỗi thành phần. Khoảng cách
Euclide của tất cả các điểm trên biên được tính và khoảng cách xa nhất chính là đường
kính lớn nhất. Đường kính nhỏ nhất ở một phía được tính bằng khoảng cách vuông góc
tính từ biên đến đường kính lớn nhất. Cuối cùng, đường kính nhỏ nhất được định nghĩa
là tổng hai khoảng cách lớn nhất từ hai phía của đường kính lớn nhất. Các đường kính
được tính theo kích thước vật lý bằng cách nhân với a.
Ví dụ:
Hình 3-4: Vị trí đường kính nhỏ nhất và lớn nhất
Trong hình 3.4 các đường kính tính cho bào tương được xác định theo phương
pháp trên. Chú ý hai đường kính nhỏ nhất đều thẳng góc với đường kính lớn nhất.
Đường kính nhỏ nhất và lớn nhất được tính theo khoảng cách Euclide:
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 43
( ) ( )
( ) ( ) ma
yyxxaClong
µ100.244.10201.036100
2max_1max_2max_1max_
22
22
=⋅=−+−⋅=
−+−⋅=
( ) ( )
( ) ( ) ma
yyxxaCshort
µ025.110.5201.05043
12min_11min_12min_11min_1
22
22
=⋅=−+−⋅=
−+−⋅=
( ) ( )
( ) ( ) ma
yyxxaCshort
µ636.016.3201.04767
22min_21min_22min_21min_2
22
22
=⋅=−+−⋅=
−+−⋅=
mCshortCshortCshort µ660.1636.0205.121 =+=+=
3.4.4.Chu vi
Chu vi là số điểm ảnh nằm ở biên của lớp. Biên được tính theo µm bằng cách
nhân với a.
Ví dụ:
Biên của bào tương được xác định khi tính đường kính lớn nhất và nhỏ nhất của
nó (xem hình 3.4). Như hình vẽ, biên của bào tương gồm 26 điểm ảnh. Như vậy chu vi
bào tương là:
maCperi µ225.526 =⋅=
3.4.5.Vị trí nhân
Tâm của một lớp ( )yx ˆ,ˆ được xem như tâm của trọng lực. Để tính tâm của trọng
lực, trước tiên cần tính các mô men:
∑
∈
⋅=
componentyx
qp
qp yxM
,
, (3.5)
areaM
componentyx
== ∑
∈,
0,0 1 (3.6)
∑
∈
=
componentyx
xM
,
0,1 (3.7)
∑
∈
=
componentyx
yM
,
1,0 (3.8)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 44
0,0
0,1ˆ
M
M
x = (3.9)
0,0
1,0ˆ
M
M
y = (3.10)
Khi các tâm được tính cho cả nhân ( )nn yx ˆ,ˆ và bào tương ( )cc yx ˆ,ˆ , một vị trí
tương quan được tính theo đường kính lớn nhất cho bào tương:
( ) ( )
Clong
yyxxa
Npos cncn
22 ˆˆˆˆ2 −+−⋅= (3.11)
Đặc trưng này chứng tỏ vị trí của nhân trong bào tương.
Ví dụ:
Hình 3-5: Tâm của trọng lực đối với nhân và bào tương
Trong hình 3.5 tâm của trọng lực được tính cho cả lớp nhân và bào tương:
59.4
45
220ˆ ≈==cx
48.3
45
173ˆ ≈==cy
51.5
19
98ˆ ≈==nx
34.3
19
66ˆ ≈==ny
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 45
Cho nên, vị trí tương quan được tính:
( ) ( )
( ) ( )
191.0
100.2
4355201.02
ˆˆˆˆ2
22
22
=−+−⋅=
−+−⋅=
Clong
yyxxa
Npos cncn
3.4.6.Độ giãn dài
Độ giãn dài là tỷ lệ giữa chiều dài đường kính nhỏ nhất và chiều dài đường kính
lớn nhất. Khi tỷ lệ này tiến đến 1 thì lớp gần như là hình vuông.
long
shortelong = (3.12)
Ví dụ:
Đường kính lớn nhất và nhỏ nhất của bào tương được dùng để tính độ giãn dài:
79.0
100.2
660.1 ===
Clong
CshortCelong
3.4.7.Độ tròn
Độ tròn là tỷ lệ giữa diện tích đường tròn bao và diện tích lớp. Đường tròn bao
lấy đường kính lớn nhất của thành phần làm đường kính. Nếu tỷ lệ tiến đến 1 thì lớp là
tròn, và nếu tỷ lệ tiến đến 0 thì lớp gần như là đường thẳng.
22
4
2
long
area
long
arearound ⋅
⋅=
⎟⎠
⎞⎜⎝
⎛⋅
= ππ
(3.13)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 46
Ví dụ:
Hình 3-6: Đường tròn cực tiểu cho nhân
Trong hình 3.6 đường tròn bao được sử dụng cho lớp nhân. Độ tròn được tính
sử dụng đường kính lớn nhất 1.35µm (chưa tính trong ví dụ trước), và diện tích nhân
0.768µm2 (từ ví dụ diện tích):
54.0
35.1
768.044
22 =⋅
⋅=⋅
⋅= ππ Nlong
NareaNround
3.4.8.Cực đại, cực tiểu
Cực đại, cực tiểu là giá trị số lượng giá trị cường độ xám lớn nhất, nhỏ nhất
thuộc đối tượng (nhân, bào tương). Chương trình sẽ kiểm tra tất cả các điểm ảnh thuộc
đối tượng. Nếu điểm ảnh có giá trị cường độ sáng lớn nhất / nhỏ nhất khi so sánh với
các điểm ảnh nằm trong bán kính 3 điểm ảnh, thì biến đếm tăng lên 1.
3.5.Các đặc trưng rút trích
STT Đặc trưng Viết tắt Được tính từ
1 Diện tích nhân Narea
2 Diện tích bào tương Carea
3 Tỷ lệ nhân / bào tương N/C Narea, Carea
4 Độ sáng nhân Ncol
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 47
5 Độ sáng bào tương Ccol
6 Đường kính ngắn nhất của nhân Nshort
7 Đường kính dài nhất của nhân Nlong
8 Độ giãn dài của nhân Nelong Nshort, Nlong
9 Độ tròn của nhân Nround Narea, Nlong
10 Đường kính ngắn nhất bào tương Cshort
11 Đường kính dài nhất của bào
tương
Clong
12 Độ giãn dài của bào tương Celong Cshort, Clong
13 Độ tròn của bào tương Cround Carea, Clong
14 Chu vi nhân Nperim
15 Chu vi bào tương Cperim
16 Vị trí nhân Npos
17 Cực đại trong nhân Nmax
18 Cực tiểu trong nhân Nmin
19 Cực đại trong bào tương Cmax
20 Cực tiểu trong bào tương Cmin
Bảng 3-1 : Danh sách các đặc trưng trích chọn vào cơ sở dữ liệu
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 48
Chương 4: PHÂN LOẠI TẾ BÀO CỔ TỬ CUNG SỬ
DỤNG MÔ HÌNH ANFIS
Phân loại tế bào ung thư cổ tử cung là giai đoạn quan trọng nhất trong hệ
thống khám sàng lọc tự động. Việc phân loại sử dụng mô hình ANFIS sẽ cho kết quả
tốt hơn những phương pháp gom cụm thông thường khác như: k – trung bình, láng
giềng gần nhất, gom cụm mờ… Chương này sẽ giới thiệu những hệ thống cơ sở luật
mà ANFIS thực hiện để cho kết quả tốt nhất có thể.
4.1.Cấu trúc ANFIS trong phân loại tế bào cổ tử cung
4.1.1.Hệ thống suy luận mờ
Không mất tính tổng quát, xét một hệ suy luận gồm 2 đặc trưng của nhân: kích
thước, độ sáng và 4 luật chuyên gia sau:
Luật Diện tích nhân Độ sáng nhân Phân lớp
1 nhỏ tối bình thường
2 lớn sáng loạn sản nhẹ
3 lớn trung bình loạn sản
4 lớn sáng loạn sản nặng
Bảng 4-1: Ví dụ luật mờ phân loại tế bào
Như vậy với cơ sở luật như trên thì các luật Sugeno bậc 0 tương ứng là:
1. Nếu x là A1 và y là B3 thì z1 = p1
2. Nếu x là A2 và y là B1 thì z2 = p2
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 49
3. Nếu x là A2 và y là B2 thì z3 = p3
4. Nếu x là A2 và y là B3 thì z4 = p4
với x là diện tích nhân và y là độ sáng nhân, và zi là dữ liệu xuất của luật thứ i.
Ngưỡng kích hoạt wi của mỗi luật được xác định trong phần giả thiết của luật và
được tính bằng:
( ) ( )
( ) ( )
( ) ( )
( ) ( )yxw
yxw
yxw
yxw
BA
BA
BA
BA
32
22
12
31
4
3
2
1
µµ
µµ
µµ
µµ
×=
×=
×=
×=
(4.1)
trong đó ( )xA 2,1µ và ( )yB 3,2,1µ là các hàm thành viên của dữ liệu nhập x và y, chúng thể
hiện mức độ thỏa mãn của dữ liệu nhập với tập A = {A1,A2,B1,B2,B3}. Các hàm thành
viên này được chọn theo dạng chuông:
ib
i
i
A
a
cx 2)(1
1
−+
=µ (4.2)
với {ai,bi,ci} là các tham số giả thiết, xác định hình dạng thật sự của các hàm thành
viên (Hình 4.1).
Với một bộ dữ liệu nhập bất kì, toàn bộ dữ liệu xuất z của hệ thống suy luận mờ
được xác định bằng cách dùng các ngưỡng
Các file đính kèm theo tài liệu này:
- 0012185.pdf