Để minh họa cho các ưu điểm của phương pháp đề xuất, luận án tiến hành
thực nghiệm để so sánh phương pháp đề xuất với các trường hợp như sau: Thứ
nhất, phương pháp Aweight không xem xét tính chất địa phương của điểm truy
vấn tối ưu và không dùng hàm khoảng cách tối ưu Aweight_WLNR (Aweight
without local nature of the region). Thứ hai, phương pháp Aweight không sử
dụng hàm khoảng cách cải tiến Aweight_WIDF (Aweight without improved
distance functions). Thêm vào đó, luận án thực hiện so sánh với phương pháp
FGSSH (Fast graph similarity search via hashing). Hình 3.10 chỉ ra độ chính xác
trung bình của 10.800 ảnh truy vấn với ba lần lặp phản hồi tại tất cả các cấu hình
2,4, và 8 điểm truy vấn
27 trang |
Chia sẻ: honganh20 | Lượt xem: 359 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số của hàm khoảng cách, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
i khác với sự tương tự giữa chúng trong không gian đặc trưng. Tức
là, các ảnh liên quan về mặt ngữ nghĩa có thể nằm phân tán trong toàn bộ không
gian đặc trưng và nằm rải rác ở một số cụm chứ không phải một cụm duy nhất.
Trong trường hợp này, cách tiếp cận phản hồi liên quan truyền thống [2,29,61,74]
không làm việc tốt (do họ sử dụng cách tiếp cận một điểm truy vấn).
Thực hiện phản hồi liên quan đề cập đến việc tính toán một hoặc nhiều điểm
truy vấn mới trong không gian đặc trưng và thay đổi hàm khoảng cách. Các
phương pháp được trình bày theo cách tiếp cận phản hồi liên quan với truy vấn
tách rời đều có ưu điểm cho kết quả là các ảnh liên quan ngữ nghĩa nằm rải rác
trong toàn bộ không gian đặc trưng. Tuy nhiên, những phương pháp này có
những hạn chế:
(1) Yêu cầu người dùng phải cung cấp đồng thời các ảnh truy vấn đa dạng,
chẳng hạn, để truy vấn chủ đề hoa hồng, người dùng phải cung cấp các ảnh hoa
hồng đỏ, hoa hồng vàng, hoa hồng trắng,... làm truy vấn. Nếu điều kiện này
không được thỏa mãn, kết quả tra cứu khởi tạo sẽ là các ảnh nằm trong một vùng
nào đó chứ không bao gồm các ảnh liên quan nằm trong các vùng khác nhau.
Nếu người dùng cung cấp cho hệ thống các ảnh truy vấn là các ảnh hoa hồng
màu vàng, kết quả tra cứu khởi tạo chỉ có thể trả về các ảnh hoa hồng màu vàng
mà bỏ qua các ảnh hoa hồng màu trắng và màu đỏ. Lý do của việc này là vì trong
các hệ thống tra cứu ảnh truyền thống, các ảnh có véc tơ đặc trưng mức thấp
tương tự nhau sẽ nằm gần nhau (hay trong cùng một cụm đặc trưng mức thấp).
Trên danh sách kết quả khởi tạo gồm có các bông hồng màu vàng, người dùng chỉ
có thể chọn được các bông hồng màu vàng. Hệ thống dựa vào các phản hồi là các
bông hồng màu vàng để tiếp tục tra cứu. Các pha tra cứu tiếp theo sẽ dịch chuyển
đến các vùng màu vàng. Kết quả của hệ thống chỉ có thể thu được các bông hồng
màu vàng. Vì vậy, các vùng hoa hồng màu đỏ và trắng sẽ bị bỏ qua, do đó độ
chính xác của hệ thống sẽ bị giới hạn cho dù pha tra cứu sau đó có ưu việt đến
đâu.
7
(2) Số lần truy vấn cho lần lặp tiếp theo phụ thuộc vào số ảnh liên quan do
người dùng cung cấp, do đó có hai khả năng không thuận lợi xảy ra: Khả năng
thứ nhất, người dùng chọn quá ít ảnh phản hồi (ít hơn số cụm trong không gian
đặc trưng). Trong khả năng này, độ chính xác của hệ thống sẽ không được đảm
bảo vì theo lý thuyết phân cụm, nhiều truy vấn sẽ phủ nhiều cụm hơn. Khả năng
thứ hai là người dùng chọn quá nhiều ảnh phản hồi. Khả năng này sẽ làm tăng
gánh nặng cho pha gộp các danh sách kết quả (mỗi truy vấn sẽ có một danh sách
kết quả). Ngoài ra, quá nhiều truy vấn cũng không cải tiến nhiều độ chính xác của
hệ thống (thực nghiệm trong [49] đã chỉ ra rằng độ chính xác tăng nhanh từ 1 đến
8 truy vấn và tăng chậm khi số truy vấn từ 8 đến 20). Chẳng hạn, trong cơ sở dữ
liệu Corel với chủ đề hoa hồng, mỗi ảnh truy vấn hoa hồng cũng chỉ nằm rải rác
trong 4 cụm (mỗi cụm tương ứng với một màu của hoa hồng).
(3) Sử dụng các trọng số của các truy vấn ngang bằng nhau, tức là, độ quan
trọng của các truy vấn là như nhau cho dù mỗi truy vấn có lân cận khác nhau.
(4) Các đặc trưng có trọng số như nhau cho dù mỗi thành phần đặc trưng có
một độ quan trọng khác nhau.
Những hạn chế này là nguyên nhân chính dẫn đến độ chính xác của hệ thống
tra cứu chưa cao.
Trên cơ sở phân tích các hạn chế của các phương pháp đã có, luận án đề xuất
một phương pháp tra cứu ảnh liên quan ngữ nghĩa. Phương pháp đề xuất có ưu
điểm là:
(1) Chỉ sử dụng một truy vấn để tạo ra kết quả tra cứu khởi tạo đa dạng, gồm
các ảnh nằm trong các vùng khác nhau (giảm gánh nặng cho người dùng trong
việc không phải chọn nhiều ảnh truy vấn).
(2) Phân cụm các ảnh liên quan với thời gian thấp.
(3) Xác định được độ quan trọng ngữ nghĩa của từng truy vấn.
(4) Xác định độ quan trọng theo từng đặc trưng.
Bốn ưu điểm này đã được thể hiện trong phương pháp đã được công bố trong
[CT5, CT6].
2.2. Sơ đồ phƣơng pháp đề xuất
Trên cơ sở các phân tích ở mục 2.1 ở trên, luận án đề xuất sơ đồ của phương
pháp như trên Hình 2.5.
8
Hình 2.5. Cấu trúc phƣơng pháp đề xuất.
Phần tiếp theo của luận án sẽ trình bày chi tiết phương pháp đề xuất. Phần tiếp
theo cần có một số định nghĩa, do đó luận án đưa ra một số định nghĩa ở đây.
Định nghĩa 2.1 (Tập đặc trƣng). Một tập đặc trưng F gồm có N bộ đặc
trưng, mỗi bộ gồm m thành phần, mỗi thành phần là một giá trị thực.
(2.1)
Định nghĩa 2.2 (Không gian đặc trƣng). Một không gian đặc trưng FS gồm
m chiều, mỗi chiều tương ứng với một thành phần thực của bộ đặc trưng t
(t=1..N) thuộc tập đặc trưng F, mỗi điểm pt (t=1..N) trong không gian FS tương
ứng với một bộ đặc trưng trong F.
(2.2)
Định nghĩa 2.3 (Không gian đặc trƣng thứ i). Một không gian đặc trưng thứ
i, ký hiệu là , là một không gian đặc trưng gồm n chiều, mỗi điểm trong không
gian này được ký hiệu là
(t=1..N) có n tọa độ.
(2.3)
Định nghĩa 2.4 (Đo khoảng cách giữa hai điểm trong không gian đặc
trƣng FSi). Đo khoảng cách giữa hai điểm
và
(k,l=1..N) và kl ,được ký
hiệu là (
), là độ đo khoảng cách nào đó.
Ý tƣởng chính của phƣơng pháp đề xuất là không đặt các ảnh (bao gồm cả
ảnh cơ sở dữ liệu và ảnh truy vấn) trong cùng một không gian đặc trưng mà đặt
trong nhiều không gian đặc trưng (trong ngữ cảnh của chương này, luận án ánh xạ
mỗi một biểu diễn của ảnh vào một không gian đặc trưng tương ứng), sau đó thực
hiện tra cứu bằng việc truy vấn trên mỗi không gian đặc trưng này và nhập các
kết quả tương ứng với các không gian đặc trưng thành một kết quả cuối cùng.
Lý do mà phương pháp trong luận án có thể lấy được các ảnh nằm rải rác trong
không gian đặc trưng màu gốc là vì các ảnh được chuyển về biểu diễn xám. Theo
biểu diễn này, các đặc trưng hình dạng và kết cấu sẽ không bị át bởi màu. Một
ảnh hoa hồng (biểu diễn xám) sẽ được ánh xạ thành một điểm trong không gian
T
ru
y
vấn
T
ín
h
toán
Tính toán
Phản hồi Sắp xếp Phân cụm
gia tăng Các cụm
Các điểm
truy vấn
Độ quan trọng
đặc trưng
Độ quan trọng
truy vấn
Độ tương tự
Tập ảnh được
tra cứu
Tập phản
hồi
Cơ sở dữ liệu đặc
trưng
Véc tơ đặc trưng
Ảnh truy vấn
Các biểu diễn
Đại diện cụm
Kết quả
9
đặc trưng. Trong không gian này, do đặc trưng mầu không được bao gồm cho nên
các ảnh cùng chủ đề (chẳng hạn: bông hoa hồng vàng, trắng và đỏ) sẽ có vị trí
gần nhau. Do vậy, phương pháp đề xuất có thể lấy ra được các ảnh hoa hồng màu
đỏ, màu hồng và màu vàng tương ứng với ảnh truy vấn màu đỏ.
Đến đây, quá trình tra cứu sẽ đối sánh giữa ảnh truy vấn và ảnh cơ sở dữ liệu
trong mỗi một không gian đặc trưng riêng lẻ để có được một danh sách kết quả.
Như vậy, ta sẽ có 4 danh sách kết quả. Tiếp theo, bốn danh sách kết quả sẽ được
gộp lại để được một danh sách kết quả cuối cùng.
2.3. Phản hồi liên quan với truy vấn đa điểm
Cách tiếp cận ban đầu đối với tra cứu ảnh dựa vào nội dung không thích ứng
với tra cứu dựa vào nhận thức của người dùng về độ tương tự trực quan. Để khắc
phục vấn đề này, một số phương pháp tra cứu ảnh sử dụng phản hồi liên quan
được đề xuất. Có hai thành phần để học phản hồi liên quan đó là hàm khoảng
cách và điểm truy vấn mới. Hàm khoảng cách được thay đổi thông qua việc học
các trọng số của các thành phần đặc trưng và điểm truy vấn mới thu được bằng
việc học điểm mong muốn mà người dùng tìm kiếm.
2.4. Thuật toán tra cứu ảnh đề xuất
Định nghĩa 2.5 (Truy vấn đa điểm): Một truy vấn đa điểm MQ=<nMQ, PMQ,
WMQ, DMQ, DB, k>, với nMQ biểu thị số các điểm truy vấn trong MQ,
PMQ={PMQ1,,PMQn} là tập nMQ điểm truy vấn trong không gian tìm kiếm DB,
WMQ={wMQ1,,wMQn} là tập các trọng số được kết hợp với PMQ (luận án giả thiết
rằng các trọng số được chuẩn hóa tức là ∑
), DMQ là khoảng cách mà
khi được cho hai điểm bất kỳ pi và pj trong không gian đặc trưng sẽ trả lại khoảng
cách giữa chúng và k là số các điểm được tra cứu trong mỗi lần lặp.
2.4.1. Phân cụm tập ảnh phản hồi
Thuật toán 2.1 dưới đây là thuật toán phân cụm sử dụng k véc tơ riêng CISE
(Clustering Images Set using Eigenvectors) thực hiện việc phân cụm tập các ảnh
thành k cụm.
Thuật toán 2. . Thuật toán phân cụm sử dụng k véc tơ riêng
Input: -Tập các ảnh S s1,s2 sn với si Rn
- Số cụm k
Output: k cụm: C1, C2 Ck
1. Xây dựng ma trận affinity
for i1 to n do
for j1 to n do
if (ij) e p
‖ ‖
else
2. Xây dựng ma trận đường chéo và ma trận Laplace L
for i1 to n do
∑
10
L D-1/2 A D-1/2
3. Tìm k véc tơ riêng lớn nhất 1, x2 k của ma trận Laplace L
for i1 to k do
X [x1T ,x2T kT ]
4. Xây dựng ma trận Y từ X
for i1 to n do
for j1 to k do
yij xij/ ∑
)1/2
Y [y1 ,y2 yk ]
5. Phân thành k cụm thông qua K-Means
for i1 to n do
K-Mean(P)
6. Gán các si vào các cụm
for i1 to n do
if ..
Return C1, C2 Ck
2.4.2. Thuật toán đề xuất cho phân cụm gia tăng
Sau khi thực hiện phân cụm tập ảnh phản hồi của người dùng, để tránh việc
phận cụm lại toàn bộ tập ảnh phản hồi. Luận án thực hiện phân cụm gia tăng cho
mỗi cụm.
Giả sử dữ liệu có phân phối Gauss. Trong thuật toán này, ta coi mỗi cụm như
một nhóm. Khi huấn luyện, ta sẽ ước lượng tâm và ma trận hiệp phương sai.
Công việc xác định cụm của một đối tượng được tác giả qui về bài toán tìm một
ước lượng sao cho: với một đầu vào được cho , nhãn cụm của nó sẽ
được xác định theo:
ŷ0 y (2.8)
Tuy nhiên, rất khó tính toán, do đó thay vì tính toán , ta sẽ ước
lượng qua và Y . Theo luật Bayes, với i là nhãn của nhóm, ta có công
thức:
(2.9)
∑
(2.10)
Giả sử rằng là phân phối chuẩn đa biến với hàm mật độ:
=
∑
∑ (2.11)
Trong đó:
11
Trung bình của nhóm i
∑ : ma trận hiệp phương sai gộp chung của tất cả các nhóm
Giả sử rằng ta biết:
(2.12)
(2.13)
Lưu ý: công thức (2.13) là tỉ số của các mẫu huấn luyện của nhóm i trên tổng
số mẫu huấn luyện.
Đến đây, chúng ta thu được công thức:
(2.14)
Vì mẫu số trong (2.14) không phụ thuộc vào i, nên chúng ta có thể coi nó là
một hằng số C và thu được công thức.
(2.15)
Thay từ (2.11) vào (2.15), ta được:
∑
∑ (2.16)
Vì 2 ∑ trong (2.16) không phụ thuộc vào i nên ta đặt
∑
bằng hằng số và ta có:
∑ (2.17)
và lấy logarit của cả hai vế của (2.17), ta được:
log log log
∑
(2.18)
Giá trị của vế phải (2.18) đúng với mọi nhóm i nên ta chỉ quan tâm đến:
log
∑
(2.19)
=log
[ ∑
∑
]
∑
(2.20)
Như vậy, mục tiêu của ta là cực đại công thức (2.20) theo i.
Do ∑
trong (2.20) không phụ thuộc vào i nên ta coi nó là một hằng số
nên (2.20) biến đổi thành
log
∑
∑
(2.21)
Bỏ qua hằng số , ta có hàm mục tiêu:
log
∑
∑
(2.22)
Với một đầu vào x, chúng ta dự đoán nhãn của nó là i nếu cao nhất.
2.4.3. Công thức đề xuất cho tính khoảng cách cải tiến
Luận án đề xuất công thức tính khoảng cách từ một ảnh đến truy vấn đa
điểm MQ = (Q1, Q2,..Qn). Khoảng cách này (2.23) là cực tiểu của các khoảng
cách có trọng số từ một ảnh đến mỗi truy vấn Qi:
( ) .. (2.23)
ớ . . .
12
Trong công thức (2.23), Dist( ,Qi ) với i=1..n, j=1..k là khoảng
cách từ một ảnh đến một truy vấn Qi với trọng số đặc trưng (xác
định theo thuật toán IF ), là trọng số ngữ nghĩa kết hợp với khoảng
cách dij (xem cách tính trọng số ngữ nghĩa trong công thức (2.24)).
2.4.4. Công thức đề xuất cho tính trọng số ngữ nghĩa của truy vấn
Đề xuất được dựa trên nhận thức rằng, trong một cụm chứa nhiều ảnh liên
quan ngữ nghĩa sẽ quan trọng hơn các cụm còn lại. Do đó, truy vấn được tạo ra từ
cụm đó sẽ có trọng số ngữ nghĩa cao hơn các cụm còn lại. Vì vậy, tác giả đề xuất
tính trọng số ngữ nghĩa wij kết hợp với khoảng cách dij từ ảnh đến truy vấn Qi
(thuộc cụm ngữ nghĩa i) là tỉ số giữa số ảnh liên quan ngữ nghĩa trong cụm i và
tổng số các ảnh liên quan của n cụm ngữ nghĩa.
ụ
∑ ụ
ớ (2.24)
Các trọng số cần thỏa mãn điều kiện ∑
ớ . . .
2.4.5. Thuật toán đề xuất cho tính độ quan trọng đặc trƣng
Ý tưởng chính của việc xác định độ quan trọng đặc trưng là dựa vào sự phản
hồi của người dùng và độ phân tán của các điểm dữ liệu. Khi người dùng phản
hồi một số ảnh liên quan ngữ nghĩa với ảnh truy vấn, phương pháp đề xuất sẽ
phân cụm các ảnh này thành các cụm và xét mỗi cụm trong số các cụm này như
sau: mỗi ảnh trong một cụm sẽ là một điểm trong không gian đa đặc trưng và các
điểm này sẽ có vị trí gần nhau trong không gian đa đặc trưng. Một hình bao các
điểm này sẽ được chiếu xuống các trục tương ứng với các đặc trưng, sau đó tính
phương sai của các điểm này theo mỗi trục (độ phân tán dữ liệu theo một trục
trong không gian đặc trưng lớn có nghĩa là độ quan trọng theo trục đó nhỏ). Do
đó, độ quan trọng của mỗi đặc trưng trong không gian đa đặc trưng là nghịch đảo
của phương sai của các điểm theo trục đó.
2.4.6. Thuật toán đề xuất cho gộp các danh sách kết quả
Với mỗi điểm truy vấn, hệ thống sẽ cho ra một danh sách kết quả. Các danh
sách này cần được gộp lại để có một danh sách kết quả cuối cùng. Thuật toán gộp
thực hiện công việc này.
Mệnh đề 1. [Độ phức tạp của thuật toán Combination]:
Độ phức tạp của thuật toán Combination là . với n là số danh sách
cần kết hợp và k là số ảnh trả về của mỗi danh sách.
2.4.7. Thuật toán đề xuất chung cho tra cứu ảnh liên quan ngữ nghĩa
Ở phần này, luận án đề xuất một thuật toán, có tên SRIR (Semantic – Related
Image Retrieval), không đòi hỏi người dùng phải cung cấp đồng thời nhiều truy
vấn đa dạng. Dưới đây là mô tả thuật toán tra cứu các ảnh liên quan ngữ nghĩa
SRIR.
Thuật toán 2.5. Thuật toán SRIR
Input:
Tập các ảnh cơ sở dữ liệu DB
Ảnh truy vấn Q
13
Số các ảnh được tra c u sau mỗi lần lặp k
Không gian đặc trưng F
Số đặc trưng m
Ouput:
Tập ảnh kết quả R
C+Q; PMQFC+ ;
WMQFC+ ; DMQFC+ ( )
s1 ;
C- ; PMQFC- ;
WMQFC- ; DMQFC- ( )
s2 ;
G+ 2 ; PMQFG+ ;
WMQFG+ ; DMQFG+ ( )
s3 ;
G- ; PMQFG- ;
WMQFG- ; DMQFG- ( )
s4 ;
( )
US ;
repeat
USUS ;
CL ;
for i1 to n do
;
ci (CiCL);
PMQici
for j1 to k do
WMQi
ụ
∑ ụ
DMQid ( );
Ri;
SR
until User dừng phản hồi
return R;
Mệnh đề 2. [Độ phức tạp của thuật toán SRIR]:
Độ phức tạp của thuật toán SRIR là với N là số các ảnh có trong CSDL.
2.5. Đánh giá thực nghiệm
2.5.1 Môi trƣờng thực nghiệm
14
Cơ sở dữ liệu được sử dụng cho thử nghiệm là tập con của Corel gồm 3.400
ảnh.
2.5.3. Thực hiện truy vấn và đánh giá
Để kiểm tra độ chính xác của phương phấp đề xuất Tất cả 3400 ảnh trong tập
ảnh được dùng làm các truy vấn. Độ chính xác1 trung bình ở mức 150 ảnh trả về
được sử dụng để đánh giá. Trong Bảng 2.2, thể hiện độ chính xác trung bình của
bốn phương pháp là Basic C+, JF, MMRF và phương pháp đề xuất SRIR tại các
mức 1,4 ,8 ,12, 16 và 20 truy vấn, với số cụm cũng chính là số truy vấn.
Bảng 2.2. Bảng kết quả của 3 phƣơng pháp theo số truy vấn trong một lần
phản hồi.
Phƣơng
pháp
Độ chính xác theo số truy vấn
1 truy
vấn
4 truy
vấn
8 truy
vấn
12 truy
vấn
16 truy
vấn
20 truy
vấn
Basic C+ 0.20 0.22 0.23 0.24 0.245 0.25
JF 0.24 0.29 0.31 0.33 0.34 0.35
MMRF 0.243 0.31 0.315 0.323 0.334 0.365
SRIR 0.36490 0.39789 0.40035 0.40241 0.40360 0.40385
Các kết quả thực nghiệm được chỉ ra trong Hình 2.11. Trục ngang chỉ ra số
cụm (có thể là 1, 4, 8, 12, 16, 20). Trục đứng chỉ ra độ chính xác. Ba phương
pháp khác nhau gồm Basic C+ , JF, MMRF và SRIR được chỉ ra bởi 3 đường
cong.
Hình 2.11 với Độ chính xác của các hệ thống tăng lên (trục đứng) cùng với sự
tăng của trung ngang (số các cụm). Nhiều cụm được sử dụng trong tra cứu, độ
chính xác hệ thống sẽ cao hơn. Dễ thấy, độ chính xác của phương pháp SRIR tốt
hơn khi số cụm trong khoảng từ 1 đến 8, cụ thể là 36.490% ở mức 1, 39.789% ở
mức 4 và 40.035% ở mức 8.
.
Hình 2.11. So sánh độ chính xác.
1
Độ chính xác (precision) là tỉ số giữa số các ảnh liên quan với ảnh truy vấn trong tập kết quả trả về trên tổng
số các ảnh trả về.
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
1 4 8 12 16 20
Đ
ộ
c
h
ín
h
x
ác
Số truy vấn phản hồi
Basic C+
JF
MMRF
SRIR
15
Trong phương pháp SRIR, đường cong độ chính xác tăng nhanh từ 1 đến 8
cụm (đặc biệt là từ 1 đến 4) và tăng chậm trong khoảng từ 12 đến 20 cụm, do 8
cụm đã phủ hầu hết các cụm trong không gian đặc trưng. Dù phương pháp JF
cũng tăng nhanh trong khoảng từ 1 đến 8 truy vấn [49] nhưng phương pháp đề
xuất SRIR có độ chính xác cao hơn hẳn mà không làm tăng thời gian tra cứu. Lý
do chính của việc này là trong phương pháp đề xuất, dù số cụm trong khoảng từ 1
đến 8 nhưng tận dụng được thông tin ngữ nghĩa từ số phản hồi của người dùng
nhiều hơn 8.
2.6. Kết luận Chƣơng 2
Luận án đã tập trung vào việc phân tích các ưu điểm và hạn chế của các
phương pháp đã có. Trên cơ sở đó đề xuất phương pháp, có tên là SRIR, giải
quyết bốn vấn đề chính đó là: (1) Chỉ sử dụng một truy vấn để tạo ra kết quả tra
cứu khởi tạo đa dạng, gồm các ảnh nằm trong các vùng khác nhau (giảm gánh
nặng cho người dùng trong việc không phải chọn nhiều ảnh truy vấn); (2) Phân
cụm các ảnh liên quan với thời gian thấp; (3) xác định được độ quan trọng ngữ
nghĩa của từng truy vấn và (4) xác định độ quan trọng theo từng đặc trưng.
Kết quả thực nghiệm trên cơ sở dữ liệu đặc trưng gồm 3400 ảnh đã chỉ ra rằng
phương pháp được đề xuất SRIR cung cấp một độ chính xác cao hơn hẳn so với
các phương pháp Basic C+, MMRF và phương pháp JF.
16
Chƣơng 3. PHƢƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG TRỌNG SỐ
THÍCH NGHI
3.1. Giới thiệu
Chương 2 của luận án đã trình bày phương pháp tra cứu ảnh [CT5] có thể lấy
được các điểm ảnh cơ sở dữ liệu nằm rải rác trong toàn bộ không gian đặc trưng
và cho kết quả tra cứu cao hơn những phương pháp được so sánh. Tuy nhiên,
phương pháp này và những phương pháp hiện có chưa giải quyết được hai hạn
chế sau:
Thứ nhất, không khai thác đầy đủ thông tin phản hồi (mức độ liên quan của
mỗi ảnh) để xác định các điểm truy vấn tối ưu. Chẳng hạn, Hình 3.1 là giao diện
chung của các hệ thống hiện có. Giao diện này cho chúng ta thấy, người dùng chỉ
có thể tích chọn vào ô ở phía trên của ảnh (nếu ảnh là liên quan) và không tích
chọn (nếu ảnh không liên quan), Trong khi người dùng đánh giá ảnh có ID
pl_flower\84059 cao hơn ảnh có ID pl_flower\476083.
Hình 3.1: Giao diện điển hình của hệ thống CBIR với phản hồi liên quan.
Thứ hai, các phương pháp ở trên coi các vùng chứa các điểm truy vấn tối ưu
khác nhau là ngang bằng nhau và gán cùng trọng số cho tất cả các điểm lân cận
của truy vấn tối ưu. Điều này là không thích hợp vì các vùng khác nhau thường
có những thuộc tính riêng biệt.
Hình 3.2. Minh họa vùng truy vấn tối ƣu ngang bằng nhau. (a) Hình bên trái:
điểm truy vấn thứ nhất. (b) Hình bên phải: điểm truy vấn thứ hai.
17
Dựa trên quan sát này, luận án đã đề xuất một phương pháp tra cứu ảnh thông
qua trọng số thích nghi, có tên là AWEIGH (An efficient image retrieval method
using adaptive weights) [CT6]. Trong phương pháp này, thay vì sử dụng một véc
tơ trọng số giống nhau cho các vùng chứa các điểm truy vấn tối ưu khác nhau,
phương pháp tự động tính toán các điểm truy vấn tối ưu và các véc tơ trọng số tối
ưu tương ứng với các vùng mà chứa các điểm truy vấn tối ưu dựa vào phản hồi
của người dùng.
Bên cạnh đó, các phương pháp trước đây thực hiện phân cụm tất cả các ảnh
phản hồi, do đó độ phức tạp tính toán của các phương pháp đó sẽ cao. Để giải
quyết hạn chế này, phương pháp đề xuất chỉ phân cụm các phản hồi trong lần lặp
đầu tiên (từ lần lặp thứ hai, phương pháp chỉ phân lớp các phản hồi vào các cụm)
(xem mục 2.3 của Chương 2).
Hình 3.3 ở dưới chỉ ra sơ đồ của phương pháp đề xuất trong luận án. Sự khác
biệt chính giữa đề xuất này trong luận án và các phương pháp tra cứu ảnh phản
hồi liên quan đã có nằm ở ba thành phần chính (thuộc đường biên nét đứt hình
chữ nhật bao): (a) Xác định các điểm truy vấn tối ưu, (b) tính toán các véc tơ
trọng số và (c) Tính toán các hàm khoảng cách cải tiến. Các thành phần này có
thể nhúng vào bất kỳ một hệ thống tra cứu ảnh sử dụng phản hồi liên quan nào,
do đó luận án sẽ thực hiện mô tả mỗi thành phần này một cách tách biệt ở các
mục tiếp sau.
Hình 3.3. Sơ đồ của tra cứu ảnh sử dụng các trọng số thích nghi.
Máy tìm kiếm
AWEIGHT
Xác định các điểm
truy vấn tối ưu
Xác định các
trọng số Máy tìm kiếm
Tập kết quả
Tập phản hồi
Phân cụm
các ảnh
Tập huấn
luyện
Tập kết quả
Tập phản
hồi
Gia tăng
cụm
Tính toán hàm
khoảng cách cải tiến
Ảnh truy vấn
18
3.2. Thuật toán xác định điểm truy vấn tối ƣu và bộ trọng số thích nghi của
hàm khoảng cách cải tiến.
Trong phần này, luận án trình bày kỹ thuật đề xuất để xác định điểm truy vấn
tối ưu và trọng số thích nghi của hàm khoảng cách. Kỹ thuật xác định điểm truy
vấn tối ưu và các trọng số thích nghi theo một cụm các ảnh được cho. Trong
trường hợp nhiều cụm, kỹ thuật này được thực hiện cho từng cụm.
Ở đây, ta giả sử đã có cụm i (i=1,,g) nào đó, mỗi ảnh trong cụm i được biểu
diễn bởi img
img img img với j=1n , ma trận M
img
img
(n là số các phần tử trong cụm i) biểu diễn các ảnh trong
cụm i. Giả thiết véc tơ truy vấn tối ưu đối với cụm i là
q q
q
q
. Giả sử thông tin đánh giá của người dùng
dưới dạng mức độ liên quan cho mỗi img
(j=1,..,n ) được ký hiệu là lr
(ở
đây lr
2 , lr
cao thì khoảng cách nhỏ hay độ tương tự cao), véc tơ
L lr
lr
. lr
sẽ biểu diễn thông tin đánh giá của người dùng
dưới dạng mức độ liên quan của cụm M img
img
. Bài toán
tìm điểm truy vấn tối ưu q và ma trận trọng số được đưa về bài toán tối ưu
có ràng buộc như sau:
min ∑ lr
(img
q )
img
q
(3.1)
Với ràng buộc det( )=1
Ở đây det( ) là định thức của ma trận (ràng buộc det( )=1 để tránh
trường hợp ma trận là ma trận không).
Để tìm được nghiệm q và của bài toán trong (3.1), ta sử dụng phương
pháp nhân tử Lagrange để giải:
- Điểm truy vấn tối ưu q :
q
∑
với q
∑
∑
m . d (3.2)
- Ma trận trọng số :
det C
C (3.3)
Với ma trận hiệp phương sai có trọng số của các ảnh trong cụm i:
C c
với:
c
∑ lr
img
mg̅̅ ̅̅ ̅
img
mg̅̅ ̅̅ ̅
(3.4)
Từ véc tơ truy vấn tối ưu q và ma trận trọng số W, hàm khoảng cách được
xác định như sau:
d (img
q ) (img
q )
(img
q ) (3.5)
Cho Cpf (q
) là danh sách các điểm trong cụm các mẫu phản hồi dương
tương ứng với điểm truy vấn tối ưu thứ i (q
tức là danh sách các điểm trong
19
hình ellip tương ứng. Nearest p là danh sách k điểm gần nhất đối với pi.
e e Nearest p e Cpf q
là các điểm phản hồi dương lân cận k
của điểm pi. Hàm khoảng cách đề xuất được viết như sau:
d (p q
)
d (p q
) (3.6)
Khi đó: d (p q
) là khoảng cách cải tiến từ một điểm pi tới điểm
truy vấn tối ưu q
. d p q
là khoảng cách từ pi tới điểm truy vấn tối ưu
q
theo Thuật toán 3.2.
3.3. Đề xuất thuật toán tra cứu ảnh sử dụng bộ trọng số thích nghi
Trên cơ sở các nội dung đã trình bày ở trên, luận án đề xuất một thuật toán tra
cứu ảnh sử dụng bộ trọng số thích nghi AWEIGHT sử dụng điểm truy vấn tối ưu,
hàm khoảng cách tối ưu và hàm khoảng cách cải tiến.
Thuật toán 3.2. Thuật toán AWEIGHT
Input:
Image set: S
Query: Qinitial
Number of retrieved images after each interation: k
Output:
The result set: Result(Qopt)
1. Result(Qinitial) ;
2. Relevant( ,N)Feedback esult N
;
3. CISE(Relevant( ,N), g, IMG)
4. D{ i N }
5. Repeat
5.1 for i1 to g do
FQM( , , )
5.2 Result(Qopt) <g, { , ,... }, { }, ,
S, k>;
5.3 Relevant( N’)Feedback esult( ) N
;
5.4 For j to N’ do
INC(D, imgj Relevant( N’), i);
Add(imgj, )
until (User stops responding);
6. Return Result(Qopt);
3.4. Thử nghiệm và đánh giá kết quả
3.4.1. Môi trƣờng thực nghiệm
Cơ sở dữ liệu ảnh
Hiệu quả tra cứu của phương pháp đề xuất được đánh giá trên một cơ sở dữ
liệu (CSDL) gồm 10.800 ảnh. CSDL ảnh này là tập con của Corel Photo Gallery.
20
3.4.2. Các kết quả thực nghiệm và thảo luận
Trong phần thực nghiệm, các tham số được lựa chọn như sau:
Hiệu quả tra cứu được đánh giá trên cơ sở dữ liệu ảnh COREL gồm 10.800
ảnh, tất cả các ảnh trong cơ sở dữ liệu được sử dụng để thực hiện các truy vấn.
Thực nghiệm thực hiện đánh giá độ chính xác của phương pháp đề xuất dựa trên
độ chính xác trung bình của 10.800 ảnh truy vấn. Mỗi truy vấn thực hiện sẽ trả về
100 ảnh, lý do chọn 100 ảnh là bởi vì người dùng thường chỉ xem xét 2 trang màn
hình và mỗi trang màn hình chứa 50 ảnh để lựa chọn ảnh phản hồi.
Các kết quả, độ chính xác trung bình của 10800 truy vấn, được thể hiện bằng số
liệu trong Bảng 3.2 và bằng đồ thị trong Hình 3.5 ở dưới. Chi tiết về độ chính xác
của to
Các file đính kèm theo tài liệu này:
- tom_tat_luan_an_nang_cao_do_chinh_xac_tra_cuu_anh_dua_vao_no.pdf