MỤC LỤC
Trang phụ bìa
Lời cảm ơn
MỤC LỤC ------------------------------------------------------------------------------- i
THUẬT NGỮ TIẾNG ANH:--------------------------------------------------------- iii
DANH MU ̣ C CA ́ C HI ̀NH VE ̃ -------------------------------------------------------- iv
CHưƠNG I: MỞ ĐẦU ---------------------------------------------------------------- 1
1.1. Cơ sở nghiên cứu và mục đích của luận văn ---------------------------- 3
1.2. Tổ chức của luận văn: -------------------------------------------------------- 4
CHưƠNG II: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH --------- 5
2.1. Tài liệu ảnh --------------------------------------------------------------------- 5
2.2. Hệ phân tích trang tài liệu -------------------------------------------------- 5
2.3. Thu thập dữ liệu ảnh --------------------------------------------------------- 6
2.4. Tiền xử lý điểm ảnh ----------------------------------------------------------- 9
2.4.1. Xử lý nhị phân ---------------------------------------------------------- 10
2.4.2. Giảm nhiễu--------------------------------------------------------------- 11
2.4.3. Phân đoạn ảnh ----------------------------------------------------------- 12
2.4.4. Làm mảnh và xác định vùng ----------------------------------------- 12
2.4.5. Mã hóa CC và véctơ hóa ---------------------------------------------- 13
2.5. Phân ti ́ ch đă ̣ c trưng cu ̉ a ta ̀ i liê ̣ u a ̉ nh ------------------------------------- 15
2.6. Phân ti ́ ch đô ́ i tươ ̣ ng văn ba ̉ n trong ta ̀ i liê ̣ u ----------------------------- 15
2.6.1. Xác định góc nghiêng của văn bản ---------------------------------- 16
2.6.2. Phân ti ́ ch bô ́ cu ̣ c cu ̉ a trang ta ̀ i liê ̣ u a ̉ nh ------------------------------ 18
2.7. Nhận dạng ký tự quang học (OCR) --------------------------------------- 19
2.7.1. Thuâ ̣ t toa ́ n OCR ----------------------------------------------------- 20
2.7.1.1. Trích chọn đặc trưng --------------------------------------- 20
2.7.1.2. Phân loại ------------------------------------------------------ 21
2.7.2. Nhận dạng ký tự dựa trên ngữ cảnh ------------------------------ 21
2.8. Phân tích các đối tượng ảnh trong tài liệu ------------------------------ 22
CHưƠNG 3: THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI
LIỆU ẢNH ------------------------------------------------------------------------------ 24
3.1. Tô ̉ng quan vê ̀ phân ta ́ ch văn ba ̉ n – ảnh --------------------------------- 24
3.2. Những đặc trưng chung của một tệp tài liệu ảnh --------------------- 27
3.3. Thuật toán phân tách văn bản - ảnh -------------------------------------- 30
3.3.1. Xoá bỏ các đối tượng tuyến tính --------------------------------- 31
3.3.2. Phân tích các thành phần liên thông của nét bút --------------- 32
3.3.3. Kết hợp các nét ký tự tạo thành các chuỗi văn bản ------------ 34
3.3.4. Thực hiện các phép toán hình thái ------------------------------- 35
3.3.5. Phân tích các thành phần liên thông mới ----------------------- 35
3.3.6. Biểu diễn cấu trúc thông tin của các chuỗi văn bản ----------- 36
CHưƠNG IV: PHưƠNG PHÁP PHÂN TÍCH BẢNG T-RECS TRONG
TRANG TA ̀ I LIÊ ̣ U A ̉ NH ------------------------------------------------------------ 39
4.1. Giới thiệu -------------------------------------------------------------------- 39
4.2. Thuật toán phân đoạn khởi tạo ---------------------------------------- 41
4.2.1. Trường hợp thuật toán nhận dạng sai cột ----------------------- 42
4.2.2. Cải tiến các bước của thuật toán phân đoạn khởi tạo T - Recs++ 44
4.2.3. Những ưu điểm của thuật toán ----------------------------------- 46
4.2.4. Những mặt hạn chế của thuật toán khởi tạo -------------------- 47
4.3. Các bước xử lý khối sau khi phân đoạn ------------------------------ 48
4.3.1. Trộn các khối phân đoạn sai -------------------------------------- 48
4.3.2. Phân tách các cột bị trộn vào một khối -------------------------- 49
4.3.3. Nhóm các từ bị phân tách ----------------------------------------- 52
4.4. Phân tích khối -------------------------------------------------------------- 53
4.5. Xác định cấu trúc các cột, hàng ---------------------------------------- 54
CHưƠNG 5 CHưƠNG TRI ̀NH THư ̉ NGHIỆM VA ̀ MINH HO ̣ A THUÂ ̣ T
TOÁN T-RECS++ --------------------------------------------------------------------- 56
5.1. Mô tả chương trình ------------------------------------------------------- 56
5.2. Mô ̣ t sô ́ kê ́ t qua ̉ ------------------------------------------------------------- 58
KÊ ́ T LUÂ ̣ N VA ̀ ĐÊ ̀ XUÂ ́ T ---------------------------------------------------------- 61
74 trang |
Chia sẻ: maiphuongdc | Lượt xem: 1797 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Luận văn Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ích của việc nhận dạng
ảnh là lấy ra được các thông tin mang ý nghĩa xuất hiện bên trong nội dung
của ảnh.
Phân tích tài liệu ảnh càng trở nên quan trọng hơn khi mà tài liệu hầu
như được tạo ra và xử lý bằng máy tính thì việc Những người làm việc trên
máy tính liên quan đến việc truyền tải và chuyển đổi tệp dữ liệu nhận thấy
một điều rằng các tệp dữ liệu thường ít khi tương thích với nhau. Bởi vì có sự
khác nhau về ngôn ngữ, đặc điểm của hệ thống, và sự thay đổi của các phiên
bản CAD và các gói định dạng văn bản, do đó các tệp dữ liệu của những hệ
thống khác nhau thường không tương thích với nhau. Một hệ thống xử lý tài
liệu có thể chuyển đổi một định dạng tài liệu ảnh kỹ thuật này sang định dạng
khác, nhưng mục đích của hệ thống cũng phải có khả năng chuyển đổi được
những tài liệu ảnh vẽ bằng tay. Điều này cũng giống như việc nhận dạng chữ
viết tay và văn bản trong OCR. Khi máy tính có khả năng phân tích được
những hình vẽ tay phức tạp một cách nhanh chóng và chính xác thì vấn đề
nhận dạng ảnh sẽ được giải quyết, tuy nhiên để đến khi đạt được điều đó thì
vẫn còn nhiều cơ hội và thách thức đối với lĩnh vực nghiên cứu này.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
23
Trong các bước xử lý đối tượng ảnh có những bước xứ lý chung cũng
giống như đối với nhận dạng văn bản. Các phương pháp tiền xử lý, phân
đoạn, và trích chọn đặc trưng được mô tả trước đây sẽ được thực hiện trước
tiên. Thuật toán phân đoạn khởi tạo thường để áp dụng cho tài liệu có lẫn đối
tượng văn bản và ảnh nhằm tách riêng thành hai phần văn bản và ảnh.
Hầu hết các hệ thống OCR thương mại có khả năng nhận dạng các
đường biên dài và đường kẻ trong bảng khác so với cách nhận dạng ký tự, do
đó việc cố gắng nhận dạng các đối tượng đó như là ký tự không xảy ra. Hệ
phân tích ảnh cho các bản vẽ kỹ thuật phải phân biệt được đâu là văn bản và
đâu là ảnh. Thông thường các hệ thống đều có khả năng nhận dạng tốt các đối
tượng ảnh ngoại trừ một số trường hợp đặc biệt chẳng hạn khi ký tự nối liền
với các hình vẽ gây ra nhầm lẫn đây là một đối tượng ảnh; hay có những biểu
tượng qua nhỏ và được coi như là một ký tự. Tách đoạn và phân tích ảnh màu
với nhiều lớp của bản đồ, nhận dạng đối tượng ảnh ba chiều trong ảnh kỹ
thuật, và những bản vẽ kiến trúc 3 – D là những thí dụ cho thấy còn nhiều
thách thức đối với những người làm nghiên cứu trong lĩnh vực nhận dạng. Rõ
ràng rằng rất nhiều miền ứng dụng phụ thuộc tri thức cũng được áp dụng vào
trong tất cả những hệ thống nhận dạng, phân tích ảnh.
Hệ phân tích tài liệu ảnh và các thành phần chung đã được mô tả tổng
quan trong chương này . Trong đó đã trình bày các bước chính trong quá trình
xử lý ảnh từ khi thu nhận ảnh đến khi trích ra được nhữn g thông tin người
dùng mong muốn . Trong chương 3 sẽ mô tả chi tiết những thuật toán nhận
dạng đối tượng ảnh dựa vào thành phần liên thông trong tài liệu có lẫn ảnh và
văn bản.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
24
CHƢƠNG 3
THUẬT TOÁN TÁCH VĂN BẢN - ẢNH
TỪ TRANG TÀI LIỆU ẢNH
3.1. Tổng quan về phân tách văn bản – ảnh
Như chúng ta đã biết một trang tài liệu ảnh thường chứa đựng các
thông tin hỗn hợp như các đoạn văn bản và ảnh, chẳng hạn như các trang báo
được quét, bản đồ hay các tài liệu được quét từ máy quét. Do đó để lấy ra
được phần chứa đựng thông tin và phần chứa ảnh riêng rẽ và chính xác cần có
các kỹ thuật xử lý phức tạp. Các thuật toán tách văn bản - ảnh giúp chúng ta
lấy ra được các thông tin như vậy. Một thuật toán tách văn bản - ảnh sẽ phân
tách tài liệu thành hai lớp: lớp chứa văn bản và lớp chứa các đối tượng ảnh.
Chương này sẽ trình khái quát về các phương pháp tách văn bản - ảnh và trình
bày một thuật toán phân tách văn bản - ảnh hiệu quả. Tư tưởng cơ bản của
thuật toán là trước tiên đi xác định các vùng không phải là văn bản và lưu giữ
thông tin của vùng này vào lớp các đối tượng ảnh. Các vùng còn lại sẽ thuộc
lớp văn bản. Cách làm như vậy sẽ hiệu quả hơn là trước tiên đi xác định trực
tiếp các vùng văn bản.
Trong một hệ thống nhận dạng tài liệu, một tài liệu thường chứa nhiều
loại biểu tượng (các kiểu ký tự, ảnh) thông tin khác nhau. Chính vì có sự khác
nhau lớn giữa các đặc trưng của từng loại biểu tượng mà chúng sẽ được xử lý
theo từng kỹ thuật khác nhau. Hơn thế nữa, những yêu cầu cao đối với các kỹ
thuật xử lý ảnh như các phép véc tơ hóa đối tượng ảnh, nhận dạng các loại ký
tự Tiếng Anh, ký tự số, ký tự Trung Hoa đòi hỏi phải được nghiên cứu dựa
theo những cách thức khác nhau. Chính vì những lý do đó tách các thành
phần văn bản và ảnh từ những tệp tài liệu ảnh là một yêu cầu cần thiết đối với
máy tính.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
25
Có rất nhiều phương pháp tách văn bản và ảnh từ trang tài liệu ảnh
được công bố trước đây. Phương pháp được đưa ra trong tài liệu [3] dựa trên
khái niệm, đối tượng văn bản bao giờ cũng có kích thước nhỏ hơn đối tượng
ảnh, quá trình tách văn bản và ảnh được thực hiện sau khi đã làm mảnh các
đối tượng. Phương pháp trên khá đơn giản nhưng nó sẽ không hiệu quả khi
một ký tự tiếp xúc với một ký tự khác hay một đối tượng ảnh khác. Yamada
[6] giới thiệu một phương pháp tách các đối tượng từ bản đồ địa hình, trong
đó phương pháp có thể tách ra các đối tượng là đường đi và các toà nhà, phần
còn lại của bản đồ là các đối tượng văn bản. Một trong những phương pháp
được biết đến nhiều nhất là của Wong, Casey và Wahl [7], được điều chỉnh và
cải tiến trong [2] Tuy nhiên, một số chứng minh cho thấy phương pháp trên
chỉ hoạt động hiệu quả trên các tệp tài liệu chứa nhiều văn bản, ngược lại trên
các tài liệu ảnh chứa nhiều các đối tượng ảnh thì phương pháp không hiệu
quả. Một vài phương pháp dựa trên các khoảng trắng [15]. Phương pháp được
biết đến là hoạt động hiệu quả nhất trong kỹ thuật tách văn bản - ảnh được
đưa ra trong [4]. Phương pháp này dựa trên việc phân tích các thành phần liên
thông và dựa vào phép biến đổi Hough để nhóm các thành phần trong cùng
một chuỗi ký tự và tách chúng ra khỏi các đối tượng ảnh. Phương pháp hoạt
động hiệu quả trên cả những thay đổi kiểu phông chữ, kích cỡ phông chữ và
hướng văn bản.
Tất cả các phương pháp được giới thiệu ở trên hoạt động dựa trên các
trang tài liệu ảnh thỏa mãn các yêu cầu sau:
- Tài liệu ảnh phải không có các thành phần nhiễu và chúng phải được
xử lý để chuẩn hoá một số điều kiện trước khi thực hiện thuật toán.
- Các chuỗi ký tự trong tài liệu ảnh phải không tiếp xúc với đối tượng
ảnh. Hướng của các chuỗi ký tự thường được nhận dạng theo chiều ngang hay
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
26
chiều dọc. Trong trường hợp chuỗi ký tự có hướng khác việc nhận dạng sẽ
khó hơn.
- Văn bản phải không chứa các kiểu ký tự Trung Hoa [16].
Tuy nhiên những điều kiện, yêu cầu đối với tài liệu được nhận dạng ở
trên đã làm hạn chế việc nhận dạng một số lượng lớn tài liệu của một số ứng
dụng. Chẳng hạn trong ứng dụng CAD/CAM, nó sẽ chuyển một số lượng lớn
tài liệu ảnh trên giấy sang định dạng của CAD/CAM. Tuy nhiên những loại
tài liệu ảnh vẽ này lại có một số lượng lớn thành phần nhiễu, có các ký tự tiếp
xúc với ký tự và ký tự tiếp xúc với các đối tượng ảnh. Mặc dù có một số thao
tác xử lý những vấn đề này nhưng chúng vẫn gặp phải một số hạn chế đó là
vấn đề thời gian.
Trong các phương pháp phân tách văn bản và ảnh trong tài liệu ảnh, có
thể chia thành ba loại phương pháp cơ bản sau:
1. Sử dụng các phép biến đổi hình thái để lọc ra các đối tượng tuyến
tính, chẳng hạn các hình vẽ và sau đó tách những đối tượng này ra khỏi tài
liệu, những thành phần còn lại sẽ được coi là văn bản. Phương pháp này đặc
biệt có hiệu quả đối với các tài liệu là các bản đồ đơn giản [5][14], tuy nhiên
nó sẽ gặp phải khó khăn khi mà trong tài liệu có các hình vẽ phức tạp hơn.
2. Tương tự như vậy, một số khác lại đi tìm các đường kẻ để phân loại
các đối tượng, dựa vào phép biến đổi véc tơ hoá [12] của tài liệu ảnh.
3. Phương pháp thứ 3 được sử dụng nhiều nhất, dựa trên việc phân
tích các thành phần liên thông, và các thành phần liên thông này sẽ được lọc
ra xem chúng thuộc lớp đối tượng nào (văn bản hay ảnh) dựa vào một số quy
tắc xác định. Một trong những thuật toán nổi tiếng nhất dựa trên phương pháp
này được đưa ra bởi Fletcher và Kasturi [4]. Thuật toán này đã chứng minh
rằng nó có khả năng phân tách tốt hai lớp đối tượng, ngay cả khi tài liệu chứa
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
27
các đối tượng phức tạp. Tuy nhiên thuật toán này vẫn chưa có khả năng phân
loại trực tiếp đối tượng văn bản tiếp xúc với đối tượng ảnh.
Một thuật toán phân tách văn bản - ảnh trên những tài liệu ảnh vẽ kỹ
thuật dựa trên quy tắc sẽ được trình bày trong chương này. Thuật toán phân
tách này dựa trên tư tưởng phương pháp phân tách thứ 3, tức là đi phân tích
các thành phần liên thông và dựa vào phân tích các đặc trưng khác nhau của
các đối tượng văn bản và ảnh. Chiến lược của thuật toán này đó là cố gắng đi
tìm càng nhiều càng tốt các vùng đối tượng ảnh và lưu trữ thông tin của
chúng, cách làm này hiệu quả hơn là đi tìm trực tiếp các vùng đối tượng văn
bản trước. Thuật toán này có khả năng phân tách được các đối tượng văn bản
bao gồm các ký tự Trung Hoa, ký tự Phương Tây, ký hiệu đặc biệt từ loại tài
liệu ảnh có chứa hỗn hợp văn bản và ảnh một cách khá hiệu quả. Thuật toán
cũng có một số hạn chế trong việc nhận dạng một số loại tài liệu ảnh và một
số mức độ nhiễu và tuy nhiên nó có khả năng phân tách đối tượng văn bản
tiếp xúc với đối tượng ảnh và không phụ thuộc vào kích cỡ kiểu ký tự. Hướng
của chuỗi ký tự cũng sẽ được đánh giá. Quá trình làm mảnh ảnh có thể dẫn
đến mất thông tin, thuật toán sẽ xử lý ở mức điểm ảnh trước khi quá trình làm
mảnh và véc tơ hoá được thực hiện, chính vì vậy mà hai lớp đối tượng ảnh sẽ
được lưu lại: một lớp chứa các đối tượng văn bản và lớp kia chứa các đối
tượng ảnh. Các loại đối tượng này sẽ được nhận dạng sau đó bằng những hệ
thống nhận dạng thích hợp.
Tiếp theo luận văn sẽ trìn h bày chi tiết các bước thực hiện của thuật
toán: Những đặc trưng chung của một tài liệu ảnh, mô tả các bước để xác định
các đối tượng ảnh và tách chúng ra khỏi đối tượng văn bản.
3.2. Những đặc trƣng chung của một tệp tài liệu ảnh
Đối tượng chủ yếu của tài liệu ảnh là văn bản và ảnh nhưng làm để
phân biệt được hai đối tượng trên máy tính đặc biệt là đối với ảnh nhị phân
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
28
bởi vì cả hai đối tượng đều được biểu diễn bởi các con số 0 và 1 trong ảnh nhị
phân. Do đó việc phân biệt được sự khác nhau giữa hai loại đối tượng này sẽ
dựa vào phán đoán chủ quan và thống kê. Mặc dù máy tính sẽ rất khó để phân
biệt sự khác nhau giống, nhưng chúng ta sẽ dễ dàng phân biệt chúng nếu dựa
vào những điều kiện sau:
- Văn bản – các biểu tượng hay chuỗi ký tự bao gồm các ký tự, các
từ, ký tự số, ký tự Trung Hoa (hoặc ngôn ngữ khác) hoặc các ký tự đặc biệt.
- Ảnh – các thành phần không chứa các ký tự, bao gồm tất cả các loại
đường thẳng, đường cong, hay các bức ảnh, sơ đồ, .v.v..
Dựa trên những định nghĩa cơ bản của hai loại đối tượng văn bản và
ảnh ở trên, chúng ta có thể nhận biết được những đặc trưng khác nhau giữa
hình bao của vùng văn bản và ảnh được liệt kê dưới đây:
- Kích cỡ của ký tự văn bản bao giờ cũng nhỏ hơn nhiều kích cỡ của
các đối tượng ảnh. Tỉ lệ kích cỡ hình bao của văn bản thường nhỏ. Chẳng hạn
với kiểu chữ Tahoma – 20 có tỉ lệ trung bình của chiều rộng/chiều cao là vào
khoảng 2:3.
- Các ký tự văn bản thường nằm trong một chuỗi ký tự. Khoảng cách
giữa các ký tự trong một từ hay khoảng cách giữa các từ thường là nhỏ và
thường theo những quy tắc nhất định. Hướng của chuỗi ký tự thường là theo
chiều ngang, chiều dọc hoặc là nghiêng một góc 45 độ.
- Độ đậm của nét chữ trong vùng chuỗi văn bản bao giờ cũng lớn
hơn so với độ đậm của vùng ảnh.
- Độ dài của các thành phần tuyến tính trong nét bút của chuỗi ký tự
thường ngắn hơn so với các đối tượng ảnh, chẳng hạn như một đường kẻ dài
hiếm khi xuất hiện trong nét bút của chuỗi ký tự.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
29
Trên thực tế mỗi đặc trưng được đưa ra ở trên cũng có một số ngoại lệ
xảy ra. Tuy nhiên ở trên là bốn đặc trưng chung nhất của các đối tượng văn
bản và ảnh.
Hình 3.1 Ví dụ về các đối tượng văn bản và đối tượng ảnh
Hình 3.1 bao gồm hai loại kiểu ký tự: ký tự Trung Hoa và ký tự Tiếng
Anh và hình ảnh là một phần của bảng vẽ kỹ thuật . Hình 3.2 biểu diễn tần số
xuất hiện của các điểm ảnh giao nhau màu đen và màu trắng khi đường thẳng
cắt ngang qua các đối tượng. Nhìn trên Hình 3.2 sự thay đổi tần số của các
nét bút trong văn bản thường cao hơn so với đối tượng ảnh.
Hình 3.2 Biểu diễn các điểm ảnh giao nhau
Hình 3.3 chỉ ra một số trường hợp ngoại lệ. Hình 3.3a đưa ra một bức
ảnh nhỏ và nhìn giống như một ký tự. Hình 3.3b là một ký tự Trung Hoa rất
khó phân biệt so với các đối tượng ảnh, đặc biệt khi ký tự này tiếp xúc với các
đối tượng ảnh. Hình 3.3c là một đối tượng ảnh có LSD cao. Những ngoại lệ
a
b
c
d
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
30
trên là những nguyên nhân chính dẫn đến sự nhận dạng và phân tách sai các
đối tượng trong các kết quả thí nghiệm được đưa ra dưới đây.
Hình 3.3 Một số trường hợp ngoại lệ
3.3. Thuật toán phân tách văn bản - ảnh
Phần này sẽ trình bày thuật toán phân tách văn bản - ảnh dựa trên một
số quy tắc để xác định các đối tượng ảnh [16], lưu giữ thông tin của chúng và
từ đó xác định được các đối tượng văn bản. Các bước thực hiện chính của
thuật toán được tóm tắt trong Hình 3.4 như sau:
Hình 3.4 Sơ đồ thuật toán phân tách văn bản
Xác định các thành phần tuyến tính, lƣu giữ thông
tin của chúng, bao gồm các đƣờng thẳng dài hay
các đƣờng thẳng ngắn
Xác định các nét bút không phải là văn bản, lƣu
giữ thông tin các đối tƣợng này, dựa vào việc phân
tích nét bút của các thành phần liên thông
Kết hợp các nét bút trong một chuỗi, xác định các
đối tƣợng không phải là văn bản dựa vào thành
phần liên thông mới sau khi đã thực hiện một số
phép toán hình thái.
Trích ra thông tin từ các vùng bao chuỗi văn bản
dựa vào hình chữ nhật giới hạn của các chuỗi
trong ảnh ban đầu. Lấy ra các đối tƣợng ảnh từ
lớp đối tƣợng ảnh.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
31
3.3.1. Xoá bỏ các đối tƣợng tuyến tính
Theo như đặc trưng 4 trong phần 3.2 các thành phần tuyến tính của
ảnh thường được xác định trước. Khái niệm thành phần tuyến tính (LC) để ám
chỉ đến các đối tượng có nét bút là các điểm ảnh đen nằm liên tiếp khi đi theo
một hướng nhất định. Trong phần này, thuật toán sẽ duyệt từ trên xuống dưới
quét theo từng hàng để tìm các thành phần LC, một LC sẽ được xác định là
một đối tượng ảnh khi mà độ dài của nó lớn hơn một tham số T1 được đặt
trước. Cũng làm tương tự như vậy nhưng sẽ quét theo chiều thẳng đứng từ trái
sang phải để tìm những thành phần LC. Các thành phần LC có góc nghiêng là
±22.5, ±45, ±67.5 cũng sẽ được xác định. Tất cả các đối tượng LC được xác
định không phải là văn bản sẽ được đưa vào lớp các đối tượng ảnh.
Trường hợp hình chữ nhật bao của đối tượng văn bản có chiều rộng
hẹp xấp xỉ một điểm ảnh thì đối tượng đó được cho là một đường kẻ thẳng
đứng hay ngang có độ rộng là 1 điểm ảnh và chúng được coi như là một đối
tượng ảnh. Do đó phần lớn các điểm nhiễu (dấu chấm câu) hay các LC ngắn
(dấu gạch ngang, gạch nối) sẽ bị coi là những đối tượng ảnh.
Nếu các đối tượng đường thẳng không phải là các đường kẻ ngang
hoặc đường kẻ dọc sẽ được minh họa trong Hình 3.5 dưới đây thì m ột phép
toán kéo giãn đơn giản (tương đương với phép quay một góc α) sẽ được thực
hiện trên các đối tượng đường thẳng này.
Hình 3.5 Nhận dạng đường kẻ nghiêng với phép toán kéo dãn
Với một điểm ảnh có toạ độ (i, j) ta tính giá trị B = (tgα*j) trong đó α
là góc nghiêng của đường thẳng so với mặt phẳng ngang. Khi đó điểm ảnh có
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
32
toạ độ (i, j) sẽ được di chuyển tới toạ độ (i+B, j). Hình 3.5 b là kết quả của
phép kéo giãn Hình 3.5 a khi góc α = 22.5 độ.Hình 3.5c với góc α = 45 độ.
Hình 3.5d với góc α = 67.5 độ. Rõ ràng rằng đường kẻ có góc nghiêng 22.5
trên Hình 3.5a sẽ chuyển thành đường kẻ ngang trên Hình 3.5 b. Sau khi thực
hiện phép kéo giãn ta có thể thực hiện quét từng dòng để xác định các đường
kẻ ngang. Tham số để xác định xem đường thẳng có là một đối tượng ảnh hay
không khi đó sẽ là T1*cosα, bởi vì sau khi thực hiện phép kéo giãn độ dài của
đường thẳng sẽ thay đổi. Cuối cùng là thực hiện phép kéo giãn ngược lại để
khởi tạo lại ảnh ban đầu với góc nghiêng là góc đối của phép kéo giãn vừa
thực hiện. Hai phép biến đổi trên không làm mất thông tin của ảnh mà chỉ tìm
được những đường thẳng thích hợp để xác định chúng là các đối tượng ảnh.
Nếu như một bức ảnh được số hoá chính xác thì phần lớn đường kẻ
nằm ngang hoặc nằm thẳng đứng với góc nghiêng là 0 hay 90 độ, hay nghiêng
một góc 45 độ. Do đó phần lớn các đường kẻ sẽ được xác định một cách đơn
giản chứ không cần phải thực hiện phép biến đổi như ở trên, điều đó sẽ giúp
nâng cao tốc độ xử lý của hệ nhận dạng.
3.3.2. Phân tích các thành phần liên thông của nét bút
Khi đã xác định được các thành phần tuyến tính là các đối tượng ảnh ở
bước trên thì tài liệu vẫn còn các đối tượng ảnh, là những đối tượng có kích
thước khác biệt. Chúng ta sẽ xem xét từng thành phần liên thông bắt gặp khi
quét toàn bộ ảnh theo từng dòng. “Thành phần liên thông” (CCs) [4] nghĩa là
các điểm ảnh màu đen thuộc về một vùng giới hạn liên thông tám, trong đó
mỗi điểm ảnh đen sẽ liên thông tám với một điểm ảnh đen khác trong vùng
giới hạn. Trong CCs các điểm ảnh liên thông tám có thể thuộc về đối tượng
văn bản hay đối tượng ảnh và nằm trong vùng giới hạn hình chữ nhật. Mỗi
một hình bao chữ nhật sẽ là một thành phần CCs. Một thành phần CCs sẽ nắm
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
33
giữ các thông tin sau: toạ độ nhỏ nhất và lớn nhất của hình chữ nhật, số lượng
điểm ảnh màu đen. Phương pháp phân tích CCs như sau
1. Thành phần CCs được tạo ra sau khi đã xác định được các thành
phần LC và xoá chúng khỏi tài liệu.
2. Thứ hai là chúng ta sẽ sử dụng thông tin độ đậm đặc của CCs để
xác định các đối tượng ảnh.
Ngay khi CCs được xác định là một đối tượng ảnh, chúng sẽ được đưa
vào lớp đối tượng ảnh và xoá chúng khỏi tài liệu ảnh, khi đó tài liệu ảnh chỉ
bao gồm các đối tượng văn bản.
Các thành phần liên thông – CCs được tạo ra nhờ sử dụng phương
pháp tách cạnh, toạ độ các điểm ảnh của vùng bao giới hạn của một CCs được
ký hiệu là (Xi, Yi), i = 1, 2, 3, .., n, trong đó n là tổng số điểm ảnh bao vùng
giới hạn. Các thông số quan trọng sau sẽ được tính toán:
1) MaxBox, biểu diễn toạ độ lớn nhất và nhỏ nhất hình bao chữ nhật của
CCs
2) WBRatio, biểu diễn độ đậm đặc của các điểm ảnh đen trong vùng giới
hạn của MaxBox.
3) HWRatio biểu diễn tỉ lệ giữa hai chiều của vùng giới hạn MaxBox.
Nếu HWRatio < 1 thì đặt HWRatio = 1 / HWRatio.
Khi đó CCs sẽ được coi là một đối tượng ảnh nếu các thông số trên
thoả mãn 1 trong các điều kiện sau:
A) WBRatio ≤ T2,
B) HWRatio ≥ T3, hoặc
C) Độ dài của cạnh dài hơn của MaxBox ≤ T4.
Trong đó T2, T3 và T4 là các tham số được thiết lập trước giống như
T1. Điều kiện A để xác định các đường kẻ mà có góc nghiêng không nằm
trong các trường hợp 0, ±22.5, ±45, ±67.5 hay ±90, bởi vì số lượng các điểm
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
34
ảnh trắng trong MaxBox của các đường kẻ nghiêng sẽ nhiều hơn so với CCs
của văn bản. Hơn thế nữa điều kiện A còn để xác định các hình có kích thước
lớn và có WBRatio nhỏ. Sử dụng điều kiện B để xác định các hình dài nhưng
có bề rộng nhỏ. Sử dụng điều kiện C để xác định các đối tượng ảnh mà nhỏ
hơn cả ký tự văn bản, chẳng hạn các điểm nhiễu.
Sau bước này, một số lượng lớn các đối tượng ảnh sẽ được xác định.
Tuy nhiên có một số thành phần của văn bản cũng bị xoá đi vì được xác định
là đối tượng ảnh, chẳng hạn như dấu chấm câu (.), nét bút của một số ký tự
Trung Hoa, dấu chấm trên chữ cái i hay một số dấu trong kiểu chữ Tiếng
Việt. Tuy nhiên dấu chấm rất giống như một điểm nhiễu, có thể khôi phục đối
tượng này ở những bước xử lý sau nếu như nó nằm trong môi trường văn bản.
Việc mất một số nét của ký tự Trung Hoa cũng sẽ được giải quyết ở một số
bước sau. Để không làm mất dấu của ký tự Tiếng Việt cần điều chỉnh tham số
T4 thích hợp để không loại bỏ dấu của Tiếng Việt.
3.3.3. Kết hợp các nét ký tự tạo thành các chuỗi văn bản
Trong đặc trưng thứ 2 của phần 3.2 độ dài của khoảng trắng giữa các
ký tự hay giữa các từ thường là nhỏ, do đó chúng ta có thể nhóm chúng cùng
với nhau. Nếu như khoảng cách giữa hai điểm ảnh màu đen là nhỏ, chẳng hạn
như số lượng điểm ảnh trắng giữa chúng nhỏ hơn một tham số T5, chúng ta sẽ
thay thế các điểm ảnh màu trắng giữa chúng là màu đen. Điều này giống như
chúng ta dùng bút tô màu đen để tô lên các điểm ảnh trắng. Hướng của bút
lông này là theo chiều ngang hoặc chiều dọc. Hình 3.6 chỉ ra một thí dụ về
việc dùng bút để tô các điểm ảnh. Mục đích bước này là xây dụng các thành
phần liên thông mới (NCCs) bằng việc kết hợp nét bút của các ký tự, NCCs
được xây dựng dựa vào đặc trưng 2 của phần 3.2. Có thể tóm tắt lại mục đích
của bước này như sau đây:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
35
1. Những dấu chấm (.), ký hiệu “-“, và một số nét bút bị xoá đi ở
bước trước có thể khôi phục lại được.
2. Việc kết hợp các nét bút và các ký tự sẽ giúp dễ dạng nhận dạng
vùng văn bản, bởi vì một chuỗi văn bản được kết hợp tạo thành NCCs sẽ thể
hiện tính đặc trưng của văn bản rõ rảng hơn.
3. Thao tác dùng bút lông để tô những điểm ảnh thích hợp sẽ giúp
phân tách các đối tượng ảnh một cách rõ ràng hơn và giúp các bước xử lý sau
này dễ dàng phân tách hai đối tượng văn bản và ảnh.
Hình
Các file đính kèm theo tài liệu này:
22LV09_CNTT_KHMTNguyenThiHieu.pdf