Luận văn Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh

MỤC LỤC

Trang phụ bìa

Lời cảm ơn

MỤC LỤC ------------------------------------------------------------------------------- i

THUẬT NGỮ TIẾNG ANH:--------------------------------------------------------- iii

DANH MU ̣ C CA ́ C HI ̀NH VE ̃ -------------------------------------------------------- iv

CHưƠNG I: MỞ ĐẦU ---------------------------------------------------------------- 1

1.1. Cơ sở nghiên cứu và mục đích của luận văn ---------------------------- 3

1.2. Tổ chức của luận văn: -------------------------------------------------------- 4

CHưƠNG II: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH --------- 5

2.1. Tài liệu ảnh --------------------------------------------------------------------- 5

2.2. Hệ phân tích trang tài liệu -------------------------------------------------- 5

2.3. Thu thập dữ liệu ảnh --------------------------------------------------------- 6

2.4. Tiền xử lý điểm ảnh ----------------------------------------------------------- 9

2.4.1. Xử lý nhị phân ---------------------------------------------------------- 10

2.4.2. Giảm nhiễu--------------------------------------------------------------- 11

2.4.3. Phân đoạn ảnh ----------------------------------------------------------- 12

2.4.4. Làm mảnh và xác định vùng ----------------------------------------- 12

2.4.5. Mã hóa CC và véctơ hóa ---------------------------------------------- 13

2.5. Phân ti ́ ch đă ̣ c trưng cu ̉ a ta ̀ i liê ̣ u a ̉ nh ------------------------------------- 15

2.6. Phân ti ́ ch đô ́ i tươ ̣ ng văn ba ̉ n trong ta ̀ i liê ̣ u ----------------------------- 15

2.6.1. Xác định góc nghiêng của văn bản ---------------------------------- 16

2.6.2. Phân ti ́ ch bô ́ cu ̣ c cu ̉ a trang ta ̀ i liê ̣ u a ̉ nh ------------------------------ 18

2.7. Nhận dạng ký tự quang học (OCR) --------------------------------------- 19

2.7.1. Thuâ ̣ t toa ́ n OCR ----------------------------------------------------- 20

2.7.1.1. Trích chọn đặc trưng --------------------------------------- 20

2.7.1.2. Phân loại ------------------------------------------------------ 21

2.7.2. Nhận dạng ký tự dựa trên ngữ cảnh ------------------------------ 21

2.8. Phân tích các đối tượng ảnh trong tài liệu ------------------------------ 22

CHưƠNG 3: THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI

LIỆU ẢNH ------------------------------------------------------------------------------ 24

3.1. Tô ̉ng quan vê ̀ phân ta ́ ch văn ba ̉ n – ảnh --------------------------------- 24

3.2. Những đặc trưng chung của một tệp tài liệu ảnh --------------------- 27

3.3. Thuật toán phân tách văn bản - ảnh -------------------------------------- 30

3.3.1. Xoá bỏ các đối tượng tuyến tính --------------------------------- 31

3.3.2. Phân tích các thành phần liên thông của nét bút --------------- 32

3.3.3. Kết hợp các nét ký tự tạo thành các chuỗi văn bản ------------ 34

3.3.4. Thực hiện các phép toán hình thái ------------------------------- 35

3.3.5. Phân tích các thành phần liên thông mới ----------------------- 35

3.3.6. Biểu diễn cấu trúc thông tin của các chuỗi văn bản ----------- 36

CHưƠNG IV: PHưƠNG PHÁP PHÂN TÍCH BẢNG T-RECS TRONG

TRANG TA ̀ I LIÊ ̣ U A ̉ NH ------------------------------------------------------------ 39

4.1. Giới thiệu -------------------------------------------------------------------- 39

4.2. Thuật toán phân đoạn khởi tạo ---------------------------------------- 41

4.2.1. Trường hợp thuật toán nhận dạng sai cột ----------------------- 42

4.2.2. Cải tiến các bước của thuật toán phân đoạn khởi tạo T - Recs++ 44

4.2.3. Những ưu điểm của thuật toán ----------------------------------- 46

4.2.4. Những mặt hạn chế của thuật toán khởi tạo -------------------- 47

4.3. Các bước xử lý khối sau khi phân đoạn ------------------------------ 48

4.3.1. Trộn các khối phân đoạn sai -------------------------------------- 48

4.3.2. Phân tách các cột bị trộn vào một khối -------------------------- 49

4.3.3. Nhóm các từ bị phân tách ----------------------------------------- 52

4.4. Phân tích khối -------------------------------------------------------------- 53

4.5. Xác định cấu trúc các cột, hàng ---------------------------------------- 54

CHưƠNG 5 CHưƠNG TRI ̀NH THư ̉ NGHIỆM VA ̀ MINH HO ̣ A THUÂ ̣ T

TOÁN T-RECS++ --------------------------------------------------------------------- 56

5.1. Mô tả chương trình ------------------------------------------------------- 56

5.2. Mô ̣ t sô ́ kê ́ t qua ̉ ------------------------------------------------------------- 58

KÊ ́ T LUÂ ̣ N VA ̀ ĐÊ ̀ XUÂ ́ T ---------------------------------------------------------- 61

pdf74 trang | Chia sẻ: maiphuongdc | Lượt xem: 1733 | Lượt tải: 5download
Bạn đang xem trước 20 trang tài liệu Luận văn Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ích của việc nhận dạng ảnh là lấy ra được các thông tin mang ý nghĩa xuất hiện bên trong nội dung của ảnh. Phân tích tài liệu ảnh càng trở nên quan trọng hơn khi mà tài liệu hầu như được tạo ra và xử lý bằng máy tính thì việc Những người làm việc trên máy tính liên quan đến việc truyền tải và chuyển đổi tệp dữ liệu nhận thấy một điều rằng các tệp dữ liệu thường ít khi tương thích với nhau. Bởi vì có sự khác nhau về ngôn ngữ, đặc điểm của hệ thống, và sự thay đổi của các phiên bản CAD và các gói định dạng văn bản, do đó các tệp dữ liệu của những hệ thống khác nhau thường không tương thích với nhau. Một hệ thống xử lý tài liệu có thể chuyển đổi một định dạng tài liệu ảnh kỹ thuật này sang định dạng khác, nhưng mục đích của hệ thống cũng phải có khả năng chuyển đổi được những tài liệu ảnh vẽ bằng tay. Điều này cũng giống như việc nhận dạng chữ viết tay và văn bản trong OCR. Khi máy tính có khả năng phân tích được những hình vẽ tay phức tạp một cách nhanh chóng và chính xác thì vấn đề nhận dạng ảnh sẽ được giải quyết, tuy nhiên để đến khi đạt được điều đó thì vẫn còn nhiều cơ hội và thách thức đối với lĩnh vực nghiên cứu này. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 23 Trong các bước xử lý đối tượng ảnh có những bước xứ lý chung cũng giống như đối với nhận dạng văn bản. Các phương pháp tiền xử lý, phân đoạn, và trích chọn đặc trưng được mô tả trước đây sẽ được thực hiện trước tiên. Thuật toán phân đoạn khởi tạo thường để áp dụng cho tài liệu có lẫn đối tượng văn bản và ảnh nhằm tách riêng thành hai phần văn bản và ảnh. Hầu hết các hệ thống OCR thương mại có khả năng nhận dạng các đường biên dài và đường kẻ trong bảng khác so với cách nhận dạng ký tự, do đó việc cố gắng nhận dạng các đối tượng đó như là ký tự không xảy ra. Hệ phân tích ảnh cho các bản vẽ kỹ thuật phải phân biệt được đâu là văn bản và đâu là ảnh. Thông thường các hệ thống đều có khả năng nhận dạng tốt các đối tượng ảnh ngoại trừ một số trường hợp đặc biệt chẳng hạn khi ký tự nối liền với các hình vẽ gây ra nhầm lẫn đây là một đối tượng ảnh; hay có những biểu tượng qua nhỏ và được coi như là một ký tự. Tách đoạn và phân tích ảnh màu với nhiều lớp của bản đồ, nhận dạng đối tượng ảnh ba chiều trong ảnh kỹ thuật, và những bản vẽ kiến trúc 3 – D là những thí dụ cho thấy còn nhiều thách thức đối với những người làm nghiên cứu trong lĩnh vực nhận dạng. Rõ ràng rằng rất nhiều miền ứng dụng phụ thuộc tri thức cũng được áp dụng vào trong tất cả những hệ thống nhận dạng, phân tích ảnh. Hệ phân tích tài liệu ảnh và các thành phần chung đã được mô tả tổng quan trong chương này . Trong đó đã trình bày các bước chính trong quá trình xử lý ảnh từ khi thu nhận ảnh đến khi trích ra được nhữn g thông tin người dùng mong muốn . Trong chương 3 sẽ mô tả chi tiết những thuật toán nhận dạng đối tượng ảnh dựa vào thành phần liên thông trong tài liệu có lẫn ảnh và văn bản. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 24 CHƢƠNG 3 THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI LIỆU ẢNH 3.1. Tổng quan về phân tách văn bản – ảnh Như chúng ta đã biết một trang tài liệu ảnh thường chứa đựng các thông tin hỗn hợp như các đoạn văn bản và ảnh, chẳng hạn như các trang báo được quét, bản đồ hay các tài liệu được quét từ máy quét. Do đó để lấy ra được phần chứa đựng thông tin và phần chứa ảnh riêng rẽ và chính xác cần có các kỹ thuật xử lý phức tạp. Các thuật toán tách văn bản - ảnh giúp chúng ta lấy ra được các thông tin như vậy. Một thuật toán tách văn bản - ảnh sẽ phân tách tài liệu thành hai lớp: lớp chứa văn bản và lớp chứa các đối tượng ảnh. Chương này sẽ trình khái quát về các phương pháp tách văn bản - ảnh và trình bày một thuật toán phân tách văn bản - ảnh hiệu quả. Tư tưởng cơ bản của thuật toán là trước tiên đi xác định các vùng không phải là văn bản và lưu giữ thông tin của vùng này vào lớp các đối tượng ảnh. Các vùng còn lại sẽ thuộc lớp văn bản. Cách làm như vậy sẽ hiệu quả hơn là trước tiên đi xác định trực tiếp các vùng văn bản. Trong một hệ thống nhận dạng tài liệu, một tài liệu thường chứa nhiều loại biểu tượng (các kiểu ký tự, ảnh) thông tin khác nhau. Chính vì có sự khác nhau lớn giữa các đặc trưng của từng loại biểu tượng mà chúng sẽ được xử lý theo từng kỹ thuật khác nhau. Hơn thế nữa, những yêu cầu cao đối với các kỹ thuật xử lý ảnh như các phép véc tơ hóa đối tượng ảnh, nhận dạng các loại ký tự Tiếng Anh, ký tự số, ký tự Trung Hoa đòi hỏi phải được nghiên cứu dựa theo những cách thức khác nhau. Chính vì những lý do đó tách các thành phần văn bản và ảnh từ những tệp tài liệu ảnh là một yêu cầu cần thiết đối với máy tính. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 25 Có rất nhiều phương pháp tách văn bản và ảnh từ trang tài liệu ảnh được công bố trước đây. Phương pháp được đưa ra trong tài liệu [3] dựa trên khái niệm, đối tượng văn bản bao giờ cũng có kích thước nhỏ hơn đối tượng ảnh, quá trình tách văn bản và ảnh được thực hiện sau khi đã làm mảnh các đối tượng. Phương pháp trên khá đơn giản nhưng nó sẽ không hiệu quả khi một ký tự tiếp xúc với một ký tự khác hay một đối tượng ảnh khác. Yamada [6] giới thiệu một phương pháp tách các đối tượng từ bản đồ địa hình, trong đó phương pháp có thể tách ra các đối tượng là đường đi và các toà nhà, phần còn lại của bản đồ là các đối tượng văn bản. Một trong những phương pháp được biết đến nhiều nhất là của Wong, Casey và Wahl [7], được điều chỉnh và cải tiến trong [2] Tuy nhiên, một số chứng minh cho thấy phương pháp trên chỉ hoạt động hiệu quả trên các tệp tài liệu chứa nhiều văn bản, ngược lại trên các tài liệu ảnh chứa nhiều các đối tượng ảnh thì phương pháp không hiệu quả. Một vài phương pháp dựa trên các khoảng trắng [15]. Phương pháp được biết đến là hoạt động hiệu quả nhất trong kỹ thuật tách văn bản - ảnh được đưa ra trong [4]. Phương pháp này dựa trên việc phân tích các thành phần liên thông và dựa vào phép biến đổi Hough để nhóm các thành phần trong cùng một chuỗi ký tự và tách chúng ra khỏi các đối tượng ảnh. Phương pháp hoạt động hiệu quả trên cả những thay đổi kiểu phông chữ, kích cỡ phông chữ và hướng văn bản. Tất cả các phương pháp được giới thiệu ở trên hoạt động dựa trên các trang tài liệu ảnh thỏa mãn các yêu cầu sau: - Tài liệu ảnh phải không có các thành phần nhiễu và chúng phải được xử lý để chuẩn hoá một số điều kiện trước khi thực hiện thuật toán. - Các chuỗi ký tự trong tài liệu ảnh phải không tiếp xúc với đối tượng ảnh. Hướng của các chuỗi ký tự thường được nhận dạng theo chiều ngang hay Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 26 chiều dọc. Trong trường hợp chuỗi ký tự có hướng khác việc nhận dạng sẽ khó hơn. - Văn bản phải không chứa các kiểu ký tự Trung Hoa [16]. Tuy nhiên những điều kiện, yêu cầu đối với tài liệu được nhận dạng ở trên đã làm hạn chế việc nhận dạng một số lượng lớn tài liệu của một số ứng dụng. Chẳng hạn trong ứng dụng CAD/CAM, nó sẽ chuyển một số lượng lớn tài liệu ảnh trên giấy sang định dạng của CAD/CAM. Tuy nhiên những loại tài liệu ảnh vẽ này lại có một số lượng lớn thành phần nhiễu, có các ký tự tiếp xúc với ký tự và ký tự tiếp xúc với các đối tượng ảnh. Mặc dù có một số thao tác xử lý những vấn đề này nhưng chúng vẫn gặp phải một số hạn chế đó là vấn đề thời gian. Trong các phương pháp phân tách văn bản và ảnh trong tài liệu ảnh, có thể chia thành ba loại phương pháp cơ bản sau: 1. Sử dụng các phép biến đổi hình thái để lọc ra các đối tượng tuyến tính, chẳng hạn các hình vẽ và sau đó tách những đối tượng này ra khỏi tài liệu, những thành phần còn lại sẽ được coi là văn bản. Phương pháp này đặc biệt có hiệu quả đối với các tài liệu là các bản đồ đơn giản [5][14], tuy nhiên nó sẽ gặp phải khó khăn khi mà trong tài liệu có các hình vẽ phức tạp hơn. 2. Tương tự như vậy, một số khác lại đi tìm các đường kẻ để phân loại các đối tượng, dựa vào phép biến đổi véc tơ hoá [12] của tài liệu ảnh. 3. Phương pháp thứ 3 được sử dụng nhiều nhất, dựa trên việc phân tích các thành phần liên thông, và các thành phần liên thông này sẽ được lọc ra xem chúng thuộc lớp đối tượng nào (văn bản hay ảnh) dựa vào một số quy tắc xác định. Một trong những thuật toán nổi tiếng nhất dựa trên phương pháp này được đưa ra bởi Fletcher và Kasturi [4]. Thuật toán này đã chứng minh rằng nó có khả năng phân tách tốt hai lớp đối tượng, ngay cả khi tài liệu chứa Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 27 các đối tượng phức tạp. Tuy nhiên thuật toán này vẫn chưa có khả năng phân loại trực tiếp đối tượng văn bản tiếp xúc với đối tượng ảnh. Một thuật toán phân tách văn bản - ảnh trên những tài liệu ảnh vẽ kỹ thuật dựa trên quy tắc sẽ được trình bày trong chương này. Thuật toán phân tách này dựa trên tư tưởng phương pháp phân tách thứ 3, tức là đi phân tích các thành phần liên thông và dựa vào phân tích các đặc trưng khác nhau của các đối tượng văn bản và ảnh. Chiến lược của thuật toán này đó là cố gắng đi tìm càng nhiều càng tốt các vùng đối tượng ảnh và lưu trữ thông tin của chúng, cách làm này hiệu quả hơn là đi tìm trực tiếp các vùng đối tượng văn bản trước. Thuật toán này có khả năng phân tách được các đối tượng văn bản bao gồm các ký tự Trung Hoa, ký tự Phương Tây, ký hiệu đặc biệt từ loại tài liệu ảnh có chứa hỗn hợp văn bản và ảnh một cách khá hiệu quả. Thuật toán cũng có một số hạn chế trong việc nhận dạng một số loại tài liệu ảnh và một số mức độ nhiễu và tuy nhiên nó có khả năng phân tách đối tượng văn bản tiếp xúc với đối tượng ảnh và không phụ thuộc vào kích cỡ kiểu ký tự. Hướng của chuỗi ký tự cũng sẽ được đánh giá. Quá trình làm mảnh ảnh có thể dẫn đến mất thông tin, thuật toán sẽ xử lý ở mức điểm ảnh trước khi quá trình làm mảnh và véc tơ hoá được thực hiện, chính vì vậy mà hai lớp đối tượng ảnh sẽ được lưu lại: một lớp chứa các đối tượng văn bản và lớp kia chứa các đối tượng ảnh. Các loại đối tượng này sẽ được nhận dạng sau đó bằng những hệ thống nhận dạng thích hợp. Tiếp theo luận văn sẽ trìn h bày chi tiết các bước thực hiện của thuật toán: Những đặc trưng chung của một tài liệu ảnh, mô tả các bước để xác định các đối tượng ảnh và tách chúng ra khỏi đối tượng văn bản. 3.2. Những đặc trƣng chung của một tệp tài liệu ảnh Đối tượng chủ yếu của tài liệu ảnh là văn bản và ảnh nhưng làm để phân biệt được hai đối tượng trên máy tính đặc biệt là đối với ảnh nhị phân Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 28 bởi vì cả hai đối tượng đều được biểu diễn bởi các con số 0 và 1 trong ảnh nhị phân. Do đó việc phân biệt được sự khác nhau giữa hai loại đối tượng này sẽ dựa vào phán đoán chủ quan và thống kê. Mặc dù máy tính sẽ rất khó để phân biệt sự khác nhau giống, nhưng chúng ta sẽ dễ dàng phân biệt chúng nếu dựa vào những điều kiện sau: - Văn bản – các biểu tượng hay chuỗi ký tự bao gồm các ký tự, các từ, ký tự số, ký tự Trung Hoa (hoặc ngôn ngữ khác) hoặc các ký tự đặc biệt. - Ảnh – các thành phần không chứa các ký tự, bao gồm tất cả các loại đường thẳng, đường cong, hay các bức ảnh, sơ đồ, .v.v.. Dựa trên những định nghĩa cơ bản của hai loại đối tượng văn bản và ảnh ở trên, chúng ta có thể nhận biết được những đặc trưng khác nhau giữa hình bao của vùng văn bản và ảnh được liệt kê dưới đây: - Kích cỡ của ký tự văn bản bao giờ cũng nhỏ hơn nhiều kích cỡ của các đối tượng ảnh. Tỉ lệ kích cỡ hình bao của văn bản thường nhỏ. Chẳng hạn với kiểu chữ Tahoma – 20 có tỉ lệ trung bình của chiều rộng/chiều cao là vào khoảng 2:3. - Các ký tự văn bản thường nằm trong một chuỗi ký tự. Khoảng cách giữa các ký tự trong một từ hay khoảng cách giữa các từ thường là nhỏ và thường theo những quy tắc nhất định. Hướng của chuỗi ký tự thường là theo chiều ngang, chiều dọc hoặc là nghiêng một góc 45 độ. - Độ đậm của nét chữ trong vùng chuỗi văn bản bao giờ cũng lớn hơn so với độ đậm của vùng ảnh. - Độ dài của các thành phần tuyến tính trong nét bút của chuỗi ký tự thường ngắn hơn so với các đối tượng ảnh, chẳng hạn như một đường kẻ dài hiếm khi xuất hiện trong nét bút của chuỗi ký tự. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 29 Trên thực tế mỗi đặc trưng được đưa ra ở trên cũng có một số ngoại lệ xảy ra. Tuy nhiên ở trên là bốn đặc trưng chung nhất của các đối tượng văn bản và ảnh. Hình 3.1 Ví dụ về các đối tượng văn bản và đối tượng ảnh Hình 3.1 bao gồm hai loại kiểu ký tự: ký tự Trung Hoa và ký tự Tiếng Anh và hình ảnh là một phần của bảng vẽ kỹ thuật . Hình 3.2 biểu diễn tần số xuất hiện của các điểm ảnh giao nhau màu đen và màu trắng khi đường thẳng cắt ngang qua các đối tượng. Nhìn trên Hình 3.2 sự thay đổi tần số của các nét bút trong văn bản thường cao hơn so với đối tượng ảnh. Hình 3.2 Biểu diễn các điểm ảnh giao nhau Hình 3.3 chỉ ra một số trường hợp ngoại lệ. Hình 3.3a đưa ra một bức ảnh nhỏ và nhìn giống như một ký tự. Hình 3.3b là một ký tự Trung Hoa rất khó phân biệt so với các đối tượng ảnh, đặc biệt khi ký tự này tiếp xúc với các đối tượng ảnh. Hình 3.3c là một đối tượng ảnh có LSD cao. Những ngoại lệ a b c d Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 30 trên là những nguyên nhân chính dẫn đến sự nhận dạng và phân tách sai các đối tượng trong các kết quả thí nghiệm được đưa ra dưới đây. Hình 3.3 Một số trường hợp ngoại lệ 3.3. Thuật toán phân tách văn bản - ảnh Phần này sẽ trình bày thuật toán phân tách văn bản - ảnh dựa trên một số quy tắc để xác định các đối tượng ảnh [16], lưu giữ thông tin của chúng và từ đó xác định được các đối tượng văn bản. Các bước thực hiện chính của thuật toán được tóm tắt trong Hình 3.4 như sau: Hình 3.4 Sơ đồ thuật toán phân tách văn bản Xác định các thành phần tuyến tính, lƣu giữ thông tin của chúng, bao gồm các đƣờng thẳng dài hay các đƣờng thẳng ngắn Xác định các nét bút không phải là văn bản, lƣu giữ thông tin các đối tƣợng này, dựa vào việc phân tích nét bút của các thành phần liên thông Kết hợp các nét bút trong một chuỗi, xác định các đối tƣợng không phải là văn bản dựa vào thành phần liên thông mới sau khi đã thực hiện một số phép toán hình thái. Trích ra thông tin từ các vùng bao chuỗi văn bản dựa vào hình chữ nhật giới hạn của các chuỗi trong ảnh ban đầu. Lấy ra các đối tƣợng ảnh từ lớp đối tƣợng ảnh. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 31 3.3.1. Xoá bỏ các đối tƣợng tuyến tính Theo như đặc trưng 4 trong phần 3.2 các thành phần tuyến tính của ảnh thường được xác định trước. Khái niệm thành phần tuyến tính (LC) để ám chỉ đến các đối tượng có nét bút là các điểm ảnh đen nằm liên tiếp khi đi theo một hướng nhất định. Trong phần này, thuật toán sẽ duyệt từ trên xuống dưới quét theo từng hàng để tìm các thành phần LC, một LC sẽ được xác định là một đối tượng ảnh khi mà độ dài của nó lớn hơn một tham số T1 được đặt trước. Cũng làm tương tự như vậy nhưng sẽ quét theo chiều thẳng đứng từ trái sang phải để tìm những thành phần LC. Các thành phần LC có góc nghiêng là ±22.5, ±45, ±67.5 cũng sẽ được xác định. Tất cả các đối tượng LC được xác định không phải là văn bản sẽ được đưa vào lớp các đối tượng ảnh. Trường hợp hình chữ nhật bao của đối tượng văn bản có chiều rộng hẹp xấp xỉ một điểm ảnh thì đối tượng đó được cho là một đường kẻ thẳng đứng hay ngang có độ rộng là 1 điểm ảnh và chúng được coi như là một đối tượng ảnh. Do đó phần lớn các điểm nhiễu (dấu chấm câu) hay các LC ngắn (dấu gạch ngang, gạch nối) sẽ bị coi là những đối tượng ảnh. Nếu các đối tượng đường thẳng không phải là các đường kẻ ngang hoặc đường kẻ dọc sẽ được minh họa trong Hình 3.5 dưới đây thì m ột phép toán kéo giãn đơn giản (tương đương với phép quay một góc α) sẽ được thực hiện trên các đối tượng đường thẳng này. Hình 3.5 Nhận dạng đường kẻ nghiêng với phép toán kéo dãn Với một điểm ảnh có toạ độ (i, j) ta tính giá trị B = (tgα*j) trong đó α là góc nghiêng của đường thẳng so với mặt phẳng ngang. Khi đó điểm ảnh có Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 32 toạ độ (i, j) sẽ được di chuyển tới toạ độ (i+B, j). Hình 3.5 b là kết quả của phép kéo giãn Hình 3.5 a khi góc α = 22.5 độ.Hình 3.5c với góc α = 45 độ. Hình 3.5d với góc α = 67.5 độ. Rõ ràng rằng đường kẻ có góc nghiêng 22.5 trên Hình 3.5a sẽ chuyển thành đường kẻ ngang trên Hình 3.5 b. Sau khi thực hiện phép kéo giãn ta có thể thực hiện quét từng dòng để xác định các đường kẻ ngang. Tham số để xác định xem đường thẳng có là một đối tượng ảnh hay không khi đó sẽ là T1*cosα, bởi vì sau khi thực hiện phép kéo giãn độ dài của đường thẳng sẽ thay đổi. Cuối cùng là thực hiện phép kéo giãn ngược lại để khởi tạo lại ảnh ban đầu với góc nghiêng là góc đối của phép kéo giãn vừa thực hiện. Hai phép biến đổi trên không làm mất thông tin của ảnh mà chỉ tìm được những đường thẳng thích hợp để xác định chúng là các đối tượng ảnh. Nếu như một bức ảnh được số hoá chính xác thì phần lớn đường kẻ nằm ngang hoặc nằm thẳng đứng với góc nghiêng là 0 hay 90 độ, hay nghiêng một góc 45 độ. Do đó phần lớn các đường kẻ sẽ được xác định một cách đơn giản chứ không cần phải thực hiện phép biến đổi như ở trên, điều đó sẽ giúp nâng cao tốc độ xử lý của hệ nhận dạng. 3.3.2. Phân tích các thành phần liên thông của nét bút Khi đã xác định được các thành phần tuyến tính là các đối tượng ảnh ở bước trên thì tài liệu vẫn còn các đối tượng ảnh, là những đối tượng có kích thước khác biệt. Chúng ta sẽ xem xét từng thành phần liên thông bắt gặp khi quét toàn bộ ảnh theo từng dòng. “Thành phần liên thông” (CCs) [4] nghĩa là các điểm ảnh màu đen thuộc về một vùng giới hạn liên thông tám, trong đó mỗi điểm ảnh đen sẽ liên thông tám với một điểm ảnh đen khác trong vùng giới hạn. Trong CCs các điểm ảnh liên thông tám có thể thuộc về đối tượng văn bản hay đối tượng ảnh và nằm trong vùng giới hạn hình chữ nhật. Mỗi một hình bao chữ nhật sẽ là một thành phần CCs. Một thành phần CCs sẽ nắm Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 33 giữ các thông tin sau: toạ độ nhỏ nhất và lớn nhất của hình chữ nhật, số lượng điểm ảnh màu đen. Phương pháp phân tích CCs như sau 1. Thành phần CCs được tạo ra sau khi đã xác định được các thành phần LC và xoá chúng khỏi tài liệu. 2. Thứ hai là chúng ta sẽ sử dụng thông tin độ đậm đặc của CCs để xác định các đối tượng ảnh. Ngay khi CCs được xác định là một đối tượng ảnh, chúng sẽ được đưa vào lớp đối tượng ảnh và xoá chúng khỏi tài liệu ảnh, khi đó tài liệu ảnh chỉ bao gồm các đối tượng văn bản. Các thành phần liên thông – CCs được tạo ra nhờ sử dụng phương pháp tách cạnh, toạ độ các điểm ảnh của vùng bao giới hạn của một CCs được ký hiệu là (Xi, Yi), i = 1, 2, 3, .., n, trong đó n là tổng số điểm ảnh bao vùng giới hạn. Các thông số quan trọng sau sẽ được tính toán: 1) MaxBox, biểu diễn toạ độ lớn nhất và nhỏ nhất hình bao chữ nhật của CCs 2) WBRatio, biểu diễn độ đậm đặc của các điểm ảnh đen trong vùng giới hạn của MaxBox. 3) HWRatio biểu diễn tỉ lệ giữa hai chiều của vùng giới hạn MaxBox. Nếu HWRatio < 1 thì đặt HWRatio = 1 / HWRatio. Khi đó CCs sẽ được coi là một đối tượng ảnh nếu các thông số trên thoả mãn 1 trong các điều kiện sau: A) WBRatio ≤ T2, B) HWRatio ≥ T3, hoặc C) Độ dài của cạnh dài hơn của MaxBox ≤ T4. Trong đó T2, T3 và T4 là các tham số được thiết lập trước giống như T1. Điều kiện A để xác định các đường kẻ mà có góc nghiêng không nằm trong các trường hợp 0, ±22.5, ±45, ±67.5 hay ±90, bởi vì số lượng các điểm Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 34 ảnh trắng trong MaxBox của các đường kẻ nghiêng sẽ nhiều hơn so với CCs của văn bản. Hơn thế nữa điều kiện A còn để xác định các hình có kích thước lớn và có WBRatio nhỏ. Sử dụng điều kiện B để xác định các hình dài nhưng có bề rộng nhỏ. Sử dụng điều kiện C để xác định các đối tượng ảnh mà nhỏ hơn cả ký tự văn bản, chẳng hạn các điểm nhiễu. Sau bước này, một số lượng lớn các đối tượng ảnh sẽ được xác định. Tuy nhiên có một số thành phần của văn bản cũng bị xoá đi vì được xác định là đối tượng ảnh, chẳng hạn như dấu chấm câu (.), nét bút của một số ký tự Trung Hoa, dấu chấm trên chữ cái i hay một số dấu trong kiểu chữ Tiếng Việt. Tuy nhiên dấu chấm rất giống như một điểm nhiễu, có thể khôi phục đối tượng này ở những bước xử lý sau nếu như nó nằm trong môi trường văn bản. Việc mất một số nét của ký tự Trung Hoa cũng sẽ được giải quyết ở một số bước sau. Để không làm mất dấu của ký tự Tiếng Việt cần điều chỉnh tham số T4 thích hợp để không loại bỏ dấu của Tiếng Việt. 3.3.3. Kết hợp các nét ký tự tạo thành các chuỗi văn bản Trong đặc trưng thứ 2 của phần 3.2 độ dài của khoảng trắng giữa các ký tự hay giữa các từ thường là nhỏ, do đó chúng ta có thể nhóm chúng cùng với nhau. Nếu như khoảng cách giữa hai điểm ảnh màu đen là nhỏ, chẳng hạn như số lượng điểm ảnh trắng giữa chúng nhỏ hơn một tham số T5, chúng ta sẽ thay thế các điểm ảnh màu trắng giữa chúng là màu đen. Điều này giống như chúng ta dùng bút tô màu đen để tô lên các điểm ảnh trắng. Hướng của bút lông này là theo chiều ngang hoặc chiều dọc. Hình 3.6 chỉ ra một thí dụ về việc dùng bút để tô các điểm ảnh. Mục đích bước này là xây dụng các thành phần liên thông mới (NCCs) bằng việc kết hợp nét bút của các ký tự, NCCs được xây dựng dựa vào đặc trưng 2 của phần 3.2. Có thể tóm tắt lại mục đích của bước này như sau đây: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 35 1. Những dấu chấm (.), ký hiệu “-“, và một số nét bút bị xoá đi ở bước trước có thể khôi phục lại được. 2. Việc kết hợp các nét bút và các ký tự sẽ giúp dễ dạng nhận dạng vùng văn bản, bởi vì một chuỗi văn bản được kết hợp tạo thành NCCs sẽ thể hiện tính đặc trưng của văn bản rõ rảng hơn. 3. Thao tác dùng bút lông để tô những điểm ảnh thích hợp sẽ giúp phân tách các đối tượng ảnh một cách rõ ràng hơn và giúp các bước xử lý sau này dễ dàng phân tách hai đối tượng văn bản và ảnh. Hình

Các file đính kèm theo tài liệu này:

  • pdf22LV09_CNTT_KHMTNguyenThiHieu.pdf