Video dù thuộc dạng RGB hay YUV đều có dạng số. Trong trường hợp này, các 
mẫu rời rạc của tín hiệu video tương tự được sốhóa tạo ra chuỗi các từmã biểu diễn các 
điểm ảnh. Các từmã này được phân thành ba trường biểu diễn cho từng tín hiệu một của 
RGB hay YUV. Phạm vi của các chiều dài là 16 bit hoặc 24 bit. Với 24 bit thì trong đó R 
= G = B = 8 bit; còn với 16 bit thì Y = 8 bit và U = V = 4 bit. 
Video sốcó nhiều ưu điểm so với Video tương tự, cụthểnhưsau: 
• Lưu trữvideo trên các thiết bịsốhoặc trong bộnhớ, sẵn sàng để được xửlý (loại 
bỏnhiễu, cắt và dán, ) và tích hợp vào nhiều các ứng dụng đa phương tiện khác nhau. 
• Truy cập trực tiếp, và làm cho biên tập video trởnên đơn giản. 
• Lặp đi lặp lại việc xửlý hình mà không làm giảm chất lượng hình ảnh. 
• Dễdàng mật mã hóa.
                
              
                                            
                                
            
 
            
                 41 trang
41 trang | 
Chia sẻ: maiphuongdc | Lượt xem: 3195 | Lượt tải: 2 
              
            Bạn đang xem trước 20 trang tài liệu Giáo trình Xử lý âm thanh và hình ảnh - Kỹ thuật xử lý ảnh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
 8-bit mầu (3.14). 
Hình 3.14: Hình ảnh 8-bit màu 
3.1.5.5. Các định dạng file ảnh phổ biến 
Định dạng GIF (Graphics Interchange Format): được đưa ra bởi Công ty Unisys và 
Compuserve, ban đầu để truyền các hình ảnh đồ họa trên đường dây điện thoại thông qua 
Modem. Các tiêu chuẩn GIF sử dụng thuật toán nén Lempel-Ziv-Welch và được giới hạn 
cho 256 màu (8 bit). Trong thực tế, GIF có hai chuẩn: GIF87a (Phiên bản kỹ thuật ban 
đầu) và GIF89a – Phiên bản mở rộng hỗ trợ cho hoạt hình đơn giản. 
Định dạng JPEG: Các tiêu chuẩn hiện hành quan trọng nhất cho nén hình ảnh là JPEG, 
tiêu chuẩn này được tạo ra bởi một nhóm làm việc của Tổ chức tiêu chuẩn quốc tế (ISO) 
đã được chính thức gọi là Joint Photographic Experts Group và do đó các file ảnh được 
tạo ra theo chuẩn nén JPEG có tên định dạng jpeg. JPEG cho phép người dùng thiết lập 
một mức độ mong muốn về chất lượng, hoặc tỉ lệ nén. 
Định dạng PNG (Portable Network Graphics): Xuất phát từ sự phổ biến của Internet 
nhằm hỗ trợ nhiều hơn cho các định dạng hình ảnh hệ thống độc lập. Tiêu chuẩn PNG có 
thể thay thế các tiêu chuẩn GIF và hỗ trợ lên đến 48 bit thông tin màu sắc. 
Định dạng TIFF (Tagged Image File Format): là một tập tin định dạng phổ biến hình 
ảnh. Phát triển bởi Công ty Aldus vào những năm 1980, sau đó nó đã được hỗ trợ bởi 
Microsoft. TIFF có thể lưu trữ nhiều loại khác nhau của hình ảnh: 1-bit, màu xám, 8-bit, 
24-bit RGB. 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 56 
Định dạng EXIF (Exchange Image File): là một định dạng hình ảnh cho máy ảnh kỹ 
thuật số. Ban đầu phát triển vào năm 1995, phiên bản hiện tại của nó (2.2) đã được đưa 
ra vào năm 2002 bởi các hãng điện tử Nhật Bản và Informa - Hiệp hội Công nghiệp Công 
nghệ (JEITA). Nén các tập tin EXIF sử dụng chuẩn nén JPEG. 
Định dạng Windows WMF (Windows Metafile): là định dạng file gốc cho môi trường hệ 
điều hành Microsoft Windows. Tệp tin WMF thực sự bao gồm một tập hợp các hàm giao 
diện thiết bị đồ họa (GDI), cũng có nguồn gốc ở các môi trường Windows. Khi chơi 
(play) một tập tin WMF (thông thường bằng cách sử dụng hàm Windows PlayMetaFile()) 
các đồ họa mô tả được trả lại. 
Định dạng Windows BMP (Bitmap): là tiêu chuẩn hệ thống định dạng tập tin đồ họa lớn 
cho Microsoft Windows, được sử dụng trong Microsoft Paint và chương trình khác. Nó 
có thể lưu trữ ảnh 24-bit bitmap khá hiệu quả. Tuy nhiên lưu ý BMP có có rất nhiều chế 
độ khác nhau, bao gồm cả không nén hình ảnh 24-bit. 
3.1.6. Mầu sắc trong ảnh và video 
 Ánh sáng là một dạng sóng điện từ và màu sắc của nó được đặc trưng bởi các 
bước sóng. Ánh sáng Laser chỉ có một bước sóng đơn - ví dụ, Laser Ruby tạo ra một 
chùm tia sáng màu đỏ tươi. Ngược lại, phần lớn các nguồn ánh sáng có nhiều bước sóng. 
Con người không thể phát hiện tất cả các ánh sáng – mà chỉ có các anh sáng có bước 
sóng thuộc vùng nhìn thấy được. Bước sóng ngắn tạo ra một cảm giác màu xanh, và 
bước sóng dài tạo ra một cảm giác màu đỏ. 
 Ánh sáng nhìn thấy được là một dạng sóng điện từ có bước sóng trong khoảng 
400-700 nm. Hình 3.15 minh họa cho thấy mối quan hệ về công suất tương đối của từng 
bước sóng có trong thành phần của ánh sáng ban ngày. Đường cong này được gọi là phân 
bố năng lượng quang phổ (SPD), hoặc quang phổ của ánh sáng E (λ ) tại mỗi bước sóng 
λ. 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 57 
 Hình 3.15: Phân bố năng lượng quang phổ của ánh sáng ban ngày. 
3.1.6.1. Các mô hình màu trong ảnh 
 Các lý thuyết về mầu sắc chỉ ra rằng bất kỳ một màu nào đều có thể được tổng hợp 
từ ba màu chính, cơ bản có cường độ tương thích đó là ba màu: Đỏ (Red); Xanh lá cây 
(Green) và Xanh lơ (Blue). Thông tin về ba mầu cơ bản được minh họa ở hình 3.16 dưới 
đây. Ngược lại bất kỳ màu sắc nào cũng đều có thể phân chia thành ba mầu cơ bản R, G 
và B. 
Hình 3.16: Các mầu cơ bản 
Mô hình cộng màu RGB 
Mô hình cộng mầu RGB được mô tả ở hình vẽ 3.17. Theo đó chúng ta có một số 
nguyên tắc cộng màu như sau: 
Magenta = Red + Blue 
Cyan = Blue + Green 
Yellow = Green + Red 
White = Red + Blue + Green 
Mầu 
Đỏ (R) 
Xanh lơ (B) 
Xanh lá cây (G) 
615 
470 
532 
Bước sóng, 10-9 m 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 58 
Hình 3.17: Mô hình cộng màu RGB 
Mô hình màu loại trừ CMY 
Mô hình loại trừ màu CMY (C: Cyan-Màu lục lam; M: Magenta-Màu đỏ tươi; Y: 
Yellow-Màu vàng) được mô tả ở hình vẽ 3.18. Theo đó chúng ta có một số nguyên tắc 
trừ màu như sau: 
Magenta = White - Green 
Cyan = White - Red 
Yellow = White - Blue 
Black = Red + Blue + Green 
Hình 3.17: Mô hình trừ màu CMY 
Chuyển đổi từ RGB thành CMY 
Một số hệ tọa độ mầu quan trọng có thể được chuyển đổi sang nhau thông qua một 
số phép biến đổi đơn giản. Ví dụ như chuyển đổi từ RGB thành CMY, người ta sử dụng 
quan hệ: 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 59 
(3.1)
Ngược lại khi chuyển từ CMY thành RGB, người ta sử dụng quan hệ: 
(3.2)1)
3.1.6.2. Các mô hình màu trong Video 
Các ảnh, trước khi được truyền đi, phải được quét với 3 thiết bị quang, mà mỗi 
một trong số chúng đều có một bộ lọc màu khác nhau đặt ở phía trước của thiết bị. Ba 
kênh (R, G, B) được hiệu chỉnh sao cho nếu một vùng trắng đều được quét, thì cả 3 đầu 
ra phải có điện áp cân bằng nhau. 
Bởi vì mắt người có độ nhạy khác nhau đối với các màu có cùng cường độ, nên độ 
chói phải được bổ sung thêm các trọng số. Độ chói của tín hiệu Y được xác định bởi: 
 Y= 0.299R+0.587G+0.114B (3.3) 
 Thông tin về bão hoà màu cũng đã được xác định cùng với độ chói; để tránh việc 
truyền nhiều lần về bão hòa màu, nó sẽ bị loại trừ ra khỏi các thành phần của màu. Các 
thành phần hiệu màu cần một băng tần truyền thấp hơn so với thông tin độ chói, bởi vì 
mắt người không thể phân tích được nhiều chi tiết màu như chi tiết độ chói. 
Do một sắc màu được xác định nếu hai trong số ba màu cơ bản được biết, cho nên 
người ta chỉ cần truyền đi thông tin của 2 tín hiệu hiệu màu. Màu cơ bản thứ 3 sẽ được 
tính toán lại tại phía thu. Từ đây, người ta đưa ra một số mô hình màu khác nhau trong 
truyền dẫn tín hiệu video. 
Mô hình màu YUV 
Ban đầu, mô hình YUV được sử dụng cho tín hiệu video tương tự hệ PAL. Một 
phiên bản của YUV hiện nay cũng được sử dụng trong tiêu chuẩn CCIR 601 cho video 
kỹ thuật số. 
Đầu tiên, nó mã hóa tín hiệu độ chói Y theo biểu thức (4.3) và tiếp theo đó các tín 
hiệu hiệu mầu U, V được xác định theo biểu thức 4.4 dưới đây. 
(3.4) 
Từ các biểu thức (4.3) và (4.4) ta có: 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 60 
(3.5) 
 Trong các tín hiệu PAL tương tự, băng thông 1,3 MHz được giành cho các tín 
hiệu hiệu mầu U và V, trong khi đó băng tần 5,5 MHz được dành riêng cho các tín hiệu 
độ chói Y. Với tín hiệu video số, 8 bit được giành cho Y và 4 bit cho các tín hiệu U, V. 
Mô hình màu YIQ 
YIQ được dùng trong truyền hình màu hệ NTSC. Mặc dù U và V được định nghĩa 
khá đơn giản, nhưng nó không nắm bắt được hệ thống phân cấp bậc thấp nhất về độ nhạy 
hiển thị của con người. NTSC đã sử dụng I và Q thay thế. YIQ được xem như là một 
phiên bản của YUV, với cùng một Y nhưng với U và V được quay đi góc 33 °. 
(3.6) 
 Điều này dẫn đến các ma trận biến đổi sau đây: 
(3.7) 
 NTSC cấp phát băng thông 4,2 MHz cho tín hiệu độ chói Y; 1,5 MHz cho tín hiệu 
hiệu màu I và 0,6 MHz cho tín hiệu Q. Tuy nhiên, hiện nay cả I và Q đều được cấp phát 
băng thông 1,0 MHz. 
Mô hình màu YCbCr 
Chuẩn quốc tế chính thức cho các tín hiệu video số thành phần là Khuyến nghị 
ITU-R BT.601-4 (được gọi là "Rec. 601"). Tiêu chuẩn này dùng một không gian màu 
YCbCr. Biến đổi YCbCr được sử dụng trong nén ảnh JPEG và nén video MPEG và có 
liên quan đến biến đổi YUV. Cụ thể như sau: 
(3.8) 
Khi đó, chúng ta có: 
(3.9) 
3.1.7. Cơ bản về Video 
 Tín hiệu Video nói chung được sử dụng trong rất nhiều lĩnh vực: truyền hình, 
truyền hình quảng bá, truyền hình vệ tinh, truyền hình di động… Với công nghệ phát 
triển ngày nay thì tín hiệu Video được sử dụng rộng rãi đặc biệt là Video số. 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 61 
3.1.7.1. Các loại tín hiệu Video 
 Các tín hiệu Video có thể được tổ chức theo ba cách khác nhau: Video thành phần 
(Component Video); Video tổ hợp (Composite Video) và S-Video. 
Video thành phần: Các hệ thống Video đầu cuối cao cấp như các phòng thu hình 
(studios) sử dụng ba tín hiệu Video riêng rẽ cho các ảnh màu đỏ, xanh lá cây và xanh lơ. 
Các tín hiệu này được biết đến như là các tín hiệu Video thành phần. Ở những hệ thống 
phòng thu này người ta sử dụng ba dây (connector) kết nối Camera hoặc các thiết bị khác 
đến TV hay màn hình. 
 Video thành phần cho tái tạo màu sắc tốt nhất vì không có xuyên nhiễu giữa ba 
kênh tín hiệu khác nhau, tuy nhiên nó đòi hỏi nhiều băng thông hơn và đồng bộ tốt hơn 
cho cả ba tín hiệu thành phần. 
Video tổ hợp: Các tín hiệu mầu và độ chói được trộn vào trong một sóng mang đơn. Tín 
hiệu mầu là tổ hợp của hai thành phần hiệu mầu I và Q (hoặc U và V). Tín hiệu Viedo tổ 
hợp được sử dụng trong truyền hình mầu quảng bá, thích ứng với truyền hình đen – trắng. 
 Trong hệ truyền hình NTSC, I và Q được kết hợp thành một tín hiệu mầu, và một 
sóng mang sẽ đặt tín hiệu mầu vào cuối tần số cao hơn của kênh chia sẻ với tín hiệu độ 
chói. Sau đó, các thành phần độ chói và màu được tách ra tại đầu cuối máy thu và hai 
thành phần màu sắc được khôi phục tiếp theo đó. 
 Khi đấu nối với TV hoặc VCR, Video tổ hợp chỉ sử dụng 1 dây (Hình 3.18) và các 
tín hiệu mầu video được trộn với nhau, không gửi riêng biệt. Các tín hiệu đồng bộ và 
tiếng cũng được đưa vào chung với tín hiệu này. Vì tín hiệu mầu và độ chói được đưa vào 
cùng một tín hiệu, nên nhiễu giữa chúng là không thể tránh khỏi. 
Hình 3.18: Cáp Video tổ hợp 
S-Video: Xem như là sự thỏa hiệp giữa Video thành phần và Video tổ hợp S-Video 
(Separated Video hoặc Supper Video) sử dụng 2 dây, một cho độ chói và một cho tín 
hiệu mầu. Kết quả là, có ít xuyên nhiễu giữa các thông tin về màu sắc và mức độ xám. 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 62 
Hình 3.18: Cáp S-Video 
3.1.7.2. Video tương tự 
 Phần lớn các TV hiện nay vẫn gửi và nhận tín hiệu Video tương tự. Một tín hiệu 
tương tự f(t) lấy mẫu một ảnh biến đổi theo thời gian. Một quá trình quét tuần tự (lũy 
tiến) từng dòng một từ trên xuống dưới theo hết một ảnh (một khung) trong một khoảng 
thời gian nào đó được gọi là chu kỳ (tốc độ) quét - ∆ t s/ảnh . Màn hình máy tính có độ 
phân giải cao thường có chu kỳ (tốc độ) quét ∆ t = 1/72 sec. 
 Trong TV cũng như trong nhiều chuẩn đa phương tiện khác, quét xen kẽ được sử 
dụng mà ở đó các dòng lẻ được quét đầu tiên và sau đó đến các dòng chẵn. Kết quả là các 
mành "chẵn" và "lẻ" tạo nên một khung hình. 
 Trong thực tế, các dòng lẻ được quét bắt đầu ở trên cùng bên trái mành, các dòng 
chẵn được bắt đầu quét ở giữa mành. Hình 3.19 minh họa biểu đồ quét. Trước tiên đường 
liền nét (lẻ) được quét từ P đến Q, sau đó R đến S, và kết thúc tại T - sau đó các mành 
chẵn bắt đầu từ U và kết thúc ở V. Sự nhảy từ Q đến R trong hình 3.19 được gọi là quét 
ngược ngang. Sự nhảy từ T đến U hoặc V tới P được gọi là quét ngược đứng. 
Hình 3.19: Quét mành xen kẽ 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 63 
Cần phải lưu ý rằng nếu yêu cầu video có độ phân giải (cả không gian và thời 
gian) cao, ví dụ như truyền hình độ nét cao HDTV thì cần phải sử dụng chế độ quét liên 
tục. Mặc dụ các video được quét theo kiểu xen rẽ cũng đã là một lựa chọn tốt cho tín hiệu 
truyền hình, song nó không thích hợp cho việc hiển thị trên màn hình máy tính với đặc 
điểm là khoảng cách giữa màn hình và người dùng là nhỏ. Nếu như các hình ảnh trên TV 
được sử dụng cho máy tính sẽ gây cảm giác khó chịu bởi độ rung giữa các dòng, cuộn 
dòng… Để tránh các hiện tượng này, các máy tính sử dụng các màn hình có chế độ hiển 
thị liên tục với tốc độ lớn hơn 50/60 khung/s, thông thường là 72 khung/s. 
 Hình 3.20 minh họa một tín hiệu điện tử cho một dòng quét video tổ hợp theo 
chuẩn NTSC. Tín hiệu “mức trắng-White” có giá trị đỉnh 0,714 V; tín hiệu “mức đen-
Black” là 0,055 V; tín hiệu “xóa-Blank” là 0 V. Khoảng thời gian cho các xung xóa trong 
tín hiệu cũng được sử dụng cho việc đồng bộ với giá trị tín hiệu đồng bộ (Sync) xấp xỉ -
0,286V. 
Hình 3.20: Tín hiệu điện cho một dòng quét NTSC 
Chuẩn NTSC (National Television System Committee) 
Chuẩn TV NTSC (Uỷ ban Tiêu chuẩn Truyền hình quốc gia) được sử dụng phổ biến ở 
Bắc Mỹ và Nhật Bản từ năm 1953. NTSC áp dụng tỷ lệ ảnh 4:3; 525 dòng quét/60Hz cho 
một khung (Quét xen kẽ, 262.5 dòng / mành) và tốc độ khung là 30 khung hình/sec; mô 
hình màu là YIQ. NTSC cấp phát băng thông 4,2 MHz cho độ chói Y; 1.6 MHz cho I và 
0,6 MHz cho Q do mắt người ít nhạy cảm hơn đối với các chi tiết về mầu sắc so với độ 
chói. Ưu điểm chính của hệ thống chuẩn này này là: đơn giản, thiết bị mã hóa và giải mã 
không phức tạp, giá thành thấp khi xây dựng hệ thống thiết bị. Tuy nhiên dễ bị sai màu 
khi hệ thống truyền tín hiệu không lý tưởng và có nhiễu. 
Chuẩn PAL (Phase Alteration Line) 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 64 
Chuẩn PAL được phát triển từ năm 1962 ở Đức. PAL dùng tỷ lệ ảnh 4:3; 625 dòng 
quét/50Hz (Quét xen kẽ,312.5 dòng/mành), 25 khung hình/giây; mô hình màu YUV với 
băng thông cho Y là 5.5 MHz và U, V là 1,8MHz. Chuẩn hệ PAL có méo pha nhỏ hơn 
hẳn so với hệ NTSC, không có hiện tượng xuyên lẫn màu, thuận tiện cho việc ghi băng 
hình hơn hệ NTSC, nhưng máy thu hình hệ PAL phức tạp hơn, tính kết hợp với hệ truyền 
hình đen trắng kém hơn hệ NTSC 
Chuẩn SECAM (Sequentiel Couleurs a Memoire – Sequential Color with Memory) 
SECAM được triển từ năm 1956 ở Pháp. SECAM cũng sử dụng 625 dòng quét/50Hz cho 
mỗi khung hình, 25 khung hình / giây, với tỉ lệ 4:3 và quét mành xen kẽ. SECAM cũng 
sử dụng mô hình màu YUV với băng thông 6MHz cho Y và 2MHz cho U và V. Chuẩn 
hệ SECAM có tính chống nhiễu tương đối cao; kém nhạy với méo pha, méo biên độ. 
3.1.7.3. Video số 
 Video dù thuộc dạng RGB hay YUV đều có dạng số. Trong trường hợp này, các 
mẫu rời rạc của tín hiệu video tương tự được số hóa tạo ra chuỗi các từ mã biểu diễn các 
điểm ảnh. Các từ mã này được phân thành ba trường biểu diễn cho từng tín hiệu một của 
RGB hay YUV. Phạm vi của các chiều dài là 16 bit hoặc 24 bit. Với 24 bit thì trong đó R 
= G = B = 8 bit; còn với 16 bit thì Y = 8 bit và U = V = 4 bit. 
 Video số có nhiều ưu điểm so với Video tương tự, cụ thể như sau: 
• Lưu trữ video trên các thiết bị số hoặc trong bộ nhớ, sẵn sàng để được xử lý (loại 
bỏ nhiễu, cắt và dán, …) và tích hợp vào nhiều các ứng dụng đa phương tiện khác 
nhau. 
• Truy cập trực tiếp, và làm cho biên tập video trở nên đơn giản. 
• Lặp đi lặp lại việc xử lý hình mà không làm giảm chất lượng hình ảnh. 
• Dễ dàng mật mã hóa. 
Các chuẩn CCIR cho Video số 
 CCIR là Uỷ ban tư vấn quốc tế về Radio và một trong các tiêu chuẩn quan trọng 
nhất cho Video số là CCIR-601 cho tín hiệu Video số thành phần. Chuẩn này đã trở thành 
chuẩn ITU-R-601, một tiêu chuẩn quốc tế cho các ứng dụng video chuyên nghiệp. 
 Chuẩn NTSC có 525 dòng quét; mỗi một dòng có 858 điểm ảnh (với 720 điểm ảnh 
nhìn thấy và số còn lại không nhìn thấy trong chu kỳ xóa). Do NTSC dùng mô hình lấy 
mẫu 4:2:2, mỗi điểm ảnh tương ứng với hai bytes (8 bit cho Y và 8 bit thay đổi giữa Cb 
và Cr) nên tốc độ bit dữ liệu Video số xấp xỉ 216 Mbps 
(525×858×30×2bytes×8bits/byte≈216Mbps). 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 65 
 Bảng 3.2 dưới đây mô tả các tham số đặc trưng của Video số theo các chuẩn khác 
nhau. Lưu ý các chuẩn đều áp dụng tỷ lệ ảnh 4:3. 
Bảng 3.2: Thông số video số 
 3.2. Cơ sở kỹ thuật xử lý ảnh 
3.2.1. Cơ sở của cảm nhận thị giác 
 Việc xử lý hình ảnh trong các ứng dụng có mục chính là để giúp đỡ con người 
quan sát thông tin trong một hình ảnh. Vì vậy, điều quan trọng là phải hiểu được hệ thống 
thị giác của con người. Hệ thống thị giác của con người tập trung chủ yếu vào mắt (cảm 
biến hình ảnh hay camera), thần kinh thị giác (đường dẫn hình ảnh), và não (các khối 
thông tin xử lý về ảnh…). Cấu tạo của mắt người được minh họa ở hình 3.21 dưới đây. 
Hình 3.21: Cấu tạo của mắt người 
 Mắt người có cấu trúc gần dạng hình cầu với đường kính trung bình khoảng 
20mm. Mắt người gồm có các thành phần chủ yếu sau: 
Giác mạc: Là phần trước lồi trong suốt của lớp xơ phía ngoài con ngươi mà bao bọc 
mống mắt và đồng tử. 
Màng cứng: Bọc ở phía ngoài có sợi trắng cứng bao trùm tất cả con ngươi trừ giác mạc. 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 66 
Mô mạc: Choàng lấy mạch máu nâu tối của mắt giữa màng cứng và võng mạc bao gồm 
các màng máu cung cấp dinh dưỡng cho mắt. 
Mống mắt: Mống mắt mở rộng hoặc thu gọn nhằm điều khiển lượng ánh sáng chiều vào 
mắt. 
Thấu kính: Được tạo ra từ những lớp đồng tâm của những tế bào có sợi, chứa 60-70% 
lượng nước. 
Võng mạc: Mảnh dẻ, nhiều lớp, màng nhạy cảm và được nối bởi thần kinh thị giác tới 
não. Là nơi nhạy cảm với ánh sáng và mầu sắc. 
Mắt hoạt động như một camera, với thấu kính tập trung hình ảnh vào võng mạc. Võng 
mạc có chứa các tế bào hình que (rods) và ba loại tế bào hình nón (cones) theo như hình 
dáng của chúng. Các tế bào hình que (có khoảng 75-150 triệu) được phân bố xung quanh 
hoàng điểm (điểm vàng), rất nhậy cảm về ánh sáng nhưng không cảm thụ màu sắc. Các 
tế bào hình nón (có khoảng 6,5 triệu) được tập trung tại hoàng điểm, kém nhậy cảm với 
ánh sáng, nhưng cảm thụ và phân biệt được màu sắc tương ứng với ba loại tế bào hình 
nón nhậy cảm với 3 mầu khác nhau: Đỏ, Xanh lá cây và Xanh lơ. 
 Mắt người nhạy cảm nhất với ánh sáng ở vùng giữa của phổ nhìn thấy được. Giống 
như thuộc tính phân bố năng lượng quang phổ (SPD) của một nguồn ánh sáng, như trong 
hình 3.15, chúng ta thấy độ nhạy tương đối là hàm của bước sóng. Hình 3.22 minh họa 
hàm độ nhạy của mắt người V(λ ) (đường đứt nét) và là tổng của các đường cong đáp 
ứng phổ của các mầu đỏ, xanh lá cây, và xanh lam. Theo đó, mắt người không nhạy cảm 
đồng đều với các màu sắc có bước sóng khác nhau và nhạy cảm nhất vùng xanh lá cây-
vàng (λ ≈ 555nm). 
Gọi qR(λ),qG(λ) và qB(λ) là các hàm độ nhạy phổ của các màu cơ bản R, G, và B, 
khi đó chúng ta có hàm vector q(λ), với các thành phần: 
(3.10))
 Các phản ứng trong từng kênh màu trong mắt người tỷ lệ với số lượng tế bào thần 
kinh liên quan. Đối với các kênh màu đỏ, bất kỳ ánh sáng nào rơi xuống bất cứ nơi nào ở 
phần khác không của hàm độ nhạy của tế bào hình nón - nhạy cảm với màu đỏ trong hình 
3.22 sẽ tạo ra một số phản ứng. 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 67 
 Hình 3.22: Đáp ứng phổ (độ nhạy) của mắt người 
 Đáp ứng tổng hợp của kênh màu đỏ là tổng tất cả ánh sáng rơi vào võng mạc nơi 
có các tế bào hình nón nhạy cảm với màu đỏ đang cảm nhận. Nếu chúng ta xem các hàm 
độ nhạy là liên tục, thì các màu sắc cơ bản có thể được xác định bởi biểu thức (3.11). 
(3.11)
 Vì tín hiệu hình ảnh được truyền đi có ba thành phần mầu cơ bản nên các mầu sắc 
hình thành một không gian vector ba chiều. 
Biểu thức (3.11) ở trên thực tế chỉ áp dụng khi chúng ta xem một đối tượng tự phát 
sáng (nghĩa là một nguồn ánh sáng). Trong phần lớn các trường hợp, chúng ta nhìn thấy 
hình ảnh của một vật thể là do ánh sáng phản xạ từ bề mặt của vật thể đó đến mắt chúng 
ta. Các bề mặt phản xạ các lượng ánh sáng khác nhau ở các bước sóng khác nhau, bề mặt 
sẫm thì phản xạ năng lượng ít hơn các bề mặt sáng. Hàm phản xạ được ký hiệu là S(λ). 
 Tình huống hình thành hình ảnh được mô tả như sau. Ánh sáng từ nguồn sáng với 
phân bố năng lượng quang phổ (SPD) - E(λ ) đến bề mặt của vật thể, có hàm phản xạ phổ 
bề mặt S(λ) và sau đó được lọc bởi các hàm độ nhạy phổ tương ứng với các tế bào hình 
nón q(λ) – Hình 3.23. Hàm C(λ) được gọi là tín hiệu màu sắc và tich của E(λ ) và S(λ). 
Các biểu thức hình thành màu sắc tương tự như biểu thức (3.12) mà có tính đến các 
mô hình hình thành hình ảnh là: 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 68 
(3.12)1)
 Hình 3.23: Mô hình hình thành hình ảnh 
3.2.2. Quá trình thu tín hiệu hình ảnh 
 Ảnh có thể nhận qua camera màu hoặc đen trắng. Thường ảnh nhận qua camera là 
ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có 
loại camera đã số hoá (như loại CCD – Change Coupled Device) là loại photodiode tạo 
cường độ sáng tại mỗi điểm ảnh. 
 Camera thường dùng là loại quét dòng; ảnh tạo ra có dạng hai chiều. Chất lượng 
một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong 
cảnh). Trên thực tế các thiết bị thu nhận ảnh có thể là: máy quay (Cameras) cộng với bộ 
chuyển đổi tương tự số; máy quét (Scaners) chuyên dụng và các bộ cảm biến ảnh 
(Sensors). 
Thu nhận ảnh sử dụng bộ cảm biến đơn 
 Hình vẽ 3.24 dưới đây mô tả các thành phần của một bộ cảm biến đơn. Bộ cảm 
biến phổ biến nhất của loại này là photodiode, được cấu thành từ các vật liệu silicon có 
dạng sóng điện áp đầu ra tỷ lệ với ánh sáng đầu vào. Việc sử dụng bộ lọc ở mặt trước của 
bộ cảm biến để nâng cao tính chọn lọc. Ví dụ một bộ lọc mầu xanh lá cây ở phía trước bộ 
cảm biến ánh sáng sẽ thiên vị hơn cho ánh sáng trong băng mầu xanh lá cây của phổ mầu. 
Kết quả là, đầu ra của bộ cảm biến sẽ cho ra ảnh có ánh sáng mầu xanh mạnh hơn các 
thành phần mầu khác trong phổ ánh sáng nhìn thấy được. 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 69 
Hình 3.24: Bộ cảm biến ảnh đơn 
Thu nhận ảnh sử dụng các dải cảm biến 
 Dải cảm biến bao gồm nhiều cảm biến được sắp xếp theo một hàng như mô tả ở 
hình vẽ 3.25. 
Hình 3.25: Dải cảm biến 
 Dải cảm biến thường được dùng để tạo ra các phần tử ảnh theo một hướng nào đó. 
Chuyển động theo hướng vuông góc với dải cảm biến sẽ tạo ra ảnh theo một hướng khác 
như được thấy ở hình 3.26 (a). Các dải cảm biến thường được dùng cho các ứng dụng xử 
lý ảnh bằng máy bay mà ở đó hệ thống xử lý ảnh được gắn trên máy bay và bay ở đô cao 
nhất định với vận tốc không đổi trên bề mặt của một vùng địa lý nào đó cần được chụp 
ảnh. 
 Các dải cảm biến cũng có cấu hình vòng sử dụng trong y học và công nghiệp để 
tạo ra các ảnh cắt lớp cho các vật thể 3 chiều – hình 3.26 (b). 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 70 
Hình 3.26: Thu nhận ảnh sử dụng dải cảm biến tuyến tính (a) và dải cảm biến vòng (b) 
Thu nhận ảnh sử dụng mảng cảm biến 
 Hình 3.27 mô tả các bộ cảm biến được sắp xếp lại để hình thành nên một mảng 
cảm biến hai chiều. Các thiết bị cảm biến siêu âm, điện từ trường…thường được sắp xếp 
theo dạng mảng như thế này. Kiểu sắp xếp theo mảng cũng hay gặp trong các camera số 
(loại CCD). 
Hình 3.27: Mảng cảm biến 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 71 
 Ưu điểm chính của mảng cảm biến là có thể thu nhận được ngay toàn bộ ảnh hoàn 
chỉnh của vật thể thông qua việc tập trung nguồn năng lượng sáng trên bề mặt của mảng 
cảm biến. 
 Cách thức mà một mảng cảm biến được sử dụng để thu nhận ảnh được mô tả chi 
tiết trong hình 3.28. Ở đây, ánh sáng mà đối tượng phản xạ ra từ một nguồn sáng chiếu 
vào nó được thu nhận bởi mảng cảm biến để hình thành nên ảnh của đối tượng và sau đó 
ảnh được chuyển hóa thành ảnh số cho các xử lý tiếp theo. 
Hình 3.28: Ví dụ minh họa về quá trình thu nhận ảnh số 
3.2.3. Lấy mẫu và lượng tử hóa 
 Môi trường xung quanh chúng ta tồn tại ở một mức độ quan sát hợp lý trong một 
thể liên tục về không gian/thời gian. Tương tự như vậy, các tín hiệu và hình ảnh có rất 
nhiều trong môi trường (trước khi được cảm nhận) là những đối tượng tương tự tự nhiên. 
Nói là tương tự nghĩa là: các tín hiệu tồn tại trong miền (không gian/thời gian) là liên tục 
và cũng có thể nhận các giá trị liên tục. Tuy nhiên, khi nói về việc xử lý các tín hiệu 
video và hình ảnh số, tức là khi các tín hiệu video hoặc hình ảnh số được cảm nhận, 
chúng phải được chuyển sang dạng số mà máy vi tính có thể đọc được. Nói là kỹ thuật số 
chúng tôi muốn chỉ hai điều: tín hiệu được xác định trên miền (không gian/thời gian) rời 
rạc, và nó nhận các giá trị từ một tập các khả năng rời rạc. Trước khi việc xử lý số có thể 
bắt đầu, quá trình chuyển đổi từ tương tự sang số (Biến đổi A/D) phải được thực hiện. 
Xử lý âm thanh và hình ảnh Chương 3:Kỹ thuật xử lý ảnh 
 72 
Biến đổi A/D bao gồm hai tiến trình riêng biệt: lấy mẫu và lượng tử hóa. Quá trình biến 
đổi tín hiệu và ảnh từ tương tự sang số được minh họa ở hình 3.29 dưới đây. 
Hình 3.29: Quá trình chuyển đổi tín hiệu và ảnh từ tương tự sang số 
3.2.3.1. Lấy mẫu và lượng tử hóa tín hiệu ảnh 
 Tín hiệu hình ảnh nhận được từ cảm biến quang điện thường có dạng tương tự, ví 
dụ tín hiệu điện áp có biên độ thay đổi liên tục theo độ chói của ảnh nguồn. Để có thể đưa 
tín hiệu hình ảnh vào xử lý bằng máy tính cần thực hiện quá trình số hóa thông qua hai 
giai đọa
            Các file đính kèm theo tài liệu này:
 chuong3_phan1_200610_revised_8912.pdf chuong3_phan1_200610_revised_8912.pdf
 chuong3_phan2_200610_revised_1438.pdf chuong3_phan2_200610_revised_1438.pdf