Một trong những đặc điểm quan trọng nhất của MPEG-2 lμ sự phù hợp với nhiều ứng dụng video. Có thể sử dụng MPEG-2 cho phân phối truyền hình tiêu chuẩn (Standard Television), truyền hình phân giải cao (HDTV: High Definition Television) hoặc cho truyền dẫn tín hiệu truyền hình thông qua các mạng truyền thông.
Tính co giãn của dòng bít MPEG-2 lμ khả năng giải mã đ−ợc một phần dòng bít MPEG-2 độc lập với phần còn lại của dòng bít đó nhằm khôi phục video với chất l−ợng hạn chế ( hạn chế độ phân giải không gian, độ phân giải thời gian hoặc hạn chế về SNR.). Dựa theo tính co giãn, dòng bít đ−ợc phân thμnh hai hay nhiều lớp. Tập con nhỏ nhất của cú pháp dòng bít có thể giải mã một cách độc lập đ−ợc gọi lμ lớp cơ bản. Các lớp còn lại đ−ợc gọi lμ các lớp nâng cao. Có nhiều loại co giãn khác nhau nh−:
77 trang |
Chia sẻ: maiphuongdc | Lượt xem: 2376 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Đề tài Các công nghệ nén tín hiệu video trong truyền hình số, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
gian.
Do MPEG-1 đ−ợc phát triển cho l−u trữ dữ liệu số nên đòi hỏi có sự truy cập ngẫu nhiên (Random Access). Cách thức mã hoá tốt nhất cho truy cập ngẫu nhiên lμ mã hoá Intraframe đơn thuần. Song do sự d− thừa thông tin về thời gian ch−a đ−ợc loại bỏ nên hiệu suất nén rất thấp. Do vậy trong tiêu chuẩn nén MPEG-1, có sự cân bằng giữa nén trong ảnh (Intraframe) vμ nén liên ảnh (Interframe) bằng cách sử dụng các công nghệ sau đây:
Bù chuyển động
Dự báo
Nội suy
Biến đổi cosine rời rạc
L−ợng tử hoá
Mã hoá độ dμi thay đổi (mã Huffman-VLC)
Tức lμ có sự kết kết hợp hai công nghệ nén DPCM vμ Trasform Coding. Thuật toán nén MPEG-1 sử dụng bù chuyển động khối để giảm sự d− thừa thời gian với vecto chuyển động cho mỗi khối kích th−ớc 16 x16 điểm ảnh. Bù chuyển động đ−ợc sử dụng cho cả dự báo nhân quả vμ không nhân quả
Dự báo nhân quả tạo dự báo ảnh hiện hμnh từ ảnh tr−ớc đó.
Dự báo không nhân quả tạo dự báo cho ảnh hiện hμnh dựa trên ảnh
trong quá khứ vμ cả t−ơng lai.
Vòng lặp DPCM đ−ợc sử dụng để tạo khung sai số dự báo. Sau đó,công nghệ mã hoá chuyển đổi chuyển khung sai số nμy sang miền tần số để nén các hệ số nhờ l−ợng tử hoá vμ mã hoá Huffman tr−ớc khi truyền tải hay l−u trữ.
2.3.1.1. Các thμnh phần ảnh cơ bản trong chuẩn nén MPEG
Các tiêu chuẩn MPEG cấu trúc dữ liệu dạng lớp. Bao gồm các thμnh phần cơ bản sau đây:
Khối (Block): Lμ đơn vị cơ bản cho chuyển đổi DCT. Bao gồm 8x8 điểm ảnh tín hiệu chói hoặc tín hiệu mμu.
Macro Block: Lμ nhóm các khối DCT t−ơng ứng với thông tin của một cửa sổ 16x16 điểm ảnh gốc. Có nhiều dạng Macro Block khác nhau phụ thuộc vμo cấu trúc lấy mẫu đ−ợc sử dụng.
Phần đầu đề (header) của Macroblock chứa thông tin phân loại (Y hay Cb, CR) vμ vector bù chuyển động t−ơng ứng.
Lát (slice): Đ−ợc cấu thμnh từ một hay một số MB liên tiếp nhau.
Phần header của slice chứa thông tin về vị trí của nó trong ảnh vμ tham số quét l−ợng tử (quantized scaling factor). Kích cỡ của slice quyết định bởi mức bảo vệ lỗĩ cần có trong ứng dụng vì bộ giải mã sẽ bỏ qua slice bị lỗi. Hệ số một chiều DC đ−ợc định vị tại điểm bắt đầu mỗi slice.
ảnh: Lớp ảnh cho bên thu biết về loại mã hoá khung I,P,B). Phần header mang thứ tự truyền tải của khung để bên thu hiển thị khung theo đúng thứ tự, ngoμi ra còn có một số thông tin bổ sung nh− thông tin đồng bộ, độ phân giải vμ vecto chuyển động.
Hình 2.4: Cấu trúc Macroblock của các dạng lấy mẫu
Nhóm ảnh (group of picture): Gồm cấu trúc các ảnh I,B vμ P. Mỗi nhóm bắt đầu bằng ảnh I cung cấp điểm vμo ra vμ tìm kiếm. Phần header chứa 25 bit thời gian vμ chế độ điều khiển cho VTR vμ thông tin thời gian. Trong MPEG có các cấu trúc nhóm ảnh điển hình nh− sau:
F1
F1
F2
F2
F3
F3
F4
F4
F5
F5
F6
F6
F7
F7
F8
F8
F9
F9
F10
F10
I
I
B
B
B
B
P
P
B
B
B
B
P
P
B
BB
B
B
B
I
I
R-601:
Khung
đã nénu truực:
IBBPBBPBBI
Cấu trúc IB
I
I
B
B
I
I
I
I
B
B
P
P
I
I
P
P
Cấu trúc IBP
Cấu trúc IP
Cấu trúc IBBPBBPBBI
Khung
CCIR_ 601
nguyên thuỷ IBBPBBPBBI
Hình 2.5: Các cấu trúc nhóm ảnh trong tiêu chuẩn MPEG
Chuỗi Video (Video Sequence): lớp chuỗi bao gồm phần header, một hoặc một số nhóm ảnh (Picture Group) vμ phần kết thúc chuỗi Sequence end Code).
Y CB CR
Frame
me
8X8
8X8
8X8
8X8
Y
CB
CR
Macroblock
Slice
frame
GOP
4:2:0
Thông tin quan trọng nhất của phần header lμ kích th−ớc (dọc, ngang) của mỗi ảnh, tốc độ bit, tốc độ ảnh vμ dung l−ợng đòi hỏi bộ đệm dữ liệu bên thu. Thông tin chuỗi ảnh vμ phần header của chuỗi lμ dòng bit đã mã hoá, còn gọi lμ dòng video cơ bản.
Hình 2.6: Cấu trúc dòng dữ liệu video MPEG
2.3.1.2. Sự phân loại ảnh MPEG
Tiêu chuẩn nén video MPEG định nghĩa 3 loại ảnh: ảnh I, ảnh B vμ ảnh P.
a. ảnh I: (Intra - Coded Picture)
Các ảnh I đ−ợc mã hoá theo mode Intra để có thể giải mã mμ không cần sử dụng dữ liệu từ bất cứ một ảnh nμo khác. Đặc điểm của ph−ơng pháp mã hoá nμy nh− sau:
Chỉ loại bỏ đ−ợc sự d− thừa không gian.
Dùng các điểm trong cùng một khung để tạo dự báo.
Không có bù chuyển động.
Các thông tin đ−ợc mã hoá rõ rμng, minh bạch nên số l−ợng bít yêu cầu lớn.
Do đ−ợc mã hoá Intra, ảnh I bao giờ cũng lμ ảnh đầu tiên trong một nhóm ảnh hay một chuỗi ảnh. Nó cung cấp thông tin khởi động các ảnh tiếp theo trong nhóm.
b. ảnh P (Predictive Code Picture)
ảnh P đ−ợc mã hoá liên ảnh một chiều (Interframe một chiều):
Dự báo Inter một chiều.
ảnh dự báo đ−ợc tạo ảnh tham chiếu tr−ớc đó (dự báo nhân quả). ảnh tham chiếu nμy có thể lμ ảnh I hoặc ảnh P gần nhất.
Có sử dụng bù chuyển động. Thông tin −ớc l−ợng chuyển động của các khối nằm trong vecto chuyển động (motion vecto). Vecto nμy xác định Macroblock nμo đ−ợc sử dụng từ ảnh tr−ớc.
Do vậy ảnh P bao gồm cả những MB mã hoá Inter (I - MB) lμ những macroblock chứa thông tin lấy từ ảnh tham chiếu vμ những MB mã hoá Intra lμ những MB ch−á thông tin không thể m−ợn từ ảnh tr−ớc. ảnh P có thể đ−ợc sử dụng lμm ảnh tham chiếu tạo dự báo cho ảnh sau.
c. ảnh B (Bidirectionally Predicted Pictures)
ảnh B lμ ảnh mã hoá liên ảnh hai chiều.Tức lμ :
Có sử dụng bù chuyển động.
Dự báo không nhân quả, ảnh dự báo gồm các macroblock của cả khung hình tr−ớc đó vμ sau đó.
Việc sử dụng thông tin lấy từ ảnh trong t−ơng lai hoμn toμn có thể thực hiện đ−ợc vì tại thời điểm mã hoá thì bộ mã hoá đã sẵn sμng truy cập tới ảnh phía sau. ảnh B không đ−ợc sử dụng lμm ảnh tham chiếu tạo dự báo cho các ảnh sau. [3]
Khung dự báo (B) = khung trước
- khung sau
+ vecto chuyển
động hai chiều
Đường di chuyển của vật thể
Vị trí nội suy
Vùng không bao phủ
Khung kề trước (n)
Khung hiện hành (n+1)
Dự báo bù chuyển động ảnh P
Khung dự báo (P) = khung trước
khung hiện hành
+ vecto chuyển động
Khung kề trước (n-1)
Khung hiện hành (n)
Khung kề sau (n+1)
Dự báo bù chuyển động ảnh B
Hình 2.7: Nội suy bù chuyển động
d. Thứ tự truyền dẫn vμ thứ tự hiển thị ảnh.
Chuỗi ảnh MPEG th−ờng có cấu trúc IBBPBBPBBI nh−ng thứ tự truyền dẫn vμ thứ tự hiển thị ảnh lμ khác nhau do khi tạo ảnh B cần thông tin từ cả khung quá khứ vμ t−ơng lai.Nh− vậy có nghĩa, ảnh trong t−ơng lai cần phải đ−ợc truyền dẫn
tr−ớc. Trong khi đó, lúc hiển thị phải theo đúng thứ tự nguồn. Để thực hiện điều nμy, lớp ảnh (Picture layer) của dòng dữ liệu MPEG có thông tin về số thứ tự ảnh trợ giúp hiển thị.
F1
F1
F2
F2
F3
F3
F4
F4
F5
F5
F6
F6
F7
F7
F8
F8
F9
F9
F10
F10
I1
I
B2
B
B3
B
P4
P
B5
B
B6
B
P7
P
B8
BB
B
B9
B
I10
I
R-601:
Thứ tự hiển thị
IBBPBBPBBI
I1
I
P4
B
B2
I
B3
I
P7
B
B5
P
B6
I
I10
P
Thứ tự
khung gốcI
B8
P
B9
P
Thứ tự truyền IBBPBBPBBI
Hình 2.8: Thứ tự truyền dẫn vμ thứ tự hiển thị ảnh
2.3.1.3. Tiêu chuẩn MPEG-1
MPEG-1 có phạm vi ứng dụng rộng rãi cho dạng thức CSIF (Common Source Intermediate Format). CSIF lμ một định dạng nguồn dữ liệu đầu vμo của các bộ nén vμ giải nén (codec) do CCITT qui định phù hợp với hai dạng quét TV 525/60 vμ 625/50. Dạng thức nμy gắn với cấu trúc lấy mẫu 4:2:0 đ−ợc qui định như sau: [3]
CCIR – 601
525
CSIF- 525
4:2:0
CCIR - 601
625
CCIR - 601
625
Số điểm/dòng tích cực
+ Chói Y
+ Mμu Cb, CR)
720
360
352
176
720
360
352
176
Tần số lấy mẫu (MHz)
+ Chói Y Chói Y
+ Mμu (Cb, CR)
13,5
6,75
6,75
3,38
13,5
6,75
6,75
3,38
Số dòng tích cực
+ Chói Y
+ Mμu (Cb,CR)
480
480
240
120
576
576
288
144
Tốc độ khung (Hz)
30
30
25
25
Tử số ảnh
(Kích cỡ ảnh)
4:3
4:3
4:3
4:3
Bảng 1: Dạng thức ảnh cơ bản của CSIF
Nh− vậy đối với MPEG-1, dòng dữ liệu truyền hình chuẩn theo CCIR- 601 phải đ−ợc biến đổi sang dạng CSIF bằng một bộ chuyển đổi (converter). Điều nμy đ−ợc thực hiện bằng cách sử dụng bộ lọc dòng (horizontal decimation filter) cho tín hiêụ chói mμnh lẻ vμ bộ lọc dòng vμ mμnh cho tín hiệu CR, CB mμnh lẻ. Quá trình giải mã tại bộ thu phải dự báo mμnh chẵn từ mμnh lẻ nội suy. Để giảm mức độ phức tạp vμ giá thμnh bộ giải mã, trong MPEG 1 một số tham số đ−ợc mặc định thμnh hằng số nh− sau:
Tham số
Giá trị cực đại
Độ rộng ảnh
Chiều cao ảnh
Tốc độ ảnh
Số l−ợng MB (Macroblock)
Giải vecto chuyển động
Kích th−ớc bộ đệm đầu vμo
Tốc độ bit
768 điểm
576 dòng
30 ảnh/s
396
± 64 điểm
327.680 bit
1,8 Mbps
Bảng 2: Các tham số mặc định trong chuẩn MPEG-1
MPEG-1 có một số tiêu chuẩn cơ bản nh− sau:
Chỉ có một cấu trúc lấy mẫu 4:2:0.
Kích cỡ ảnh tối đa 720 pixel với 576 dòng sử dụng các tham số mặc định.
Độ chính xác mẫu đầu vμo 8 bit.
Độ chính xác l−ợng tử hoá vμ DCT: 9 bit.
Sử dụng l−ợng tử hoá DPCM tuyến tính cho hệ số DC.
L−ợng tử thích nghi cho lớp macroblock (16x16 điểm).
Độ chính xác cực đại của hệ số DC lμ 8 bit.
Ma trận l−ợng tử chỉ có thể thay đổi ở lớp chuỗi.
Sử dụng khung P vμ B.
Độ chính xác dự báo chuyển động lμ nửa điểm.
Tốc độ bit tối đa lμ 1,85 Mbps khi dùng tham số mặc định cho ảnh 720x576 vμ 100 Mbps khi dùng tham số đầy đủ cho ảnh 4095 x 4095.
MPEG-1 cho phép có sự truy cập ngẫu nhiên các khung video, tìm kiếm nhanh thuận ng−ợc theo dòng bit đã nén, phát lại ng−ợc dòng video vμ khả năng dời bỏ dòng bit nén.
2.3.1.4. Hệ thống nén MPEG-1
Sơ đồ khối chi tiết bộ codec (bộ mã hoá vμ giải mã) trong chuẩn MPEG-1 trình bày trên hình 2.9 và 2.10.
Bộ phân loại Inter/Intra căn cứ vμo thông tin phân loại ảnh (I, P, B) sẽ cho tín hiệu ra Inter/Intra xác định ảnh đ−ợc mã hóa theo mode Inter hay mode Intra.Thông tin nμy lμ tác nhân chuyển mạch kích hoạt bộ tạo dự báo t−ơng ứng.
♦ Nếu ảnh I (mã hóa Intra): sử dụng dự báo Intra, lấy MB lân cận tr−ớc đó lμm dự báo cho MB hiện hμnh. MB lân cận nμy đ−ợc phục hồi nhờ bộ giải l−ợng tử vμ biến đổi DCT ng−ợc (IDCT).
♦ Nếu ảnh B, P (mã hóa Inter): sử dụng bộ tạo dự báo Inter có bù chuyển động.
Bộ tạo dự báo nμy hoạt động nh− sau: [1]
• Chuyển động của các MB đ−ợc tính toán nhờ bộ −ớc l−ợng chuyển động theo các thuật toán Blocking Matching. Kết quả cho vecto chuyển động
Hình 2.9: Sơ đồ khối quá trình mã hoá MPEG-1
4:2:2
4:2:0
+
S
DCT
Lượng tử hoá
Mã hoá entropy
Trộn
KĐ
đệm
Giải lượng tử hoá
IDCT
S
ảnh so sánh
ảnh dự đoán
Xác định vector chuyển động
Bảng lượng tử
Điều khiển tốc độ bit
Video
Video nén
+
-
+
Vector chuyển động
Điều khiển nhóm ảnh
• Vecto chuyển động nμy đ−ợc đ−a đến khối dự báo có bù chuyển động để tạo giá trị dự báo có bù chuyển động.
• Do quá trình −ớc l−ợng chuyển động cần so sánh giữa khung hiện hμnh với khung quá khứ (ảnh P) hoặc với cả khung quá khứ lẫn t−ơng lai (ảnh
B) nên cần có hai bộ l−u trữ ảnh.
♦ Sai số giữa MB dự báo vμ hiện hμnh đ−ợc biến đổi DCT, l−ợng tử hóa, mã hóa VLC rồi đ−a tới bộ nhớ đệm. Đầu ra bộ nhớ đệm lμ dòng bit đã đ−ợc mã hóa vμ có tốc độ ổn định.
♦ Tham số l−ợng tử, thông tin phân loại Inter/Intra vμ Vecto chuyển động sẽ đ−ợc ghép kênh với thông tin ảnh đ−a tới bên thu phục vụ cho quá trình tạo dự báo vμ giải mã khôi phục ảnh.
Nhớ đệm
Giải mã entropy
Giải lượng tử hoá
Biến đổi DCT ngược
S
Nhớ
ảnh
Dự báo
ảnh
Số liệu
điều khiển
Video
Hình 2.10: Sơ đồ bộ giải mã MPEG-1
Trong dòng bit truyền đi từ bên phát sẽ có thông tin ảnh gốc cũng nh− các tham số quy định b−ớc l−ợng tử vμ vecto chuyển động. Vecto chuyển động nμy đ−ợc bên thu sử dụng để tạo dự báo có bù chuyển động t−ơng tự nh− phía phát.
Giá trị sai số dự báo từ bên thu sau khi giải l−ợng tử vμ biến đổi DCT ng−ợc đ−ợc cộng với giá trị dự báo. Kết quả thu đ−ợc ảnh cần hồi phục.
2.3.2. Nén tín hiệu video theo MPEG-2
2.3.2.1. Tiêu chuẩn nén video MPEG-2
Tiêu chuẩn MPEG-2 còn đ−ợc gọi lμ ISO/IEC 13818 lμ sự phát triển tiếp theo của MPEG-1 ứng dụng cho độ phân giải tiêu chuẩn của truyền hình do CCIR- 601 qui định.
MPEG 2 gồm 4 phần:
Phần 1: Hệ thống (ISO/IEC 13818-1): xác định cấu trúc ghép kênh audio, video vμ cung cấp đồng bộ thời gian thực.
Phần 2: Video (ISO/IEC 13828-2): xác định những thμnh phần mã hóa đại diện cho dữ liệu video vμ phân loại xử lý giải mã để khôi phục lại khung hình ảnh.
Phần 3: Audio (ISO/IEC 13818-3): mã hóa vμ giải mã dữ liệu âm thanh.
Phần 4: Biểu diễn (ISO/IEC 13818-3): định nghĩa quá trình kiểm tra các yêu cầu của MPEG-2 .
So với MPEG-1, MPEG-2 có nhiều cải thiện, ví dụ về kích th−ớc ảnh vμ độ phân giải ảnh, tốc độ bit tối đa, tính phục hồi lỗi, khả năng co giãn dòng bit. Khả năng co giãn dòng bit của MPEG-2 cho phép khả năng giải mã một phần dòng bit mã hóa để nhận đ−ợc ảnh khôi phục có chất l−ợng tuỳ thuộc mức độ yêu cầu.
Sau đây lμ một số đặc điểm chủ yếu của tiêu chuẩn nμy :
♦ Hỗ trợ nhiều dạng thức video, đặc biệt lμ các dạng thức video độ phân giải không gian cao, dạng thức video xen kẽ của truyền hình.
♦ Cú pháp dòng bit MPEG-2 lμ sự mở rộng của dòng bit MPEG-1.
♦ Nén video MPEG-2 t−ơng hợp với nén video MPEG-1. Đ−ợc thể hiện qua 4 hình thức t−ơng hợp.
∗ T−ơng hợp thuận: bộ giải mã MPEG-2 có khả năng giải mã dòng bit (hoặc một phần dòng bit MPEG-1).
∗ T−ơng hợp ng−ợc: bộ giải mã MPEG-1 có khả năng giải mã đ−ợc một phần dòng bit MPEG-2.
∗ T−ơng hợp lên: bộ giải mã độ phân giải cao có khả năng giải mã đ−ợc dòng bit của bộ mã hoá có độ phân giải thấp.
∗ T−ơng hợp xuống: bộ giải mã độ phân giải thấp có thể giải mã đ−ợc một phần dòng bit của bộ mã hóa độ phân giải cao.
♦ MPEG-2 hỗ trợ khả năng co giãn (scalability): co giãn không gian, co giãn SNR (Signal to Noise Ratio), co giãn phân chia số liệu...
♦ Ngoμi ra còn có nhiều cải tiến khác trong MPEG-2 bao gồm:
∗ Cho phép nhiều cấu trúc lấy mẫu: 4:4:4, 4:2:2 vμ 4:2:0.
∗ Hệ số DC đ−ợc mã hóa với độ chính xác đặc biệt.
∗ Bảng l−ợng tử riêng biệt cho các thμnh phần chói vμ mμu nên lợi dụng đ−ợc đặc điểm của mắt ng−ời ít nhạy cảm hơn với tín hiệu mμu.
∗ Cho phép cả hai dạng quét: quét xen kẽ vμ quét liên tục.
∗ Có khả năng hồi phục lỗi.
♦ Cú pháp đầy đủ của MPEG-2 đ−ợc thể hiện qua các tập con gọi lμ profile, phù hợp với các lĩnh vực áp dụng. Mỗi profile lại bao gồm từ 1 đến 4 mức độ hạn chế về độ phân giải không gian, tốc độ bit.
2.3.2.2. Cấu trúc dòng bit video MPEG-2
Dòng bit MPEG-2 về cơ bản t−ơng hợp với MPEG-1, tức lμ cũng gồm cấu trúc 6 lớp nh− đã trình bμy trong mục 2.3.1.1
Tên gọi vμ chức năng các lớp đ−ợc liệt kê lại nh− sau:
Lớp
Chức năng
Lớp chuỗi (Sequence Layer)
Lớp nhóm ảnh (GOP Layer)
Lớp ảnh (Picture Layer)
Lớp lát (Slice Layer)
Lớp Macro Block (MB Layer)
Lớp khối (Block Layer)
Đơn vị nội dung
Đơn vị truy nhập ngẫu nhiên dòng video mã hóa.
Đơn vị mã hóa cơ bản
Đơn vị tái đồng bộ
Đơn vị bù chuyển động
Đơn vị chuyển đổi DCT
Bảng 3: Dạng lớp của cú pháp dòng bit MPEG-2
∗ Lớp chuỗi lμ đại diện mã hóa cho một chuỗi ảnh (Video Sequence).
∗ Lớp nhóm ảnh cung cấp điểm truy cập ngẫu nhiên. ảnh bắt đầu của chuỗi bao giờ cũng lμ một ảnh I. ảnh I nμy cung cấp điểm truy cập vμo dòng bit mã hóa.
∗ Lớp lát có chức năng hồi phục đồng bộ. Khi dòng bit có lỗi, bộ giải mã có thể bỏ qua slice có lỗi vμ bắt đầu bằng một slice mới. Mỗi lát chứa một hoặc một số MB.
∗ Mỗi macro block (MB) lμ một đơn vị đ−ợc −ớc l−ợng chuyển động vμ có vecto chuyển động riêng trong phần header của nó.
∗ Lớp khối lμ lớp thấp nhất. Mỗi khối lμ một đơn vị DCT gồm 64 hệ số (một hệ số DC vμ 63 hệ số AC nh− trình bμy trong mục 2.2.2: phép chuyển đổi cosine rời rạc) của khối ảnh I hoặc khối sai số dự báo (ảnh P, B).
So với MPEG-1, cú pháp dòng bit MPEG-2 có thêm một số chức năng mở rộng. Do đó có 2 h−ớng đi trong dòng bit MPEG-2 nh− hình vẽd−ới đây: hoặc theo quy trình MPEG-1 hoặc theo các chức năng mở rộng riêng của MPEG-2.
Sequence header
(đầu đề chuỗi)
MPEG-1
ISO/IEC 11172-2
Dòng bit
Extended Sequence
(chuỗi mở rộng)
Hình 2.11: Cú pháp dòng bít MPEG-2
2.3.2.3. Khả năng co giãn của MPEG-2
Một trong những đặc điểm quan trọng nhất của MPEG-2 lμ sự phù hợp với nhiều ứng dụng video. Có thể sử dụng MPEG-2 cho phân phối truyền hình tiêu chuẩn (Standard Television), truyền hình phân giải cao (HDTV: High Definition Television) hoặc cho truyền dẫn tín hiệu truyền hình thông qua các mạng truyền thông.
Tính co giãn của dòng bít MPEG-2 lμ khả năng giải mã đ−ợc một phần dòng bít MPEG-2 độc lập với phần còn lại của dòng bít đó nhằm khôi phục video với chất l−ợng hạn chế ( hạn chế độ phân giải không gian, độ phân giải thời gian hoặc hạn chế về SNR...). Dựa theo tính co giãn, dòng bít đ−ợc phân thμnh hai hay nhiều lớp. Tập con nhỏ nhất của cú pháp dòng bít có thể giải mã một cách độc lập đ−ợc gọi lμ lớp cơ bản. Các lớp còn lại đ−ợc gọi lμ các lớp nâng cao. Có nhiều loại co giãn khác nhau nh−:
∗ Co giãn không gian: Dòng bít gồm hai hay nhiều lớp video có độ phân giải không gian khác nhau.
∗ Co giãn SNR: dòng bít gồm hai hay nhiều lớp video có cùng độ phân giải không gian nh−ng tỉ số tín hiệu trên nhiễu SNR lμ khác nhau.
∗ Co giãn thời gian:dòng bít gồm hai hay nhiều lớp video có cùng độ phân giải không gian nh−ng có độ phân giải thời gian khác nhau.
∗ Co giãn phân chia số liệu: dòng bít video đ−ợc chia lμm hai phần : phần −u tiên cao (lớp cơ bản) gồm các hệ số DCT tần số thấp, phần −u tiên thấp (lớp nâng cao) gồm các hệ số DCT tần số cao.
∗ Co giãn phân chia số liệu chính lμ một dạng cơ bản của co giãn tần số.
Tiêu chuẩn MPEG-2 đã qui định chính thức hai loại co giãn: co giãn không gian vμ co giãn SNR. Các loại co giãn khác chỉ mới ở dạng dự thảo.
2.3.2.4. MPEG-2: Profile vμ Level
Phạm vi ứng dụng của MPEG-2 rất rộng. Mỗi ứng dụng đòi hỏi mức độ phức tạp khác nhau. Bởi vậy, MPEG-2 định nghĩa các mức (level) vμ các tập con (profile) phù hợp cho từng lĩnh vực áp dụng. Profile xác định cú pháp dòng bit vμ level xác định các tham số hạn chế độ phân giải không gian, tốc độ bit.
Có 4 mức: low (thấp), main (chính), high-1440 (cao-1440) vμ high (cao). Kích cỡ ảnh quy định bởi 4 mức t−ơng ứng sau:
Level
Cỡ khung
Low
Main
High-1440
High
352x288 (bằng 1/4 cỡ ảnh TV chuẩn)
720x576 (cỡ ảnh TV chuẩn)
1440x1152
960x576 hoặc 1920x1152
Bảng 4 : Mức ảnh trong MPEG-2
Có 5 profile lμ: Simple (đơn giản), Main (chính), SNR scalable (co giãn SNR), Spatial scalable (có khả năng co giãn không gian) vμ High profile. Tổng cộng có 12 tổ hợp profile, level. Trong đó:
♦ MP @ ML (Main profile @ Main level):
Lấy mẫu 4:2:0
Độ phân giải: 720*576
Tốc độ bit: 15Mbps
Dạng ảnh: I, P, B
ứng dụng vμo việc số hóa truyền hình tiêu chuẩn (Standard television).
♦ MP @ HL (Main profile @ High level):
Lấy mẫu 4:2:0
Độ phân giải: 1920x1152
Tốc độ bit: 80Mbps
Dạng ảnh sử dụng: I, P, B
ứng dụng vμo HDTV (truyền hình số có độ phân giải cao).
♦ Sau nμy có bổ sung 4:2:2P @ ML (4:2:2 profile @ Main level) áp dụng vμo lĩnh vực sản xuất ch−ơng trình truyền hình (studio) vì các lý do sau:
∗ Chất l−ợng cao: độ phân giải mμu tốt hơn so với MP @ ML (lấy mẫu 4:2:0), chất l−ợng tổng quát cao hơn do sử dụng tốc độ bit lớn hơn.
∗ Có khả năng sao chép nhiều lần mμ vẫn đảm bảo chất l−ợng y nh− video gốc.
∗ Tính linh hoạt: nhóm ảnh (GOP) ngắn hơn nên thuận tiện cho việc dμn dựng, biên tập ch−ơng trình truyền hình.
∗ Tính kinh tế: giá thμnh l−u trữ vμ truyền dẫn giảm, có khả năng t−ơng hợp giữa các thiết bị của nhiều hãng sản xuất khác nhau.
Các tham số cơ bản của 4:2:2P vμ ML:
∗ Cấu trúc lấy mẫu: 4:2:2
∗ Độ phân giải ảnh: 720*576
∗ Tốc độ dòng bit: 20Mbps
∗ Dạng ảnh sử dụng: I, P, B
2.3.3. Chuẩn nén MPEG-4
MPEG-4 là một chuẩn quốc tế (còn có tên gọi là ISO/ IEC 14496) được phát triển bởi nhóm MPEG (nhóm chuyên gia về ảnh động). Khuyến nghị MPEG-4 hoàn thành vào năm 1998 và trở thành chuẩn quốc tế vào đầu năm 1999. MPEG-4 phiên bản 2 trở thành chuẩn quốc tế vào đầu năm 2000. Một vài mở rộng được thêm vào chuẩn này từ thời gian đó, trong đó có MPEG-4 AVC.
MPEG-4 khác hẳn so với MPEG-2. MPEG-2 mã hoá một dòng Video ngay cả khi nó chứa đồ hoạ và văn bản chồng lấn. MPEG-4 phân tách đồ hoạ, văn bản chồng lấn thành các dòng riêng rẽ và sau đó chúng được hợp lại ở phía bộ giải mã.
2.3.3.1. Các phần của chuẩn MPEG-4:
Chuẩn MPEG-4 bao gồm nhiều chuẩn nhỏ được gọi là các phần, cấu trúc như sau:
Phần 1: Các hệ thống - Mô tả đồng bộ và ghép kênh Video và Audio
Phần 2: Hình ảnh - Bộ mã hoá/ giải mã dữ liệu hình ảnh. ASP là một trong những Profile của phần này.
Phần3: âm thanh - Tập các bộ mã hoá/ giải mã tín hiệu Audio, bao gồm AAC và các công cụ mã hoá Audio/ tiếng nói khác.
Phần 4: Tương thích - Mô tả thủ tục kiểm tra sự tương thích các phần khác nhaus của chuẩn.
Phần 5: Phần mềm tham khảo - Cung cấp phần mềm trình diễn và làm rõ các phần của chuẩn.
Phần 6: DMIF (cấu trúc tích hợp vận chuyển đa phương tiện) - Định nghĩa một giao diện giữa ứng dụng và mạng/ phương tiện lưu trữ.
Phần 7: Phần mềm tham khảo tối ưu - Cung cấp các ví dụ về cách tạo các ứng dụng (liên quan đến phần 5).
Các phần gần đây được thêm vào là:
Phần 8: Vận chuyển trên mạng IP - Phương pháp vận chuyển nội dung MPEG-4 trên mạng IP.
Phần 9: Phần cứng tham khảo - Cung cấp các trình diễn thiết kế phần cứng sử dụng các phần khác nhau của chuẩn.
Phần 10: Mã hoá Video tiên tiến (AVC) - Bộ mã hoá/ giải mã tín hiệu Video tương tự như chuẩn ITU-T H.264.
Phần 11: Mô tả cảnh hay còn được gọi là BIFS, có thể được sử dụng cho các nội dung 3D và các phụ đề.
Phần 12: Định dạng File thông tin ISO cơ bản- Một định dạng file để lưu giữ nội dung thông tin.
Phần 13: Các mở rộng bảo vệ và quản lý sở hữu trí tuệ - IPMP.
Phần 14: Định dạng File MP4 (dựa trên phần 12).
Phần 15: Dịnh dạng File AVC (cũng dựa trên phần 12).
Phần 16: AFX (cấu trúc hoạt hoạ mở rộng) và MuW (định dạng nhiều người dùng).
Phần 17: Định dạng phụ đề định thời văn bản.
Phần 18: Nén và tạo dòng font chữ (cho các font OpenType).
Phần 19: Dòng cấu trúc bề mặt tổng hợp.
Phần 20: Trình diễn cảnh LASeR.
Phần 21: Mở rộng cấu trúc đồ hoạ MPEG-J (GFX).
Phần 22: Khuyến nghị định dạng font chữ mở (OFFS) dựa trên OpenType
2.3.3.2. Nguyên tắc mã hoá và giải mã MPEG-4
MPEG-4 là sản phẩm của nhóm MPEG được thành lập tháng 1/1988 với nhiệm vụ phát triển các chuẩn xử lý, mã hoá và hiển thị các ảnh động, audio và các tổ hợp của chúng. Sản phẩm đầu tiên của nhóm này là MPEG-1 được sử dụng cho việc mã hoá các dữ liệu nghe nhìn với tốc độ 1,5 Mbps. Sản phẩm thứ hai của nhóm là MPEG-2 nổi tiếng hiện nay, mang tính tổng quát hơn và đang được áp dụng cho một loạt các ứng dụng nghe nhìn trong phạm vi tốc độ từ 3 – 40 Mbps.
Không giống các chuẩn MPEG trước đó, ví dụ như trong MPEG-2, nơi mà nội dung được tạo ra từ nhiều nguồn như video ảnh động, đồ hoạ, văn bản… và được tổ hợp thành chuỗi các khung hình phẳng, mỗi khung hình (bao gồm các đối tượng như người, đồ vật, âm thanh, nền khung hình…) được chia thành các phần tử ảnh pixels và xử lý đồng thời, giống như cảm nhận của con người thông qua các giác quan trong thực tế. Các pixels này được mã hoá như thể tất cả chúng đều là các phần tử ảnh video ảnh động. Tại phía thu của người sử dụng, quá trình giải mã diễn ra ngược lại với quá trình mã hoá không khó khăn. Vì vậy có thể coi MPEG-2 là một công cụ hiển thị tĩnh, và nếu một nhà truyền thông phát lại chương trình của một nhà truyền thông khác về một sự kiện, thì logo của nhà sản xuất chương trình này không thể loại bỏ được. Với MPEG-2, bạn có thể bổ xung thêm các phần tử đồ hoạ và văn bản vào chương trình hiển thị cuối cùng (theo phương thức chồng lớp), nhưng không thể xoá bớt các đồ hoạ và văn bản có trong chương trình gốc.
Chuẩn MPEG-4 khắc phục được hạn chế này và là một chuẩn động dễ thay đổi. Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được mô tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản ES (Elementary Stream) khác nhau. Cũng như xác định, tách và xử lý riêng các đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như con người hay động vật, nền khung hình…), nên người sử dụng có thể loại bỏ riêng từng đối tượng khỏi khuôn hình. Sự tổ hợp lại thành khung hình chỉ được thực hiện sau khi giải mã các đối tượng này.
Hình 2.12. Sự tổng hợp khung hình trong MPEG-4
Trên hình 2.12 thể hiện một trường hợp điển hình của tổ hợp khuôn hình MPEG-4, cho thấy nhiều đối tượng (bàn, quả cầu, bảng đen, người hướng dẫn và audio) được đặt vào một hệ thống toạ độ không gian 3 chiều (3-D) đối với vị trí người xem giả định.
Các thiết bị mã hoá và giải mã video đều áp dụng sơ đồ mã hoá như nhau cho mối đối tượng video VO (Video Object) riêng biệt (hình 2.13), nhờ vậy người sử dụng có thể thực hiện các hoạt động tương tác riêng với từng đối tượng (thay đổi, di chuyển, kết nối, loại bỏ, bổ xung các đối tượng…) ngay tại vị trí giải mã hay mã hoá.
Video Information
Video Object Composition
Video Object Formation
VO 0
Coding
VO 1
Coding
VO n
Coding
MUX
VO 0
Decoding
VO 1
Decoding
VO n
Decoding
DMUX
User Interaction
Video Output
User Interaction
Bitstream
Hình 2.13: Cấu trúc bộ mã hoá và giải mã video MPEG-4
Các bộ phận chức năng chính trong thiết bị MPEG-4 tại đầu thu bao gồm:
Bộ mã hoá hình dạng ngoài Shape Coder dùng để nén đoạn thông tin, giúp xác định khu vực và đường viền bao quanh đối tượng trong khung hình scene.
Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời gian.
Bộ mã kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và các dữ liệu còn lại sau khi đã bù chuyển động.
Bitstream
Video Out
Shape
Decoding
Các file đính kèm theo tài liệu này:
- 31762.doc