Câu hỏi ôn tập về Truyền thông đa phương tiện

Câu 7: Trình bày sơ đồ và quá trình nén Video theo chuẩn MPEG-1(Ngọc)

MPEG-1

MPEG-1 là một chuẩn nén video và audio có suy hao. Nó được thiết kết để nén VHS (Video Home System) – video số thô chất lượng tốt và audio CD xuống chỉ còn 1.5 Mbps (các tỷ số nén lần lượt là 26:1 và 6:1) nhưng chất lượng giảm đi rất ít, có thể làm các VCD, TV số qua đường cáp hoặc vệ tinh và quảng bá audio số.

Hiện nay, MPEG-1 đã trở thành định dạng audio/video suy hao có tính tương thích rộng nhất trên thế giới, được ứng dụng trong rất nhiều sản phẩm và công nghệ. Có lẽ bộ phận nổi tiếng nhất của chuẩn MPEG-1 chính là định dạng MP3.

MPEG-1 audio sử dụng psychoacoustics để giảm đáng kể tốc độ dữ liệu mà một chuỗi audio yêu cầu. Nó giảm bớt hoặc loại bỏ hoàn toàn một vài phần của audio mà tai người không thể nghe được, hoặc vì chúng nằm trong vùng tần số mà độ nhạy tai người bị giới hạn, hoặc bị che khuất bởi các âm thanh khác (thường là âm to hơn).

 

doc18 trang | Chia sẻ: maiphuongdc | Lượt xem: 5153 | Lượt tải: 3download
Bạn đang xem nội dung tài liệu Câu hỏi ôn tập về Truyền thông đa phương tiện, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
multimedia Câu 1: Truyền thông đa phương tiện là gì? Lấy ví dụ về các ứng dụng trong truyền thông đa phương tiện. Câu 2: Vẽ sơ đồ, trình bày các thành phần của một mạng truyền thông đa phương tiện. Nêu các đặc điểm của mạng truyền thông đa phương tiện. Các vấn đề chính trong truyền thông đa phương tiện là gì? Câu 3: Vẽ sơ đồ và trình bày quy trình nén và giải nén ảnh JPEG. Câu 4:Trình bày thuật toán nén không mất thông tin Shannon-Fano. Lấy ví dụ minh họa Câu 5: Trình bày thuật toán nén không mất thông tin Huffman. Lấy ví dụ minh họa? Câu 6: Trình bày thuật toán mã hóa Run Length Encoding (RLE). Lấy ví dụ minh họa? Câu 7: Trình bày sơ đồ và quá trình nén Video theo chuẩn MPEG-1 Câu 8: Trình bày các kỹ thuật mã hoá nguồn(có tổn thất thông tin) (gợi ý: gồm 3 loại cơ bản là mã hoá chuyển đổi, mã hoá sai phân và lượng tử hoá vectơ). Câu 9: Trình bày các giai đoạn chính trong xử lý ảnh Câu 10: Trình bày nguyên tắc nén dữ liệu video Câu 11: QoS trong truyền thông đa phương tiện là gì? Nêu các thông số, cách xác định các thông số dùng để đánh giá QoS. Câu 12: Kỹ thuật mã hóa video MPEG sử dụng những loại khung hình cơ bản nào? Nêu đặc điểm của từng loại Câu 13: Kỹ thuật mã hóa Entropy (không tổn thất thông tin) là gì, trình bày các kỹ thuật thường dùng trong hệ thống xử lý video? Câu 1: Truyền thông đa phương tiện là gì? Khái niệm Thuật ngữ đa phương tiện dùng để chỉ các thông tin như dữ liệu, tiếng nói, đồ họa, hình ảnh tĩnh, âm thanh và phim ảnh được các mạng truyền đi cùng thời điểm. Ví dụ Video streaming + Trong Video Streaming thường được sử dụng trong lĩnh vực giải trí hoặc dạy học, dùng để lưu trữ các file video hoặc các bài học, cung cấp cho người dùng các tiện ích như tìm kiếm, liệt kê, và khả năng hiển thị hoặc hiển thị lại các dữ liệu video theo yêu cầu.Video Streaming được thể hiện dưới hai dạng : Video theo yêu cầu(on demand) và Video thời gian thực (live event). +Video theo yêu cầu là các dữ liệu video được lưu trữ trên multimedia server và được truyền đến người dùng khi có yêu cầu, người dùng có toàn quyền để hiển thị cũng như thực hiện các thao tác (tua, dừng, nhẩy qua ..) với các đoạn dữ liệu này. +Video thời gian thực là các dữ liệu video được convert trực tiếp từ các nguồn cung cấp dữ liệu theo thời gian thực (máy camera, microphone, các thiết bị phát dữ liệu video ...). Các dữ liệu này sẽ được multimedia phát quảng bá thành các kênh người dùng sẽ chỉ có quyền truy nhập bất kỳ kênh ưa thích nào để hiển thị dữ liệu mà không được thực hiện các thao tác tua, dừng ... trên các dữ liệu đó (giống như TV truyền thống). Hội nghị truyền hình Là sự hoạt động tương tác giữa tín hiệu audio, video trong thời gian thực. Nó được ứng dụng trong hội họp từ xa giúp những người tham gia không tốn thời gian đi lại mà vẫn có thể gặp mặt nhau, mà lại tiết kiệm nhiều chi phí khác. Ví dụ: Hệ thống hội nghị truyền hình đã được ứng dụng rộng rãi trong các trường đại học như dạy và học trực tuyến từ xa theo mô hình học trên mạng. Trong xã hội cũng như an ninh, quốc phòng. Trong các hội nghị giao ban, trao đổi công việc của các đơn vị có vị trí địa lý cách xa nhau. Các xí nghiệp, các trung tâm thương mại, bệnh viện như người bệnh có thể được khám bệnh, chuẩn đoán hay thậm chí phẫu thuật gián tiếp từ các chuyên gia y tế tại những nơi rất xa. Và các công việc, lĩnh vực yêu cầu trao đổi thông tin, hình ảnh, âm thanh thời gian thực khác. Nó giúp cải thiện mối quan hệ cộng tác, tăng hiệu quả sản xuất, kinh doanh dẫn tới các quyết định nhanh chóng giữa các thành viên hội nghị. Mỗi người sử dụng video conferencing sẽ được nhìn và nghe thấy những người cùng tham gia khác. Ưu tiên cho các tín hiệu âm thanh Video cameraso Các hệ thống giám sát video Câu 2: Vẽ sơ đồ, trình bày các thành phần của một mạng truyền thông đa phương tiện. SƠ ĐỒ CÁC THÀNH PHẦN Các thành phần của một mạng truyền thông đa phương tiện bao gồm: Nguồn, Thiết bị nguồn, Mạng truy cập, Các mạng xương sống, Mạng phân phối và Thiết bị cuối. -Nguồn: +Là bất cứ thông tin đa phương tiện nào + Nguồn là thông tin truyền đi thường được thể hiện dưới dạng số, mạng được dùng để truyền thông tin số này là mạng truyền thông số +Nó nén thông tin nguồn sao cho tỉ lệ truyền các bít dữ liệu tới kết nối mạng giữa thiết bị nguồn và thiết bị cuối ở mức độ tối thiểu phù hợp nhất. -Thiết bị nguồn: + Thiết bị nguần có nhiệm vụ đóng gói dữ liệu nhằm ngăn chặn việc mất gói dữ liệu hoặc dấu thông báo lỗi ở thiết bị cuối. -Thiết bị đích + Thiết bị đích có nhiệm vụ hiển thị hình ảnh hoặc âm thanh. Nó có khả năng thay đổi, linh động các cách thức hiển thị hình ảnh hoặc âm thanh tới người dùng -Thiết bị đầu cuối + Thiết bị đầu cuối như máy tính cá nhân, điện thoại, hoặc các phương tiện hỗ trợ cá nhân kỹ thuật số cũng có ảnh hưởng khá lớn đến truyền thông đa phương tiện + Thiết bị đầu cuối sẽ có các hình dạng và kích cỡ và được yêu cầu để chứa đầy đủ các nhiệm vụ có khả năng hiển thị hình ảnh, âm thanh, đóng gói, giải nén dữ liệu.. . Do đó thiết bị đầu cuối sẽ được phân loại theo đặc điểm như: nguồn xử lý (Nhắn tin, thoại, dữ liệu, hình ảnh video), kích thước, trọng lượng, pin điện và pin, thiết bị đầu, thiết bị đầu ra và tốc độ xử lý, đặc biệt khả năng xử lý tín hiệu, di động, và dễ di chuyển -Mạng truy cập + Mạng truy cập có thể mô phỏng bằng một kết nối đơn như các loại Modem hay một đường ADSL …hoặc cũng có thể sử dụng một loại mạng có tính năng chia sẻ, và do vậy bên cạnh những ràng buộc về tỉ lệ truyền tin nó còn mang những đặc tính mất dữ liệu hoặc trễ. - Mạng sương sống + Mạng sương sống bao gồm các kết nối vật lí của các mạng chuyển mạch, một đường dẫn ảo thông qua một mạng chuyển mạch gói hay một kết nối giao thức điều khiển truyền thông/ giao thức mạng TCP/IP. Do vậy, mạng này bao gồm những yếu tố như băng thông, góc trễ, lỗi dữ liệu . -Mạng phân phối + Mạng phân phối có thể có những đặc điểm giống như mạng truy cập hoặc có thể hình dung rằng trong nhiều đường truyền mạng phân phối giống như một mạng nội bộ hợp nhất. CÁC ĐẶC ĐIỂM CỦA MẠNG TRUYỀN THÔNG ĐA PHƯƠNG TIỆN + Dung lượng rất lớn + Băng thông giới hạn + Truyền liên tục + Kết hợp nhiều loại thông tin + Chi phí cho việc truyền tin lớn Câu 3: Vẽ sơ đồ và trình bày quy trình nén và giải nén ảnh JPEG JPEG là một chuẩn nén ảnh hiệu quả có thể giảm được dung lượng ảnh đến vài chục lần mà không làm giảm chất lượng hình ảnh. Tỷ lệ nén ảnh tới vài chục lần (thường là 80:1 trở lên) Ảnh sau khi giải nén sẽ khác với ảnh ban đầu (do chất lượng ảnh suy giảm tăng dần theo hệ số nén) Sử dụng nguyên tắc loại bỏ những thông tin không cần thiết được dựa trên những nghiên cứu về mức độ nhạy cảm của mắt người Mô hình nén ảnh Nguyên tắc: Biến đổi tập các giá trị pixel của ảnh trong miền không gian sang một tập các giá trị khác trong miền tần số sao cho các hệ số trong tập giá trị mới có tương quan giữa các điểm ảnh gần nhau nhỏ hơn Quá trình nén ảnh Bước 1: Qui tắc hóa (regularizing stage) làm cho ảnh có nhiều đoạn giống nhau hơn thực tế Ảnh màu được chuyển sang dạng YUV (có thể bỏ qua bước này nhưng sẽ làm giảm hiệu quả nén) Thông tin về độ sáng (Y-luminance) được tách rời với thông tin về độ màu (U,V-chrominance) .Do mắt người nhạy cảm với Y hơn U, V (thực hiện biến đổi làm mất nhiều thông tin của U, V hơn Y) Do thực tế là ảnh thường có nhiều vùng lớn có các điểm kề nhau rất giống nhau về kênh màu Bước 2: Lấy mẫu (subsampling) cho các kênh màu Loại bỏ có hệ thống các thông tin màu sắc đối với các hàng hoặc cột điểm ở tỉ lệ cho trước Ví dụ: cứ hai hàng loại bỏ một hàng và hai cột loại bỏ một cột, sẽ giảm được dữ liệu màu đi 75% Bước 3: sắp xếp lại dữ liệu bằng hàm toán học DCT Chia nhỏ ảnh thành các vùng 8x8 pixel (=64 pixel) Dùng DCT biến đổi 64 pixel thành ma trận có 64 hệ số thể hiện “thực trạng” các pixel Hệ số đầu tiên có khả năng thể hiện "thực trạng" cao nhất, khả năng đó giảm rất nhanh với các hệ số khác (lượng thông tin của 64 pixel tập trung chủ yếu ở một số hệ số). Biến đổi này có làm mất mát thông tin nhưng chưa đáng kể Lược bớt (lượng tử hóa) sự khác nhau giữa các hệ số của ma trận nhận được sau biến đổi DCT (mất nhiều thông tin) (chia cho giá trị k trong bảng lượng tử) Áp dụng phương pháp mã hóa của Huffman: Phân tích dãy số, các phần tử lặp lại nhiều được mã hóa bằng ký hiệu ngắn (marker) Quy trình giải mã (decompression): thực hiện ngược lại các bước trên Sơ đồ thuật toán giải nén ảnh (thực hiện ngược lại các bước trong sơ đồ nén) Dữ liệu được giải mã bằng thuật toán Huffman Các trị kết quả được nhân lên (với k trong bảng lượng tử) Áp dụng hàm DCT ngược Chuyển các vùng luminance và chrominance thành RGB Các kỹ thuật nén ảnh được sử dụng: + Nén ảnh không mất thông tin : với phương pháp này sau khi giải nén ta khôi phục được chính xác ảnh gốc. Các phương pháp nén này bao gồm mã hoá Huffman, mã hoá thuật toán… + Nén ảnh có mất thông tin: ảnh giải nén có một sự sai khác nhỏ so với ảnh gốc. Câu 4: Phương pháp nén theo Shanon Ý tưởng: do xác suất xuất hiện của các ký tự mã đã biết nên mã hoá các ký tự có thể được tối ưu hoá. Giảm số lượng bit dùng để biểu diễn các ký tự mã xuất hiện thường xuyên. Tăng số lượng bit dùng để biểu diễn những ký tự mã ít xuất hiện. Trên thực tế: do các tần suất xuất hiện của các ký tự mã chưa biết nên phải duyệt toàn bộ khối thông tin hai lần: Lần duyệt thứ nhất: xác định tần suất xuất hiện của ký tự mã. Lần duyệt thứ hai: thực hiện mã hoá các ký tự. Nguyên lý: Các từ mã có độ dài biến thiên. Độ dài mã tỷ lệ nghịch với xác suất xuất hiệncủa kýtự. Từ mã được giải mã một cách duy nhất. Các bước thực hiện thuật toán: Xác định các xác suất xuất hiện của các ký tự trong bản tin. Sắp xếp các ký tự theo trình tự xác suất xuất hiện giảm dần. Phân chia các ký tự thành hai nhóm có tổng xác suất xấp xỉ (nếu dùng mã nhị phân thì phân chia làm hai nhóm, nếu mã cơ số m thì chia làm m nhóm). Gán cho mỗi nhóm ký hiệu mã 0 hoặc 1. Tiếp tục phân chia cho tới khi trong các nhóm chỉ chứa một ký hiệu. Từ mã cho ký hiệu là tổ hợp của các ký hiệu của các nhóm chứa ký hiệu tính theo thứ tự từ lần tạo nhóm đầu tiên. Ví dụ: Ví dụ: Cho thông điệp “BBCAACADBDCADAEEEABAC DBACADCBADABEABEAAA” Tần suất xuất hiện của các ký tự trong thông điệp lần lượt bằng: A: 15; B: 8; C: 6; D: 6; E: 5. A: 00; B: 01; C: 10; D: 110; E: 111. Số lượng bit dùng để chứa chuỗi mã: 2x15+2x8+2x6+3x6+3x5=91bit. Nếudùng mã ASCII: 40x8=320bit Tỷ lệ nén: 91/320 = 28% Nhận xét chung: 1. Việc sắp xếp nguồn theo xác suất giảm dần cũng nhằm mục đích dẫn tới độ dài trung bình của bộ mã là nhỏ. 2. Độ phức tạp của thuật toán phụ thuộc vào việc sử dụng thuật toán sắp xếp. Nếu sử dụng thuật toán sắp xếp đệ quy thì độ phức tạp sẽ là . 3. Xuất phát từ thuật toán Shanon, ta có thể mở rộng cho việc tạo bộ mã với cơ số bất kỳ bằng cách xác định lại độ dài cũng như đổi các xác suất phụ sang dạng phân. 4. Trong trường hợp khi có nhiều tin với xác suất bằng nhau thì bộ mã thu được có thể không duy nhất. Câu 5: Trình bày thuật toán nén không mất thông tin Huffman. Lấy ví dụ minh họa? Nguyên lý: Các từ mã có độ dài biến thiên. Độ dài mã tỷ lệ nghịch với xác suất xuất hiện của ký tự. Từ mã được giải mã một cách duy nhất. Thuật toán: Thuật toán bao gồm 2 bước chính: a. Giai đoạn thứ nhất: Tính tần suất của các ký tự trong dữ liệu gốc: duyệt tệp gốc một cách tuần tự từ đầu đến cuối để xây dựng bảng mã. Tiếp sau đó là sắp xếp lại bảng mã theo thứ tự tần suất giảm dần. Giai đoạn thứ hai: mã hóa: Duyệt bảng tần suất từ cuối lên đầu để thực hiện ghép 2 phần tử có tần suất xuất hiện thấp nhất thành một phần tử duy nhất. Phần tử này có tần suất bằng tổng 2 tần suất thành phần. Tiến hành cập nhật lại bảng và đương nhiên loại bỏ 2 phần tử đã xét. Quá trình được lặp lại cho đến khi bảng chỉ có một phần tử. Quá trình này gọi là quá trình tạo cây mã Huffman vì việc tập hợp được tiến hành nhờ một cây nhị phân 2 nhánh. Phần tử có tần suất thấp ở bên phải, phần tử kia ở bên trái. Với cách tạo cây này, tất cả các bit dữ liệu/ký tự là nút lá; các nút trong là các nút tổng hợp. Sau khi cây đã tạo xong, người ta tiến hành gán mã cho các nút lá. Việc mã hóa rất đơn giản: mỗi lần xuống bên phải ta thêm 1 bit “1” vào từ mã; mỗi lần xuống bên trái ta thêm một bit “0”. Tất nhiên có thể làm ngược lại, chỉ có giá trên mã thay đổi còn tổng chiều dài là không đổi. Cũng chính do lý do này mà cây có tên gọi là cây mã Huffman như trên đã gọi. Quá trình giải nén tiến hành theo chiều ngược lại khá đơn giản. Người ta cũng phải dựa vào bảng mã tạo ra trong giai đoạn nén (bảng này được giữ lại trong cấu trúc của tệp nén cùng với dữ liệu nén). Thí dụ, với một tệp dữ liệu mà tần suất các ký tự cho bởi. Ưu điểm Cho phép thực hiện tốt với hình ảnh cũng như text. Tỷ lệ nén trung bình: 50%. Tốc độ nén nhanh. Nhược điểm Trong một số tình huống khi tần suất là rất thấp, ta có thể không được lợi một chút nào, thậm chí còn bị thiệt một ít bit. Bên nhận muốn giải mã được thông điệp thì phải có một bảng mã giống như bảng mã ở bên gửi, do đó khi nén các tập tin bé hệ số nén không được cao. Ví dụ: cho thông điệp “BCAACADBDCADAEEEABACDBACADCBADABEABEAAA” Tần suất xuất hiện A: 15; B: 7; C: 6; D: 6; E: 5. Từ mã gán cho các kí tự bởi mã Huffman: A: 0; B:100; C: 101; D: 110; E: 111 Số lượng bit dùng để chứa chuỗi mã: 1x15+3x7+3x6+3x6+3x5=87 Tỷ lệ nén: 87/320=27% Câu 6: Phương pháp mã hóa loạt dài RLE (Run Length Encoding): a) Thuật toán mã hóa Run Length Encoding (RLE). Loại dư thừa đơn giản nhất trong một tập tin là các đường chạy dài gồm các kí tự lặp lại, điều này thường thấy trong các tập tin đồ hoạ bitmap, các vùng dữ liệu hằng của các tập tin chương trình, một số tập tin văn bản... Nguyên lý: Tối ưu hoá mã bằng cách thay thế các chuỗi ký tự giống nhau liên tiếp. Ứng dụng trong các loại ảnh BMP, TIFF. Các điểm ảnh liên tiếp có giá trị như nhau sẽ được thay thế bằng một điểm ảnh và chỉ rõ số lượng điểm. Các bước thuật toán: Tìm trong thông điệp những ký tự liên tiếp lặp lại. Thay thế chuỗi ký tự đó bằng: Một ký tự đặc biệt chỉ việc nén. Số lần lặp lại của ký tự. Ký tự lặp lại được nén. b)Ví dụ minh họa: ABCCCCCCDDEEEE Chuỗi này có thể được mã hoá một cách cô đọng hơn bằng cách thay thế chuỗi kí tự lặp lại bằng một thể hiện duy nhất của kí tự lặp lại cùng với một biến đếm số lần kí tự đó được lặp lại. Ta muốn nói rằng chuỗi này gồm một chữ A theo sau bởi một chữ B rồi lại theo sau bởi sáu chữ C, rồi lại theo sau bởi hai chữ B và cuối cùng là 4 chữ E. Việc nén một chuỗi theo phương pháp này được gọi là mã hoá độ dài loạt. Khi có những loạt dài, việc tiết kiệm có thể là đáng kể Chọn ký tự nén là: #. Vì vậy chuỗi kí tự trên được mã hoá lại như sau: AB#6CDD#4E Chú ý là không đáng để mã hoá các loạt chạy có độ dài 1 hoặc 2 vì cần đến hai kí tự để mã hoá. Tỷ lệ nén : 57% Phương pháp mã hoá độ dài loạt thường được áp dụng cho các tập tin đồ hoạ bitmap vì ở đó thường có các mảng lớn cùng màu được biểu diễn dưới dạng bitmap là các chuỗi bit có đường chạy dài. Trên thực tế, nó được dùng trong các tập tin .PCX, .RLE. Câu 7: Trình bày sơ đồ và quá trình nén Video theo chuẩn MPEG-1 Sơ đồ nén Video theo chuẩn MPEG-1: Cơ sở của công nghệ nén video MPEG là sự kết hợp giữa nén trong ảnh (Intra-Frame Compression) và công nghệ nén liên ảnh ( Inter-Frame Compression). Trong đó: + Nén trong ảnh (Intra -Frame Compression): là loại nén nhằm giảm bớt thông tin dư thừa trong miền không gian. Nén trong ảnh sử dụng cả hai quá trình có tổn hao và không có tổn hao để giảm bớt dữ liệu trong ảnh. Quá trình này không sử dụng thông tin của các ảnh trước và sau ảnh đang xét. + Nén liên ảnh (Intra -Frame Compression): Trong tín hiệu video có chứa thông tin dư thừa trong miền thời gian. Nghĩa là với một chuỗi liên tục các ảnh, lượng thông tin chứa đựng trong mỗi ảnh thay đổi rất ít từ ảnh này sang ảnh khác. Tính toán sự dịch chuyển vị trí của nội dung ảnh là một phần rất quan trọng trong kỹ thuật nén liên ảnh. Trong thuật nén MPEG, quá trình xác định Vector chuyển động được thực hiện bằng cách chia hình ảnh thành các Macro-Block, mỗi Macro-Block có 16 x 16 phần tử ảnh (tương đương với 4 Block, mỗi Block có 8 x 8 phần tử ảnh). Để xác định chiều chuyển động, người ta tìm kiếm vị trí của Macro-Block trong ảnh tiếp theo, kết quả của sự tìm kiếm sẽ cho ta Vector chuyển động của Macro-Block . Nguyên lý nén MPEG: Dạng thức đầu vào là Rec- 601 4:2:2 hoặc 4:2:0. Ảnh hiện tại được so sánh với ảnh trước tạo ra ảnh khác biệt. Ảnh này sau đó lại được nén trong ảnh qua các bước: biến đổi DCT, lượng tử hóa, mã hoá. Dữ liệu của ảnh khác biệt và vector chuyển động (được xác định như trên) mang thông tin về ảnh sau nén liên ảnh được đưa đến bộ đệm ở đầu ra. Tốc độ bít của tín hiệu video được nén không cố định, phụ thuộc vào nội dung ảnh đang xét (ví dụ một phần nén ít hơn hoặc nhiều hơn), nhưng tại đầu ra bộ mã hoá dòng bít phải cố định để xác định tốc độ cho dung lượng kênh truyền. Câu 7: Trình bày sơ đồ và quá trình nén Video theo chuẩn MPEG-1(Ngọc) MPEG-1 MPEG-1 là một chuẩn nén video và audio có suy hao. Nó được thiết kết để nén VHS (Video Home System) – video số thô chất lượng tốt và audio CD xuống chỉ còn 1.5 Mbps (các tỷ số nén lần lượt là 26:1 và 6:1) nhưng chất lượng giảm đi rất ít, có thể làm các VCD, TV số qua đường cáp hoặc vệ tinh và quảng bá audio số. Hiện nay, MPEG-1 đã trở thành định dạng audio/video suy hao có tính tương thích rộng nhất trên thế giới, được ứng dụng trong rất nhiều sản phẩm và công nghệ. Có lẽ bộ phận nổi tiếng nhất của chuẩn MPEG-1 chính là định dạng MP3. MPEG-1 audio sử dụng psychoacoustics để giảm đáng kể tốc độ dữ liệu mà một chuỗi audio yêu cầu. Nó giảm bớt hoặc loại bỏ hoàn toàn một vài phần của audio mà tai người không thể nghe được, hoặc vì chúng nằm trong vùng tần số mà độ nhạy tai người bị giới hạn, hoặc bị che khuất bởi các âm thanh khác (thường là âm to hơn). Mã hóa kênh thì có 4 kiểu: - Mono - Joint Stereo (được mã hóa cường độ) - Stereo - Dual (2 kênh mono không tương quan) Các tốc độ lấy mẫu: 32, 44.1, 48 kHz Các tốc độ bit: 32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 và 384 kbps. MPEG-1 audio được chia làm 3 lớp. Mỗi lớp cao hơn thì càng phức tạp tính toán hơn và thường hiệu quả hơn tại các tốc độ bit thấp hơn các lớp trước. Các lớp này cũng có tính tương thích ngược. Tức là decoder của lớp II thì cũng có thể chạy được audio lớp I nhưng k chạy được audio lớp III. Chuẩn MPEG-1 bao gồm 3 tầng trong hệ thống mã hóa âm thanh với độ phức tạp và hiệu suất tăng dần. Những lớp này là sự hợp tác và phát triển với AT&T, CCETT, FhG/University of Erlangen, Philips, IRT, and Thomson Consumer Electronics(Điện tử gia dụng Thomson). MPEG-1 hoạt động ở một trong bốn chế độ có thể có: đơn sắc, âm thanh nổi, kênh đôi, và joint stereo. Với chế độ joint stereo, sự nén có thể được thực hiện thông qua một số khai thác thông minh của sự tương quan giữa kênh trái và kênh phải hoặc là tính không liên quan giữa giữa pha của chúng MPEG-1 các lớp I và II Sơ đồ khối mã hóa của tầng I và II được cho trong hình 1. Việc phân tích, chia tách, lọc một dãy tín hiệu đầu vào với tốc độ lấy mẫu Fs bằng cách chia nó thành 32 tín hiệu phân giải khoảng cách bằng nhau với tốc độ lấy mẫu Fs/32. Trong toàn bộ 32 tín hiệu phân giải, 12 mẫu liên tiếp được tập hợp vào trong những khối tương đương với 384 mẫu đầu vào. Tất cả các mẫu trong một khối được chuẩn hóa bởi một hệ số co dãn để tất cả đều có giá trị tuyệt đối ít hơn một. Việc lựa chọn một hệ số co giãn được thực hiện bằng việc đầu tiên tìm kiếm các mẫu với giá trị tuyệt đối lớn nhất, sau đó so sánh nó với bảng hệ số co giãn với 36 giá trị cho phép. Sau khi chuẩn hóa, các mẫu được lượng tử và mã hóa dưới sự điều khiển của mô hình psychoacoustic . Phân tích chi tiết psychoacoustic được thực hiện thông qua việc sử dụng 512(Tầng I) hoặc 1024(Tầng II) điểm biến đổi Fouries nhanh(FFT- fast Fourier transform) song song với sự phân tích subband. Đơn vị định vị bit(bit-allovation) quyết định việc lượng tử hóa theo tốc độ truyền bit và các thông tin cảm nhận được từ mô hình psychoacoustic . Tầng II giới thiệu thêm về nén so với tầng I thông qua ba sự cải biến. Đầu tiên, làm giảm các thông tin tổng thể bằng cách loại bỏ sự dư thừa và không thích hợp giữa các hệ số co giãn của 3 khối liền kề với 12 mẫu. Thứ hai, cung cấp một bảng lượng tử hóa với độ chính xác được cải thiện. Thứ 3, việc phân tích psychoacoustic sẽ giúp ích cho phép phân giải tần số tốt hơn bởi vì kích thước FFT tăng. II.2.1.2 MPEG-1 lớp III Mã hóa âm thanh MPEG-1 lớp III được giới thiệu với nhiều tính năng mới, đặc biệt là lai một dãy lọc(Filter-bank) đó là một tầng của hai filterbank. Để thuận tiện, ban đầu filterbank được gán nhãn mức lai đầu tiên tầng III và sau đó là mức lai thứ hai tầng III. Sơ đồ khối của bộ mã hóa Layer III được đưa ra trong Hình 2 Hình 1: Mã hóa âm thanh MPEG-I tầng 1 và II Hình 2: Mã hóa âm thanh MPEG-1 lớp III Tầng III cung cấp một sự phân giải tần số cao bằng cách phân chia 32 tín hiệu phân giải cùng với 18 điểm biến đổi cosine rời rạc(MDCT). Hơn nữa, kích thước khối biến đổi sẻ giúp thích nghi với tín hiệu đảm bảo sự cân bằng giữa thời gian và độ phân giải tần số. Sự lượng tử hóa không đồng dạng phối hợp với sự thay đổi chiều dài mã giúp tiết kiệm hơn tốc độ truyền bít. Một tính năng đặc biệt của lớp III gọi là “hồ chứa bit”(bit reservoir); nó cung cấp các phương tiện truyền tải tốt phù hợp hơn với yêu cầu về thời gian khác nhau của bộ mã hóa trên tầng bit mã. Việc mã hóa có thể cho các bit tới một hồ chứa khi nó cần ít hơn trung bình số của các bit để mã hóa các mẫu trong một khung. Nhưng trong trường hợp các tín hiệu âm thanh rất khó để nén, bộ mã hóa có thể mượn bit từ hồ chứa để nâng cao độ trung thực.

Các file đính kèm theo tài liệu này:

  • doc2737873 c432417ng n t7853p mn truy7873n thng.doc
Tài liệu liên quan