Giáo trình Xử lý âm thanh và hình ảnh - Kỹ thuật xử lý âm thanh

Bộmã hóa điều chếxung mã vi sai thích nghi (ADPCM) là bộmã hóa dạng sóng

thay vì lượng tửhoá trực tiếp tín hiệu thoại, giống nhưphương pháp PCM, nó lượng tử

hóa sựkhác nhau giữa tín hiệu thoại và tín hiệu dự đoán.

Nếu sựdự đoán là chính xác thì sựkhác nhau giữa các mẫu thật và mẫu dự đoán

sẽnhỏhơn, ít khác biệt hơn so với giữa các mẫu thoại thực, và sựkhác biệt này nếu được

lượng tửhoá chính xác thì sẽcần sốbit ít hơn so với việc phải lượng tửhoá các mẫu

thoại gốc.

Tại bộgiải mã, tín hiệu khác biệt mà đã được lượng tửhóa được cộng với tín hiệu

dự đoán đểkhôi phục lại tín hiệu thoại ban đầu. Hiệu năng của bộmã hóa được cải thiện

thông qua việc sửdụng bộdự đoán và lượng tửthích nghi sao cho bộdự đoán và bộ

lượng tửphải thích ứng với những đặc tính thay đổi của thoại đang được mã hoá

31 trang | Chia sẻ: maiphuongdc | Lượt xem: 5032 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Giáo trình Xử lý âm thanh và hình ảnh - Kỹ thuật xử lý âm thanh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

à một sóng âm từ các hốc mũi và miệng khi không khí bị bật ra từ các lá phổi với kết quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ thể con người. Sẽ rất là hữu ích khi thể hiện quá trình tạo âm thoại ở dạng bộ lọc âm thanh. Có ba hốc quan trọng trong hệ thống tạo âm thoại là hốc mũi, miệng và hầu để hình thành nên một bộ lọc âm thanh. Bộ lọc được kích thích bởi không khí từ các lá phổi và gánh tải tại đầu ra chính của nó bởi trở kháng bức xạ gắn kết với môi. Cuống họng (vocal tract) liên quan tới hầu và các hốc miệng được nhóm lại với nhau. Cuống khứu giác (nasal tract) bắt đầu tại vòm miệng và kết thúc tại các hốc mũi. Khi vòm miệng thấp xuống, cuống khứu giác được ghép nối về mặt âm thanh với cuống họng để hình thành nên các âm thoại giọng mũi. Sự hình thành và khuôn dạng của cuống họng, cuống khứu giác thay đổi liên tục theo thời gian để tạo ra một bộ lọc âm thanh với đáp ứng tần số biến đổi theo thời gian. Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 21 Khi mà không khí từ các lá phổi chuyển động qua các cuống họng, khứu giác, phổ tần số được định dạng bởi sự lựa chọn tần số của những cuống họng và khứu giác này Hình 2.7: Bộ phận phát âm của con người Thoại được tạo ra khi không khí đi từ phổi, qua các dây thanh âm (bộ phận phát ra tiếng của thanh quản) và dọc theo cuống họng. Cuống họng bắt đầu từ vị trí mở các dây thanh âm cho tới miệng với chiều dài trung bình khoảng 16cm. Dây thanh âm của người có cấu trúc gồm hai sợi cơ, mỗi sợi cơ được giữ bởi một màng cơ – một khối cơ đủ mạnh. Bình thường hai dây cơ khép lại, không khí từ buồng phổi bị đóng kín không ra được. Khi phổi đầy khí, dưới sự điều khiển của hệ dây thần kinh, khi cần nói, không khí ép vào cơ cấu dây thanh âm, hai dây thanh âm có thể mở ra hoặc không mở. Khi các dây thanh âm mở, không khí được đẩy ra từ phổi từng lớp một theo một chu kỳ nhất định T0 tạo ra các nguyên âm. Nếu các dây thanh âm không mở, nó sẽ bị tách bật ra để không khí có thể lọt qua tạo ra các phụ âm nổ hoặc không khí có thể lách xuyên qua khe hẹp giữa hai dây để tạo ra các phụ âm xát - rít. Chúng ta có thể xem cơ quan phát âm như là một bộ lọc với nhiều tần số cộng hưởng khác nhau và được gọi là những tần số formant hoặc đơn giản là formant. Các tần Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 22 số formant được điều khiển bởi việc thay đổi hình dạng của cuống họng, chẳng hạn thông qua sự chuyển động của lưỡi. Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong ống dẫn thanh, đặc trưng cho âm sắc của mỗi nguyên âm. Trong mỗi dải tần như thế có một tần số được tăng cường hơn cả gọi là đỉnh formant. Một nguyên âm do một người phát ra có nhiều formant: • F1: ứng với cộng hưởng vùng yết hầu • F2: ứng với cộng hưởng khoang miệng Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác F4, F5,…liên quan đến các đặc trưng giọng nói riêng của mỗi cá nhân. Mỗi lần môi, lưỡi, hàm ở những vị trí khác nhau là một lần hộp cộng hưởng miệng và yết hầu thay đổi hình dáng, thể tích, lối thoát của không khí làm biến đổi âm sắc của âm thanh đi qua chúng. Chính vì vậy, hai khoang miệng và yết hầu là hai hộp cộng hưởng quan trọng nhất, chúng tạo nên hai formant chính formant F1 và F2 đặc trưng của mỗi nguyên âm. Bộ lọc cuống họng bị kích thích bởi luồng không khí tác động vào nó từ các dây thanh âm. Theo đó các âm thanh thoại phát ra được phân chia thành ba loại phụ thuộc vào phương thức kích thích. • Các âm hữu thanh (voiced sound): được tạo ra khi các dây thanh âm rung động mở hoặc đóng, do vậy mà làm gián đoạn (ngắt) luồng không khí được tạo ra từ phổi tới cuống họng và tạo ra các các xung không khí có chu kỳ (quasi-periodic) khi bị kích thích. Tốc độ của việc đóng hoặc mở các dây thanh âm xác định độ cao thấp của âm thanh (pitch). Pitch có thể được điều chỉnh qua việc thay đổi hình dạng, độ căng của các dây thanh âm cũng như áp suất của luồng không khí tác động lên chúng từ phổi. -> nguyên âm. Các âm hữu thanh thường có tính chu kỳ cao, điển hình trong khoảng 2 đến 20 ms như được minh họa ở hình 2.8. của một đoạn âm hữu thanh lấy mẫu tại tần số 8KHz. Hàm mật độ phổ công suất – PSD (Power Spectral Density) của đoạn âm hữu thanh này được minh họa ở hình 2.9. • Các âm vô thanh (unvoiced sound): được tạo ra khi kích thích là một nhiễu loạn từ việc ép luồng không khí ở tốc độ cao qua khe hẹp ở cuống họng trong khi các dây thanh âm ở trạng thái mở. Lưu ý âm vô thanh là các tín hiệu không có chu kỳ, nó có thể ở dạng tạp âm, nhiễu… Tính chu kỳ của những âm vô thanh cũng được thể hiện ở các hình vẽ 2.10 và 2.11. • Các âm bật - nổ (plosive sound): được tạo ra khi có sự đóng hoàn toàn ở cuống họng, và áp suất không khí được hình thành ở phía sau được giải phóng đột ngột.- > phụ âm. Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 23 Hình 2.8: Một đoạn điển hình của các âm hữu thanh Hình 2.9: Mật độ phổ công suất cho đoạn thoại hữu thanh Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 24 Hình 2.10: Một đoạn điển hình của các âm vô thanh Hình 2.11: Mật độ phổ công suất cho đoạn thoại vô thanh Một số âm thanh không được xem như thuộc vào một trong ba loại âm thanh nói trên, tuy nhiên chúng là sự hỗn hợp. Ví dụ như các âm xát (phụ âm xát hoặc rít – cọ xát) được hình thành khi các có sự rung động của dây thanh âm và khe hẹp trong cuống họng được hình thành. Dựa vào phương thức cấu âm, người ta chia phụ âm làm 3 loại chính: âm tắc, xát và rung. Phụ âm tiếng Việt gồm có 22 âm và người ta có thể chia theo bảng sau: Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 25 Bảng 2.1: Các loại phụ âm trong tiếng Việt Mặc dầu rất nhiều âm thanh thoại có thể được tạo ra, nhưng hình dạng của cuống họng và phương thức kích thích lên nó thay đổi tương đối chậm. Do vậy, thoại - tiếng nói có thể xem như là quá trình dừng (quasi-stationary) qua những chu kỳ thời gian ngắn (khoảng chừng 20ms). Trên cơ sở các hình vẽ (2.8 – 2.11), chúng ta có thể thấy được các tín hiệu thoại có tính dự đoán trước cao do những sự rung động có tính chu kỳ của các dây thanh âm và do những sự cộng hưởng âm trong cuống họng. Các bộ mã hóa thoại đang cố gắng khai thác những đặc tính dự đoán trước này của tín hiệu thoại để giảm tốc độ truyền dẫn thoại ở mức cần thiết cho đảm bảo chất lượng truyền dẫn thoại. 2.2.2. Tổng quan về mã hóa tín hiệu thoại Từ những năm 1930, mã hoá tiếng nói được phát triển trở thành một đặc tính quan trọng của những nhà vận hành hệ thống điện thoại ngày ngày. Sự mã hóa tiếng nói bây giờ được ứng dụng trong truyền thông tế bào, những hệ thống máy tính, tự động hóa, truyền thông quân sự, những hệ thống sinh địa, và ở khắp nơi mà thông tin số chiếm giữ. Mã hoá tiếng nói bao gồm lấy mẫu và lượng tử hóa biên độ tín hiệu tiếng nói. Mục tiêu là sẽ sử dụng một cực tiểu số lượng mẫu, trong khi giữ gìn chất lượng tiếng nói được xây dựng lại tại phía thu. Nghiên cứu mã hoá bây giờ tập trung vào các kỹ thuật tốc độ thấp (8 tới 2.4 kbits/s) và tốc độ rất thấp (ở dưới 2.4 kbits/s). Hình 2.12 minh họa sơ đồ khối một hệ thống mã tiếng nói. Ở đây, tín hiệu thoại tương tự và liên tục theo thời gian từ một nguồn thoại đã cho (chưa nén) được số hóa thông qua bộ lọc (loại bỏ băng tần thừa ở tần số cao), bộ lấy mẫu (biến đổi thành tín hiệu rời rạc theo thời gian) và bộ biến đổi tương tự/số (lượng tử hóa) và sau đó được mã hoá (nén): đó là quá trình mã hoá nguồn. Tín hiệu đã mã hoá nguồn sau đó được tiếp tục mã hoá để thêm khả năng chống lỗi (mã hoá kênh) và độ ưu tiên để truyền dẫn qua một kênh. Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 26 Tại đầu thu, một bộ giải mã kênh sẽ tách và (hoặc) sửa những lỗi trong quá trình truyền dẫn và một bộ giải mã nguồn sẽ giải nén tín hiệu. Tín hiệu đã được giải nén có thể giống hệt như tín hiệu ban đầu (nén không tổn thất) hoặc nó cũng có thể bị méo hoặc suy biến theo một vài cách nào đó (nén có tổn thất). Hình 2.12: Sơ đồ khối hệ thống mã hóa thoại Thông thường, đa số những hệ thống mã tiếng nói được thiết kế để hỗ trợ những ứng dụng viễn thông, với tần số giới hạn trong khoảng 300 - 3400Hz. Theo định lý Nyquist, tần số lấy mẫu phải lớn hơn ít nhất là hai lần băng thông của tín hiệu liên tục để tránh méo, nên 8 kHz thường được chọn là tần số mẫu tiêu chuẩn (cho) tiếng nói. Nếu sử dụng từ mã 8 bít/ mẫu thì tốc độ đầu ra của kênh thoại số sẽ là 64 Kbit/s. Như ta đã biết, tín hiệu số ưu điểm hơn hẳn so với tín hiệu tương tự trong việc truyền dẫn và xử lý tín hiệu nhất là khả năng chống lỗi đường truyền. PCM là kỹ thuật điều chế xung mã được sử dụng rất phổ biến trong mạng thoại truyền thống để biến đổi tín hiệu tương tự thành tín hiệu số. Bình thường, một kênh thoại tương tự được biến đổi thành một kênh PCM cơ sở có tốc độ 64 Kbit/s. Kỹ thuật PCM (chuẩn G.711) sử dụng trong mạng thoại truyền thống đảm bảo chất lượng âm khá trung thực nhưng băng tần sử dụng còn khá lớn. Cho nên, nén thoại là cần thiết cho các ứng dụng như điện thoại di động (tốc độ của một cuộc gọi càng thấp thì càng cung cấp được thêm các dịch vụ khác- dữ liệu; hình ảnh; video) và và các ứng dụng cho phép truyền dữ liệu tốc độ thấp (thường thấp hơn <16 Kbit/s). Ngoài ra, nén thoại cũng cần thiết cho các ứng dụng như truyền thoại qua IP (VoIP), thoại hội nghị… để giảm băng thông sử dụng trên mạng Internet. Một kỹ thuật nén khác cũng thường được sử dụng là điều chế xung mã vi sai thích ứng (ADPCM) theo chuẩn G.726 ITU-T. ADPCM chỉ sử dụng các mẫu 4 bit để mã hóa (tạo ra băng thông 32 Kbit/s). Khác với PCM, 4 bit không phải do trực tiếp mã hóa biên Bộ lọc Bộ lấy mẫu Bộ biến đổi A/D Bộ mã hóa nguồn Bộ mã hóa kênh Nguồn thoại Kênh truyền Bộ giải mã kênh Bộ giải mã nguồn Bộ biến đổi D/A Bộ lọc Thoại đầu ra Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 27 độ xung lấy mẫu mà là mã hóa sự khác nhau giữa biên độ các xung, cũng như tốc độ thay đổi các biên độ đó sử dụng phương pháp dự đoán tuyến tính trước. Vấn đề đặt ra là giảm băng thông hơn nữa mà vẫn đảm bảo chất lượng dịch vụ để phù hợp với mạng VoIP, từ đó xuất hiện một số kỹ thuật mã hóa và nén tín hiệu thoại tốc độ thấp cụ thể như trong GSM: G.723.1, G.729. PCM và ADPCM đều là kỹ thuật mã hóa theo dạng sóng. Kỹ thuật nén mới (mã hóa nguồn) được phát triển cách đây 10 đến 15 năm dựa vào sự nhận biết các đặc tính nguồn của tín hiệu thoại phát ra. Kỹ thuật này sử dụng thủ tục xử lý tín hiệu và nén thoại bằng việc chỉ gửi đi thông tin ở dạng các tham số đã được đơn giản hóa về việc kích thích tín hiệu nguồn dạng của giọng nói do vậy đòi hỏi ít băng thông hơn. 2.2.3. Các phương pháp mã hóa tín hiệu thoại Nhiệm vụ phân loại các bộ mã hóa thoại hiện đại là không đơn giản và thường không rõ ràng do sự phân chia thiếu rõ rệt giữa các cách tiếp cận khác nhau. Mục này giới thiệu một số tiêu chuẩn phân loại hiện có. Lưu ý rằng đây là lĩnh vực tiến triển liên tục và nhiều loại bộ mã hóa mới sẽ được tạo ra khi có những công nghệ thay thế được giới thiệu. Phân loại theo tốc độ Tất cả các bộ mã hóa được thiết kế để giảm tốc độ bit từ 64-128 Kbps xuống các giá trị thấp hơn. Căn cứ theo tốc độ của luồng bit được mã hóa, việc phân loại các bộ mã hóa thoại theo bảng 2.2 dưới đây. Phân loại Phạm vi tốc độ Tốc độ cao >15 Kbps Tốc độ trung bình 5 – 15 Kbps Tốc độ thấp 2 – 5 Kbps Tốc độ rất thấp <2 Kbps Bảng 2.2: Phân loại các bộ mã hóa thoại theo tốc độ Môt bộ mã hóa thoại được cho là làm việc tốt tại một tốc độ bit nhất định (tùy theo phương pháp mã hóa) nhưng chất lượng của bộ giải mã thoại sẽ bị ảnh suy giảm nhanh nếu nó giảm xuống quá mức dưới mức độ giới hạn cho phép. Tốc độ bit thấp nhất mà các bộ mã hóa thoại có thể đạt được bị giới hạn bởi nội dung thông tin của tín hiệu thoại. Các bộ mã hóa hiện tại có thể hoạt động với chất lượng tốt ở tốc độ 2 Kbps hay cao hơn, đây cũng là những cơ hội mới cho những nghiên cứu cải tiến trong tương lai. Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 28 Phân loại theo kỹ thuật mã hóa a. Mã hóa dạng sóng Mã hóa dạng sóng (waveform coding) là kỹ thuật duy trì hình dạng ban đầu của các sóng tín hiệu, và do vậy các bộ mã hóa dạng sóng có thể áp dụng cho bất kỳ loại nguồn tín hiệu nào. Nguyên lý của bộ mã hóa dạng sóng là mã hóa dạng sóng của tiếng nói. Tại phía phát, bộ mã hóa sẽ nhận các tín hiệu tiếng nói tương tự liên tục và mã hoá thành tín hiệu số trước khi phát đi. Tại phía thu, bộ giải mã sẽ làm nhiệm vụ ngược lại để khôi phục tín hiệu tiếng nói. Khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi phục được sẽ rất giống với dạng sóng của tiếng nói gốc. Những bộ mã hóa dạng sóng khá phù hợp với kỹ thuật mã hóa tốc độ cao vì chất lượng của chúng giảm rất nhanh khi giảm tốc độ bit. Trong thực tế, các bộ mã hóa dạng sóng hoạt động có hiệu quả ở tốc độ 32kbps hay cao hơn. Tỷ số tín hiệu trên nhiễu – SNR (Signal-to-noise ratio) thường được sử dụng để đánh giá chất lượng của các bộ mã hóa dạng mã sóng. Một số ví dụ liên quan là những bộ mã hóa PCM và ADPCM. b. Mã hóa tham số Mã hóa tham số (parametric coding) hay còn gọi là Vocoder. Ở đây, các tín hiệu thoại được giả thiết được tạo ra từ một mô hình (giống như mô hình tạo tiếng nói từ cơ quan phát âm của con người), mô hình này được điều khiển bởi một vài tham số chức năng. Trong quá trình mã hóa, những tham số của mô hình được suy ra (ước đoán) từ tín hiệu thoại đầu vào. Kiểu mã hóa này không bảo toàn hình dạng sóng ban đầu của tín hiệu nên không thể dùng tỷ số tín hiệu trên nhiễu SNR để đánh giá. Chất lượng nhận thức (cảm nhận) của tín hiệu thoại sau khi giải mã liên quan trực tiếp đến độ chính xác của mô hình. Do hạn chế này, bộ mã hóa tham số có hiệu năng thấp đối với các tín hiệu không phải là tín hiệu thoại. Có một số mô hình đề xuất cho bộ mã hóa tham số và thành công nhất là mô hình dự đoán tuyến tính. Theo cách tiếp cận này, cơ chế tạo ra tiếng nói của con người được thực hiện bằng việc sử dụng bộ lọc biến đổi theo thời gian với các tham số của bộ lọc được xây dựng dựa trên thủ tục phân tích dự đoán tuyến tính. Bộ mã hóa tham số làm việc rất tốt với tốc độ bit thấp từ 2 đến 5 Kbps và ví dụ điển hình của các bộ mã hóa tham số là bộ mã hóa dự đoán tuyến tính LPC (Linear Prediction Coding) và bộ mã hóa dự đoán tuyến tính kích thích hỗn hợp MELP (Mixed Excitation Linear Prediction). c. Mã hóa lai Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 29 Mã hóa lai (hybrid coding) hay còn gọi là mã hóa tổng hợp là sự kết hợp của hai loại mã hóa nói trên. Giống như mã hóa tham số, mã hóa lai dựa vào một mô hình tạo ra tiếng nói và trong quá trình mã hóa, các tham số của mô hình sẽ được xác định. Thêm vào đó, các tham số của mô hình được tối ưu theo cách mà tín hiệu thoại được giải mã gần giống nhất có thể được với dạng sóng tín hiệu ban đầu. Các bộ mã hóa lai được dùng chủ yếu cho tốc độ bit ở mức trung bình với chất lượng khá tốt với thuật toán dự đoán tuyến tính kích thích mã – CELP (Code-Excited Linear Prediction). Hình vẽ 2.13 dưới đây minh họa chất lượng thoại của cả ba loại bộ mã hóa phổ biến thay đổi theo tốc độ mã hóa như thế nào. Hình 2.13: Chất lượng thoại so với tốc độ bit của các loại bộ mã hóa 2.2.3.1. Mã hóa dạng sóng Mã hóa dạng sóng hoạt động trong miền thời gian hoặc miền tần số, phương pháp này khai thác các đặc tính của dạng sóng tín hiệu nguồn (hình bao phổ/hài/độ cao thấp của âm) thông qua các phương pháp tương quan ngắn hạn, ví dụ như: bằng phương pháp dự đoán tuyến tính – cố gắng dự đoán các mẫu dạng sóng từ giá trị của các mẫu trước đó. Có rất nhiều kiểu mã hóa dạng sóng. Một số phương pháp thực hiện việc phân tích tín hiệu thoại đầu vào trong miền tần số trong khi các phương pháp khác thực hiện việc phân tích trong miền thời gian. Mã hóa dạng sóng là tương đối đơn giản, phương pháp này lợi dụng được rất ít độ dư thừa vốn có trong tiếng nói của con người do đó nó không có nhiều hiệu quả trong việc giảm tốc độ dữ liệu trên kênh truyền vô tuyến. Trên thực tế Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 30 phương pháp này chỉ cho phép dữ liệu tốc độ cao nhưng nó lại cung cấp thoại với chất lượng tốt và có thể chịu được tạp âm nền. Thậm chí nhiều phương pháp mã hóa dạng sóng có thể mã hóa cả âm nhạc và những âm thanh khác không phải là tiếng nói của con người. Phương pháp này hoạt động độc lập với cách mà tín hiệu được tạo ra và cố gắng xây dựng lại tín hiệu gần giống với tín hiệu gốc ban đầu. Mã hóa dạng sóng không phức tạp lắm và nói chung là sử dụng tốc độ bit tương đối cao (trên 16 Kbps). PCM tuyến tính (64 Kbps) biểu thị loại mã hóa dạng sóng đơn giản nhất, phương pháp này chỉ đơn thuần bao gồm việc lấy mẫu và lượng tử hoá, mã hóa sóng đầu vào. ADPCM (tốc độ 32 Kbps, tiêu chuẩn CCITT/ITU G.721) được sử dụng trong một số hệ thống truy nhập vô tuyến (DECT và PHS) là một thuật toán mã hóa phức tạp hơn nhưng vẫn cung cấp tốc độ bit tương đối cao. Tốc độ của phương pháp ADPCM có thể tùy biến từ 16, 24, 32 cho đến 40 Kbps (CCITT/ITU G.726/727). a. Mã hóa 64 Kbít PCM (ITU G. 711) Các bộ mã hóa điều chế xung mã PCM là bộ mã hóa dạng sóng đơn giản nhất. Thoại băng hẹp được lấy mẫu với tần số 8000 Hz và mỗi một mẫu thoại phải được lượng tử hoá. Nếu lượng tử hoá tuyến tính được sử dụng thì cần thiết phải dùng 12 bit mã hóa cho một mẫu và dẫn đến tốc độ bit là 96 Kbit/s. Tuy nhiên, tốc độ này có thể được giảm xuống một cách dễ dàng bằng cách sử dụng lượng tử hoá phi tuyến tính. Trong việc mã thoại người ta thấy rằng với việc lượng tử hoá phi tuyến, 8 bit mã hóa cho một xung mẫu là đủ đảm bảo chất lượng thoại và gần như khó mà phân biệt được so với thoại gốc ban đầu. Điều này dẫn đến tốc độ bit chuẩn là 64 Kbit/s và hai loại bộ mã hóa phi tuyến PCM đã trở thành tiêu chuẩn vào những năm 60 của thế kỷ 20. Ở Bắc Mỹ, người ta dùng mã hóa theo luật µ , trong khi đó ở Châu Âu, mã hóa theo luật A được áp dụng. Do tính đơn giản, chất lượng thoại đảm bảo và độ trễ thấp, cả hai loại mã hóa PCM này vẫn được sử dụng rộng rãi cho đến ngày nay. Một kỹ thuật được sử dụng phổ biến trong việc mã thoại là cố gắng dự đoán giá trị của mẫu tiếp theo từ những mẫu trước đó. Điều này có thể khả thi bởi có sự tương quan hiện tại giữa những mẫu thoại dưới tác dụng của cơ quan phát âm và sự rung động của dây thanh âm như đã được giới thiệu ở 2.2.1. Nếu dự đoán có hiệu quả, thì tín hiệu sai lệch giữa những mẫu đã dự đoán và những mẫu thoại thực sẽ có một sự khác biệt thấp hơn so với giữa các mẫu thoại nguyên gốc. Bởi vậy, chúng ta có thể lượng tử hoá những tín hiệu sai lệch này với một số lượng bit ít hơn so với tín hiệu mẫu thoại gốc. Đây là cơ sở của những mô hình điều chế xung mã vi sai – DPCM (Differential Pulse Code Modulation)- chúng lượng tử hoá sự khác biệt giữa những tín hiệu gốc và tín hiệu dự đoán. Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 31 Kết quả từ những bộ mã hoá như vậy có thể được cải thiện nếu bộ dự đoán và bộ lượng tử có sự tương thích sao cho chúng thay đổi phù hợp với các đặc tính của thoại được mã hoá. Điều này dẫn tới kỹ thuật điều chế xung mã vi sai thích ứng – ADPCM (Adaptive Differential Pulse Code Modulation). Vào giữa những năm 1980, CCITT đã chuẩn hoá bộ mã hóa ADPCM hoạt động ở tốc độ 32Kbps với chất lượng thoại tương đương với phương pháp điều chế mã xung 64Kbps. Sau đó, các bộ mã hóa ADPCM hoạt động ở các tốc độ 16, 24 và 40Kbps cũng đã được chuẩn hóa. Sơ đồ bộ mã hóa và giải mã ADPCM được minh họa ở hình 2.14 dưới đây. Hình 2.14: Bộ mã hóa và giải mã ADPCM b. Mã hóa ADPCM (ITUG.721, G.726, G.727) Bộ mã hóa điều chế xung mã vi sai thích nghi (ADPCM) là bộ mã hóa dạng sóng thay vì lượng tử hoá trực tiếp tín hiệu thoại, giống như phương pháp PCM, nó lượng tử hóa sự khác nhau giữa tín hiệu thoại và tín hiệu dự đoán. Nếu sự dự đoán là chính xác thì sự khác nhau giữa các mẫu thật và mẫu dự đoán sẽ nhỏ hơn, ít khác biệt hơn so với giữa các mẫu thoại thực, và sự khác biệt này nếu được lượng tử hoá chính xác thì sẽ cần số bit ít hơn so với việc phải lượng tử hoá các mẫu thoại gốc. Tại bộ giải mã, tín hiệu khác biệt mà đã được lượng tử hóa được cộng với tín hiệu dự đoán để khôi phục lại tín hiệu thoại ban đầu. Hiệu năng của bộ mã hóa được cải thiện thông qua việc sử dụng bộ dự đoán và lượng tử thích nghi sao cho bộ dự đoán và bộ lượng tử phải thích ứng với những đặc tính thay đổi của thoại đang được mã hoá. Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 32 Vào giữa những năm 1980, CCITT đã chuẩn hoá ADPCM 32Kbps được biết đến với cái tên G721, cho phép khôi phục thoại tốt như phương pháp PCM 64 Kbps. Các khuyến nghị sau đó: các bộ mã hóa G726 và G727 hoạt động ở các tốc độ 40, 32, 24 và 16 Kbps cũng đã được chuẩn hoá. Các bộ mã hóa dạng sóng được mô tả ở trên đều mã hóa thoại hoàn toàn trong miền thời gian. Tuy nhiên, các tiếp cận theo miền tần số cũng có thể thực hiện được và có một số ưu điểm. Ví dụ như ở trong mã hóa băng con - SBC (Sub – Band Coding), tín hiệu thoại đầu vào được phân chia thành một số dải băng tần thoại gọi là các băng con thông qua các bộ lọc số và sau đó mỗi một băng con được mã hóa độc lập bằng việc sử dụng các bộ mã hóa như ADPCM. Ở đây, các băng con tương ứng với phổ tần số thấp chứa hầu hết năng lượng của tín hiệu thoại sẽ được cấp phát với số bit mã hóa lớn, còn các băng con tương ứng với các phổ tần số cao, chứa ít năng lượng tín hiệu sẽ được mã hóa với số bit nhỏ hơn. Kết quả là tổng số bit dùng cho mã hóa băng con sẽ ít hơn so với trường hợp mã hóa trên toàn dải phổ của tín hiệu. Tại phía thu, các tín hiệu băng con được giải mã và kết hợp lại để khôi phục lại tín hiệu thoại ban đầu (G. 722 1988). Ưu điểm của mã hóa băng con là nhiễu trong mỗi băng con chỉ phụ thuộc vào mã hóa sử dụng trong băng con đó. Bởi vậy chúng ta có thể cấp phát nhiều bit hơn cho các băng con quan trọng sao cho nhiễu trong những vùng tần số này là thấp, trong khi đó ở các băng con khác, chúng ta có thể cho phép có nhiễu mã hóa cao vì nhiễu ở những tần số này có tầm quan trọng thấp hơn. Các mô hình cấp phát bit thích ứng có thể được sử dụng để khai thác thêm ý tưởng này. Các bộ mã hóa băng con cho chất lượng thoại tốt trong phạm vi tốc độ từ 16 – 32 Kbps. Do phải cần đến bộ lọc để tách tín hiệu thoại trong các băng con nên mã hóa băng con phức tạp hơn bộ mã hóa DPCM thông thường và có thêm độ trễ mã hóa. Tuy nhiên, độ phức tạp và độ trễ là tương đối thấp so với các bộ mã hóa lai. 2.2.3.2. Mã hóa tham số Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm dưới 16 Kbps. Để tiếp tục giảm tốc độ bit, cần phải khai thác mô hình tạo tiếng nói. Từ đây, người ta có khái niệm mã hóa tham số hoặc còn gọi là mã hóa dựa trên mô hình. Ở đây, các bộ mã hóa tham số hoạt động sử dụng mô hình nguồn tín hiệu được tạo ra như thế nào và cố gắng trích chọn ra từ tín hiệu đang được mã hóa các tham số của mô hình và truyền chúng tới bộ giải mã. Các bộ mã hóa tham số cho tín hiệu thoại còn được gọi là Vocoder (Voice + Coder). Ưu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm thanh thoại, dễ hiểu, trong khi nó lại có nhược điểm là phức tạp hơn nhiều so với phương pháp mã hóa dạng sóng và nó chỉ có thể xử lý được tiếng nói của con người. Mã hóa tham số hoạt động với Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 33 tốc độ bit thấp (xuống đến 2,4 Kbps) và mặc dù là tiếng nói được tái tạo lại là hoàn toàn dễ hiểu nhưng chúng lại khác khá nhiều so với giọng nói tự nhiên của con người. a. Mô hình LPC Mô hình toán học của mã hóa dự đoán tuyến tính được minh họa ở hình vẽ dưới đây: Hình 2.15: Mô hình toán học của LPC Ở đây tín hiệu thoại số là đầu ra của bộ lọc số - bộ lọc LPC có đầu vào là dãy các xung hoặc chuỗi nhiễu trắng. Nói cách khác, cuống họng được đặc trưng bởi bộ lọc biến đổi theo thời gian và bị kích thích với những nguồn nhiễu trắng khác cho phân đoạn thoại vô thanh hoặc một dãy các xung phân tách theo chu kỳ âm thanh cho các âm hữu thanh. Do vậy thông tin phải được gửi đến bộ giải mã là các tham số đặc trưng cho bộ lọc; âm vô thanh/hữu thanh; những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm thanh. Quá trình này được cập nhật liên tục 10–20 ms theo bản chất không dừng (non- stationary) của tín hiệu thoại. Các tham số của mô hình có thể được xác định bởi bộ mã hóa theo một số cách khác nhau sử dụng các kỹ thuật trong miền thời gian hoặc tần số. Đồng thời các thông tin có thể được mã hóa để truyền dẫn theo những cách khác

Các file đính kèm theo tài liệu này:

chuong_2_200610_revised_0263.pdf