Bộmã hóa điều chếxung mã vi sai thích nghi (ADPCM) là bộmã hóa dạng sóng
thay vì lượng tửhoá trực tiếp tín hiệu thoại, giống nhưphương pháp PCM, nó lượng tử
hóa sựkhác nhau giữa tín hiệu thoại và tín hiệu dự đoán.
Nếu sựdự đoán là chính xác thì sựkhác nhau giữa các mẫu thật và mẫu dự đoán
sẽnhỏhơn, ít khác biệt hơn so với giữa các mẫu thoại thực, và sựkhác biệt này nếu được
lượng tửhoá chính xác thì sẽcần sốbit ít hơn so với việc phải lượng tửhoá các mẫu
thoại gốc.
Tại bộgiải mã, tín hiệu khác biệt mà đã được lượng tửhóa được cộng với tín hiệu
dự đoán đểkhôi phục lại tín hiệu thoại ban đầu. Hiệu năng của bộmã hóa được cải thiện
thông qua việc sửdụng bộdự đoán và lượng tửthích nghi sao cho bộdự đoán và bộ
lượng tửphải thích ứng với những đặc tính thay đổi của thoại đang được mã hoá
31 trang |
Chia sẻ: maiphuongdc | Lượt xem: 4649 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Giáo trình Xử lý âm thanh và hình ảnh - Kỹ thuật xử lý âm thanh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
à một sóng âm từ các hốc mũi và miệng khi không khí bị bật
ra từ các lá phổi với kết quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ
thể con người. Sẽ rất là hữu ích khi thể hiện quá trình tạo âm thoại ở dạng bộ lọc âm
thanh. Có ba hốc quan trọng trong hệ thống tạo âm thoại là hốc mũi, miệng và hầu để
hình thành nên một bộ lọc âm thanh. Bộ lọc được kích thích bởi không khí từ các lá phổi
và gánh tải tại đầu ra chính của nó bởi trở kháng bức xạ gắn kết với môi.
Cuống họng (vocal tract) liên quan tới hầu và các hốc miệng được nhóm lại với
nhau. Cuống khứu giác (nasal tract) bắt đầu tại vòm miệng và kết thúc tại các hốc mũi.
Khi vòm miệng thấp xuống, cuống khứu giác được ghép nối về mặt âm thanh với cuống
họng để hình thành nên các âm thoại giọng mũi.
Sự hình thành và khuôn dạng của cuống họng, cuống khứu giác thay đổi liên tục
theo thời gian để tạo ra một bộ lọc âm thanh với đáp ứng tần số biến đổi theo thời gian.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
21
Khi mà không khí từ các lá phổi chuyển động qua các cuống họng, khứu giác, phổ tần số
được định dạng bởi sự lựa chọn tần số của những cuống họng và khứu giác này
Hình 2.7: Bộ phận phát âm của con người
Thoại được tạo ra khi không khí đi từ phổi, qua các dây thanh âm (bộ phận phát ra
tiếng của thanh quản) và dọc theo cuống họng. Cuống họng bắt đầu từ vị trí mở các dây
thanh âm cho tới miệng với chiều dài trung bình khoảng 16cm. Dây thanh âm của người
có cấu trúc gồm hai sợi cơ, mỗi sợi cơ được giữ bởi một màng cơ – một khối cơ đủ mạnh.
Bình thường hai dây cơ khép lại, không khí từ buồng phổi bị đóng kín không ra
được. Khi phổi đầy khí, dưới sự điều khiển của hệ dây thần kinh, khi cần nói, không khí
ép vào cơ cấu dây thanh âm, hai dây thanh âm có thể mở ra hoặc không mở.
Khi các dây thanh âm mở, không khí được đẩy ra từ phổi từng lớp một theo một
chu kỳ nhất định T0 tạo ra các nguyên âm.
Nếu các dây thanh âm không mở, nó sẽ bị tách bật ra để không khí có thể lọt qua
tạo ra các phụ âm nổ hoặc không khí có thể lách xuyên qua khe hẹp giữa hai dây để tạo ra
các phụ âm xát - rít.
Chúng ta có thể xem cơ quan phát âm như là một bộ lọc với nhiều tần số cộng
hưởng khác nhau và được gọi là những tần số formant hoặc đơn giản là formant. Các tần
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
22
số formant được điều khiển bởi việc thay đổi hình dạng của cuống họng, chẳng hạn thông
qua sự chuyển động của lưỡi.
Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong ống dẫn
thanh, đặc trưng cho âm sắc của mỗi nguyên âm. Trong mỗi dải tần như thế có một tần số
được tăng cường hơn cả gọi là đỉnh formant. Một nguyên âm do một người phát ra có
nhiều formant:
• F1: ứng với cộng hưởng vùng yết hầu
• F2: ứng với cộng hưởng khoang miệng
Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác F4,
F5,…liên quan đến các đặc trưng giọng nói riêng của mỗi cá nhân. Mỗi lần môi, lưỡi,
hàm ở những vị trí khác nhau là một lần hộp cộng hưởng miệng và yết hầu thay đổi hình
dáng, thể tích, lối thoát của không khí làm biến đổi âm sắc của âm thanh đi qua chúng.
Chính vì vậy, hai khoang miệng và yết hầu là hai hộp cộng hưởng quan trọng nhất, chúng
tạo nên hai formant chính formant F1 và F2 đặc trưng của mỗi nguyên âm.
Bộ lọc cuống họng bị kích thích bởi luồng không khí tác động vào nó từ các dây
thanh âm. Theo đó các âm thanh thoại phát ra được phân chia thành ba loại phụ thuộc vào
phương thức kích thích.
• Các âm hữu thanh (voiced sound): được tạo ra khi các dây thanh âm rung động mở
hoặc đóng, do vậy mà làm gián đoạn (ngắt) luồng không khí được tạo ra từ phổi
tới cuống họng và tạo ra các các xung không khí có chu kỳ (quasi-periodic) khi bị
kích thích. Tốc độ của việc đóng hoặc mở các dây thanh âm xác định độ cao thấp
của âm thanh (pitch). Pitch có thể được điều chỉnh qua việc thay đổi hình dạng, độ
căng của các dây thanh âm cũng như áp suất của luồng không khí tác động lên
chúng từ phổi. -> nguyên âm. Các âm hữu thanh thường có tính chu kỳ cao, điển
hình trong khoảng 2 đến 20 ms như được minh họa ở hình 2.8. của một đoạn âm
hữu thanh lấy mẫu tại tần số 8KHz. Hàm mật độ phổ công suất – PSD (Power
Spectral Density) của đoạn âm hữu thanh này được minh họa ở hình 2.9.
• Các âm vô thanh (unvoiced sound): được tạo ra khi kích thích là một nhiễu loạn từ
việc ép luồng không khí ở tốc độ cao qua khe hẹp ở cuống họng trong khi các dây
thanh âm ở trạng thái mở. Lưu ý âm vô thanh là các tín hiệu không có chu kỳ, nó
có thể ở dạng tạp âm, nhiễu… Tính chu kỳ của những âm vô thanh cũng được thể
hiện ở các hình vẽ 2.10 và 2.11.
• Các âm bật - nổ (plosive sound): được tạo ra khi có sự đóng hoàn toàn ở cuống
họng, và áp suất không khí được hình thành ở phía sau được giải phóng đột ngột.-
> phụ âm.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
23
Hình 2.8: Một đoạn điển hình của các âm hữu thanh
Hình 2.9: Mật độ phổ công suất cho đoạn thoại hữu thanh
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
24
Hình 2.10: Một đoạn điển hình của các âm vô thanh
Hình 2.11: Mật độ phổ công suất cho đoạn thoại vô thanh
Một số âm thanh không được xem như thuộc vào một trong ba loại âm thanh nói
trên, tuy nhiên chúng là sự hỗn hợp. Ví dụ như các âm xát (phụ âm xát hoặc rít – cọ xát)
được hình thành khi các có sự rung động của dây thanh âm và khe hẹp trong cuống họng
được hình thành.
Dựa vào phương thức cấu âm, người ta chia phụ âm làm 3 loại chính: âm tắc, xát
và rung. Phụ âm tiếng Việt gồm có 22 âm và người ta có thể chia theo bảng sau:
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
25
Bảng 2.1: Các loại phụ âm trong tiếng Việt
Mặc dầu rất nhiều âm thanh thoại có thể được tạo ra, nhưng hình dạng của cuống
họng và phương thức kích thích lên nó thay đổi tương đối chậm. Do vậy, thoại - tiếng nói
có thể xem như là quá trình dừng (quasi-stationary) qua những chu kỳ thời gian ngắn
(khoảng chừng 20ms). Trên cơ sở các hình vẽ (2.8 – 2.11), chúng ta có thể thấy được các
tín hiệu thoại có tính dự đoán trước cao do những sự rung động có tính chu kỳ của các
dây thanh âm và do những sự cộng hưởng âm trong cuống họng. Các bộ mã hóa thoại
đang cố gắng khai thác những đặc tính dự đoán trước này của tín hiệu thoại để giảm tốc
độ truyền dẫn thoại ở mức cần thiết cho đảm bảo chất lượng truyền dẫn thoại.
2.2.2. Tổng quan về mã hóa tín hiệu thoại
Từ những năm 1930, mã hoá tiếng nói được phát triển trở thành một đặc tính quan
trọng của những nhà vận hành hệ thống điện thoại ngày ngày. Sự mã hóa tiếng nói bây
giờ được ứng dụng trong truyền thông tế bào, những hệ thống máy tính, tự động hóa,
truyền thông quân sự, những hệ thống sinh địa, và ở khắp nơi mà thông tin số chiếm giữ.
Mã hoá tiếng nói bao gồm lấy mẫu và lượng tử hóa biên độ tín hiệu tiếng nói.
Mục tiêu là sẽ sử dụng một cực tiểu số lượng mẫu, trong khi giữ gìn chất lượng tiếng nói
được xây dựng lại tại phía thu. Nghiên cứu mã hoá bây giờ tập trung vào các kỹ thuật tốc
độ thấp (8 tới 2.4 kbits/s) và tốc độ rất thấp (ở dưới 2.4 kbits/s).
Hình 2.12 minh họa sơ đồ khối một hệ thống mã tiếng nói. Ở đây, tín hiệu thoại
tương tự và liên tục theo thời gian từ một nguồn thoại đã cho (chưa nén) được số hóa
thông qua bộ lọc (loại bỏ băng tần thừa ở tần số cao), bộ lấy mẫu (biến đổi thành tín hiệu
rời rạc theo thời gian) và bộ biến đổi tương tự/số (lượng tử hóa) và sau đó được mã hoá
(nén): đó là quá trình mã hoá nguồn. Tín hiệu đã mã hoá nguồn sau đó được tiếp tục mã
hoá để thêm khả năng chống lỗi (mã hoá kênh) và độ ưu tiên để truyền dẫn qua một kênh.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
26
Tại đầu thu, một bộ giải mã kênh sẽ tách và (hoặc) sửa những lỗi trong quá trình truyền
dẫn và một bộ giải mã nguồn sẽ giải nén tín hiệu. Tín hiệu đã được giải nén có thể giống
hệt như tín hiệu ban đầu (nén không tổn thất) hoặc nó cũng có thể bị méo hoặc suy biến
theo một vài cách nào đó (nén có tổn thất).
Hình 2.12: Sơ đồ khối hệ thống mã hóa thoại
Thông thường, đa số những hệ thống mã tiếng nói được thiết kế để hỗ trợ những
ứng dụng viễn thông, với tần số giới hạn trong khoảng 300 - 3400Hz. Theo định lý
Nyquist, tần số lấy mẫu phải lớn hơn ít nhất là hai lần băng thông của tín hiệu liên tục để
tránh méo, nên 8 kHz thường được chọn là tần số mẫu tiêu chuẩn (cho) tiếng nói. Nếu sử
dụng từ mã 8 bít/ mẫu thì tốc độ đầu ra của kênh thoại số sẽ là 64 Kbit/s.
Như ta đã biết, tín hiệu số ưu điểm hơn hẳn so với tín hiệu tương tự trong việc
truyền dẫn và xử lý tín hiệu nhất là khả năng chống lỗi đường truyền. PCM là kỹ thuật
điều chế xung mã được sử dụng rất phổ biến trong mạng thoại truyền thống để biến đổi
tín hiệu tương tự thành tín hiệu số. Bình thường, một kênh thoại tương tự được biến đổi
thành một kênh PCM cơ sở có tốc độ 64 Kbit/s. Kỹ thuật PCM (chuẩn G.711) sử dụng
trong mạng thoại truyền thống đảm bảo chất lượng âm khá trung thực nhưng băng tần sử
dụng còn khá lớn. Cho nên, nén thoại là cần thiết cho các ứng dụng như điện thoại di
động (tốc độ của một cuộc gọi càng thấp thì càng cung cấp được thêm các dịch vụ khác-
dữ liệu; hình ảnh; video) và và các ứng dụng cho phép truyền dữ liệu tốc độ thấp (thường
thấp hơn <16 Kbit/s). Ngoài ra, nén thoại cũng cần thiết cho các ứng dụng như truyền
thoại qua IP (VoIP), thoại hội nghị… để giảm băng thông sử dụng trên mạng Internet.
Một kỹ thuật nén khác cũng thường được sử dụng là điều chế xung mã vi sai thích
ứng (ADPCM) theo chuẩn G.726 ITU-T. ADPCM chỉ sử dụng các mẫu 4 bit để mã hóa
(tạo ra băng thông 32 Kbit/s). Khác với PCM, 4 bit không phải do trực tiếp mã hóa biên
Bộ lọc Bộ lấy
mẫu
Bộ biến
đổi A/D
Bộ mã
hóa nguồn
Bộ mã
hóa kênh
Nguồn
thoại
Kênh
truyền
Bộ giải
mã kênh
Bộ giải
mã nguồn
Bộ biến
đổi D/A
Bộ lọc Thoại
đầu ra
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
27
độ xung lấy mẫu mà là mã hóa sự khác nhau giữa biên độ các xung, cũng như tốc độ thay
đổi các biên độ đó sử dụng phương pháp dự đoán tuyến tính trước.
Vấn đề đặt ra là giảm băng thông hơn nữa mà vẫn đảm bảo chất lượng dịch vụ để
phù hợp với mạng VoIP, từ đó xuất hiện một số kỹ thuật mã hóa và nén tín hiệu thoại tốc
độ thấp cụ thể như trong GSM: G.723.1, G.729. PCM và ADPCM đều là kỹ thuật mã hóa
theo dạng sóng. Kỹ thuật nén mới (mã hóa nguồn) được phát triển cách đây 10 đến 15
năm dựa vào sự nhận biết các đặc tính nguồn của tín hiệu thoại phát ra. Kỹ thuật này sử
dụng thủ tục xử lý tín hiệu và nén thoại bằng việc chỉ gửi đi thông tin ở dạng các tham số
đã được đơn giản hóa về việc kích thích tín hiệu nguồn dạng của giọng nói do vậy đòi hỏi
ít băng thông hơn.
2.2.3. Các phương pháp mã hóa tín hiệu thoại
Nhiệm vụ phân loại các bộ mã hóa thoại hiện đại là không đơn giản và thường
không rõ ràng do sự phân chia thiếu rõ rệt giữa các cách tiếp cận khác nhau. Mục này
giới thiệu một số tiêu chuẩn phân loại hiện có. Lưu ý rằng đây là lĩnh vực tiến triển liên
tục và nhiều loại bộ mã hóa mới sẽ được tạo ra khi có những công nghệ thay thế được
giới thiệu.
Phân loại theo tốc độ
Tất cả các bộ mã hóa được thiết kế để giảm tốc độ bit từ 64-128 Kbps xuống các giá
trị thấp hơn. Căn cứ theo tốc độ của luồng bit được mã hóa, việc phân loại các bộ mã hóa
thoại theo bảng 2.2 dưới đây.
Phân loại Phạm vi tốc độ
Tốc độ cao >15 Kbps
Tốc độ trung bình 5 – 15 Kbps
Tốc độ thấp 2 – 5 Kbps
Tốc độ rất thấp <2 Kbps
Bảng 2.2: Phân loại các bộ mã hóa thoại theo tốc độ
Môt bộ mã hóa thoại được cho là làm việc tốt tại một tốc độ bit nhất định (tùy theo
phương pháp mã hóa) nhưng chất lượng của bộ giải mã thoại sẽ bị ảnh suy giảm nhanh nếu
nó giảm xuống quá mức dưới mức độ giới hạn cho phép. Tốc độ bit thấp nhất mà các bộ
mã hóa thoại có thể đạt được bị giới hạn bởi nội dung thông tin của tín hiệu thoại. Các bộ
mã hóa hiện tại có thể hoạt động với chất lượng tốt ở tốc độ 2 Kbps hay cao hơn, đây cũng
là những cơ hội mới cho những nghiên cứu cải tiến trong tương lai.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
28
Phân loại theo kỹ thuật mã hóa
a. Mã hóa dạng sóng
Mã hóa dạng sóng (waveform coding) là kỹ thuật duy trì hình dạng ban đầu của
các sóng tín hiệu, và do vậy các bộ mã hóa dạng sóng có thể áp dụng cho bất kỳ loại
nguồn tín hiệu nào. Nguyên lý của bộ mã hóa dạng sóng là mã hóa dạng sóng của tiếng
nói. Tại phía phát, bộ mã hóa sẽ nhận các tín hiệu tiếng nói tương tự liên tục và mã hoá
thành tín hiệu số trước khi phát đi. Tại phía thu, bộ giải mã sẽ làm nhiệm vụ ngược lại để
khôi phục tín hiệu tiếng nói. Khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi
phục được sẽ rất giống với dạng sóng của tiếng nói gốc.
Những bộ mã hóa dạng sóng khá phù hợp với kỹ thuật mã hóa tốc độ cao vì chất
lượng của chúng giảm rất nhanh khi giảm tốc độ bit. Trong thực tế, các bộ mã hóa dạng
sóng hoạt động có hiệu quả ở tốc độ 32kbps hay cao hơn. Tỷ số tín hiệu trên nhiễu – SNR
(Signal-to-noise ratio) thường được sử dụng để đánh giá chất lượng của các bộ mã hóa
dạng mã sóng. Một số ví dụ liên quan là những bộ mã hóa PCM và ADPCM.
b. Mã hóa tham số
Mã hóa tham số (parametric coding) hay còn gọi là Vocoder. Ở đây, các tín hiệu
thoại được giả thiết được tạo ra từ một mô hình (giống như mô hình tạo tiếng nói từ cơ
quan phát âm của con người), mô hình này được điều khiển bởi một vài tham số chức
năng. Trong quá trình mã hóa, những tham số của mô hình được suy ra (ước đoán) từ tín
hiệu thoại đầu vào. Kiểu mã hóa này không bảo toàn hình dạng sóng ban đầu của tín hiệu
nên không thể dùng tỷ số tín hiệu trên nhiễu SNR để đánh giá. Chất lượng nhận thức (cảm
nhận) của tín hiệu thoại sau khi giải mã liên quan trực tiếp đến độ chính xác của mô hình.
Do hạn chế này, bộ mã hóa tham số có hiệu năng thấp đối với các tín hiệu không phải là tín
hiệu thoại.
Có một số mô hình đề xuất cho bộ mã hóa tham số và thành công nhất là mô hình
dự đoán tuyến tính. Theo cách tiếp cận này, cơ chế tạo ra tiếng nói của con người được
thực hiện bằng việc sử dụng bộ lọc biến đổi theo thời gian với các tham số của bộ lọc được
xây dựng dựa trên thủ tục phân tích dự đoán tuyến tính.
Bộ mã hóa tham số làm việc rất tốt với tốc độ bit thấp từ 2 đến 5 Kbps và ví dụ điển
hình của các bộ mã hóa tham số là bộ mã hóa dự đoán tuyến tính LPC (Linear Prediction
Coding) và bộ mã hóa dự đoán tuyến tính kích thích hỗn hợp MELP (Mixed Excitation
Linear Prediction).
c. Mã hóa lai
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
29
Mã hóa lai (hybrid coding) hay còn gọi là mã hóa tổng hợp là sự kết hợp của hai
loại mã hóa nói trên. Giống như mã hóa tham số, mã hóa lai dựa vào một mô hình tạo ra
tiếng nói và trong quá trình mã hóa, các tham số của mô hình sẽ được xác định. Thêm
vào đó, các tham số của mô hình được tối ưu theo cách mà tín hiệu thoại được giải mã
gần giống nhất có thể được với dạng sóng tín hiệu ban đầu.
Các bộ mã hóa lai được dùng chủ yếu cho tốc độ bit ở mức trung bình với chất
lượng khá tốt với thuật toán dự đoán tuyến tính kích thích mã – CELP (Code-Excited
Linear Prediction).
Hình vẽ 2.13 dưới đây minh họa chất lượng thoại của cả ba loại bộ mã hóa phổ
biến thay đổi theo tốc độ mã hóa như thế nào.
Hình 2.13: Chất lượng thoại so với tốc độ bit của các loại bộ mã hóa
2.2.3.1. Mã hóa dạng sóng
Mã hóa dạng sóng hoạt động trong miền thời gian hoặc miền tần số, phương pháp
này khai thác các đặc tính của dạng sóng tín hiệu nguồn (hình bao phổ/hài/độ cao thấp
của âm) thông qua các phương pháp tương quan ngắn hạn, ví dụ như: bằng phương pháp
dự đoán tuyến tính – cố gắng dự đoán các mẫu dạng sóng từ giá trị của các mẫu trước đó.
Có rất nhiều kiểu mã hóa dạng sóng. Một số phương pháp thực hiện việc phân tích tín
hiệu thoại đầu vào trong miền tần số trong khi các phương pháp khác thực hiện việc phân
tích trong miền thời gian. Mã hóa dạng sóng là tương đối đơn giản, phương pháp này lợi
dụng được rất ít độ dư thừa vốn có trong tiếng nói của con người do đó nó không có
nhiều hiệu quả trong việc giảm tốc độ dữ liệu trên kênh truyền vô tuyến. Trên thực tế
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
30
phương pháp này chỉ cho phép dữ liệu tốc độ cao nhưng nó lại cung cấp thoại với chất
lượng tốt và có thể chịu được tạp âm nền. Thậm chí nhiều phương pháp mã hóa dạng
sóng có thể mã hóa cả âm nhạc và những âm thanh khác không phải là tiếng nói của con
người. Phương pháp này hoạt động độc lập với cách mà tín hiệu được tạo ra và cố gắng
xây dựng lại tín hiệu gần giống với tín hiệu gốc ban đầu.
Mã hóa dạng sóng không phức tạp lắm và nói chung là sử dụng tốc độ bit tương
đối cao (trên 16 Kbps). PCM tuyến tính (64 Kbps) biểu thị loại mã hóa dạng sóng đơn
giản nhất, phương pháp này chỉ đơn thuần bao gồm việc lấy mẫu và lượng tử hoá, mã hóa
sóng đầu vào. ADPCM (tốc độ 32 Kbps, tiêu chuẩn CCITT/ITU G.721) được sử dụng
trong một số hệ thống truy nhập vô tuyến (DECT và PHS) là một thuật toán mã hóa phức
tạp hơn nhưng vẫn cung cấp tốc độ bit tương đối cao. Tốc độ của phương pháp ADPCM
có thể tùy biến từ 16, 24, 32 cho đến 40 Kbps (CCITT/ITU G.726/727).
a. Mã hóa 64 Kbít PCM (ITU G. 711)
Các bộ mã hóa điều chế xung mã PCM là bộ mã hóa dạng sóng đơn giản nhất.
Thoại băng hẹp được lấy mẫu với tần số 8000 Hz và mỗi một mẫu thoại phải được lượng
tử hoá. Nếu lượng tử hoá tuyến tính được sử dụng thì cần thiết phải dùng 12 bit mã hóa
cho một mẫu và dẫn đến tốc độ bit là 96 Kbit/s. Tuy nhiên, tốc độ này có thể được giảm
xuống một cách dễ dàng bằng cách sử dụng lượng tử hoá phi tuyến tính.
Trong việc mã thoại người ta thấy rằng với việc lượng tử hoá phi tuyến, 8 bit mã
hóa cho một xung mẫu là đủ đảm bảo chất lượng thoại và gần như khó mà phân biệt
được so với thoại gốc ban đầu. Điều này dẫn đến tốc độ bit chuẩn là 64 Kbit/s và hai loại
bộ mã hóa phi tuyến PCM đã trở thành tiêu chuẩn vào những năm 60 của thế kỷ 20.
Ở Bắc Mỹ, người ta dùng mã hóa theo luật µ , trong khi đó ở Châu Âu, mã hóa
theo luật A được áp dụng. Do tính đơn giản, chất lượng thoại đảm bảo và độ trễ thấp, cả
hai loại mã hóa PCM này vẫn được sử dụng rộng rãi cho đến ngày nay.
Một kỹ thuật được sử dụng phổ biến trong việc mã thoại là cố gắng dự đoán giá trị
của mẫu tiếp theo từ những mẫu trước đó. Điều này có thể khả thi bởi có sự tương quan
hiện tại giữa những mẫu thoại dưới tác dụng của cơ quan phát âm và sự rung động của
dây thanh âm như đã được giới thiệu ở 2.2.1.
Nếu dự đoán có hiệu quả, thì tín hiệu sai lệch giữa những mẫu đã dự đoán và
những mẫu thoại thực sẽ có một sự khác biệt thấp hơn so với giữa các mẫu thoại nguyên
gốc. Bởi vậy, chúng ta có thể lượng tử hoá những tín hiệu sai lệch này với một số lượng
bit ít hơn so với tín hiệu mẫu thoại gốc. Đây là cơ sở của những mô hình điều chế xung
mã vi sai – DPCM (Differential Pulse Code Modulation)- chúng lượng tử hoá sự khác
biệt giữa những tín hiệu gốc và tín hiệu dự đoán.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
31
Kết quả từ những bộ mã hoá như vậy có thể được cải thiện nếu bộ dự đoán và bộ
lượng tử có sự tương thích sao cho chúng thay đổi phù hợp với các đặc tính của thoại
được mã hoá. Điều này dẫn tới kỹ thuật điều chế xung mã vi sai thích ứng – ADPCM
(Adaptive Differential Pulse Code Modulation). Vào giữa những năm 1980, CCITT đã
chuẩn hoá bộ mã hóa ADPCM hoạt động ở tốc độ 32Kbps với chất lượng thoại tương
đương với phương pháp điều chế mã xung 64Kbps. Sau đó, các bộ mã hóa ADPCM hoạt
động ở các tốc độ 16, 24 và 40Kbps cũng đã được chuẩn hóa. Sơ đồ bộ mã hóa và giải
mã ADPCM được minh họa ở hình 2.14 dưới đây.
Hình 2.14: Bộ mã hóa và giải mã ADPCM
b. Mã hóa ADPCM (ITUG.721, G.726, G.727)
Bộ mã hóa điều chế xung mã vi sai thích nghi (ADPCM) là bộ mã hóa dạng sóng
thay vì lượng tử hoá trực tiếp tín hiệu thoại, giống như phương pháp PCM, nó lượng tử
hóa sự khác nhau giữa tín hiệu thoại và tín hiệu dự đoán.
Nếu sự dự đoán là chính xác thì sự khác nhau giữa các mẫu thật và mẫu dự đoán
sẽ nhỏ hơn, ít khác biệt hơn so với giữa các mẫu thoại thực, và sự khác biệt này nếu được
lượng tử hoá chính xác thì sẽ cần số bit ít hơn so với việc phải lượng tử hoá các mẫu
thoại gốc.
Tại bộ giải mã, tín hiệu khác biệt mà đã được lượng tử hóa được cộng với tín hiệu
dự đoán để khôi phục lại tín hiệu thoại ban đầu. Hiệu năng của bộ mã hóa được cải thiện
thông qua việc sử dụng bộ dự đoán và lượng tử thích nghi sao cho bộ dự đoán và bộ
lượng tử phải thích ứng với những đặc tính thay đổi của thoại đang được mã hoá.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
32
Vào giữa những năm 1980, CCITT đã chuẩn hoá ADPCM 32Kbps được biết đến
với cái tên G721, cho phép khôi phục thoại tốt như phương pháp PCM 64 Kbps. Các
khuyến nghị sau đó: các bộ mã hóa G726 và G727 hoạt động ở các tốc độ 40, 32, 24 và
16 Kbps cũng đã được chuẩn hoá.
Các bộ mã hóa dạng sóng được mô tả ở trên đều mã hóa thoại hoàn toàn trong
miền thời gian. Tuy nhiên, các tiếp cận theo miền tần số cũng có thể thực hiện được và có
một số ưu điểm. Ví dụ như ở trong mã hóa băng con - SBC (Sub – Band Coding), tín hiệu
thoại đầu vào được phân chia thành một số dải băng tần thoại gọi là các băng con thông
qua các bộ lọc số và sau đó mỗi một băng con được mã hóa độc lập bằng việc sử dụng
các bộ mã hóa như ADPCM. Ở đây, các băng con tương ứng với phổ tần số thấp chứa
hầu hết năng lượng của tín hiệu thoại sẽ được cấp phát với số bit mã hóa lớn, còn các
băng con tương ứng với các phổ tần số cao, chứa ít năng lượng tín hiệu sẽ được mã hóa
với số bit nhỏ hơn. Kết quả là tổng số bit dùng cho mã hóa băng con sẽ ít hơn so với
trường hợp mã hóa trên toàn dải phổ của tín hiệu. Tại phía thu, các tín hiệu băng con
được giải mã và kết hợp lại để khôi phục lại tín hiệu thoại ban đầu (G. 722 1988).
Ưu điểm của mã hóa băng con là nhiễu trong mỗi băng con chỉ phụ thuộc vào mã
hóa sử dụng trong băng con đó. Bởi vậy chúng ta có thể cấp phát nhiều bit hơn cho các
băng con quan trọng sao cho nhiễu trong những vùng tần số này là thấp, trong khi đó ở
các băng con khác, chúng ta có thể cho phép có nhiễu mã hóa cao vì nhiễu ở những tần
số này có tầm quan trọng thấp hơn. Các mô hình cấp phát bit thích ứng có thể được sử
dụng để khai thác thêm ý tưởng này. Các bộ mã hóa băng con cho chất lượng thoại tốt
trong phạm vi tốc độ từ 16 – 32 Kbps. Do phải cần đến bộ lọc để tách tín hiệu thoại trong
các băng con nên mã hóa băng con phức tạp hơn bộ mã hóa DPCM thông thường và có
thêm độ trễ mã hóa. Tuy nhiên, độ phức tạp và độ trễ là tương đối thấp so với các bộ mã
hóa lai.
2.2.3.2. Mã hóa tham số
Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm dưới 16 Kbps.
Để tiếp tục giảm tốc độ bit, cần phải khai thác mô hình tạo tiếng nói. Từ đây, người ta có
khái niệm mã hóa tham số hoặc còn gọi là mã hóa dựa trên mô hình.
Ở đây, các bộ mã hóa tham số hoạt động sử dụng mô hình nguồn tín hiệu được
tạo ra như thế nào và cố gắng trích chọn ra từ tín hiệu đang được mã hóa các tham số của
mô hình và truyền chúng tới bộ giải mã. Các bộ mã hóa tham số cho tín hiệu thoại còn
được gọi là Vocoder (Voice + Coder).
Ưu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm thanh thoại, dễ hiểu,
trong khi nó lại có nhược điểm là phức tạp hơn nhiều so với phương pháp mã hóa dạng
sóng và nó chỉ có thể xử lý được tiếng nói của con người. Mã hóa tham số hoạt động với
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
33
tốc độ bit thấp (xuống đến 2,4 Kbps) và mặc dù là tiếng nói được tái tạo lại là hoàn toàn
dễ hiểu nhưng chúng lại khác khá nhiều so với giọng nói tự nhiên của con người.
a. Mô hình LPC
Mô hình toán học của mã hóa dự đoán tuyến tính được minh họa ở hình vẽ dưới
đây:
Hình 2.15: Mô hình toán học của LPC
Ở đây tín hiệu thoại số là đầu ra của bộ lọc số - bộ lọc LPC có đầu vào là dãy các
xung hoặc chuỗi nhiễu trắng. Nói cách khác, cuống họng được đặc trưng bởi bộ lọc biến
đổi theo thời gian và bị kích thích với những nguồn nhiễu trắng khác cho phân đoạn thoại
vô thanh hoặc một dãy các xung phân tách theo chu kỳ âm thanh cho các âm hữu thanh.
Do vậy thông tin phải được gửi đến bộ giải mã là các tham số đặc trưng cho bộ
lọc; âm vô thanh/hữu thanh; những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm
thanh. Quá trình này được cập nhật liên tục 10–20 ms theo bản chất không dừng (non-
stationary) của tín hiệu thoại.
Các tham số của mô hình có thể được xác định bởi bộ mã hóa theo một số cách
khác nhau sử dụng các kỹ thuật trong miền thời gian hoặc tần số. Đồng thời các thông tin
có thể được mã hóa để truyền dẫn theo những cách khác
Các file đính kèm theo tài liệu này:
- chuong_2_200610_revised_0263.pdf