LỜI CAM ĐOAN . 1
MỤC LỤC. 2
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH . 8
MỞ ĐẦU. 10
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI . 13
1.1 Giới thiệu chương . 13
1.2 Nâng cao chất lượng tiếng nói là gì ? . 13
1.3 Lý thuyết về tín hiệu và nhiễu . 15
1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu .15
1.3.1.1 Tín hiệu . 15
1.3.1.2 Nguồn tín hiệu. 15
1.3.1.3 Hệ thống và xử lý tín hiệu. 16
1.3.1.4 Phân loại tín hiệu. 16
1.4 Lý thuyết về nhiễu . 17
1.4.1 Nguồn nhiễu .17
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau.19
1.5 Tín hiệu rời rạc theo thời gian . 20
1.5.1 Tín hiệu bước nhảy đơn vị .21
1.5.2 Tín hiệu xung đơn vị .21
1.5.3 Tín hiệu hàm mũ .21
1.5.4 Tín hiệu hàm sin rời rạc .21
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT . 22
1.6.1 Sự hội tụ của phép biến đổi Fourier .22
1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier .22
1.6.3 Phép biến đổi Fourier ngược .23
1.6.4 Các tính chất của phép biến đổi Fourier .23
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc .24
1.6.6 Pổ tín hiệu và phổ pha .25
1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói. 26
1.7.1 Trừ phổ .26
1.7.2 Mô hình thống kê .26
1.8 Tín hiệu tiếng nói. 26
1.9 Cơ chế tạo tiếng nói. 28
1.9.1.1 Bộ máy phát âm của con người. 28
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói.28
1.9.3 Phân loại âm .29
1.9.4 Thuộc tính âm học của tiếng nói .29
1.10 Kết luận chương . 29
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI . 30
2.1 Giới thiệu chương . 30
2.2 Phương pháp đánh giá chủ quan. 30
2.2.1 Các phương pháp đánh giá tuyệt đối.31
2.2.1.1 Phương pháp đánh giá tuyệt đối ACR . 31
2.2.2 Các phương pháp đánh giá tương đối .31
2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu . 31
2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng . 32
2.3 Phương pháp đánh giá khách quan. 33
77 trang |
Chia sẻ: lethao | Lượt xem: 2305 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Xử lý năng cao chất lượng tiếng nói, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ỗi tín hiệu đều có một đặc điểm riêng của nó. Ví dụ như, tín hiệu sin chỉ có duy nhất một tần số đơn, trong khi nhiễu trắng chứa tất cả các thành phần tần số. Sự biến thiên chậm của tín hiệu là do tần số thấp, trong khi
sự biến thiến nhanh và những xung nhọn là do tần số cao. Như xung vuông chẳng hạn, nó chứa tất cả tần số và cả tần số cao.
Phổ của tín hiệu là mô tả chi tiết các thành phần tần số chứa bên trong tín hiệu. Ví dụ như tín hiệu xung vuông, phổ của nó chỉ ra tất cả các đỉnh nhọn của các sóng sin riêng có thể kết hợp lại hợp với nhau tạo ra xung vuông. Thông tin này quan trọng vì nhiều lý do. Ví dụ, thành phần tần số trong một mẫu nhạc chỉ cho ta biết các đặc trưng của loa, để từ đó khi sản xuất ta lại có cải tiến cho hay hơn. Để dự đoán các ảnh hưởng của bộ lọc trên tín hiệu, cần phải biết không chỉ
bản chất của bộ lọc mà còn phải biết cả phổ của tín hiệu nữa.
1.6.6 Phổ tín hiệu và phổ pha
Phổ của tín hiệu gồm hai phần: phổ biên độ (magnitude spectrum) và phổ pha (phase spectrum). Phổ biên độ chỉ ra độ lớn của từng thành phần tần số. Phổ pha chỉ quan hệ pha giữa các thành phần tần số khác nhau. Công cụ để tính phổ
tín hiệu rời rạc không tuần hoàn là DTFT.
Để tính phổ tín hiệu , ta qua hai bước : một là tính DTFT của tín hiệu – là
X( ), hai là tính biên độ và pha của X( )
X ( ) = X (
) e jq ( )
(1.21)
ở đây |X( )| là phổ biên độ và q ( ) là phổ pha.
Ta dễ dàng chứng minh được rằng đối với tín hiệu thực, phổ biên độ là một hàm chẵn theo tần số và phổ pha là một hàm lẻ theo .
Do đó, nếu biết phổ X( ) trong khoảng 0 đến p , ta có thể suy ra phổ trong toàn dải tần số. Để dễ giải thích phổ, tần số số từ 0 đến p thường được chuyển
đổi thành tần số tương tự từ 0 đến fs/2 nếu tần số lấy mẫu là fs.
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11].
1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói
1.7.1 Trừ phổ
Spectral-subtraction (SS) hay còn gọi là trừ phổ là một thuật toán giảm nhiễu đơn giản nhất. Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và cập nhật nhiễu trong tín hiệu có nhiễu bằng cách thu nhiễu khi không có sự hiện diện của
tín hiệu. Và nhiễu đó sẽ được trừ với tín hiệu có nhiễu, kết quả là tín hiệu của chúng ta sau khi xử lý bằng thuật toán này sẽ được loại đi nhiễu và xét trên phương diện lý tưởng thì nó là tín hiệu sạch. SS lúc ban đầu được đề xuất bởi Weiss[8] trong miền tương quan, và sau đó được đề xuất bởi Boll [9] trong miền chuyển đổi Fourier.
1.7.2 Mô hình thống kê
Vấn đề của nâng cao chất lượng tiếng nói là phải đề ra được khung mô tả mang tính thống kê. Nó là một tập các phép đo tương ứng với hệ chuyển đổi Fourier của tín hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra được một phương thức ước lượng tuyến tính hoặc phi tuyến các tham số có lợi, đó là hệ chuyển đổi của tín hiệu sạch. Hai thuật toán được sử dụng đó là thuật toán Wiener và minium mean-squared error(MMSE)[10].
1.8 Tín hiệu tiếng nói
Tín hiệu tiếng nói là tín hiệu liên tục và có phổ năng lượng thay đổi theo thời gian. Tuy nhiên khi khảo sát trong một khoảng thời gian đủ ngắn (khoảng 10
đến 30 ms) thì đặc tính phổ của nó coi như không thay đổi.
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her
husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” [11].
Dạng sóng của tín hiệu có thể được chia thành một số phân đoạn tương ứng với các âm/từ. Trong ví dụ trên ta thấy một số phân đoạn có dạng sóng gần như tuần hoàn còn số khác thì không có tính tuần hoàn và bị nhiễu
Những kiểu của đoạn tiếng nói_chu kỳ, nhiễu, khoảng lặng… thường được tìm thấy trong tiếng nói trôi chảy với sự thay đổi về cường độ, khoảng thời gian
và đặc tính phổ.
1.9 Cơ chế tạo tiếng nói
1.9.1.1 Bộ máy phát âm của con người
Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11].
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói
Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11].
1.9.3 Phân loại âm
Các âm trong tiếng Anh được phân loại gồm: nguyên âm và nguyên âm đôi, bán nguyên âm, âm mũi, âm stops, fricative, africatives, whisper.
Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11]
1.9.4 Thuộc tính âm học của tiếng nói
Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thông tin về mặt ngôn ngữ và được thể hiện bằng các âm vị khác nhau. Số lượng các âm vị tuỳ thuộc vào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượt quá 50. Đối với từng loại âm vị nó có đặc tính âm thanh khác nhau.Tổ hợp các âm vị tạo nên âm tiết. Âm tiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa.
1.10 Kết luận chương
Chương này đã trình bày được mục đích chính của speech enhancement là triệt nhiễu hoặc là nén nhiễu trong tín hiệu tiếng nói đã bị nhiễu. Ngoài ra, nội dung của chương cũng đã nêu rõ được các loại nhiễu xuất hiện trong từng môi trường cụ thể để từ đó chúng ta có tìm ra được thuật toán xử lý thích hợp ứng với
mỗi trường hợp cụ thể.
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI
2.1 Giới thiệu chương
Cho đến nay đã có rất nhiều thuật toán nâng cao chất lượng tiếng nói, nhưng làm thế nào để đánh giá đúng hiệu quả của chúng. Phần này cung cấp các phương pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của thuật toán nâng cao tiếng nói
Đánh giá chất lượng có thể thực hiện bằng cách sử dụng phương pháp đánh
giá theo cảm nhận của người nghe theo một thang đo đã được xác định trước (Subjective Evaluation_ SE) hoặc dựa trên phép đo các thuộc tính của tín hiệu (Objective Evaluation_ OE). Dù OE có giá trị thì nó vẫn phải tương quan với cảm nhận của người nghe
Phần này sẽ cung cấp một cái nhìn tổng quan về các phương pháp đánh giá chất lượng của tiếng nói đã được xử lý
2.2 Phương pháp đánh giá chủ quan
Đánh giá chất lượng chủ quan là đánh giá chất lượng dựa trên cảm nhận nghe của con người đối với tiếng nói
Chất lượng là một trong các thuộc tính của tín hiệu tiếng nói. Về bản chất
thì chất lượng có tính chủ quan cao và khó có thể đánh giá một cách đáng tin cậy.Nó chỉ đóng vai trò phần nào trong kỹ thuật đánh giá vì mỗi cá nhân người nghe có những tiêu chuẩn riêng về chất lượng “tốt” hay “xấu”, chất lượng là kết quả của sự cảm nhận và phán đoán chủ quan của người nghe, dẫn đến sự chênh lệch lớn trong kết quả đánh giá. Chất lượng có rất nhiều chỉ tiêu không thể đếm
hết được. Tùy vào các mục đích thực tế và tùy vào mỗi ứng dụng mà chỉ tập trung vào một số chỉ tiêu chất lượng tiếng nói.
Đánh giá chất lượng tiếng nói là một công việc đầy khó khăn do tính đa chỉ tiêu và tính chủ quan cao. Có một số lượng lớn các đặc trưng để đánh giá khi thực hiện phương pháp nghe chủ quan này. Để kết quả đánh giá là đáng tin cậy
thì sự lựa chọn đúng đắn các tham số cho việc đánh giá là điều cần thiết. Dựa
trên thực tế đó ITU-T đã đưa ra các khuyến nghị ban hành trong các chuẩn từ
ITU-T Rec P.800 đến ITU-T Rec P.899. Có hai loại đánh giá chính là Tuyệt đối
và Tương đối. Sự đánh giá dựa trên các thang điểm chuẩn đã được đề ra trong chuẩn ITU-T Rec.P.800[11]
2.2.1 Các phương pháp đánh giá tuyệt đối
2.2.1.1 Phương pháp đánh giá tuyệt đối ACR
ACR được sử dụng rộng rãi. ITU-T[11] đã khuyến nghị dùng phương pháp này trong hầu hết các ứng dụng. Thang đo được khuyến là
¾ Mean Opinion Scores (MOS)
Được mô tả trong khuyến nghị P.800 của ITU-T, MOS là một phép đo chất lượng thoại nổi tiếng. Đây là một phương pháp đo chất lượng mang tính chất chủ quan. Có hai phương pháp kiểm tra là đánh giá đàm thoại và đánh giá độ nghe.
Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12]
Score
Quality of the Speech
Level of Distortion
5
Excellent
Imperceptible
4
Good
Just perceptible, but not annoying
3
Fair
Perceptible and slight annoying
2
Poor
Annoying but not Objectinable
1
Bad
Very annoying and Objectionable
2.2.2 Các phương pháp đánh giá tương đối
Nhìn chung phương pháp đánh giá này có độ nhạy cao hơn đối với sự suy giảm chất lượng của tín hiệu đã qua xử lý
2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu
Dạng đơn giản nhất của phương pháp này là thích nghe mẫu nào hơn Preference test hay còn gọi là so sánh đánh giá theo từng cặp tín hiệu Paired Comparison Test. Đối với phương pháp này thì người nghe sẽ được nghe hai mẫu
thoại và sẽ đánh giá thích mẫu tín hiệu nào hơn
Đánh giá bằng cách so sánh Comparison Category Rating (CCR) được
khuyến nghị bởi ITU-T để đánh giá các hệ thống dùng nâng cao chất lượng tiếng nói. [13]
Bảng 2.4. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR
Rating
Quality of Speech
3
Much better
2
Better
1
Slightly Better
0
About the Same
-1
Slightly Worse
-2
Worse
-3
Much Worse
Theshold Test hay còn gọi là Isopreference Test là một biến thể của Preference Test. Phương pháp này là so sánh tín hiệu đã qua xử lý với tín hiệu gốc chuẩn mà độ suy giảm chất lượng của nó có thể được kiểm soát. Được đề ra trong chuẩn ITU-T Rec.P.810
2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng
Đánh giá sự suy giảm chất lượng Degradation Category Rating (DCR) Sự giảm sút về chất lượng của tín hiệu đã qua xử lý so với tín hiệu chất lượng cao chưa qua xử lý được xác định qua năm thang điểm
Bảng 2.5. Thang đánh giá DCR
Rating
Degradation
1
Very annoying
2
Annoying
3
Sightly annoying
4
Audible but not annoying
5
Inaudible
2.3 Phương pháp đánh giá khách quan
Đánh giá chất lượng khách quan là phương pháp đánh giá chất lượng dựa trên các phép đo thuộc tính của tín hiệu
2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung
Đo SNR trên từng khung trong miền thời gian là một trong những phương pháp đánh giá về mặt toán đơn giản nhất. Để phương pháp này có hiệu quả thì điều quan trọng là tín hiệu gốc và tín hiệu đã qua xử lý phải trong cùng miền thời gian và độ lệch pha hiện tại phải được hiệu chỉnh chính xác. SNRseg được xác định như sau
[12] (2.1)
Trong đó : tín hiệu gốc (tín hiệu sạch)
: tín hiệu đã được tăng cường
N: chiều dài khung (thường được chọn từ 15-20ms) M: số khung của tín hiệu
Một vấn đề tiềm ẩn với phương pháp đánh giá SNRseg là năng lượng của
tín hiệu trong suốt khoảng lặng của tín hiệu thoại (xuất hiện nhiều trong các đoạn hội thoại) sẽ rất bé, dẫn đến kết quả là giá trị của ai số SNRseg lớn làm sai lệch toàn bộ đánh giá. Phương án giải quyết duy nhất là loại trừ những khung lặng trong biểu thức trên bằng cách đo mức năng lượng trong thời gian ngắn nén giá
trị SNRseg ngưỡng đến một giá trị bé. Nếu giá trị SNRseg được giới hạn trong khoảng [-10dB, 35dB] [14] sẽ tránh được việc cần phải dùng bộ tách tín hiệu thoại và khoảng lặng
Sự xác định trước của SNRseg dựa trên tín hiệu vào gốc và tín hiệu đã được
xử lý. Ta có thể dùng tín hiệu được xử lý qua bộ lọc dự đoán thường được sử
dụng trong thuật toán CELP [15]. Sau khi đưa tín hiệu gốc và tín hiệu đã qua xử
lý qua các bộ lọc này, ta có thể tính toán SNRseg dựa trên tín hiệu ra của các bộ
lọc[16]. Sự ước tính SNR này mang lại hệ số tương quan cao đối với các phương
pháp đánh giá chủ quan
Một cách xác định SNRseg khác được đề xuất bởi Richards [17] trong đó hàm log có thay đổi so với công thức 3.1
(2.2)
Như vậy có thể tránh được các giá trị sai lệch lớn trong suốt các khoảng lặng của tín hiệu tiếng nói. Chú ý rằng giá trị nhỏ nhất có thể đạt được của SNRsegR bây giờ là 0 thì đã tốt hơn nhiều so với những giá trị âm vô cùng. Ưu điểm chính của việc xác định trước phân đoạn SNR là tránh được việc cần thiết phải làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng
Đo SNR cho từng khung có thể được mở rộng trong miền tần số theo
(2.3)
Trong đó Bj : Trọng lượng tại dải tần số thứ j
K : Số dải tần
M : Tổng số khung tín hiệu
F(m,j) : Dãy tín hiệu gốc qua bọ lọc đã được khuếch đại tại dải
lần thứ j và khung thứ m
: Dãy tín hiệu đã được tăng cường qua lọc khuếch
đại ở cùng một dải tần với F(m,j)
Ưu điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miền thời gian tăng thêm tính linh động của việc phân bố trọng số của phổ khác nhau cho những dải tần khác nhau
Một cách khác, trọng số của mỗi dải có thể thu được bằng cách dùng phương pháp phân tích hồi quy, còn gọi là phương pháp đánh giá chủ quan biến đổi tần số. Bằng cách này , trọng số có thể được chọn để có hệ số tương quan lớn
nhất giữa đánh giá khách quan và đánh giá chủ quan. Với phương pháp này, tổng
của K (cho mỗi dải) của các phương pháp đánh giá khách quan khác nhau và Dj
được ước tính cho mỗi dãy, tại Dj được cho như sau[12]
(2.4) Trọng lượng tối ưu cho mỗi Dj của mỗi dải đạt được khi dùng phương
pháp phân tích hồi quy tuyến tính bậc K, cho ra đánh giá chủ quan biến đổi tần
số:
(2.5)
: Các hệ số hồi quy, Dj : được cho bởi (3.4), K là số dải .Phân tích hồi
quy không tuyến tính cũng có thể được sử dụng như một cách để chuyển hóa
đánh giá khách quan biến đổi tần số
2.3.2 Đo khoảng cách phổ dựa trên LPC
LPC (Linear Prediction Coefficient)s :Hệ số dự đoán tuyến tính
Gồm các phương pháp phổ biến là LLR (Log Likelihood Ratio) , IS (Itakura
Saito) và đo theo khoảng cách cepstrum
2.3.2.1 Phương pháp đo LLR
(2.6)
:hệ số LPC của tín hiệu sạch
:hệ số của tín hiệu đã được tăng cường chất lượng
Rx là (p+1)*(p+1)ma trận tự tương quan(Toeplitz) của tín hiệu sạch
Biểu thức trên được viết lại trong miền tần số như sau[9]
[17] (2.7)
và lần lượt là phổ của và . Biểu thức trên chỉ ra sự
khác nhau giữa phổ tín hiệu và phổ tăng cường có ảnh hưởng nhiều hơn khi
lớn, thường gần với đỉnh tần số formant. Do đó, cách đo này xác
định sự khác nhau vị trí của đỉnh tần số formant
2.3.2.2 Phương pháp đo IS
Đo IS được xác định như sau
[12] (2.8)
và lần lượt là hệ số khuếch đại của tín hiệu sạch và tín hiệu
tăng cường. Hệ số khuếch đại có thể được tính như sau:
(2.9)
chứa hệ số tự tương quan của
tín hiệu sạch (nó cũng là hàng đầu tiên của ma trận tự tương quan )
2.3.2.3 Phương pháp đo theo khoảng cách cepstrum
Không giống với đo LLR, IS chú trọng sự khác nhau giữa hệ số khuếch đại
, sự khác nhau về mức phổ của tín hiệu sạch và tín hiệu tăng cường. Bên cạnh đó cũng có thể là hạn chế của đánh giá IS, sự khác nhau giữa các mức phổ có tác động nhỏ đến chất lượng[18]
Hệ số LPC cũng có thể xuất phát từ khoảng cách đo được dựa trên hệ số cepstrum. Khoảng cách này quy định sự ước lượng khoảng cách log của phổ của giữa hai phổ tín hiệu. Hệ số cepstrum có thể thu được từ phép đệ quy hệ số LPC
{aj} sử dụng công thức sau
(2.10)
Với p là bậc của phân tích LPC .Phép đo dựa trên hệ số cepstrum có thể
được tính như sau [19]
(2.11)
Với và lần lượt là hệ số của tín hiệu sạch và tín hiệu đã được
tăng cường
2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con người
Những phương pháp đánh giá đã được đề cập trên được ưa dùng vì tính đơn giản để thực hiện và dễ dàng đánh giá. Tuy nhiên, khả năng dự đoán chất lượng chủ quan của chúng thì hạn chế khi mà các phương pháp xử lý tín hiệu đó không tính đến phạm vi nghe của con người.
2.3.3.1 Phương pháp đo Weighted Spectral Slope
Phương pháp đánh giá này được tính bởi dốc phổ đầu tiên được tìm thấy của mỗi dải phổ. Xét Cx(k) là phổ dải tới hạn của tín hiệu sạch và là của tín
hiệu tăng cường, xét trong đơn vị dB. Phương trình sai phân bậc nhất được dùng
để tính độc dốc phổ được cho như sau:
(2.12) Với và lần lượt biểu diễn cho độ dốc dải tần thứ k của tín hiệu
sạch và tín hiệu tăng cường. Sự khác nhau giữa các độ dốc phổ phụ thuộc vào trọng số một là dải tần gần với đỉnh hoặc rãnh, hai là đỉnh là đỉnh lớn nhất của phổ. Trọng số của dải thứ k, ký hiệu W(k) được tính như sau
[12] (2.13)
độ rộng loga lớn nhất của phổ trong tất cả các băng, là giá trị
của đỉnh gần với băng k nhất, và , là hằng số có được bằng phép phân tích hồi quy để cực đại hóa sự tương quan giữa đánh giá chủ quan và giá trị
của đánh giá khách quan. Với những thí nghiệm đã được thực hiện thì người ta
tìm được sự tương quan lớn nhất sẽ có được với =20 và =1[18]
Phép đo WSS tính cho mỗi khung của tín hiệu thoại:
(2.14)
Với L là số lượng dải tới hạn
Giá trị WSS được tính bằng cách lấy trung bình các giá trị WSS thu được từ
các khung trong câu
WSS là phương pháp đánh giá khá hấp dẫn bởi vì nó không đòi hỏi phải có formant rõ ràng. Nó chú ý tới vị trí đỉnh phổ và ít nhạy cảm với các đỉnh xung quanh cũng như các chi tiết của phổ ở các vùng thấp. Đánh giá LPC cơ bản (ví dụ như đánh giá LLR) nhạy với các tần số formant khác, nhưng cũng nhạy với sự thay đổi biên độ và sự thay đổi độ nghiêng phổ. Không có gì là bất ngờ khi đánh
giá WSS mang lại một sự tương quan lớn (ρ=0.74) hơn đánh giá LPC, với sự đánh giá chất lượng chủ quan của tiếng nói bị giảm chất lượng bởi sự mã hóa[20]
2.3.3.2 Phương pháp đo Bark Distortion
Phương pháp đánh giá WSS là bước đầu làm mẫu cho việc làm thế nào để con người nhận biết được tiếng nói, đặc biệt là nguyên âm. Các phương pháp đánh giá sau này càng dựa vào sự xử lý âm thanh của tai người, cách mà thính giác con người xử lý âm thanh và nhiễu. Những phương pháp đánh giá mới này
đã dựa trên những lập luận sau:
1. Sự phân tích tần số của tai người là không thay đổi, tức là sự phân tích tần số của tín hiệu âm thanh không dựa trên phạm vi tần số tuyến tính
2. Độ nhạy của tai người phụ thuộc vào tần số âm thanh
3. Âm thanh to tương ứng với độ mạnh của tín hiệu trong miền phi tuyến tính
Thính giác con người phỏng theo một loạt biến đổi của tín hiệu âm thanh.
Cả tín hiệu gốc và tín hiệu đã qua xử lý phải trải qua hàng loạt các biến đổi này, dẫn đến cái gọi là phổ âm lượng. Đánh giá BSD sử dụng khoảng cách giữa các
phổ này như là đánh giá chất lượng chủ quan
2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ
Trong các phương pháp đánh giá OE thì PESQ là phương pháp đánh giá phức tạp nhất và được khuyến nghị bởi ITU_T cho đánh giá chất lượng thoại băng hẹp (3,2KHz) và là một phương pháp đánh giá khách quan có tính tương quan cao với đánh giá theo cảm nhận của người nghe
2.4 Kết luận chương
Chương này đã trình bày một số phương pháp đánh giá chất lượng tiếng nói sau khi xử lý giảm nhiễu bằng các thuật toán tăng cường tiếng nói. Các đánh giá
SE được giới thiệu gồm có các phương pháp đánh giá tuyệt đối và đánh giá tương
đối. Các phương pháp đánh giá OE được trình bày chính trong chương này gồm :
Đo SNRseg, đánh giá LLR, IS và WSS, trong phần này cũng đã giới thiệu sơ bộ
về BSD và PESQ
CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER
FILTERING
3.1 Giới thiệu chương
Nội dung của chương này trình bày nguyên lý chung của thuật toán Spectral
– subtraction và Wiener filtering,nguyên lý cơ bản của từng thuật toán, các bước thực hiện cần thiết để phân tích liên kết tín hiệu, đề cập đến vấn đề ước luợng nhiễu, vấn đề này ảnh hưởng rất lớn đến quá trình xử lý
3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering
Trong đồ án này, chúng tôi đã dựa trên các cở sở lý thuyết của các thuật toán đã
có trong speech enhancement, và đã lựa chọn ra 2 thuật toán đó là : Spectral subtraction và Wiener filter để sử dụng làm thuật toán xử lý triệt nhiễu.
Sơ đồ khối chung cho cả 2 thuật toán :
Phân tích tín
hiệu thành các frame
Tín hiệu bị
nhiễu
FFT
Hàm xử lý giảm nhiễu
Ước lượng nhiễu
Overlap và
IDFT
adding
Tín hiệu sạch
Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF
Cả 2 thuật toán Spectral subtraction và Wiener filter chỉ khác nhau ở khối hàm xử lý triệt nhiễu, tất cả các khối còn lại thì giống nhau.
3.3 Thuật toán Spectral Subtraction
3.3.1 Giới thiệu chung
Spectral – subtraction là thuật toán được đề xuất sớm nhất trong các thuật toán được sử dụng để giảm nhiễu trong tín hiệu. Đã có rất nhiều bài luận mô tả các biến thể của thuật toán này so với các thuật toán khác. Nó dựa trên một nguyên tắc cơ bản, thừa nhận sự có mặt của nhiễu, nó có thể đạt được mục đích
ước lượng phổ của tiếng nói sạch bằng cách trừ đi phổ của nhiễu với phổ của
tiếng nói đã bị nhiễu. Phổ của nhiễu có thể được ước lượng, cập nhật trong nhiều
chu kỳ khi không có mặt của tín hiệu. Sự thừa nhận đó chỉ được thực hiện đối với nhiễu không đổi hoặc có tốc độ xử lý biến đổi chậm, và khi đó phổ của nhiễu sẽ không thay đổi đáng kể giữa các khoảng thời gian cập nhật. Việc tăng cường tín hiệu đạt được bằng cách tính IDFT(biến đổi Fourier rời rạc ngược) của phổ tín hiệu đã được ước lượng có sử dụng pha của tín hiệu có nhiễu. Thuật toán này là một phép tính ước lượng đơn giản vì nó chỉ gồm biến đổi DFT thuận và DFT ngược.
Quá trình xử lý hiệu đơn giản như vậy phải trả một cái giá, nếu quá trình xử
lý không được thực hiện một cách cẩn thận thì tiếng nói của chúng ta sẽ bị méo. Nếu như việc lấy hiệu quá lớn thì có thể loại bỏ đi một phần thông tin của tiếng nói, còn nếu việc thực hiện lấy hiệu đó nhỏ thì nhiễu sẽ vẫn còn được giữ lại trong tín hiệu. Có rất nhiều phương pháp được đề xuất để giảm đi hầu hết méo trong quá trình xử lý tiếng nói bằng spectral subtraction[21], và trong số đó cũng
có một vài trường hợp bị loại bỏ.
3.3.2 Spectral subtraction đối với phổ biên độ
Giả thiết rằng y[n] là tín hiệu vào đã bị nhiễu, nó tổng của tín hiệu sạch x[n]
và tín hiệu nhiễu d[n]:
y[n] = x[n] + d[n] (3.1) Thực hiện biến đổi Fourier rời rạc cả 2 vế,ta được
Y (w ) = X (w ) + D(w )
Chúng ta có thể biểu diễn Y( w ) dưới dạng phức như sau:
Y (w) =| Y (w) | e jf y (w )
Khi đó |Y( w )| là biên độ phổ, và f y (w) là pha của tín hiệu đã bị nhiễu.
(3.2)
(3.3)
Phổ của tín hiệu nhiễu D( w ) có thể được biểu diễn dạng biên độ và pha:
D(w) =| D(w) | e jfd (w )
(3.4)
Biên độ phổ của nhiễu |D( w )| không xác định được, nhưng có thể thay thế
bằng giá trị trung bình của nó được tính trong khi không có tiếng nói(tiếng nói bị
dừng), và pha của tín hiệu nhiễu có thể thay thế bằng pha của tín hiệu bị nhiễu
f y (w) , việc làm này không ảnh hưởng đến tính dễ nghe của tiếng nói [22], có thể
ảnh hưởng đến chất lượng của tiếng nói là làm thay đổi pha của tiếng nói nhưng cũng chỉ vài độ.
Khi đó chúng ta có thể ước lượng được phổ của tín hiệu sạch:
Ù Ù
X (w) = [| Y (w) | - | D(w) |]e jf y (w )
(3.5)
Ù
ở đây | D(w) | là biên độ phổ ước lượng của nhiễu được tính trong khi không
có tiếng nói hoạt động. Ký hiệu
"Ù"
để chỉ rằng giá trị đó là giá trị ước tính gần
đúng. Tín hiệu tiếng nói được tăng cường có thể đạt được bằng cách rất đơn giản
là biến đổi IDFT của
Ù
X (w) .
Cần chú ý rằng biên độ phổ của tín hiệu đã được tăng cường là
| X (w) | (=| Y (w) | - | D(w) |) , có thể bị âm do sự sai sót trong việc ước lượng phổ của nhiễu. Tuy nhiên, biên độ của phổ thì không thể âm, nên chúng cần phải đảm bảo rằng khi thực trừ hai phổ thì phổ của tín hiệu tăng cường |X( w )| luôn luôn không âm. Giải pháp được đưa ra để khắc phục điều này là chỉnh lưu bán sóng hiệu của
phổ, nếu thành phần phổ nào mà âm thì chúng ta sẽ gán nó bằng 0:
⎪⎧
X (w ) = ⎨
^
Y (w ) - | D(w ) |
, | Y (w ) |
^
> | D(w ) |
(3.6)
0 , ¹
Phương pháp xử lý bằng chỉnh lưu bán sóng là một trong những cách để
đảm bảo cho |X( w )| không bị âm.
3.3.3 Spectral subtraction đối với phổ công suất
Thuật toán Spectral subtraction đối với phổ biên độ có thể được mở rộng sang miền phổ công suất. Vì trong một vài trường hợp, nó có thể làm việc tốt với phổ công suất hơn là với phổ biên độ. Lấy phổ công suất của tín hiệu bị nhiễu
trong một khoảng ngắn, chúng ta bình phương |Y( w )|, ta được:
2
Y (w ) =
=
2 2
X (w) + D(w) + X (w). D* (w) + X * (w)D(w)
2 2
X (w) + D(w ) + 2.Re{X (w)D* (w)}
(3.7)
| D(w ) |2, X( w ). D * (w ) và
X * (w).D(w)
không thể tính được một cách trực
tiếp và xấp xỉ bằng E{| D(w ) |2}, E{ X( w ). D * (w ) } và E{ X * (w).D(w) }, khi đó
E[.] là toán tử kỳ vọng. Bình thường thì E{| D(w ) |2} được ước lượng khi không
Ù
có tiếng nói hoạt động và được biểu thị là | D(w) |2. Nếu chúng ta thừa nhận d[n] =
0 và không có một sự tương quan nào với tín hiệu sạch x[n], thì E{
X( w ). D * (w ) } và E{ X * (w).D(w) } xem là 0. Khi đó phổ công suất của tín hiệu sạch có thể tính được như sau
^ ^
| X (w) |2 =| Y (w) |2 - | D(w) |2
(3.8)
Công thức trên biểu diễn thuật toán trừ phổ công suất. Như công thức trên,
thì phổ công suất được ước lượng
Ù
| X (w) |2
không được đảm bảo luôn là một số
dương, nhưng có thể sử dụng phương pháp chỉnh lưu bán sóng như đã trình bày ở
trên. Tín hiệu được tăng cường sẽ thu được bằng cách tính IDFT của
Ù
| X (w) | (bằng cách lấy căn bậc hai của
Ù
| X (w) | 2 ), có sử dụng pha của tín hiệu
tiếng nói bị nhiễu. Chú ý rằng, nếu chúng ta lấy IDFT cả hai vế của công thức
(4.8) trên thì ta có một phương trình tương tự trong miền tự tương quan:
r^ ^ (m) = ryy (m) - r^ ^ (m)
(3.9)
Khi đó
r^^ (m) ,
xx
xx
ryy (m) ,
r^^ (m)
dd
dd
là các hệ số tự tương quan của tín hiệu sạch,
tín hiệu tiếng nói bị nhiễu, và tín hiệu nhiễu đã được ước lượng [23,24].
Công thức (1) có thể được viết theo dạng sau:
^
| X (w) |2 = H 2 (w) | Y (w) |2
( 3.10)
Khi đó:
H (w) =
^
| D(w) |2
1 -
| Y (w) |2
(3.11)
Trong lý thuyết hệ thống tuyến tính, H( w ) là hàm truyền đạt của hệ thống.
Trong lý thuyết của Speech enhancement, chúng ta xem H( w ) là hàm độ lợi hay hàm nén. Và H( w ) là một số thực và luôn luôn dương, và có giá trị nàm trong
phạm
Các file đính kèm theo tài liệu này:
- Xu ly nang cao chat luong tieng noi.doc
- Xu ly nang cao chat luong tieng noi.pdf