Đề tài Xử lý tiếng nói qua Thuật toán Spectral Subtraction và Wiener Filtering
MỤC LỤC LỜI CAM ĐOAN 1 MỤC LỤC 2 DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH 8 MỞ ĐẦU 10 CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 12 1.1 Giới thiệu chương 12 1.2 Nâng cao chất lượng tiếng nói là gì ? 12 1.3 Lý thuyết về tín hiệu và nhiễu 14 1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu 14 1.3.1.1 Tín hiệu 14 1.3.1.2 Nguồn tín hiệu 14 1.3.1.3 Hệ thống và xử lý tín hiệu 15 1.3.1.4 Phân loại tín hiệu 15 1.4 Lý thuyết về nhiễu 16 1.4.1 Nguồn nhiễu 16 1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau 18 1.5 Tín hiệu rời rạc theo thời gian 19 1.5.1 Tín hiệu bước nhảy đơn vị 20 1.5.2 Tín hiệu xung đơn vị 20 1.5.3 Tín hiệu hàm mũ 20 1.5.4 Tín hiệu hàm sin rời rạc 20 1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT 21 1.6.1 Sự hội tụ của phép biến đổi Fourier 21 1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier 21 1.6.3 Phép biến đổi Fourier ngược 22 1.6.4 Các tính chất của phép biến đổi Fourier 22 1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc 23 1.6.6 Phổ tín hiệu và phổ pha 24 1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói 25 1.7.1 Trừ phổ 25 1.7.2 Mô hình thống kê 25 1.8 Tín hiệu tiếng nói 25 1.9 Cơ chế tạo tiếng nói 27 1.9.1.1 Bộ máy phát âm của con người 27 1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói 27 1.9.3 Phân loại âm 28 1.9.4 Thuộc tính âm học của tiếng nói 28 1.10 Kết luận chương 28 CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 29 2.1 Giới thiệu chương 29 2.2 Phương pháp đánh giá chủ quan 29 2.2.1 Các phương pháp đánh giá tuyệt đối 30 2.2.1.1 Phương pháp đánh giá tuyệt đối ACR 30 2.2.2 Các phương pháp đánh giá tương đối 30 2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu 30 2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng 31 2.3 Phương pháp đánh giá khách quan 32 2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung 32 2.3.2 Đo khoảng cách phổ dựa trên LPC 34 2.3.2.1 Phương pháp đo LLR 34 2.3.2.2 Phương pháp đo IS 34 2.3.2.3 Phương pháp đo theo khoảng cách cepstrum 35 2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con người 35 2.3.3.1 Phương pháp đo Weighted Spectral Slope 36 2.3.3.2 Phương pháp đo Bark Distortion 37 2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ 37 2.4 Kết luận chương 37 CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING 39 3.1 Giới thiệu chương 39 3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering 39 3.3 Thuật toán Spectral Subtraction 39 3.3.1 Giới thiệu chung 39 3.3.2 Spectral subtraction đối với phổ biên độ 40 3.3.3 Spectral subtraction đối với phổ công suất 41 3.4 Thuật toán Wiener Filtering 43 3.4.1 Giới thiệu chung 43 3.4.2 Nguyên lý cơ bản của Wiener Filtering 44 3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói 46 3.5.1 Phân tích tín hiệu theo từng frame 46 3.5.2 Overlap và Adding 47 3.6 Ước lượng và cập nhật nhiễu 48 3.6.1 Voice activity detection 49 3.6.2 Quá trình ước lượng và cập nhật nhiễu 49 3.7 Kết luận chương 50 CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 51 4.1 Giới thiệu chương 51 4.2 Quy trình thực hiện và đánh giá thuật toán 51 4.3 Lưu đồ thuật toán Spectral Subtraction 53 4.4 Lưu đồ thuật toán Wiener Filtering 54 4.5 Thực hiện thuật toán 55 4.6 Đánh giá chất lượng tiếng nói đã được xử lý 57 4.6.1 Cơ sở dữ liệu cho việc đánh giá 57 4.6.2 Tổng quan về quy trình đánh giá 57 4.6.3 Kiểm tra độ tin cậy của các phương pháp đánh giá 58 4.6.4 Thực hiện đánh giá 60 4.6.4.1 Đánh giá thuật toán với các hệ số dự đoán ban đầu 60 4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF 63 4.6.4.3 Hệ số gamma cho thuật toán SS 65 4.6.4.4 Đánh giá thuật toán sau khi đã tối ưu 66 4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi trường nhiễu khác 67 4.6.5 Kết luận chương 69 TÀI LIỆU THAM KHẢO 70 KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 73 PHỤ LỤC 74
Các file đính kèm theo tài liệu này:
- Xử lý tiếng nói qua Thuật toán Spectral Subtraction và Wiener Filtering.doc