Luận văn Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room
Mục lục LỜI CẢM ƠN . i Mục lục . ii Danh mục các ký hiệu, các chữ viết tắt . v Danh mục các bảng . vi Danh mục các hình vẽ, đồ thị . vii MỞ ĐẦU . 1 Chương 1 GIỚI THIỆU SMART MEETING ROOM . 4 1.1. Tại sao phải nghiên cứu về lĩnh vực hội nghị? . 4 1.2. Những thách thức của việc xử lý tiếng nói trong lĩnh vực hội nghị . 4 1.2.1. Nhiều hình thức hội nghị và loại từ vựng . 4 1.2.2. Tiếng nói đồng thời/tương tác cao . 5 1.2.3. Nhiều microphone . 5 1.2.4. Nhiều góc nhìn camera . 5 1.2.5. Tích hợp thông tin đa phương tiện . 5 1.3. Giới thiệu về Smart Meeting Room (SMR) . 5 Chương 2 BÀI TOÁN GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 7 2.1. Giới thiệu bài toán . 7 2.2. Phát biểu bài toán . 9 2.3. Độ đo đánh giá . 10 2.4. Các hướng tiếp cận giải quyết bài toán . 11 2.4.1. Bài toán phân đoạn theo người nói . 11 2.4.2. Bài toán phân nhóm theo người nói. 13 2.4.3. Hướng tiếp cận phổ biến trong môi trường SMR . 14 2.5. Phương pháp phân nhóm nhanh cải tiến (Fast Clustering) . 15 Chương 3 HỆ THỐNG GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 17 3.1. Mô hình hệ thống xử lý đa kênh . 17 3.2. Mô hình hệ thống xử lý nhanh . 19 3.3. Các kĩ thuật tiền xử lý . 21 3.3.1. Kỹ thuật lọc nhiễu . 21 3.3.2. Kỹ thuật tính TDOA . 23 3.3.3. Đặc trưng ngữ âm . 24 3.4. Mô hình ngữ âm . 27 3.4.1. Mô hình Markov ẩn (HMM) . 27 3.4.2. Mô hình Gaussian Mixture Model (GMM) . 28 3.5. Kỹ thuật phát hiện tiếng nói (Voice Activity Detection) . 29 3.6. Kỹ thuật phân đoạn theo người nói . 31 3.6.1. Phân đoạn dựa trên đặc trưng . 31 3.6.1.1. Phân đoạn dựa trên mức năng lượng . 31 3.6.1.2. Phân đoạn dựa trên thông tin TDOA . 32 3.6.2. Phân đoạn dựa trên mô hình . 32 3.6.3. Phân đoạn dựa trên độ đo khoảng cách . 33 3.7. Kỹ thuật phân nhóm theo người nói . 34 3.7.1. Phân nhóm lượng hoá vector . 34 3.7.2. Phân nhóm tích tụ . 34 3.8. Kỹ thuật post-processing . 37 3.9. Các kỹ thuật được sử dụng trong Hệ thống xử lý nhanh . 37 3.9.1. Kỹ thuật tính TDOA theo GCC-PHAT . 37 3.9.2. Kỹ thuật phát hiện tiếng nói theo AMR1-VAD . 38 3.9.3. Lượng giá TDOA . 39 3.9.4. Chuẩn hoá TDOA . 41 3.9.5. Kỹ thuật phân nhóm nhanh Fast Clustering . 42 Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ . 45 4.1. Dữ liệu thực nghiệm . 45 4.2. Độ đo đánh giá . 46 4.3. Các kĩ thuật áp dụng và tham số . 47 4.3.1. Kĩ thuật lọc nhiễu . 47 4.3.2. Kĩ thuật tính TDOA . 47 4.3.3. Đặc trưng ngữ âm cho Hệ thống xử lý đa kênh . 48 4.3.4. Kỹ thuật phát hiện tiếng nói (VAD) . 48 4.3.5. Phương pháp phân đoạn và phân nhóm theo người nói . 50 4.3.6. Kỹ thuật post-processing . 51 4.4. Kết quả thực nghiệm và thảo luận . 51 4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh . 51 4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh . 53 4.4.3. So sánh phương pháp Fast Clustering với các phương pháp Phân đoạn và Phân nhóm khác . 60 4.5. Kết luận và hướng phát triển . 62 TÀI LIỆU THAM KHẢO . 65
Các file đính kèm theo tài liệu này:
- 4.pdf
- 0_2.pdf
- 1_2.pdf
- 2_2.pdf
- 3.pdf
- 5_2.pdf
- 6_4.pdf
- 7.pdf
- 8.pdf
- 9.pdf
- 10_3.pdf
- 11.pdf