Luận văn Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room

Mục lục

LỜI CẢM ƠN . i

Mục lục . ii

Danh mục các ký hiệu, các chữ viết tắt . v

Danh mục các bảng . vi

Danh mục các hình vẽ, đồ thị . vii

MỞ ĐẦU . 1

Chương 1 GIỚI THIỆU SMART MEETING ROOM . 4

1.1. Tại sao phải nghiên cứu về lĩnh vực hội nghị? . 4

1.2. Những thách thức của việc xử lý tiếng nói trong lĩnh vực hội nghị . 4

1.2.1. Nhiều hình thức hội nghị và loại từ vựng . 4

1.2.2. Tiếng nói đồng thời/tương tác cao . 5

1.2.3. Nhiều microphone . 5

1.2.4. Nhiều góc nhìn camera . 5

1.2.5. Tích hợp thông tin đa phương tiện . 5

1.3. Giới thiệu về Smart Meeting Room (SMR) . 5

Chương 2 BÀI TOÁN GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 7

2.1. Giới thiệu bài toán . 7

2.2. Phát biểu bài toán . 9

2.3. Độ đo đánh giá . 10

2.4. Các hướng tiếp cận giải quyết bài toán . 11

2.4.1. Bài toán phân đoạn theo người nói . 11

2.4.2. Bài toán phân nhóm theo người nói. 13

2.4.3. Hướng tiếp cận phổ biến trong môi trường SMR . 14

2.5. Phương pháp phân nhóm nhanh cải tiến (Fast Clustering) . 15

Chương 3 HỆ THỐNG GHI NHẬT KÝ NGưỜI NÓI CHO DỮ LIỆU HỘI NGHỊ . 17

3.1. Mô hình hệ thống xử lý đa kênh . 17

3.2. Mô hình hệ thống xử lý nhanh . 19

3.3. Các kĩ thuật tiền xử lý . 21

3.3.1. Kỹ thuật lọc nhiễu . 21

3.3.2. Kỹ thuật tính TDOA . 23

3.3.3. Đặc trưng ngữ âm . 24

3.4. Mô hình ngữ âm . 27

3.4.1. Mô hình Markov ẩn (HMM) . 27

3.4.2. Mô hình Gaussian Mixture Model (GMM) . 28

3.5. Kỹ thuật phát hiện tiếng nói (Voice Activity Detection) . 29

3.6. Kỹ thuật phân đoạn theo người nói . 31

3.6.1. Phân đoạn dựa trên đặc trưng . 31

3.6.1.1. Phân đoạn dựa trên mức năng lượng . 31

3.6.1.2. Phân đoạn dựa trên thông tin TDOA . 32

3.6.2. Phân đoạn dựa trên mô hình . 32

3.6.3. Phân đoạn dựa trên độ đo khoảng cách . 33

3.7. Kỹ thuật phân nhóm theo người nói . 34

3.7.1. Phân nhóm lượng hoá vector . 34

3.7.2. Phân nhóm tích tụ . 34

3.8. Kỹ thuật post-processing . 37

3.9. Các kỹ thuật được sử dụng trong Hệ thống xử lý nhanh . 37

3.9.1. Kỹ thuật tính TDOA theo GCC-PHAT . 37

3.9.2. Kỹ thuật phát hiện tiếng nói theo AMR1-VAD . 38

3.9.3. Lượng giá TDOA . 39

3.9.4. Chuẩn hoá TDOA . 41

3.9.5. Kỹ thuật phân nhóm nhanh Fast Clustering . 42

Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ . 45

4.1. Dữ liệu thực nghiệm . 45

4.2. Độ đo đánh giá . 46

4.3. Các kĩ thuật áp dụng và tham số . 47

4.3.1. Kĩ thuật lọc nhiễu . 47

4.3.2. Kĩ thuật tính TDOA . 47

4.3.3. Đặc trưng ngữ âm cho Hệ thống xử lý đa kênh . 48

4.3.4. Kỹ thuật phát hiện tiếng nói (VAD) . 48

4.3.5. Phương pháp phân đoạn và phân nhóm theo người nói . 50

4.3.6. Kỹ thuật post-processing . 51

4.4. Kết quả thực nghiệm và thảo luận . 51

4.4.1. Kết quả thực nghiệm cho Hệ thống xử lý đa kênh . 51

4.4.2. Kết quả thực nghiệm cho Hệ thống xử lý nhanh . 53

4.4.3. So sánh phương pháp Fast Clustering với các phương pháp Phân đoạn và

Phân nhóm khác . 60

4.5. Kết luận và hướng phát triển . 62

TÀI LIỆU THAM KHẢO . 65

pdf3 trang | Chia sẻ: maiphuongdc | Lượt xem: 1582 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Luận văn Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
1 MỞ ĐẦU Sự tiến bộ không ngừng của lĩnh vực công nghệ số cùng với công nghệ máy tính đã đem lại cho con người một cuộc sống nhiều ý nghĩa hơn và cũng nhiều tri thức hơn. Với những thiết bị tiên tiến, ngày nay người ta dễ dàng lưu trữ và chia sẻ những dữ liệu âm thanh trong rất nhiều lĩnh vực như bản tin thời sự, bản tin quảng cáo, các mẫu đối thoại hằng ngày, các cuộc hội nghị... Trong số đó, lĩnh vực hội nghị đang ngày càng được các nhà khoa học quan tâm nghiên cứu bởi những thành tựu thu được có thể mở ra nhiều ứng dụng to lớn cho các cá nhân, tổ chức, doanh nghiệp và cho cả chính phủ. Smart Meeting Room là thuật ngữ dùng để mô tả những thiết kế tiên tiến áp dụng trong lĩnh vực hội nghị. Smart Meeting Room là những phòng họp trong đó các thiết bị tương tác người dùng được lắp đặt và bố trí sao cho người nói và người nghe có thể phát huy tối đa năng lực của cuộc họp. Bên cạnh đó, các hệ thống hỗ trợ cho Smart Meeting Room có thể giúp ghi lại hay theo vết, nhận dạng những hoạt động và trạng thái của những người tham gia. Hiện nay các hệ thống xử lý tiếng nói liên quan đến lĩnh vực hội nghị bao gồm: Nhận dạng tiếng nói (Speech-to-text), Ghi nhật ký người nói (Speaker Diarization), Nhận dạng tiếng nói theo người nói (Speaker Attributed Speech-to-Text, là kết hợp của Ghi nhật ký người nói và Nhận dạng tiếng nói). Trong đó, Ghi nhật ký người nói là kỹ thuật chỉ mới được phát triển trong vài năm trở lại đây nhưng hứa hẹn mở ra nhiều thành tựu to lớn và do đó sẽ được tập trung nghiên cứu trong khuôn khổ luận văn này. Ghi nhật ký người nói là quá trình chia âm thanh thành các phân đoạn và gán nhãn theo định danh người nói cụ thể. Đầu ra của quá trình này sẽ là đầu vào cho bộ nhận dạng tiếng nói, từ đó chúng ta có thể xây dựng những ứng dụng như ghi nhật ký cuộc họp tự động hay tường thuật trực tiếp một trận đấu bóng đá. Xa hơn nữa, những dữ liệu (gồm âm thanh và văn bản) thu được từ các cuộc họp sẽ tạo thành kho dữ liệu quý giá cho các tác vụ truy vấn thông tin và tri thức trong tương lai. 2 Với mục tiêu nghiên cứu về một số kỹ thuật xử lý âm thanh trong môi trường Smart Meeting Room, luận văn đã tiến hành nghiên cứu đề tài “Ghi nhật ký người nói cho dữ liệu hội nghị và ứng dụng trong môi trường Smart Meeting Room”. Cụ thể là: 1) Luận văn nghiên cứu các kỹ thuật phổ biến hiện nay cho việc Ghi nhật ký người nói cho dữ liệu hội nghị, 2) Luận văn nghiên cứu và trình bày một phương pháp phân nhóm cải tiến cho hệ thống Ghi nhật ký người nói, cho phép phân nhóm nhanh với độ chính xác tương đương những phương pháp phổ biến hiện nay nhưng chi phí tính toán rất thấp, có thể triển khai ở mức độ thời gian thực, 3) Hiện thực hóa hệ thống Ghi nhật ký người nói. Cấu trúc luận văn được tổ chức như sau:  Chương 1 – Giới thiệu về Smart Meeting Room - Lý do nghiên cứu về lĩnh vực hội nghị và những thách thức của việc xử lý tiếng nói trong lĩnh vực này. - Giới thiệu về Smart Meeting Room và những hệ thống xử lý tiếng nói liên quan.  Chương 2 – Phát biểu bài toán Ghi nhật ký người nói cho dữ liệu hội nghị - Giới thiệu bài toán Ghi nhật ký người nói cho dữ liệu hội nghị, sự cần thiết phải giải quyết bài toán và khảo sát các hướng tiếp cận phổ biến để giải quyết bài toán. - Định nghĩa hai tác vụ chính của bài toán: Phân đoạn và Phân nhóm. - Trình bày ý tưởng của phương pháp phân nhóm nhanh (Fast Clustering) cải tiến, nhằm đưa ra một giải pháp hiệu quả và nhanh chóng cho bài toán Ghi nhật ký người nói.  Chương 3 – Hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị - Trình bày hai mô hình hệ thống Ghi nhật ký người nói cho dữ liệu hội nghị mà luận văn xây dựng: mô hình xử lý đa kênh (mô hình nền – đây là mô hình phổ biến hiện nay) và mô hình xử lý nhanh (mô hình trực tuyến – đây là mô hình cải tiến của luận văn). 3 - Các kĩ thuật quan trọng đóng vai trò then chốt cho hệ thống Ghi nhật ký người nói: phát hiện tiếng nói (Voice Activity Detection), lượng giá TDOA (Time Delay Of Arrival), chuẩn hoá TDOA. Phần này sẽ trình bày chi tiết về phương pháp cải tiến Fast Clustering.  Chương 4 – Kết quả thực nghiệm và đánh giá: trong chương này, luận văn vận dụng hai hệ thống Ghi nhật ký người nói đã xây dựng để thực hiện các thực nghiệm và đánh giá, bao gồm: - Thử nghiệm hai hệ thống xây dựng trên các bộ dữ liệu khác nhau. - Thử nghiệm thời gian chạy của hệ thống cải tiến. - So sánh hiệu quả của hệ thống cải tiến và các hệ thống phổ biến khác. Kết luận và hướng phát triển: trình bày các ý tổng kết cho luận văn và hướng phát triển trong tương lai.

Các file đính kèm theo tài liệu này:

  • pdf4.pdf
  • pdf0_2.pdf
  • pdf1_2.pdf
  • pdf2_2.pdf
  • pdf3.pdf
  • pdf5_2.pdf
  • pdf6_4.pdf
  • pdf7.pdf
  • pdf8.pdf
  • pdf9.pdf
  • pdf10_3.pdf
  • pdf11.pdf