Luận văn Nghiên cứu xây dựng hệ tổng hợp tiếng Việt trên điện thoại di động

MỤC LỤC

DANH MỤC CÁC BẢNG . iv

DANH MỤC CÁC HÌNH VẼ. v

TÓM TẮT . 1

CHưƠNG 1. GIỚI THIỆU . 3

1.1. Nhu cầu và lý do . 3

1.2. Mục tiêu . 4

1.3. Các hướng nghiên cứu liên quan . 4

1.4. Nội dung . 5

CHưƠNG 2. TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI . 7

2.1. Khái niệm . 7

2.2. Phân tích văn bản tiếng Việt . 8

2.2.1. Chuẩn hóa văn bản: . 8

2.2.2. Phân tích cách phát âm . 9

2.2.3. Ngôn điệu . 10

2.3. Tổng hợp tiếng nói . 11

2.3.1. Tổng hợp ghép nối (Concatenative) . 12

2.3.2. Tổng hợp formant (cộng hưởng tần số): . 14

2.3.3. Tổng hợp mô phỏng phát âm (Articulatory): . 15

2.3.4. Tổng hợp lai: . 16

2.3.5. Tổng hợp dựa trên mô hình Markov ẩn: . 16

CHưƠNG 3. TỔNG HỢP TIẾNG NÓI TRÊN WINDOWS . 17

3.1. Giới thiệu . 17

3.2. Windows Mobile SDK . 18

3.3. .NET Compact Framework . 23

3.4. Phát âm thanh trên windows mobile . 25

3.5. Vấn đề lưu trữ và xử lý trên thiết bị di động . 25

3.6. Vấn đề tổ chức và nén dữ liệu . 26

3.7. Phương pháp tổng hợp ghép nối chọn đơn vị . 30

CHưƠNG 4. MÁY CHUYỂN ĐỔI TRẠNG THÁI HỮU HẠN . 32

4.1. Giới thiệu . 32

4.1.1. Tổng quan về máy trạng thái hữu hạn (FSM) . 32

4.1.2. Máy trạng thái hữu hạn chấp nhận (A-FSM) và Máy chuyển đổi trạng thái

hữu hạn (FST). 34

4.1.3. Máy chuyển đổi trạng thái hữu hạn có trọng số (WFST). 36

4.2. Các định nghĩa . 37

4.2.1. Máy chuyển đổi chuỗi sang trọng số . 37

4.2.2. Máy chuyển đổi trạng thái hữu hạn có trọng số (WFST). 39

4.3. Thuật toán Determinization của máy chuyển đổi trạng thái hữu hạn có trọng số. 40

4.4. Máy chuyển đổi khả quyết (Determinizable Transducers) . 43

4.5. Xét tính khả quyết (Test of Determinizability) . 44

4.6. Thuật toán Minimization . 45

4.7. Thuật toán Compose . 49

CHưƠNG 5. THỰC NGHIỆM . 51

5.1. Đánh giá hệ thống tổng hợp tiếng nói . 51

5.2. Hệ thống nền (Baseline system) . 52

5.2.1. Bộ dữ liệu âm thanh . 53

5.2.2. Kết quả thực nghiệm . 53

5.3. Hệ thống cải tiến . 55

5.3.1. Bộ dữ liệu âm thanh . 55

5.3.2. Xác định khoảng lặng giữa các đơn vị âm thanh . 56

5.3.3. Kết hợp hệ thống tổng hợp tiếng nói và máy chuyển đổi trạng thái hữu hạn. 62

5.3.4. Kết quả thực nghiệm . 63

5.3.5. Nhận xét . 65

CHưƠNG 6. KẾT LUẬN . 66

6.1. Kết quả đạt được . 66

6.2. Hướng phát triển . 66

6.3. Kết luận . 67

TÀI LIỆU THAM KHẢO . 68

pdf4 trang | Chia sẻ: maiphuongdc | Lượt xem: 1912 | Lượt tải: 5download
Bạn đang xem nội dung tài liệu Luận văn Nghiên cứu xây dựng hệ tổng hợp tiếng Việt trên điện thoại di động, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
3 CHƢƠNG 1. GIỚI THIỆU 1.1. Nhu cầu và lý do Tổng hợp tiếng nói là lĩnh vực đƣợc rất nhiều nhóm nghiên cứu quan tâm, vì nó có rất nhiều ứng dụng trong thực tế, nhƣ các hệ thống trả lời tự động, đọc nội dung văn bản, máy phiên dịch, … tuy nhiên tổng hợp tiếng nói cho tiếng Việt còn rất nhiều hƣớng nghiên cứu, đặc biệt là trên thiết bị di động nhƣ điện thoại thông minh, các ứng dụng còn rất hạn chế. Cùng với sự phát triển của Khoa học kỹ thuật, các điện thoại thông minh (smart phone) ngày nay có cấu hình mạnh (tốc độ xử lý) và bộ nhớ lớn, có thể chạy đƣợc các ứng dụng yêu cầu cao về xử lý và bộ nhớ. Các dịch vụ nội dung số cũng phát triển mạnh mẽ cùng với sự phát triển của các điện thoại thông minh và cƣớc phí viễn thông ngày càng rẻ, băng thông ngày càng cao. Vì vậy các ứng dụng tiện ích chạy trên điện thoại di động đƣợc rất nhiều ngƣời quan tâm. Trong đó, các ứng dụng tổng hợp tiếng nói là một lĩnh vực khó, đƣợc nhiều nhóm nghiên cứu quan tâm. Đối với đa số ngƣời dùng điện thoại, nhắn tin là một tiện ích không thể thiếu, nó rất tiện lợi trong việc truyền đạt thông tin một cách rõ ràng và ngƣời đọc cũng ít bị ảnh hƣởng. Tuy nhiên với một số ngƣời mắt kém (đặc biệt là ngƣời già), việc đọc các tin nhắn rất khó khăn vì chữ trên điện thoại thƣờng rất nhỏ. Nếu có phần mềm đọc tin nhắn văn bản thành lời sẽ rất tiện cho những ngƣời này. Kỹ thuật tổng hợp tiếng nói trên điện thoại di động cũng sẽ có nhiều ứng dụng bổ ích cho một số mục đích nhƣ: đọc nội dung trang web, đọc nội dung một file văn bản, … Tuy nhiên viết ứng dụng trên điện thoại di động sẽ gặp phải những khó khăn so với lập trình trên máy tính để bàn nhƣ: tốc độ xử lý, 4 bộ nhớ thấp hơn, hệ điều hành đi động hỗ trợ lập trình kém hơn (thƣ viện lập trình hạn chế, giao diện hạn chế, …) 1.2. Mục tiêu Đề xuất giải pháp xây dựng hệ tổng hợp tiếng nói tiếng Việt trên thiết bị di động dùng hệ điều hành Windows mobile. Đồng thời xây dựng phần mềm đọc tin nhắn văn bản tiếng Việt (có dấu) làm thực nghiệm cho giải pháp này. Thực nghiệm thực hiện trên hai phƣơng pháp, dùng hệ thống nền (khoảng lặng cố định) và hệ thống cải tiến (khoảng lặng thay đổi dựa vào máy chuyển đổi trạng thái hữu hạn có trọng số) 1.3. Các hƣớng nghiên cứu liên quan Ở trong nƣớc, các nghiên cứu về tổng hợp tiếng nói cho tiếng Việt chủ yếu đƣợc tiến hành theo hai phƣơng pháp tổng hợp ghép nối và tổng hợp formant. Đã có một số nghiên cứu và sản phẩm tổng hợp tiếng nói cho tiếng Việt trên cơ sở ghép nối cho tiếng Việt, trong đó đơn vị ngữ âm cơ sở là âm tiết đƣợc chọn lựa nhiều nhất. Một số nhóm nghiên cứu điển hình: Nhóm của TS. Vũ Hải Quân thuộc phòng thí nghiệm trí tuệ nhân tạo (AiLab) của Khoa Công Nghệ Thông tin trƣờng Đại học Khoa Học tự Nhiên TP. Hồ Chí Minh đã áp dụng khá thành công phƣơng pháp chọn đơn vị với tập dữ liệu âm thanh khá lớn, trang web thử nghiệm của nhóm: Nhóm của Phạm Thanh Nam, với phần mềm “Tiếng nói Việt Nam”, Nhóm của Lƣơng Chi Mai, thuộc Phòng Công nghệ phần mềm, Viện Ứng dụng Công nghệ - Bộ Khoa học và Công nghệ, Website: 5 Các hệ thống tổng hợp tiếng nói cho tiếng Việt thƣờng sử dụng công nghệ TD-PSOLA để làm trơn điểm ghép nối và biến đổi các tham số cao độ và trƣờng độ. Tƣơng tự nhƣ vậy, cũng đã có một số nghiên cứu cũng nhƣ sản phẩm tổng hợp tiếng nói cho tiếng Việt theo phƣơng pháp formant (cộng hƣởng tần số). Tuy nhiên thực nghiệm cho thấy chất lƣợng tiếng nói tổng hợp theo phƣơng pháp này còn rất hạn chế. Một số nhóm nghiên cứu điển hình: Lê Hồng Minh, Hệ thống vnspeech, website: Lê Hồng Minh, Tổng hợp formant âm tiết tiếng Việt, Tạp chí Bƣu chính Viễn thông. Văn Ngọc An, Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA, ĐH Bách Khoa Hà Nội [1] Hƣớng tiếp cận của đề tài này là dùng máy chuyển đổi trạng thái hữu hạn có trọng số để xác định khoảng lặng giữa các đơn vị âm thanh dùng phƣơng pháp ghép nối. 1.4. Nội dung Phần nội dung chính của đề tài gồm một số chƣơng sau: Chƣơng 2: Tổng quan về tổng hợp tiếng nói Giới thiệu tổng quan về một hệ thống tổng hợp tiếng nói từ văn bản. Chƣơng 3: Tổng hợp tiếng nói trên windows mobile Giới thiệu môi trƣờng và các vấn đề cần giải quyết để xây dựng ứng dụng tổng hợp tiếng nói trên môi trƣờng di động, mà cụ thể là trên Windows mobile. Chƣơng 4: Máy chuyển đổi trạng thái hữu hạn 6 Giới thiệu tổng quan về máy chuyển đổi trạng thái hữu hạn (Finite State Transducer - FST), các thuật toán tối ƣu trên FST. Một dạng của FST áp dụng trong luận văn này là máy chuyển đổi trạng thái hữu hạn có trọng số (Weighted Finite State Transducer - WFST) Chƣơng 5: Thực nghiệm Thực nghiệm đƣợc thực hiện trên hia phƣơng pháp: hệ thống nền (ghép nối với khoảng lặng có định) và hệ thống cải tiến (ghép nối với khoảng lặng thay đổi) và so sánh kết quả đánh giá giữa hai phƣơng pháp. Chƣơng 6: Kết luận Kết quả đạt đƣợc và hƣớng phát triển

Các file đính kèm theo tài liệu này:

  • pdf5_2.pdf
  • pdf0_2.pdf
  • pdf1_2.pdf
  • pdf2_2.pdf
  • pdf3.pdf
  • pdf4.pdf
  • pdf6_4.pdf
  • pdf7.pdf
  • pdf8.pdf
  • pdf9.pdf
  • pdf10_3.pdf
  • pdf11.pdf
Tài liệu liên quan