Luận văn Xác định khoảng ngừng giữa các âm tiết, cường độ và trường độ của âm tiết cho bộ phát âm tiếng Việt

MỤC LỤC

Trang

LỜI CẢM ƠN.1

MỤC LỤC.2

DANH MỤC CÁC BẢNG .5

DANH MỤC CÁC HÌNH VẼ, ĐỒTHỊ.6

MỞ ĐẦU .8

Chương 1 - GIỚI THIỆU.11

1.1 TỔNG HỢP TIẾNG NÓI NHÂN TẠO.11

1.1.1 Kiến trúc của một hệthống tổng hợp tiếng nói.11

1.1.2 Xửlý ngôn ngữtựnhiên .12

1.1.3 Ngữ điệu trong tiếng nói tổng hợp .12

1.1.4 Xửlý tổng hợp tín hiệu tiếng nói .14

1.2 MỘT VÀI ĐẶC ĐIỂM CỦA TIẾNG VIỆT, NGỮÂM, NGỮ ĐIỆU.14

1.2.1 Một vài đặc điểm của tiếng Việt .14

1.2.2 Ngữâm tiếng Việt .15

1.2.3 Ngữ điệu trong tiếng Việt .17

1.3 NHỮNG KHÓ KHĂN TRONG TỔNG HỢP TIẾNG NÓI.19

1.4 XÁC ĐỊNH PHẠM VI ĐỀTÀI .20

Chương 2 - CÁC CÔNG TRÌNH LIÊN QUAN.21

2.1 CÁC HƯỚNG TIẾP CẬN LIÊN QUAN ĐẾN XỬLÝ NGỮ ĐIỆU .21

2.1.1 Các mô hình xửlý trường độ.21

2.1.1.1 Mô hình luật Klatt .21

2.1.1.2 Mô hình Sums-of-Products .22

2.1.1.3 Mô hình cây phân lớp và hồi quy (CART) .23

2.1.1.4 Mô hình mạng Nơ-ron: .23

2.1.2 Các mô hình biểu diễn tần sốcơbản .24

2.1.2.1 Mô hình ToBI (Tone and Break Indices).24

2.1.2.2 Mô hình Tilt .25

2.1.2.3 Mô hình INTSINT (INTernational Transcription System for INTonation).25

2.1.2.4 Mô hình Fujisaki .25

2.2 CÁC HƯỚNG TIẾP CẬN TỔNG HỢP TÍN HIỆU TIẾNG NÓI .26

2.3 NHẬN XÉT VỀCÁC HƯỚNG TIẾP CẬN .29

Chương 3 - MÔ HÌNH MẠNG NƠ-RON XÁC ĐỊNH CÁC THÔNG SỐ

NGỮ ĐIỆU CHO CÁC ÂM TIẾT TIẾNG VIỆT.30

3.1 SƠLƯỢC VỀMẠNG NƠ-RON .30

3.1.1 Cấu trúc của một nơ-ron nhân tạo.30

3.1.2 Kiến trúc mạng nơ-ron .32

3.1.3 Huấn luyện mạng nơ-ron .33

3.2 XÁC ĐỊNH CÁC THÔNG SỐNGỮ ĐIỆU CHO BỘPHÁT ÂM TIẾNG

VIỆT BẰNG MẠNG NƠ-RON .34

3.2.1 Vector mô tả đặc trưng âm tiết trong ngữcảnh câu.34

3.2.2 Dữliệu huấn luyện .38

3.2.3 Cấu trúc các mạng nơ-ron .41

3.2.4 Cài đặt và huấn luyện các mạng nơ-ron.41

Chương 4 - XÂY DỰNG BỘPHÁT ÂM TIẾNG VIỆT .42

4.1 CẤU TRÚC VÀ QUY TRÌNH XỬLÝ CỦA BỘPHÁT ÂM.42

4.2 MÔ TẢCÁC XỬLÝ .43

4.2.1 THÀNH PHẦN XỬLÝ NGÔN NGỮTỰNHIÊN .44

4.2.1.1 Tiền xửlý văn bản.44

4.2.1.2 Chuyển văn bản thành các âm tiết cần đọc .45

4.2.1.3 Phân tích các đặc trưng của âm tiết trong câu.45

4.2.1.4 Xửlý xác định các thông sốngữ điệu cho các âm tiết.46

4.2.2 THÀNH PHẦN XỬLÝ TỔNG HỢP TÍN HIỆU TIẾNG NÓI .47

4.2.2.1 Dữliệu các âm tiết .47

4.2.2.2 Biến đổi ngữ điệu của âm tiết .47

4.2.2.3 Tổng hợp tiếng nói .48

4.3 MINH HỌA QUÁ TRÌNH XỬLÝ PHÁT ÂM .49

Chương 5 - THỬNGHIỆM VÀ KẾT QUẢ.54

5.1 THỬNGHIỆM .54

5.2 KẾT QUẢ.60

5.2.1 ĐỘCHÍNH XÁC .60

5.2.2 MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC THUỘC TÍNH ĐẶC TRƯNG ÂM

TIẾT TRONG CÂU ĐỐI VỚI KẾT QUẢ ĐẦU RA.68

5.2.3 CHẤT LƯỢNG TIẾNG NÓI TỔNG HỢP .72

5.3 NHẬN XÉT .72

5.4 MỘT SỐKẾT QUẢTIÊU BIỂU.73

Chương 6 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .76

6.1 KẾT LUẬN .76

6.2 HƯỚNG PHÁT TRIỂN.77

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ.79

TÀI LIỆU THAM KHẢO .80

PHỤLỤC .85

Phụlục 1: TỪ ĐIỂN TỪVIẾT TẮT DÙNG TRONG XỬLÝ TÁCH CÂU .85

Phụlục 2: SỬDỤNG BỘPHÁT ÂM.86

Phụlục 3: CHƯƠNG TRÌNH MINH HỌA .89

Phụlục 4: YÊU CẦU CẤU HÌNH HỆTHỐNG .90

pdf3 trang | Chia sẻ: maiphuongdc | Lượt xem: 1842 | Lượt tải: 5download
Bạn đang xem nội dung tài liệu Luận văn Xác định khoảng ngừng giữa các âm tiết, cường độ và trường độ của âm tiết cho bộ phát âm tiếng Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
8 MỞ ĐẦU Tổng hợp tiếng nói nhân tạo là một nhu cầu rất cần thiết trong nhiều lĩnh vực ứng dụng như: các hệ thống giao tiếp người-máy (máy đáp ứng bằng tiếng nói), các hệ thống hỗ trợ tra cứu thông tin qua điện thoại, các hệ thống ứng dụng cho người khiếm thị, các hệ thống thông báo tự động, phần mềm dạy ngoại ngữ… Hiện nay, điểm hạn chế chủ yếu trong lĩnh vực tổng hợp tiếng nói nhân tạo là vấn đề xử lý ngữ điệu. Ngữ điệu trong tiếng nói tự nhiên có sự biến đổi lên xuống của giọng nói, các khoảng ngừng nghỉ giữa các ý, các từ có ý nghĩa quan trọng trong câu được nhấn mạnh hơn giúp cho người nghe dễ dàng hiểu được thông điệp. Ngữ điệu trong tổng hợp tiếng nói nhân tạo thường có chất lượng không cao, tiếng nói phát ra không được rõ ràng, đơn điệu nên thường gây nhàm chán và khó khăn cho người nghe trong việc lĩnh hội. Vì vậy, ngữ điệu là yếu tố đặc biệt quan trọng quyết định chất lượng của tiếng nói tổng hợp. Hiện nay trên thế giới việc tổng hợp tiếng nói đã đạt được những tiến bộ đáng kể ở một số thứ tiếng như Anh, Pháp, Tây Ban Nha, Quan Thoại (Trung Quốc), Nhật… với chất lượng khá cao và được ứng dụng rộng rãi. Đối với tiếng Việt, chất lượng ngữ điệu của tiếng nói tổng hợp vẫn còn nhiều hạn chế nên việc ứng dụng còn rất giới hạn. Khi xử lý ngữ điệu, khó khăn lớn nhất là trong văn bản viết hầu như không chứa các thông tin ngữ điệu một cách chặt chẽ rõ ràng, người đọc phải dựa vào các kiến thức ngữ pháp, ngữ nghĩa và kinh nghiệm trong thế giới thực để hiểu văn bản rồi từ đó xây dựng các thông tin ngữ điệu để đọc văn bản. Đối với máy tính, để “hiểu” được văn bản ở mức độ này vẫn còn là một thách thức và trở ngại rất lớn. Do đó chúng ta chỉ có thể tạm thời bằng lòng với các giải pháp cho kết quả tương đối gần đúng có thể chấp nhận được. 9 Với mục đích xây dựng một bộ phát âm tiếng Việt có chất lượng ngữ điệu tự nhiên hơn, tác giả nghiên cứu áp dụng mô hình xác định các thông số ngữ điệu theo hướng tiếp cận học từ ngữ liệu tiếng nói tự nhiên bằng các mạng nơ-ron. Dựa trên các thành quả xử lý ngôn ngữ tự nhiên cho tiếng Việt đã có, tác giả sử dụng các tri thức ngôn ngữ gồm: ranh giới từ, từ loại, loại câu và các thành phần cấu thành nên hình vị âm tiết gồm: phụ âm đầu, bán nguyên âm đầu, nguyên âm chính, dấu thanh và phụ âm hoặc bán nguyên âm cuối; để xây dựng vector đặc trưng cho các âm tiết trong ngữ cảnh câu. Với vector đặc trưng âm tiết này, các mạng nơ-ron được huấn luyện và cho phép xác định các thông số ngữ điệu gồm: cường độ, trường độ và khoảng ngừng của các âm tiết trong câu nói. Kết hợp với bộ tổng hợp tín hiệu tiếng nói tiếng Việt dựa trên tiếp cận ghép nối các âm tiết được điều chỉnh ngữ điệu tự động theo các thông số ngữ điệu từ mô hình trên. Tác giả đã xây dựng được một bộ phát âm tiếng Việt có ngữ điệu khá nhịp nhàng tự nhiên và có thể ứng dụng được trong thực tế. Phần tiếp theo của luận văn được trình bày gồm 6 chương như sau: Chương 1: GIỚI THIỆU Chương 2: CÁC CÔNG TRÌNH LIÊN QUAN Chương 3: MÔ HÌNH MẠNG NƠ-RON XÁC ĐỊNH CÁC THÔNG SỐ NGỮ ĐIỆU CHO CÁC ÂM TIẾT TIẾNG VIỆT Chương 4: XÂY DỰNG BỘ PHÁT ÂM TIẾNG VIỆT Chương 5: THỬ NGHIỆM VÀ KẾT QUẢ Chương 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 10 Chương 1: Giới thiệu tổng quan về bài toán tổng hợp tiếng nói nhân tạo; một vài đặc điểm và ngữ âm, ngữ điệu của tiếng Việt; những vấn đề khó khăn trong tổng hợp tiếng nói và xác định phạm vi nghiên cứu của đề tài. Chương 2: Trình bày các nghiên cứu tiếp cận liên quan đến vấn đề xử lý ngữ điệu, tổng hợp tín hiệu tiếng nói. Chương 3: Trình bày hướng tiếp cận sử dụng mô hình mạng nơ-ron để xác định các thông số ngữ điệu cho các âm tiết tiếng Việt khi tổng hợp thành câu nói. Chương 4: Mô tả việc xây dựng bộ phát âm tiếng Việt dựa trên tổng hợp ghép nối âm tiết, sử dụng mô hình xác định ngữ điệu ở chương 3. Chương 5: Trình bày các thử nghiệm và kết quả Chương 6: Trình bày đánh giá kết luận và hướng nghiên cứu phát triển để hoàn thiện bộ phát âm.

Các file đính kèm theo tài liệu này:

  • pdf4_2.pdf
  • pdf0.pdf
  • pdf1.pdf
  • pdf2_2.pdf
  • pdf3.pdf
  • pdf5.pdf
  • pdf6.pdf
  • pdf7.pdf
  • pdf8.pdf
  • pdf9.pdf
  • pdf10.pdf
  • pdf11.pdf
  • pdf12.pdf
  • pdf13.pdf