Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm - Phạm Ngọc Hưng

MỤC LỤC . 4

GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT. 7

DANH MỤC CÁC BẢNG. 10

DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ . 12

MỞ ĐẦU . 14

1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ

1.1. Nhận dạng tiếng nói. 18

1.1.1. Tổng quan về nhận dạng tiếng nói . 18

1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói. 19

1.1.3. Các thách thức đối với nhận dạng tự động tiếng nói. 20

1.1.4. Phân loại hệ thống nhận dạng tự động tiếng nói . 21

1.2. Nhận dạng phương ngữ. 23

1.2.1. Các mô hình nhận dạng phương ngữ. 23

1.2.2. Nhận dạng phương ngữ theo các phương diện khác nhau. 24

1.3. Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt . 29

1.4. Một số mô hình nhận dạng . 30

1.4.1. Mô hình GMM . 30

1.4.2. Bộ phân lớp SVM. 32

1.4.3. Mạng nơ ron nhận tạo. 38

1.5. Kết chương. 54

2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ

TIẾNG VIỆT . 56

2.1. Tổng quan phương ngữ tiếng Việt. 56

2.1.1. Phương ngữ và phân vùng phương ngữ tiếng Việt. 56

2.1.2. Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt . 57

2.1.3. Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 58

2.2. Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt . 60

2.2.1. Âm tiết và âm vị trong tiếng Việt. 60

2.2.2. Âm đệm và cách kết hợp âm đệm trong các phương ngữ . 645

2.3. Phụ âm đầu trong phương ngữ tiếng Việt. 65

2.3.1. Hệ thống phụ âm đầu. 65

2.3.2. So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam . 67

2.4. Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt . 67

2.4.1. Hệ thống thanh điệu Hà Nội. 68

2.4.2. Hệ thống thanh điệu Nghệ - Tĩnh và Huế. 68

2.4.3. Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh. 69

2.4.4. Một số nhận xét về hệ thống thanh điệu các phương ngữ . 70

2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói . 71

2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng

phương ngữ tiếng Việt. 71

2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt . 72

2.6.2. Chuẩn bị và chuẩn hóa văn bản. 73

2.6.3. Ghi âm . 75

2.6.4. Kết quả ghi âm và đặc tính VDSPEC. 78

2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC . 79

2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ. 79

2.7.2. Phân tích thống kê phân bố F0 của các thanh điệu. 81

2.7.3. Phân tích dữ liệu dùng LDA. 83

2.8. Kết chương. 87

3. NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT . 89

3.1. Nhận dạng phương ngữ tiếng Việt với GMM . 89

3.1.1. Công cụ thử nghiệm nhận dạng phương ngữ ALIZE. 89

3.1.2. Lựa chọn số lượng hệ số MFCC. 91

3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp

MFCC với tham số F0. 92

3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp

formant, dải thông tương ứng và tham số F0 . 95

3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng

phương ngữ tiếng Việt. 96

3.2. SVM nhận dạng phương ngữ tiếng Việt. 98

3.2.1. Bộ phân lớp SMO. 986

3.2.2. Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO . 99

3.3. lBk nhận dạng phương ngữ tiếng Việt. 103

3.3.1. Bộ phân lớp IBk . 103

3.3.2. Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk . 106

3.4. Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron . 107

3.4.1. Bộ phân lớp MultilayerPerceptron trong Weka . 107

3.4.2. MultilayerPerceptron nhận dạng phương ngữ tiếng Việt . 107

3.5. JRip nhận dạng phương ngữ tiếng Việt . 108

3.5.1. Bộ phân lớp JRip . 108

3.5.2. Nhận dạng phương ngữ tiếng Việt với JRip. 109

3.6. Nhận dạng phương ngữ tiếng Việt với PART . 110

3.6.1. Bộ phân lớp PART . 110

3.6.2. Kết quả dùng PART nhận dạng phương ngữ tiếng Việt . 110

3.7. Kết chương. 110

4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ

PHƯƠNG NGỮ . 112

4.1. HMM nhận dạng tiếng Việt nói. 112

4.1.1. Mô hình HMM . 112

4.1.2. HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính. 125

4.2. Cải thiện hiệu năng nhận dạng tiếng Việt nói thông qua sử dụng thông tin phương

ngữ 130

4.2.1. Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông tin phương ngữ 130

4.2.2. Nhận dạng tiếng Việt nói khi có thông tin phương ngữ . 132

4.3. Kết chương. 133

KẾT LUẬN VÀ KIẾN NGHỊ. 134

TÀI LIỆU THAM KHẢO . 137

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN. 149

150 trang | Chia sẻ: trungkhoi17 | Lượt xem: 766 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm - Phạm Ngọc Hưng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

hi kết thúc làm cho âm điệu bị chúc xuống ở đoạn cuối. 2.4.3. Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh Hệ thống thanh điệu của các tỉnh này cơ bản giống nhau và có thể tiêu biểu cho thanh điệu PNN. Hình 2.5 biểu thị hệ thống thanh điệu Nà Nội, Huế và TP Hồ Chí Minh [2]. Hệ thống thanh điệu các tỉnh này có điểm tương đồng với thanh điệu của PNB ở chỗ có sự lưỡng phân rõ ràng về âm vực: thanh ngang và thanh sắc thuộc âm vực cao (trên mức trung bình lời nói) trong khi các thanh huyền và nặng lại ở âm vực thấp. Thanh hỏi và thanh ngã có hiện tượng pha lẫn với âm điệu mang tính chất trung gian giữa thanh hỏi và thanh ngã Hà Nội. Nửa đầu âm điệu thoai thoải đi xuống gần giống với thanh huyền và nặng, đến khoảng giữa thì vút lên cao như thanh ngã Hà Nội. Thanh nặng của PNN cũng khác với thanh nặng Hà Nội trong đó âm điệu hơi võng xuống ở khoảng giữa, giống với thanh hỏi Hà Nội. Ngoài hai thanh trên, các thanh khác của phương ngữ Đà Nẵng và Thành phố Hồ Chí Minh đều tương ứng với các thanh điệu Hà Nội cả về âm vực và âm điệu. 70 Thanh ngang Thanh huyền Thanh ngã Thanh hỏi Thanh sắc Thanh nặng Hình 2.5: Đồ thị hệ thống thanh điệu Hà Nội (a), Huế (b), TP Hồ Chí Minh (c) 2.4.4. Một số nhận xét về hệ thống thanh điệu các phương ngữ Mặc dù có nhiều yếu tố làm nên sự khác biệt về thanh điệu giữa các phương ngữ song vẫn có những yếu tố làm nên sự bất biến khiến cho người dân trên khắp mọi miền đất nước vẫn có thể hiểu được nhau tuy phương ngữ có sự khác biệt trong tiếng nói mà họ dùng để giao tiếp. Theo nhận xét của tác giả trong [2], yếu tố tạo nên sự bất biến đó chính là sự lưỡng phân về âm vực (trầm/bổng), âm điệu (bằng/trắc). Chính từ mối quan hệ này tạo nên các cặp thanh điệu: ngang/huyền, hỏi/ngã, sắc/nặng. Tương tự như vậy, với sự tương liên và đối lập giữa bộ bị cấu âm và phương thức cấu âm đã tạo nên các cặp phụ âm cuối: m/p, n/t, nh/ch, ng/k. Giữa các phương ngữ khác nhau có sự biến đổi bằng cách thêm, bớt các cặp nhưng quan hệ giữa các cặp vẫn không thay đổi. Trở lại với thanh điệu Đà Nẵng - TP Hồ Chí Minh, vẫn thấy được các cặp đối lập về âm vực và tương liên về âm điệu: ngang/huyền, sắc/nặng (thanh ngã ở mức trung gian). F0 400 Hz 300 Hz 200 Hz 100 Hz (a) (b) (c) 71 Hệ thống thanh điệu Nghệ Tĩnh và Huế là hệ thống thanh điệu trầm, các nét đối lập về âm vực bị mờ đi và sự đối lập về âm điệu nổi lên thay thế. Quan sát trên đồ thị hệ thống thanh điệu (Hình 2.5) có thể thấy hệ thống thanh điệu phương ngữ Hà Nội có miền âm vực trải rộng trong miền tiếng nói. Trong khi đó, âm vực phương ngữ Huế chủ yếu thuộc vùng trầm. Âm vực phương ngữ TP Hồ Chí Minh gần giống phương ngữ Huế ở điểm khởi đầu nhưng có thanh điệu được đẩy lên cao tương tự như phương ngữ Hà Nội, tạo nên sự khác biệt so với Huế đồng thời cũng có nét riêng của TP Hồ Chí Minh. 2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói Hiệu quả nhận dạng, độ chính xác của một hệ thống nhận dạng tiếng nói phụ thuộc vào rất nhiều yếu tố như người nói khác nhau, độ tuổi, giới tính của người nói, tốc độ nói, ngữ cảnh, môi trường âm học, phương ngữ. Sự tồn tại của phương ngữ trong ngôn ngữ là một thách thức lớn cho các hệ thống xử lý ngôn ngữ tự nhiên nói chung [109] cũng như trong các hệ thống nhận dạng tiếng nói. Trong cùng một lãnh thổ có cùng một ngôn ngữ nhưng ở những vùng khác nhau lại có thể tồn tại những phương ngữ khác nhau, thậm chí ngay giữa những nhóm người, làng xã sống liền kề nhau cũng có thể tồn tại phương ngữ khác nhau. Sự khác biệt giữa các phương ngữ có thể là ở ngữ âm, từ vựng, ngữ pháp,... nhưng phổ biến nhất là ngữ âm. Chính sự khác biệt này làm ảnh hưởng đến hiệu năng nhận dạng của các hệ thống nhận dạng tiếng nói. Chính vì vậy, việc nghiên cứu về phương ngữ, giải quyết vấn đề liên quan đến phương ngữ trong nhận dạng tiếng nói là rất cần thiết để giúp nâng cao chất lượng hệ thống nhận dạng tiếng nói. Nếu biết tiếng nói đang cần nhận dạng thuộc phương ngữ nào đó thì có thể điều khiển hệ thống nhận dạng có thể lựa chọn mô hình nhận dạng phù hợp cho kết quả nhận dạng tốt hơn. Để có thể thực hiện các nghiên cứu về nhận dạng tiếng nói nói chung và nhận dạng phương ngữ nói riêng, cần thiết phải có kho ngữ liệu chất lượng tốt đáp ứng yêu cầu chuyên biệt của nghiên cứu [73, 81, 145]. Nội dung tiếp trong chương này theo sẽ trình bày đặc điểm của một số bộ ngữ liệu phương ngữ trên thế giới và phương pháp cũng như kết quả xây dựng bộ ngữ liệu phương ngữ tiếng Việt. Luận án cũng sẽ tiến hành phân tích một số đặc trưng của phương ngữ tiếng Việt trên bộ ngữ liệu phương ngữ xây dựng được và trình bày ở cuối chương. 2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng phương ngữ tiếng Việt Trên thế giới đã có một số bộ ngữ liệu cho phương ngữ như tiếng Anh [17], tiếng Ả rập [50], tiếng Trung [78], tiếng Hindi [146], tiếng Thái [149], Với tiếng Anh, FRED là bộ ngữ liệu lớn bao gồm 8 phương ngữ, với 2,45 triệu từ trong khoảng 300 giờ tiếng nói. FRED chứa ngữ liệu của 420 người nói khác nhau, độ tuổi của người nói ở FRED trong khoảng từ 6 đến 120 tuổi. Bộ ngữ liệu này được xây dựng 72 trong thời gian khá dài, trên 30 năm. Bộ ngữ liệu có thể hỗ trợ cho thực hiện nghiên cứu các hiện tượng hình thái ngữ pháp phi tiêu chuẩn cùng với các phân tích chi tiết về ngữ âm, âm vị. Với tiếng Trung Quốc, có tám vùng phương ngữ chủ yếu. Trong [78], các tác giả đã xây dựng ngữ liệu cho phương ngữ Ngô (吳語), một trong tám phương ngữ tiếng Trung. Ngữ liệu này cung cấp thông tin ở 4 mức: ngữ âm, từ vựng, ngôn ngữ và âm học. Đối với tiếng Việt, đã có một số bộ ngữ liệu được xây dựng như VNSPEECHCORPUS [165], VOV (Voice of Vietnamese) Corpus [155] hoặc VNBN (United Broadcast News corpus) [172]. Nguyên tắc chung khi xây dựng một cơ sở dữ liệu tiếng nói là dữ liệu cần chứa đựng các từ và các câu thường xuyên được sử dụng [161]. Theo [161], cơ sở dữ liệu tiếng nói nên bao hàm ít nhất các mục tiêu: bao phủ về mặt ngữ nghĩa, bao phủ về mặt cú pháp, bao phủ về mặt ngôn điệu và bao phủ về mặt từ. Để đảm bảo được đồng thời các mục tiêu này là rất khó. Thông thường lựa chọn nội dung sao cho chứa đựng được tất cả các âm vị, phong phú về ngữ cảnh âm vị, đa dạng về từ vựng, ngữ pháp và ngữ nghĩa [161]. Các hệ thống nhận dạng tiếng nói thực hiện nhận dạng dựa trên hệ thống từ vựng được cung cấp trong quá trình huấn luyện. Hiệu quả hoạt động của hệ thống nhận dạng sẽ được nâng cao hơn nếu ngữ liệu được tổ chức theo các lĩnh vực chuyên biệt và được áp dụng một cách phù hợp trong các tình huống nhận dạng cụ thể. Trong nhận dạng phương ngữ, đặc biệt là phương ngữ tiếng Việt, ngữ liệu cần phải bao hàm được các đặc trưng của phương ngữ tiếng Việt, có được sự cân bằng về mặt thanh điệu và đại diện cho các phương ngữ trong phạm vi nhận dạng. Thanh điệu là một trong các yếu tố quan trọng để phân biệt phương ngữ tiếng Việt. Vì vậy, cần phải đảm bảo cân bằng thanh điệu để tránh việc xuất hiện không đồng đều của các thanh điệu đối với các phương ngữ làm cho kết quả nhận dạng phương ngữ thiếu tính khách quan. Các ngữ liệu hiện có chưa đáp ứng đồng thời các yêu cầu trên. Xuất phát từ các lý do đó, để thực hiện các nghiên cứu nhận dạng phương ngữ tiếng Việt, luận án đã tiến hành xây dựng bộ ngữ liệu tiếng Việt VDSPEC (Vietnamese Dialect Speech Corpus) đáp ứng đầy đủ các yêu cầu nêu trên dùng cho nhận dạng tiếng nói và phương ngữ tiếng Việt. Phương ngữ tiếng Việt rất phong phú. Sự khác biệt có thể xuất hiện đến từng làng xã. Tuy nhiên, trong phạm vi thời gian hạn chế, luận án chỉ tập trung nghiên cứu trên ba phương ngữ phổ biến nhất là phương ngữ Bắc, phương ngữ Trung và phương ngữ Nam. Do vậy, bộ ngữ liệu tiếng Việt VDSPEC được xây dựng cho ba phương ngữ này trong đó: phương ngữ Bắc lấy giọng Hà Nội làm đại diện, phương ngữ Trung lấy giọng Huế làm đại diện và phương ngữ Nam lấy giọng Thành phố Hồ Chí Minh làm đại diện. 2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt Việc xây dựng ngữ liệu có thể được tiến hành theo nhiều cách khác nhau như: sử dụng nguồn âm thanh có sẵn của các đài phát thanh, truyền hình, sau đó tiến hành phân loại, trích đoạn âm thanh phù hợp yêu cầu, duyệt và soạn lại văn bản tương ứng [155, 165]. 73 Cách khác là thực hiện ghi âm trong môi trường ở đó người nói được lựa chọn và nói theo các nội dung đã chuẩn bị trước. VDSPEC đã được xây dựng bằng phương pháp ghi âm trực tiếp người nói để đảm bảo tính chủ động cũng như chất lượng tiếng nói tốt. Việc xây dựng bộ ngữ liệu tiếng Việt được triển khai theo hai giai đoạn. Ở giai đoạn một, tiến hành biên soạn, thu thập và phân loại văn bản theo chủ đề; thực hiện các điều chỉnh để đảm bảo sự cân bằng thanh điệu trên văn bản chuẩn bị. Tiếp theo, ở giai đoạn hai, thực hiện ghi âm bằng thiết bị chuyên dụng trong môi trường có chọn lọc. Sau đây là các mô tả chi tiết từng giai đoạn. 2.6.2. Chuẩn bị và chuẩn hóa văn bản Dữ liệu tiếng nói được ghi âm thông qua việc người nói tiến hành đọc các văn bản đã được chuẩn bị sẵn. Văn bản này được tổ chức thành 6 chủ đề. Chủ đề thứ nhất được xây dựng với chủ định phục vụ cho các khảo sát về các biến thiên thanh điệu, tần số cơ bản giữa các phương ngữ. Do vậy, nội dung của chủ đề này chủ yếu là các phụ âm, nguyên âm, một số từ đơn được chọn lựa có sự xuất hiện của tất cả các thanh điệu. Chủ đề này được đặt tên là chủ đề Cơ bản. Năm chủ đề còn lại được thu thập từ các tài liệu được công bố trên các báo điện tử đã được phân loại theo chủ đề. Các văn bản này đều được lưu trữ theo bộ mã UTF-8 thống nhất chung trong toàn hệ thống. Văn bản gốc thường có các thông tin dư thừa như các thẻ HTML, ký hiệu, chữ viết tắt, từ nước ngoài, các con số, dữ liệu ngày tháng theo định dạng số và chữ khác nhau Để đảm bảo sự thống nhất chung, các thông tin dư thừa được loại bỏ, chuẩn hóa văn bản theo một số xử lý cụ thể như chuyển các con số thành văn bản tương ứng (ví dụ: “9000 đồng” thành “chín nghìn đồng”), ngày tháng theo định dạng số thông thường (ví dụ: “ngày 27/10” thành dạng văn bản tương ứng “ngày hai bảy tháng mười”, “năm 2003” thành “năm hai ngàn lẻ ba”); các từ viết tắt cũng được chuyển sang dạng văn bản đầy đủ tương ứng để tránh nhầm lẫn trong quá trình đọc và ghi âm (ví dụ: “tốt nghiệp ĐHMT Hà Nội” thành “tốt nghiệp Đại học Mỹ thuật Hà Nội”). Văn bản sau khi chuẩn hóa bao gồm 3984 âm tiết (không kể chủ đề cơ bản) với tổng số 1071 âm tiết không lặp lại. Bảng 2.10: Đặc tính văn bản theo chủ đề Chủ đề Số câu Số âm tiết Nguồn Cơ bản 25 349 Biên soạn Đời sống 25 855 VnExpress Khoa học 25 893 VnExpress Kinh doanh 25 729 VnExpress Ô tô-xe máy 25 652 VnExpress Pháp luật 25 855 VnExpress Tổng 150 4333 74 Như đã trình bày ở đầu chương, tiếng Việt là ngôn ngữ có thanh điệu và giữa các phương ngữ có sự khác biệt đáng kể giữa các thanh điệu. Để đảm bảo các phương ngữ đều được xem xét một cách công bằng về thanh điệu việc xây dựng dữ liệu văn bản dùng cho ghi âm ngày từ đầu đã phải đảm bảo cân bằng về thanh điệu. Do vậy, văn bản sau khi đã chuẩn hóa được thống kê thanh điệu, xác định sự phân bố các thanh điệu ở mỗi chủ để và trong toàn bộ văn bản. Tiếp theo là hiệu chỉnh văn bản để sự xuất hiện của các thanh điệu cân bằng với nhau ở mỗi chủ đề và trong toàn bộ văn bản. Số lượng các từ ở mỗi thanh điệu là tương đương nhau và bằng 717 từ. Quá trình xử lý này được tiến hành với sự hỗ trợ của phần mềm và biên soạn trực tiếp. Nội dung ghi âm vừa thỏa mãn tính bao phủ về mặt thanh điệu đồng thời đạt được sự cân bằng giữa các thanh điệu. Kết quả thống kê sự phân bố âm vị trên VDSPEC (Hình 2.6) cho thấy ngữ liệu cũng đồng thời thỏa mãn tiêu chí bao phủ về mặt âm vị tiếng Việt. Giá trị mỗi cột trên đồ thị là tỷ lệ (%) số lần xuất hiện của âm vị trên tổng số tất cả các âm vị có trong VDSPEC. Hình 2.6: Sự phân bố các âm vị trong VDSPEC Tổ chức lưu trữ văn bản sao cho thuận lợi trong quá trình xây dựng cũng như khai thác về sau cũng đã được tính đến. Sau khi chuẩn hóa, mỗi đoạn văn bản (gọi là một câu) được phân biệt bởi một cặp thẻ bao gồm thẻ mở và thẻ đóng , xen giữa là nội dung văn bản ghi vào file văn bản theo chủ đề. Ví dụ, văn bản “Theo đại diện một ngân hàng thương mại cổ phần” sẽ được lưu thành “Theo đại diện một ngân hàng thương mại cổ phần”. Mỗi chủ đề được lưu thành một tập tin văn bản (định dạng UTF-8) với tên tập tin đặt theo định dạng “YY.txt” trong đó “YY” là mã tương ứng với các chủ đề (cb: “cơ bản”, ds: “đời sống”, kd: “kinh doanh”, ox: “ô tô xe máy”, pl: “pháp luật”). Trong mỗi tập tin văn bản của chủ đề, các đoạn văn được được bắt đầu bởi một ký hiệu theo định dạng “YYZZZZ” ghi trên một dòng (liền trước dòng nội dung văn bản). Mã ZZZZ là số thứ tự đoạn văn thuộc chủ đề “YY”. Ví dụ “cb0001” là ký hiệu bắt đầu cho đoạn văn bản số 1 thuộc chủ đề “cb” (cơ bản). Dòng kế tiếp là nội dung văn bản bắt đầu bởi thẻ và kết thúc bằng thẻ . Việc phân chia các đoạn văn bản cũng cần có chọn lựa sao cho độ dài một đoạn không quá ngắn hoặc quá dài, thuận tiện cho việc đọc sau này, hạn chế các nhầm 75 lẫn có thể xảy ra khi đọc. Trong bộ văn bản đã xây dựng, mỗi đoạn có độ dài tương ứng trung bình là 10 giây theo tốc độ nói bình thường. 2.6.3. Ghi âm 2.6.3.1. Thiết bị ghi âm Quá trình ghi âm được thực hiện bằng máy tính có card âm thanh chất lượng cao. Micro dùng ghi âm là loại chuyên dụng phù hợp với ghi âm tiếng nói (Shure SM48). SM48 có đáp ứng tần số từ 55Hz đến 14000Hz, trở kháng đầu ra 270 Ohms, đạt -57.5 dBV/Pa (1.3 mV) ở tần số 1 kHz [7]. Đây là loại micro đơn hướng, hạn chế nhiễu nền và nguồn tạp âm xung quanh. Phòng ghi âm được lựa chọn riêng, nhiễu nền thấp theo kết quả tính toán ở phần sau cho thấy. Hình 2.7 là đáp ứng tần số của SM48 [7]. Hình 2.7: Đáp ứng tần số của SM48 2.6.3.2. Lựa chọn người nói Việc lựa chọn người nói có ảnh hưởng đáng kể đến chất lượng tiếng nói thu được. Để ghi âm giọng nói đặc trưng cho phương ngữ, người nói được chọn sao cho có giọng gốc của địa phương. Tuổi trung bình của người nói là 21. Người nhỏ tuổi nhất là 17 và cao tuổi nhất là 38. Song tuổi người nói chủ yếu trong khoảng từ 19 đến 22 (chiếm 85%). Ở độ tuổi này, chất giọng được xem là ổn định, thể hiện được đầy đủ các đặc trưng cho giọng địa phương. Việc ghi âm cũng được tổ chức theo nhiều phiên khác nhau để bao hàm được sự biến thiên của tiếng nói ở các thời điểm khác nhau đối với cùng một người nói. Tổng số người được lựa chọn ghi âm là 150. Trong đó, mỗi phương ngữ có 50 người nói bao gồm 25 giọng nam và 25 giọng nữ. 2.6.3.3. Phần mềm hỗ trợ ghi âm Phần mềm hỗ trợ ghi âm được xây dựng dựa trên ngôn ngữ kịch bản TCL/TK. Các chức năng chính của phần mềm bao gồm: - Quản lý thông tin người dùng - Quản lý các chủ để ghi âm - Quản lý các tập tin tiếng nói đã ghi được 76 - Thực hiện các thống kê, cung cấp các thông tin hữu ích cho người điều khiển ghi âm như: số lượng tập tin tiếng nói đã ghi mỗi chủ đề, số lượng tập tin tiếng nói tương ứng với một người nói - Hỗ trợ quá trình ghi âm, có khả năng hiển thị dạng sóng tiếng nói đang ghi, có thể phát lại tiếng nói đã ghi, thực hiện ghi lại đoạn tiếng nói đã ghi nếu cần; tự động tìm các đoạn tiếng nói chưa được ghi để chọn cho lần ghi kế tiếp. 2.6.3.4. Môi trường ghi âm Việc ghi âm được tiến hành trong phòng riêng có độ ồn thấp (tỷ số tín hiệu trên nhiễu xấp xỉ 35 dB). Để xác định tỉ số tín hiệu trên nhiễu của VDSPEC, tác động của nhiễu nền lên tín hiệu tiếng nói được giả thiết mang tính chất của nhiễu cộng. Giả thiết này phù hợp với thực tế tác động của nhiễu nền trong phòng thu. Vì vậy, việc xác định tỉ số tín hiệu trên nhiễu được tiến hành như sau. Trong thời gian ứng với khoảng lặng, nghĩa là không có tiếng nói và chỉ có nhiễu nền, công suất nhiễu sẽ được tính theo công thức sau đây: 𝑃𝑁 = 1 𝑁 ∑ 𝑏2 𝑁−1 𝑛=0 (𝑛) (2.1) Trong công thức trên, PN là công suất nhiễu nền trong thời gian ngắn, N là độ rộng cửa sổ để tính PN, b(n) là nhiễu nền. Với tần số lấy mẫu 16000 Hz, N được chọn bằng 256. Để có tín hiệu tiếng nói sạch (tức là không có nhiễu), dựa trên giả thiết về nhiễu cộng, phương pháp trừ phổ đã được thực hiện và từ đó tính được công suất tín hiệu tiếng nói như sau: 𝑃𝑆 = 1 𝑁 ∑ 𝑥2 𝑁−1 𝑛=0 (𝑛) (2.2) Ở đây, 𝑃𝑆 là công suất tín hiệu tiếng nói trong thời gian ngắn, x(n) là tín hiệu tiếng nói. Cuối cùng, tỉ số tín hiệu trên nhiễu tính theo dB sẽ là: 𝑆𝑁𝑑𝐵 = 10𝑙𝑜𝑔10 𝑃𝑆 𝑃𝑁 (2.3) 77 Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và giá trị trung bình của tỉ số này Theo phương pháp trên, tỉ số tín hiệu trên nhiễu của ngữ liệu VDSPEC đã được xác định có giá trị trung bình xấp xỉ 35 dB. Giá trị này là hoàn toàn thích hợp đối với ngữ liệu dùng cho nghiên cứu nhận dạng và tổng hợp tiếng nói. 2.6.3.5. Định dạng ghi âm Định dạng ghi âm đã được thiết lập sẵn trong phần mềm hỗ trợ ghi âm và giữ cố định, thống nhất trong suốt thời gian ghi âm. Cụ thể, âm thanh được ghi theo chuẩn PCM, không nén, tần số lấy mẫu 16kHz, 16 bit mỗi mẫu, ghi trên một kênh (mono). Định dạng này đáp ứng được yêu cầu về dải tần số tiếng nói thông thường đồng thời kích thước tập tin tiếng nói không quá lớn. 2.6.3.6. Tổ chức lưu dữ liệu Để giúp quản lý và khai thác bộ ngữ liệu thuận lợi, các tập tin tiếng nói được đặt tên thống nhất theo một định dạng. Tập tin tiếng nói tương ứng với mỗi đoạn văn trong các chủ đề đều được ghi trên đĩa thành một tập tin có tên duy nhất theo định dạng “XXYYZZZZ.wav”, trong đó: - XX: là mã (ID) của một người nói, bao gồm chữ cái, chữ số và là duy nhất - YY: mã chủ đề (cb, ds, kd, kh, pl) - ZZZZ: mã số đoạn âm thanh (đánh số từ 0000) Thông tin của người nói được ghi trong một tập tin đặt tên là user.xml. Tập tin này chứa các thông tin cơ bản của người nói: 0 5 10 15 20 -0.5 0 0.5 Time in ms A m p lit u d e 2 4 6 8 10 12 14 16 18 20 0 20 40 60 S /N i n d B (a) (b) SN trung bình 78 - Mã số (ID) của người nói, bao gồm 2 ký tự và là duy nhất - Họ và tên đầy đủ của người nói - Địa chỉ: ghi theo địa chỉ có ảnh hưởng nhiều nhất tới việc hình thành giọng nói hiện tại của người nói. - Giới tính, tuổi, thông tin liên hệ Tổ chức lưu dữ liệu của bộ ngữ liệu được trình bày ở Bảng 2.11. Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC Dữ liệu Thư mục Đặc tính Tín hiệu tiếng nói Thư mục WAV Tập tin WAV, Tần số lấy mẫu: 16000Hz, 16 bit, Mono Tập tin văn bản của chủ đề Thư mục TEXT Chứa các tập tin văn bản theo chủ đề Thông tin người nói Tập tin user.xml Lưu thông tin cơ bản của người nói 2.6.4. Kết quả ghi âm và đặc tính VDSPEC Quá trình ghi âm được thực hiện theo ba đợt tương ứng với ba phương ngữ. Bắt đầu từ phương ngữ Bắc, kế đến là phương ngữ Trung và cuối cùng là phương ngữ Nam. Kết thúc đợt ghi âm cuối cùng, việc xây dựng bộ ngữ liệu tiếng Việt nói VDSPEC cũng được hoàn thành với tổng số 150 người nói khác nhau đại diện cho ba phương ngữ chính của tiếng Việt (Bắc, Trung, Nam). Trong quá trình ghi âm, mỗi người nói được yêu cầu đọc đủ 25 câu đã được chuẩn bị sẵn của mỗi chủ đề. Tổng số câu đã ghi âm của VDSPEC là 18750 câu (tương ứng 150 người nói x 125 câu, không kể chủ đề Cơ bản) với dung lượng lưu trữ là 4,84 GB và tổng cộng thời lượng là 45,12 giờ tiếng nói (Bảng 2.12). Thời lượng ghi âm được phân bổ tương đối đều theo phương ngữ, giới tính cũng như theo chủ đề (Bảng 2.12, Bảng 2.13). Giới tính nam gồm 22,42 giờ tiếng nói. Thời lượng này với giới tính nữ là 22,69 giờ. Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ STT Phương ngữ Số câu Thời lượng tiếng nói (giờ) 1 Bắc 6250 14,41 2 Trung 6250 14,65 3 Nam 6250 16,06 Tổng 18750 45,12 79 Phân bố thời lượng ghi âm của các chủ đề trong VDSPEC được thống kê và trình bày ở Bảng 2.13. Cả năm chủ đề có số câu và thời gian ghi âm gần tương đương nhau. Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề Chủ đề Số câu Số âm tiết Thời lượng tiếng nói (giờ) Đời sống 3750 855 09,96 Khoa học 3750 893 08,03 Kinh doanh 3750 729 10,06 Ô tô-xe máy 3750 652 07,31 Pháp luật 3750 855 09,76 Tổng 18750 3984 45,12 2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC 2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ Quy luật biến thiên F0 của các thanh điệu tiếng Việt đã được nghiên cứu và đề cập tới trong nhiều công trình [2, 119]. Đồ thị ba hệ thống thanh điệu Hà Nội, Huế, Thành phố Hồ Chí Minh đã được phân tích bằng máy sonograph như trên Hình 2.5. Luận án đã tiến hành phân tích biến thiên F0 của sáu thanh điệu tiếng Việt trên bộ ngữ liệu VDSPEC. Mỗi phương ngữ chọn ba giọng nam và ba giọng nữ làm đại diện. Với mỗi người nói, sáu từ tương ứng với sáu thanh điệu bao gồm "khi", "trường", "thuế", "mại", "thử", "phẫu" được tách riêng và tính tần số cơ bản F0 bằng bộ công cụ Praat1. Các từ này được tách từ câu nói liên tục với các từ đứng liền trước và từ đứng liền sau được trình bày trên Bảng 2.14. Trên thực tế, thời hạn của các thanh điệu là khác nhau. Để làm rõ sự khác biệt giữa các thanh điệu và dễ dàng quan sát trên cùng đồ thị, độ dài tiếng nói mỗi thanh điệu được chuẩn hóa về cùng một giá trị là 0,5 giây. Giá trị F0 được vẽ trên đồ thị là trung bình F0 của ba giọng đã lựa chọn tương ứng với mỗi phương ngữ. Đồ thị biến thiên sáu thanh điệu tiếng Việt của ba phương ngữ được vẽ gộp trên cùng một hình và tách riêng theo giới tính (Hình 2.9, Hình 2.10). Trục tung là tần số (đơn vị Hz). Trục hoành là thời gian đã chuẩn hóa (đơn vị là giây). Nhìn chung, sự biến thiên F0 của sáu thanh điệu có sự khác biệt đáng kể giữa các phương ngữ. Dáng điệu biến thiên F0 cũng khá tương đồng với kết quả phân tích đã có trong [2]. 1 www.praat.org 80 Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu Trừ đứng trước Từ được chọn Từ đứng sau sau khi thử thị trường các giảm thuế chủ thương mại cổ khi thử phản lần phẫu thuật Đồ thị cho thấy phương ngữ Bắc có phạm vi biến thiên F0 rộng hơn so với hai phương ngữ còn lại trên cả sáu thanh điệu. Đối với thanh ngang của ba phương ngữ, biến thiên F0 là khá nhỏ. Thanh sắc giọng Hà Nội có F0 bắt đầu ở mức trung bình sau đó tăng lên. Còn với giọng Huế, chênh lệch giữa giá trị bắt đầu và kết thúc của F0 nhỏ hơn so với giọng Hà Nội và giọng Thành phố Hồ Chí Minh. Hình 2.9: Biến thiên F0 các thanh điệu của giọng nữ Hà Nội (a), Huế (b) và Thành phố Hồ Chí Minh (c) Hình 2.10: Biến thiên F0 các thanh điệu của giọng nam Hà Nội (a), Huế (b) và Thành phố Hồ Chí Minh (c) 81 Đối với thanh huyền của ba phương ngữ, F0 bắt đầu ở mức dưới trung bình đối với giọng nam và cao hơn ở giọng nữ sau đó giảm tương đối đều về cuối. Với thanh nặng, F0 bắt đầu ở mức trung bình hoặc dưới trung bình và giảm nhanh ở cuối cho giọng Hà Nội. Nói chung đối với giọng Huế, F0 có xu hướng đi xuống đơn điệu như là thanh huyền hay thanh nặng của giọng Hà Nội hoặc giọng Thành phố Hồ Chí Minh. Đối với thanh ngã giọng Thành phố Hồ Chí Minh, biến thiên F0 có xu hướng đi lên ở cuối theo kiểu thanh sắc giọng Hà Nội. Dải biến thiên F0 cho cả 6 thanh của giọng Huế đều hẹp hơn so với giọng Hà Nội và giọng Thành phố Hồ Chí Minh. Sự khác biệt biến thiên F0 của sáu thanh điệu giữa ba phương ngữ trên có thể được sử dụng để phân biệt các phương ngữ với nhau và dùng làm tham số cho hệ thống nhận dạng phương ngữ. 2.7.2. Phân tích thống kê phân bố F0 của các thanh điệu Kết quả phân tích đã trình bày tại mục 2.7.1 phần nào cho thấy phạm vi biến thiên F0 các thanh điệu của ba phương ngữ song chủ yếu giúp quan sát dáng điệu biến thiên F0 các sáu thanh điệu với mỗi phương ngữ. Để có được phạm vi biến thiên F0 của các thanh điệu trên toàn bộ ngữ liệu VDSPEC, dữ liệu tiếng nói liên tục của 150 người nói gồm 75 nam và 75 nữ đã được tách riêng theo sáu từ tương ứng với sáu thanh điệu để tính F0 và thực hiện thống kê. Dữ liệu phân tích thống kê phân bố F0 của các thanh điệu được biểu diễn bằng các đồ thị boxplot. Đồ thị boxplot giúp quan sát được sự tập trung hay tản mát của dữ liệu, miền giá trị mà dữ liệu tập trung nhiều... Hình chữ nhật ứng với phân bố của 50% giá trị dữ liệu. Kích thước hình chữ nhật này càng hẹp, dữ liệu càng tập trung trong dải chữ nhật này. Vị trí đường nằm ngang trong hình chữ nhật tương ứng với trung vị. Giá trị trung bình biểu diễn bằng chấm tròn. Hình 2.11: Biến thiên F0 của thanh hỏi Hình 2.12: Biến thiên F0 của thanh ngã 100 120 140 160 180 200 220 240 F 0 ( H z) Thanh hỏi Trung bình 50 100 150 200 250 300 350 400 F 0 ( H z) Thanh ngã Trung bình 82 Hình 2.13: Biến thiên F0 của thanh nặng Hình 2.14: Biến thiên F0 của thanh ngang

Các file đính kèm theo tài liệu này:

luan_an_nhan_dang_tu_dong_tieng_noi_phat_am_lien_tuc_cho_cac.pdf