MỤC LỤC . 4
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT. 7
DANH MỤC CÁC BẢNG. 10
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ . 12
MỞ ĐẦU . 14
1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ
18
1.1. Nhận dạng tiếng nói. 18
1.1.1. Tổng quan về nhận dạng tiếng nói . 18
1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói. 19
1.1.3. Các thách thức đối với nhận dạng tự động tiếng nói. 20
1.1.4. Phân loại hệ thống nhận dạng tự động tiếng nói . 21
1.2. Nhận dạng phương ngữ. 23
1.2.1. Các mô hình nhận dạng phương ngữ. 23
1.2.2. Nhận dạng phương ngữ theo các phương diện khác nhau. 24
1.3. Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt . 29
1.4. Một số mô hình nhận dạng . 30
1.4.1. Mô hình GMM . 30
1.4.2. Bộ phân lớp SVM. 32
1.4.3. Mạng nơ ron nhận tạo. 38
1.5. Kết chương. 54
2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ
TIẾNG VIỆT . 56
2.1. Tổng quan phương ngữ tiếng Việt. 56
2.1.1. Phương ngữ và phân vùng phương ngữ tiếng Việt. 56
2.1.2. Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt . 57
2.1.3. Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 58
2.2. Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt . 60
2.2.1. Âm tiết và âm vị trong tiếng Việt. 60
2.2.2. Âm đệm và cách kết hợp âm đệm trong các phương ngữ . 645
2.3. Phụ âm đầu trong phương ngữ tiếng Việt. 65
2.3.1. Hệ thống phụ âm đầu. 65
2.3.2. So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam . 67
2.4. Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt . 67
2.4.1. Hệ thống thanh điệu Hà Nội. 68
2.4.2. Hệ thống thanh điệu Nghệ - Tĩnh và Huế. 68
2.4.3. Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh. 69
2.4.4. Một số nhận xét về hệ thống thanh điệu các phương ngữ . 70
2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói . 71
2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng
phương ngữ tiếng Việt. 71
2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt . 72
2.6.2. Chuẩn bị và chuẩn hóa văn bản. 73
2.6.3. Ghi âm . 75
2.6.4. Kết quả ghi âm và đặc tính VDSPEC. 78
2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC . 79
2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ. 79
2.7.2. Phân tích thống kê phân bố F0 của các thanh điệu. 81
2.7.3. Phân tích dữ liệu dùng LDA. 83
2.8. Kết chương. 87
3. NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT . 89
3.1. Nhận dạng phương ngữ tiếng Việt với GMM . 89
3.1.1. Công cụ thử nghiệm nhận dạng phương ngữ ALIZE. 89
3.1.2. Lựa chọn số lượng hệ số MFCC. 91
3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
MFCC với tham số F0. 92
3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
formant, dải thông tương ứng và tham số F0 . 95
3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng
phương ngữ tiếng Việt. 96
3.2. SVM nhận dạng phương ngữ tiếng Việt. 98
3.2.1. Bộ phân lớp SMO. 986
3.2.2. Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO . 99
3.3. lBk nhận dạng phương ngữ tiếng Việt. 103
3.3.1. Bộ phân lớp IBk . 103
3.3.2. Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk . 106
3.4. Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron . 107
3.4.1. Bộ phân lớp MultilayerPerceptron trong Weka . 107
3.4.2. MultilayerPerceptron nhận dạng phương ngữ tiếng Việt . 107
3.5. JRip nhận dạng phương ngữ tiếng Việt . 108
3.5.1. Bộ phân lớp JRip . 108
3.5.2. Nhận dạng phương ngữ tiếng Việt với JRip. 109
3.6. Nhận dạng phương ngữ tiếng Việt với PART . 110
3.6.1. Bộ phân lớp PART . 110
3.6.2. Kết quả dùng PART nhận dạng phương ngữ tiếng Việt . 110
3.7. Kết chương. 110
4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ
PHƯƠNG NGỮ . 112
4.1. HMM nhận dạng tiếng Việt nói. 112
4.1.1. Mô hình HMM . 112
4.1.2. HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính. 125
4.2. Cải thiện hiệu năng nhận dạng tiếng Việt nói thông qua sử dụng thông tin phương
ngữ 130
4.2.1. Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông tin phương ngữ 130
4.2.2. Nhận dạng tiếng Việt nói khi có thông tin phương ngữ . 132
4.3. Kết chương. 133
KẾT LUẬN VÀ KIẾN NGHỊ. 134
TÀI LIỆU THAM KHẢO . 137
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN. 149
150 trang |
Chia sẻ: trungkhoi17 | Lượt xem: 524 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm - Phạm Ngọc Hưng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
hi kết thúc làm cho
âm điệu bị chúc xuống ở đoạn cuối.
2.4.3. Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh
Hệ thống thanh điệu của các tỉnh này cơ bản giống nhau và có thể tiêu biểu cho
thanh điệu PNN. Hình 2.5 biểu thị hệ thống thanh điệu Nà Nội, Huế và TP Hồ Chí Minh
[2].
Hệ thống thanh điệu các tỉnh này có điểm tương đồng với thanh điệu của PNB ở
chỗ có sự lưỡng phân rõ ràng về âm vực: thanh ngang và thanh sắc thuộc âm vực cao (trên
mức trung bình lời nói) trong khi các thanh huyền và nặng lại ở âm vực thấp.
Thanh hỏi và thanh ngã có hiện tượng pha lẫn với âm điệu mang tính chất trung
gian giữa thanh hỏi và thanh ngã Hà Nội. Nửa đầu âm điệu thoai thoải đi xuống gần giống
với thanh huyền và nặng, đến khoảng giữa thì vút lên cao như thanh ngã Hà Nội.
Thanh nặng của PNN cũng khác với thanh nặng Hà Nội trong đó âm điệu hơi võng
xuống ở khoảng giữa, giống với thanh hỏi Hà Nội.
Ngoài hai thanh trên, các thanh khác của phương ngữ Đà Nẵng và Thành phố Hồ
Chí Minh đều tương ứng với các thanh điệu Hà Nội cả về âm vực và âm điệu.
70
Thanh ngang Thanh huyền Thanh ngã
Thanh hỏi Thanh sắc Thanh nặng
Hình 2.5: Đồ thị hệ thống thanh điệu Hà Nội (a), Huế (b), TP Hồ Chí Minh (c)
2.4.4. Một số nhận xét về hệ thống thanh điệu các phương ngữ
Mặc dù có nhiều yếu tố làm nên sự khác biệt về thanh điệu giữa các phương ngữ
song vẫn có những yếu tố làm nên sự bất biến khiến cho người dân trên khắp mọi miền đất
nước vẫn có thể hiểu được nhau tuy phương ngữ có sự khác biệt trong tiếng nói mà họ
dùng để giao tiếp. Theo nhận xét của tác giả trong [2], yếu tố tạo nên sự bất biến đó chính
là sự lưỡng phân về âm vực (trầm/bổng), âm điệu (bằng/trắc). Chính từ mối quan hệ này
tạo nên các cặp thanh điệu: ngang/huyền, hỏi/ngã, sắc/nặng.
Tương tự như vậy, với sự tương liên và đối lập giữa bộ bị cấu âm và phương thức
cấu âm đã tạo nên các cặp phụ âm cuối: m/p, n/t, nh/ch, ng/k.
Giữa các phương ngữ khác nhau có sự biến đổi bằng cách thêm, bớt các cặp nhưng
quan hệ giữa các cặp vẫn không thay đổi.
Trở lại với thanh điệu Đà Nẵng - TP Hồ Chí Minh, vẫn thấy được các cặp đối lập
về âm vực và tương liên về âm điệu: ngang/huyền, sắc/nặng (thanh ngã ở mức trung gian).
F0
400
Hz
300
Hz
200
Hz
100
Hz
(a) (b) (c)
71
Hệ thống thanh điệu Nghệ Tĩnh và Huế là hệ thống thanh điệu trầm, các nét đối lập
về âm vực bị mờ đi và sự đối lập về âm điệu nổi lên thay thế.
Quan sát trên đồ thị hệ thống thanh điệu (Hình 2.5) có thể thấy hệ thống thanh điệu
phương ngữ Hà Nội có miền âm vực trải rộng trong miền tiếng nói. Trong khi đó, âm vực
phương ngữ Huế chủ yếu thuộc vùng trầm. Âm vực phương ngữ TP Hồ Chí Minh gần
giống phương ngữ Huế ở điểm khởi đầu nhưng có thanh điệu được đẩy lên cao tương tự
như phương ngữ Hà Nội, tạo nên sự khác biệt so với Huế đồng thời cũng có nét riêng của
TP Hồ Chí Minh.
2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói
Hiệu quả nhận dạng, độ chính xác của một hệ thống nhận dạng tiếng nói phụ thuộc
vào rất nhiều yếu tố như người nói khác nhau, độ tuổi, giới tính của người nói, tốc độ nói,
ngữ cảnh, môi trường âm học, phương ngữ.
Sự tồn tại của phương ngữ trong ngôn ngữ là một thách thức lớn cho các hệ thống
xử lý ngôn ngữ tự nhiên nói chung [109] cũng như trong các hệ thống nhận dạng tiếng nói.
Trong cùng một lãnh thổ có cùng một ngôn ngữ nhưng ở những vùng khác nhau lại có thể
tồn tại những phương ngữ khác nhau, thậm chí ngay giữa những nhóm người, làng xã sống
liền kề nhau cũng có thể tồn tại phương ngữ khác nhau. Sự khác biệt giữa các phương ngữ
có thể là ở ngữ âm, từ vựng, ngữ pháp,... nhưng phổ biến nhất là ngữ âm. Chính sự khác
biệt này làm ảnh hưởng đến hiệu năng nhận dạng của các hệ thống nhận dạng tiếng nói.
Chính vì vậy, việc nghiên cứu về phương ngữ, giải quyết vấn đề liên quan đến
phương ngữ trong nhận dạng tiếng nói là rất cần thiết để giúp nâng cao chất lượng hệ
thống nhận dạng tiếng nói. Nếu biết tiếng nói đang cần nhận dạng thuộc phương ngữ nào
đó thì có thể điều khiển hệ thống nhận dạng có thể lựa chọn mô hình nhận dạng phù hợp
cho kết quả nhận dạng tốt hơn. Để có thể thực hiện các nghiên cứu về nhận dạng tiếng nói
nói chung và nhận dạng phương ngữ nói riêng, cần thiết phải có kho ngữ liệu chất lượng
tốt đáp ứng yêu cầu chuyên biệt của nghiên cứu [73, 81, 145]. Nội dung tiếp trong chương
này theo sẽ trình bày đặc điểm của một số bộ ngữ liệu phương ngữ trên thế giới và phương
pháp cũng như kết quả xây dựng bộ ngữ liệu phương ngữ tiếng Việt. Luận án cũng sẽ tiến
hành phân tích một số đặc trưng của phương ngữ tiếng Việt trên bộ ngữ liệu phương ngữ
xây dựng được và trình bày ở cuối chương.
2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu
dùng cho nhận dạng phương ngữ tiếng Việt
Trên thế giới đã có một số bộ ngữ liệu cho phương ngữ như tiếng Anh [17], tiếng Ả
rập [50], tiếng Trung [78], tiếng Hindi [146], tiếng Thái [149],
Với tiếng Anh, FRED là bộ ngữ liệu lớn bao gồm 8 phương ngữ, với 2,45 triệu từ
trong khoảng 300 giờ tiếng nói. FRED chứa ngữ liệu của 420 người nói khác nhau, độ tuổi
của người nói ở FRED trong khoảng từ 6 đến 120 tuổi. Bộ ngữ liệu này được xây dựng
72
trong thời gian khá dài, trên 30 năm. Bộ ngữ liệu có thể hỗ trợ cho thực hiện nghiên cứu
các hiện tượng hình thái ngữ pháp phi tiêu chuẩn cùng với các phân tích chi tiết về ngữ âm,
âm vị.
Với tiếng Trung Quốc, có tám vùng phương ngữ chủ yếu. Trong [78], các tác giả đã
xây dựng ngữ liệu cho phương ngữ Ngô (吳語), một trong tám phương ngữ tiếng Trung.
Ngữ liệu này cung cấp thông tin ở 4 mức: ngữ âm, từ vựng, ngôn ngữ và âm học.
Đối với tiếng Việt, đã có một số bộ ngữ liệu được xây dựng như
VNSPEECHCORPUS [165], VOV (Voice of Vietnamese) Corpus [155] hoặc VNBN
(United Broadcast News corpus) [172].
Nguyên tắc chung khi xây dựng một cơ sở dữ liệu tiếng nói là dữ liệu cần chứa
đựng các từ và các câu thường xuyên được sử dụng [161]. Theo [161], cơ sở dữ liệu tiếng
nói nên bao hàm ít nhất các mục tiêu: bao phủ về mặt ngữ nghĩa, bao phủ về mặt cú pháp,
bao phủ về mặt ngôn điệu và bao phủ về mặt từ. Để đảm bảo được đồng thời các mục tiêu
này là rất khó. Thông thường lựa chọn nội dung sao cho chứa đựng được tất cả các âm vị,
phong phú về ngữ cảnh âm vị, đa dạng về từ vựng, ngữ pháp và ngữ nghĩa [161].
Các hệ thống nhận dạng tiếng nói thực hiện nhận dạng dựa trên hệ thống từ vựng
được cung cấp trong quá trình huấn luyện. Hiệu quả hoạt động của hệ thống nhận dạng sẽ
được nâng cao hơn nếu ngữ liệu được tổ chức theo các lĩnh vực chuyên biệt và được áp
dụng một cách phù hợp trong các tình huống nhận dạng cụ thể. Trong nhận dạng phương
ngữ, đặc biệt là phương ngữ tiếng Việt, ngữ liệu cần phải bao hàm được các đặc trưng của
phương ngữ tiếng Việt, có được sự cân bằng về mặt thanh điệu và đại diện cho các phương
ngữ trong phạm vi nhận dạng. Thanh điệu là một trong các yếu tố quan trọng để phân biệt
phương ngữ tiếng Việt. Vì vậy, cần phải đảm bảo cân bằng thanh điệu để tránh việc xuất
hiện không đồng đều của các thanh điệu đối với các phương ngữ làm cho kết quả nhận
dạng phương ngữ thiếu tính khách quan. Các ngữ liệu hiện có chưa đáp ứng đồng thời các
yêu cầu trên. Xuất phát từ các lý do đó, để thực hiện các nghiên cứu nhận dạng phương
ngữ tiếng Việt, luận án đã tiến hành xây dựng bộ ngữ liệu tiếng Việt VDSPEC
(Vietnamese Dialect Speech Corpus) đáp ứng đầy đủ các yêu cầu nêu trên dùng cho nhận
dạng tiếng nói và phương ngữ tiếng Việt.
Phương ngữ tiếng Việt rất phong phú. Sự khác biệt có thể xuất hiện đến từng làng
xã. Tuy nhiên, trong phạm vi thời gian hạn chế, luận án chỉ tập trung nghiên cứu trên ba
phương ngữ phổ biến nhất là phương ngữ Bắc, phương ngữ Trung và phương ngữ Nam.
Do vậy, bộ ngữ liệu tiếng Việt VDSPEC được xây dựng cho ba phương ngữ này trong đó:
phương ngữ Bắc lấy giọng Hà Nội làm đại diện, phương ngữ Trung lấy giọng Huế làm đại
diện và phương ngữ Nam lấy giọng Thành phố Hồ Chí Minh làm đại diện.
2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt
Việc xây dựng ngữ liệu có thể được tiến hành theo nhiều cách khác nhau như: sử
dụng nguồn âm thanh có sẵn của các đài phát thanh, truyền hình, sau đó tiến hành phân
loại, trích đoạn âm thanh phù hợp yêu cầu, duyệt và soạn lại văn bản tương ứng [155, 165].
73
Cách khác là thực hiện ghi âm trong môi trường ở đó người nói được lựa chọn và nói theo
các nội dung đã chuẩn bị trước.
VDSPEC đã được xây dựng bằng phương pháp ghi âm trực tiếp người nói để đảm
bảo tính chủ động cũng như chất lượng tiếng nói tốt. Việc xây dựng bộ ngữ liệu tiếng Việt
được triển khai theo hai giai đoạn. Ở giai đoạn một, tiến hành biên soạn, thu thập và phân
loại văn bản theo chủ đề; thực hiện các điều chỉnh để đảm bảo sự cân bằng thanh điệu trên
văn bản chuẩn bị. Tiếp theo, ở giai đoạn hai, thực hiện ghi âm bằng thiết bị chuyên dụng
trong môi trường có chọn lọc. Sau đây là các mô tả chi tiết từng giai đoạn.
2.6.2. Chuẩn bị và chuẩn hóa văn bản
Dữ liệu tiếng nói được ghi âm thông qua việc người nói tiến hành đọc các văn bản
đã được chuẩn bị sẵn. Văn bản này được tổ chức thành 6 chủ đề.
Chủ đề thứ nhất được xây dựng với chủ định phục vụ cho các khảo sát về các biến
thiên thanh điệu, tần số cơ bản giữa các phương ngữ. Do vậy, nội dung của chủ đề này chủ
yếu là các phụ âm, nguyên âm, một số từ đơn được chọn lựa có sự xuất hiện của tất cả các
thanh điệu. Chủ đề này được đặt tên là chủ đề Cơ bản.
Năm chủ đề còn lại được thu thập từ các tài liệu được công bố trên các báo điện tử
đã được phân loại theo chủ đề. Các văn bản này đều được lưu trữ theo bộ mã UTF-8 thống
nhất chung trong toàn hệ thống. Văn bản gốc thường có các thông tin dư thừa như các thẻ
HTML, ký hiệu, chữ viết tắt, từ nước ngoài, các con số, dữ liệu ngày tháng theo định dạng
số và chữ khác nhau Để đảm bảo sự thống nhất chung, các thông tin dư thừa được loại
bỏ, chuẩn hóa văn bản theo một số xử lý cụ thể như chuyển các con số thành văn bản
tương ứng (ví dụ: “9000 đồng” thành “chín nghìn đồng”), ngày tháng theo định dạng số
thông thường (ví dụ: “ngày 27/10” thành dạng văn bản tương ứng “ngày hai bảy tháng
mười”, “năm 2003” thành “năm hai ngàn lẻ ba”); các từ viết tắt cũng được chuyển sang
dạng văn bản đầy đủ tương ứng để tránh nhầm lẫn trong quá trình đọc và ghi âm (ví dụ:
“tốt nghiệp ĐHMT Hà Nội” thành “tốt nghiệp Đại học Mỹ thuật Hà Nội”). Văn bản sau
khi chuẩn hóa bao gồm 3984 âm tiết (không kể chủ đề cơ bản) với tổng số 1071 âm tiết
không lặp lại.
Bảng 2.10: Đặc tính văn bản theo chủ đề
Chủ đề Số câu Số âm tiết Nguồn
Cơ bản 25 349 Biên soạn
Đời sống 25 855 VnExpress
Khoa học 25 893 VnExpress
Kinh doanh 25 729 VnExpress
Ô tô-xe máy 25 652 VnExpress
Pháp luật 25 855 VnExpress
Tổng 150 4333
74
Như đã trình bày ở đầu chương, tiếng Việt là ngôn ngữ có thanh điệu và giữa các
phương ngữ có sự khác biệt đáng kể giữa các thanh điệu. Để đảm bảo các phương ngữ đều
được xem xét một cách công bằng về thanh điệu việc xây dựng dữ liệu văn bản dùng cho
ghi âm ngày từ đầu đã phải đảm bảo cân bằng về thanh điệu. Do vậy, văn bản sau khi đã
chuẩn hóa được thống kê thanh điệu, xác định sự phân bố các thanh điệu ở mỗi chủ để và
trong toàn bộ văn bản. Tiếp theo là hiệu chỉnh văn bản để sự xuất hiện của các thanh điệu
cân bằng với nhau ở mỗi chủ đề và trong toàn bộ văn bản. Số lượng các từ ở mỗi thanh
điệu là tương đương nhau và bằng 717 từ. Quá trình xử lý này được tiến hành với sự hỗ trợ
của phần mềm và biên soạn trực tiếp. Nội dung ghi âm vừa thỏa mãn tính bao phủ về mặt
thanh điệu đồng thời đạt được sự cân bằng giữa các thanh điệu.
Kết quả thống kê sự phân bố âm vị trên VDSPEC (Hình 2.6) cho thấy ngữ liệu
cũng đồng thời thỏa mãn tiêu chí bao phủ về mặt âm vị tiếng Việt. Giá trị mỗi cột trên đồ
thị là tỷ lệ (%) số lần xuất hiện của âm vị trên tổng số tất cả các âm vị có trong VDSPEC.
Hình 2.6: Sự phân bố các âm vị trong VDSPEC
Tổ chức lưu trữ văn bản sao cho thuận lợi trong quá trình xây dựng cũng như khai
thác về sau cũng đã được tính đến. Sau khi chuẩn hóa, mỗi đoạn văn bản (gọi là một câu)
được phân biệt bởi một cặp thẻ bao gồm thẻ mở và thẻ đóng , xen giữa là nội dung
văn bản ghi vào file văn bản theo chủ đề. Ví dụ, văn bản “Theo đại diện một ngân hàng
thương mại cổ phần” sẽ được lưu thành “Theo đại diện một ngân hàng thương mại cổ
phần”. Mỗi chủ đề được lưu thành một tập tin văn bản (định dạng UTF-8) với tên tập
tin đặt theo định dạng “YY.txt” trong đó “YY” là mã tương ứng với các chủ đề (cb: “cơ
bản”, ds: “đời sống”, kd: “kinh doanh”, ox: “ô tô xe máy”, pl: “pháp luật”). Trong mỗi tập
tin văn bản của chủ đề, các đoạn văn được được bắt đầu bởi một ký hiệu theo định dạng
“YYZZZZ” ghi trên một dòng (liền trước dòng nội dung văn bản). Mã ZZZZ là số thứ tự
đoạn văn thuộc chủ đề “YY”. Ví dụ “cb0001” là ký hiệu bắt đầu cho đoạn văn bản số 1
thuộc chủ đề “cb” (cơ bản). Dòng kế tiếp là nội dung văn bản bắt đầu bởi thẻ và kết
thúc bằng thẻ . Việc phân chia các đoạn văn bản cũng cần có chọn lựa sao cho độ dài
một đoạn không quá ngắn hoặc quá dài, thuận tiện cho việc đọc sau này, hạn chế các nhầm
75
lẫn có thể xảy ra khi đọc. Trong bộ văn bản đã xây dựng, mỗi đoạn có độ dài tương ứng
trung bình là 10 giây theo tốc độ nói bình thường.
2.6.3. Ghi âm
2.6.3.1. Thiết bị ghi âm
Quá trình ghi âm được thực hiện bằng máy tính có card âm thanh chất lượng cao.
Micro dùng ghi âm là loại chuyên dụng phù hợp với ghi âm tiếng nói (Shure SM48). SM48
có đáp ứng tần số từ 55Hz đến 14000Hz, trở kháng đầu ra 270 Ohms, đạt -57.5 dBV/Pa
(1.3 mV) ở tần số 1 kHz [7]. Đây là loại micro đơn hướng, hạn chế nhiễu nền và nguồn tạp
âm xung quanh. Phòng ghi âm được lựa chọn riêng, nhiễu nền thấp theo kết quả tính toán ở
phần sau cho thấy. Hình 2.7 là đáp ứng tần số của SM48 [7].
Hình 2.7: Đáp ứng tần số của SM48
2.6.3.2. Lựa chọn người nói
Việc lựa chọn người nói có ảnh hưởng đáng kể đến chất lượng tiếng nói thu được.
Để ghi âm giọng nói đặc trưng cho phương ngữ, người nói được chọn sao cho có giọng gốc
của địa phương. Tuổi trung bình của người nói là 21. Người nhỏ tuổi nhất là 17 và cao tuổi
nhất là 38. Song tuổi người nói chủ yếu trong khoảng từ 19 đến 22 (chiếm 85%). Ở độ tuổi
này, chất giọng được xem là ổn định, thể hiện được đầy đủ các đặc trưng cho giọng địa
phương. Việc ghi âm cũng được tổ chức theo nhiều phiên khác nhau để bao hàm được sự
biến thiên của tiếng nói ở các thời điểm khác nhau đối với cùng một người nói.
Tổng số người được lựa chọn ghi âm là 150. Trong đó, mỗi phương ngữ có 50
người nói bao gồm 25 giọng nam và 25 giọng nữ.
2.6.3.3. Phần mềm hỗ trợ ghi âm
Phần mềm hỗ trợ ghi âm được xây dựng dựa trên ngôn ngữ kịch bản TCL/TK.
Các chức năng chính của phần mềm bao gồm:
- Quản lý thông tin người dùng
- Quản lý các chủ để ghi âm
- Quản lý các tập tin tiếng nói đã ghi được
76
- Thực hiện các thống kê, cung cấp các thông tin hữu ích cho người điều khiển ghi
âm như: số lượng tập tin tiếng nói đã ghi mỗi chủ đề, số lượng tập tin tiếng nói tương ứng
với một người nói
- Hỗ trợ quá trình ghi âm, có khả năng hiển thị dạng sóng tiếng nói đang ghi, có thể
phát lại tiếng nói đã ghi, thực hiện ghi lại đoạn tiếng nói đã ghi nếu cần; tự động tìm các
đoạn tiếng nói chưa được ghi để chọn cho lần ghi kế tiếp.
2.6.3.4. Môi trường ghi âm
Việc ghi âm được tiến hành trong phòng riêng có độ ồn thấp (tỷ số tín hiệu trên
nhiễu xấp xỉ 35 dB). Để xác định tỉ số tín hiệu trên nhiễu của VDSPEC, tác động của nhiễu
nền lên tín hiệu tiếng nói được giả thiết mang tính chất của nhiễu cộng. Giả thiết này phù
hợp với thực tế tác động của nhiễu nền trong phòng thu. Vì vậy, việc xác định tỉ số tín hiệu
trên nhiễu được tiến hành như sau. Trong thời gian ứng với khoảng lặng, nghĩa là không có
tiếng nói và chỉ có nhiễu nền, công suất nhiễu sẽ được tính theo công thức sau đây:
𝑃𝑁 =
1
𝑁
∑ 𝑏2
𝑁−1
𝑛=0
(𝑛) (2.1)
Trong công thức trên, PN là công suất nhiễu nền trong thời gian ngắn, N là độ rộng
cửa sổ để tính PN, b(n) là nhiễu nền. Với tần số lấy mẫu 16000 Hz, N được chọn bằng 256.
Để có tín hiệu tiếng nói sạch (tức là không có nhiễu), dựa trên giả thiết về nhiễu cộng,
phương pháp trừ phổ đã được thực hiện và từ đó tính được công suất tín hiệu tiếng nói như
sau:
𝑃𝑆 =
1
𝑁
∑ 𝑥2
𝑁−1
𝑛=0
(𝑛) (2.2)
Ở đây, 𝑃𝑆 là công suất tín hiệu tiếng nói trong thời gian ngắn, x(n) là tín hiệu tiếng
nói. Cuối cùng, tỉ số tín hiệu trên nhiễu tính theo dB sẽ là:
𝑆𝑁𝑑𝐵 = 10𝑙𝑜𝑔10
𝑃𝑆
𝑃𝑁
(2.3)
77
Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và giá
trị trung bình của tỉ số này
Theo phương pháp trên, tỉ số tín hiệu trên nhiễu của ngữ liệu VDSPEC đã được xác
định có giá trị trung bình xấp xỉ 35 dB. Giá trị này là hoàn toàn thích hợp đối với ngữ liệu
dùng cho nghiên cứu nhận dạng và tổng hợp tiếng nói.
2.6.3.5. Định dạng ghi âm
Định dạng ghi âm đã được thiết lập sẵn trong phần mềm hỗ trợ ghi âm và giữ cố
định, thống nhất trong suốt thời gian ghi âm. Cụ thể, âm thanh được ghi theo chuẩn PCM,
không nén, tần số lấy mẫu 16kHz, 16 bit mỗi mẫu, ghi trên một kênh (mono). Định dạng
này đáp ứng được yêu cầu về dải tần số tiếng nói thông thường đồng thời kích thước tập tin
tiếng nói không quá lớn.
2.6.3.6. Tổ chức lưu dữ liệu
Để giúp quản lý và khai thác bộ ngữ liệu thuận lợi, các tập tin tiếng nói được đặt
tên thống nhất theo một định dạng. Tập tin tiếng nói tương ứng với mỗi đoạn văn trong các
chủ đề đều được ghi trên đĩa thành một tập tin có tên duy nhất theo định dạng
“XXYYZZZZ.wav”, trong đó:
- XX: là mã (ID) của một người nói, bao gồm chữ cái, chữ số và là duy nhất
- YY: mã chủ đề (cb, ds, kd, kh, pl)
- ZZZZ: mã số đoạn âm thanh (đánh số từ 0000)
Thông tin của người nói được ghi trong một tập tin đặt tên là user.xml. Tập tin này
chứa các thông tin cơ bản của người nói:
0 5 10 15 20
-0.5
0
0.5
Time in ms
A
m
p
lit
u
d
e
2 4 6 8 10 12 14 16 18 20
0
20
40
60
S
/N
i
n
d
B
(a)
(b)
SN trung bình
78
- Mã số (ID) của người nói, bao gồm 2 ký tự và là duy nhất
- Họ và tên đầy đủ của người nói
- Địa chỉ: ghi theo địa chỉ có ảnh hưởng nhiều nhất tới việc hình thành giọng nói
hiện tại của người nói.
- Giới tính, tuổi, thông tin liên hệ
Tổ chức lưu dữ liệu của bộ ngữ liệu được trình bày ở Bảng 2.11.
Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC
Dữ liệu Thư mục Đặc tính
Tín hiệu tiếng nói Thư mục WAV
Tập tin WAV,
Tần số lấy mẫu: 16000Hz, 16 bit,
Mono
Tập tin văn bản của chủ đề Thư mục TEXT Chứa các tập tin văn bản theo chủ đề
Thông tin người nói Tập tin user.xml Lưu thông tin cơ bản của người nói
2.6.4. Kết quả ghi âm và đặc tính VDSPEC
Quá trình ghi âm được thực hiện theo ba đợt tương ứng với ba phương ngữ. Bắt đầu
từ phương ngữ Bắc, kế đến là phương ngữ Trung và cuối cùng là phương ngữ Nam. Kết
thúc đợt ghi âm cuối cùng, việc xây dựng bộ ngữ liệu tiếng Việt nói VDSPEC cũng được
hoàn thành với tổng số 150 người nói khác nhau đại diện cho ba phương ngữ chính của
tiếng Việt (Bắc, Trung, Nam).
Trong quá trình ghi âm, mỗi người nói được yêu cầu đọc đủ 25 câu đã được chuẩn
bị sẵn của mỗi chủ đề. Tổng số câu đã ghi âm của VDSPEC là 18750 câu (tương ứng 150
người nói x 125 câu, không kể chủ đề Cơ bản) với dung lượng lưu trữ là 4,84 GB và tổng
cộng thời lượng là 45,12 giờ tiếng nói (Bảng 2.12).
Thời lượng ghi âm được phân bổ tương đối đều theo phương ngữ, giới tính cũng
như theo chủ đề (Bảng 2.12, Bảng 2.13). Giới tính nam gồm 22,42 giờ tiếng nói. Thời
lượng này với giới tính nữ là 22,69 giờ.
Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ
STT Phương ngữ Số câu Thời lượng tiếng nói (giờ)
1 Bắc 6250 14,41
2 Trung 6250 14,65
3 Nam 6250 16,06
Tổng 18750 45,12
79
Phân bố thời lượng ghi âm của các chủ đề trong VDSPEC được thống kê và trình
bày ở Bảng 2.13. Cả năm chủ đề có số câu và thời gian ghi âm gần tương đương nhau.
Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề
Chủ đề Số câu Số âm tiết
Thời lượng tiếng nói
(giờ)
Đời sống 3750 855 09,96
Khoa học 3750 893 08,03
Kinh doanh 3750 729 10,06
Ô tô-xe máy 3750 652 07,31
Pháp luật 3750 855 09,76
Tổng 18750 3984 45,12
2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ
ngữ liệu VDSPEC
2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ
Quy luật biến thiên F0 của các thanh điệu tiếng Việt đã được nghiên cứu và đề cập
tới trong nhiều công trình [2, 119]. Đồ thị ba hệ thống thanh điệu Hà Nội, Huế, Thành phố
Hồ Chí Minh đã được phân tích bằng máy sonograph như trên Hình 2.5.
Luận án đã tiến hành phân tích biến thiên F0 của sáu thanh điệu tiếng Việt trên bộ
ngữ liệu VDSPEC. Mỗi phương ngữ chọn ba giọng nam và ba giọng nữ làm đại diện. Với
mỗi người nói, sáu từ tương ứng với sáu thanh điệu bao gồm "khi", "trường", "thuế",
"mại", "thử", "phẫu" được tách riêng và tính tần số cơ bản F0 bằng bộ công cụ Praat1. Các
từ này được tách từ câu nói liên tục với các từ đứng liền trước và từ đứng liền sau được
trình bày trên Bảng 2.14. Trên thực tế, thời hạn của các thanh điệu là khác nhau. Để làm rõ
sự khác biệt giữa các thanh điệu và dễ dàng quan sát trên cùng đồ thị, độ dài tiếng nói mỗi
thanh điệu được chuẩn hóa về cùng một giá trị là 0,5 giây. Giá trị F0 được vẽ trên đồ thị là
trung bình F0 của ba giọng đã lựa chọn tương ứng với mỗi phương ngữ. Đồ thị biến thiên
sáu thanh điệu tiếng Việt của ba phương ngữ được vẽ gộp trên cùng một hình và tách riêng
theo giới tính (Hình 2.9, Hình 2.10). Trục tung là tần số (đơn vị Hz). Trục hoành là thời
gian đã chuẩn hóa (đơn vị là giây).
Nhìn chung, sự biến thiên F0 của sáu thanh điệu có sự khác biệt đáng kể giữa các
phương ngữ. Dáng điệu biến thiên F0 cũng khá tương đồng với kết quả phân tích đã có
trong [2].
1 www.praat.org
80
Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu
Trừ đứng trước Từ được chọn Từ đứng sau
sau khi thử
thị trường các
giảm thuế chủ
thương mại cổ
khi thử phản
lần phẫu thuật
Đồ thị cho thấy phương ngữ Bắc có phạm vi biến thiên F0 rộng hơn so với hai
phương ngữ còn lại trên cả sáu thanh điệu. Đối với thanh ngang của ba phương ngữ, biến
thiên F0 là khá nhỏ. Thanh sắc giọng Hà Nội có F0 bắt đầu ở mức trung bình sau đó tăng
lên. Còn với giọng Huế, chênh lệch giữa giá trị bắt đầu và kết thúc của F0 nhỏ hơn so với
giọng Hà Nội và giọng Thành phố Hồ Chí Minh.
Hình 2.9: Biến thiên F0 các thanh điệu của giọng nữ Hà Nội (a), Huế (b)
và Thành phố Hồ Chí Minh (c)
Hình 2.10: Biến thiên F0 các thanh điệu của giọng nam Hà Nội (a), Huế (b)
và Thành phố Hồ Chí Minh (c)
81
Đối với thanh huyền của ba phương ngữ, F0 bắt đầu ở mức dưới trung bình đối với
giọng nam và cao hơn ở giọng nữ sau đó giảm tương đối đều về cuối. Với thanh nặng, F0
bắt đầu ở mức trung bình hoặc dưới trung bình và giảm nhanh ở cuối cho giọng Hà Nội.
Nói chung đối với giọng Huế, F0 có xu hướng đi xuống đơn điệu như là thanh huyền hay
thanh nặng của giọng Hà Nội hoặc giọng Thành phố Hồ Chí Minh. Đối với thanh ngã
giọng Thành phố Hồ Chí Minh, biến thiên F0 có xu hướng đi lên ở cuối theo kiểu thanh
sắc giọng Hà Nội. Dải biến thiên F0 cho cả 6 thanh của giọng Huế đều hẹp hơn so với
giọng Hà Nội và giọng Thành phố Hồ Chí Minh.
Sự khác biệt biến thiên F0 của sáu thanh điệu giữa ba phương ngữ trên có thể được
sử dụng để phân biệt các phương ngữ với nhau và dùng làm tham số cho hệ thống nhận
dạng phương ngữ.
2.7.2. Phân tích thống kê phân bố F0 của các thanh điệu
Kết quả phân tích đã trình bày tại mục 2.7.1 phần nào cho thấy phạm vi biến thiên
F0 các thanh điệu của ba phương ngữ song chủ yếu giúp quan sát dáng điệu biến thiên F0
các sáu thanh điệu với mỗi phương ngữ. Để có được phạm vi biến thiên F0 của các thanh
điệu trên toàn bộ ngữ liệu VDSPEC, dữ liệu tiếng nói liên tục của 150 người nói gồm 75
nam và 75 nữ đã được tách riêng theo sáu từ tương ứng với sáu thanh điệu để tính F0 và
thực hiện thống kê. Dữ liệu phân tích thống kê phân bố F0 của các thanh điệu được biểu
diễn bằng các đồ thị boxplot. Đồ thị boxplot giúp quan sát được sự tập trung hay tản mát
của dữ liệu, miền giá trị mà dữ liệu tập trung nhiều... Hình chữ nhật ứng với phân bố của
50% giá trị dữ liệu. Kích thước hình chữ nhật này càng hẹp, dữ liệu càng tập trung trong
dải chữ nhật này. Vị trí đường nằm ngang trong hình chữ nhật tương ứng với trung vị. Giá
trị trung bình biểu diễn bằng chấm tròn.
Hình 2.11: Biến thiên F0 của thanh hỏi Hình 2.12: Biến thiên F0 của thanh ngã
100
120
140
160
180
200
220
240
F
0
(
H
z)
Thanh hỏi Trung bình
50
100
150
200
250
300
350
400
F
0
(
H
z)
Thanh ngã Trung bình
82
Hình 2.13: Biến thiên F0 của thanh nặng Hình 2.14: Biến thiên F0 của thanh ngang
Các file đính kèm theo tài liệu này:
- luan_an_nhan_dang_tu_dong_tieng_noi_phat_am_lien_tuc_cho_cac.pdf