Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan, người ta đã
nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có tài nguyên hạn chế để
đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc thù của hệ thống tài
nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử dụng lượng bộ nhớ và
chí phí tính toán đủ nhỏ. Các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả
trên những hệ thống có tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính
toán rất thấp.
39 trang |
Chia sẻ: mimhthuy20 | Lượt xem: 584 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp, nhận dạng Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
i sử dụng phương pháp PSOLA.
Cảm nhận bằng tai câu nói tổng hợp, so sánh với câu nói gốc và điều chỉnh lại.
Các kết quả phân tích cơ sở dữ liệu cho thấy, các thanh ngang, sắc, ngã được biểu diễn
bằng một lệnh thanh điệu dương, thanh huyền và hỏi được biểu diễn bằng một lệnh thanh điệu
âm, thanh nặng không cần lệnh thanh điệu.
Bảng 3. 5. Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu
Thanh điệu Biểu diễn bằng lệnh thanh điệu
Ngang Một lệnh thanh điệu dương ở trước âm tiết
Sắc Mộtlệnh thanh điệu dương
Hỏi Một lệnh thanh điệu âm
Huyền Một lệnh thanh điệu âm
Ngã Một lệnh thanh điệu dương
Nặng Một dùng lệnh thanh điệu
Các câu được phân tích chỉ sử dụng một lệnh ngữ cho cả câu, phù hợp với hiện tượng trong
câu nói, người nói th ường lên giọng ở đầu câu và hạ giọng ở cuối câu. Tuy nhiên trong tiếng
Việt hiện tượng này không rõ rệt như ở các ngôn ngữ khác nên cường độ của lệnh ngữ này
không lớn.
17
Hình 3. 8. Kết quả phân tích thanh điệu tiếng Việt bằng mô hình Fujisaki
Thanh ngã và thanh sắc được biểu diễn bằng môt lệnh ngữ điệu dương phù hợp với nhận
xét về sự giống nhau giữa 2 thanh này trong phần trước.
Thanh hỏi có đường nét F0 đi xuống, đến giữ a thanh, đường nét F0 lại đi lên, thanh này
giống thanh T3 (low tone) của tiếng Trung và được biểu diễn bằng một lệnh thanh điệu âm giống
như trường hợp của tiếng Trung.
Bảng 3. 6. Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu.
Thanh Aa T1rel T2rel
1 .218 -.09 .86
2 .523 .61 1.04
3 .556 .53 1.11
4 -.341 .45 .91
5 -.132 .37 1.07
6 .00 - -
6’ -.378 .42 .70
2’ .617 .16 .84
Quy định thời gian đơn giản được xây dựng bằng thực nghiệm. Các kết quả được thể hiện
trong Bảng 3.6 và 3.7. Thời gian được đo bằng 10 đơn vị mi li giây. Kết quả thống kê cho thấy
thời gian của âm phụ thuộc nhiều hơn nữa về thanh điệu hơn vị trí. Âm với thanh điệu 3, 6 'và 2'
ngắn hơn những âm khác. Kết quả cho thấy các đường bao F0 được tạo ra bởi các mô hình
Fujisaki nói chung làm việc tốt cho câu tiếng Việt.
Phân lớp thanh điệu trong ngữ cảnh câu
Trong [4] chúng tôi đã trình bày cách phân lớp thanh điệu trong ngữ lưu. Cách tiếp cận này
dùng phương pháp lượng tử hóa các dạng đường thanh điệu để quy về một số lớp thanh điệu có
đường nét đặc trưng cho mỗi lớp. Sau khi lượng tử hóa dùng cây quyết định khảo sát sự chuyển
lớp của các thanh điệu dựa trên thông tin văn bản. Từ đó đưa ra những khảo sát hiện tượng biến
thanh trong tiếng Việt nhằm cải tiến ngôn điệu trong hệ tổng hợp tiếng Việt.
Số lượng các dạng đường thanh điệu trong câu liên tục tăng lên rất nhiều lần so với âm tiết
rời rạc, để phân cụm các đường thanh điệu về một số lớp, dùng phương pháp lượng tử hóa tập
các đường thanh điệu mẫu quy về một số lớp hữu hạn. Số lớp này lớn hơn số các đường thanh
18
điệu tiếng Việt 6 thanh. Trong luận án chỉ xét sự biến thiên đường thanh điệu trong 3 âm tiết liên
tục.
Hình 3. 9. Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu sử dụng
Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo
Cơ sở dữ liệu gồm hơn 1250 câu tiếng nói đọc bởi phát thanh viên chuyên nghiệp, giọng
Hà Nội, đã được sử dụng trong phần thực nghiệm này. Tập câu được ghi âm với tần số lấy mẫu
là Fs=22050Hz, đơn kênh, độ phân giải một mẫu là 16bit.
Để tăng độ chính xác của giá trị ngôn điệu được dự báo như trường độ và âm lượng của âm
tiết trong câu tổng hợp, chúng tôi đã tiến hành phân tích các tham số thống kê chi tiết của các giá
trị này trong các ngữ cảnh âm vị khác nhau của cơ sở dữ liệu câu huấn luyện như được tóm tắt ở
các bảng dưới đây:
Bảng 3. 7. Bảng độ dài âm vị không tính ngữ cảnh
Tên âm vị Tần suất Độ dài min
(s)
Độ dài max
(s)
Trung bình Độ lệch
chuẩn
a 2280 0.021855 0.646632 0.119814 0.066424
iz 1948 0.016414 0.390000 0.078273 0.043617
m 710 0.025538 0.245256 0.085783 0.033361
aw 828 0.024235 0.242580 0.077581 0.029928
mz 487 0.026109 0.295968 0.117891 0.046261
k 1315 0.015311 0.320000 0.041839 0.017588
th 599 0.022596 0.162560 0.066307 0.023378
ch 687 0.020341 0.300000 0.061498 0.022193
cz 619 0.011557 0.127612 0.044278 0.021161
s 332 0.024672 0.210381 0.104234 0.043465
uz 673 0.019240 0.481884 0.097447 0.045938
kh 291 0.018458 0.215535 0.093406 0.029868
Bảng 3. 8. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối
Nguyên
âm
Âm đầu Âm cuối Tần suất Độ dài
min (s)
Độ dài
max
Trung bình Độ lệch
chuẩn
a ch,th,ph null 53 0.067591 0.354356 0.167803 0.061436
m,n,n,ng ban
nguyen
67 0.034432 0.162890 0.082867 0.032960
Tập các
véc tơ F0
huấn luyện
Phân
cụm
LBG
Codeboo
k
Bộ lượng
tử hóa
(lớp thanh
điệu)
Véc tơ F0 âm tiết vào
Chỉ số
codebook
CSDL
âm và gán
nhãn văn
bản
CSDL
âm tiết
biến
thanh
19
am
Bảng 3. 9. Bảng độ dài âm cuối ràng buộc bởi nguyên âm
Âm cuối Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch
chuẩn
cz aw 37 0.017871 0.103455 0.048423 0.022201
cz i 11 0.019492 0.064362 0.033094 0.012113
iz uo 31 0.027146 0.200000 0.086638 0.049505
iz uwow 173 0.018976 0.169185 0.063940 0.034708
mz aa 48 0.049768 0.295968 0.137286 0.051088
mz ow 16 0.074060 0.256748 0.130268 0.045005
pz a 9 0.026369 0.069933 0.042885 0.015182
pz aw 15 0.018157 0.112483 0.055905 0.028921
tz a 48 0.019623 0.090000 0.041001 0.016166
tz aw 74 0.016356 0.134143 0.044069 0.023076
uz aw 142 0.023469 0.481884 0.110776 0.058130
uz e 38 0.027209 0.187259 0.073656 0.032710
uz uw 8 0.049287 0.118485 0.076594 0.023276
Bảng 3. 10. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm
Phụ âm đầu Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch
chuẩn
b aw 54 0.025391 0.207781 0.076246 0.030834
b ee 28 0.036980 0.120000 0.074974 0.019760
ch a 20 0.034816 0.102819 0.063057 0.015888
ch u 67 0.024178 0.300000 0.059879 0.034934
h i 21 0.036870 0.090697 0.060960 0.015621
h u 11 0.040000 0.157039 0.078191 0.034558
k e 22 0.022826 0.170296 0.043214 0.030460
k ee 42 0.020343 0.062757 0.039003 0.011922
k u 115 0.015311 0.078733 0.038037 0.012070
kh a 42 0.052388 0.167643 0.100004 0.025507
kh ie 12 0.051503 0.210360 0.110791 0.046332
l a 369 0.029959 0.165244 0.074203 0.026375
l oa 23 0.052390 0.124459 0.087344 0.020237
l oo 20 0.042708 0.190000 0.094174 0.039680
m a 158 0.033945 0.206957 0.078506 0.029608
m aa 45 0.028441 0.166226 0.095594 0.034975
m uwow 28 0.025538 0.145181 0.071455 0.027013
ph a 61 0.023593 0.138148 0.066544 0.023755
ph uwow 33 0.049614 0.153171 0.090524 0.021938
s a 63 0.028638 0.186613 0.110303 0.036228
s aa 13 0.026092 0.183017 0.077653 0.050040
t ow 25 0.018038 0.114752 0.036266 0.022071
t u 33 0.012559 0.060969 0.028529 0.011556
th aa 74 0.023631 0.100928 0.056069 0.017729
th ie 22 0.028795 0.121672 0.077662 0.026268
v a 151 0.020957 0.162675 0.061447 0.029520
v uwow 15 0.035674 0.083957 0.062528 0.011667
Dự báo ngôn điệu
Trong kỹ thuật tổng hợp tiếng Việt, chất lượng tổng hợp tập trung chính vào trường độ và
cao độ của âm vị, đó là hai tham số chính truyền đạt thông tin ngữ âm.
20
Bộ phân tích ngôn điệu của hệ thống TTS tập trung vào việc tính toán giá trị của tập các
biến ngữ âm. Trong một dạng tối thiểu, các biến này là trường độ âm vị và F0. Việc tính toán các
giá trị như vậy có thể dựa vào các quy luật hoặc dựa vào các phương pháp học máy, như mô hình
CART. Kết quả trên việc sử dụng CART được huấn luyện với các phong cách đọc khác nhau đã
được nghiên cứu trong nhiều hệ thống TTS tiếng nước ngoài cũng như cho tiếng Việt, điểm mới
ở đây là chúng tôi vận dụng mô hình dự báo CART để dự báo cả trường độ và âm lượng của các
đơn vị tiếng Việt như âm vị, âm tiết và sử dụng giá trị gián tiếp Z-score được tính dựa trên các
tham số thống kê của đơn vị âm trong ngữ cảnh câu, thay thế cho các giá trị trường độ gốc của
đơn vị âm. Hai hệ số đo sai số là dự báo hệ số tương quan và trung bình độ lệch bình phương cho
mô hình CART được cho như sau:
1
2 2
1 1
M
obs predobs pred
m m
m
M M
obs predobs pred
m m
m m
d d d d
R
d d d d
2
1
1 M obs pred
m m
m
RMSE d d
M
Ở đây M là kích thước dữ liệu của tập huấn luyện hoặc kiểm tra, obsmd ,
obs
d là trường độ và
trung bình thực tế, predmd ,
pred
d là trường độ và trung bình dự đoán của mô hình.
Thử nghiệm và kết luận
Sau khi huấn luyện mô hình dự báo CART các tham số đánh giá độ chính xác dự báo trường độ
của âm tiết của các câu không năm trong cơ sở dữ liệu âm huấn luyện đạt được với R=0.87 và
RMSE=0.044(s). Các ước lượng này là tốt hơn xét trên độ lớn của tập câu huấn luyện và dự báo
và so sánh với các kết quả của các tác giả khác, ở đó độ chính xác dự báo là R=0.5794 và
RMSE=0.0531(s). Ngoài ra việc dự báo giá trị âm lượng đã đạt được kết quả tốt, âm lượng của
các âm tiết ở giữa và các âm tiết là từ dừng như “rằng”, “thì”, “là”, “và”, “mà” v.v là hoàn
toàn phù hợp trong câu được tổng hợp.
Chúng tôi đã ứng dụng mô hình dự báo ngôn điệu tiếng Việt ở mức câu vào bộ tổng hợp
tiếng Việt Vnvoice (một sản phẩm thương mại được viết chính bởi tác giả bài báo). Vnvoice đã
có đầy đủ các mô đun chuẩn hóa văn bản tiếng Việt [3] [30] cho hệ thống TTS, ngoài ra
Vnvoice còn có tính năng phân biệt từ tiếng Anh trộn lẫn trong văn bản tiếng Việt, phát âm tự
động các âm tiết trong câu văn bản, chèn khoảng lặng thích hợp vào các âm tiết tận cùng hoặc
bắt đầu là p-t-c/ch, âm tiết mang dấu nặng [3], thay đổi tốc độ đọc (nhanh và chậm) v.v Đầu ra
tín hiệu âm thanh của Vnvoice được biến đổi về trường độ/âm lượng sử dụng mô đun dự báo tích
hợp bên trong.
(3.1)
(3.2)
21
Hình 3.11. Câu “Lũ trẻ bắt được cà ra đem bán lấy tiền mua sách.” trong CSDL ngữ
âm.(xem Phụ lục)
Hình 3.12 : Hệ phát âm tài liệu Microsoft Word sử dụng nhân của Vnvoice.
Thử nghiệm cho thấy chất lượng âm tổng hợp đã cải thiện được độ tự nhiên khi được điều
khiển trường độ và âm lượng ở mức độ âm tiết của câu tổng hợp.
22
“Tôi đang học nói tiếng Việt”
Câu tổng hợp từ Vnvoice chưa thay đổi
trường độ/âm lượng
“Tôi đang học nói tiếng Việt”
Thay đổi trường độ/âm lượng của câu tổng
hợp
Hình 3. 13. Thay đổi trường độ/âm lượng của đầu ra của Vnvoice
Đánh giá kết quả
Để đánh giá độ tự nhiên tiếng nói tổng hợp sau khi ghép phần dự báo trường độ và âm
lượng, chúng tôi sử dụng độ đo MOS (Mean Opinion Score)
Người nghe đánh giá chất lượng tiếng nói của mô đun tổng hợp Vnvoice trước và sau
khi ghép mô đun dự báo trường độ và âm lượng khác nhau trên cùng tập câu mẫu. Thang điểm
đánh giá trong bảng dưới đây:
Bảng 3.13: Thang điểm độ đo MOS.
Chất lượng tiếng nói tổng hợp Đ
iểm
Xuất sắc 4.1 – 5
Tốt 3.1 – 4
Bình thường 2.1 – 3
Kém 1.1 – 2
Tồi 0 – 1
Phương pháp này đo sự ảnh hưởng của ngôn ngữ và yếu tố tâm lý. Văn bản kiểm tra
được phân thành một số chủ đề khác nhau như: chính trị, kinh tế, thể thao, khoa học, Văn bản
mẫu này cho người nghe đánh giá toàn bộ chất lượng tiếng nói tổng hợp ở theo các phương pháp
tổng hợp khác nhau và cho điểm. Điểm trung bình là điểm cuối cùng để đánh giá.
Chúng tôi chọn 10 cán bộ nghiên cứu của Viện ngôn ngữ trong đó có 4 chuyên gia về
ngữ âm học để đánh giá.
Bảng 3.14: Kết quả đánh giá tính tự nhiên các hệ thống tổng hợp tiếng Việt.
Mô đun tổng hợp Vnvoice Vnvoice có ghép dự báo
MOS Av Av
23
3.6 0.6 3.8 0.4
Trong đó Av là điểm trung bình đánh giá, là độ lệch chuẩn.
Theo độ đo MOS, các kết quả thu được tương ứng chất lượng tiếng nói như sau:
Điểm
MOS
Chất lượng
(4.0 - 4.5) Tự nhiên, giọng người nói.
(3.5 ,4.0)
Dễ hiểu, phù hợp với các ứng dụng thông
báo, truyền thông.
(2.5 ,3.5) Giọng nhân tạo, không tự nhiên.
Hệ tổng hợp VnVoice cải tiến (3.8 điểm) tốt hơn so với VnVoice khi chưa ghép mô đun dự báo
âm lượng và trường độ (3.6 điểm). Tuy nhiên, VnVoice đã cải tiến vẫn cần hoàn thiện hơn nữa
bằng cách thử nghiệm các mô hình thanh điệu và mô hình trường độ khác nhau.
Tổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế
Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan, người ta đã
nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có tài nguyên hạn chế để
đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc thù của hệ thống tài
nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử dụng lượng bộ nhớ và
chí phí tính toán đủ nhỏ. Các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả
trên những hệ thống có tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính
toán rất thấp.
24
CHƯƠNG 4. KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ THANH ĐIỆU ĐỂ NÂNG
CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT
Các tác giả đã đưa ra một mô hình sử dụng ngôn điệu để nâng cao chất lượng nhận dạng
tiếng nói trong đó mô hình cho từ và âm vị là hai mô hình cho từ và nhận dạng được xây dựng
trên ngữ điệu của một ngữ đoạn tiếng nói và trọng âm các phân tích lý thuyết và thực nghiệm đã
chứng tỏ rằng: thông tin âm học kết hợp với ngữ điệu và mô hình ngôn ngữ đã tăng thông tin cho
việc đưa ra giả thuyết từ đúng để quyết định từ đúng. Bộ nhận dạng tiếng nói có tích hợp của các
tác giả đã rút gọn được 11% lỗi so với bộ nhận dạng không có kết hợp ngôn điệu. Ngoài ra các
tác đã phân tích ảnh hưởng của ngôn điệu đối với các hệ số MFCC.
Các tác giả đã kết hợp thông tin tần số cơ bản để xây dựng bộ lọc thay thế phép lọc truyền
thống – tam giác trong quá trình tính toán các hệ số MFCC, với bộ lọc này các tác giả đã chứng
tỏ hệ số MFCC được biến đổi đã tăng khả năng phân biệt và giảm ảnh hưởng nhiễu của bộ nhận
dạng tiếng nói.
Các tác giả đã kết hợp giá trị của tần số cơ bản vào đặc trưng MFCC bình đẳng như các
thành phần khác của vector hệ số MFCC. Với một thử nghiệm có giới hạn cho một bộ nhận dạng
tiếng nói liên tục các tác giả đã chỉ ra khả năng tăng độ chính xác nhận dạng khi kết hợp đặc
trưng thanh điệu tiếng Việt vào bộ nhận dạng
Trong chương này chúng tôi trình bày các kết quả nghiên cứu của chúng tôi trong vấn đề
kết hợp đặc trưng thanh điệu và đặc trưng cấu âm của người nói để tăng độ chính xác của bộ
nhận dạng tiếng nói rời rạc hoặc liên tục
Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0
Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu, các tần số
formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một vấn đề tất yếu
nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về xử lý âm thanh tiếng Việt.
Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa trên đặc trưng chuẩn MFCC
25
Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ cảnh để
nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu tiếng Việt. Các tiếp cận này chủ
yếu vẫn ghép trực tiếp đặc trưng thanh điệu vào các kiểu đặc trưng tiếng nói như MFCC, PLP.
Có một tiếp cận khác sử dụng giá trị đường F0, các tần số formant để xây dựng một phép hiệu
chỉnh lại các đặc trưng MFCC, dẫn đến kiểu đặc trưng không phụ thuộc người nói trong cả quá
trình huấn luyện và nhận dạng, qua đó kết quả nhận dạng của các hệ thống không phụ thuộc
người nói được cải thiện đáng kế.
Phép chuẩn hóa VTLN
VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ các tham
số hiệu chỉnh tần số cho mỗi người nói hoặc một phát âm. Có hai tiếp cận chính cho VTLN, một
là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học của người nói như các tần số
formant, hai là cách duyệt trên lưới của tham số hiệu chỉnh để tối ưu hóa hàm mục tiêu của mô
hình nhận dạng.
Hình 4. 1. Hiệu chỉnh tần số và trích chọn đặc trưng MFCC
Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t) trong miền tần số bằng biến đổi FFT:
X()= H()S() + N(), ở đó H() là biến dạng kênh và N() nhiễu cộng của tín hiệu. Sử dụng
M bộ lọc tam giác với khoảng cách giữa các vị trí k trong thang tần số mel:
1
1
1
1
1
1
, [ , ]
( )
, [ , ]
k
k k
k k
k
k
k k
k k
B
,
1 1
2
[ , ]
( ) ( ) ( )
k k
kY m B X
,0m M-1 (*)
MFCC(n) =
1
0
1
2
os log ( )
M
m
n m
c Y m
M
, 0nN-1
Khi đó với phép hiệu chỉnh tần số có dạng ’= () thì công thức (*) trở thành :
1 1
2
[ , ]
( ) ( ) ( ( ))
k k
kY m B X
Tổ hợp giá trị F0 và chuẩn hóa VTLN
Phương pháp ghép giá trị F0 vào các hệ số MFCC đã được nắn lại sau phép hiệu chỉnh tần
số đề xuất trong nghiên cứu của tác giả này được thực hiện gồm 4 bước chính sau:
Bước 1. Xác định tham số và hiệu chỉnh lại các vector đặc trưng MFCC nhờ phương
pháp huấn luyện hợp lý cực đại ML (xem quy trình nêu ở bước 4)
Bước 2. Tính F0 theo thuật toán RAPT, nội suy xác định giá trị liên tục của đường F0 trên
cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0.
(4.1)
(4.2)
(4.2)
26
Bước 3. Kết hợp F0 với các hệ số MFCC đã hiệu chỉnh
Thuật toán xác định tham số hiệu chỉnh dựa trên phương pháp huấn luyện hợp lý cực đại
ML (maximum likelihood) được cài đặt như sau :
Bước 4. Huấn luyện và giải mã.
d. Giai đoạn huấn luyện :
Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame
Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi:
1
1
({ } ) arg max log ( , ), ( )
T
T
t t t t t
t
S s p O W O O
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :
min ax
*
[ , ]
1
arg max log ( , ), ( )
m
T
t t t t
t
p O s O O
Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và tham
số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM:
* *
*
*
1
arg max log ( , , ), ( )
T
t t t t
t
p O s W O O
Bước 4: Đặt =*, và =*, lặp lại tới khi mô hình hội tụ.
e.Giai đoạn giải mã (nhận dạng):
Với một phát âm đầu vào gồm T frame
Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ
tham số mô hình HMM đã cho:
1
1
( , { } ) arg max log ( , )
T
T
t t t t
t
W S s p O s
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :
min ax
*
[ , ]
1
arg max log ( , ), ( )
m
T
t t t t
t
p O s O O
Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra:
**
1
arg max log ( , )
T
t t
t
W p O s
Do thuật toán HMM chuẩn có độ phức tạp là O(VN2T), ở đây N là số trạng thái của mô
hình HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong thử nghiệm này,
là số âm vị với các nguyên âm mang thanh điệu) và T là số frame đầu vào , nên độ phức tạp của
thuật toán HMM có kết hợp với VTLN là O(KVN2T), trong đó K là số giá trị rời rạc hóa trên
lưới giá trị của tham số [min, max] (ở đây min = 0.85, max = 1.15, mức rời rạc hóa theo bước
0.0001)
(4.4)
27
Thử nghiệm trên tập tên riêng phức tạp
Tập thử nghiệm của ứng dụng là tên của khoảng 300 trường Đại học và Cao đẳng trong
nước (một số tên trường có thể không còn trong thực tế).
Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm, nguyên âm
chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được huấn luyện.
Giá trị đường F0 và các vector đặc trưng MFCC được trích chọn với các frame độ dài 25
mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây. Các vector đặc trưng gồm 12 hệ
số MFCC và 1 hệ số năng lượng và các sai phân bậc 1 và bậc 2 của 13 hệ số này. Các HMM có
hàm mật độ xác suất liên tục. Việc hiệu chỉnh các vector MFCC và ghép giá trị F0 sử dụng
phương pháp đã trình bày ở trên.
Bảng 4. 1. Bảng kết quả thực nghiệm kiểm tra
Người
đọc
Đặc trưng chuẩn MFCC Đặc trưng MFCC + F0 VTLN-MFCC + F0
mức từ mức câu mức từ mức câu mức từ mức
câu
Nu1 93,8 82,2 92,7 81,2 96,7 88,5
Nu2 97,0 86,3 97,3 88,4 97,6 89,4
Nu3 95,5 82,8 93,4 78,7 96,4 87,8
Nu4 97,4 90,9 97,0 88,8 97,6 91,9
Nu5 95,5 85,1 97,1 91,0 98,9 97,0
Nu6 86,7 67,7 88,1 72,9 91,8 81,2
Nu7 95,7 84,6 96,9 89,9 98,1 93,8
Nam1 98,6 92,9 98,5 92,9 98,9 94,9
Nam2 95,3 79,0 96,5 86,0 97,3 88,0
Nam3 97,1 88,8 97,7 93,9 98,6 96,2
Trung
bình
95,3 84,6 95,6 86,4 97,1 90,6
Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant
tham số VTLN đề xuất cách ước lượng tự động từ các giá trị trung bình của formant F3 của
tiếng nói đầu vào và của tập huấn luyện, tuy nhiên các tác giả không đưa ra cách tính trong
trường hợp thời gian thực và trong trường hợp frame tiếng nói đầu vào là vô thanh (các giá trị
F0, formant không xác định được)
Xấp xỉ giá trị trung bình trong thời gian thực:
Nếu cho trước N hữu hạn số thực x1, x2,,xN thì dễ dàng tính được giá trị trung bình
1
N
k
k
mean
x
x
N
. Phép tính giá trị trung bình tuy đơn giản nhưng thường xuyên được sử dụng trong
phép chuẩn hóa đặc trưng MFCC để giảm thiểu sai lệch về phổ giữa đặc trưng của tập người
huấn luyện và đặc trưng của người nói mới.
28
1
1
1
N
N
k
N k
utt k kk
k
mfcc
mfcc mfcc mfcc
N
Ở đây N là số frame của ngữ đoạn tiếng nói,
1
N
k k
mfcc
là dãy N vector đặc trưng MFCC của N
frame. Trong [12] [39] các tác giả đã chứng tỏ chỉ với phép chuẩn hóa CMN đã cải thiện được độ
chính xác nhận dạng tiếng nói.
Trrong thời gian thực, số frame không được xác định cho tới khi bộ tìm kiếm điểm đầu và cuối
(Endpoint detector) phát hiện được.
Vấn đề có thể phát biểu hình thức như sau:
Cho trước
1n n
x
là dãy vector số có số chiều hữu hạn , xác định dãy vector
1n n
y
như
sau: y1=y0+x1, yn=yn-1 + xn, n=2,3, , (0,1), + =1, y0 = 0 hoặc được xác định
trước.
Trong các ứng dụng xử lý tín hiệu số, tiếng nói hoặc dữ liệu ảnh thường các vector xn biến
đổi xung quanh một giá trị trung bình (tổng quát là kiểu các biến ngẫu nhiên có cùng phân
bố)sau khi phép tiền xử lý tín hiệu đã đi qua một phép phân cụm, phân loại tín hiệu (chẳng hạn
phép phân loại tín hiệu nền/nhiễu/tiếng nói trong xử lý tiếng nói.)
Mệnh đề 1: N > 1, n>N
1
1 1 1 1
1
2 ax ( 1 ) ax 2 ax ( ) ax
1 1
n n
k k
k n k k n k
k k k N k n k N k n
n n
x x Nm x n N m x x Nm x n N m x x
y y
n n n n n
Từ ước lượng này ta thấy để yn gần giá trị trung bình thông thường của x1,x2,,xn ta có thể
chọn rất gần 0.
Mệnh đề 2:
N > 1, n > N.
2
1
axNn N N n N n l N l
N l n N
y y y y m x x
Mệnh đề 3:
1n n n
x y
là dãy có tổng trung bình các phần tử xấp xỉ 0 tại mọi thời điểm.
Nhận xét : Với tín hiệu tiếng nói, thường x1,y1 xấp xỉ vector 0, nên
1 1
n
n
k k
k
y
x y
Dựa trên [38], chúng tôi đề xuất cách ước lượng tham số VTLN như sau cho dãy frame
tiếng nói câu đọc vào [CT5]:
3 0 3trainF F
3 1 3
3
3 1
aF i bF i
F i
F i
, nếu frame(i) là hữu thanh
(4.5)
29
, trái lại
ở đây a, b là 2 hệ số, a,b(0,1),
a+b =1, chúng tôi chọn a=0.95,
b=0.05 khi thực nghiệm.
max min
3
min , ax ,
3
trainF
i m
F i
Ở đây 3trainF là giá trị trung bình format F3 trên toàn tập các frame hữu thanh của tiếng nói
huấn luyện, F3(i) là các giá trị ước lượng formant F3(i) từ thuật toán RAPT.
Nhận dạng thanh điệu tiếng Việt
Trong chương này chúng tôi trình bày các kết quả nghiên cứu của chúng tôi trong vấn đề kết hợp
đặc trưng thanh điệu và đặc trưng cấu âm của người nói để tăng độ chính xác của bộ nhận dạng
tiếng nói rời rạc hoặc liên tục
Nhận dạng thanh điệu là vấn đề phức tạp ngay cả với các hạn chế là tiếng nói được đọc rời từng
âm tiết và cho một người nói xác định. Để đặc trưng hóa các thanh điệu tiếng Việt, ngoài tần số
cơ bản F0 thì cần có thêm một số tham số khác như trường độ, năng lượng. Trong ngữ lưu tiếng
nói có sự biến thanh mà để lượng hóa nó chúng ta cần phải dùng đến các mô hình lượng hóa
phức tạp như Fujisaki, Xu. Trong dạng rời rạc, đường nét thanh điệu mới tương đối ổn định,
nhưng cũng không dễ dàng khu biệt được chúng, chẳng hạn có giọng nói thanh huyền có đường
nét rất giống với thanh hỏi.
(4.6)
30
Hình 4. 2. Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc
ww
ax 1 ax axmin : , 0.9 , 0.9u m j m j mj j j j E E E E
ax 1 axmax : , 0.1 , 0.1l u j m j mj j j j E E E E
Để tăng độ chính xác của kết quả nhận dạng thông qua mạng nơ ron dựa trên tri thức về sự
phụ thuộc thanh vào trường độ âm tiết, chúng tôi sử dụng các luật Heuristic sau để loại nhanh
một số trường hợp:
Luật 1: trung
Các file đính kèm theo tài liệu này:
- tom_tat_lats_ngo_hoang_huy_1501_1854473.pdf