Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp, nhận dạng Tiếng Việt

Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan, người ta đã

nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có tài nguyên hạn chế để

đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc thù của hệ thống tài

nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử dụng lượng bộ nhớ và

chí phí tính toán đủ nhỏ. Các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả

trên những hệ thống có tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính

toán rất thấp.

39 trang | Chia sẻ: mimhthuy20 | Lượt xem: 876 | Lượt tải: 1Free

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp, nhận dạng Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

i sử dụng phương pháp PSOLA.  Cảm nhận bằng tai câu nói tổng hợp, so sánh với câu nói gốc và điều chỉnh lại. Các kết quả phân tích cơ sở dữ liệu cho thấy, các thanh ngang, sắc, ngã được biểu diễn bằng một lệnh thanh điệu dương, thanh huyền và hỏi được biểu diễn bằng một lệnh thanh điệu âm, thanh nặng không cần lệnh thanh điệu. Bảng 3. 5. Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu Thanh điệu Biểu diễn bằng lệnh thanh điệu Ngang Một lệnh thanh điệu dương ở trước âm tiết Sắc Mộtlệnh thanh điệu dương Hỏi Một lệnh thanh điệu âm Huyền Một lệnh thanh điệu âm Ngã Một lệnh thanh điệu dương Nặng Một dùng lệnh thanh điệu Các câu được phân tích chỉ sử dụng một lệnh ngữ cho cả câu, phù hợp với hiện tượng trong câu nói, người nói th ường lên giọng ở đầu câu và hạ giọng ở cuối câu. Tuy nhiên trong tiếng Việt hiện tượng này không rõ rệt như ở các ngôn ngữ khác nên cường độ của lệnh ngữ này không lớn. 17 Hình 3. 8. Kết quả phân tích thanh điệu tiếng Việt bằng mô hình Fujisaki Thanh ngã và thanh sắc được biểu diễn bằng môt lệnh ngữ điệu dương phù hợp với nhận xét về sự giống nhau giữa 2 thanh này trong phần trước. Thanh hỏi có đường nét F0 đi xuống, đến giữ a thanh, đường nét F0 lại đi lên, thanh này giống thanh T3 (low tone) của tiếng Trung và được biểu diễn bằng một lệnh thanh điệu âm giống như trường hợp của tiếng Trung. Bảng 3. 6. Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu. Thanh Aa T1rel T2rel 1 .218 -.09 .86 2 .523 .61 1.04 3 .556 .53 1.11 4 -.341 .45 .91 5 -.132 .37 1.07 6 .00 - - 6’ -.378 .42 .70 2’ .617 .16 .84 Quy định thời gian đơn giản được xây dựng bằng thực nghiệm. Các kết quả được thể hiện trong Bảng 3.6 và 3.7. Thời gian được đo bằng 10 đơn vị mi li giây. Kết quả thống kê cho thấy thời gian của âm phụ thuộc nhiều hơn nữa về thanh điệu hơn vị trí. Âm với thanh điệu 3, 6 'và 2' ngắn hơn những âm khác. Kết quả cho thấy các đường bao F0 được tạo ra bởi các mô hình Fujisaki nói chung làm việc tốt cho câu tiếng Việt. Phân lớp thanh điệu trong ngữ cảnh câu Trong [4] chúng tôi đã trình bày cách phân lớp thanh điệu trong ngữ lưu. Cách tiếp cận này dùng phương pháp lượng tử hóa các dạng đường thanh điệu để quy về một số lớp thanh điệu có đường nét đặc trưng cho mỗi lớp. Sau khi lượng tử hóa dùng cây quyết định khảo sát sự chuyển lớp của các thanh điệu dựa trên thông tin văn bản. Từ đó đưa ra những khảo sát hiện tượng biến thanh trong tiếng Việt nhằm cải tiến ngôn điệu trong hệ tổng hợp tiếng Việt. Số lượng các dạng đường thanh điệu trong câu liên tục tăng lên rất nhiều lần so với âm tiết rời rạc, để phân cụm các đường thanh điệu về một số lớp, dùng phương pháp lượng tử hóa tập các đường thanh điệu mẫu quy về một số lớp hữu hạn. Số lớp này lớn hơn số các đường thanh 18 điệu tiếng Việt 6 thanh. Trong luận án chỉ xét sự biến thiên đường thanh điệu trong 3 âm tiết liên tục. Hình 3. 9. Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu sử dụng Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo Cơ sở dữ liệu gồm hơn 1250 câu tiếng nói đọc bởi phát thanh viên chuyên nghiệp, giọng Hà Nội, đã được sử dụng trong phần thực nghiệm này. Tập câu được ghi âm với tần số lấy mẫu là Fs=22050Hz, đơn kênh, độ phân giải một mẫu là 16bit. Để tăng độ chính xác của giá trị ngôn điệu được dự báo như trường độ và âm lượng của âm tiết trong câu tổng hợp, chúng tôi đã tiến hành phân tích các tham số thống kê chi tiết của các giá trị này trong các ngữ cảnh âm vị khác nhau của cơ sở dữ liệu câu huấn luyện như được tóm tắt ở các bảng dưới đây: Bảng 3. 7. Bảng độ dài âm vị không tính ngữ cảnh Tên âm vị Tần suất Độ dài min (s) Độ dài max (s) Trung bình Độ lệch chuẩn a 2280 0.021855 0.646632 0.119814 0.066424 iz 1948 0.016414 0.390000 0.078273 0.043617 m 710 0.025538 0.245256 0.085783 0.033361 aw 828 0.024235 0.242580 0.077581 0.029928 mz 487 0.026109 0.295968 0.117891 0.046261 k 1315 0.015311 0.320000 0.041839 0.017588 th 599 0.022596 0.162560 0.066307 0.023378 ch 687 0.020341 0.300000 0.061498 0.022193 cz 619 0.011557 0.127612 0.044278 0.021161 s 332 0.024672 0.210381 0.104234 0.043465 uz 673 0.019240 0.481884 0.097447 0.045938 kh 291 0.018458 0.215535 0.093406 0.029868 Bảng 3. 8. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối Nguyên âm Âm đầu Âm cuối Tần suất Độ dài min (s) Độ dài max Trung bình Độ lệch chuẩn a ch,th,ph null 53 0.067591 0.354356 0.167803 0.061436 m,n,n,ng ban nguyen 67 0.034432 0.162890 0.082867 0.032960 Tập các véc tơ F0 huấn luyện Phân cụm LBG Codeboo k Bộ lượng tử hóa (lớp thanh điệu) Véc tơ F0 âm tiết vào Chỉ số codebook CSDL âm và gán nhãn văn bản CSDL âm tiết biến thanh 19 am Bảng 3. 9. Bảng độ dài âm cuối ràng buộc bởi nguyên âm Âm cuối Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch chuẩn cz aw 37 0.017871 0.103455 0.048423 0.022201 cz i 11 0.019492 0.064362 0.033094 0.012113 iz uo 31 0.027146 0.200000 0.086638 0.049505 iz uwow 173 0.018976 0.169185 0.063940 0.034708 mz aa 48 0.049768 0.295968 0.137286 0.051088 mz ow 16 0.074060 0.256748 0.130268 0.045005 pz a 9 0.026369 0.069933 0.042885 0.015182 pz aw 15 0.018157 0.112483 0.055905 0.028921 tz a 48 0.019623 0.090000 0.041001 0.016166 tz aw 74 0.016356 0.134143 0.044069 0.023076 uz aw 142 0.023469 0.481884 0.110776 0.058130 uz e 38 0.027209 0.187259 0.073656 0.032710 uz uw 8 0.049287 0.118485 0.076594 0.023276 Bảng 3. 10. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm Phụ âm đầu Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch chuẩn b aw 54 0.025391 0.207781 0.076246 0.030834 b ee 28 0.036980 0.120000 0.074974 0.019760 ch a 20 0.034816 0.102819 0.063057 0.015888 ch u 67 0.024178 0.300000 0.059879 0.034934 h i 21 0.036870 0.090697 0.060960 0.015621 h u 11 0.040000 0.157039 0.078191 0.034558 k e 22 0.022826 0.170296 0.043214 0.030460 k ee 42 0.020343 0.062757 0.039003 0.011922 k u 115 0.015311 0.078733 0.038037 0.012070 kh a 42 0.052388 0.167643 0.100004 0.025507 kh ie 12 0.051503 0.210360 0.110791 0.046332 l a 369 0.029959 0.165244 0.074203 0.026375 l oa 23 0.052390 0.124459 0.087344 0.020237 l oo 20 0.042708 0.190000 0.094174 0.039680 m a 158 0.033945 0.206957 0.078506 0.029608 m aa 45 0.028441 0.166226 0.095594 0.034975 m uwow 28 0.025538 0.145181 0.071455 0.027013 ph a 61 0.023593 0.138148 0.066544 0.023755 ph uwow 33 0.049614 0.153171 0.090524 0.021938 s a 63 0.028638 0.186613 0.110303 0.036228 s aa 13 0.026092 0.183017 0.077653 0.050040 t ow 25 0.018038 0.114752 0.036266 0.022071 t u 33 0.012559 0.060969 0.028529 0.011556 th aa 74 0.023631 0.100928 0.056069 0.017729 th ie 22 0.028795 0.121672 0.077662 0.026268 v a 151 0.020957 0.162675 0.061447 0.029520 v uwow 15 0.035674 0.083957 0.062528 0.011667 Dự báo ngôn điệu Trong kỹ thuật tổng hợp tiếng Việt, chất lượng tổng hợp tập trung chính vào trường độ và cao độ của âm vị, đó là hai tham số chính truyền đạt thông tin ngữ âm. 20 Bộ phân tích ngôn điệu của hệ thống TTS tập trung vào việc tính toán giá trị của tập các biến ngữ âm. Trong một dạng tối thiểu, các biến này là trường độ âm vị và F0. Việc tính toán các giá trị như vậy có thể dựa vào các quy luật hoặc dựa vào các phương pháp học máy, như mô hình CART. Kết quả trên việc sử dụng CART được huấn luyện với các phong cách đọc khác nhau đã được nghiên cứu trong nhiều hệ thống TTS tiếng nước ngoài cũng như cho tiếng Việt, điểm mới ở đây là chúng tôi vận dụng mô hình dự báo CART để dự báo cả trường độ và âm lượng của các đơn vị tiếng Việt như âm vị, âm tiết và sử dụng giá trị gián tiếp Z-score được tính dựa trên các tham số thống kê của đơn vị âm trong ngữ cảnh câu, thay thế cho các giá trị trường độ gốc của đơn vị âm. Hai hệ số đo sai số là dự báo hệ số tương quan và trung bình độ lệch bình phương cho mô hình CART được cho như sau:        1 2 2 1 1 M obs predobs pred m m m M M obs predobs pred m m m m d d d d R d d d d              2 1 1 M obs pred m m m RMSE d d M    Ở đây M là kích thước dữ liệu của tập huấn luyện hoặc kiểm tra, obsmd , obs d là trường độ và trung bình thực tế, predmd , pred d là trường độ và trung bình dự đoán của mô hình. Thử nghiệm và kết luận Sau khi huấn luyện mô hình dự báo CART các tham số đánh giá độ chính xác dự báo trường độ của âm tiết của các câu không năm trong cơ sở dữ liệu âm huấn luyện đạt được với R=0.87 và RMSE=0.044(s). Các ước lượng này là tốt hơn xét trên độ lớn của tập câu huấn luyện và dự báo và so sánh với các kết quả của các tác giả khác, ở đó độ chính xác dự báo là R=0.5794 và RMSE=0.0531(s). Ngoài ra việc dự báo giá trị âm lượng đã đạt được kết quả tốt, âm lượng của các âm tiết ở giữa và các âm tiết là từ dừng như “rằng”, “thì”, “là”, “và”, “mà” v.v là hoàn toàn phù hợp trong câu được tổng hợp. Chúng tôi đã ứng dụng mô hình dự báo ngôn điệu tiếng Việt ở mức câu vào bộ tổng hợp tiếng Việt Vnvoice (một sản phẩm thương mại được viết chính bởi tác giả bài báo). Vnvoice đã có đầy đủ các mô đun chuẩn hóa văn bản tiếng Việt [3] [30] cho hệ thống TTS, ngoài ra Vnvoice còn có tính năng phân biệt từ tiếng Anh trộn lẫn trong văn bản tiếng Việt, phát âm tự động các âm tiết trong câu văn bản, chèn khoảng lặng thích hợp vào các âm tiết tận cùng hoặc bắt đầu là p-t-c/ch, âm tiết mang dấu nặng [3], thay đổi tốc độ đọc (nhanh và chậm) v.v Đầu ra tín hiệu âm thanh của Vnvoice được biến đổi về trường độ/âm lượng sử dụng mô đun dự báo tích hợp bên trong. (3.1) (3.2) 21 Hình 3.11. Câu “Lũ trẻ bắt được cà ra đem bán lấy tiền mua sách.” trong CSDL ngữ âm.(xem Phụ lục) Hình 3.12 : Hệ phát âm tài liệu Microsoft Word sử dụng nhân của Vnvoice. Thử nghiệm cho thấy chất lượng âm tổng hợp đã cải thiện được độ tự nhiên khi được điều khiển trường độ và âm lượng ở mức độ âm tiết của câu tổng hợp. 22 “Tôi đang học nói tiếng Việt” Câu tổng hợp từ Vnvoice chưa thay đổi trường độ/âm lượng “Tôi đang học nói tiếng Việt” Thay đổi trường độ/âm lượng của câu tổng hợp Hình 3. 13. Thay đổi trường độ/âm lượng của đầu ra của Vnvoice Đánh giá kết quả Để đánh giá độ tự nhiên tiếng nói tổng hợp sau khi ghép phần dự báo trường độ và âm lượng, chúng tôi sử dụng độ đo MOS (Mean Opinion Score) Người nghe đánh giá chất lượng tiếng nói của mô đun tổng hợp Vnvoice trước và sau khi ghép mô đun dự báo trường độ và âm lượng khác nhau trên cùng tập câu mẫu. Thang điểm đánh giá trong bảng dưới đây: Bảng 3.13: Thang điểm độ đo MOS. Chất lượng tiếng nói tổng hợp Đ iểm Xuất sắc 4.1 – 5 Tốt 3.1 – 4 Bình thường 2.1 – 3 Kém 1.1 – 2 Tồi 0 – 1 Phương pháp này đo sự ảnh hưởng của ngôn ngữ và yếu tố tâm lý. Văn bản kiểm tra được phân thành một số chủ đề khác nhau như: chính trị, kinh tế, thể thao, khoa học, Văn bản mẫu này cho người nghe đánh giá toàn bộ chất lượng tiếng nói tổng hợp ở theo các phương pháp tổng hợp khác nhau và cho điểm. Điểm trung bình là điểm cuối cùng để đánh giá. Chúng tôi chọn 10 cán bộ nghiên cứu của Viện ngôn ngữ trong đó có 4 chuyên gia về ngữ âm học để đánh giá. Bảng 3.14: Kết quả đánh giá tính tự nhiên các hệ thống tổng hợp tiếng Việt. Mô đun tổng hợp Vnvoice Vnvoice có ghép dự báo MOS Av  Av  23 3.6 0.6 3.8 0.4 Trong đó Av là điểm trung bình đánh giá,  là độ lệch chuẩn. Theo độ đo MOS, các kết quả thu được tương ứng chất lượng tiếng nói như sau: Điểm MOS Chất lượng (4.0 - 4.5) Tự nhiên, giọng người nói. (3.5 ,4.0) Dễ hiểu, phù hợp với các ứng dụng thông báo, truyền thông. (2.5 ,3.5) Giọng nhân tạo, không tự nhiên. Hệ tổng hợp VnVoice cải tiến (3.8 điểm) tốt hơn so với VnVoice khi chưa ghép mô đun dự báo âm lượng và trường độ (3.6 điểm). Tuy nhiên, VnVoice đã cải tiến vẫn cần hoàn thiện hơn nữa bằng cách thử nghiệm các mô hình thanh điệu và mô hình trường độ khác nhau. Tổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan, người ta đã nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có tài nguyên hạn chế để đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc thù của hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử dụng lượng bộ nhớ và chí phí tính toán đủ nhỏ. Các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả trên những hệ thống có tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính toán rất thấp. 24 CHƯƠNG 4. KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ THANH ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT Các tác giả đã đưa ra một mô hình sử dụng ngôn điệu để nâng cao chất lượng nhận dạng tiếng nói trong đó mô hình cho từ và âm vị là hai mô hình cho từ và nhận dạng được xây dựng trên ngữ điệu của một ngữ đoạn tiếng nói và trọng âm các phân tích lý thuyết và thực nghiệm đã chứng tỏ rằng: thông tin âm học kết hợp với ngữ điệu và mô hình ngôn ngữ đã tăng thông tin cho việc đưa ra giả thuyết từ đúng để quyết định từ đúng. Bộ nhận dạng tiếng nói có tích hợp của các tác giả đã rút gọn được 11% lỗi so với bộ nhận dạng không có kết hợp ngôn điệu. Ngoài ra các tác đã phân tích ảnh hưởng của ngôn điệu đối với các hệ số MFCC. Các tác giả đã kết hợp thông tin tần số cơ bản để xây dựng bộ lọc thay thế phép lọc truyền thống – tam giác trong quá trình tính toán các hệ số MFCC, với bộ lọc này các tác giả đã chứng tỏ hệ số MFCC được biến đổi đã tăng khả năng phân biệt và giảm ảnh hưởng nhiễu của bộ nhận dạng tiếng nói. Các tác giả đã kết hợp giá trị của tần số cơ bản vào đặc trưng MFCC bình đẳng như các thành phần khác của vector hệ số MFCC. Với một thử nghiệm có giới hạn cho một bộ nhận dạng tiếng nói liên tục các tác giả đã chỉ ra khả năng tăng độ chính xác nhận dạng khi kết hợp đặc trưng thanh điệu tiếng Việt vào bộ nhận dạng Trong chương này chúng tôi trình bày các kết quả nghiên cứu của chúng tôi trong vấn đề kết hợp đặc trưng thanh điệu và đặc trưng cấu âm của người nói để tăng độ chính xác của bộ nhận dạng tiếng nói rời rạc hoặc liên tục Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0 Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu, các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một vấn đề tất yếu nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về xử lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa trên đặc trưng chuẩn MFCC 25 Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ cảnh để nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu tiếng Việt. Các tiếp cận này chủ yếu vẫn ghép trực tiếp đặc trưng thanh điệu vào các kiểu đặc trưng tiếng nói như MFCC, PLP. Có một tiếp cận khác sử dụng giá trị đường F0, các tần số formant để xây dựng một phép hiệu chỉnh lại các đặc trưng MFCC, dẫn đến kiểu đặc trưng không phụ thuộc người nói trong cả quá trình huấn luyện và nhận dạng, qua đó kết quả nhận dạng của các hệ thống không phụ thuộc người nói được cải thiện đáng kế. Phép chuẩn hóa VTLN VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ các tham số hiệu chỉnh tần số cho mỗi người nói hoặc một phát âm. Có hai tiếp cận chính cho VTLN, một là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học của người nói như các tần số formant, hai là cách duyệt trên lưới của tham số hiệu chỉnh để tối ưu hóa hàm mục tiêu của mô hình nhận dạng. Hình 4. 1. Hiệu chỉnh tần số và trích chọn đặc trưng MFCC Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t) trong miền tần số bằng biến đổi FFT: X()= H()S() + N(), ở đó H() là biến dạng kênh và N() nhiễu cộng của tín hiệu. Sử dụng M bộ lọc tam giác với khoảng cách giữa các vị trí k trong thang tần số mel: 1 1 1 1 1 1 , [ , ] ( ) , [ , ] k k k k k k k k k k k B                               , 1 1 2 [ , ] ( ) ( ) ( ) k k kY m B X          ,0m M-1 (*) MFCC(n) = 1 0 1 2 os log ( ) M m n m c Y m M          , 0nN-1 Khi đó với phép hiệu chỉnh tần số có dạng ’= () thì công thức (*) trở thành : 1 1 2 [ , ] ( ) ( ) ( ( )) k k kY m B X            Tổ hợp giá trị F0 và chuẩn hóa VTLN Phương pháp ghép giá trị F0 vào các hệ số MFCC đã được nắn lại sau phép hiệu chỉnh tần số đề xuất trong nghiên cứu của tác giả này được thực hiện gồm 4 bước chính sau: Bước 1. Xác định tham số  và hiệu chỉnh lại các vector đặc trưng MFCC nhờ phương pháp huấn luyện hợp lý cực đại ML (xem quy trình nêu ở bước 4) Bước 2. Tính F0 theo thuật toán RAPT, nội suy xác định giá trị liên tục của đường F0 trên cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0. (4.1) (4.2) (4.2) 26 Bước 3. Kết hợp F0 với các hệ số MFCC đã hiệu chỉnh Thuật toán xác định tham số hiệu chỉnh  dựa trên phương pháp huấn luyện hợp lý cực đại ML (maximum likelihood) được cài đặt như sau : Bước 4. Huấn luyện và giải mã. d. Giai đoạn huấn luyện : Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi: 1 1 ({ } ) arg max log ( , ), ( ) T T t t t t t t S s p O W O O        Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : min ax * [ , ] 1 arg max log ( , ), ( ) m T t t t t t p O s O O          Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và tham số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM: * * * * 1 arg max log ( , , ), ( ) T t t t t t p O s W O O         Bước 4: Đặt =*, và =*, lặp lại tới khi mô hình hội tụ. e.Giai đoạn giải mã (nhận dạng): Với một phát âm đầu vào gồm T frame Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho: 1 1 ( , { } ) arg max log ( , ) T T t t t t t W S s p O s     Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : min ax * [ , ] 1 arg max log ( , ), ( ) m T t t t t t p O s O O          Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra: ** 1 arg max log ( , ) T t t t W p O s     Do thuật toán HMM chuẩn có độ phức tạp là O(VN2T), ở đây N là số trạng thái của mô hình HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong thử nghiệm này, là số âm vị với các nguyên âm mang thanh điệu) và T là số frame đầu vào , nên độ phức tạp của thuật toán HMM có kết hợp với VTLN là O(KVN2T), trong đó K là số giá trị rời rạc hóa trên lưới giá trị của tham số [min, max] (ở đây min = 0.85, max = 1.15, mức rời rạc hóa theo bước 0.0001) (4.4) 27 Thử nghiệm trên tập tên riêng phức tạp Tập thử nghiệm của ứng dụng là tên của khoảng 300 trường Đại học và Cao đẳng trong nước (một số tên trường có thể không còn trong thực tế). Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm, nguyên âm chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được huấn luyện. Giá trị đường F0 và các vector đặc trưng MFCC được trích chọn với các frame độ dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây. Các vector đặc trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1 và bậc 2 của 13 hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh các vector MFCC và ghép giá trị F0 sử dụng phương pháp đã trình bày ở trên. Bảng 4. 1. Bảng kết quả thực nghiệm kiểm tra Người đọc Đặc trưng chuẩn MFCC Đặc trưng MFCC + F0 VTLN-MFCC + F0 mức từ mức câu mức từ mức câu mức từ mức câu Nu1 93,8 82,2 92,7 81,2 96,7 88,5 Nu2 97,0 86,3 97,3 88,4 97,6 89,4 Nu3 95,5 82,8 93,4 78,7 96,4 87,8 Nu4 97,4 90,9 97,0 88,8 97,6 91,9 Nu5 95,5 85,1 97,1 91,0 98,9 97,0 Nu6 86,7 67,7 88,1 72,9 91,8 81,2 Nu7 95,7 84,6 96,9 89,9 98,1 93,8 Nam1 98,6 92,9 98,5 92,9 98,9 94,9 Nam2 95,3 79,0 96,5 86,0 97,3 88,0 Nam3 97,1 88,8 97,7 93,9 98,6 96,2 Trung bình 95,3 84,6 95,6 86,4 97,1 90,6 Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant tham số VTLN đề xuất cách ước lượng tự động từ các giá trị trung bình của formant F3 của tiếng nói đầu vào và của tập huấn luyện, tuy nhiên các tác giả không đưa ra cách tính trong trường hợp thời gian thực và trong trường hợp frame tiếng nói đầu vào là vô thanh (các giá trị F0, formant không xác định được) Xấp xỉ giá trị trung bình trong thời gian thực: Nếu cho trước N hữu hạn số thực x1, x2,,xN thì dễ dàng tính được giá trị trung bình 1 N k k mean x x N   . Phép tính giá trị trung bình tuy đơn giản nhưng thường xuyên được sử dụng trong phép chuẩn hóa đặc trưng MFCC để giảm thiểu sai lệch về phổ giữa đặc trưng của tập người huấn luyện và đặc trưng của người nói mới. 28   1 1 1 N N k N k utt k kk k mfcc mfcc mfcc mfcc N                  Ở đây N là số frame của ngữ đoạn tiếng nói,   1 N k k mfcc  là dãy N vector đặc trưng MFCC của N frame. Trong [12] [39] các tác giả đã chứng tỏ chỉ với phép chuẩn hóa CMN đã cải thiện được độ chính xác nhận dạng tiếng nói. Trrong thời gian thực, số frame không được xác định cho tới khi bộ tìm kiếm điểm đầu và cuối (Endpoint detector) phát hiện được. Vấn đề có thể phát biểu hình thức như sau: Cho trước   1n n x   là dãy vector số có số chiều hữu hạn , xác định dãy vector   1n n y   như sau: y1=y0+x1, yn=yn-1 + xn, n=2,3, ,  (0,1),  + =1, y0 = 0 hoặc được xác định trước. Trong các ứng dụng xử lý tín hiệu số, tiếng nói hoặc dữ liệu ảnh thường các vector xn biến đổi xung quanh một giá trị trung bình (tổng quát là kiểu các biến ngẫu nhiên có cùng phân bố)sau khi phép tiền xử lý tín hiệu đã đi qua một phép phân cụm, phân loại tín hiệu (chẳng hạn phép phân loại tín hiệu nền/nhiễu/tiếng nói trong xử lý tiếng nói.) Mệnh đề 1:  N > 1, n>N 1 1 1 1 1 1 2 ax ( 1 ) ax 2 ax ( ) ax 1 1 n n k k k n k k n k k k k N k n k N k n n n x x Nm x n N m x x Nm x n N m x x y y n n n n n                              Từ ước lượng này ta thấy để yn gần giá trị trung bình thông thường của x1,x2,,xn ta có thể chọn  rất gần 0. Mệnh đề 2:  N > 1, n > N. 2 1 axNn N N n N n l N l N l n N y y y y m x x            Mệnh đề 3:   1n n n x y    là dãy có tổng trung bình các phần tử xấp xỉ 0 tại mọi thời điểm. Nhận xét : Với tín hiệu tiếng nói, thường x1,y1 xấp xỉ vector 0, nên 1 1 n n k k k y x y       Dựa trên [38], chúng tôi đề xuất cách ước lượng tham số VTLN như sau cho dãy frame tiếng nói câu đọc vào [CT5]:  3 0 3trainF F         3 1 3 3 3 1 aF i bF i F i F i       , nếu frame(i) là hữu thanh (4.5) 29 , trái lại ở đây a, b là 2 hệ số, a,b(0,1), a+b =1, chúng tôi chọn a=0.95, b=0.05 khi thực nghiệm.     max min 3 min , ax , 3 trainF i m F i                  Ở đây 3trainF là giá trị trung bình format F3 trên toàn tập các frame hữu thanh của tiếng nói huấn luyện, F3(i) là các giá trị ước lượng formant F3(i) từ thuật toán RAPT. Nhận dạng thanh điệu tiếng Việt Trong chương này chúng tôi trình bày các kết quả nghiên cứu của chúng tôi trong vấn đề kết hợp đặc trưng thanh điệu và đặc trưng cấu âm của người nói để tăng độ chính xác của bộ nhận dạng tiếng nói rời rạc hoặc liên tục Nhận dạng thanh điệu là vấn đề phức tạp ngay cả với các hạn chế là tiếng nói được đọc rời từng âm tiết và cho một người nói xác định. Để đặc trưng hóa các thanh điệu tiếng Việt, ngoài tần số cơ bản F0 thì cần có thêm một số tham số khác như trường độ, năng lượng. Trong ngữ lưu tiếng nói có sự biến thanh mà để lượng hóa nó chúng ta cần phải dùng đến các mô hình lượng hóa phức tạp như Fujisaki, Xu. Trong dạng rời rạc, đường nét thanh điệu mới tương đối ổn định, nhưng cũng không dễ dàng khu biệt được chúng, chẳng hạn có giọng nói thanh huyền có đường nét rất giống với thanh hỏi. (4.6) 30 Hình 4. 2. Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc ww  ax 1 ax axmin : , 0.9 , 0.9u m j m j mj j j j E E E E     ax 1 axmax : , 0.1 , 0.1l u j m j mj j j j E E E E    Để tăng độ chính xác của kết quả nhận dạng thông qua mạng nơ ron dựa trên tri thức về sự phụ thuộc thanh vào trường độ âm tiết, chúng tôi sử dụng các luật Heuristic sau để loại nhanh một số trường hợp: Luật 1: trung

Các file đính kèm theo tài liệu này:

tom_tat_lats_ngo_hoang_huy_1501_1854473.pdf