Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng Tiếng Việt

Danh mục các thuật ngữ và từ viết tắt i

Danh sách bảng ii

Danh sách hình vẽ iii

MỞ ĐẦU 1

1. Tính cấp thiết của đề tài . 1

2. Mục tiêu, phạm vi nghiên cứu của luận án. . 4

3. Phương pháp và nội dung nghiên cứu . 5

4. Kết quả đạt được của luận án . 6

CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG

NÓI 10

1.1. Tổng hợp tiếng nói. 10

1.1.1. Chuẩn hóa văn bản và phân tích câu – xử lý ngôn ngữ tự nhiên. 11

1.1.2. Chuyển văn bản sang đơn vị tiếng nói . 11

1.1.3. Dự báo ngôn điệu . 11

1.1.4. Các phương pháp tổng hợp tiếng nói . 12

1.1.5. Các hệ thống tổng hợp tiếng nói tiếng Việt. 21

1.1.6. Các tham số ngôn điệu . 23

1.1.7. Tổng quan về âm học và các hiện tượng ngôn điệu tiếng Việt trong

ngữ lưu . 25

1.1.8. Hiệu chỉnh đường tần số cơ bản . 33

1.2. Nhận dạng tiếng nói . 38

1.2.1. Liệt kê các lớp bài toán nhận dạng tiếng nói. 38

1.2.2. Môi trường thu nhận tín hiệu. 39

1.2.3. Biểu diễn tiếng nói - đặc trưng tiếng nói. 40

pdf253 trang | Chia sẻ: mimhthuy20 | Lượt xem: 491 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Trung, Thái, tiếng Việt là ngôn ngữ có thanh điệu và nhận dạng thanh điệu cũng là một trong bài toán chưa giải quyết được triệt để. Tiếng Việt có sáu thanh và được phân thành tám hiện tượng thanh điệu. Do đặc điểm của từng ứng dụng, 106 ta có thể chia thành hai bài toán: nhận dạng thanh điệu tiếng nói rời rạc và nhận dạng thanh điệu tiếng nói liên tục. Nhận dạng thanh điệu là vấn đề phức tạp ngay cả với các hạn chế là tiếng nói được đọc rời từng âm tiết và cho một người nói xác định. Để đặc trưng hóa các thanh điệu tiếng Việt, ngoài tần số cơ bản F0 thì cần có thêm một số tham số khác như trường độ, năng lượng. Trong ngữ lưu tiếng nói có sự biến thanh mà để lượng hóa nó chúng ta cần phải dùng đến các mô hình lượng hóa phức tạp như mô hình Fujisaki [22][42][43][44][69]. Trong dạng rời rạc, đường nét thanh điệu mới tương đối ổn định, nhưng cũng không dễ dàng khu biệt được chúng, chẳng hạn có giọng nói thanh huyền có đường nét rất giống với thanh hỏi. Trong [61], các tác giả đã sử dụng nhiều phương pháp khác nhau để xấp xỉ đường F0 bằng phương pháp bình phương tối thiểu sau đó sử dụng mô hình học máy HMM, GMM, để huấn luyện và nhận dạng thanh điệu của âm tiết đọc trong câu. Thực nghiệm của các tác giả đã cho kết quả tốt nhất với mô hình GMM và đặc trưng F0 được xác định trên bốn phân đoạn của âm tiết, trong đó giá trị đườn F0 được xác định bởi độ dốc và giá trị trung bình. Hình 4. 1. Cách tuyến tính hóa đường F0 từng phân đoạn 107 Trong [53] các tác giả đã chuẩn hóa đã đưa ra nhiều phép chuẩn hóa giá trị F0 khác nhau để nhận dạng 6 hiện tượng thanh điệu (8 hiện tượng thanh điệu trong thực tế của các tác giả). Kết quả nghiên cứu của các tác giả đã đến kết luận giá trị đường F0 được chuyển sang miền logarit và chuẩn hóa về trung bình và độ lệch với kết quả tốt nhất là 70,44% trong các thử nghiệm. Hình 4. 2. Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc  ax 1 ax axmin : , 0.9 , 0.9u m j m j mj j j j E E E E     ax 1 axmax : , 0.1 , 0.1l u j m j mj j j j E E E E    Để tăng độ chính xác của kết quả nhận dạng thông qua mạng nơ ron dựa trên tri thức về sự phụ thuộc thanh vào trường độ âm tiết, chúng tôi sử dụng các luật Heuristic sau để loại nhanh một số trường hợp: Phân lớp Nơ ron Chuẩn hóa Tính đặc trưng thanh điệu Trích chọn F0 T1T8 Sóng âm tiết (4.1) (4.2) (4.3) 108 Luật 1: trung bình (F0) > asb eF thanh cao ngược lại thanh thấp. Luật 2: Dur(F) > D0 (ms): không phải các âm tiết có phụ âm cuối là p-t-c Luật 3: ax minm rate mid F F F F   : không phải thanh huyền. Trong [6], tác giả đã sử dụng các đặc trưng của một thanh điệu tiếng Việt gồm: F0 ban đầu, F0 sau cùng, giá trị độ tăng của F0, trường độ thanh điệu, tỷ số giảm của năng lượng, kết hợp với cấc luật 1, 2, 3 (trong thực nghiệm, tham số D0=300, asb eF =200, Frate = 0.3 (ứng với giọng nữ được kiểm tra trên) trên để nhận dạng 8 hiện tượng thanh điệu tiếng Việt, âm tiết rời rac, phụ thuộc người nói với kết quả nhận dạng trên 93%. Đây cũng là kết quả được báo cáo trong đề tài KC.01.03 [90]. STT Thanh điệu Số mẫu huấn liệu Số mẫu kiểm tra Kết quả(%) 1 Thanh ngã(x) 214 54 96.20 2 Thanh huyền(f) 422 110 99 3 Thanh hỏi (r) 394 101 93.06 4 Thanh ngang (middle) 438 215 96.70 5 Thanh sắc(s) 417 182 98,30 6 Thanh sắc có kết thúc âm tiết /p/, /t/, /k/ (s2) 273 78 97,40 7 Thanh nặng (j) 341 94 98,90 8 Thanh nặng có kết thúc âm tiết /p/, /t/, /k/ (j2) 187 46 93,40 4.2. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0 Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu, các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một 109 vấn đề tất yếu nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về xử lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa trên đặc trưng chuẩn MFCC và quy trình huấn luyện và nhận dạng theo thuật toán sau: Bảng 4. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC Huấn luyện HMM : Đầu vào gồm T frame các đặc trưng MFCC. Bước 1: Xác định dãy trạng thái tối ưu bằng thuật toán Viterbi: 1 1 ({ } ) arg max log ( , ) T T t t t t S s p O W     Bước 2: Hiệu chỉnh lại tham số mô hình HMM: * 1 arg max log ( , , ) T t t t p O s W     Bước 3: Đặt =*, lặp lại tới khi mô hình hội tụ. Nhận dạng với HMM: Đầu vào gồm T frame các đặc trưng MFCC. Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho: 1 1 ( , { } ) arg max log ( , ) T T t t t t t W S s p O s     Khi ứng dụng thuật toán nhận dạng HMM trên cho việc nhận dạng tiếng nói liên tục không phụ thuộc người nói, hệ thống thường suy giảm độ chính xác với những người nói có có đặc trưng giọng nói không phù hợp với những mẫu giọng được sử dụng để huấn luyện mô hình HMM. Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ cảnh để nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu tiếng Việt [6] [20][62]. Các tiếp cận này chủ yếu vẫn ghép trực tiếp đặc trưng thanh điệu vào các kiểu đặc trưng tiếng nói như MFCC, PLP[53][62]. Có một tiếp cận khác sử dụng giá trị đường F0, các tần số formant để xây dựng một phép hiệu chỉnh lại các đặc trưng MFCC, dẫn đến kiểu đặc trưng không phụ thuộc người nói trong cả quá trình huấn luyện và nhận dạng, qua đó kết quả nhận dạng của các hệ thống không phụ thuộc người nói được cải thiện đáng kế. 110 Phần này trình bày phương pháp ghép trực tiếp giá trị đường F0 vào các vector đặc trưng MFCC đã được hiệu chỉnh theo VTLN và thử nghiệm trong các hệ thống nhận dạng tên riêng tiếng Việt phát âm liên tục và độc lập người nói. 4.2.1. Phép chuẩn hóa VTLN Các hệ nhận dạng tiếng nói thường trích chọn đặc trưng của mỗi khung tiếng nói (độ dài 10ms-25ms) theo kiểu MFCC ở thang tần số mel dựa trên đặc điểm cảm thụ tần số âm của tai người, tuy vậy các hệ số MFCC không thể hiện được các biến thể bên trong của mỗi người nói như VTL (vocal tract length, độ dài bộ cấu âm), dẫn đến việc suy giảm chất lượng nhận dạng trong các hệ thống nhận dạng độc lập người nói. VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ các tham số hiệu chỉnh tần số cho mỗi người nói hoặc một phát âm. Có hai tiếp cận chính cho VTLN, một là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học của người nói như các tần số formant, hai là cách duyệt trên lưới của tham số hiệu chỉnh để tối ưu hóa hàm mục tiêu của mô hình nhận dạng. Hình 4. 3. Hiệu chỉnh tần số và trích chọn đặc trưng MFCC Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t) trong miền tần số bằng biến đổi FFT: X()= H()S() + N(), ở đó H() là biến dạng kênh và N() nhiễu cộng của tín hiệu. Sử dụng M bộ lọc tam giác với khoảng cách giữa các vị trí k trong thang tần số mel: 1 1 1 1 1 1 , [ , ] ( ) , [ , ] k k k k k k k k k k k B                               , 1 1 2 [ , ] ( ) ( ) ( ) k k kY m B X          ,0m M-1 (*) (4.4) 111 MFCC(n) = 1 0 1 2 os log ( ) M m n m c Y m M          , 0nN-1 Khi đó với phép hiệu chỉnh tần số có dạng ’= () thì công thức (*) trở thành : 1 1 2 [ , ] ( ) ( ) ( ( )) k k kY m B X            Bảng dưới đây cho ta một số dạng biến đổi tuyến tính và phi tuyến của hàm (), sử dụng hàm ( ) 1127 ln 1 2 700 sfz mel            , [0,] và fs là tần số lấy mẫu. Bảng 4. 2. Một số dạng của phép hiệu chỉnh tần số Dạng biến đổi Công thức biến đổi Phi tuyến trong miền tần số 1 (1 )sin( )( ) 2 tan 1 (1 ) os( )c                  Tuyến tính từng đoạn trong miền tần số 1 1 10 1 1 0 1 2 , 1 , 2 2 (**) ( ) ;[ ] ( ) , , 1 1, 2 , 1 l l u u a b HTK b c c d                                                           Dịch chuyển trong miền mel 1127 1127( ) 700( 1)e e        (ứng với W(z)=z+) Tuyến tính từng đoạn trong miền mel min min( ) 1127 ax ax min ( ) , ( ) 700 1 , ( ) , [z ,z ] ( ) , l l l lW z l u m u u u u m u z z z z z z z z z e W z z z z z z z z z z z z                                     Tham số [min, max] (ở đây min = 0.85, max = 1.15) đặc trưng cho mỗi người nói có thể được ước lượng tự động từ các giá trị trung bình của formant F3 của tiếng (4.5) (4.6) 112 nói đầu vào và của tập huấn luyện [76]. Trong [40] các tác giả ước lượng dựa trên giá trị trung bình của đường F0 của câu phát âm. Kiểm nghiệm nhận dạng trên tập tên riêng các trường học chúng tôi thấy phương pháp ước lượng này không tăng được đáng kể độ chính xác nhận dạng, do phương pháp này mới chỉ nhấn mạnh vào việc thích ứng với lớp giọng có tần số cơ bản cao và thấp. Ngoài ra, việc chuẩn hóa VTL cho từng người nói theo phương pháp này tuy đạt được hiệu quả về tốc độ xử lý nhưng không thích ứng được với hình dạng đường F0 của các câu tiếng Việt biến đổi mạnh theo các thanh điệu của âm tiết, giữa giọng nữ và giọng nam. Sử dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh tần số [min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào [15][26][50][59][77][73] theo công thức sau: min ax 1 1 [ , ] 1 ( , { } ) arg max log ( , ) arg max log ( , ), ( ) m T T t t t t t T t t t t t W S s p O s p O s O O                        4.2.2. Tổ hợp giá trị F0 và chuẩn hóa VTLN Phương pháp ghép giá trị F0 vào các hệ số MFCC đã được nắn lại sau phép hiệu chỉnh tần số đề xuất trong nghiên cứu của tác giả được thực hiện gồm 4 bước chính sau: Bước 1. Xác định tham số  và hiệu chỉnh lại các vector đặc trưng MFCC nhờ phương pháp huấn luyện hợp lý cực đại ML (xem quy trình nêu ở bước 4) Bước 2. Tính F0 theo thuật toán RAPT, nội suy xác định giá trị liên tục của đường F0 trên cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0. Bước 3. Kết hợp F0 với các hệ số MFCC đã hiệu chỉnh Thuật toán xác định tham số hiệu chỉnh  dựa trên phương pháp huấn luyện hợp lý cực đại ML (maximum likelihood) được cài đặt như sau : (4.7) 113 Bước 4. Huấn luyện và giải mã. Giai đoạn huấn luyện : Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi: 1 1 ({ } ) arg max log ( , ), ( ) T T t t t t t t S s p O W O O        Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : min ax * [ , ] 1 arg max log ( , ), ( ) m T t t t t t p O s O O          Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và tham số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM: * * * * 1 arg max log ( , , ), ( ) T t t t t t p O s W O O         Bước 4: Đặt =*, và =*, lặp lại tới khi mô hình hội tụ. Giai đoạn giải mã (nhận dạng): Với một phát âm đầu vào gồm T frame Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho: 1 1 ( , { } ) arg max log ( , ) T T t t t t t W S s p O s     Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : min ax * [ , ] 1 arg max log ( , ), ( ) m T t t t t t p O s O O          Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra: ** 1 arg max log ( , ) T t t t W p O s     Do thuật toán HMM chuẩn có độ phức tạp là O(VN2T), ở đây N là số trạng thái của mô hình HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong thử nghiệm này, là số âm vị với các nguyên âm mang thanh điệu) và T là số frame đầu vào , nên độ phức tạp của thuật toán HMM có kết hợp với VTLN là O(KVN2T), trong (4.8) 114 đó K là số giá trị rời rạc hóa trên lưới giá trị của tham số [min, max] (ở đây min = 0.85, max = 1.15, mức rời rạc hóa theo bước 0.0001) Thử nghiệm trên tập tên riêng phức tạp Vấn đề nhận dạng tên “name entity recognition” là một vấn đề mở, tương đối phức tạp, vẫn đang được nghiên cứu trong lĩnh vực nhận dạng tiếng nói [86] [84]. Do vậy để kiểm nghiệm thuật toán chuẩn hóa VTLN kết hợp thông tin ngôn điệu, chúng tôi đã thiết lập thực nghiệm nhận dạng tên của khoảng 300 trường Đại học và Cao đẳng trong nước (một số tên trường có thể không còn trong thực tế). Tập tên riêng này có các đặc điểm sau:  Tên trường chứa hơn 200 từ đa âm tiết tiếng Việt bao gồm tên địa danh cổ, tỉnh  thành, tên các danh nhân, ngành nghề, phiên âm tiếng nước ngoài, số đếm chỉ chi  nhánh trường.  Độ dài của một tên trường : ngắn nhất 4 âm tiết, dài nhất 15 âm tiết.  Không có 2 âm tiết nào có cùng âm tiết gốc (âm không mang thanh điệu).  Các tên trường có sự trùng lặp âm tiết lớn như các cặp tên trường sau {Học viện hành chính quốc gia, Học viện hành chính quốc gia Hồ Chí Minh} {ĐH dân lập Văn Lang, Đại học dân lập Văn hiến} {Trường sỹ quan lục quân một, Trường sỹ quan lục quân hai} {ĐH dân lập Thăng Long, ĐH dân lập Cửu Long} {ĐH lâm nghiệp, ĐH nông nghiệp} {ĐH dân lập Bình Dương, ĐH dân lập Hùng Vương} {ĐH Sư phạm kỹ thuật, ĐH Sư phạm mỹ thuật} Dữ liệu huấn luyện nhanh các mô hình HMM của các âm vị tiếng Việt là các bài đọc truyện và tin tức của 2 phát thanh viên (một nam, một nữ giọng Hà Nội) của đài tiếng nói Việt Nam, có khoảng 23000 câu với dung lượng dữ liệu hơn 1GB. 115 Hình 4.4: Câu “Các em đã nhận thức thế nào về hoàn cảnh ấy” đã được gán nhãn Dữ liệu huấn luyện thích ứng được ghi bởi giọng đọc của 12 nam, 10 nữ sinh viên, môi trường tín hiệu trong lớp học trên giảng đường, mỗi sinh viên đọc 300 tên trường đúng một lượt. Tín hiệu thu có tần số lấy mẫu 11025Hz, đơn kênh 16 bit và có nhiễu. Dữ liệu kiểm tra hệ thống nhận dạng là giọng đọc của 3 nam, 6 nữ sinh viên và một giọng nữ tiếng miền Nam, được thu trong cùng môi trường tín hiệu như với dữ liệu huấn luyện thích ứng. Khi tiến hành thử nghiệm, chúng tôi sử dụng phiên bản HTK 3.4 để huấn luyện, kiểm thử và trích chọn đặc trưng MFCC thông thường. Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm, nguyên âm chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được huấn luyện. Do tập nhận dạng là tập tên các trường Đại học – Cao đẳng được cố định nên hệ thống thử nghiệm chỉ sử dụng văn phạm câu biểu diễn bằng mạng mà không sử dụng mô hình ngôn ngữ (xem [81] và bảng minh họa một phần mạng câu trong phụ lục). 116 Giá trị đường F0 và các vector đặc trưng MFCC được trích chọn với các frame độ dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây. Các vector đặc trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1 và bậc 2 của 13 hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh các vector MFCC và ghép giá trị F0 sử dụng phương pháp đã trình bày ở trên. Bảng 4. 3. Bảng kết quả thực nghiệm kiểm tra Người đọc Đặc trưng chuẩn MFCC Đặc trưng MFCC + F0 VTLN-MFCC + F0 mức từ mức câu mức từ mức câu mức từ mức câu Nu1 93,8 82,2 92,7 81,2 96,7 88,5 Nu2 97,0 86,3 97,3 88,4 97,6 89,4 Nu3 95,5 82,8 93,4 78,7 96,4 87,8 Nu4 97,4 90,9 97,0 88,8 97,6 91,9 Nu5 95,5 85,1 97,1 91,0 98,9 97,0 Nu6 86,7 67,7 88,1 72,9 91,8 81,2 Nu7 95,7 84,6 96,9 89,9 98,1 93,8 Nam1 98,6 92,9 98,5 92,9 98,9 94,9 Nam2 95,3 79,0 96,5 86,0 97,3 88,0 Nam3 97,1 88,8 97,7 93,9 98,6 96,2 Trung bình 95,3 84,6 95,6 86,4 97,1 90,6 Các thực nghiệm cho thấy các biến đổi tần số kiểu “tịnh tiến” trong miền mel cho kết quả thấp hơn một chút so với phép biến đổi theo hệ số tỉ lệ. Bảng 4.3 được cho với phép biến đổi tần số theo phương pháp của HTK (xem bảng 4.2). Quan sát bảng thực nghiệm 4.3, kết quả nhận dạng của “Nu6” thấp do đây là một giọng nói tiếng miền Nam, thanh điệu và các tham số VTL hoàn toàn khác so với các giọng đọc trong tập huấn luyện (chỉ có giọng miền Bắc). 117 Hình 4. 5. MFCC chuẩn, câu “ĐH Mỹ thuật TP.HCM“ Nhận dạng nhầm thành: “ĐH luật TP. HCM”. Áp dụng phép hiệu chỉnh VTLN cho giọng “Nu6”, cho kết quả nhận dạng đúng. Người nói “Nam2” thực tế kết quả nhận dạng sẽ cao hơn nhiều, lỗi xảy ra do người đọc đã nhầm một số âm tiết của tên trường, hệ thống giải mã cho HMM đã nhận dạng phát âm này về tên trường có trong tập từ vựng, chẳng hạn như: Bảng 4. 4. Bảng kết quả giải mã tên trường của người đọc. Phát âm Kết quả giải mã cho tên đúng ĐH dân lập kỹ thuật công nghiệp ĐH dân lập kỹ thuật công nghệ ĐH Thái Bình ĐH Y Thái Bình Học viện bưu chính viễn TP. HCM Học viện bưu chính viễn thông TP. HCM ĐH ngoại thương Đà Nẵng ĐH ngoại ngữ Đà Nẵng Cột giải mã cho tên đúng thể hiện đặc tính “dự đoán của hệ nhận dạng tiêng nói“, dù rằng người thử nghiệm phát âm một tên trường không hoàn toàn chính xác, hệ thống đã dự báo để trả lại một tên trong cơ sở dữ liệu giống nhất dựa trên đồ thị chuyển trạng các âm vị của cơ sở dữ liệu tên riêng. 118 4.2.3. Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant Sử dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh tần số [min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào [15][73][74] theo công thức sau: min ax 1 1 [ , ] 1 ( , { } ) arg max log ( , ) arg max log ( , ), ( ) m T T t t t t t T t t t t t W S s p O s p O s O O                        Xác định tham số  theo phương pháp này cần sử dụng các kết quả trung gian khi xử lý mô hình HMM của hệ thống nhận dạng tiếng nói liên tục:  Lưu lại toàn bộ đặc trưng MFCC gốc của các frame tín hiệu tiếng nói đã được  Bộ phát hiện kết thúc quá trình duyệt lưới trạng thái HMM.  Bộ trả về từ - kết quả của phép nhận dạng và vị trí theo thời gian cho từng âm vị (forced alignment, phân đoạn cưỡng bức). Dựa trên các thông tin này, hệ thống duyệt tìm tham số  khi cho  thay đổi trong khoảng [min, max] và tính các xác suất trạng thái HMM tương ứng trên các MFCC hiệu chỉnh theo  của frame tiếng nói đã được định vị. Cuối cùng hệ thống gọi lại phép giải mã HMM nhưng với dãy đặc trưng MFCC đã được hiệu chỉnh bằng VTLN. Với một phát âm đầu vào gồm T frame: Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho: 1 1 ( , { } ) arg max log ( , ) T T t t t t t W S s p O s     Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : min ax * [ , ] 1 arg max log ( , ), ( ) m T t t t t t p O s O O          Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra: ** 1 arg max log ( , ) T t t t W p O s     (4.9) 119 Quy trình nhận dạng trên tiêu tốn bộ nhớ và thời gian tính toán, không thích hợp trong các ứng dụng nhận dạng thời gian thực được xây dựng trên nền các hệ thống tài nguyên hạn chế. Theo hướng ước lượng tham số VTLN dựa trên các tham số ngữ âm như F0 và formant, trong [40] các tác giả ước lượng dựa trên giá trị trung bình của đường F0 của câu phát âm tuy nhiên khi tiến hành thử nghiệm chúng tôi nhận thấy phương pháp ước lượng này kém chính xác khi áp dụng cho tiếng Việt do tiếng Việt có một số thanh điệu có sự biến đổi mạnh về đường F0 như thanh nặng và thanh ngã. Trong [76] các tác giả đã đề xuất cách ước lượng VTLN tự động từ các giá trị trung bình của formant F3 của tiếng nói đầu vào và của tập huấn luyện, tuy nhiên các tác giả không đưa ra cách tính trong trường hợp thời gian thực và trong trường hợp frame tiếng nói đầu vào là vô thanh (các giá trị F0, formant không xác định được) 4.2.3.1. Xấp xỉ giá trị trung bình trong thời gian thực Nếu cho trước N hữu hạn số thực x1, x2,,xN thì dễ dàng tính được giá trị trung bình 1 N k k mean x x N   . Phép tính giá trị trung bình tuy đơn giản nhưng được sử dụng hiệu quả trong phép chuẩn hóa đặc trưng MFCC để giảm thiểu sai lệch về phổ giữa đặc trưng của tập người huấn luyện và đặc trưng của người nói mới.   1 1 1 N N k N k utt k kk k mfcc mfcc mfcc mfcc N                  Ở đây N là số frame của ngữ đoạn tiếng nói,   1 N k k mfcc  là dãy N vector đặc trưng MFCC của N frame. Trong [12] [39] các tác giả đã chứng tỏ chỉ với phép chuẩn hóa CMN đã cải thiện được độ chính xác nhận dạng tiếng nói. Trong thời gian thực, số frame không được xác định cho tới khi bộ tìm kiếm điểm đầu và cuối (Endpoint detector) phát hiện được. 120 Vấn đề có thể phát biểu hình thức như sau: Cho trước   1n n x   là dãy vector số có số chiều hữu hạn , xác định dãy vector   1n n y   như sau: y1=y0+x1, yn=yn-1 + xn, n=2,3, ,  (0,1),  + =1, y0 = 0 hoặc được xác định trước. Trong các ứng dụng xử lý tín hiệu số, tiếng nói hoặc dữ liệu ảnh thường các vector xn biến đổi xung quanh một giá trị trung bình (tổng quát là kiểu các biến ngẫu nhiên có cùng phân bố)sau khi phép tiền xử lý tín hiệu đã đi qua một phép phân cụm, phân loại tín hiệu (chẳng hạn phép phân loại tín hiệu nền/nhiễu/tiếng nói trong xử lý tiếng nói.) Ký hiệu x là độ dài của vector x. Ta có các mệnh đề sau thể hiện tính chất của CMN: Mệnh đề 1:  N > 1, n>N 1 1 1 1 1 1 2 ax ( 1 ) ax 2 ax ( ) ax 1 1 n n k k k n k k n k k k k N k n k N k n n n x x Nm x n N m x x Nm x n N m x x y y n n n n n                              Chứng minh : do  + =1 ta có, 1 1 1 1 1 1 1 1 1 k k n n n n k k k k k k n n n n x x x x y y x x n n n n n                                                          Từ đó suy ra ước lượng trên. Từ ước lượng này ta thấy để yn gần giá trị trung bình thông thường của x1,x2,,xn ta có thể chọn  rất gần 0. Mệnh đề 2:  N > 1, n > N. 2 1 axNn N N n N n l N l N l n N y y y y m x x            Chứng minh : 121    1 1 1 1m n m n m n m n m n m ny y y y x x y y y y x x                 , tương tự 1 1 2 2 1 1m n m n m ny y y y x x           ,  2 2 2 1 1m n m n m n m ny y y y x x x x            Bằng quy nạp ta có: 1 0 N N k m n m N n N m k n k k y y y y x x              Suy ra: 1 1 2 2 1 0 0 ax N N N k N k n N N n N n N k N k n N n l N l N l n N k k y y y y x x y y m x x                              Do 1 0 1 1 1 N k k           nên 2 1 axNn N N n N n l N l N l n N y y y y m x x            Mệnh đề 3:   1n n n x y    là dãy có tổng trung bình các phần tử xấp xỉ 0 tại mọi thời điểm n. Chứng minh :    1 1 1n n n n n nx y x x x y          1 1 2 1 n n k k n k k k k x y x x x y                1 1 1 1 1 n n k k n k k n n k k x y x x x y x y x y               1 1 1 1 n n k k k y y x y x         . Do các giá trị yn bị chặn nên 1lim 0 n k k k n x y n      Nhận xét : Với tín hiệu tiếng nói, thường x1,y1 xấp xỉ vector 0, nên 1 1 n n k k k y x y       4.2.3.2. Ước lượng VTLN dựa trên giá trị formant 122 Dựa trên [38], chúng tôi đề xuất cách ước lượng tham số VTLN thời gian thực như sau cho dãy frame tiếng nói câu đọc vào [CT5]:  3 0 3trainF F         3 1 3 3 3 1 aF i bF i F i F i       , nếu frame(i) là hữu thanh , trái lại ở đây a, b là 2 hệ số, a,b(0,1), a+b =1, chúng tôi chọn a=0.95, b=0.05 khi thực nghiệm     max min 3 min , ax , 3 trainF i m F i                  Ở đây 3trainF là giá trị trung bình format F3 trên toàn tập các frame hữu thanh của tiếng nói huấn luyện, F3(i) là các giá trị ước lượng formant F3(i) từ thuật toán RAPT. Giá trị đường F0, formant F3 và các vector đặc trưng MFCC được trích chọn với các frame độ dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây. Các vector đặc trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1 và bậc 2 của 13 hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh các vector MFCC và ghép giá trị F0 được thực hiện gồm 3 bước chính sau: Bước 1. Xác định frame đầu vào là hữu thanh hay vô thanh. Bước 2. Tính F0, formant F3 theo thuật toán RAPT, nội suy xác định giá trị liên

Các file đính kèm theo tài liệu này:

  • pdfluanan_ngo_hoang_huy_7275_1854499.pdf
Tài liệu liên quan