Danh mục các thuật ngữ và từ viết tắt i
Danh sách bảng ii
Danh sách hình vẽ iii
MỞ ĐẦU 1
1. Tính cấp thiết của đề tài . 1
2. Mục tiêu, phạm vi nghiên cứu của luận án. . 4
3. Phương pháp và nội dung nghiên cứu . 5
4. Kết quả đạt được của luận án . 6
CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG
NÓI 10
1.1. Tổng hợp tiếng nói. 10
1.1.1. Chuẩn hóa văn bản và phân tích câu – xử lý ngôn ngữ tự nhiên. 11
1.1.2. Chuyển văn bản sang đơn vị tiếng nói . 11
1.1.3. Dự báo ngôn điệu . 11
1.1.4. Các phương pháp tổng hợp tiếng nói . 12
1.1.5. Các hệ thống tổng hợp tiếng nói tiếng Việt. 21
1.1.6. Các tham số ngôn điệu . 23
1.1.7. Tổng quan về âm học và các hiện tượng ngôn điệu tiếng Việt trong
ngữ lưu . 25
1.1.8. Hiệu chỉnh đường tần số cơ bản . 33
1.2. Nhận dạng tiếng nói . 38
1.2.1. Liệt kê các lớp bài toán nhận dạng tiếng nói. 38
1.2.2. Môi trường thu nhận tín hiệu. 39
1.2.3. Biểu diễn tiếng nói - đặc trưng tiếng nói. 40
253 trang |
Chia sẻ: mimhthuy20 | Lượt xem: 577 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Trung, Thái, tiếng Việt là ngôn ngữ có thanh điệu và nhận dạng
thanh điệu cũng là một trong bài toán chưa giải quyết được triệt để. Tiếng Việt có sáu
thanh và được phân thành tám hiện tượng thanh điệu. Do đặc điểm của từng ứng dụng,
106
ta có thể chia thành hai bài toán: nhận dạng thanh điệu tiếng nói rời rạc và nhận dạng
thanh điệu tiếng nói liên tục.
Nhận dạng thanh điệu là vấn đề phức tạp ngay cả với các hạn chế là tiếng nói
được đọc rời từng âm tiết và cho một người nói xác định. Để đặc trưng hóa các thanh
điệu tiếng Việt, ngoài tần số cơ bản F0 thì cần có thêm một số tham số khác như trường
độ, năng lượng. Trong ngữ lưu tiếng nói có sự biến thanh mà để lượng hóa nó chúng ta
cần phải dùng đến các mô hình lượng hóa phức tạp như mô hình Fujisaki
[22][42][43][44][69]. Trong dạng rời rạc, đường nét thanh điệu mới tương đối ổn định,
nhưng cũng không dễ dàng khu biệt được chúng, chẳng hạn có giọng nói thanh huyền
có đường nét rất giống với thanh hỏi.
Trong [61], các tác giả đã sử dụng nhiều phương pháp khác nhau để xấp xỉ đường
F0 bằng phương pháp bình phương tối thiểu sau đó sử dụng mô hình học máy HMM,
GMM, để huấn luyện và nhận dạng thanh điệu của âm tiết đọc trong câu. Thực nghiệm
của các tác giả đã cho kết quả tốt nhất với mô hình GMM và đặc trưng F0 được xác
định trên bốn phân đoạn của âm tiết, trong đó giá trị đườn F0 được xác định bởi độ dốc
và giá trị trung bình.
Hình 4. 1. Cách tuyến tính hóa đường F0 từng phân đoạn
107
Trong [53] các tác giả đã chuẩn hóa đã đưa ra nhiều phép chuẩn hóa giá trị F0
khác nhau để nhận dạng 6 hiện tượng thanh điệu (8 hiện tượng thanh điệu trong thực
tế của các tác giả). Kết quả nghiên cứu của các tác giả đã đến kết luận giá trị đường F0
được chuyển sang miền logarit và chuẩn hóa về trung bình và độ lệch với kết quả tốt
nhất là 70,44% trong các thử nghiệm.
Hình 4. 2. Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc
ax 1 ax axmin : , 0.9 , 0.9u m j m j mj j j j E E E E
ax 1 axmax : , 0.1 , 0.1l u j m j mj j j j E E E E
Để tăng độ chính xác của kết quả nhận dạng thông qua mạng nơ ron dựa trên tri
thức về sự phụ thuộc thanh vào trường độ âm tiết, chúng tôi sử dụng các luật Heuristic
sau để loại nhanh một số trường hợp:
Phân lớp Nơ ron
Chuẩn hóa
Tính đặc trưng
thanh điệu
Trích chọn F0
T1T8
Sóng âm tiết
(4.1)
(4.2)
(4.3)
108
Luật 1: trung bình (F0) >
asb eF thanh cao ngược lại thanh thấp.
Luật 2: Dur(F) > D0 (ms): không phải các âm tiết có phụ âm cuối là p-t-c
Luật 3: ax minm
rate
mid
F F
F
F
: không phải thanh huyền.
Trong [6], tác giả đã sử dụng các đặc trưng của một thanh điệu tiếng Việt gồm: F0 ban
đầu, F0 sau cùng, giá trị độ tăng của F0, trường độ thanh điệu, tỷ số giảm của năng
lượng, kết hợp với cấc luật 1, 2, 3 (trong thực nghiệm, tham số D0=300, asb eF =200, Frate
= 0.3 (ứng với giọng nữ được kiểm tra trên) trên để nhận dạng 8 hiện tượng thanh điệu
tiếng Việt, âm tiết rời rac, phụ thuộc người nói với kết quả nhận dạng trên 93%. Đây
cũng là kết quả được báo cáo trong đề tài KC.01.03 [90].
STT Thanh điệu Số mẫu huấn
liệu
Số mẫu kiểm
tra
Kết quả(%)
1 Thanh ngã(x) 214 54 96.20
2 Thanh huyền(f) 422 110 99
3 Thanh hỏi (r) 394 101 93.06
4 Thanh ngang (middle) 438 215 96.70
5 Thanh sắc(s) 417 182 98,30
6 Thanh sắc có kết thúc
âm tiết /p/, /t/, /k/ (s2)
273 78 97,40
7 Thanh nặng (j) 341 94 98,90
8 Thanh nặng có kết thúc
âm tiết /p/, /t/, /k/ (j2)
187 46 93,40
4.2. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với
F0
Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu,
các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một
109
vấn đề tất yếu nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về xử
lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa
trên đặc trưng chuẩn MFCC và quy trình huấn luyện và nhận dạng theo thuật toán sau:
Bảng 4. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC
Huấn luyện HMM :
Đầu vào gồm T frame các đặc trưng
MFCC.
Bước 1: Xác định dãy trạng thái tối ưu
bằng thuật toán Viterbi:
1
1
({ } ) arg max log ( , )
T
T
t t t
t
S s p O W
Bước 2: Hiệu chỉnh lại tham số mô hình
HMM: *
1
arg max log ( , , )
T
t t
t
p O s W
Bước 3: Đặt =*, lặp lại tới khi mô hình
hội tụ.
Nhận dạng với HMM:
Đầu vào gồm T frame các đặc trưng
MFCC.
Giải mã theo Viterbi để xác định tập
nhãn, và dãy trạng thái tối ưu ứng với bộ
tham số mô hình HMM đã cho:
1
1
( , { } ) arg max log ( , )
T
T
t t t t
t
W S s p O s
Khi ứng dụng thuật toán nhận dạng HMM trên cho việc nhận dạng tiếng nói liên
tục không phụ thuộc người nói, hệ thống thường suy giảm độ chính xác với những
người nói có có đặc trưng giọng nói không phù hợp với những mẫu giọng được sử
dụng để huấn luyện mô hình HMM.
Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ
cảnh để nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu tiếng Việt [6]
[20][62]. Các tiếp cận này chủ yếu vẫn ghép trực tiếp đặc trưng thanh điệu vào các kiểu
đặc trưng tiếng nói như MFCC, PLP[53][62]. Có một tiếp cận khác sử dụng giá trị
đường F0, các tần số formant để xây dựng một phép hiệu chỉnh lại các đặc trưng
MFCC, dẫn đến kiểu đặc trưng không phụ thuộc người nói trong cả quá trình huấn
luyện và nhận dạng, qua đó kết quả nhận dạng của các hệ thống không phụ thuộc người
nói được cải thiện đáng kế.
110
Phần này trình bày phương pháp ghép trực tiếp giá trị đường F0 vào các vector
đặc trưng MFCC đã được hiệu chỉnh theo VTLN và thử nghiệm trong các hệ thống
nhận dạng tên riêng tiếng Việt phát âm liên tục và độc lập người nói.
4.2.1. Phép chuẩn hóa VTLN
Các hệ nhận dạng tiếng nói thường trích chọn đặc trưng của mỗi khung tiếng nói
(độ dài 10ms-25ms) theo kiểu MFCC ở thang tần số mel dựa trên đặc điểm cảm thụ tần
số âm của tai người, tuy vậy các hệ số MFCC không thể hiện được các biến thể bên
trong của mỗi người nói như VTL (vocal tract length, độ dài bộ cấu âm), dẫn đến việc
suy giảm chất lượng nhận dạng trong các hệ thống nhận dạng độc lập người nói.
VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ
các tham số hiệu chỉnh tần số cho mỗi người nói hoặc một phát âm. Có hai tiếp cận
chính cho VTLN, một là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học
của người nói như các tần số formant, hai là cách duyệt trên lưới của tham số hiệu
chỉnh để tối ưu hóa hàm mục tiêu của mô hình nhận dạng.
Hình 4. 3. Hiệu chỉnh tần số và trích chọn đặc trưng MFCC
Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t) trong miền tần số bằng biến đổi
FFT: X()= H()S() + N(), ở đó H() là biến dạng kênh và N() nhiễu cộng của
tín hiệu. Sử dụng M bộ lọc tam giác với khoảng cách giữa các vị trí k trong thang tần
số mel:
1
1
1
1
1
1
, [ , ]
( )
, [ , ]
k
k k
k k
k
k
k k
k k
B
,
1 1
2
[ , ]
( ) ( ) ( )
k k
kY m B X
,0m M-1 (*) (4.4)
111
MFCC(n) =
1
0
1
2
os log ( )
M
m
n m
c Y m
M
, 0nN-1
Khi đó với phép hiệu chỉnh tần số có dạng ’= () thì công thức (*) trở thành :
1 1
2
[ , ]
( ) ( ) ( ( ))
k k
kY m B X
Bảng dưới đây cho ta một số dạng biến đổi tuyến tính và phi tuyến của hàm
(), sử dụng hàm ( ) 1127 ln 1
2 700
sfz mel
, [0,] và fs là tần số lấy mẫu.
Bảng 4. 2. Một số dạng của phép hiệu chỉnh tần số
Dạng biến đổi Công thức biến đổi
Phi tuyến trong miền
tần số
1 (1 )sin( )( ) 2 tan
1 (1 ) os( )c
Tuyến tính từng đoạn
trong miền tần số
1
1
10
1 1
0
1
2
,
1
, 2 2
(**) ( ) ;[ ] ( ) , ,
1 1,
2
,
1
l
l u
u
a b
HTK
b c
c d
Dịch chuyển trong
miền mel
1127 1127( ) 700( 1)e e
(ứng với W(z)=z+)
Tuyến tính từng đoạn
trong miền mel
min
min( )
1127
ax
ax
min
( ) ,
( ) 700 1 , ( ) , [z ,z ]
( ) ,
l
l l
lW z
l u
m u
u u u
m u
z z
z z z z z
z z
e W z z z
z z
z z z z z
z z
Tham số [min, max] (ở đây min = 0.85, max = 1.15) đặc trưng cho mỗi người
nói có thể được ước lượng tự động từ các giá trị trung bình của formant F3 của tiếng
(4.5)
(4.6)
112
nói đầu vào và của tập huấn luyện [76]. Trong [40] các tác giả ước lượng dựa trên giá
trị trung bình của đường F0 của câu phát âm.
Kiểm nghiệm nhận dạng trên tập tên riêng các trường học chúng tôi thấy phương
pháp ước lượng này không tăng được đáng kể độ chính xác nhận dạng, do phương
pháp này mới chỉ nhấn mạnh vào việc thích ứng với lớp giọng có tần số cơ bản cao và
thấp. Ngoài ra, việc chuẩn hóa VTL cho từng người nói theo phương pháp này tuy đạt
được hiệu quả về tốc độ xử lý nhưng không thích ứng được với hình dạng đường F0
của các câu tiếng Việt biến đổi mạnh theo các thanh điệu của âm tiết, giữa giọng nữ và
giọng nam.
Sử dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh
tần số [min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào
[15][26][50][59][77][73] theo công thức sau:
min ax
1
1
[ , ]
1
( , { } ) arg max log ( , )
arg max log ( , ), ( )
m
T
T
t t t t
t
T
t t t t
t
W S s p O s
p O s O O
4.2.2. Tổ hợp giá trị F0 và chuẩn hóa VTLN
Phương pháp ghép giá trị F0 vào các hệ số MFCC đã được nắn lại sau phép hiệu
chỉnh tần số đề xuất trong nghiên cứu của tác giả được thực hiện gồm 4 bước chính
sau:
Bước 1. Xác định tham số và hiệu chỉnh lại các vector đặc trưng MFCC nhờ phương
pháp huấn luyện hợp lý cực đại ML (xem quy trình nêu ở bước 4)
Bước 2. Tính F0 theo thuật toán RAPT, nội suy xác định giá trị liên tục của đường F0
trên cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0.
Bước 3. Kết hợp F0 với các hệ số MFCC đã hiệu chỉnh
Thuật toán xác định tham số hiệu chỉnh dựa trên phương pháp huấn luyện hợp
lý cực đại ML (maximum likelihood) được cài đặt như sau :
(4.7)
113
Bước 4. Huấn luyện và giải mã.
Giai đoạn huấn luyện :
Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame
Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi:
1
1
({ } ) arg max log ( , ), ( )
T
T
t t t t t
t
S s p O W O O
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :
min ax
*
[ , ]
1
arg max log ( , ), ( )
m
T
t t t t
t
p O s O O
Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và
tham số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM:
* *
*
*
1
arg max log ( , , ), ( )
T
t t t t
t
p O s W O O
Bước 4: Đặt =*, và =*, lặp lại tới khi mô hình hội tụ.
Giai đoạn giải mã (nhận dạng):
Với một phát âm đầu vào gồm T frame
Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ
tham số mô hình HMM đã cho:
1
1
( , { } ) arg max log ( , )
T
T
t t t t
t
W S s p O s
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :
min ax
*
[ , ]
1
arg max log ( , ), ( )
m
T
t t t t
t
p O s O O
Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra:
**
1
arg max log ( , )
T
t t
t
W p O s
Do thuật toán HMM chuẩn có độ phức tạp là O(VN2T), ở đây N là số trạng thái
của mô hình HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong
thử nghiệm này, là số âm vị với các nguyên âm mang thanh điệu) và T là số frame đầu
vào , nên độ phức tạp của thuật toán HMM có kết hợp với VTLN là O(KVN2T), trong
(4.8)
114
đó K là số giá trị rời rạc hóa trên lưới giá trị của tham số [min, max] (ở đây min =
0.85, max = 1.15, mức rời rạc hóa theo bước 0.0001)
Thử nghiệm trên tập tên riêng phức tạp
Vấn đề nhận dạng tên “name entity recognition” là một vấn đề mở, tương đối
phức tạp, vẫn đang được nghiên cứu trong lĩnh vực nhận dạng tiếng nói [86] [84]. Do
vậy để kiểm nghiệm thuật toán chuẩn hóa VTLN kết hợp thông tin ngôn điệu, chúng
tôi đã thiết lập thực nghiệm nhận dạng tên của khoảng 300 trường Đại học và Cao đẳng
trong nước (một số tên trường có thể không còn trong thực tế).
Tập tên riêng này có các đặc điểm sau:
Tên trường chứa hơn 200 từ đa âm tiết tiếng Việt bao gồm tên địa danh cổ, tỉnh
thành, tên các danh nhân, ngành nghề, phiên âm tiếng nước ngoài, số đếm chỉ chi
nhánh trường.
Độ dài của một tên trường : ngắn nhất 4 âm tiết, dài nhất 15 âm tiết.
Không có 2 âm tiết nào có cùng âm tiết gốc (âm không mang thanh điệu).
Các tên trường có sự trùng lặp âm tiết lớn như các cặp tên trường sau
{Học viện hành chính quốc gia, Học viện hành chính quốc gia Hồ Chí Minh}
{ĐH dân lập Văn Lang, Đại học dân lập Văn hiến}
{Trường sỹ quan lục quân một, Trường sỹ quan lục quân hai}
{ĐH dân lập Thăng Long, ĐH dân lập Cửu Long}
{ĐH lâm nghiệp, ĐH nông nghiệp}
{ĐH dân lập Bình Dương, ĐH dân lập Hùng Vương}
{ĐH Sư phạm kỹ thuật, ĐH Sư phạm mỹ thuật}
Dữ liệu huấn luyện nhanh các mô hình HMM của các âm vị tiếng Việt là các bài
đọc truyện và tin tức của 2 phát thanh viên (một nam, một nữ giọng Hà Nội) của đài
tiếng nói Việt Nam, có khoảng 23000 câu với dung lượng dữ liệu hơn 1GB.
115
Hình 4.4: Câu “Các em đã nhận thức thế nào về hoàn cảnh ấy” đã được gán nhãn
Dữ liệu huấn luyện thích ứng được ghi bởi giọng đọc của 12 nam, 10 nữ sinh
viên, môi trường tín hiệu trong lớp học trên giảng đường, mỗi sinh viên đọc 300 tên
trường đúng một lượt. Tín hiệu thu có tần số lấy mẫu 11025Hz, đơn kênh 16 bit và có
nhiễu.
Dữ liệu kiểm tra hệ thống nhận dạng là giọng đọc của 3 nam, 6 nữ sinh viên và
một giọng nữ tiếng miền Nam, được thu trong cùng môi trường tín hiệu như với dữ liệu
huấn luyện thích ứng.
Khi tiến hành thử nghiệm, chúng tôi sử dụng phiên bản HTK 3.4 để huấn luyện,
kiểm thử và trích chọn đặc trưng MFCC thông thường.
Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm,
nguyên âm chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được
huấn luyện.
Do tập nhận dạng là tập tên các trường Đại học – Cao đẳng được cố định nên hệ
thống thử nghiệm chỉ sử dụng văn phạm câu biểu diễn bằng mạng mà không sử dụng
mô hình ngôn ngữ (xem [81] và bảng minh họa một phần mạng câu trong phụ lục).
116
Giá trị đường F0 và các vector đặc trưng MFCC được trích chọn với các frame độ
dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây. Các vector đặc
trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1 và bậc 2 của 13
hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh các vector
MFCC và ghép giá trị F0 sử dụng phương pháp đã trình bày ở trên.
Bảng 4. 3. Bảng kết quả thực nghiệm kiểm tra
Người
đọc
Đặc trưng chuẩn
MFCC
Đặc trưng MFCC + F0 VTLN-MFCC + F0
mức từ mức câu mức từ mức câu mức từ mức câu
Nu1 93,8 82,2 92,7 81,2 96,7 88,5
Nu2 97,0 86,3 97,3 88,4 97,6 89,4
Nu3 95,5 82,8 93,4 78,7 96,4 87,8
Nu4 97,4 90,9 97,0 88,8 97,6 91,9
Nu5 95,5 85,1 97,1 91,0 98,9 97,0
Nu6 86,7 67,7 88,1 72,9 91,8 81,2
Nu7 95,7 84,6 96,9 89,9 98,1 93,8
Nam1 98,6 92,9 98,5 92,9 98,9 94,9
Nam2 95,3 79,0 96,5 86,0 97,3 88,0
Nam3 97,1 88,8 97,7 93,9 98,6 96,2
Trung
bình
95,3 84,6 95,6 86,4 97,1 90,6
Các thực nghiệm cho thấy các biến đổi tần số kiểu “tịnh tiến” trong miền mel cho
kết quả thấp hơn một chút so với phép biến đổi theo hệ số tỉ lệ. Bảng 4.3 được cho với
phép biến đổi tần số theo phương pháp của HTK (xem bảng 4.2).
Quan sát bảng thực nghiệm 4.3, kết quả nhận dạng của “Nu6” thấp do đây là một
giọng nói tiếng miền Nam, thanh điệu và các tham số VTL hoàn toàn khác so với các
giọng đọc trong tập huấn luyện (chỉ có giọng miền Bắc).
117
Hình 4. 5. MFCC chuẩn, câu “ĐH Mỹ thuật TP.HCM“
Nhận dạng nhầm thành: “ĐH luật TP. HCM”.
Áp dụng phép hiệu chỉnh VTLN cho giọng “Nu6”, cho kết quả nhận dạng đúng.
Người nói “Nam2” thực tế kết quả nhận dạng sẽ cao hơn nhiều, lỗi xảy ra do
người đọc đã nhầm một số âm tiết của tên trường, hệ thống giải mã cho HMM đã nhận
dạng phát âm này về tên trường có trong tập từ vựng, chẳng hạn như:
Bảng 4. 4. Bảng kết quả giải mã tên trường của người đọc.
Phát âm Kết quả giải mã cho tên đúng
ĐH dân lập kỹ thuật công nghiệp ĐH dân lập kỹ thuật công nghệ
ĐH Thái Bình ĐH Y Thái Bình
Học viện bưu chính viễn TP. HCM Học viện bưu chính viễn thông TP.
HCM
ĐH ngoại thương Đà Nẵng ĐH ngoại ngữ Đà Nẵng
Cột giải mã cho tên đúng thể hiện đặc tính “dự đoán của hệ nhận dạng tiêng
nói“, dù rằng người thử nghiệm phát âm một tên trường không hoàn toàn chính
xác, hệ thống đã dự báo để trả lại một tên trong cơ sở dữ liệu giống nhất dựa trên
đồ thị chuyển trạng các âm vị của cơ sở dữ liệu tên riêng.
118
4.2.3. Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant
Sử dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh
tần số [min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào
[15][73][74] theo công thức sau:
min ax
1
1
[ , ]
1
( , { } ) arg max log ( , )
arg max log ( , ), ( )
m
T
T
t t t t
t
T
t t t t
t
W S s p O s
p O s O O
Xác định tham số theo phương pháp này cần sử dụng các kết quả trung gian khi
xử lý mô hình HMM của hệ thống nhận dạng tiếng nói liên tục:
Lưu lại toàn bộ đặc trưng MFCC gốc của các frame tín hiệu tiếng nói đã được
Bộ phát hiện kết thúc quá trình duyệt lưới trạng thái HMM.
Bộ trả về từ - kết quả của phép nhận dạng và vị trí theo thời gian cho từng âm vị
(forced alignment, phân đoạn cưỡng bức).
Dựa trên các thông tin này, hệ thống duyệt tìm tham số khi cho thay đổi trong
khoảng [min, max] và tính các xác suất trạng thái HMM tương ứng trên các MFCC
hiệu chỉnh theo của frame tiếng nói đã được định vị. Cuối cùng hệ thống gọi lại phép
giải mã HMM nhưng với dãy đặc trưng MFCC đã được hiệu chỉnh bằng VTLN.
Với một phát âm đầu vào gồm T frame:
Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ
tham số mô hình HMM đã cho:
1
1
( , { } ) arg max log ( , )
T
T
t t t t
t
W S s p O s
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :
min ax
*
[ , ]
1
arg max log ( , ), ( )
m
T
t t t t
t
p O s O O
Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra:
**
1
arg max log ( , )
T
t t
t
W p O s
(4.9)
119
Quy trình nhận dạng trên tiêu tốn bộ nhớ và thời gian tính toán, không thích hợp
trong các ứng dụng nhận dạng thời gian thực được xây dựng trên nền các hệ thống tài
nguyên hạn chế.
Theo hướng ước lượng tham số VTLN dựa trên các tham số ngữ âm như F0 và
formant, trong [40] các tác giả ước lượng dựa trên giá trị trung bình của đường F0 của
câu phát âm tuy nhiên khi tiến hành thử nghiệm chúng tôi nhận thấy phương pháp ước
lượng này kém chính xác khi áp dụng cho tiếng Việt do tiếng Việt có một số thanh điệu
có sự biến đổi mạnh về đường F0 như thanh nặng và thanh ngã.
Trong [76] các tác giả đã đề xuất cách ước lượng VTLN tự động từ các giá trị
trung bình của formant F3 của tiếng nói đầu vào và của tập huấn luyện, tuy nhiên các
tác giả không đưa ra cách tính trong trường hợp thời gian thực và trong trường hợp
frame tiếng nói đầu vào là vô thanh (các giá trị F0, formant không xác định được)
4.2.3.1. Xấp xỉ giá trị trung bình trong thời gian thực
Nếu cho trước N hữu hạn số thực x1, x2,,xN thì dễ dàng tính được giá trị trung
bình 1
N
k
k
mean
x
x
N
. Phép tính giá trị trung bình tuy đơn giản nhưng được sử dụng hiệu
quả trong phép chuẩn hóa đặc trưng MFCC để giảm thiểu sai lệch về phổ giữa đặc
trưng của tập người huấn luyện và đặc trưng của người nói mới.
1
1
1
N
N
k
N k
utt k kk
k
mfcc
mfcc mfcc mfcc
N
Ở đây N là số frame của ngữ đoạn tiếng nói,
1
N
k k
mfcc
là dãy N vector đặc trưng
MFCC của N frame. Trong [12] [39] các tác giả đã chứng tỏ chỉ với phép chuẩn hóa
CMN đã cải thiện được độ chính xác nhận dạng tiếng nói. Trong thời gian thực, số
frame không được xác định cho tới khi bộ tìm kiếm điểm đầu và cuối (Endpoint
detector) phát hiện được.
120
Vấn đề có thể phát biểu hình thức như sau:
Cho trước
1n n
x
là dãy vector số có số chiều hữu hạn , xác định dãy vector
1n n
y
như sau: y1=y0+x1, yn=yn-1 + xn, n=2,3, , (0,1), + =1, y0 = 0
hoặc được xác định trước.
Trong các ứng dụng xử lý tín hiệu số, tiếng nói hoặc dữ liệu ảnh thường các
vector xn biến đổi xung quanh một giá trị trung bình (tổng quát là kiểu các biến ngẫu
nhiên có cùng phân bố)sau khi phép tiền xử lý tín hiệu đã đi qua một phép phân cụm,
phân loại tín hiệu (chẳng hạn phép phân loại tín hiệu nền/nhiễu/tiếng nói trong xử lý
tiếng nói.)
Ký hiệu x là độ dài của vector x. Ta có các mệnh đề sau thể hiện tính chất của CMN:
Mệnh đề 1: N > 1, n>N
1
1 1 1 1
1
2 ax ( 1 ) ax 2 ax ( ) ax
1 1
n n
k k
k n k k n k
k k k N k n k N k n
n n
x x Nm x n N m x x Nm x n N m x x
y y
n n n n n
Chứng minh : do + =1 ta có,
1 1
1 1 1 1
1
1 1
k k
n n n n
k k
k k k k
n n n n
x x x x
y y x x
n n n n n
Từ đó suy ra ước lượng trên.
Từ ước lượng này ta thấy để yn gần giá trị trung bình thông thường của x1,x2,,xn
ta có thể chọn rất gần 0.
Mệnh đề 2:
N > 1, n > N.
2
1
axNn N N n N n l N l
N l n N
y y y y m x x
Chứng minh :
121
1 1 1 1m n m n m n m n m n m ny y y y x x y y y y x x , tương
tự
1 1 2 2 1 1m n m n m ny y y y x x ,
2 2 2 1 1m n m n m n m ny y y y x x x x
Bằng quy nạp ta có:
1
0
N
N k
m n m N n N m k n k
k
y y y y x x
Suy ra:
1 1
2 2
1
0 0
ax
N N
N k N k
n N N n N n N k N k n N n l N l
N l n N
k k
y y y y x x y y m x x
Do
1
0
1
1
1
N
k
k
nên 2
1
axNn N N n N n l N l
N l n N
y y y y m x x
Mệnh đề 3:
1n n n
x y
là dãy có tổng trung bình các phần tử xấp xỉ 0 tại mọi thời
điểm n.
Chứng minh :
1 1 1n n n n n nx y x x x y
1
1
2 1
n n
k k n k k
k k
x y x x x y
1 1 1
1 1
n n
k k n k k n n
k k
x y x x x y x y x y
1
1
1 1
n
n
k k
k
y y
x y x
. Do các giá trị yn bị chặn nên 1lim 0
n
k k
k
n
x y
n
Nhận xét : Với tín hiệu tiếng nói, thường x1,y1 xấp xỉ vector 0, nên
1 1
n
n
k k
k
y
x y
4.2.3.2. Ước lượng VTLN dựa trên giá trị formant
122
Dựa trên [38], chúng tôi đề xuất cách ước lượng tham số VTLN thời gian thực
như sau cho dãy frame tiếng nói câu đọc vào [CT5]:
3 0 3trainF F
3 1 3
3
3 1
aF i bF i
F i
F i
, nếu frame(i) là hữu
thanh
, trái lại
ở đây a, b là 2 hệ số, a,b(0,1), a+b =1, chúng tôi chọn a=0.95, b=0.05 khi thực
nghiệm
max min
3
min , ax ,
3
trainF
i m
F i
Ở đây 3trainF là giá trị trung bình format F3 trên toàn tập các frame hữu thanh của
tiếng nói huấn luyện, F3(i) là các giá trị ước lượng formant F3(i) từ thuật toán RAPT.
Giá trị đường F0, formant F3 và các vector đặc trưng MFCC được trích chọn với
các frame độ dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây.
Các vector đặc trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1
và bậc 2 của 13 hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh
các vector MFCC và ghép giá trị F0 được thực hiện gồm 3 bước chính sau:
Bước 1. Xác định frame đầu vào là hữu thanh hay vô thanh.
Bước 2. Tính F0, formant F3 theo thuật toán RAPT, nội suy xác định giá trị liên
Các file đính kèm theo tài liệu này:
- luanan_ngo_hoang_huy_7275_1854499.pdf