Luận văn Xác minh người qua giọng nói

MỤC LỤC

Bảng liệt kê các từviết tắt và các thuật ngữdùng trong luận văn

Danh mục các bảng

Danh mục các hình vẽ, đồthị

MỞ ĐẦU Trang

CHƯƠNG 1 - TỔNG QUAN---------------------------------------------------------- 1

1.1 Tổng quan vềsinh trắc học --------------------------------------------------------- 1

1.1.1 Giới thiệu ------------------------------------------------------------------------ 1

1.1.2 Hệthống nhận dạng tự động dựa trên sinh trắc học ------------------------ 2

1.2 Sơlược vềhệthống nhận dạng tự động người qua giọng nói ----------------- 3

1.2.1 Hai loại ứng dụng của lĩnh vực nhận dạng người qua giọng nói --------- 4

1.2.2 Tính đa dạng của hệthống nhận dạng người qua giọng nói. -------------- 5

CHƯƠNG 2 - PHƯƠNG PHÁP XÁC MINH NGƯỜI NÓI ------------------- 7

2.1 Dẫn nhập ------------------------------------------------------------------------------ 7

2.2 Rút trích đặc trưng ------------------------------------------------------------------ 7

2.2.1 Phân đoạn, pre-emphasis và hàm cửa sổ------------------------------------- 8

2.2.2 Biến đổi Fourier rời rạc -------------------------------------------------------- 9

2.2.3 Dải bộlọc tần sốmel ----------------------------------------------------------- 13

2.2.4 Biến đổi cosin rời rạc ---------------------------------------------------------- 15

2.2.5 Các hệsốmel-cepstrum và các đạo hàm của nó ---------------------------- 16

2.2.6 Năng lượng ---------------------------------------------------------------------- 16

2.2.7 Kết luận--------------------------------------------------------------------------- 16

2.3 Dò tìm năng lượng ------------------------------------------------------------------ 17

2.4 Chuẩn hoá đặc trưng ------------------------------------------------------------- 17

2.5 Huấn luyện mô hình nền và mô hình người nói --------------------------------- 17

2.5.1 Giới thiệu ------------------------------------------------------------------------- 17

2.5.2 Mô hình nền phổquát ---------------------------------------------------------- 18

2.5.3 Định lý Bayes-------------------------------------------------------------------- 19

2.5.4 Giải thuật Expectation Maximization (EM) --------------------------------- 20

2.5.5 Giải thuật Expectation Maximization trong ứng dụng -------------------- 22

2.6 Tính điểm cho một đoạn âm thanh ------------------------------------------------ 24

2.7 Chuẩn hoá điểm ---------------------------------------------------------------------- 26

2.7.1 T-norm (Test Normalization)-------------------------------------------------- 27

2.7.2 Z-norm (Zero Normaliztion)--------------------------------------------------- 28

2.8 Quyết định ----------------------------------------------------------------------------28

2.8.1 Các loại lỗi ---------------------------------------------------------------------- 28

2.8.2 Các phương pháp đánh giá hiệu năng --------------------------------------- 29

2.8.3 Điểm EER ----------------------------------------------------------------------- 29

2.8.4 Chọn ngưỡng -------------------------------------------------------------------- 30

CHƯƠNG 3 - GIỚI THIỆU TÓM TẮT PHẦN MỀM MÃ NGUỒN MỞ

ALIZE & LIA – RAL ------------------------------------------------------------------ 31

3.1 Nguồn gốc----------------------------------------------------------------------------- 31

3.2 Giới thiệu thưviện Alize ------------------------------------------------------------ 32

3.2.1 Bộphân tích cấu hình ---------------------------------------------------------- 32

3.2.2 Tập tin I/O------------------------------------------------------------------------ 32

3.2.3 Các tập tin đặc trưng ----------------------------------------------------------- 32

3.2.4 Các hàm thống kê -------------------------------------------------------------- 32

3.2.5 Các phân bốGaussian --------------------------------------------------------- 33

3.2.6 Tập các Gaussians -------------------------------------------------------------- 33

3.2.7 Phân đoạn đặc trưng ----------------------------------------------------------- 33

3.2.8 Xửlý các tập tin vào/ra dựa trên dòng --------------------------------------- 33

3.2.9 Các véc tơvà ma trận----------------------------------------------------------- 33

3.2.10 Bộquản lý ---------------------------------------------------------------------- 33

3.3 Giới thiệu gói Lia-ral ---------------------------------------------------------------- 34

3.3.1 Dò tìm năng lượng ------------------------------------------------------------- 34

3.3.2 Chuẩn hoá đặc trưng ----------------------------------------------------------- 36

3.3.3 Huấn luyện mô hình nền ------------------------------------------------------ 37

3.3.4 Huấn luyện mô hình người nói ----------------------------------------------- 37

3.3.5 Kiểm tra -------------------------------------------------------------------------- 38

3.3.6 Chuẩn hoá điểm ----------------------------------------------------------------- 39

3.3.7 Quyết định------------------------------------------------------------------------ 39

CHƯƠNG 4 - CHI TIẾT THỰC NGHIỆM --------------------------------------- 40

4.1 Chuẩn bịdữliệu ---------------------------------------------------------------------- 40

4.2 Chi tiết quá trình tiến hành thực nghiệm ------------------------------------------ 41

4.2.1 Khám phá tham số-------------------------------------------------------------- 41

4.2.2 Tìm hiệu năng ------------------------------------------------------------------- 42

4.3 Kết quảthửnghiệm ------------------------------------------------------------------ 43

4.3.1 Khám phá tham số-------------------------------------------------------------- 43

4.3.2 Tìm hiệu năng ------------------------------------------------------------------- 46

CHƯƠNG 5 – ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN ----------------------- 48

5.1 Đánh giá kết quả--------------------------------------------------------------------- 48

5.2 Hướng phát triển luận văn ---------------------------------------------------------- 48

TÀI LIỆU THAM KHẢO --------------------------------------------------------------- 49

PHỤLỤC A ------------------------------------------------------------------------------- 52

PHỤLỤC B ------------------------------------------------------------------------------- 57

PHỤLỤC C ------------------------------------------------------------------------------- 61

PHỤLỤC D ------------------------------------------------------------------------------- 62

4 trang | Chia sẻ: maiphuongdc | Lượt xem: 2440 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Luận văn Xác minh người qua giọng nói, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

1 1. Tổng quan Luận văn mô tả các bước thực hiện của một hệ thống xác minh người qua giọng nói (Automatic Speaker Verification − ASV), chủ yếu dựa trên công cụ Alize của trường đại học Avignon, Pháp. Đây là một hệ mã nguồn mở được phát triển trong khuôn khổ các dự án nhận dạng bằng sinh trắc học. Tuy nhiên, Alize chỉ là một thư viện và Lia-ral là những gói rời rạc, quá tổng quát để trở thành một hệ thống xác minh người qua giọng nói hoàn chỉnh. Trong luận văn này, ngoài việc giới thiệu hệ thống, chúng tôi tập trung vào các kết quả của vài thí nghiệm trên cơ sở dữ liệu người Việt Nam. Mặc dù nguồn dữ liệu thu thập cho các thí nghiệm chưa đủ lớn, chỉ khoảng 70 người nói từ các miền Bắc, Trung, Nam và kết quả chỉ đạt khoảng 83% nhưng cũng là bước khởi đầu cho lĩnh vực nhận dạng người qua giọng nói được phát triển ở Việt Nam về sau. Ngoài ra, nó cũng giúp cho các thí nghiệm đi đến kết quả cuối cùng. 2. Các bước cho hệ thống xác minh người qua giọng nói Hình 1 bên dưới mô tả các bước thực hiện của hệ thống xác minh tự động người qua giọng nói theo hướng độc lập văn bản (text-independent). Lấy mẫu Rút trích đặc trưng Đánh nhãn speech hoặc non-speech Dò tìm năng lượng Chuẩn hoá đặc trưng Huấn luyện mô hình nền Lời nói được số hoá MFCC Các véc tơ đặc trưng Các đặc trưng đã được chuẩn hoá Kiểm tra Chuẩn hoá điểm Quyết định Các đặc trưng của mẫu đầu vào cần xác minh Các Gaussian Mixture Models True/False? Các điểm của các mô hình tương ứng Log Likelihood Ratio (LLR) T-norm Ngưỡng θ Huấn luyện mô hình người nói/người giả danh Dùng giải thuật EM Dùng giải thuật EM Lời nói Hình 1: Các bước của một hệ thống xác minh người qua giọng nói. Số đặc trưng rút trích được là 39, gồm: 12 hệ số Mel-cepstrum (MFCCs), 12 đạo hàm bậc 1 của MFCCs, 12 đạo hàm bậc 2 của MFCCs, 1 đặc trưng năng lượng, 1 đạo hàm bậc 1 của năng lượng, 1 đạo hàm bậc 2 của năng lượng. 1 2 Mô hình nền và mô hình người nói là các Gaussian Mixture Models (GMMs). Chúng được huấn luyện sử dụng giải thuật Expectation Maximization (EM). Điểm (score) của đoạn âm thanh đầu vào so với mô hình chính là phép lấy log của tỉ lệ khả năng (log likelihood ratio – LLR). Sau khi điểm qua giai đoạn chuẩn hoá điểm thì được so sánh với ngưỡng θ. Nếu lớn hơn ngưỡng ứng dụng trả lời ‘TRUE’, ngược lại ứng dụng trả lời ‘FALSE’. 2. Đánh giá kết quả Tuy chưa có đóng góp quan trọng nào vào trong hai công cụ này (Alize và Lia-ral) nhưng chúng tôi đã mất rất nhiều thời gian đọc mã để tìm ra các câu trả lời không có trong các tài liệu kèm theo và có thể chạy hoàn chỉnh ứng dụng trên môi trường Window. Thật ra Alize không dễ sử dụng do nó rất ít tài liệu hỗ trợ. Hơn nữa, có những phần tài liệu kèm theo không phản ánh được việc cài đặt hiện tại. Kết quả thử nghiệm ban đầu dẫu không cao (khoảng 83%) nhưng nó cũng là kết quả bước đầu trong quá trình nghiên cứu về sau. Những kết quả đạt được trong luận văn này là: (1) Đã hoàn chỉnh và thử nghiệm thành công một ứng dụng xác minh người qua giọng nói dựa trên phần mềm mở Alize của Pháp. (2) Tạo được kho dữ liệu cho người Việt với 70 giọng từ những người nói khác nhau đến từ các miền khác nhau. (3) Thử nghiệm ứng dụng trên kho dữ liệu dành cho người Việt này. Những hạn chế chưa khắc phục: (1) Kho dữ liệu chưa đủ lớn nên việc thử nghiệm chưa có tính chính xác cao. (2) Hiệu năng còn thấp so với các ứng dụng tương tự được thực hiện ở các nước khác, chẳng hạn so với ứng dụng GIVES ở Thuỵ Điển. 3. Hướng phát triển luận văn Với những gì đã đạt được và những hạn chế còn tồn tại của luận văn, tôi dự tính những phát triển sắp tới theo kế hoạch: (1) Tiếp tục xây dựng kho dữ liệu và thử nghiệm lại trên ứng dụng này. (2) Xem xét và ước tính lại mô hình huấn luyện nhằm nâng cao hiệu năng. (3) Dựa trên các thành quả có sẵn, phát triển ứng dụng thành hệ thống định danh người Việt qua giọng nói. 2 3 1. Overview This thesis describes the steps of automatic speaker verification system (ASV) based on Alize toolkit of Avignon university of France. This is a open-source software developed for only biometric recognition. However, Alize is a library which supports mathematics, statistics, and I/O on which the Lia-ral is built. They is too general to be automatic speaker verification application. In this thesis, beside introducing the system, we focus on the results of the experiments on Viet Nam data set. Although the data set is pretty small – about 70 speakers came from North, Middle, South – and the final result is only about 83%, it is the foundation for the field of automatic speaker recognition at VietNam in the future and it also helps our experiments to obtain final result. 2. The steps of Automatic Speaker Verification system Figure 1 shows the steps of Automatic Speaker Recognition system according to text- independent style. Figure 1: Steps of Automatic Speaker Verification system. The extracted features are 39 including 12 Mel Frequency Cepstral Coefficients (MFCCs), 12 their first-order derivation, 12 their second-order derivation, 1 energy, 1 its first-order derivation, 1 its second-order derivation. Background model and target model are Gaussian Mixture Models (GMMs). They were trained by Expectation Mazimization (EM) algorithm. Log likelihood ratio is score of comparing audio input with a model. After nomalizing score, it is compared with θ threshold. If score is greater than or as equal as θ, the answer is ‘TRUE’. Inversely, the answer is ‘FALSE’. Audio Sampling Feature Extraction speech or non s Energy Detecing Feature Normalization peech? Training background models Digital Speech MFCCs Feature Vectors Features are normalized Testing Score Normalization Speaker Verification (Decision) Feature vectors of Unknown Audio Models True/False? Score is calculated Log Likelihood Ratio Training speaker /impostor models (LLR) Z-norm/T-norm/H-norm θ Threshold GMM+EM alg with ML GMM+EM alg with MAP 3 4 3. Result Assessment Although there has not been yet a important contribution to these two toolkits (Alize and Lia-ral), we spent much time in reading source code to find answers not available in the documentations and successfully built a complete ASV system in Window operating system. Actually, alize is not easy to use because of very little references. Moreover, there are some available documents but they do not reflect present implementations. The initial experimental results is not much high, but they are also results of the first step in researching later. The achievements in this thesis are: (1) Finished and successfully experimented on our ASV system based on Alize open- source software of France. (2) Built a Vietnamese speaker database with 70 voices from different speakers who came from different areas. (3) Experimented the project on this database. Restrictions: (1) Database is not large enough to obtain high accuracy for experiments. (2) Performance is lower than similar applications’s performance, such as GIVES of Sweden. 4. Future work With achievements and restrictions in this thesis, we estimate the following plans in the future: (1) Continue to build larger Vietnamese speaker database and experiment again on this project. (2) Consider other models instead of GMM. (3) Reply on available achievements to develop the project into automatic VietNamese speaker identification system. 4

Các file đính kèm theo tài liệu này:

5.pdf
0.pdf
1.pdf
2.pdf
3.pdf
4.pdf
6.pdf
7.pdf
8.pdf
9.pdf
10.pdf
11.pdf
12.pdf
13.pdf
14.pdf
15.pdf
16.pdf