Luận văn Xây dựng chương trình bắt lỗi chính tả tiếng Việt
Mục lục Tóm tắt luận văn 8 1 Mở đầu 10 1.1 Nội dung bài toán . . . . . . . . . . . . . . . . . . . . . . . 11 1.2 Đặc điểm . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.3 Hướng giải quyết . . . . . . . . . . . . . . . . . . . . . . . 14 1.4 Bố cục luận văn . . . . . . . . . . . . . . . . . . . . . . . . 15 2 Cơ sở lý thuyết ngôn ngữ 16 2.1 Âm tiết . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.1.1 Nguyên âm và phụ âm . . . . . . . . . . . . . . . . 17 2.1.2 Âm vị . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.3 Âm tiết . . . . . . . . . . . . . . . . . . . . . . . . 19 2.1.4 Phụ âm đầu . . . . . . . . . . . . . . . . . . . . . . 23 2.1.5 Vần . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.1.6 Thanh điệu . . . . . . . . . . . . . . . . . . . . . . 30 2.2 Từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.2.1 Định nghĩa từ . . . . . . . . . . . . . . . . . . . . . 32 2.2.2 Đặc điểm của từ . . . . . . . . . . . . . . . . . . . 36 2.2.3 Các quan niệm về hình vị và từ trong tiếng Việt . . . 37 2.3 Từ láy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.4 Chính tả tiếng Việt . . . . . . . . . . . . . . . . . . . . . . 39 2.4.1 Tổng quan về chữ viết tiếng Việt . . . . . . . . . . . 39 2.4.2 Chính tả tiếng Việt . . . . . . . . . . . . . . . . . . 41 2.4.3 Lỗi chính tả . . . . . . . . . . . . . . . . . . . . . . 45 3 Cơ sở tin học 46 3.1 Bắt lỗi chính tả . . . . . . . . . . . . . . . . . . . . . . . . 47 3.1.1 Phân loại lỗi chính tả . . . . . . . . . . . . . . . . . 47 3.1.2 Phát hiện lỗi chính tả . . . . . . . . . . . . . . . . . 49 3.1.3 Các sai lầm của trình bắt lỗi chính tả . . . . . . . . 49 3.1.4 Vấn đề chữ hoa, chữ thường . . . . . . . . . . . . . 50 3.2 Lập danh sách từ đề nghị . . . . . . . . . . . . . . . . . . . 51 3.2.1 Lỗi phát âm sai . . . . . . . . . . . . . . . . . . . . 52 3.2.2 Lỗi nhập sai . . . . . . . . . . . . . . . . . . . . . 53 3.2.3 Các lỗi khác . . . . . . . . . . . . . . . . . . . . . 54 3.3 Sắp xếp danh sách . . . . . . . . . . . . . . . . . . . . . . 55 3.3.1 Văn phạm ràng buộc . . . . . . . . . . . . . . . . . 55 3.3.2 Mật độ quan niệm . . . . . . . . . . . . . . . . . . 56 3.4 Bắt lỗi tự động . . . . . . . . . . . . . . . . . . . . . . . . 59 3.4.1 Mô hình TBL . . . . . . . . . . . . . . . . . . . . . 59 3.4.2 Mô hình Winnow . . . . . . . . . . . . . . . . . . . 62 3.4.3 Mô hình Danh sách quyết định . . . . . . . . . . . . 65 3.4.4 Mô hình Trigram và Bayes . . . . . . . . . . . . . . 66 3.4.5 Mô hình Bayes và Danh sách quyết định . . . . . . 67 3.5 Bắt lỗi tiếng châu Á . . . . . . . . . . . . . . . . . . . . . . 68 3.6 Tách từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.6.1 Khớp tối đa . . . . . . . . . . . . . . . . . . . . . . 71 3.6.2 Mô hình HMM . . . . . . . . . . . . . . . . . . . . 72 3.6.3 Mô hình WFST và mạng nơ-ron . . . . . . . . . . . 73 3.6.4 Mô hình Source-Channel cải tiến . . . . . . . . . . 73 3.6.5 Mô hình TBL . . . . . . . . . . . . . . . . . . . . . 75 3.7 Tách từ mờ . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.7.1 Huấn luyện . . . . . . . . . . . . . . . . . . . . . . 77 4 Mô hình 79 4.1 Mô hình chung . . . . . . . . . . . . . . . . . . . . . . . . 80 4.1.1 Tiền xử lý . . . . . . . . . . . . . . . . . . . . . . . 82 4.1.2 Bắt lỗi non-word . . . . . . . . . . . . . . . . . . . 82 4.1.3 Bắt lỗi real-word . . . . . . . . . . . . . . . . . . . 82 4.2 Tiền xử lý . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.2.1 Tách token . . . . . . . . . . . . . . . . . . . . . . 83 4.2.2 Tách câu . . . . . . . . . . . . . . . . . . . . . . . 85 4.2.3 Chuẩn hoá . . . . . . . . . . . . . . . . . . . . . . 85 4.2.4 Chữ viết hoa . . . . . . . . . . . . . . . . . . . . . 87 4.2.5 Từ nước ngoài, từ viết tắt, các ký hiệu . . . . . . . . . 87 4.3 Bắt lỗi non-word . . . . . . . . . . . . . . . . . . . . . . . 88 4.3.1 Tìm lỗi chính tả . . . . . . . . . . . . . . . . . . . . 88 4.3.2 Lập danh sách từ đề nghị . . . . . . . . . . . . . . . 88 4.3.3 Sắp xếp danh sách từ đề nghị . . . . . . . . . . . . 96 4.4 Bắt lỗi real-word . . . . . . . . . . . . . . . . . . . . . . . 96 4.4.1 Lưới từ . . . . . . . . . . . . . . . . . . . . . . . . 96 4.4.2 Tạo lưới từ . . . . . . . . . . . . . . . . . . . . . . 99 4.4.3 Mở rộng lưới từ — Phục hồi lỗi . . . . . . . . . . . 100 4.4.4 Hoàn chỉnh lưới từ . . . . . . . . . . . . . . . . . . 103 4.4.5 Áp dụng mô hình ngôn ngữ — Tách từ . . . . . . . 103 4.4.6 Tìm lỗi chính tả . . . . . . . . . . . . . . . . . . . . 106 4.4.7 Lập danh sách từ đề nghị . . . . . . . . . . . . . . . 106 4.4.8 Sắp xếp danh sách từ đề nghị . . . . . . . . . . . . 107 4.4.9 Các heuristic để cải thiện độ chính xác . . . . . . . 107 4.5 Huấn luyện . . . . . . . . . . . . . . . . . . . . . . . . . . 111 4.5.1 Huấn luyện mô hình ngôn ngữ . . . . . . . . . . . . 112 5 Cài đặt 120 5.1 Cấu trúc dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . 122 5.1.1 Lưu chuỗi . . . . . . . . . . . . . . . . . . . . . . . 122 5.1.2 Từ điển . . . . . . . . . . . . . . . . . . . . . . . . 123 5.1.3 Câu . . . . . . . . . . . . . . . . . . . . . . . . . . 124 5.1.4 Lưới từ . . . . . . . . . . . . . . . . . . . . . . . . 124 5.1.5 Cách tách từ . . . . . . . . . . . . . . . . . . . . . 125 5.1.6 Mô hình ngôn ngữ . . . . . . . . . . . . . . . . . . 125 5.2 Tiền xử lý . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 5.2.1 Tách token . . . . . . . . . . . . . . . . . . . . . . 126 5.2.2 Tách câu . . . . . . . . . . . . . . . . . . . . . . . 126 5.3 Lưới từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 5.3.1 Tạo lưới từ . . . . . . . . . . . . . . . . . . . . . . 126 5.3.2 Bổ sung lưới từ . . . . . . . . . . . . . . . . . . . . 132 5.3.3 Tìm cách tách từ tốt nhất . . . . . . . . . . . . . . . 132 5.3.4 Lỗi phát âm . . . . . . . . . . . . . . . . . . . . . . 135 5.3.5 Danh từ riêng . . . . . . . . . . . . . . . . . . . . . 136 5.3.6 Lỗi bàn phím . . . . . . . . . . . . . . . . . . . . . 137 5.4 Bắt lỗi chính tả . . . . . . . . . . . . . . . . . . . . . . . . 137 5.4.1 Separator . . . . . . . . . . . . . . . . . . . . . . . 142 5.4.2 vspell-gtk . . . . . . . . . . . . . . . . . . . . . . . 142 5.5 Huấn luyện . . . . . . . . . . . . . . . . . . . . . . . . . . 146 5.5.1 Dữ liệu huấn luyện . . . . . . . . . . . . . . . . . . 146 5.5.2 Dữ liệu nguồn . . . . . . . . . . . . . . . . . . . . 146 5.5.3 Tiền xử lý ngữ liệu huấn luyện . . . . . . . . . . . . 147 5.5.4 Huấn luyện dữ liệu . . . . . . . . . . . . . . . . . . 148 5.6 Linh tinh . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 5.6.1 Xử lý bảng mã . . . . . . . . . . . . . . . . . . . . 148 5.6.2 So sánh chuỗi . . . . . . . . . . . . . . . . . . . . . 149 5.6.3 Xử lý tiếng Việt . . . . . . . . . . . . . . . . . . . . 149 6 Đánh giá và kết luận 150 6.1 Tóm tắt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.2 Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.3 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 6.4 Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . 158 Tài liệu tham khảo 160 Phụ lục 165 A Dữ liệu kiểm tra 165
Các file đính kèm theo tài liệu này:
- Luận văn - Xây dựng tên miền bắt lỗi chính tả.pdf