Đề tài Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt

MỤC LỤC

1. Lời mở đầu . 7

2. Nội dung chính của báo cáo. 7

2.1 Tổng quan tình hình nghiên cứu trong và ngoài nước . 7

2.2 Những nội dung đã thực hiện .10

2.2.1 Kết quảnghiên cứu vềTổng hợp và Nhận dạng tiếng Việt .10

2.2.1.1 Các kết quảnghiên cứu .10

Khảo sát vềngữâm tiếng Việt.10

Tổng hợp tiếng Việt .11

Nhận dạng tiếng Việt .12

2.2.1.2 Sản phẩm phần mềm .17

Hệthống Tổng hợp tiếng nói VnVoice 2.0 .17

Chương trình nhận dạng lệnh VnCommand.18

Chương trình đọc chính tảVnDictator .18

Chương trình xây dựng công nghệcoding

ngữnghĩa của âm thanh .19

2.2.1.3 Vềtriển khai ứng dụng .20

Ứng dụng của tổng hợp tiếng nói .20

2.2.2 Nghiên cứu phát triển kỹthuật nhận dạng chữin và

viết tay tiếng Việt.20

Nhận dạng chữViệt in VnDOCR 3.0 .22

Nhận dạng chữviết tay có hạn chế.22

2.2.3 Nghiên cứu phát triển các kỹthuật xửlý ngôn ngữ

tựnhiên tiếng Việt .24

2.2.3.1 Dịch tự độngViệt – Anh .24

2.2.3.2 Dóng hàng văn bản song ngữPháp-Việt.26

2.2.3.2 Mô hình từ điển điện tử.28

2.3 Tổng quát hoá và đánh giá kết quảthu được.28

2.4 Kết luận và kiến nghị.29

2.5 Tài liệu tham khảo .31

121 trang | Chia sẻ: maiphuongdc | Lượt xem: 2463 | Lượt tải: 2Free

Bạn đang xem trước 20 trang tài liệu Đề tài Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

arkov Models and Level Building”, IEEE Transaction on Acoustic, Speech and Signal Processing, Vol ASSP-33, N. 3, June 1985, pp 561-573. 4. M. Ibnkahla, “Application of neural networks to digital communications - a survey”, Signal Procesing 80(2000), pp.1185-1215. 5. Lawrence Rabiner, “Fundamental of speech recognition”, 1995. 6. A.Samouelian - “Knowledge based approach to consonant recognition”, Department of electrical and Computer Engineering, University of Wollongong, Northfields Avennue, Wollongong, NSW 2522, Australia. 7. Tan Lee and P.C. Ching- “A Neural Network Based Speech Recognition System for Isolated Cantonese Syllables”, Department of electronic Engineering, The Chinese University of Hong Kong, N.T., Hong Kong, ICASSP - 1997, pp.3269-3272. 8. TungHui Chiang, CCLMDS’96 “Towards a Speaker-Independent Large- Vocabulary Mandarin Dictation System”, ICASSP 1997, pp 1799-1802. 9. Vũ Kim Bảng, “Khái niệm ngữ âm học”, Tạp chí ngôn ngữ số 5 – 1999. 50 10. Vũ Kim Bảng, “Hệ Phooc mang của 9 nguyên âm đơn tiếng Hà Nội”- Tạp chí ngôn ngữ số 15-2002. B. Nhận dạng chữ Việt in 11. René Sennhauser, Improving the recognition accuracy of text recognition systems using typographical constraints, Elẻctonec PublishingUBLISHING, VOL 6(3), 273-282, September 1993. 12. [Fletcher et al.] L.A. Fletcher, R.Kasturi. A robust algorithm for text string separation from mixed text/graphics images. In IEEE Trans.Pattern. Ana. Machine Intell. 10, Vol.6, 1998, 910-918. 13. Luong Chi Mai, Nguyen Duc Dzung, Ngo Quoc Tao. A new method of OCR based on a structure of character. Proceeding of AMPST 96, Bradford, UK, 1996. 14. Giovanni Seni, V Kripasundar and Rohini K. Srihari, Generalizing edit distance to incorporate domain information: Hand written text recognition as a case study C. Nhận dạng phiếu điều tra và chữ viết tay có hạn chế 15. Ng« Quèc T¹o, §ç N¨ng Toµn, NguyÔn ThÞ Thanh T©n, "PhiÕu ®iÒu tra vµ hÖ thèng nhËp phiÕu ®iÒu tra tù ®éng", Mét sè vÊn ®Ò chän läc cña c«ng nghÖ th«ng tin, NXB KHKT Hµ Néi 2002. 16. L-¬ng Chi Mai, §ç N¨ng Toµn, Ng« Thµnh Trung, VÒ mét ph-¬ng ph¸p x¸c ®Þnh ng-ìng tù ®éng trong ph©n tÝch trang v¨n b¶n, Kû yÕu héi th¶o Quèc gia lÇn thø 5, "Mét sè vÊn ®Ò chän läc cña c«ng nghÖ th«ng tin", NXBKHKT, Hµ Néi 2003. 17. Ngô Quốc Tạo, Phạm Văn Hùng, “Nhận dạng chữ viết tay hạn chế sử dụng các đặc trưng về cấu trúc chữ”, Kỷ yếu hội thảo Quốc gia lần thứ 5 "Một số vấn đề chọn lọc của Công nghệ thông tin", NXBKHKT, Hà Nội 2003. 18. Ngô Quốc Tạo, Phạm Văn Hùng, "Một số phương pháp Nhận dạng chữ viết tay hận chế", Kỷ yếu Héi th¶o khoa häc quèc gia lÇn thø nhÊt Nghiªn cøu ph¸t triÓn vµ øng dông C«ng nghÖ th«ng tin vµ TruyÒn th«ng, 2/2003. 19. Ng« Quèc T¹o, §ç N¨ng Toµn vµ céng sù, "ThiÕt kÕ vµ cµi ®Æt thö nghiÖm hÖ nhËp phiÕu ®iÒu tra d¹ng dÊu MarkRead", Héi th¶o khoa häc quèc gia lÇn thø nhÊt Nghiªn cøu ph¸t triÓn vµ øng dông C«ng nghÖ th«ng tin vµ TruyÒn th«ng, 2/2003. D. Dịch Việt – Anh 20. Noam Chomsky, On certain formal properties of grammars, Inform Control, vol 2, p.137-167, 1959. 21. Christian Boitet (2002) A rationale for using UNL as an Interlingua and more in various domains, Geta, Clips, Imag, 385, av. de la bibliothèque, BP 53, F-38041 Grenoble cedex 9, France, Christian.Boitet@ imag.fr, LREC- 51 02 First International Workshop on UNL, other Interlinguas and their Applications, 1 June 2002 22. Bonnie Dorr and Nizar Habash (2002) Interlingua Approximation: A Generation-Heavy Approach, University of Maryland, Institute for Advanced Computer Studies, {bonnie,habash} @umiacs.umd.edu (UNITRAN) 23. John Hutchins W. (2003) Machine translation: half a century of research and use, UNED summer school at Ávila, Spain, July 2003], homepages/ 24. Stephen D. Richardson (2002) Achieving commercial-quality translation with example-based methods, Stephen D. Richardson, William B. Dolan, Arul Menezes, Jessie Pinkham, Microsoft Research, One Microsoft Way, Redmond, WA 98052, {steveri, billdol, arulm, jessiep}@ microsoft. com 25. Arturo Trujillo (1999) Translation Engines: techniques for Machine Translation. Springer-Verlag, Berlin, 1999. 26. Kevin Knight (1995) Integrating Knowledge Bases and Statistics in MT, Kevin Knight, Ishwar Chander, Matthew Haines, Vasileios Hatzivassiloglou, Eduard Hovy, Masayo Iida, Steve K. Luk, Akitoshi Okumura, Richard Whitney, Kenji Yamada, USC Information Science Institute, 4676 Admiralty Way, Marina del Rey, CA 90292 27. DeryleW. Lonsdale, Alexander M. Franz, and John R. R. Leavitt (1994) Large-Scale Machine Translation: An Interlingua Approach, Center for Machine Translation, Carnegie Mellon University, Pittsburgh, Pa., USA, 15213, Email: [email protected], [email protected], [email protected]. edu (KANT) 28. Michele Banko and Eric Brill (2002) Scaling to Very Very Large Corpora for Natural Language Disambiguation, Microsoft Research, 1 Microsoft Way, Redmond, WA 98052 USA, {mbanko, brill}@ microsoft.com 29. Unification and Some New Grammatical Formalisms, Aravind K. Joshi, Department of Computer and Information Science, University of Pennsylvania (Nguồn : Internet) 30. ISHIZAKI Shun, UCHIDA Hiroshi, (1998) On Interlingua for Multilingual Machine Translation, 1998, IPSJ SIGNotes Natural Language Abstract No.070 – 003 31. Lê Khánh Hùng (2003) Văn phạm cảm ngữ đoạn, Báo cáo khoa học tại hội thảo quốc gia lần thứ sáu “Một số vấn đề chọn lọc của CNTT và TT”, Thái nguyên, 8-2003. 32. Lê Khánh Hùng, Trần Cảnh (2003) Về một số hạn chế của mô hình văn phạm Chomsky, Tạp chí Bưu chính Viễn thông, Chuyên san, 10, 2003. 33. Lê Khánh Hùng (2003) Một Phương pháp Dịch máy Liên ngữ. Kỷ yếu Hội thảo Khoa học Quốc gia lần thứ nhất về Nghiên cứu, Phát triển và Ứng dụng CNTT&TT, Hà nội, 2003. E. Dóng hàng các văn bản song ngữ Pháp - Việt / Việt – Pháp 52 34. Abney S., "Part-of-Speech Tagging and Partial Parsing", in Young S. and Bloothooft (Eds), Corpus-Based Methods in Language and Speech processing, Kluwer Academic Publishers, Dodreht (The Netherlands), 1997. 35. Brill E., "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging", Computational Linguistics, 21(4), December 199, p.543-565. 36. Cao Xuân Hạo, Tiếng Việt - mấy vấn đề ngữ âm, ngữ pháp, ngữ nghĩa, NXB Giáo dục, 2000. 37. Dermatas E., Kokkinakis G., "Automatic Stochastic Tagging of Natural Language Texts", Computational Linguistics 21.2, 1995, p. 137 - 163. 38. Diệp Quang Ban, Hoàng Văn Thung, Ngữ pháp tiếng Việt (2 tập), NXB Giáo dục, 1999. 39. El-Bèze M, Spriet T., "Etiquetage probabiliste et contraintes syntaxiques", Actes de la conférence sur le Traitement Automatique du Langage Naturel (TALN95), Marseille, France,14-16/6/1995. 40. Hoàng Phê (chủ biên), Từ điển tiếng Việt 2002, Nhà xuất bản Đà Nẵng - Trung Tâm Từ Điển Học. 41. Hữu Đạt, Trần Trí Dõi, Đào Thanh Lan, Cơ sở tiếng Việt, NXB Giáo dục, 1998. 42. Kuipec J., "Robust Part-of-Speech Tagging Using a Hidden Markov Model", Computer Speech and Language, vol. 6, 1992, p. 225-242. 43. Levinger M., Ornan U., Itai A., "Learning morpho-lexical probabilities from an untagged corpus with an application to Hebrew", Comutational Linguistics, 21(3), 1995, p. 383-404. 44. MacMahon J.G., Smith F.J., "Improving statistical language model performance with automatically generated word hierarchies", Computational Linguistics, 19(2), 1993, p. 313-330. 45. Mason O., Tufis D., "Tagging Romanian Texts: a Case Study for QTAG, a Language Independent Probabilistic Tagger", 1st International Conference on Language Ressources and Evaluation (LREC98), Granada (Spain), 28- 30 May 1998, p. 589-596. F. Mô hình từ điển điện tử 46. Cheng-Ming Guo. Machine Tractable Dictionaries, Design and Construction, Ablex Publishing Corporation, Northwood, New Jersey 1995. 47. Donald E. Walker, Antonio Zampolli, Nicoletta Calzolari. Automation the lexicon, Oxford University Press 1995. 48. Douglas B. Lenat, R.V. Guha. Building large knowledge-based systems: representation and inference in the CYC project, Addison-Wesley Pub. Co., 1989, c1990. 49. Fellbaum, Christiane. WordNet: An electronic lexical database, MIT Press 1998. 53 50. German Rigau, Eneko Agirre. Disambiguating bilingual nominal entries against WordNet. In Proceedings of The Computational Lexicon Workshop. Seventh European Summer School in Logic, Language and Information, ESSLLI’95, Barcelona, Spain, 1995. 51. Japan Electronic Dictionary Research Institute, Ltd. EDR Electronic Dictionary Technical Guide, 1993. 52. Jordi Atserias, Salvador Climent, Xavier Farreres, German Rigau, Horacio Rodriguez. Combining multi methods for the Automatic construction of multilingual WordNet, in Proceeding of RANLP, Bulgaria, 1997. 53. Latifur R. Khan, Eduard H. Hovy. Improving the Precision of Lexicon-to- Ontology Alignment Algorithms, in Proceedings of the AMTA/SIG-IL First Workshop on Interlinguas, San Diego, CA October, 1997. 54. Piek Vossen. EuroWordNet: a multilingual database with lexical semantic network, Dordrecht: Kluwer Academic, 1998. 55. Vincent B.Y.Ooi. Computer Corpus Lexicography, Edinburgh University Press, 1998. 56. Yorick A. Wilks, Brian M. Slator, and Louise M. Guthrie. Electric Words, MIT Press, 1996. 57. Diệp Quang Ban. Ngữ Pháp Tiếng Việt, NXB Giáo Dục 2000 (in Vietnamese). 58. Nguyễn Thị Quy. Vị từ hành động tiếng Việt và các tham tố của nó, NXB Khoa học Xã hội, 1995 (in Vietnamese). 59. Trung tâm Khoa học Xã hội và Nhân văn Quốc Gia. Ngữ Pháp Tiếng Việt, NXB Khoa học Xã hội, 2000 (in Vietnamese). D1-1-ĐGMOI BẢN TỰ ĐÁNH GIÁ VỀ TÌNH HÌNH THỰC HIỆN VÀ NHỮNG ĐÓNG GÓP MỚI CỦA ĐỀ TÀI KH&CN CẤP NHÀ NƯỚC (Kèm theo Quyết định số 13/2004/QĐ-BKHCN ngày 25/5/2004 của Bộ trưởng Bộ Khoa học và Công nghệ) 1. Tên Đề tài NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT Mã số: KC01-03 2. Thuộc Chương trình: Khoa học và Công nghệ trọng điểm cấp Nhà nước giai đoạn 2001 – 2005: “Nghiên cứu khoa học và phát triển Công nghệ thông tin và truyền thông”, Mã số KC01. 3. Chủ nhiệm Đề tài: GS.TSKH. Bạch Hưng Khang 4. Cơ quan chủ trì Đề tài: Viện Công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam. 5. Thời gian thực hiện (BĐ-KT): từ tháng 10 năm 2001 – tháng 6 năm 2004 6. Tổng kinh phí thực hiện Đề tài: 2 tỷ đồng Trong đó, kinh phí từ NSNN: 2 tỷ đồng 7. Tình hình thực hiện Đề tài so với Hợp đồng 7.1/ Về mức độ hoàn thành khối lượng công việc Đã hoàn thành các nhiệm vụ đã đăng ký trong hợp đồng: bao gồm 8 sản phẩm với các chức năng cụ thể như sau: 1. Hệ thống tổng hợp tiếng nói VnVoice − Tổng hợp văn bản chữ in tiếng Việt (với các mã Unicod, TCVN 5712, VNI) thành tiếng nói. − Đọc rõ ràng các âm tiết tiếng Việt. − Đọc các khuôn dạng phi từ: biểu thức số, ngày tháng, giờ điện tử, tiền Việt, các đơn vị đo lường, các xâu viết tắt thông dụng. − Đọc tự động văn bản hỗn hợp Việt - Anh, hoặc thuần Việt, hoặc thuần Anh. 2 − Đọc các văn bản từ các nguồn: trên clipboard, văn bản từ bàn phím gõ vào, văn bản trên các Website, trong các ứng dụng Microsoft Word, Outlook Express. − Dựa trên phương pháp ghép nối các đơn vị âm cơ bản, sử dụng phương pháp PSOLA cho 2 bộ đơn vị: 1/khoảng 300 đơn vị âm cơ bản, dung lượng bộ nhớ 1,5MB RAM, gồm phụ âm đầu và phần vần không thanh điệu, tổng hợp thanh điệu, tổng hợp được tất cả các thanh tiếng Việt, bao gồm cả thanh ngã và thanh nặng; 2/ khoảng 900 đơn vị âm cơ bản, dung lượng bộ nhớ 6 MB RAM, gồm phụ âm đầu và phần vần có thanh điệu. − Để đánh giá độ hiểu của tiếng Việt tổng hợp, đề tài đã thực hiện những đánh giá và kết quả thống kê trên 100 đối tượng sau: Nhóm A (50 người, khác nhau về tuổi và giới tính) là những người nghiên cứu tiếng Việt(A1) và phóng viên (A2), do vậy yêu cầu của họ khi nghe chương trình tổng hợp tiếng Việt là khắt khe hơn. Nhóm B (50 người, khác nhau về tuổi và giới tính) chiếm số đông trong xã hội gồm công chức (B1) và người khiếm thị (B2), yêu cầu quan trọng nhất cho việc đánh giá tiếng Việt tổng hợp là mức độ hiểu của họ là bao nhiêu. Kết quả cụ thể như sau (đề tài có bản thống kê so sánh chi tiết) : Đối với nhóm A: Ý kiến thống nhất: - Đánh giá của cả hai nhóm về chất lượng của nguyên âm và phụ âm cuối tốt là tương đối thống nhất - Nhóm A1: có 68% đánh giá phụ âm đầu của văn bản tổng hợp có lỗi, nhóm A2 là 58%. - Nhóm A2: có 64% đánh giá tốc độ của văn bản tổng hợp là chậm, nhóm A2 là 84%. Ý kiến khác biệt: Sự khác biệt lớn nhất là đánh giá về lỗi thanh điệu và so sánh với lời nói thực: - 100% nhóm A1 cho rằng thanh điệu của lời nói tổng hợp không có lỗi. Trong khi đó chỉ có 54% của nhóm A2 cho rằng thanh điệu của lời nói tổng hợp không có lỗi. - 48% nhóm A1 cho rằng giọng nói tổng hợp đạt tỉ lệ 90% so với tiếng nói thực, 36% nhóm A2 đánh giá giọng nói tổng hợp đạt tỉ lệ 50% so với tiếng nói thực Đối với nhóm B: Đánh giá hiểu khi nghe: nhóm B1 có 92% , nhóm B2 có 40%. Đánh giá giọng nói tốt, dễ hiểu: nhóm B1 có 4%, nhóm B2 có 36%. VnVoice đã giải quyết căn bản vấn đề tổng hợp âm tiết Tiếng Việt. Hiện còn tồn tại các lỗi tập trung ở một số phụ âm đầu, thanh điệu và tốc độ đọc. Những lỗi này có thể sớm khắc phục. Hai vấn đề lớn cần tiếp tục nghiên cứu để giải quyết vấn đề ngữ điệu trong câu, và những vấn đề ngoài phạm vi âm tiết như từ láy, ghép, cụm từ... 3 Trả lời ý kiến nhận xét − VnVoice đã thực hiện chức năng chuyển văn bản thành tiếng nói. Bước đầu đã đạt được tiêu chuẩn rõ ràng, mạch lạc và người nghe có thể hiểu được văn bản. Trong giai đoạn này, đề tài tập trung chủ yếu vào việc đọc rõ âm tiết và một phần tính đều trong câu mà chưa tập trung giải quyết vấn đề ngữ điệu. Một số từ ghép chưa đảm bảo tính đều vì cần phải có từ những nghiên cứu sâu sắc hơn để giải quyết vấn đề trường độ trong các cặp âm tiết với kết thúc bằng phụ âm tắc vô thanh p-t-c-ch. Vấn đề ngữ điệu là tồn tại lớn nhất của VnVoice. Đề tài đã nghiên cứu, thử nghiệm mô hình Fujisaki, và thu được những kết quả ban đầu nhằm giải quyết vấn đề ngữ điệu và trường độ của câu tổng hợp. − Tổng hợp nhận dạng tiếng nói đã trở nên cấp thiết ở Việt nam, cho nên trong những năm gần đây có một số tập thể nghiên cứu và thử nghiệm. Tuy nhiên cho đến nay chưa có một sản phẩm nào được xuất hiện dưới dạng thương phẩm, đề tài chưa có điều kiện tiếp cận để so sánh. Trong các hội thảo khoa học, các buối bảo vệ luận án, những người làm trong lĩnh vực này có dịp trao đổi học thuật với nhau. Qua các buổi trao đổi có thể có một vài nhận xét sau: • Trung tâm CDIT của Tổng công ty Bưu chính Viễn thông áp dụng phương pháp ghi âm các âm tiết tiếng Việt và sử dụng PSOLA để ghép nối các âm tiết đã được ghi âm. Do được ghi âm âm tiết nên âm đọc mang tính tự nhiên nhiều hơn, tuy nhiên CSDL âm lớn và thực chất đây chưa phải là giải pháp tổng hợp tiếng nói thật sự. Hệ thống sẽ không đọc được các âm tiết nếu chưa được ghi âm trước. • VnSpeech của Softext, Viện ứng dung công nghệ chọn giải pháp tổng hợp theo phân tích formant • Chương trình tổng hợp tiếng Việt của Trung tâm MICA có giải pháp tương tự như cách tiếp cận trong Đề tài này. Mỗi phương pháp tiếp cận có những ưu nhuợc điểm khác nhau, chủ yếu phải khảo sát xem những phương pháp nào có khả năng giải quyết được các vấn đề về độ tự nhiên và khả năng ứng dụng. − Trước khi có đề tài cấp nhà nước Viện Khoa học và Công nghệ Việt nam đã giao cho Viện Công nghệ thông tin nghiên cứu về vấn đề này dưới hình thức một nhiệm vụ đặt hàng. Các nghiên cứu trong quá trình thực hiện nhiệm vụ này đã đặt cơ sở khoa học cho việc hình thành đề cương nghiên cứu KC01-03, một số kết quả của nhiệm vụ (các bộ dữ liệu) được sử dụng tiếp tục để thử nghiệm trong các nghiên cứu tiếp theo. Việc đầu tư của Viện KHCN VN đã tạo điều kiện nghiên cứu về các phương án tổng hợp tiếng Việt bằng phương pháp ghép nối âm vị, đã giúp đề tài xây dựng được 2 bộ dữ liệu cho tổng hợp, phục vụ cho các hướng ứng dụng khác nhau. Bộ dữ liệu thứ hai khoảng 900 đơn vị âm cơ bản, dung lượng bộ nhớ 6 MB RAM, gồm phụ âm đầu và phần vần có thanh điệu nhằm định hướng cho các ứng dụng có tài nguyên lớn hơn, nhưng đảm bảo tính tổng hợp thực sự 4 2. Phần mềm nhận dạng lênh VnCommand − Phần mềm nhận dạng lệnh ứng dụng trong điều khiển thay thế cho người dùng nhấn chuột hoặc gõ lệnh từ bản phím. − Điều khiển máy tính thực hiện một số lệnh (23 lệnh) trong Internet Explorer bao gồm tích hợp các modul sau: • Huấn luyện gần 200 giọng mẫu và 50 giọng kiểm tra trong đó số lượng âm tiết rời là 40, đọc rời rạc (có ngừng giữa các âm tiết ) hay dính âm. • Modul nhận dạng từ đơn lẻ trạng thái tĩnh • Modul thu nhận tín hiệu tiếng nói từ các nguồn vào Audio, Headphone, File • Tìm kiếm các diểm đầu-cuối của một từ (cụm từ) trong môi trờng thời gian thực. − CSDL gồm tập các lệnh nhỏ (dưới 100 lệnh), hệ thống độc lập người nói. Trả lời ý kiến nhận xét − Phương pháp đánh giá tỉ lệ độ chính xác của nhận dạng 10 chữ số tiếng Việt liên tục tuân theo phương pháp trong nhận dạng về đánh giá độ chính xác trên tập dữ liệu học, dữ liệu kiểm tra. Cụ thể như sau: Cơ sở dữ liệu tiếng nói được sử dụng được trích ra từ hai cơ sở dữ liệu tiếng nói điện thoại “22 Language v1.2”, và “Multi-Language Telephone Speech v1.2” của trung tâm CSLU (Center for Speech Language Understanding), Viện Sau Đại học Oregon, Hoa kỳ. Đề tài đã có hợp tác với trung tâm này trong quá trình nghiên cứu triển khai nhận dạng mười chữ số liên tục. CSDL tiếng nói bao gồm 442 câu, 2345 từ, 243 người nói (165 nam, 78 nữ), thu âm theo hình thức phỏng vấn qua điện thoại. Câu dài nhất có 18 từ và câu ngắn nhất có 1 từ. Các câu được thu âm theo PCM 8kHz, 8bit mã hoá. Cơ sở dữ liệu được chia thành ba tập: tập dữ liệu huấn luyện (training set) và tập dữ liệu kiểm tra (test set). Tập dữ liệu huấn luyện bao gồm 300 câu, 1686 từ, do 158 người nói (104 nam và 54 nữ). Tập dữ liệu phát triển có 74 câu, 342 từ do 38 người nói (27 nam, 11 nữ) , tập dữ liệu kiểm tra có 68 câu, 317 từ do 47 người nói (34 nam, 13 nữ). Để đảm bảo tính khách quan, người nói trong tập dữ liệu kiểm tra là độc lập với người nói trong tập dữ liệu huấn luyện. Độ chính xác 97,58% được thực hiện trên tập dữ liệu thử này. Người nói phát âm các câu bao gồm các chữ số như: số điện thoại, địa chỉ, số bưu điện, tuổi, ... Các câu được thu âm từ nhiều máy điện thoại khác nhau. Kiểu của máy điện thoại và đặc tính của kênh thoại không được xác định. Các câu thu được đa dạng và khác nhau về tốc độ phát âm; về độ to nhỏ; có câu được người nói nói trong văn phòng yên tĩnh, có câu có lẫn nhiều tạp âm như tiếng đài, ti vi xen vào khi người nói ngồi trong nhà, hay tiếng ô tô khi người nói đứng tại trạm bưu điện công cộng,... Tất cả các câu trong cơ sở dữ liệu tiếng đều được phiên âm chính tả và gán nhãn bằng tay tại mức âm vị. 5 − Với tập lệnh Internet Explorer, nhận dạng không phụ thuộc người nói độ chính xác trên 95 % trong điều kiện đọc tự nhiên (đọc nhanh, đọc chậm), rõ ràng. 3. Chương trình thử nghiệm đọc chính tả VnDictator − Chương trình nhận dạng kiểu đọc chính tả tiếng Việt các từ đọc rõ ràng với lượng từ vựng không hạn chế thay thế cho người dùng gõ phím. − Nhận dạng phu thuộc người nói (giọng của phát thanh viên đã được huấn luyện), lượng từ vựng đọc về cơ bản không hạn chế, thay thế cho việc người dùng gõ phím: • Module huấn luyện tham số cho các mô hình nhận dạng. • Module nhận dạng thanh điệu thử nghiệm. • Module nhận dạng từ rời • Module huấn luyện mô hình ngôn ngữ cho văn bản Trả lời ý kiến nhận xét − Với chương trình nhận dạng toàn bộ âm tiết tiếng Việt, đề tài đã giải quyết ba vấn đề: • Huấn luyện âm vị trong ngữ cảnh câu và kết hợp mô hình ngôn ngữ để nhận dạng câu, • Cải tiến chất lượng nhận dạng âm vị cho mô hình HMM gồm 19 phụ âm đầu, 12 nguyên âm chính và các âm cuối, • Nhận dạng thanh điệu tiếng Việt. Mỗi vấn đề trên đều có những đặc điểm khác cơ bản so với tiếng Anh và cả với các tiếng Trung, Thái là ngôn ngữ có thanh điệu gần với tiếng Việt. Cụ thể: • Mô hình ngôn ngữ phải cải tiến cho các từ đôi, ba, … • Các âm vị tiếng Việt ngắn hơn rất nhiều so với âm vị tiếng Anh, một số âm kết thúc với p, t, c-ch không có trong tiếng Trung, tiếng Thái, • Thanh điệu tiếng Việt phức tạp hơn so với các ngôn ngữ có thanh điệu khác. Vì vậy, dù rằng một số giải pháp đã tích hợp vào hệ VnDictator mới chỉ là thử nghiệm nhưng nó đã chứng tỏ khả năng sử dụng được và sẽ đạt được nhiều kết quả hơn nếu được đầu tư nhiều hơn về thời gian. − Như đăng ký, chương trình nhận dạng đọc chính tả tiếng Việt là chương trình thử nghiệm, chỉ nhận dạng giọng đọc phụ thuộc người nói, (giọng của phát thanh viên) và môi trường văn phòng có độ ồn thấp. Vấn đề còn sai số trong nhận dạng tự động là điều không thể tránh khỏi. Trong phương pháp được sử dụng, ngoài mô hình nhận dạng còn kết hợp cả mô hình ngôn ngữ. Kết quả nhận dạng trên câu chưa thật chính xác phụ thuộc cả vào hai yếu tố: dữ liệu huấn luyện cho nhận dạng còn thiếu, một trong những vấn đề then chốt trong nhận dạng là phải đảm bảo đủ dữ liệu huấn luyện, Việc xây dựng CSDL phải 6 là một dự án co qui mô lớn. Ngoài ra, cũng dựa trên CSDL lớn mới có thể huấn luyện mô hình ngôn ngữ phong phú. Trong chương trình thử nghiệm đăng ký trong đề tài, chỉ tập trung với một bộ dữ liệu huấn luyện (truyên Dế mèn phiêu lưu ký) nên sai số là điều không thể tránh khỏi. Nhưng cách tiếp cận của đề tài bám theo những kết quả nghiên cứu về nhận dạng trên thế giới, kết hợp với đặc thù ngữ âm và mô hình ngôn ngữ tiếng Việt nên đảm bảo hướng đi đúng đắn trong các nghiên cứu tiếp theo. 4. Phần mềm thương phẩm nhận dạng phiếu điều tra, nhâp liệu tự động MarkRead phiên bản beta và 1.0 có tích hợp nhận dạng chữ viết tay hạn chế − Phát triển phần mềm nhập tự động MarkRead các phiếu điều tra, thi trắc nghiệm dưới dạng đánh dấu và bổ sung chức năng nhận dạng số, chữ viết tay hạn chế (chữ viết tay dạng in hoa, không dính ký tự). − Đã thu thập các chữ và số viết tay do 250 người viết, độ phân giải 300dpi, 50x50. Trong đó − Tập số: 14000 mẫu số chia làm 2 tập: tập học 10000 và tập test 4000 − Tập chữ: 42000 mẫu chữ chia làm 2 tập: tập học 30000 và tập test 12000 − Chúng tôi cũng thử nghiệm với − 60000 mấu số của MNIST (20x20) chia làm 2 tập: tập học 50000, tập test 10000 − Độ chính xác của nhận dạng chuỗi số và chữ tiếng Việt không dấu khoảng trên 90% với tập dữ liệu test trên. 5. Phần mềm thuơng phẩm nhận dạng chữ in tiếng Việt VnDOCR 3.0 VnDOCR 3.0 là phiên bản nâng cấp của VnDOCR 2.0 sau hai năm phát triển các tính năng mới và sửa lỗi. Phiên bản này có những tính năng mới sau đây: − Tự động nhận dạng bảng biểu. − Nhận dạng đa luồng cho phép vừa nhận dạng vừa quét tài liệu, giúp giảm đáng kể về cả thời gian lẫn công sức của người sử dụng. − Lưu văn bản hỗ trợ ba loại bảng mã tiếng Việt phổ biến nhất hiện nay là Unicode (các phiên ảnh trước hỗ trợ TCVN 5712 - ABC, VNI). − Tự động kiểm tra chính tả tiếng Việt ngay sau khi nhận dạng xong, tự động thay thế những từ nhận dạng sai bằng những từ có trong từ điển với độ chính xác cao. Độ chính xác nhận dạng trên 98% với các văn bản có chất lượng trung bình, in từ các máy in lazer, sách, báo, tạp chí phát hành hiện nay. 6. Phần mềm dịch thuật Việt Anh Phát triển phần mềm EVTRAN 2.5 dịch Việt-Anh (dịch Việt – Anh là sản phẩm đăng ký của đề tài), dich Anh Việt là chức năng của EVTRRAN 2.0. 7 Các hệ dịch tự động trên thế giới đều có tính chất hỗ trợ dịch để xem hiểu, không phải dịch thay người. EVTRAN không phải là ngoại lệ. Tất nhiên chất lượng dịch Việt – Anh của EVTRAN còn tiếp tục phải được cải thiện. Trong khuôn khổ nhánh đề tài chỉ đặt ra yêu cầu hạn chế. Phần mềm phải được tiếp tục bổ sung tri thức ngôn ngữ (cả hai chiều Anh-Việt và Việt-Anh) trước khi đưa ra công bố rộng rãi. Nguyên lý thiết kế của phần mềm dựa vào việc mở rộng mô hình văn phạm để có thể mô tả được đầy đủ hơn các yếu tố của ngôn ngữ tự nhiên. Do khối lượng công việc cần làm để có được sản phẩm chất lượng cao là rất lớn. Trong khuôn khổ của đề tài chúng tôi đã thực hiện cả nghiên cứu lý thuyết và triển khai công nghệ. Về mặt Lý thuyết có những kết quả sau: − Phát triển mô hình văn phạm cảm ngữ đoạn làm công cụ hình thức để mô tả ngôn ngữ tự nhiên − Đưa ra một cách tiếp cận trong việc hình thức hóa sự lập luận theo lẽ thường để mô tả tri thức ngôn ngữ và giải quyết nhập nhằng; − Giới thiệu mô hình dịch máy liên ngữ dựa trên Cây phân cấp ngữ nghĩa – một mô hình biểu diễn tri thức ngôn ngữ độc lập với các ngôn

Các file đính kèm theo tài liệu này:

34 (1).pdf