MỤC LỤC
1. Lời mở đầu . 7
2. Nội dung chính của báo cáo. 7
2.1 Tổng quan tình hình nghiên cứu trong và ngoài nước . 7
2.2 Những nội dung đã thực hiện .10
2.2.1 Kết quảnghiên cứu vềTổng hợp và Nhận dạng tiếng Việt .10
2.2.1.1 Các kết quảnghiên cứu .10
Khảo sát vềngữâm tiếng Việt.10
Tổng hợp tiếng Việt .11
Nhận dạng tiếng Việt .12
2.2.1.2 Sản phẩm phần mềm .17
Hệthống Tổng hợp tiếng nói VnVoice 2.0 .17
Chương trình nhận dạng lệnh VnCommand.18
Chương trình đọc chính tảVnDictator .18
Chương trình xây dựng công nghệcoding
ngữnghĩa của âm thanh .19
2.2.1.3 Vềtriển khai ứng dụng .20
Ứng dụng của tổng hợp tiếng nói .20
2.2.2 Nghiên cứu phát triển kỹthuật nhận dạng chữin và
viết tay tiếng Việt.20
Nhận dạng chữViệt in VnDOCR 3.0 .22
Nhận dạng chữviết tay có hạn chế.22
2.2.3 Nghiên cứu phát triển các kỹthuật xửlý ngôn ngữ
tựnhiên tiếng Việt .24
2.2.3.1 Dịch tự độngViệt – Anh .24
2.2.3.2 Dóng hàng văn bản song ngữPháp-Việt.26
2.2.3.2 Mô hình từ điển điện tử.28
2.3 Tổng quát hoá và đánh giá kết quảthu được.28
2.4 Kết luận và kiến nghị.29
2.5 Tài liệu tham khảo .31
121 trang |
Chia sẻ: maiphuongdc | Lượt xem: 2007 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Đề tài Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
arkov Models and Level Building”, IEEE Transaction on Acoustic,
Speech and Signal Processing, Vol ASSP-33, N. 3, June 1985, pp 561-573.
4. M. Ibnkahla, “Application of neural networks to digital communications - a
survey”, Signal Procesing 80(2000), pp.1185-1215.
5. Lawrence Rabiner, “Fundamental of speech recognition”, 1995.
6. A.Samouelian - “Knowledge based approach to consonant recognition”,
Department of electrical and Computer Engineering, University of
Wollongong, Northfields Avennue, Wollongong, NSW 2522, Australia.
7. Tan Lee and P.C. Ching- “A Neural Network Based Speech Recognition
System for Isolated Cantonese Syllables”, Department of electronic
Engineering, The Chinese University of Hong Kong, N.T., Hong Kong,
ICASSP - 1997, pp.3269-3272.
8. TungHui Chiang, CCLMDS’96 “Towards a Speaker-Independent Large-
Vocabulary Mandarin Dictation System”, ICASSP 1997, pp 1799-1802.
9. Vũ Kim Bảng, “Khái niệm ngữ âm học”, Tạp chí ngôn ngữ số 5 – 1999.
50
10. Vũ Kim Bảng, “Hệ Phooc mang của 9 nguyên âm đơn tiếng Hà Nội”- Tạp
chí ngôn ngữ số 15-2002.
B. Nhận dạng chữ Việt in
11. René Sennhauser, Improving the recognition accuracy of text recognition
systems using typographical constraints, Elẻctonec PublishingUBLISHING,
VOL 6(3), 273-282, September 1993.
12. [Fletcher et al.] L.A. Fletcher, R.Kasturi. A robust algorithm for text string
separation from mixed text/graphics images. In IEEE Trans.Pattern. Ana.
Machine Intell. 10, Vol.6, 1998, 910-918.
13. Luong Chi Mai, Nguyen Duc Dzung, Ngo Quoc Tao. A new method of
OCR based on a structure of character. Proceeding of AMPST 96, Bradford,
UK, 1996.
14. Giovanni Seni, V Kripasundar and Rohini K. Srihari, Generalizing edit
distance to incorporate domain information: Hand written text recognition
as a case study
C. Nhận dạng phiếu điều tra và chữ viết tay có hạn chế
15. Ng« Quèc T¹o, §ç N¨ng Toµn, NguyÔn ThÞ Thanh T©n, "PhiÕu ®iÒu tra
vµ hÖ thèng nhËp phiÕu ®iÒu tra tù ®éng", Mét sè vÊn ®Ò chän läc cña
c«ng nghÖ th«ng tin, NXB KHKT Hµ Néi 2002.
16. L-¬ng Chi Mai, §ç N¨ng Toµn, Ng« Thµnh Trung, VÒ mét ph-¬ng ph¸p x¸c
®Þnh ng-ìng tù ®éng trong ph©n tÝch trang v¨n b¶n, Kû yÕu héi th¶o
Quèc gia lÇn thø 5, "Mét sè vÊn ®Ò chän läc cña c«ng nghÖ th«ng tin",
NXBKHKT, Hµ Néi 2003.
17. Ngô Quốc Tạo, Phạm Văn Hùng, “Nhận dạng chữ viết tay hạn chế sử dụng
các đặc trưng về cấu trúc chữ”, Kỷ yếu hội thảo Quốc gia lần thứ 5 "Một số
vấn đề chọn lọc của Công nghệ thông tin", NXBKHKT, Hà Nội 2003.
18. Ngô Quốc Tạo, Phạm Văn Hùng, "Một số phương pháp Nhận dạng chữ viết
tay hận chế", Kỷ yếu Héi th¶o khoa häc quèc gia lÇn thø nhÊt Nghiªn
cøu ph¸t triÓn vµ øng dông C«ng nghÖ th«ng tin vµ TruyÒn th«ng, 2/2003.
19. Ng« Quèc T¹o, §ç N¨ng Toµn vµ céng sù, "ThiÕt kÕ vµ cµi ®Æt thö
nghiÖm hÖ nhËp phiÕu ®iÒu tra d¹ng dÊu MarkRead", Héi th¶o khoa häc
quèc gia lÇn thø nhÊt Nghiªn cøu ph¸t triÓn vµ øng dông C«ng nghÖ
th«ng tin vµ TruyÒn th«ng, 2/2003.
D. Dịch Việt – Anh
20. Noam Chomsky, On certain formal properties of grammars, Inform Control,
vol 2, p.137-167, 1959.
21. Christian Boitet (2002) A rationale for using UNL as an Interlingua and
more in various domains, Geta, Clips, Imag, 385, av. de la bibliothèque, BP
53, F-38041 Grenoble cedex 9, France, Christian.Boitet@ imag.fr, LREC-
51
02 First International Workshop on UNL, other Interlinguas and their
Applications, 1 June 2002
22. Bonnie Dorr and Nizar Habash (2002) Interlingua Approximation: A
Generation-Heavy Approach, University of Maryland, Institute for
Advanced Computer Studies, {bonnie,habash} @umiacs.umd.edu
(UNITRAN)
23. John Hutchins W. (2003) Machine translation: half a century of research
and use, UNED summer school at Ávila, Spain, July 2003],
homepages/
24. Stephen D. Richardson (2002) Achieving commercial-quality translation
with example-based methods, Stephen D. Richardson, William B. Dolan,
Arul Menezes, Jessie Pinkham, Microsoft Research, One Microsoft Way,
Redmond, WA 98052, {steveri, billdol, arulm, jessiep}@ microsoft. com
25. Arturo Trujillo (1999) Translation Engines: techniques for Machine
Translation. Springer-Verlag, Berlin, 1999.
26. Kevin Knight (1995) Integrating Knowledge Bases and Statistics in MT,
Kevin Knight, Ishwar Chander, Matthew Haines, Vasileios
Hatzivassiloglou, Eduard Hovy, Masayo Iida, Steve K. Luk, Akitoshi
Okumura, Richard Whitney, Kenji Yamada, USC Information Science
Institute, 4676 Admiralty Way, Marina del Rey, CA 90292
27. DeryleW. Lonsdale, Alexander M. Franz, and John R. R. Leavitt (1994)
Large-Scale Machine Translation: An Interlingua Approach, Center for
Machine Translation, Carnegie Mellon University, Pittsburgh, Pa., USA,
15213, Email: lonz@cs.cmu.edu, amf@cs.cmu.edu, jrrl@cs.cmu. edu
(KANT)
28. Michele Banko and Eric Brill (2002) Scaling to Very Very Large Corpora
for Natural Language Disambiguation, Microsoft Research, 1 Microsoft
Way, Redmond, WA 98052 USA, {mbanko, brill}@ microsoft.com
29. Unification and Some New Grammatical Formalisms, Aravind K. Joshi,
Department of Computer and Information Science, University of
Pennsylvania (Nguồn : Internet)
30. ISHIZAKI Shun, UCHIDA Hiroshi, (1998) On Interlingua for Multilingual
Machine Translation, 1998, IPSJ SIGNotes Natural Language Abstract
No.070 – 003
31. Lê Khánh Hùng (2003) Văn phạm cảm ngữ đoạn, Báo cáo khoa học tại hội
thảo quốc gia lần thứ sáu “Một số vấn đề chọn lọc của CNTT và TT”, Thái
nguyên, 8-2003.
32. Lê Khánh Hùng, Trần Cảnh (2003) Về một số hạn chế của mô hình văn
phạm Chomsky, Tạp chí Bưu chính Viễn thông, Chuyên san, 10, 2003.
33. Lê Khánh Hùng (2003) Một Phương pháp Dịch máy Liên ngữ. Kỷ yếu Hội
thảo Khoa học Quốc gia lần thứ nhất về Nghiên cứu, Phát triển và Ứng
dụng CNTT&TT, Hà nội, 2003.
E. Dóng hàng các văn bản song ngữ Pháp - Việt / Việt – Pháp
52
34. Abney S., "Part-of-Speech Tagging and Partial Parsing", in Young S. and
Bloothooft (Eds), Corpus-Based Methods in Language and Speech
processing, Kluwer Academic Publishers, Dodreht (The Netherlands),
1997.
35. Brill E., "Transformation-Based Error-Driven Learning and Natural
Language Processing: A Case Study in Part of Speech Tagging",
Computational Linguistics, 21(4), December 199, p.543-565.
36. Cao Xuân Hạo, Tiếng Việt - mấy vấn đề ngữ âm, ngữ pháp, ngữ nghĩa,
NXB Giáo dục, 2000.
37. Dermatas E., Kokkinakis G., "Automatic Stochastic Tagging of Natural
Language Texts", Computational Linguistics 21.2, 1995, p. 137 - 163.
38. Diệp Quang Ban, Hoàng Văn Thung, Ngữ pháp tiếng Việt (2 tập), NXB
Giáo dục, 1999.
39. El-Bèze M, Spriet T., "Etiquetage probabiliste et contraintes syntaxiques",
Actes de la conférence sur le Traitement Automatique du Langage Naturel
(TALN95), Marseille, France,14-16/6/1995.
40. Hoàng Phê (chủ biên), Từ điển tiếng Việt 2002, Nhà xuất bản Đà Nẵng -
Trung Tâm Từ Điển Học.
41. Hữu Đạt, Trần Trí Dõi, Đào Thanh Lan, Cơ sở tiếng Việt, NXB Giáo dục,
1998.
42. Kuipec J., "Robust Part-of-Speech Tagging Using a Hidden Markov
Model", Computer Speech and Language, vol. 6, 1992, p. 225-242.
43. Levinger M., Ornan U., Itai A., "Learning morpho-lexical probabilities
from an untagged corpus with an application to Hebrew", Comutational
Linguistics, 21(3), 1995, p. 383-404.
44. MacMahon J.G., Smith F.J., "Improving statistical language model
performance with automatically generated word hierarchies",
Computational Linguistics, 19(2), 1993, p. 313-330.
45. Mason O., Tufis D., "Tagging Romanian Texts: a Case Study for QTAG, a
Language Independent Probabilistic Tagger", 1st International Conference
on Language Ressources and Evaluation (LREC98), Granada (Spain), 28-
30 May 1998, p. 589-596.
F. Mô hình từ điển điện tử
46. Cheng-Ming Guo. Machine Tractable Dictionaries, Design and
Construction, Ablex Publishing Corporation, Northwood, New Jersey 1995.
47. Donald E. Walker, Antonio Zampolli, Nicoletta Calzolari. Automation the
lexicon, Oxford University Press 1995.
48. Douglas B. Lenat, R.V. Guha. Building large knowledge-based systems:
representation and inference in the CYC project, Addison-Wesley Pub. Co.,
1989, c1990.
49. Fellbaum, Christiane. WordNet: An electronic lexical database, MIT Press
1998.
53
50. German Rigau, Eneko Agirre. Disambiguating bilingual nominal entries
against WordNet. In Proceedings of The Computational Lexicon Workshop.
Seventh European Summer School in Logic, Language and Information,
ESSLLI’95, Barcelona, Spain, 1995.
51. Japan Electronic Dictionary Research Institute, Ltd. EDR Electronic
Dictionary Technical Guide, 1993.
52. Jordi Atserias, Salvador Climent, Xavier Farreres, German Rigau, Horacio
Rodriguez. Combining multi methods for the Automatic construction of
multilingual WordNet, in Proceeding of RANLP, Bulgaria, 1997.
53. Latifur R. Khan, Eduard H. Hovy. Improving the Precision of Lexicon-to-
Ontology Alignment Algorithms, in Proceedings of the AMTA/SIG-IL First
Workshop on Interlinguas, San Diego, CA October, 1997.
54. Piek Vossen. EuroWordNet: a multilingual database with lexical semantic
network, Dordrecht: Kluwer Academic, 1998.
55. Vincent B.Y.Ooi. Computer Corpus Lexicography, Edinburgh University
Press, 1998.
56. Yorick A. Wilks, Brian M. Slator, and Louise M. Guthrie. Electric Words,
MIT Press, 1996.
57. Diệp Quang Ban. Ngữ Pháp Tiếng Việt, NXB Giáo Dục 2000 (in
Vietnamese).
58. Nguyễn Thị Quy. Vị từ hành động tiếng Việt và các tham tố của nó, NXB
Khoa học Xã hội, 1995 (in Vietnamese).
59. Trung tâm Khoa học Xã hội và Nhân văn Quốc Gia. Ngữ Pháp Tiếng Việt,
NXB Khoa học Xã hội, 2000 (in Vietnamese).
D1-1-ĐGMOI
BẢN TỰ ĐÁNH GIÁ
VỀ TÌNH HÌNH THỰC HIỆN VÀ NHỮNG ĐÓNG GÓP MỚI
CỦA ĐỀ TÀI KH&CN CẤP NHÀ NƯỚC
(Kèm theo Quyết định số 13/2004/QĐ-BKHCN ngày 25/5/2004
của Bộ trưởng Bộ Khoa học và Công nghệ)
1. Tên Đề tài
NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ
XỬ LÝ NGÔN NGỮ TIẾNG VIỆT
Mã số: KC01-03
2. Thuộc Chương trình: Khoa học và Công nghệ trọng điểm cấp Nhà nước giai đoạn
2001 – 2005: “Nghiên cứu khoa học và phát triển Công nghệ thông tin và truyền thông”,
Mã số KC01.
3. Chủ nhiệm Đề tài: GS.TSKH. Bạch Hưng Khang
4. Cơ quan chủ trì Đề tài: Viện Công nghệ thông tin, Viện Khoa học và Công nghệ
Việt Nam.
5. Thời gian thực hiện (BĐ-KT): từ tháng 10 năm 2001 – tháng 6 năm 2004
6. Tổng kinh phí thực hiện Đề tài: 2 tỷ đồng
Trong đó, kinh phí từ NSNN: 2 tỷ đồng
7. Tình hình thực hiện Đề tài so với Hợp đồng
7.1/ Về mức độ hoàn thành khối lượng công việc
Đã hoàn thành các nhiệm vụ đã đăng ký trong hợp đồng: bao gồm 8 sản phẩm với
các chức năng cụ thể như sau:
1. Hệ thống tổng hợp tiếng nói VnVoice
− Tổng hợp văn bản chữ in tiếng Việt (với các mã Unicod, TCVN 5712, VNI)
thành tiếng nói.
− Đọc rõ ràng các âm tiết tiếng Việt.
− Đọc các khuôn dạng phi từ: biểu thức số, ngày tháng, giờ điện tử, tiền Việt, các
đơn vị đo lường, các xâu viết tắt thông dụng.
− Đọc tự động văn bản hỗn hợp Việt - Anh, hoặc thuần Việt, hoặc thuần Anh.
2
− Đọc các văn bản từ các nguồn: trên clipboard, văn bản từ bàn phím gõ vào, văn
bản trên các Website, trong các ứng dụng Microsoft Word, Outlook Express.
− Dựa trên phương pháp ghép nối các đơn vị âm cơ bản, sử dụng phương pháp
PSOLA cho 2 bộ đơn vị: 1/khoảng 300 đơn vị âm cơ bản, dung lượng bộ nhớ
1,5MB RAM, gồm phụ âm đầu và phần vần không thanh điệu, tổng hợp thanh
điệu, tổng hợp được tất cả các thanh tiếng Việt, bao gồm cả thanh ngã và thanh
nặng; 2/ khoảng 900 đơn vị âm cơ bản, dung lượng bộ nhớ 6 MB RAM, gồm
phụ âm đầu và phần vần có thanh điệu.
− Để đánh giá độ hiểu của tiếng Việt tổng hợp, đề tài đã thực hiện những đánh
giá và kết quả thống kê trên 100 đối tượng sau: Nhóm A (50 người, khác nhau
về tuổi và giới tính) là những người nghiên cứu tiếng Việt(A1) và phóng viên
(A2), do vậy yêu cầu của họ khi nghe chương trình tổng hợp tiếng Việt là khắt
khe hơn. Nhóm B (50 người, khác nhau về tuổi và giới tính) chiếm số đông
trong xã hội gồm công chức (B1) và người khiếm thị (B2), yêu cầu quan trọng
nhất cho việc đánh giá tiếng Việt tổng hợp là mức độ hiểu của họ là bao nhiêu.
Kết quả cụ thể như sau (đề tài có bản thống kê so sánh chi tiết) :
Đối với nhóm A:
Ý kiến thống nhất:
- Đánh giá của cả hai nhóm về chất lượng của nguyên âm và phụ âm cuối
tốt là tương đối thống nhất
- Nhóm A1: có 68% đánh giá phụ âm đầu của văn bản tổng hợp có lỗi,
nhóm A2 là 58%.
- Nhóm A2: có 64% đánh giá tốc độ của văn bản tổng hợp là chậm, nhóm
A2 là 84%.
Ý kiến khác biệt: Sự khác biệt lớn nhất là đánh giá về lỗi thanh điệu và so sánh
với lời nói thực:
- 100% nhóm A1 cho rằng thanh điệu của lời nói tổng hợp không có lỗi.
Trong khi đó chỉ có 54% của nhóm A2 cho rằng thanh điệu của lời nói
tổng hợp không có lỗi.
- 48% nhóm A1 cho rằng giọng nói tổng hợp đạt tỉ lệ 90% so với tiếng nói
thực, 36% nhóm A2 đánh giá giọng nói tổng hợp đạt tỉ lệ 50% so với tiếng nói
thực
Đối với nhóm B:
Đánh giá hiểu khi nghe: nhóm B1 có 92% , nhóm B2 có 40%.
Đánh giá giọng nói tốt, dễ hiểu: nhóm B1 có 4%, nhóm B2 có 36%.
VnVoice đã giải quyết căn bản vấn đề tổng hợp âm tiết Tiếng Việt. Hiện còn tồn
tại các lỗi tập trung ở một số phụ âm đầu, thanh điệu và tốc độ đọc. Những lỗi này
có thể sớm khắc phục. Hai vấn đề lớn cần tiếp tục nghiên cứu để giải quyết vấn đề
ngữ điệu trong câu, và những vấn đề ngoài phạm vi âm tiết như từ láy, ghép, cụm
từ...
3
Trả lời ý kiến nhận xét
− VnVoice đã thực hiện chức năng chuyển văn bản thành tiếng nói. Bước đầu đã
đạt được tiêu chuẩn rõ ràng, mạch lạc và người nghe có thể hiểu được văn bản.
Trong giai đoạn này, đề tài tập trung chủ yếu vào việc đọc rõ âm tiết và một
phần tính đều trong câu mà chưa tập trung giải quyết vấn đề ngữ điệu. Một số
từ ghép chưa đảm bảo tính đều vì cần phải có từ những nghiên cứu sâu sắc hơn
để giải quyết vấn đề trường độ trong các cặp âm tiết với kết thúc bằng phụ âm
tắc vô thanh p-t-c-ch. Vấn đề ngữ điệu là tồn tại lớn nhất của VnVoice. Đề tài
đã nghiên cứu, thử nghiệm mô hình Fujisaki, và thu được những kết quả ban
đầu nhằm giải quyết vấn đề ngữ điệu và trường độ của câu tổng hợp.
− Tổng hợp nhận dạng tiếng nói đã trở nên cấp thiết ở Việt nam, cho nên trong
những năm gần đây có một số tập thể nghiên cứu và thử nghiệm. Tuy nhiên
cho đến nay chưa có một sản phẩm nào được xuất hiện dưới dạng thương
phẩm, đề tài chưa có điều kiện tiếp cận để so sánh. Trong các hội thảo khoa
học, các buối bảo vệ luận án, những người làm trong lĩnh vực này có dịp trao
đổi học thuật với nhau. Qua các buổi trao đổi có thể có một vài nhận xét sau:
• Trung tâm CDIT của Tổng công ty Bưu chính Viễn thông áp dụng phương
pháp ghi âm các âm tiết tiếng Việt và sử dụng PSOLA để ghép nối các âm
tiết đã được ghi âm. Do được ghi âm âm tiết nên âm đọc mang tính tự nhiên
nhiều hơn, tuy nhiên CSDL âm lớn và thực chất đây chưa phải là giải pháp
tổng hợp tiếng nói thật sự. Hệ thống sẽ không đọc được các âm tiết nếu
chưa được ghi âm trước.
• VnSpeech của Softext, Viện ứng dung công nghệ chọn giải pháp tổng hợp
theo phân tích formant
• Chương trình tổng hợp tiếng Việt của Trung tâm MICA có giải pháp tương
tự như cách tiếp cận trong Đề tài này.
Mỗi phương pháp tiếp cận có những ưu nhuợc điểm khác nhau, chủ yếu phải
khảo sát xem những phương pháp nào có khả năng giải quyết được các vấn đề
về độ tự nhiên và khả năng ứng dụng.
− Trước khi có đề tài cấp nhà nước Viện Khoa học và Công nghệ Việt nam đã
giao cho Viện Công nghệ thông tin nghiên cứu về vấn đề này dưới hình thức
một nhiệm vụ đặt hàng. Các nghiên cứu trong quá trình thực hiện nhiệm vụ
này đã đặt cơ sở khoa học cho việc hình thành đề cương nghiên cứu KC01-03,
một số kết quả của nhiệm vụ (các bộ dữ liệu) được sử dụng tiếp tục để thử
nghiệm trong các nghiên cứu tiếp theo. Việc đầu tư của Viện KHCN VN đã tạo
điều kiện nghiên cứu về các phương án tổng hợp tiếng Việt bằng phương pháp
ghép nối âm vị, đã giúp đề tài xây dựng được 2 bộ dữ liệu cho tổng hợp, phục
vụ cho các hướng ứng dụng khác nhau. Bộ dữ liệu thứ hai khoảng 900 đơn vị
âm cơ bản, dung lượng bộ nhớ 6 MB RAM, gồm phụ âm đầu và phần vần có
thanh điệu nhằm định hướng cho các ứng dụng có tài nguyên lớn hơn, nhưng
đảm bảo tính tổng hợp thực sự
4
2. Phần mềm nhận dạng lênh VnCommand
− Phần mềm nhận dạng lệnh ứng dụng trong điều khiển thay thế cho người dùng
nhấn chuột hoặc gõ lệnh từ bản phím.
− Điều khiển máy tính thực hiện một số lệnh (23 lệnh) trong Internet Explorer
bao gồm tích hợp các modul sau:
• Huấn luyện gần 200 giọng mẫu và 50 giọng kiểm tra trong đó số lượng âm
tiết rời là 40, đọc rời rạc (có ngừng giữa các âm tiết ) hay dính âm.
• Modul nhận dạng từ đơn lẻ trạng thái tĩnh
• Modul thu nhận tín hiệu tiếng nói từ các nguồn vào Audio, Headphone, File
• Tìm kiếm các diểm đầu-cuối của một từ (cụm từ) trong môi trờng thời gian
thực.
− CSDL gồm tập các lệnh nhỏ (dưới 100 lệnh), hệ thống độc lập người nói.
Trả lời ý kiến nhận xét
− Phương pháp đánh giá tỉ lệ độ chính xác của nhận dạng 10 chữ số tiếng Việt
liên tục tuân theo phương pháp trong nhận dạng về đánh giá độ chính xác trên
tập dữ liệu học, dữ liệu kiểm tra. Cụ thể như sau:
Cơ sở dữ liệu tiếng nói được sử dụng được trích ra từ hai cơ sở dữ liệu tiếng
nói điện thoại “22 Language v1.2”, và “Multi-Language Telephone Speech
v1.2” của trung tâm CSLU (Center for Speech Language Understanding),
Viện Sau Đại học Oregon, Hoa kỳ. Đề tài đã có hợp tác với trung tâm này
trong quá trình nghiên cứu triển khai nhận dạng mười chữ số liên tục.
CSDL tiếng nói bao gồm 442 câu, 2345 từ, 243 người nói (165 nam, 78
nữ), thu âm theo hình thức phỏng vấn qua điện thoại. Câu dài nhất có 18 từ
và câu ngắn nhất có 1 từ. Các câu được thu âm theo PCM 8kHz, 8bit mã
hoá. Cơ sở dữ liệu được chia thành ba tập: tập dữ liệu huấn luyện (training
set) và tập dữ liệu kiểm tra (test set). Tập dữ liệu huấn luyện bao gồm 300
câu, 1686 từ, do 158 người nói (104 nam và 54 nữ). Tập dữ liệu phát triển
có 74 câu, 342 từ do 38 người nói (27 nam, 11 nữ) , tập dữ liệu kiểm tra có
68 câu, 317 từ do 47 người nói (34 nam, 13 nữ). Để đảm bảo tính khách
quan, người nói trong tập dữ liệu kiểm tra là độc lập với người nói trong tập
dữ liệu huấn luyện. Độ chính xác 97,58% được thực hiện trên tập dữ liệu
thử này.
Người nói phát âm các câu bao gồm các chữ số như: số điện thoại, địa chỉ,
số bưu điện, tuổi, ... Các câu được thu âm từ nhiều máy điện thoại khác
nhau. Kiểu của máy điện thoại và đặc tính của kênh thoại không được xác
định. Các câu thu được đa dạng và khác nhau về tốc độ phát âm; về độ to
nhỏ; có câu được người nói nói trong văn phòng yên tĩnh, có câu có lẫn
nhiều tạp âm như tiếng đài, ti vi xen vào khi người nói ngồi trong nhà, hay
tiếng ô tô khi người nói đứng tại trạm bưu điện công cộng,... Tất cả các câu
trong cơ sở dữ liệu tiếng đều được phiên âm chính tả và gán nhãn bằng tay
tại mức âm vị.
5
− Với tập lệnh Internet Explorer, nhận dạng không phụ thuộc người nói độ chính
xác trên 95 % trong điều kiện đọc tự nhiên (đọc nhanh, đọc chậm), rõ ràng.
3. Chương trình thử nghiệm đọc chính tả VnDictator
− Chương trình nhận dạng kiểu đọc chính tả tiếng Việt các từ đọc rõ ràng với
lượng từ vựng không hạn chế thay thế cho người dùng gõ phím.
− Nhận dạng phu thuộc người nói (giọng của phát thanh viên đã được huấn
luyện), lượng từ vựng đọc về cơ bản không hạn chế, thay thế cho việc người
dùng gõ phím:
• Module huấn luyện tham số cho các mô hình nhận dạng.
• Module nhận dạng thanh điệu thử nghiệm.
• Module nhận dạng từ rời
• Module huấn luyện mô hình ngôn ngữ cho văn bản
Trả lời ý kiến nhận xét
− Với chương trình nhận dạng toàn bộ âm tiết tiếng Việt, đề tài đã giải quyết ba
vấn đề:
• Huấn luyện âm vị trong ngữ cảnh câu và kết hợp mô hình ngôn ngữ để
nhận dạng câu,
• Cải tiến chất lượng nhận dạng âm vị cho mô hình HMM gồm 19 phụ âm
đầu, 12 nguyên âm chính và các âm cuối,
• Nhận dạng thanh điệu tiếng Việt.
Mỗi vấn đề trên đều có những đặc điểm khác cơ bản so với tiếng Anh và cả với
các tiếng Trung, Thái là ngôn ngữ có thanh điệu gần với tiếng Việt.
Cụ thể:
• Mô hình ngôn ngữ phải cải tiến cho các từ đôi, ba, …
• Các âm vị tiếng Việt ngắn hơn rất nhiều so với âm vị tiếng Anh, một số âm
kết thúc với p, t, c-ch không có trong tiếng Trung, tiếng Thái,
• Thanh điệu tiếng Việt phức tạp hơn so với các ngôn ngữ có thanh điệu
khác.
Vì vậy, dù rằng một số giải pháp đã tích hợp vào hệ VnDictator mới chỉ là thử
nghiệm nhưng nó đã chứng tỏ khả năng sử dụng được và sẽ đạt được nhiều kết
quả hơn nếu được đầu tư nhiều hơn về thời gian.
− Như đăng ký, chương trình nhận dạng đọc chính tả tiếng Việt là chương trình
thử nghiệm, chỉ nhận dạng giọng đọc phụ thuộc người nói, (giọng của phát
thanh viên) và môi trường văn phòng có độ ồn thấp. Vấn đề còn sai số trong
nhận dạng tự động là điều không thể tránh khỏi. Trong phương pháp được sử
dụng, ngoài mô hình nhận dạng còn kết hợp cả mô hình ngôn ngữ. Kết quả
nhận dạng trên câu chưa thật chính xác phụ thuộc cả vào hai yếu tố: dữ liệu
huấn luyện cho nhận dạng còn thiếu, một trong những vấn đề then chốt trong
nhận dạng là phải đảm bảo đủ dữ liệu huấn luyện, Việc xây dựng CSDL phải
6
là một dự án co qui mô lớn. Ngoài ra, cũng dựa trên CSDL lớn mới có thể huấn
luyện mô hình ngôn ngữ phong phú. Trong chương trình thử nghiệm đăng ký
trong đề tài, chỉ tập trung với một bộ dữ liệu huấn luyện (truyên Dế mèn phiêu
lưu ký) nên sai số là điều không thể tránh khỏi. Nhưng cách tiếp cận của đề tài
bám theo những kết quả nghiên cứu về nhận dạng trên thế giới, kết hợp với đặc
thù ngữ âm và mô hình ngôn ngữ tiếng Việt nên đảm bảo hướng đi đúng đắn
trong các nghiên cứu tiếp theo.
4. Phần mềm thương phẩm nhận dạng phiếu điều tra, nhâp liệu tự động
MarkRead phiên bản beta và 1.0 có tích hợp nhận dạng chữ viết tay hạn
chế
− Phát triển phần mềm nhập tự động MarkRead các phiếu điều tra, thi trắc
nghiệm dưới dạng đánh dấu và bổ sung chức năng nhận dạng số, chữ viết tay
hạn chế (chữ viết tay dạng in hoa, không dính ký tự).
− Đã thu thập các chữ và số viết tay do 250 người viết, độ phân giải 300dpi,
50x50. Trong đó
− Tập số: 14000 mẫu số chia làm 2 tập: tập học 10000 và tập test 4000
− Tập chữ: 42000 mẫu chữ chia làm 2 tập: tập học 30000 và tập test 12000
− Chúng tôi cũng thử nghiệm với
− 60000 mấu số của MNIST (20x20) chia làm 2 tập: tập học 50000, tập test
10000
− Độ chính xác của nhận dạng chuỗi số và chữ tiếng Việt không dấu khoảng trên
90% với tập dữ liệu test trên.
5. Phần mềm thuơng phẩm nhận dạng chữ in tiếng Việt VnDOCR 3.0
VnDOCR 3.0 là phiên bản nâng cấp của VnDOCR 2.0 sau hai năm phát triển các
tính năng mới và sửa lỗi. Phiên bản này có những tính năng mới sau đây:
− Tự động nhận dạng bảng biểu.
− Nhận dạng đa luồng cho phép vừa nhận dạng vừa quét tài liệu, giúp giảm đáng
kể về cả thời gian lẫn công sức của người sử dụng.
− Lưu văn bản hỗ trợ ba loại bảng mã tiếng Việt phổ biến nhất hiện nay là
Unicode (các phiên ảnh trước hỗ trợ TCVN 5712 - ABC, VNI).
− Tự động kiểm tra chính tả tiếng Việt ngay sau khi nhận dạng xong, tự động
thay thế những từ nhận dạng sai bằng những từ có trong từ điển với độ chính
xác cao. Độ chính xác nhận dạng trên 98% với các văn bản có chất lượng trung
bình, in từ các máy in lazer, sách, báo, tạp chí phát hành hiện nay.
6. Phần mềm dịch thuật Việt Anh
Phát triển phần mềm EVTRAN 2.5 dịch Việt-Anh (dịch Việt – Anh là sản phẩm
đăng ký của đề tài), dich Anh Việt là chức năng của EVTRRAN 2.0.
7
Các hệ dịch tự động trên thế giới đều có tính chất hỗ trợ dịch để xem hiểu, không
phải dịch thay người. EVTRAN không phải là ngoại lệ.
Tất nhiên chất lượng dịch Việt – Anh của EVTRAN còn tiếp tục phải được cải
thiện. Trong khuôn khổ nhánh đề tài chỉ đặt ra yêu cầu hạn chế. Phần mềm phải
được tiếp tục bổ sung tri thức ngôn ngữ (cả hai chiều Anh-Việt và Việt-Anh) trước
khi đưa ra công bố rộng rãi.
Nguyên lý thiết kế của phần mềm dựa vào việc mở rộng mô hình văn phạm để có
thể mô tả được đầy đủ hơn các yếu tố của ngôn ngữ tự nhiên. Do khối lượng công
việc cần làm để có được sản phẩm chất lượng cao là rất lớn. Trong khuôn khổ của
đề tài chúng tôi đã thực hiện cả nghiên cứu lý thuyết và triển khai công nghệ.
Về mặt Lý thuyết có những kết quả sau:
− Phát triển mô hình văn phạm cảm ngữ đoạn làm công cụ hình thức để mô tả
ngôn ngữ tự nhiên
− Đưa ra một cách tiếp cận trong việc hình thức hóa sự lập luận theo lẽ thường
để mô tả tri thức ngôn ngữ và giải quyết nhập nhằng;
− Giới thiệu mô hình dịch máy liên ngữ dựa trên Cây phân cấp ngữ nghĩa – một
mô hình biểu diễn tri thức ngôn ngữ độc lập với các ngôn
Các file đính kèm theo tài liệu này:
- 34 (1).pdf