Tóm tắt Luận án Học máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩa

Chƣơng 2 – NHẬN DẠNG THỰC THỂ KẾT

HỢP VỚI NHẬN DẠNG THUỘC TÍNH THỰC THỂ

TRONG VĂN BẢN TIẾNG VIỆT

2.1. Giới thiệu

Tên người và những thông tin liên qu n đến người là một

trong những từ khó được tìm kiếm thường xuyên nhất trên các công

cụ tìm kiếm web, tuy nhiên, các kết quả tìm kiếm và thông tin trả về

đôi khi òn rất mơ hồ. Vì vậy, nhu cầu về một hệ thống đầy đủ thông

tin, chính xác và tập trung vào thực thể người là rất lớn. Thực thể tên

người luôn gắn liền với một số các thuộ tính [SJ09 JAJ10] đó l

 á đặ trưng hoặc tính chất của một thực thể và trích chọn thuộc tính

là trích chọn á đặ trưng hoặc tính chất tương ứng với một thực thể

từ dữ liệu văn bản [GR08]. Do đó trí h họn thuộ tính đóng một vai

trò chủ chốt trong việc xử lý nhập nhằng tên người [SJ09]. Ngoài ra,

việc trích chọn thực thể tên người cùng với các thuộc tính của chúng

 ũng góp một phần quan trọng để mở rộng á ơ sở dữ liệu vàontology.

pdf28 trang | Chia sẻ: lavie11 | Lượt xem: 429 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Học máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩa, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
utomatic Named Entity Set Expansion Using Semantic Rules and Wrappers for Unary Relations. IALP 2010: 170-173. [TMV11] Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010). User Interest Analysis with Hidden Topic in News Recommendation System. IALP 2010: 211-214. [TMV12] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang, Nigel Collier (2015). The UET-CAM System in the BioCreAtIvE V CDR Task. In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain. 1 MỞ ĐẦU Lý do chọn đề tài Nhận dạng thực thể (Named entity recognition; NER) là một bài toán chính thuộ lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Đây l một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ hay khai phá văn bản như hệ thống trích xuất sự kiện, hệ thống hỏi đáp tự động, hệ thống tìm kiếm ngữ nghĩ . Chính vì vậy, cùng với sự phát triển của dữ liệu văn bản trên Internet b i toán n y ũng nhận được sự quan tâm của cộng đồng nghiên cứu trong khoảng 20 năm trở lại đây. Mặ dù đã ó khá nhiều công trình nghiên cứu tuy nhiên hầu hết các nghiên cứu này đều tập trung cho một số loại thực thể thông thường trong văn bản tiếng Anh chuẩn. Những nghiên cứu liên quan đến các thực thể trong ngôn ngữ khá như tiếng Việt hay các miền dữ liệu đặc biệt như miền dữ liệu y sinh vẫn còn rất nhiều hạn chế và thách thức. Có thể kể đến là sự khuyết thiếu các tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức miền h y á định nghĩ hình thức về kiểu thực thể cần nhận dạng Luận án này sẽ tiếp nối những nghiên cứu trướ đó nhằm giải quyết một phần những hạn chế được nêu ra ở trên. Mục tiêu cụ thể và phạm vi nghiên cứu của luận án Luận án sẽ tập trung vào bài toán nhận dạng thực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh học. 2 Mục tiêu cụ thể của luận án là phát triển vấn đề đề xuất giải pháp và xây dựng thực nghiệm cho việc nhận dạng các loại thực thể thuộc hai miền dữ liệu trên. Cụ thể, luận án giải đáp á vấn đề nghiên cứu s u đây: • Làm rõ các khái niệm ơ bản về trích xuất thông tin, nhận dạng thực thể. • Tìm hiểu lịch sử nghiên cứu ũng như khảo sát các nghiên cứu tiêu biểu về á b i toán đ ng quan tâm. • Khảo sát v đư r á phương án xử lý á đặ điểm riêng biệt của với dữ liệu tiếng Việt và dữ liệu y sinh họ trong văn bản tiếng Anh. • Đề xuất phương án tiếp cận mới tận dụng được các nghiên cứu trướ đó v tiếp cận giải quyết được những đặ điểm riêng biệt của miền dữ liệu đ ng xem xét. • Xây dựng bộ dữ liệu phục vụ cho thực nghiệm. • Xây dựng các thực nghiệm để đánh giá á mô hình giải quyết b i toán đã đề xuất. • Xây dựng hệ thống chạy thực tế đối với á mô hình đạt kết quả khả quan. • Định hướng phát triển nâng cấp nghiên cứu. Đóng góp của luận án Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số giải pháp liên qu n đến hai bài toán nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình họ máy ũng như á tri thức nguồn liên qu n đến miền dữ liệu nhằm nâng cao hiệu quả đầu 3 r đối với các bài toán. Kết quả củ á mô hình đạt hiệu quả khả quan có thể áp dụng được trong các hệ thống chạy thực tế. Về triển khai ứng dụng, luận án đã đề xuất thi hành mô hình hỏi đáp tự động tiếng Việt dựa trên nhận dạng thực thể [TMV6]. Xây dựng hệ thống tra cứu và tham khảo các mối quan hệ giữa thực thể kiểu hình – bệnh PhenoMiner (tại địa chỉ Cấu trúc của luận án  Chương 1 của luận án hệ thống lại các lý thuyết ơ bản về nhận dạng thực thể ũng như khảo sát lịch sử nghiên cứu v điểm lại một số nghiên cứu tiêu biểu.  Chương 2 trình bày về bài toán nhận dạng thực thể và ứng dụng nhận dạng thực thể vào bài toán hỏi đáp tự động trong văn bản tiếng Việt.  Chương 3 trình bày một mô hình nhận dạng thực thể kiểu hình và các thực thể liên qu n ũng như vấn đề chuyển đổi miền giữa các tập dữ liệu y sinh học  Chương 4, luận án giới thiệu một kỹ thuật nâng cấp hiệu quả củ mô hình đề xuất trong hương 3 bằng kỹ thuật lai ghép các mô hình (ensemble models) dựa trên tri thức và dựa trên họ máy để nhận dạng thực thể trong văn bản y sinh tiếng Anh.  Phần kết luận tổng hợp các kết quả đạt được cũng như nêu lên một số hạn chế của luận án v đồng thời trình bày một số định hướng nghiên cứu trong tương l i. 4 CHƢƠNG 1 – KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ 1.1. Một số khái niệm cơ bản 1.1.1. Định nghĩa bài toán nhận dạng thực thể Luận án sử dụng định nghĩ ủa bài toán nhận dạng thực thể được phát biểu bởi Aggarwal và Zhai [AZ12]: “Bài toán nhận dạng thực thể (Named entity recognition, NER) là bài toán xác định thực thể định danh từ các văn bản dưới dạng tự do và phân lớp chúng vào một tập các kiểu được định nghĩa trước như người, tổ chức và địa điểm.” 1.1.2. Thách thức Tuy là một b i toán ơ bản nhưng nhận dạng thực thể ũng gặp phải không ít thách thức cần giải quyết do sự phong phú và các nhập nhằng của ngôn ngữ. Ví dụ, "JFK" có thể chỉ tới người "John F. Kennedy” đị điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó. Tương tự “Sông L m Nghệ An” ó thể là đị điểm chỉ tên một con sông tại tỉnh Nghệ An hay tên một đội bóng “Sông L m Nghệ An”. Để xá định loại cho thực thể "JFK" h y“Sông L m Nghệ An” xuất hiện trong một tài liệu cụ thể, cần phải xem xét đến ngữ cảnh chứa nó. Bên cạnh yếu tố về ngữ nghĩ á yếu tố liên qu n đến đặc trưng ngôn ngữ ũng góp phần làm bài toán nhận dạng thực thể trở nên khó khăn. Một số ngôn ngữ như tiếng Việt ngoài việc thiếu các tài nguyên xử lý ngôn ngữ tự nhiên còn phải thực hiện một số bài 5 toán on như tá h từ trước khi nhận dạng thực thể, tỷ lệ lỗi của các bài toán con sẽ ảnh hưởng đến kết quả của bài toán nhận dạng thực thể. Ngoài ra, từng loại thực thể ũng ó những thách thức riêng khác nhau ảnh hưởng đến hiệu quả của mô hình nhận dạng. 1.1.3. Độ đo đánh giá Các số đo đánh giá điển hình được sử dụng cho nhận dạng thực thể l độ chính xác (precision - P) độ hồi tưởng (recall - R) và độ đo F1 (F1-me sure). Độ hính xá được tính bằng phần trăm á kết quả đúng trong tổng số kết quả nhãn dương ủa hệ thống. 1.1.4. Ứng dụng của nhận dạng thực thể Có thể kể đến nhận dạng thực thể xuất hiện trong một số các ứng dụng sau: • Trích xuất quan hệ là bài toán nhận diện các mối quan hệ ngữ nghĩ giữa hai thực thể hay giữa một thực thể và một khái niệm [GLR06]. Thành phần nhận diện thực thể l ph đầu tiên trước khi giải quyết vấn đề xá định quan hệ. • Trích xuất sự kiện là bài toán phức tạp hơn trích xuất quan hệ khi sự kiện là một tổ hợp của nhiều yếu tố thể hiện các thông tin biểu diễn về i/ ái gì đã l m gì với ai/cái gì, bao giờ, ở đâu bằng cách và tại s o. Tương tự như trí h xuất quan hệ, trong trích xuất sự kiện vấn đề nhận dạng thực thể ũng đặt lên h ng đầu khi yêu cầu phải nhận r đủ và chính xác các thành phần cấu thành nên sự kiện. • Khá nhiều các hệ thống hỏi đáp tự động dựa trên khai phá văn bản cần đến nhận dạng thực thể như l một yếu tố làm 6 tăng khả năng phân tí h hiểu câu hỏi và dữ liệu trả lời trong hệ thống [HWY05]. 1.2. Lịch sử nghiên cứu và một số hƣớng tiếp cận giải quyết bài toán 1.2.1. Lịch sử nghiên cứu nhận dạng thực thể Bài toán nhận dạng thực thể đã xuất hiện từ đầu những năm 90 [RA91] nhưng hỉ được chính thức giới thiệu v o năm 1995 tại hội nghị MUC-6 với tư á h l một bài toán con của trích xuất thông tin [GS96]. Kể từ đó NER đã thu hút nhiều sự chú ý của cộng đồng nghiên cứu. Đã ó khá nhiều hệ thống v hương trình được xây dựng thực thi bài toán này, có thể kể đến Automatic Content Extraction 1 , các công bố trong nhiệm vụ cộng đồng thuộc hội nghị Conferen e on N tur l L ngu ge Le rning (CoNLL) năm 2002 v 2003 [TD03], và chuỗi nhiệm nhận dạng thực thể y sinh tại hội thảo BioCreative 2 (Critical Assessment of Information Extraction Systems in Biology). 1.2.2. Một số nghiên cứu tiêu biểu trong nhận dạng thực thể sử dụng học máy thống kê Các nghiên cứu đạt hiệu quả o đối với nhận dạng thực thể thường dựa trên các kỹ thuật học máy thống kê và hầu hết trong số 1 Automatic content extraction (ACE) evaluation. 2 7 đó xử lý b i toán n y như một bài toán gán nhãn chuỗi (sequence labeling). Một trong những phương pháp họ máy đầu tiên được áp dụng cho NER là mô hình Markov ẩn (Hidden Markov Models, HMM). Cá phương pháp họ máy ho NER được xây dựng s u đó đã ó một sự chuyển dịch từ mô hình sinh như HMM s ng mô hình mô hình rời rạc (discriminative models) nhằm khắc phụ á nhược điểm của HMM. Một mô hình rời rạc thông dụng được sử dụng trong nhận dạng thực thể là mô hình entropy cực đại (Maximum Entropy Model, MaxEnt) [BPP96]. Kết hợp mô hình MEM với một giả định M rkov được gọi là mô hình Markov entropy cực đại (Maximum Entropy Markov Models, MEMM). Trường ngẫu nhiên có điều kiện (Conditional Random Fields, CRF) là một mô hình rời rạc tiêu biểu khá để xử lý bài toán gán nhãn chuỗi. Phương pháp n y được giới thiệu bởi Lafferty và các cộng sự cho bài toán gán nhãn chuỗi [LMP01]. 1.3. Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số nghiên cứu liên quan Bắt nhịp với tình hình phát triển chung trên toàn thế giới, các văn bản tiếng Việt ũng ng y ng xuất hiện nhiều dưới dạng văn bản điện tử, và cùng với đó hính l sự phát sinh nhu cầu khai thác thông tin có giá trị từ á văn bản này. Nhận dạng thực thể đóng một vai trò chủ chốt trong kh i phá văn bản, chính vì thế nó ũng nh nh chóng trở thành một lĩnh vực nghiên cứu được nhiều nhà khoa học trong nước quan tâm. Áp dụng được NER cho dữ liệu tiếng Việt đồng nghĩ với việ đặt một nền tảng quan trọng trong việc xây dựng 8 được các hệ thống ứng dụng cho nhiều lĩnh vự khá như t i hính kinh tế, xã hội, y sinh học, v.v.. phù hợp với tình hình trong nước. 1.4. Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số nghiên cứu liên quan Hiện nay, số lượng á văn bản y tế và sinh họ dưới dạng điện tử trên Internet ũng như đượ lưu trữ trong các hệ thống y tế đ ng tăng với tố độ chóng mặt. Việc khai thác hiệu quả nguồn tài nguyên này có thể đư tới nguồn tri thức hữu í h ho người dùng như phát hiện bệnh dịch sớm, tổng hợp các kinh nghiệm phòng và chữa bệnh, nghiên cứu á ơ hế di truyền, tuyên truyền và nâng cao sức khỏe cộng đồng, v.v.. Những nghiên cứu liên qu n đến xử lý ngôn ngữ tự nhiên ho văn bản y sinh học (Biomedical Natural Language Pro essing; BioNLP) đã m ng đến nhiều lợi ích cho việc khai thác nguồn dữ liệu y sinh học, có thể kể đến những ơ sở dữ liệu hay ontology y sinh được xây dựng tự động hỗ trợ cho những nhà nghiên cứu sinh v h y bá sĩ h y những hệ thống theo dõi thông tin về diễn biến dịch bệnh truyền nhiễm đ ng phát triển trên thế giới. Trong những hệ thống đấy, nhận dạng thực thể y sinh là một thành phần quan trọng trong quá trình phân tích và tổng hợp thông tin từ văn bản y sinh họ . Đây l một bài toán khó vì mỗi một loại thực thể y sinh lại bao hàm nhiều tính chất đặc thù khác nhau về ngôn ngữ và y sinh họ đòi hỏi người nghiên cứu cần phải có sự kết hợp kiến thức cả xử lý ngôn ngữ tự nhiên và kiến thức y sinh học mới có thể đư r một phương pháp h y mô hình nhận dạng thực thể hiệu quả. 9 Chƣơng 2 – NHẬN DẠNG THỰC THỂ KẾT HỢP VỚI NHẬN DẠNG THUỘC TÍNH THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT 2.1. Giới thiệu Tên người và những thông tin liên qu n đến người là một trong những từ khó được tìm kiếm thường xuyên nhất trên các công cụ tìm kiếm web, tuy nhiên, các kết quả tìm kiếm và thông tin trả về đôi khi òn rất mơ hồ. Vì vậy, nhu cầu về một hệ thống đầy đủ thông tin, chính xác và tập trung vào thực thể người là rất lớn. Thực thể tên người luôn gắn liền với một số các thuộ tính [SJ09 JAJ10] đó l á đặ trưng hoặc tính chất của một thực thể và trích chọn thuộc tính là trích chọn á đặ trưng hoặc tính chất tương ứng với một thực thể từ dữ liệu văn bản [GR08]. Do đó trí h họn thuộ tính đóng một vai trò chủ chốt trong việc xử lý nhập nhằng tên người [SJ09]. Ngoài ra, việc trích chọn thực thể tên người cùng với các thuộc tính của chúng ũng góp một phần quan trọng để mở rộng á ơ sở dữ liệu và ontology. 2.2. Cơ sở lý thuyết và mô hình đề xuất 2.2.1. Mô hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS) Mô hình Entropy cự đại (Maximum Entropy Model, Maxent Model) [BPP96] là một thuật toán học máy thông dụng dựa trên xác suất ó điều kiện được sử dụng trong nhiều nghiên cứu về nhận dạng thực thể y sinh họ [CN02 BON03 CC03 LTC04]. Trong đó 10 entropy l độ đo về tính đồng đều hay tính không chắc chắn của một phân phối xác suất, một phân phối xác suất có Entropy càng cao thì phân phối củ nó ng đều. 2.2.2. Phương pháp trường ngẫu nhiên có điều kiện (CRF) Trường ngẫu nhiên ó điều kiện (Conditional Random Fields, CRF) là một là một mô hình rời rạc dự trên ý tưởng gốc từ mô hình Markov ẩn (Hidden M rkov Model HMM) [RA89] v được cải thiện để khắc phụ á nhượ điểm củ HMM ũng như mô hình markov entropy cự đại (Maximum Entropy Markov Model, MEMM) [MFP00]. CRF được giới thiệu bởi Lafferty và các cộng sự cho bài toán trích xuất thông tin [LMP01]. Tính ưu việt của CRF so với HMM thể hiện ở việ nó ướ lượng các phân phối xác suất có điều kiện theo trình tự gán nhãn tính ưu việt n y đã được chứng minh qua nhiều nghiên cứu [ML03 SE04]) v ho đến nay CRF vẫn đ ng l một trong những phương pháp họ máy được ứng dụng nhiều trong lĩnh vực NLP. 2.3.3. Mô hình đề xuất Mô hình đượ đề xuất gồm ó b ph hính được mô hình hó trong hình 2.3. Đầu vào của mô hình là từng âu trong văn bản v đầu r l á âu đã được gán nhãn dựa trên mô hình nhận dạng. Hình 2.3. Mô hình tích hợp NER và trích chọn thuộc tính của thực thể tên người 11 Pha 1: Huấn luyện mô hình Pha 2: Gán nhãn dữ liệu dựa trên mô hình nhân dạng thực thể và thuộc tính Pha 3 - Lọc câu lọc dữ liệu đã đượ gán nhãn thu được ở pha 2 và chỉ giữ lại các câu nhãn phù hợp. 2.2.3. Tập đặc trưng Bảng 2.3. Tập đặc trưng được sử dụng STT Đặc trƣng Ký hiệu 1 Từ đ ng xét W0 2 Nhãn từ loại ủ từ đ ng xét (POS) POS (W0) 3 Từ đ ng xét l hữ thường viết ho đầu từ h y viết ho to n bộ? Is_Lower(0,0) Is_Initial_Cap (0,0) 12 Is_All_Cap (0,0) 4 Ngữ ảnh Wi (i = -2,-1,1,2)) 5 Liên kết từ vựng Syllable_Conj (-2,2)) 6 Biểu thứ hính quy Regex(0,0) 7 Nhận dạng tiếng Việt Is_Valid_Vietnamese_Syllable(0,0) 8 Từ điển dict:name, dict:first_name dict:vname dict:vfirst_name 9 Tiền tố prefix:per prefix:loc prefix:org 2.4. Thực nghiệm, kết quả và đánh giá Thực nghiệm được tiến hành trên 10.000 âu được thu thập từ Wikipedia 3 tiếng Việt. Cá âu n y được gán nhãn thủ công để phục vụ cho huấn luyện và kiểm thử. Đánh giá dựa trên á độ đo hính xá (P) độ đo hồi tưởng (R) v độ đo F với phương pháp kiểm thử chéo 10 lần. Kết quả được xem xét ở cả mức tổng thể và cho từng thuộc tính. Kết quả thực nghiệm đánh giá trên toàn hệ thống: Bảng 2.4. Kết quả đánh giá toàn hệ thống trên hai phương pháp MEM+BS và CRF Độ hính xá Độ hồi tưởng Đô đo F MEM + BS (beam=3) 83.72 82.54 83.13 3 13 CRF 84 82.56 83.39 Kết quả thực nghiệm đánh giá trên từng nhãn Bảng 2.5. Kết quả thực nghiệm đối với từng nhãn STT Nhãn P (%) R (%) F (%) STT Nhãn P (%) R (%) F (%) 1 OPer 91.35 90.33 90.84 2 NickPer 89.88 90.44 90.16 12 R_OtherName 91.67 85.19 88.31 3 RPer 80.46 78.65 79.54 13 R_Relationship 81.98 83.30 82.63 4 VBornLoc 83.45 87.91 85.62 14 R_WhereBorn 80.89 81.74 81.31 5 VDeadLoc 80.35 80.09 80.22 15 R_WhereDead 80.23 85.36 82.72 6 VHomeLoc 93.39 91.77 92.57 16 R_WhenDead 85.65 85.99 85.82 7 VJobOrg 78.25 83.69 80.88 17 R_Job 77.35 75.64 76.49 8 VJob 81.49 78.22 79.82 18 R_WhereJob 75.92 73.21 74.54 9 VSex 90.45 87.56 88.98 19 R_Sex 73.29 65.30 69.06 10 VBornTime 83.77 90.39 86.95 20 R_WhenBorn 85.75 83.22 84.47 11 VDeadTime 80.40 87.28 83.70 21 R_WhenDead 76.10 72.77 74.40 2.3. Một mô hình hỏi đáp tên ngƣời áp dụng nhận dạng thực thể tiếng Việt 2.3.1. Khái quát bài toán Trong tiếng Việt, câu hỏi về người thường chứa các từ để hỏi như: là ai, ai là, của ai, do ai, vì ai, người nào Hệ thống QA được xây dựng trong luận án yêu cầu đầu vào là các câu hỏi đơn giản (factoid question) tiếng Việt với kết quả trả lời l tên người. Có thể xem các câu hỏi đầu vào của hệ thống là dạng các câu hỏi 14 WHO/WHOM/WHOSE trong tiếng Anh. Các khái niệm liên quan đến câu hỏi đơn giản v đặ trưng ủa câu hỏi trong tiếng Việt sẽ được giới thiệu trong phần 3.3.1. 2.3.2. Đặc trưng câu hỏi liên quan đến thực thể người trong tiếng Việt Dạng hai lớp tân ngữ có các câu trúc sau: - Chủ thể + H nh động + Tân ngữ trực tiếp - Tân ngữ trực tiếp + Chủ thể + H nh động Tân ngữ trực tiếp + H nh động + Chủ thể Dạng ba lớp tân ngữ có các cấu trúc sau: - Cấu trúc 1: Chủ thể + H nh động + Tân ngữ trực tiếp + Tân ngữ gián tiếp - Cấu trúc 2: Chủ thể + Tân ngữ trực tiếp + Tân ngữ gián tiếp 2.3.3. Mô hình đề xuất Mô hình hỏi đáp thực thể tên người cho tiếng Việt đượ đề xuất v đặt tên là VPQA. Mô hình sử dụng phương pháp phân tích câu hỏi bằng kỹ thuật học máy CRF cùng với chiến lược trả lời tự động dự trên thông tin được truy vấn từ máy tìm kiếm. Mô hình tổng quát của hệ thống được nêu ra trong hình 2.4. Hình 2.4. Mô hình hệ thống hỏi đáp thực thể tên người tiếng Việt 15 2.3.4. Phương pháp và dữ liệu đánh giá mô hình hỏi đáp tự động Có nhiều phương pháp để đánh giá kết quả của hệ thống hỏi đáp tự động, ở đây nghiên ứu sinh chọn phương pháp đánh giá phổ biến nhất l nhóm b độ đo gồm độ đo hính xá độ đo hồi tưởng và độ đo F đây ũng l độ đo được sử dụng tại chuỗi nhiệm vụ TREC [Vo03]. Tập dữ liệu đánh giá b o gồm 1000 câu hỏi được xây dựng và gán nhãn thủ công. Các câu hỏi là dạng câu hỏi đơn giản hỏi về thực thể người v được gán các nhãn thành. 2.3.5. Thực nghiệm và đánh giá 16 a. Thực nghiệm đánh giá hiệu quả phân tích câu hỏi Bảng 2.10. Kết quả đánh giá thành phần phân tích câu hỏi Độ chính xác Độ hồi tƣởng Độ đo F Fold 1 89.7 90.2 89.95 Fold 2 94.1 95.05 94.57 Fold 3 96.4 96.83 96.61 Fold 4 93.07 94.23 93.64 Fold 5 94.58 96.11 95.33 Fold 6 92.43 93.45 92.93 Fold 7 91.3 92.67 91.98 Fold 8 88.35 89.45 88.89 Fold 9 91.5 92.11 91.80 Fold 10 93.32 95.01 94.15 Trung bình 92.475 93.51 92.99 b. Thực nghiệm đánh giá hiệu quả trả lời tự động của mô hình hỏi đáp Bảng 2.11. Kết quả đánh giá của hệ thống trả lời tự động Top 1 Top 3 Top 5 T (ms) P R F P R F P R F Baseline 62 54.36 42.13 47.47 60.19 45.59 51.88 62.78 50.12 55.74 KLB 58 79.68 55.6 65.50 89.39 60.3 72.02 90.03 60.2 72.15 SEB 28059 71.44 90 79.65 72.18 91.3 80.62 73.17 91.7 81.39 KLB+SEB 11630 74.63 87.9 80.72 79.62 89.3 84.18 80.02 91.1 85.20 17 Chƣơng 3 – NHẬN DẠNG THỰC THỂ KIỂU HÌNH TRONG VĂN BẢN Y SINH TIẾNG ANH 3.1. Giới thiệu Dưới đây l định nghĩ về nhận dạng thực thể y sinh [TMV5]. “Nhận dạng thực thể y sinh (Biomedical NER) là một (nhóm) kỹ thuật tính toán được dùng để nhận dạng và phân lớp các chuỗi văn bản chỉ đến các khái niệm quan trọng trong văn bản y sinh học.” 3.2. Vấn đề về chuyển đổi miền trong nhận dạng thực thể y sinh Một thách thức lớn nữ đối với bài toán NER trong dữ liệu y sinh và vấn đề thích ứng khi chuyển đổi miền dữ liệu. Các nghiên cứu NER y sinh họ thường sử dụng một tập nhỏ các dữ liệu đượ gán nhãn để nghiên cứu và thực nghiệm. Vì tính chất phong phú v hướng chuyên ngành của dữ liệu y sinh học, một bộ dữ liệu thường sẽ chỉ hướng về một chủ đề hay có cùng tính chất n o đó. Hệ thống được xây dựng phù hợp cho dữ liệu thuộc về chủ đề n y hư hắc có thể hoạt động hiệu quả khi chuyển sang tập dữ liệu thuộc chủ đề khác hay các tập dữ liệu trộn lẫn của nhiều chủ đề khác nhau, mặc dù húng đều là dữ liệu y sinh học và có nhiều điểm tương đồng. 18 3.3. Mô hình nhận dạng thực thể kiểu hình và một số thực thể liên quan 3.3.1. Dữ liệu đánh giá và tài nguyên hỗ trợ a. Tập dữ liệu Phenominer A về các bệnh tự miễn dịch di truyền (autoimmune diseases) Tập dữ liệu Phenominer A (gọi tắt l Phenominer A) được thu thập dựa trên hai tiêu chí sau:  Thứ nhất, là tóm tắt PubMed Central (PMC) nói về một số 19 bệnh tự miễn dịch di truyền đã đượ xá định trước. Bệnh tự miễn dịch (autoimmune disease) .  Thứ h i để đảm bảo các tóm tắt này có một liên kết nhất định với kiểu hình, các tóm tắt phải đảm bảo có chứa ít nhất một cụm từ chỉ kiểu hình. b. Tập dữ liệu Phenominer B về các bệnh tim mạch di truyền (cardiovascular diseases) Dữ liệu Phenominer phần B (gọi tắt l Phenominer B) được xây dựng tương tự với phần A, một nhóm bệnh khác lựa chọn từ ơ sở dữ liệu kinh điển về các bệnh di truyền OMIM được dùng để định hướng xây dựng Phenominer B. Các bệnh được lựa chọn là bệnh tim mạch (cardiovascular diseases), 60 bệnh cụ thể được sử dụng để thu thập dữ liệu như bệnh ơ tim ( rdiomyop thy) tăng huyết áp (hypertension) xơ vữ động mạch (atherosclerosis). 3.2.2. Mô hình đề xuất PHENOMINER A PHENOMINER B PHƢƠNG PHÁP Thự thể P R F P R F CRF PH 71.16 75.24 73.14 72.19 78.03 75.00 19 GG 80.68 83.07 81.86 79.68 79.54 79.61 OR 72.54 79.13 75.69 81.13 77.08 79.05 CD 77.58 80.65 79.09 78.42 82.34 80.33 AN 74.22 81.94 77.89 72.65 78.69 75.55 DS 76.85 72.41 74.56 72.31 70.13 71.20 ALL (micro avg-F1) 78.16 77.96 ALL (macro avg-F1) 77.04 76.79 ME + BS PH 73.72 76.06 74.87 74.68 78.13 76.37 GG 82.49 81.47 81.98 80.63 78.52 79.56 OR 72.80 78.14 75.38 80.17 75.13 77.57 CD 79.59 81.25 80.41 78.55 82.97 80.70 AN 72.43 82.45 77.11 73.45 79.69 76.44 DS 75.77 72.91 74.32 72.16 69.84 70.98 ALL (micro avg-F1) 78.41 77.35 ALL (macro avg-F1) 77.34 76.94 Hình 3.5. Mô hình nhận dạng thực thể kiểu hình và các thực thể liên quan 3.4. Thực nghiệm Bảng 3.4. Thực nghiệm so sánh các phương pháp học máy khác nhau Phenominer A Phenominer B Tập KMR Phƣơng pháp Thực thể P R F P R F P R F Khordad et al. PH 65.89 57.44 61.38 64.28 60.34 62.25 90.74 88.44 89.58 Genia Tagger GG 71.36 75.58 73.41 71.13 72.57 71.84 Lineaus OR 56.81 57.28 57.04 54.81 55.39 55.10 Từ điển PH 51.24 50.91 51.07 57.31 52.71 54.91 87.26 82.35 84.73 Từ điển GG 87.29 60.44 71.42 79.24 62.17 69.67 20 Từ điển CD 91.49 56.07 69.53 87.24 55.43 67.79 Từ điển AN 83.46 50.13 62.64 84.57 48.77 61.86 Từ điển DS 57.82 34.27 43.03 51.25 31.04 38.66 MEM + BS PH 73.72 76.06 74.87 74.68 78.13 76.37 86.37 84.19 85.27 GG 82.49 81.47 81.98 80.63 78.52 79.56 OR 72.80 78.14 75.38 80.17 75.13 77.57 CD 79.59 81.25 80.41 78.55 82.97 80.70 AN 72.43 82.45 77.11 73.45 79.69 76.44 DS 75.77 72.91 74.32 72.16 69.84 70.98 Mmicro avg-F1 78.41 78.35 Macro avg-F1 77.34 76.94 3.5. Thích ứng miền dữ liệu trong nhận dạng thực thể y sinh 3.5.1. Thực nghiệm  M1: IN DOMAIN - Kiểm thử trong miền  M2: OUT DOMAIN - Kiểm thử ngoài miền  M3: MIX-IN - Trộn lẫn dữ liệu để huấn luyện  M4: STACK - Xếp chồng dữ liệu huấn luyện  M5: BINARY CLASS - Lớp nhị phân  M6: FRUSTRATINGLY SIMPLE - Sử dụng cách tiếp cận điều chỉnh đặ trưng ủa H. Daume III đề xuất năm 2007 [DA07] 3.4.2. Kết quả và đánh giá Bảng 3.7. Kết quả F1 của hệ thống NER sử dụng phương pháp thực nghiệm 1-6. MH DL AN CD DS GG PH OR ALL M1 A 57.1 29.5 80.4 74 46 68.4 69.9 21 M2 A 34.3 26.9 57.7 55.6 26.9 64 50.8 M3 A 50.8 20 77.9 71.7 39.7 72.2 67.3 M4 A 56.3 17.4 79 74.1 44.1 70.8 69.8 M5 A 56.7 29.6 77.3 72.7 41.5 72.8 68.3 M6 A 57.1 27.7 79 73.4 44.9 69.9 69.5 M1 B 37.2 31.3 72.9 57.2 46.5 73.2 58.5 M2 B 21.2 20.2 57 52.3 24.4 68.5 46.6 M3 B 36.8 38.7 72.3 61.1 44 77.4 59.7 M4 B 34.8 34.4 72.5 57.5 45.9 74.7 58.5 M5 B 34.1 41.6 73.6 58.9 43.2 78.5 59.6 M6 B 39.9 35 73.3 56.4 46.6 75 59.1 MH: Mô hình (M1-M6 tương ứng với các mô hình 1-6) DL: Dữ liệu (A: Phenominer A về bệnh tự miễn dịch và B: Phenominer B về bệnh tim mạch) Các cột AN, CD, DS, GG, PH, OR và kết quả tương ứng với từng loại thực thể. Trong đó số ở hàng trên là F1 và hai số đưa ra trong dấu ngoặc đơn lần lượt là P và R. Cột ALL đưa ra kết quả của toàn hệ thống, F1 là micro average F1 22 Chƣơng 4 – MỘT MÔ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG 4.1. Mô hình nâng cấp nhận dạng thực thể kiểu hình và các thực thể liên quan Hình 4.1. Kiến trúc tổng quan của hệ thống NER y sinh học 4.2. Các phƣơng pháp lai ghép đƣợc đề xuất 4.2.1 Phương pháp lai ghép sử dụng luật Phương pháp l i ghép đượ nêu r đầu tiên là kỹ thuật sử dụng luật heuristic, trong đó việc quyết định kết quả được thực hiện bằng cách sử dụng d nh sá h ưu tiên theo thứ tự s u đây DS>PH>GG>CD>AN>OR>O.

Các file đính kèm theo tài liệu này:

  • pdftt_hoc_may_dua_tren_do_thi_trich_chon_quan_he_ngu_nghia_4453_1920321.pdf
Tài liệu liên quan