Chƣơng 2 – NHẬN DẠNG THỰC THỂ KẾT
HỢP VỚI NHẬN DẠNG THUỘC TÍNH THỰC THỂ
TRONG VĂN BẢN TIẾNG VIỆT
2.1. Giới thiệu
Tên người và những thông tin liên qu n đến người là một
trong những từ khó được tìm kiếm thường xuyên nhất trên các công
cụ tìm kiếm web, tuy nhiên, các kết quả tìm kiếm và thông tin trả về
đôi khi òn rất mơ hồ. Vì vậy, nhu cầu về một hệ thống đầy đủ thông
tin, chính xác và tập trung vào thực thể người là rất lớn. Thực thể tên
người luôn gắn liền với một số các thuộ tính [SJ09 JAJ10] đó l
á đặ trưng hoặc tính chất của một thực thể và trích chọn thuộc tính
là trích chọn á đặ trưng hoặc tính chất tương ứng với một thực thể
từ dữ liệu văn bản [GR08]. Do đó trí h họn thuộ tính đóng một vai
trò chủ chốt trong việc xử lý nhập nhằng tên người [SJ09]. Ngoài ra,
việc trích chọn thực thể tên người cùng với các thuộc tính của chúng
ũng góp một phần quan trọng để mở rộng á ơ sở dữ liệu vàontology.
28 trang |
Chia sẻ: lavie11 | Lượt xem: 570 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Tóm tắt Luận án Học máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩa, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
utomatic Named Entity Set
Expansion Using Semantic Rules and Wrappers for Unary
Relations. IALP 2010: 170-173.
[TMV11] Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010).
User Interest Analysis with Hidden Topic in News
Recommendation System. IALP 2010: 211-214.
[TMV12] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang,
Nigel Collier (2015). The UET-CAM System in the
BioCreAtIvE V CDR Task. In Proceedings of the fifth
BioCreative challenge evaluation workshop, Sevilla, Spain.
1
MỞ ĐẦU
Lý do chọn đề tài
Nhận dạng thực thể (Named entity recognition; NER) là một
bài toán chính thuộ lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Đây l
một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ hay khai phá
văn bản như hệ thống trích xuất sự kiện, hệ thống hỏi đáp tự động, hệ
thống tìm kiếm ngữ nghĩ . Chính vì vậy, cùng với sự phát triển của
dữ liệu văn bản trên Internet b i toán n y ũng nhận được sự quan
tâm của cộng đồng nghiên cứu trong khoảng 20 năm trở lại đây.
Mặ dù đã ó khá nhiều công trình nghiên cứu tuy nhiên hầu
hết các nghiên cứu này đều tập trung cho một số loại thực thể thông
thường trong văn bản tiếng Anh chuẩn. Những nghiên cứu liên quan
đến các thực thể trong ngôn ngữ khá như tiếng Việt hay các miền dữ
liệu đặc biệt như miền dữ liệu y sinh vẫn còn rất nhiều hạn chế và
thách thức. Có thể kể đến là sự khuyết thiếu các tập dữ liệu gán nhãn
chuẩn, tài nguyên ngôn ngữ về tri thức miền h y á định nghĩ hình
thức về kiểu thực thể cần nhận dạng Luận án này sẽ tiếp nối những
nghiên cứu trướ đó nhằm giải quyết một phần những hạn chế được
nêu ra ở trên.
Mục tiêu cụ thể và phạm vi nghiên cứu của luận án
Luận án sẽ tập trung vào bài toán nhận dạng thực thể với hai
loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ
liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh
học.
2
Mục tiêu cụ thể của luận án là phát triển vấn đề đề xuất giải
pháp và xây dựng thực nghiệm cho việc nhận dạng các loại thực thể
thuộc hai miền dữ liệu trên.
Cụ thể, luận án giải đáp á vấn đề nghiên cứu s u đây:
• Làm rõ các khái niệm ơ bản về trích xuất thông tin, nhận
dạng thực thể.
• Tìm hiểu lịch sử nghiên cứu ũng như khảo sát các nghiên
cứu tiêu biểu về á b i toán đ ng quan tâm.
• Khảo sát v đư r á phương án xử lý á đặ điểm riêng
biệt của với dữ liệu tiếng Việt và dữ liệu y sinh họ trong văn
bản tiếng Anh.
• Đề xuất phương án tiếp cận mới tận dụng được các nghiên
cứu trướ đó v tiếp cận giải quyết được những đặ điểm
riêng biệt của miền dữ liệu đ ng xem xét.
• Xây dựng bộ dữ liệu phục vụ cho thực nghiệm.
• Xây dựng các thực nghiệm để đánh giá á mô hình giải
quyết b i toán đã đề xuất.
• Xây dựng hệ thống chạy thực tế đối với á mô hình đạt kết
quả khả quan.
• Định hướng phát triển nâng cấp nghiên cứu.
Đóng góp của luận án
Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số
giải pháp liên qu n đến hai bài toán nhận dạng thực thể cho dữ liệu
văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp
tập trung vào vấn đề kết hợp các mô hình họ máy ũng như á tri
thức nguồn liên qu n đến miền dữ liệu nhằm nâng cao hiệu quả đầu
3
r đối với các bài toán. Kết quả củ á mô hình đạt hiệu quả khả
quan có thể áp dụng được trong các hệ thống chạy thực tế.
Về triển khai ứng dụng, luận án đã đề xuất thi hành mô hình
hỏi đáp tự động tiếng Việt dựa trên nhận dạng thực thể [TMV6]. Xây
dựng hệ thống tra cứu và tham khảo các mối quan hệ giữa thực thể
kiểu hình – bệnh PhenoMiner (tại địa chỉ
Cấu trúc của luận án
Chương 1 của luận án hệ thống lại các lý thuyết ơ bản
về nhận dạng thực thể ũng như khảo sát lịch sử nghiên
cứu v điểm lại một số nghiên cứu tiêu biểu.
Chương 2 trình bày về bài toán nhận dạng thực thể và
ứng dụng nhận dạng thực thể vào bài toán hỏi đáp tự
động trong văn bản tiếng Việt.
Chương 3 trình bày một mô hình nhận dạng thực thể kiểu
hình và các thực thể liên qu n ũng như vấn đề chuyển
đổi miền giữa các tập dữ liệu y sinh học
Chương 4, luận án giới thiệu một kỹ thuật nâng cấp hiệu
quả củ mô hình đề xuất trong hương 3 bằng kỹ thuật
lai ghép các mô hình (ensemble models) dựa trên tri thức
và dựa trên họ máy để nhận dạng thực thể trong văn bản
y sinh tiếng Anh.
Phần kết luận tổng hợp các kết quả đạt được cũng như
nêu lên một số hạn chế của luận án v đồng thời trình
bày một số định hướng nghiên cứu trong tương l i.
4
CHƢƠNG 1 – KHÁI QUÁT VỀ NHẬN DẠNG
THỰC THỂ
1.1. Một số khái niệm cơ bản
1.1.1. Định nghĩa bài toán nhận dạng thực thể
Luận án sử dụng định nghĩ ủa bài toán nhận dạng thực thể
được phát biểu bởi Aggarwal và Zhai [AZ12]:
“Bài toán nhận dạng thực thể (Named entity recognition,
NER) là bài toán xác định thực thể định danh từ các văn bản dưới
dạng tự do và phân lớp chúng vào một tập các kiểu được định nghĩa
trước như người, tổ chức và địa điểm.”
1.1.2. Thách thức
Tuy là một b i toán ơ bản nhưng nhận dạng thực thể ũng
gặp phải không ít thách thức cần giải quyết do sự phong phú và các
nhập nhằng của ngôn ngữ. Ví dụ, "JFK" có thể chỉ tới người "John F.
Kennedy” đị điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác
có cùng dạng viết tắt đó. Tương tự “Sông L m Nghệ An” ó thể là
đị điểm chỉ tên một con sông tại tỉnh Nghệ An hay tên một đội bóng
“Sông L m Nghệ An”. Để xá định loại cho thực thể "JFK"
h y“Sông L m Nghệ An” xuất hiện trong một tài liệu cụ thể, cần
phải xem xét đến ngữ cảnh chứa nó.
Bên cạnh yếu tố về ngữ nghĩ á yếu tố liên qu n đến đặc
trưng ngôn ngữ ũng góp phần làm bài toán nhận dạng thực thể trở
nên khó khăn. Một số ngôn ngữ như tiếng Việt ngoài việc thiếu các
tài nguyên xử lý ngôn ngữ tự nhiên còn phải thực hiện một số bài
5
toán on như tá h từ trước khi nhận dạng thực thể, tỷ lệ lỗi của các
bài toán con sẽ ảnh hưởng đến kết quả của bài toán nhận dạng thực
thể. Ngoài ra, từng loại thực thể ũng ó những thách thức riêng khác
nhau ảnh hưởng đến hiệu quả của mô hình nhận dạng.
1.1.3. Độ đo đánh giá
Các số đo đánh giá điển hình được sử dụng cho nhận dạng
thực thể l độ chính xác (precision - P) độ hồi tưởng (recall - R) và
độ đo F1 (F1-me sure). Độ hính xá được tính bằng phần trăm á
kết quả đúng trong tổng số kết quả nhãn dương ủa hệ thống.
1.1.4. Ứng dụng của nhận dạng thực thể
Có thể kể đến nhận dạng thực thể xuất hiện trong một số các
ứng dụng sau:
• Trích xuất quan hệ là bài toán nhận diện các mối quan hệ ngữ
nghĩ giữa hai thực thể hay giữa một thực thể và một khái
niệm [GLR06]. Thành phần nhận diện thực thể l ph đầu
tiên trước khi giải quyết vấn đề xá định quan hệ.
• Trích xuất sự kiện là bài toán phức tạp hơn trích xuất quan hệ
khi sự kiện là một tổ hợp của nhiều yếu tố thể hiện các thông
tin biểu diễn về i/ ái gì đã l m gì với ai/cái gì, bao giờ, ở
đâu bằng cách và tại s o. Tương tự như trí h xuất quan hệ,
trong trích xuất sự kiện vấn đề nhận dạng thực thể ũng đặt
lên h ng đầu khi yêu cầu phải nhận r đủ và chính xác các
thành phần cấu thành nên sự kiện.
• Khá nhiều các hệ thống hỏi đáp tự động dựa trên khai phá
văn bản cần đến nhận dạng thực thể như l một yếu tố làm
6
tăng khả năng phân tí h hiểu câu hỏi và dữ liệu trả lời trong
hệ thống [HWY05].
1.2. Lịch sử nghiên cứu và một số hƣớng tiếp cận giải
quyết bài toán
1.2.1. Lịch sử nghiên cứu nhận dạng thực thể
Bài toán nhận dạng thực thể đã xuất hiện từ đầu những năm
90 [RA91] nhưng hỉ được chính thức giới thiệu v o năm 1995 tại
hội nghị MUC-6 với tư á h l một bài toán con của trích xuất thông
tin [GS96]. Kể từ đó NER đã thu hút nhiều sự chú ý của cộng đồng
nghiên cứu. Đã ó khá nhiều hệ thống v hương trình được xây
dựng thực thi bài toán này, có thể kể đến Automatic Content
Extraction
1
, các công bố trong nhiệm vụ cộng đồng thuộc hội nghị
Conferen e on N tur l L ngu ge Le rning (CoNLL) năm 2002 v
2003 [TD03], và chuỗi nhiệm nhận dạng thực thể y sinh tại hội thảo
BioCreative
2
(Critical Assessment of Information Extraction Systems
in Biology).
1.2.2. Một số nghiên cứu tiêu biểu trong nhận dạng thực
thể sử dụng học máy thống kê
Các nghiên cứu đạt hiệu quả o đối với nhận dạng thực thể
thường dựa trên các kỹ thuật học máy thống kê và hầu hết trong số
1
Automatic content extraction (ACE) evaluation.
2
7
đó xử lý b i toán n y như một bài toán gán nhãn chuỗi (sequence
labeling). Một trong những phương pháp họ máy đầu tiên được áp
dụng cho NER là mô hình Markov ẩn (Hidden Markov Models,
HMM). Cá phương pháp họ máy ho NER được xây dựng s u đó
đã ó một sự chuyển dịch từ mô hình sinh như HMM s ng mô hình
mô hình rời rạc (discriminative models) nhằm khắc phụ á nhược
điểm của HMM. Một mô hình rời rạc thông dụng được sử dụng trong
nhận dạng thực thể là mô hình entropy cực đại (Maximum Entropy
Model, MaxEnt) [BPP96].
Kết hợp mô hình MEM với một giả định M rkov được gọi
là mô hình Markov entropy cực đại (Maximum Entropy Markov
Models, MEMM).
Trường ngẫu nhiên có điều kiện (Conditional Random
Fields, CRF) là một mô hình rời rạc tiêu biểu khá để xử lý bài toán
gán nhãn chuỗi. Phương pháp n y được giới thiệu bởi Lafferty và các
cộng sự cho bài toán gán nhãn chuỗi [LMP01].
1.3. Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt
và một số nghiên cứu liên quan
Bắt nhịp với tình hình phát triển chung trên toàn thế giới, các
văn bản tiếng Việt ũng ng y ng xuất hiện nhiều dưới dạng văn
bản điện tử, và cùng với đó hính l sự phát sinh nhu cầu khai thác
thông tin có giá trị từ á văn bản này. Nhận dạng thực thể đóng một
vai trò chủ chốt trong kh i phá văn bản, chính vì thế nó ũng nh nh
chóng trở thành một lĩnh vực nghiên cứu được nhiều nhà khoa học
trong nước quan tâm. Áp dụng được NER cho dữ liệu tiếng Việt
đồng nghĩ với việ đặt một nền tảng quan trọng trong việc xây dựng
8
được các hệ thống ứng dụng cho nhiều lĩnh vự khá như t i hính
kinh tế, xã hội, y sinh học, v.v.. phù hợp với tình hình trong nước.
1.4. Nhận dạng thực thể trong dữ liệu văn bản y sinh
tiếng Anh và một số nghiên cứu liên quan
Hiện nay, số lượng á văn bản y tế và sinh họ dưới dạng
điện tử trên Internet ũng như đượ lưu trữ trong các hệ thống y tế
đ ng tăng với tố độ chóng mặt. Việc khai thác hiệu quả nguồn tài
nguyên này có thể đư tới nguồn tri thức hữu í h ho người dùng như
phát hiện bệnh dịch sớm, tổng hợp các kinh nghiệm phòng và chữa
bệnh, nghiên cứu á ơ hế di truyền, tuyên truyền và nâng cao sức
khỏe cộng đồng, v.v.. Những nghiên cứu liên qu n đến xử lý ngôn
ngữ tự nhiên ho văn bản y sinh học (Biomedical Natural Language
Pro essing; BioNLP) đã m ng đến nhiều lợi ích cho việc khai thác
nguồn dữ liệu y sinh học, có thể kể đến những ơ sở dữ liệu hay
ontology y sinh được xây dựng tự động hỗ trợ cho những nhà nghiên
cứu sinh v h y bá sĩ h y những hệ thống theo dõi thông tin về diễn
biến dịch bệnh truyền nhiễm đ ng phát triển trên thế giới.
Trong những hệ thống đấy, nhận dạng thực thể y sinh là một
thành phần quan trọng trong quá trình phân tích và tổng hợp thông tin
từ văn bản y sinh họ . Đây l một bài toán khó vì mỗi một loại thực
thể y sinh lại bao hàm nhiều tính chất đặc thù khác nhau về ngôn ngữ
và y sinh họ đòi hỏi người nghiên cứu cần phải có sự kết hợp kiến
thức cả xử lý ngôn ngữ tự nhiên và kiến thức y sinh học mới có thể
đư r một phương pháp h y mô hình nhận dạng thực thể hiệu quả.
9
Chƣơng 2 – NHẬN DẠNG THỰC THỂ KẾT
HỢP VỚI NHẬN DẠNG THUỘC TÍNH THỰC THỂ
TRONG VĂN BẢN TIẾNG VIỆT
2.1. Giới thiệu
Tên người và những thông tin liên qu n đến người là một
trong những từ khó được tìm kiếm thường xuyên nhất trên các công
cụ tìm kiếm web, tuy nhiên, các kết quả tìm kiếm và thông tin trả về
đôi khi òn rất mơ hồ. Vì vậy, nhu cầu về một hệ thống đầy đủ thông
tin, chính xác và tập trung vào thực thể người là rất lớn. Thực thể tên
người luôn gắn liền với một số các thuộ tính [SJ09 JAJ10] đó l
á đặ trưng hoặc tính chất của một thực thể và trích chọn thuộc tính
là trích chọn á đặ trưng hoặc tính chất tương ứng với một thực thể
từ dữ liệu văn bản [GR08]. Do đó trí h họn thuộ tính đóng một vai
trò chủ chốt trong việc xử lý nhập nhằng tên người [SJ09]. Ngoài ra,
việc trích chọn thực thể tên người cùng với các thuộc tính của chúng
ũng góp một phần quan trọng để mở rộng á ơ sở dữ liệu và
ontology.
2.2. Cơ sở lý thuyết và mô hình đề xuất
2.2.1. Mô hình Entropy cực đại giải mã bằng tìm kiếm
chùm (MEM+BS)
Mô hình Entropy cự đại (Maximum Entropy Model, Maxent
Model) [BPP96] là một thuật toán học máy thông dụng dựa trên xác
suất ó điều kiện được sử dụng trong nhiều nghiên cứu về nhận dạng
thực thể y sinh họ [CN02 BON03 CC03 LTC04]. Trong đó
10
entropy l độ đo về tính đồng đều hay tính không chắc chắn của một
phân phối xác suất, một phân phối xác suất có Entropy càng cao thì
phân phối củ nó ng đều.
2.2.2. Phương pháp trường ngẫu nhiên có điều kiện (CRF)
Trường ngẫu nhiên ó điều kiện (Conditional Random
Fields, CRF) là một là một mô hình rời rạc dự trên ý tưởng gốc từ
mô hình Markov ẩn (Hidden M rkov Model HMM) [RA89] v được
cải thiện để khắc phụ á nhượ điểm củ HMM ũng như mô hình
markov entropy cự đại (Maximum Entropy Markov Model,
MEMM) [MFP00]. CRF được giới thiệu bởi Lafferty và các cộng sự
cho bài toán trích xuất thông tin [LMP01]. Tính ưu việt của CRF so
với HMM thể hiện ở việ nó ướ lượng các phân phối xác suất có
điều kiện theo trình tự gán nhãn tính ưu việt n y đã được chứng
minh qua nhiều nghiên cứu [ML03 SE04]) v ho đến nay CRF vẫn
đ ng l một trong những phương pháp họ máy được ứng dụng nhiều
trong lĩnh vực NLP.
2.3.3. Mô hình đề xuất
Mô hình đượ đề xuất gồm ó b ph hính được mô hình
hó trong hình 2.3. Đầu vào của mô hình là từng âu trong văn bản
v đầu r l á âu đã được gán nhãn dựa trên mô hình nhận dạng.
Hình 2.3. Mô hình tích hợp NER và trích chọn thuộc tính của
thực thể tên người
11
Pha 1: Huấn luyện mô hình
Pha 2: Gán nhãn dữ liệu dựa trên mô hình nhân dạng thực
thể và thuộc tính
Pha 3 - Lọc câu lọc dữ liệu đã đượ gán nhãn thu được ở pha
2 và chỉ giữ lại các câu nhãn phù hợp.
2.2.3. Tập đặc trưng
Bảng 2.3. Tập đặc trưng được sử dụng
STT Đặc trƣng Ký hiệu
1 Từ đ ng xét W0
2 Nhãn từ loại ủ từ đ ng xét (POS) POS (W0)
3
Từ đ ng xét l hữ thường viết ho đầu từ h y viết ho
to n bộ?
Is_Lower(0,0)
Is_Initial_Cap (0,0)
12
Is_All_Cap (0,0)
4 Ngữ ảnh Wi (i = -2,-1,1,2))
5 Liên kết từ vựng Syllable_Conj (-2,2))
6 Biểu thứ hính quy Regex(0,0)
7 Nhận dạng tiếng Việt Is_Valid_Vietnamese_Syllable(0,0)
8 Từ điển
dict:name, dict:first_name
dict:vname
dict:vfirst_name
9 Tiền tố
prefix:per
prefix:loc
prefix:org
2.4. Thực nghiệm, kết quả và đánh giá
Thực nghiệm được tiến hành trên 10.000 âu được thu thập từ
Wikipedia
3
tiếng Việt. Cá âu n y được gán nhãn thủ công
để phục vụ cho huấn luyện và kiểm thử. Đánh giá dựa trên
á độ đo hính xá (P) độ đo hồi tưởng (R) v độ đo F với
phương pháp kiểm thử chéo 10 lần. Kết quả được xem xét ở
cả mức tổng thể và cho từng thuộc tính.
Kết quả thực nghiệm đánh giá trên toàn hệ thống:
Bảng 2.4. Kết quả đánh giá toàn hệ thống trên hai phương pháp
MEM+BS và CRF
Độ hính xá Độ hồi tưởng Đô đo F
MEM + BS (beam=3) 83.72 82.54 83.13
3
13
CRF 84 82.56 83.39
Kết quả thực nghiệm đánh giá trên từng nhãn
Bảng 2.5. Kết quả thực nghiệm đối với từng nhãn
STT Nhãn P (%) R (%) F (%) STT Nhãn P (%) R (%) F (%)
1 OPer 91.35 90.33 90.84
2 NickPer 89.88 90.44 90.16 12 R_OtherName 91.67 85.19 88.31
3 RPer 80.46 78.65 79.54 13 R_Relationship 81.98 83.30 82.63
4 VBornLoc 83.45 87.91 85.62 14 R_WhereBorn 80.89 81.74 81.31
5 VDeadLoc 80.35 80.09 80.22 15 R_WhereDead 80.23 85.36 82.72
6 VHomeLoc 93.39 91.77 92.57 16 R_WhenDead 85.65 85.99 85.82
7 VJobOrg 78.25 83.69 80.88 17 R_Job 77.35 75.64 76.49
8 VJob 81.49 78.22 79.82 18 R_WhereJob 75.92 73.21 74.54
9 VSex 90.45 87.56 88.98 19 R_Sex 73.29 65.30 69.06
10 VBornTime 83.77 90.39 86.95 20 R_WhenBorn 85.75 83.22 84.47
11 VDeadTime 80.40 87.28 83.70 21 R_WhenDead 76.10 72.77 74.40
2.3. Một mô hình hỏi đáp tên ngƣời áp dụng nhận dạng
thực thể tiếng Việt
2.3.1. Khái quát bài toán
Trong tiếng Việt, câu hỏi về người thường chứa các từ để hỏi
như: là ai, ai là, của ai, do ai, vì ai, người nào Hệ thống QA được
xây dựng trong luận án yêu cầu đầu vào là các câu hỏi đơn giản
(factoid question) tiếng Việt với kết quả trả lời l tên người. Có thể
xem các câu hỏi đầu vào của hệ thống là dạng các câu hỏi
14
WHO/WHOM/WHOSE trong tiếng Anh. Các khái niệm liên quan
đến câu hỏi đơn giản v đặ trưng ủa câu hỏi trong tiếng Việt sẽ
được giới thiệu trong phần 3.3.1.
2.3.2. Đặc trưng câu hỏi liên quan đến thực thể người
trong tiếng Việt
Dạng hai lớp tân ngữ có các câu trúc sau:
- Chủ thể + H nh động + Tân ngữ trực tiếp
- Tân ngữ trực tiếp + Chủ thể + H nh động
Tân ngữ trực tiếp + H nh động + Chủ thể
Dạng ba lớp tân ngữ có các cấu trúc sau:
- Cấu trúc 1: Chủ thể + H nh động + Tân ngữ trực tiếp + Tân
ngữ gián tiếp
- Cấu trúc 2: Chủ thể + Tân ngữ trực tiếp + Tân ngữ gián tiếp
2.3.3. Mô hình đề xuất
Mô hình hỏi đáp thực thể tên người cho tiếng Việt đượ đề xuất
v đặt tên là VPQA. Mô hình sử dụng phương pháp phân tích
câu hỏi bằng kỹ thuật học máy CRF cùng với chiến lược trả
lời tự động dự trên thông tin được truy vấn từ máy tìm
kiếm. Mô hình tổng quát của hệ thống được nêu ra trong hình
2.4.
Hình 2.4. Mô hình hệ thống hỏi đáp thực thể tên người tiếng Việt
15
2.3.4. Phương pháp và dữ liệu đánh giá mô hình hỏi đáp tự
động
Có nhiều phương pháp để đánh giá kết quả của hệ thống hỏi
đáp tự động, ở đây nghiên ứu sinh chọn phương pháp đánh giá phổ
biến nhất l nhóm b độ đo gồm độ đo hính xá độ đo hồi tưởng và
độ đo F đây ũng l độ đo được sử dụng tại chuỗi nhiệm vụ TREC
[Vo03].
Tập dữ liệu đánh giá b o gồm 1000 câu hỏi được xây dựng
và gán nhãn thủ công. Các câu hỏi là dạng câu hỏi đơn giản hỏi về
thực thể người v được gán các nhãn thành.
2.3.5. Thực nghiệm và đánh giá
16
a. Thực nghiệm đánh giá hiệu quả phân tích câu hỏi
Bảng 2.10. Kết quả đánh giá thành phần phân tích câu hỏi
Độ chính xác Độ hồi tƣởng Độ đo F
Fold 1 89.7 90.2 89.95
Fold 2 94.1 95.05 94.57
Fold 3 96.4 96.83 96.61
Fold 4 93.07 94.23 93.64
Fold 5 94.58 96.11 95.33
Fold 6 92.43 93.45 92.93
Fold 7 91.3 92.67 91.98
Fold 8 88.35 89.45 88.89
Fold 9 91.5 92.11 91.80
Fold 10 93.32 95.01 94.15
Trung bình 92.475 93.51 92.99
b. Thực nghiệm đánh giá hiệu quả trả lời tự động của mô
hình hỏi đáp
Bảng 2.11. Kết quả đánh giá của hệ thống trả lời tự động
Top 1 Top 3 Top 5
T (ms) P R F P R F P R F
Baseline 62 54.36 42.13 47.47 60.19 45.59 51.88 62.78 50.12 55.74
KLB 58 79.68 55.6 65.50 89.39 60.3 72.02 90.03 60.2 72.15
SEB 28059 71.44 90 79.65 72.18 91.3 80.62 73.17 91.7 81.39
KLB+SEB 11630 74.63 87.9 80.72 79.62 89.3 84.18 80.02 91.1 85.20
17
Chƣơng 3 – NHẬN DẠNG THỰC THỂ KIỂU HÌNH
TRONG VĂN BẢN Y SINH TIẾNG ANH
3.1. Giới thiệu
Dưới đây l định nghĩ về nhận dạng thực thể y sinh
[TMV5].
“Nhận dạng thực thể y sinh (Biomedical NER) là một (nhóm) kỹ
thuật tính toán được dùng để nhận dạng và phân lớp các
chuỗi văn bản chỉ đến các khái niệm quan trọng trong văn
bản y sinh học.”
3.2. Vấn đề về chuyển đổi miền trong nhận dạng thực thể
y sinh
Một thách thức lớn nữ đối với bài toán NER trong dữ liệu y sinh
và vấn đề thích ứng khi chuyển đổi miền dữ liệu. Các nghiên
cứu NER y sinh họ thường sử dụng một tập nhỏ các dữ liệu
đượ gán nhãn để nghiên cứu và thực nghiệm. Vì tính chất
phong phú v hướng chuyên ngành của dữ liệu y sinh học,
một bộ dữ liệu thường sẽ chỉ hướng về một chủ đề hay có
cùng tính chất n o đó. Hệ thống được xây dựng phù hợp cho
dữ liệu thuộc về chủ đề n y hư hắc có thể hoạt động hiệu
quả khi chuyển sang tập dữ liệu thuộc chủ đề khác hay các
tập dữ liệu trộn lẫn của nhiều chủ đề khác nhau, mặc dù
húng đều là dữ liệu y sinh học và có nhiều điểm tương
đồng.
18
3.3. Mô hình nhận dạng thực thể kiểu hình và một số
thực thể liên quan
3.3.1. Dữ liệu đánh giá và tài nguyên hỗ trợ
a. Tập dữ liệu Phenominer A về các bệnh tự miễn dịch di
truyền (autoimmune diseases)
Tập dữ liệu Phenominer A (gọi tắt l Phenominer A) được thu
thập dựa trên hai tiêu chí sau:
Thứ nhất, là tóm tắt PubMed Central (PMC) nói về một số
19 bệnh tự miễn dịch di truyền đã đượ xá định trước. Bệnh
tự miễn dịch (autoimmune disease) .
Thứ h i để đảm bảo các tóm tắt này có một liên kết nhất
định với kiểu hình, các tóm tắt phải đảm bảo có chứa ít nhất
một cụm từ chỉ kiểu hình.
b. Tập dữ liệu Phenominer B về các bệnh tim mạch di
truyền (cardiovascular diseases)
Dữ liệu Phenominer phần B (gọi tắt l Phenominer B) được
xây dựng tương tự với phần A, một nhóm bệnh khác lựa chọn từ ơ
sở dữ liệu kinh điển về các bệnh di truyền OMIM được dùng để định
hướng xây dựng Phenominer B. Các bệnh được lựa chọn là bệnh tim
mạch (cardiovascular diseases), 60 bệnh cụ thể được sử dụng để thu
thập dữ liệu như bệnh ơ tim ( rdiomyop thy) tăng huyết áp
(hypertension) xơ vữ động mạch (atherosclerosis).
3.2.2. Mô hình đề xuất
PHENOMINER A PHENOMINER B
PHƢƠNG PHÁP Thự thể P R F P R F
CRF
PH 71.16 75.24 73.14 72.19 78.03 75.00
19
GG 80.68 83.07 81.86 79.68 79.54 79.61
OR 72.54 79.13 75.69 81.13 77.08 79.05
CD 77.58 80.65 79.09 78.42 82.34 80.33
AN 74.22 81.94 77.89 72.65 78.69 75.55
DS 76.85 72.41 74.56 72.31 70.13 71.20
ALL (micro avg-F1) 78.16 77.96
ALL (macro avg-F1) 77.04 76.79
ME + BS
PH 73.72 76.06 74.87 74.68 78.13 76.37
GG 82.49 81.47 81.98 80.63 78.52 79.56
OR 72.80 78.14 75.38 80.17 75.13 77.57
CD 79.59 81.25 80.41 78.55 82.97 80.70
AN 72.43 82.45 77.11 73.45 79.69 76.44
DS 75.77 72.91 74.32 72.16 69.84 70.98
ALL (micro avg-F1) 78.41 77.35
ALL (macro avg-F1) 77.34 76.94
Hình 3.5. Mô hình nhận dạng thực thể kiểu hình và các thực thể
liên quan
3.4. Thực nghiệm
Bảng 3.4. Thực nghiệm so sánh các phương pháp học máy
khác nhau
Phenominer A Phenominer B Tập KMR
Phƣơng pháp Thực thể P R F P R F P R F
Khordad et al. PH 65.89 57.44 61.38 64.28 60.34 62.25 90.74 88.44 89.58
Genia Tagger GG 71.36 75.58 73.41 71.13 72.57 71.84
Lineaus OR 56.81 57.28 57.04 54.81 55.39 55.10
Từ điển PH 51.24 50.91 51.07 57.31 52.71 54.91 87.26 82.35 84.73
Từ điển GG 87.29 60.44 71.42 79.24 62.17 69.67
20
Từ điển CD 91.49 56.07 69.53 87.24 55.43 67.79
Từ điển AN 83.46 50.13 62.64 84.57 48.77 61.86
Từ điển DS 57.82 34.27 43.03 51.25 31.04 38.66
MEM + BS
PH 73.72 76.06 74.87 74.68 78.13 76.37 86.37 84.19 85.27
GG 82.49 81.47 81.98 80.63 78.52 79.56
OR 72.80 78.14 75.38 80.17 75.13 77.57
CD 79.59 81.25 80.41 78.55 82.97 80.70
AN 72.43 82.45 77.11 73.45 79.69 76.44
DS 75.77 72.91 74.32 72.16 69.84 70.98
Mmicro avg-F1 78.41 78.35
Macro avg-F1 77.34 76.94
3.5. Thích ứng miền dữ liệu trong nhận dạng thực thể y
sinh
3.5.1. Thực nghiệm
M1: IN DOMAIN - Kiểm thử trong miền
M2: OUT DOMAIN - Kiểm thử ngoài miền
M3: MIX-IN - Trộn lẫn dữ liệu để huấn luyện
M4: STACK - Xếp chồng dữ liệu huấn luyện
M5: BINARY CLASS - Lớp nhị phân
M6: FRUSTRATINGLY SIMPLE - Sử dụng cách tiếp cận
điều chỉnh đặ trưng ủa H. Daume III đề xuất năm 2007
[DA07]
3.4.2. Kết quả và đánh giá
Bảng 3.7. Kết quả F1 của hệ thống NER sử dụng phương pháp
thực nghiệm 1-6.
MH DL AN CD DS GG PH OR ALL
M1 A 57.1 29.5 80.4 74 46 68.4 69.9
21
M2 A 34.3 26.9 57.7 55.6 26.9 64 50.8
M3 A 50.8 20 77.9 71.7 39.7 72.2 67.3
M4 A 56.3 17.4 79 74.1 44.1 70.8 69.8
M5 A 56.7 29.6 77.3 72.7 41.5 72.8 68.3
M6 A 57.1 27.7 79 73.4 44.9 69.9 69.5
M1 B 37.2 31.3 72.9 57.2 46.5 73.2 58.5
M2 B 21.2 20.2 57 52.3 24.4 68.5 46.6
M3 B 36.8 38.7 72.3 61.1 44 77.4 59.7
M4 B 34.8 34.4 72.5 57.5 45.9 74.7 58.5
M5 B 34.1 41.6 73.6 58.9 43.2 78.5 59.6
M6 B 39.9 35 73.3 56.4 46.6 75 59.1
MH: Mô hình (M1-M6 tương ứng với các mô hình 1-6)
DL: Dữ liệu (A: Phenominer A về bệnh tự miễn dịch và B:
Phenominer B về bệnh tim mạch)
Các cột AN, CD, DS, GG, PH, OR và kết quả tương ứng với từng
loại thực thể. Trong đó số ở hàng trên là F1 và hai số đưa ra
trong dấu ngoặc đơn lần lượt là P và R.
Cột ALL đưa ra kết quả của toàn hệ thống, F1 là micro average
F1
22
Chƣơng 4 – MỘT MÔ HÌNH NÂNG CẤP HIỆU
QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN
KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG
4.1. Mô hình nâng cấp nhận dạng thực thể kiểu hình và các
thực thể liên quan
Hình 4.1. Kiến trúc tổng quan của hệ thống NER y sinh học
4.2. Các phƣơng pháp lai ghép đƣợc đề xuất
4.2.1 Phương pháp lai ghép sử dụng luật
Phương pháp l i ghép đượ nêu r đầu tiên là kỹ thuật sử
dụng luật heuristic, trong đó việc quyết định kết quả được thực hiện
bằng cách sử dụng d nh sá h ưu tiên theo thứ tự s u đây
DS>PH>GG>CD>AN>OR>O.
Các file đính kèm theo tài liệu này:
- tt_hoc_may_dua_tren_do_thi_trich_chon_quan_he_ngu_nghia_4453_1920321.pdf