LỜI CAM ĐOAN. 2
LỜI CẢM ƠN . 3
MỤC LỤC. 4
DANH MỤC THUẬT NGỮ VÀ CÁC KÝ HIỆU VIẾT TẮT . 6
DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ. 7
DANH MỤC CÁC BẢNG BIỂU . 7
TÓM TẮT . 8
MỞ ĐẦU. 10
CHưƠNG 1: GIỚI THIỆU TỔNG QUAN . 13
1 Tổng quan về hệ thống trả lời tự động. 13
1.1 Hệ thống hướng nhiệm vụ và hướng hội thoại. 14
1.2 Tình hình nghiên cứu trong và ngoài nước . 15
2 Xử lý ngôn ngữ tự nhiên và ứng dụng. 17
2.1 Sơ lược về ngôn ngữ tự nhiên. 17
2.2 Các ứng dụng xử lý ngôn ngữ tự nhiên . 18
2.3 Tiền xử lý văn bản . 18
2.3.1 Chuẩn hóa và biến đổi văn bản . 18
2.3.2 Biểu diễn văn bản dưới dạng vector. 19
3 Bài toán phân loại văn bản. 19
3.1 Bài toán phân loại văn bản . 19
3.2 Một số thuật toán phân loại văn bản. 20
3.2.1 Thuật toán Naive Bayes. 20
3.2.2 Thuật toán SVM. 23
3.2.3 Mạng nơ-ron nhân tạo. 31
3.3 Các phương pháp đánh giá một hệ thống phân lớp. 36
3.3.1 Đánh giá theo độ chính xác Accuracy. 37
3.3.2 Ma trận nhầm lẫn. 37
75 trang |
Chia sẻ: honganh20 | Lượt xem: 371 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Phân tích câu hỏi tiếng việt trong hệ thống đón tiếp và phân loại bệnh nhân, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
phân tách thoả mãn đƣợc việc này và đƣơng
nhiên là nếu chọn đƣợc mặt mà phân tách tốt thì kết quả phân loại của ta sẽ tốt
hơn. Một lẽ rất tự nhiên là dƣờng nhƣ mặt nằm vừa khít giữa 2 cụm dữ liệu sao
cho nằm xa các tập dữ liệu nhất là mặt tốt nhất.
Hình 2. Lề siêu phẳng
25
SVM chính là một biện pháp để thực hiện đƣợc phép lấy mặt phẳng nhƣ
vậy.
Để xác định mặt phẳng kẹp giữa đó, trƣớc tiên ta cần phải xác định đƣợc
2 mặt biên gốc nhƣ 2 đƣờng nét đứt ở trên. Các điểm dữ liệu gần với mặt biên
gốc này nhất có thể xác định bằng:
Để dễ dàng cho việc tính toán thì ngƣời ta sẽ chọn w và b sao cho các
điểm gần nhất (mặt biên gốc) thoả mãn: , tức là:
Đƣơng nhiên là có thể tồn tại nhiều cặp đôi mặt biên gốc nhƣ vậy và tồn
tại nhiều mặt phân đôi kẹp giữa các mặt biên gốc đó. Nên ta phải tìm cách xác
định đƣợc mặt kẹp giữa tốt nhất bằng cách lấy cặp có khoảng cách xa nhau nhất.
Lẽ này là đƣơng nhiên bởi cặp có khoảng cách xa nhất đồng nghĩa với chuyện
tập dữ liệu đƣợc phân cách xa nhất.
Nhƣ vậy, ta có thể thiết lập thông số tính khoảng cách đó bằng phép lấy
độ rộng biên từ mặt biên gốc tới mặt phân tách cần tìm.
Bài toán của ta bây giờ sẽ là cần xác định w và b sao cho ρ đạt lớn nhất và
các điểm dữ liệu . ρ đạt lớn nhất đồng nghĩa với
việc ∥w∥ đạt nhỏ nhất. Tức là:
26
Ở đây, m là số lƣợng các điểm dữ liệu còn việc lấy bình phƣơng
và chia đôi nhằm dễ dàng tính toán và tối ƣu lồi.
Bài toán này có thể giải thông qua bài toán đối ngẫu của nó và sử dụng
phƣơng pháp nhân tử Lagrance. Lúc này, ta sẽ cần tìm các giá trị λ nhƣ sau:
Việc giải λ có thể đƣợc thực hiện bằng phƣơng pháp quy hoạch động bậc
2 (Quadratic Programing). Sau khi tìm đƣợc λ thì ta có các tham số :
Ở đây, là một điểm dữ liệu bất kì nào đó nằm trên đƣờng biên
gốc. Điểm dữ liệu này còn đƣợc gọi là Support Vector. Tên của phƣơng pháp
SVM cũng từ đây mà ra. Tuy nhiên, thƣờng ngƣời ta tính b bằng phép lấy trung
bình tổng của tất cả các bi. Giả sử, ta có tập các Support Vectors thì:
Khi đó, một điểm dữ liệu mới sẽ đƣợc phân loại dựa theo:
27
Nhƣ vậy, chỉ cần các điểm Support Vector trên đƣờng biên gốc là ta có
thể ƣớc lƣợng đƣợc các tham số tối ƣu cho bài toán. Việc này rất có lợi khi tính
toán giúp phƣơng pháp này tiết kiệm đƣợc tài nguyên thực thi
Dữ liệu chồng nhau và phƣơng pháp biên mềm
Trong thực tế tập dữ liệu thƣờng không đƣợc sạch nhƣ trên mà thƣờng có
nhiễu. Nhiễu ở đây là dạng dữ liệu chồng chéo lên nhau nhƣ hình bên dƣới
Hình 3. Dữ liệu phi tuyến
Với dạng dữ liệu nhƣ vậy thì mặt phân tách tìm đƣợc sẽ khó mà tối ƣu
đƣợc, thậm chí là không tìm đƣợc mặt phân tách luôn. Giờ vấn đề đặt ra là làm
sao triệt đƣợc các nhiễu này. Tức là tính toán bỏ qua đƣợc các nhiễu này khi
huấn luyện.
Một cách hình thức, các điểm nhiễu là những điểm mà không đảm bảo
điều kiện . Khi đó bằng phép thêm biến lùi (Slack
Variables) sao cho ra có đƣợc ràng buộc:
Giờ, hàm mục tiêu tối ƣu đƣợc viết lại nhƣ sau :
28
C ở đây là hệ số cân bằng giữa nhiễu và không nhiễu. Nếu C càng lớn thì
các nhiễu càng nhiều điểm đƣợc coi là nhiễu hơn tức là nhiễu đƣợc coi trọng
hơn.
Giải bài toán này, nghiệm tƣơng tự nhƣ cách tính ở trên chỉ khác một điều
là tập các điểm support vectors đƣợc mở rộng thêm tới các điểm ra
miễn sao nó thoả mãn điều kiện:
Tức là :
Khi đó, tham số đƣợc ƣớc lƣợng nhƣ sau:
Với tập mở rộng nhƣ vậy ngƣời ta gọi phƣơng pháp này là phƣơng
pháp biên mềm (Soft-Margin SVM). Còn phƣơng pháp truyền thống là biên
cứng (Hard-Margin SVM).
29
Dữ liệu phân tách phi tuyến và phƣơng pháp kernel
Hình 4. Không gian dữ liệu phi tuyến
Đối với các bài toán có không gian dữ liệu là phi tuyến tính (non-linear)
chúng ta không thể tìm đƣợc một siêu phẳng thỏa mãn bài toán.
Để giải quyết bài toán trong trƣờng hợp này chúng ra cần biểu diễn (ánh
xạ) dữ liệu từ không gian ban đầu X sang không gian F bằng một hàm ánh xạ
phi tuyến:
Trong không gian F tập dữ liệu có thể phân tách tuyến tính. Nhƣng nảy
sinh một vẫn đề lớn đó là trong không gian mới này số chiều của dữ liệu tăng
lên rất nhiều so với không gian ban đầu làm cho chi phí tính toán vô cùng tốn
kém. Rất may trong bài toán SVM ngƣời ta đã tìm ra một cách không cần phải
30
tính , và hàm ánh xạ mà vẫn tính đƣợc . Phƣơng pháp
này gọi là Kernel Trick.
Khi đó tối ƣu biên mềm đƣợc viết dƣới dạng:
Đặt hàm Kernel: , ta có:
Khi đó tham số tƣơng ứng sẽ là :
Điểm dữ liệu mới đƣợc phân lớp với:
Nhƣ vậy, chỉ cần hàm Kernel để tính tích vô hƣớng giữa các điểm
dữ liệu trong không gian mới là ta có thể ƣớc lƣợng đƣợc một điểm mới nằm
trong phân lớp nào.
Việc sử dụng hàm Kernel ở đây sẽ giúp giảm đƣợc công số tính từng hàm Φ và
tích vô hƣớng giữa chúng. Nó có thể tính đƣợc cho bất kì không gian nào rất
31
hiệu quả. Kể cả các không gian với số chiều vô hạn. Bởi nó chỉ cần tính tích vô
hƣơng giữa các điểm dữ liệu mà thôi. Tất nhiên để làm đƣợc điều đó thì Kernel
phải thoả mãn điều kiện Mercer [7].
Khi làm việc ngƣời ta thƣờng chọn một hàm Kernel thông dụng sau:
Phƣơng pháp SVM là một cách hiệu quả cho bài toán phân lớp mà chỉ sử
dụng một lƣợng ít dữ liệu là các điểm support vectors nằm trên đƣờng biên gốc
và phần mở rộng.
3.2.3 Mạng nơ-ron nhân tạo
Mạng nơ ron nhân tạo (Artificial Neural Network – ANN) là một mô hình
xử lý thông tin đƣợc mô phỏng dựa trên hoạt động của hệ thống thần kinh của
sinh vật, bao gồm số lƣợng lớn các Nơ-ron đƣợc gắn kết để xử lý thông tin.
ANN hoạt động giống nhƣ bộ não của con ngƣời, đƣợc học bởi kinh nghiệm
(thông qua việc huấn luyện), có khả năng lƣu giữ các tri thức và sử dụng các tri
thức đó trong việc dự đoán các dữ liệu chƣa biết (unseen data).
Một mạng nơ-ron là một nhóm các nút nối với nhau, mô phỏng mạng nơ-
ron thần kinh của não ngƣời. Mạng nơ ron nhân tạo đƣợc thể hiện thông qua ba
thành phần cơ bản: mô hình của nơ ron, cấu trúc và sự liên kết giữa các nơ ron.
Trong nhiều trƣờng hợp, mạng nơ ron nhân tạo là một hệ thống thích ứng, tự
thay đổi cấu trúc của mình dựa trên các thông tin bên ngoài hay bên trong chạy
qua mạng trong quá trình học.
32
Hình 5. Kiến trúc mạng nơ-ron nhân tạo
Kiến trúc chung của một ANN gồm 3 thành phần đó là Input Layer,
Hidden Layer và Output Layer.
Trong đó, lớp ẩn (Hidden Layer) gồm các nơ-ron, nhận dữ liệu input từ
các Nơ-ron ở lớp (Layer) trƣớc đó và chuyển đổi các input này cho các lớp xử lý
tiếp theo. Trong một mạng ANN có thể có nhiều Hidden Layer.
Lợi thế lớn nhất của các mạng ANN là khả năng đƣợc sử dụng nhƣ một
cơ chế xấp xỉ hàm tùy ý mà “học” đƣợc từ các dữ liệu quan sát. Tuy nhiên, sử
dụng chúng không đơn giản nhƣ vậy, một số các đặc tính và kinh nghiệm khi
thiết kế một mạng nơ-ron ANN.
Chọn mô hình: Điều này phụ thuộc vào cách trình bày dữ liệu và các
ứng dụng. Mô hình quá phức tạp có xu hƣớng dẫn đền những thách
thức trong quá trình học.
Cấu trúc và sự liên kết giữa các nơ-ron
Thuật toán học: Có hai vấn đề cần học đối với mỗi mạng ANN, đó là
học tham số của mô hình (parameter learning) và học cấu trúc
(structure learning). Học tham số là thay đổi trọng số của các liên kết
giữa các nơ-ron trong một mạng, còn học cấu trúc là việc điều chỉnh
33
cấu trúc mạng bằng việc thay đổi số lớp ẩn, số nơ-ron mỗi lớp và cách
liên kết giữa chúng. Hai vấn đề này có thể đƣợc thực hiện đồng thời
hoặc tách biệt.
Nếu các mô hình, hàm chi phí và thuật toán học đƣợc lựa chọn một cách
thích hợp, thì mạng ANN sẽ cho kết quả có thể vô cùng mạnh mẽ và hiệu quả.
Hoạt động của mạng nơ-ron nhân tạo:
Hình 6. Quá trình xử lý thông tin của một mạng nơ-ron nhân tạo
Inputs: Mỗi Input tƣơng ứng với 1 đặc trƣng của dữ liệu. Ví dụ nhƣ trong
ứng dụng của ngân hàng xem xét có chấp nhận cho khách hàng vay tiền hay
không thì mỗi input là một thuộc tính của khách hàng nhƣ thu nhập, nghề
nghiệp, tuổi, số con,
Output: Kết quả của một ANN là một giải pháp cho một vấn đề, ví dụ
nhƣ với bài toán xem xét chấp nhận cho khách hàng vay tiền hay không thì
output là yes hoặc no.
Connection Weights (Trọng số liên kết) : Đây là thành phần rất quan
trọng của một ANN, nó thể hiện mức độ quan trọng, độ mạnh của dữ liệu đầu
vào đối với quá trình xử lý thông tin chuyển đổi dữ liệu từ Layer này sang layer
khác. Quá trình học của ANN thực ra là quá trình điều chỉnh các trọng số
Weight của các dữ liệu đầu vào để có đƣợc kết quả mong muốn.
34
Summation Function (Hàm tổng): Tính tổng trọng số của tất cả các input
đƣợc đƣa vào mỗi Nơ-ron. Hàm tổng của một Nơ-ron đối với n input đƣợc tính
theo công thức sau:
∑
Transfer Function (Hàm chuyển đổi): Hàm tổng của một nơ-ron cho biết
khả năng kích hoạt của nơ-ron đó còn gọi là kích hoạt bên trong. Các nơ-ron này
có thể sinh ra một output hoặc không trong mạng ANN, nói cách khác rằng có
thể output của 1 Nơ-ron có thể đƣợc chuyển đến layer tiếp trong mạng Nơ-ron
theo hoặc không. Mối quan hệ giữa hàm tổng và kết quả output đƣợc thể hiện
bằng hàm chuyển đổi.
Việc lựa chọn hàm chuyển đổi có tác động lớn đến kết quả đầu ra của
mạng ANN. Hàm chuyển đổi phi tuyến đƣợc sử dụng phổ biến trong mạng
ANN là hoặc sigmoid hoặc tanh.
Trong đó, hàm tanh là phiên bản thay đổi tỉ lệ của sigmoid , tức là khoảng
giá trị đầu ra của hàm chuyển đổi thuộc khoảng [-1, 1] thay vì [0,1] nên chúng
còn gọi là hàm chuẩn hóa (Normalized Function).
Kết quả xử lý tại các nơ-ron (Output) đôi khi rất lớn, vì vậy hàm chuyển
đổi đƣợc sử dụng để xử lý output này trƣớc khi chuyển đến layer tiếp theo. Đôi
khi thay vì sử dụng Transfer Function ngƣời ta sử dụng giá trị ngƣỡng
(Threshold value) để kiểm soát các output của các neuron tại một layer nào đó
trƣớc khi chuyển các output này đến các Layer tiếp theo. Nếu output của một
neuron nào đó nhỏ hơn Threshold thì nó sẻ không đƣợc chuyển đến Layer tiếp
theo.
Mạng nơ-ron của chúng ta dự đoán dựa trên lan truyền thẳng (forward
propagation) là các phép nhân ma trận cùng với activation function để thu đƣợc
35
kết quả đầu ra. Nếu input x là vector 2 chiều thì ta có thể tính kết quả dự đoán
̂ bằng công thức sau
̂
Trong đó, là input của layer thứ , là output của layer thứ sau khi áp
dụng activation function. là các thông số (parameters) cần tìm của
mô hình mạng nơ-ron.
Huấn luyện để tìm các thông số cho mô hình tƣơng đƣơng với việc tìm
các thông số , sao cho độ lỗi của mô hình đạt đƣợc là thấp nhất. Ta
gọi hàm độ lỗi của mô hình là loss function. Đối với softmax function, ta
dùng cross-entropy loss (còn gọi là negative log likelihood).
Nếu ta có N dòng dữ liệu huấn luyện, và C nhóm phân lớp (trƣờng hợp
này là hai lớp nam, nữ), khi đó loss function giữa giá trị dự đoán ̂ và đƣợc
tính nhƣ sau
̂
∑∑ ̂
Ý nghĩa công thức trên nghĩa là: lấy tổng trên toàn bộ tập huấn luyện và
cộng dồn vào hàm loss nếu kết quả phân lớp sai. Độ dị biệt giữa hai giá
trị ̂ và càng lớn thì độ lỗi càng cao. Mục tiêu của chúng ta là tối thiểu hóa
hàm lỗi này. Ta có thể sử dụng phƣơng pháp gradient descent để tối tiểu hóa
hàm lỗi. Có hai loại gradient descent, một loại với fixed learning rate đƣợc gọi
là batch gradient descent, loại còn lại có learning rate thay đổi theo quá trình
huấn luyện đƣợc gọi là SGD (stochastic gradient descent) hay minibatch
gradient descent.
Gradient descent cần các gradient là các vector có đƣợc bằng cách lấy đạo
hàm của loss function theo từng thông số , , , . Để tính các gradient
này, ta sử dụng thuật toán backpropagation (lan truyền ngược). Đây là cách hiệu
quả để tính gradient khởi điểm từ output layer.
36
Áp dụng backpropagation ta có các đại lƣợng:
3.3 Các phƣơng pháp đánh giá một hệ thống phân lớp
Khi xây dựng một mô hình phân lớp, chúng ta cần một phƣơng pháp đánh
giá để xem mô hình sử dụng có hiệu quả không và để so sánh khả năng của các
mô hình. Trong phần này sẽ giới thiệu các phƣơng pháp đánh giá các mô hình
phân lớp.
Hiệu năng của một mô hình thƣờng đƣợc đánh giá dựa trên tập dữ liệu
kiểm thử (test data). Cụ thể, giả sử đầu ra của mô hình khi đầu vào là tập kiểm
thử đƣợc mô tả bởi vector y_pred - là vector dự đoán đầu ra với mỗi phần tử là
class đƣợc dự đoán của một điểm dữ liệu trong tập kiểm thử. Ta cần so sánh
giữa vector dự đoán y_pred này với vector class thật của dữ liệu, đƣợc mô tả bởi
vector y_true.
Ví dụ với bài toán có 3 lớp dữ liệu đƣợc gán nhãn là 0, 1, 2. Trong bài
toán thực tế, các class có thể có nhãn bất kỳ, không nhất thiết là số, và không
nhất thiết bắt đầu từ 0. Chúng ta hãy tạm giả sử các class đƣợc đánh số
từ 0 đến C-1 trong trƣờng hợp có C lớp dữ liệu. Có 10 điểm dữ liệu trong tập
kiểm thử với các nhãn thực sự đƣợc mô tả bởi y_true = [0, 0, 0, 0, 1, 1, 1, 2, 2,
2]. Giả sử bộ phân lớp chúng ta đang cần đánh giá dự đoán nhãn cho các điểm
này là y_pred = [0, 1, 0, 2, 1, 1, 0, 2, 1, 2].
Có rất nhiều cách đánh giá một mô hình phân lớp. Tuỳ vào những bài
toán khác nhau mà chúng ta sử dụng các phƣơng pháp khác nhau. Các phƣơng
pháp thƣờng đƣợc sử dụng là:
37
Độ chính xác – Accuracy score
Ma trận nhầm lẫn – Confusion matrix
Precision & Recall
F1 score
ROC curve
Top R error
3.3.1 Đánh giá theo độ chính xác Accuracy
Cách đơn giản và hay đƣợc sử dụng nhất là Accuracy (độ chính xác).
Cách đánh giá này đơn giản tính tỉ lệ giữa số điểm đƣợc dự đoán đúng và tổng
số điểm trong tập dữ liệu kiểm thử.
Trong ví dụ trên, ta có thể đếm đƣợc có 6 điểm dữ liệu đƣợc dự đoán
đúng trên tổng số 10 điểm. Vậy ta kết luận độ chính xác của mô hình là 0.6 (hay
60%). Để ý rằng đây là bài toán với chỉ 3 class, nên độ chính xác nhỏ nhất đã là
khoảng 1/3, khi tất cả các điểm đƣợc dự đoán là thuộc vào một class nào đó.
3.3.2 Ma trận nhầm lẫn
Ma trận nhầm lẫn là một trong những kỹ thuật đo lƣờng hiệu suất phổ
biến nhất và đƣợc sử dụng rộng rãi cho các mô hình phân loại.
Cách tính sử dụng độ chính xác Accuracy nhƣ ở trên chỉ cho chúng ta
biết đƣợc bao nhiêu phần trăm lƣợng dữ liệu đƣợc phân loại đúng mà không chỉ
ra đƣợc cụ thể mỗi loại đƣợc phân loại nhƣ thế nào, lớp nào đƣợc phân loại đúng
nhiều nhất, và dữ liệu thuộc lớp nào thƣờng bị phân loại nhầm vào lớp khác. Để
có thể đánh giá đƣợc các giá trị này, chúng ta sử dụng một ma trận đƣợc gọi là
confusion matrix.
Về cơ bản, confusion matrix thể hiện có bao nhiêu điểm dữ liệu thực
sự thuộc vào một class, và đƣợc dự đoán là rơi vào một class. Để hiểu rõ hơn,
hãy xem bảng dƣới đây:
38
Có tổng cộng 10 điểm dữ liệu. Chúng ta xét ma trận tạo bởi các giá trị tại
vùng 3x3 trung tâm của bảng.
Ma trận thu đƣợc đƣợc gọi là confusion matrix. Nó là một ma trận vuông
với kích thƣớc mỗi chiều bằng số lƣợng lớp dữ liệu. Giá trị tại hàng thứ i, cột
thứ j là số lƣợng điểm lẽ ra thuộc vào class i nhƣng lại đƣợc dự đoán là thuộc
vào class j. Nhƣ vậy, nhìn vào hàng thứ nhất (0), ta có thể thấy đƣợc rằng trong
số bốn điểm thực sự thuộc lớp 0, chỉ có hai điểm đƣợc phân loại đúng, hai điểm
còn lại bị phân loại nhầm vào lớp 1 và lớp 2.
Chúng ta có thể suy ra ngay rằng tổng các phần tử trong toàn ma trận này
chính là số điểm trong tập kiểm thử. Các phần tử trên đƣờng chéo của ma trận là
số điểm đƣợc phân loại đúng của mỗi lớp dữ liệu. Từ đây có thể suy
ra Accuracy chính bằng tổng các phần tử trên đƣờng chéo chia cho tổng các
phần tử của toàn ma trận
Cách biểu diễn trên đây của confusion matrix còn đƣợc gọi là
unnormalized confusion matrix, tức ma confusion matrix chƣa chuẩn hoá. Để có
cái nhìn rõ hơn, ta có thể dùng normalized confuion matrix, tức confusion matrix
đƣợc chuẩn hoá. Để có normalized confusion matrix, ta lấy mỗi hàng của
unnormalized confusion matrix sẽ đƣợc chia cho tổng các phần tử trên hàng đó.
Nhƣ vậy, ta có nhận xét rằng tổng các phần tử trên một hàng của normalized
confusion matrix luôn bằng 1. Điều này thƣờng không đúng trên mỗi cột.
39
Hình 7. Minh hoạ unnormalized confusion và normalized confusion matrix
Với các bài toán với nhiều lớp dữ liệu, cách biểu diễn bằng màu này rất
hữu ích. Các ô màu đậm thể hiện các giá trị cao. Một mô hình tốt sẽ cho một
confusion matrix có các phần tử trên đƣờng chéo chính có giá trị lớn, các phần
tử còn lại có giá trị nhỏ. Nói cách khác, khi biểu diễn bằng màu sắc, đƣờng chéo
có màu càng đậm so với phần còn lại sẽ càng tốt. Từ hai hình trên ta thấy rằng
confusion matrix đã chuẩn hoá mang nhiều thông tin hơn. Sự khác nhau đƣợc
thấy ở ô trên cùng bên trái. Lớp dữ liệu 0 đƣợc phân loại không thực sự tốt
nhƣng trong unnormalized confusion matrix, nó vẫn có màu đậm nhƣ hai ô còn
lại trên đƣờng chéo chính.
3.3.3 True/False Positive/Negative
Cách đánh giá này thƣờng đƣợc áp dụng cho các bài toán phân lớp có hai
lớp dữ liệu, trong hai lớp dữ liệu này có một lớp nghiêm trọng hơn lớp kia và
cần đƣợc dự đoán chính. Trong y khoa, còn đƣợc gọi là Dƣơng tính / Âm tính
Thật/Giả. Ví dụ, trong bài toán xác định có bệnh ung thƣ hay không thì việc
không bị sót (miss) quan trọng hơn là việc chẩn đoán nhầm âm tính thành dương
tính. Trong bài toán xác định có mìn dƣới lòng đất hay không thì việc bỏ sót
nghiêm trọng hơn việc báo động nhầm rất nhiều. Hay trong bài toán lọc email
rác thì việc cho nhầm email quan trọng vào thùng rác nghiêm trọng hơn việc xác
định một email rác là email thƣờng.
Trong những bài toán này, ngƣời ta thƣờng định nghĩa lớp dữ liệu quan
trọng hơn cần đƣợc xác định đúng là lớp Positive (P-dƣơng tính), lớp còn lại
đƣợc gọi là Negative (N-âm tính). Ta định nghĩa True Positive (TP), False
40
Positive (FP), True Negative (TN), False Negative (FN) dựa trên confusion
matrix chƣa chuẩn hoá nhƣ sau:
Ngƣời ta thƣờng quan tâm đến TPR, FNR, FPR, TNR (R - Rate) dựa
trên normalized confusion matrix nhƣ sau:
False Positive Rate còn đƣợc gọi là False Alarm Rate (tỉ lệ báo động
nhầm), False Negative Rate còn đƣợc gọi là Miss Detection Rate (tỉ lệ bỏ sót).
Trong bài toán dò mìn, thà báo nhầm còn hơn bỏ sót, tức là ta có thể chấp
nhận False Alarm Rate cao để đạt đƣợc Miss Detection Rate thấp.
Việc biết một cột của confusion matrix này sẽ suy ra đƣợc cột còn lại vì
tổng các hàng luôn bằng 1 và chỉ có hai lớp dữ liệu. Với các bài toán có nhiều
lớp dữ liệu, ta có thể xây dựng bảng True/False Positive/Negative cho mỗi
lớp nếu coi lớp đó là lớp Positive, các lớp còn lại gộp chung thành lớp Negative
3.3.4 Precision và Recall
Với bài toán phân loại mà tập dữ liệu của các lớp là chênh lệch nhau rất
nhiều, có một phép đo hiệu quả thƣờng đƣợc sử dụng là Precision-Recall.
Trƣớc hết xét bài toán phân loại nhị phân. Ta cũng coi một trong hai lớp
là positive, lớp còn lại là negative. Xem xét Hình dƣới đây:
41
Hình 8. Cách tính Precision và Recall
Với một cách xác định một lớp là positive, Precision đƣợc định nghĩa là tỉ
lệ số điểm true positive trong số những điểm đƣợc phân loại là positive (TP +
FP).
Recall đƣợc định nghĩa là tỉ lệ số điểm true positive trong số những
điểm thực sự là positive (TP + FN).
Một cách toán học, Precison và Recall là hai phân số có tử số bằng nhau
nhƣng mẫu số khác nhau:
Có thể nhận thấy rằng TPR và Recall là hai đại lƣợng bằng nhau. Ngoài
ra, cả Precision và Recall đều là các số không âm nhỏ hơn hoặc bằng một.
42
Precision cao đồng nghĩa với việc độ chính xác của các điểm tìm đƣợc là
cao. Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót các
điểm thực sự positive là thấp.
Khi Precision = 1, mọi điểm tìm đƣợc đều thực sự là positive, tức không
có điểm negative nào lẫn vào kết quả. Tuy nhiên, Precision = 1 không đảm bảo
mô hình là tốt, vì câu hỏi đặt ra là liệu mô hình đã tìm đƣợc tất cả các
điểm positive hay chƣa. Nếu một mô hình chỉ tìm đƣợc đúng một
điểm positive mà nó chắc chắn nhất thì ta không thể gọi nó là một mô hình tốt.
Khi Recall = 1, mọi điểm positive đều đƣợc tìm thấy. Tuy nhiên, đại
lƣợng này lại không đo liệu có bao nhiêu điểm negative bị lẫn trong đó. Nếu mô
hình phân loại mọi điểm là positive thì chắc chắn Recall = 1, tuy nhiên dễ nhận
ra đây là một mô hình cực tồi.
Một mô hình phân lớp tốt là mô hình có cả Precision và Recall đều cao,
tức càng gần một càng tốt. Có một cách đo chất lƣợng của bộ phân lớp dựa vào
Precision và Reall, đó là: F-score.
3.3.5 F1-Score
F score, hay F1-score, là số trung bình điều hòa (harmonic mean) của
precision và recall (giả sử rằng hai đại lƣợng này khác không):
F1 có giá trị nằm trong nửa khoảng (0,1]. F1 càng cao, bộ phân lớp càng
tốt. Khi cả recall và precision đều bằng 1 (tốt nhất có thể), F1=1. Khi cả recall
và precision đều thấp, ví dụ bằng 0.1, F1=0.1. Dƣới đây là một vài ví dụ về F1.
43
Nhƣ vậy, một bộ phân lớp với precision = recall = 0.5 tốt hơn một bộ
phân lớp khác với precision = 0.3, recall = 0.8 theo cách đo này.
Trƣờng hợp tổng quát:
F1 chính là một trƣờng hợp đặc biệt của Fβ khi β=1. Khi β>1, recall đƣợc
coi trọng hơn precision, khi β<1, precision đƣợc coi trọng hơn. Hai đại
lƣợng β thƣờng đƣợc sử dụng là β=2 và β=0.5.
44
CHƢƠNG 2: PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG TRẢ LỜI TỰ
ĐỘNG
Chƣơng này nghiên cứu lý thuyết cụ thể cho bài toán phân loại câu hỏi
Tiếng Việt, nghiên cứu các phƣơng pháp phân loại câu hỏi, các đặc trƣng của
ngôn ngữ khi tiến hành phân loại. Tìm hiểu các nghiên cứu trong bài toán phân
loại câu hỏi, các mô hình đã đƣợc nghiên cứu và xây dựng cũng nhƣ kết quả mới
nhất đạt đƣợc. Từ đó, định hƣớng mô hình ứng dụng cho phần thực nghiệm,
cũng nhƣ đề xuất đƣợc kiến trúc phân tích câu hỏi cho hệ thống trả lời tự động.
1 Vấn đề cơ bản của một hệ thống trả lời tự động
Các hệ thống hỏi đáp tự động hiện nay có kiến trúc rất đa dạng, tuy nhiên
chúng đều bao gồm ba phần cơ bản: Phân tích câu hỏi; Trích chọn tài liệu; Trích
xuất câu trả lời [3,10,11,18].
Hình 9. Các bước cơ bản trong hệ thống trả lời tự động
Sự khác nhau chính giữa các hệ thống là ở quá trình xử lý trong từng
bƣớc, đặc biệt là ở cách tiếp cận trong việc xác định câu trả lời, trong đó:
45
Bƣớc 1 - Phân tích câu hỏi: Tạo truy vấn cho bƣớc trích chọn tài liệu
liên quan và tìm ra những thông tin hữu ích cho bƣớc trích xuất câu trả lời
Bƣớc 2 - Trích chọn tài liệu: Bƣớc này sử dụng câu truy vấn đƣợc tạo ra
ở bƣớc phân tích câu hỏi để tìm các tài liệu liên quan đến câu hỏi.
Bƣớc 3 - Trích xuất câu trả lời: Bƣớc này phân tích tập tài liệu trả về từ
bƣớc 2 và sử dụng các thông tin hữu ích do bƣớc phân tích câu hỏi cung cấp để
đƣa ra câu trả lời chính xác nhất.
Cách tiếp cận theo trích chọn thông tin thuần túy (pure IR) là: chia nhỏ
một tài liệu trong tập dữ liệu thành chuỗi các tài liệu con, trích chọn các tài liệu
con có độ tƣơng đồng lớn nhất với câu truy vấn (do bƣớc phân tích câu hỏi tạo
ra) và trả lại chúng cho ngƣời dùng.Thách thức lớn nhất ở đây là làm sao chia
nhỏ đƣợc tài liệu thành các phần với kích cỡ tƣơng ứng với kích cỡ của câu trả
lời mà vẫn đủ lớn để có thể đánh chỉ mục đƣợc (nếu chia quá nhỏ thì số lƣợng
tài liệu để đánh chỉ mục sẽ rất lớn, gây gánh nặng cho hệ thống trích chọn thông
tin).
Cách tiếp cận theo xử lý ngôn ngữ tự nhiên (pure NLP) là: so khớp giữa
biểu diễn ngữ pháp và (hoặc) biểu diễn ngữ nghĩa của câu hỏi với dạng biểu diễn
ngữ pháp, ngữ nghĩa của các câu trong các tài liệu liên quan trả về. Khó khăn
của cách tiếp cận này là hệ thống phải thực hiện việc phân tích ngữ pháp, ngữ
nghĩa và so khớp đủ nhanh để đƣa ra câu trả lời trong thời gian chấp nhận đƣợc,
bởi số lƣợng các tài liệu cần xử lý là rất lớn trong khi các bƣớc phân tích trên lại
phức tạp và tốn nhiều thời gian.
Sự khác nhau trong cách trích xuất câu trả lời dẫn đến việc phân tích câu
hỏi cũng trở nên đa dạng. Trong hƣớng tiếp cận theo trích xuất thông tin thuần
túy, phân tích câu hỏi chỉ cần làm tốt việc tạo truy vấn, trong khi với hƣớng tiếp
cận theo xử lý ngôn ngữ tự nhiên, câu hỏi cần đƣợc phân tích ngữ pháp, ngữ
nghĩa một cách chính xác. Các hệ thống hiện nay thƣờng là sự kết hợp giữa hai
hƣớng tiếp cận, sử dụng hệ thống trích chọn thông tin để thu hẹp không gian tìm
kiếm câu trả lời, đồng thời phân tích câu hỏi để tìm ra các thông tin về ngữ pháp,
ngữ nghĩa nhằm tìm ra câu trả lời chính xác nhất.
Kết quả của bƣớc phân tích câu hỏi là đầu vào cho cả hai bƣớc trích chọn
tài liệu liên quan và trích xuất câu trả lời. Bƣớc phân tích câu hỏi có ý nghĩa rất
46
quan trọng, bởi nó ảnh hƣởng đến hoạt động của các bƣớc sau và do đó quyết
định đến hiệu quả của toàn hệ thống
2 Bài toán phân loại câu hỏi
2.1 Phát biểu bài toán
Theo định nghĩa chính thức của phân loại văn bản (Sebastiani 2002 và
Yang & Xiu 1999). Håkan Sundblad [6] đã đƣa ra một định nghĩa phân loại câu
hỏi nhƣ sau:
Định nghĩa: Phân loại câu hỏi là nhiệm vụ gán một giá trị kiểu boolean
cho mỗi cặp , trong đó Q là miền chứa các câu hỏi và
| | là tập các phân loại cho trước.
Cặp (qj,ci) đƣợc gán cho giá trị là T chỉ ra rằng c
Các file đính kèm theo tài liệu này:
- luan_van_phan_tich_cau_hoi_tieng_viet_trong_he_thong_don_tie.pdf