LỜI CẢM ƠN.i
LỜI CAM ĐOAN.ii
TÓM TẮT.iv
DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT .v
DANH SÁCH BẢNG.vi
DANH SÁCH HÌNH ẢNH .vii
Mở đầu.1
Chương 1. Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh .3
1.1 Học máy truyền thống .3
1.2. Học máy suốt đời.5
1.2.1 Định nghĩa học máy suốt đời.7
1.2.2. Các hướng nghiên cứu LL .12
1.3. Học máy thế giới mở .12
1.4. Mục tiêu của luận văn.15
Kết luận Chương 1.17
Chương 2. Học sâu thế giới mở cho văn bản .18
2.1. Học thế giới mở không gian đơn giản trung tâm.18
2.1.1 Tăng cường cập nhật mô hình học CBS .18
2.1.2 Kiểm tra mô hình học CBS.20
2.1.3 Học CBS cho phát hiện lớp chưa thấy.20
2.2. Học sâu thế giới mở phân lớp văn bản .21
2.2.1 CNN và các lớp chuyển tiếp của DOC .22
2.2.2 Tầng 1- với-phần còn lại.23
2.2.2 Giảm rủi ro không gian mở.23
Kết luận Chương 2.24
48 trang |
Chia sẻ: honganh20 | Lượt xem: 424 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Luận văn Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
̣i.
Việc chuyển sang nhiệm vụ mới có thể xảy ra đột ngột hoặc dần dần, và các nhiệm vụ và
dữ liệu của chúng không phải được cung cấp bởi một số hệ thống bên ngoài hoặc người
dùng. Một bộ học suốt đời lý tưởng có thể tự phát hiện ra các nhiệm vụ học và dữ liệu đào
tạo của riêng mình khi tương tác với con người và môi trường hoặc sử dụng kiến thức đã
học trước đó để thực hiện học trong thế giới mở và tự giám sát.
9
Từ định nghĩa trên, có thể thấy LL có năm đặc điểm chính sau [2]:
1. Học liên tục.
2. Tri thức được tích luỹ và lưu giữ trong KB.
3. Sử dụng tri thức tích lũy trong quá khứ để học trong tương lai
4. Có khả năng khám phá ra các nhiệm vụ mới
5. Có khả năng học trong khi làm việc hoặc học trong công việc.
Không có những khả năng này, một hệ thống ML sẽ không thể tự học trong môi
trường mở, luôn biến động; hệ quả là sẽ không bao giờ thực sự thông minh.
Vì kiến thức được tích lũy và sử dụng trong LL, do đó, LL có liên quan đến nhiều
khía cạnh khác của trí tuệ nhân tạo cho ML, ví dụ: biểu diễn tri thức, thu nhận, lập luận và
duy trì tri thức. Tri thức tích luỹ được không chỉ có thể giúp cải thiện việc học trong
tương lai, mà còn có thể giúp thu thập và gán nhãn dữ liệu huấn (tự giám sát) và khám
phá các nhiệm vụ mới có khả năng sẽ được học. Con người có khả năng tích hợp của cả
học dựa trên dữ liệu và học dựa trên tri thức. ML hiện tại tập trung gần như hoàn toàn vào
việc học tối ưu dựa trên dữ liệu, điều mà con người chúng ta không giỏi. Thay vào đó,
chúng ta rất giỏi học dựa trên tri thức trước đây của chúng ta. Chúng ta càng biết nhiều thì
chúng ta học càng dễ hơn.
LL có thể yêu cầu một cách tiếp cận có hệ thống kết hợp nhiều thuật toán học và các
sơ đồ biểu diễn tri thức khác nhau. Một thuật toán học duy nhất có thể không đạt được
mục tiêu của LL. Trên thực tế, LL đại diện cho một không gian vấn đề rất lớn và phong
phú. Kiến trúc hệ thống LL được thể hiện trong Hình 1.2. Không phải tất cả các hệ thống
LL hiện có đều sử dụng tất cả các thành phần như trong hình. Trong thực tế, hầu hết các
hệ thống hiện tại đơn giản hơn nhiều. Hơn nữa, vẫn chưa có một hệ thống LL chung có
thể thực hiện LL trong tất cả các miền có thể, cho tất cả các loại nhiệm vụ có thể. Trong
thực tế, chúng ta vẫn còn ở rất xa điều đó.
10
Hình 1.2. Kiến trúc tổng quan của hệ thống học suốt đời [2].
Một hệ thống LL điển hình sẽ có các thành phần cơ bản sau [2]:
- Hệ cơ sở tri thức (KB): Chủ yếu để lưu trữ tri thức đã học trước đó. Nó có một vài
thành phần phụ:
Kho thông tin quá khứ (PIS): lưu trữ thông tin kết quả từ quá trình học trước
đây, bao gồm các mô hình kết quả, mô hình hoặc các dạng kết quả khác. PIS
có thể chứa các thông tin liên quan như: (1) dữ liệu gốc được sử dụng trong
mỗi nhiệm vụ trước, (2) kết quả trung gian từ mỗi nhiệm vụ trước và (3) mô
hình cuối cùng hoặc các mẫu được học từ mỗi nhiệm vụ trước.
Công cụ khai thác kiến thức tổng hợp (MKM): thực hiện khai thác siêu kiến
thức trong PIS và trong kho siêu tri thức (xem bên dưới).
Kho siêu kiến thức (MKS): lưu trữ kiến thức được khai thác hoặc tích hợp từ
PIS và cũng như từ chính MKS.
Bộ lập luận trên tri thức (KR): suy luận dựa trên tri thức trong MKB và PIS để
tạo thêm tri thức mới. Hầu hết các hệ thống hiện tại không có thành phần phụ
này. Tuy nhiên, với sự tiến bộ của LL, thành phần này sẽ ngày càng trở nên
quan trọng.
11
- Bộ học dựa trên tri thức (KBL): Đối với LL, bộ học cần có khả năng sử dụng tri
thức tích luỹ được khi học. Một bộ học như vậy là bộ học dựa trên tri thức, có thể
tận dụng tri thức trong KB để học nhiệm vụ mới. Thành phần này có thể có hai
thành phần phụ:
Công cụ khai phá tri thức nhiệm vụ (TKM), sử dụng thông tin hoặc thông tin thô
trong KB để khai thác hoặc xác định kiến thức phù hợp với nhiệm vụ hiện tại.
Điều này là cần thiết bởi vì trong một số trường hợp, KBL không thể sử dụng
trực tiếp kiến thức thô trong KB mà cần một số kiến thức cụ thể và cụ thể hơn
được khai thác từ KB.
Bộ học có thể tận dụng kiến thức khai thác trong quá trình học.
- Công cụ khai thác kiến thức dựa trên nhiệm vụ (TKM): Mô-đun này khai thác
kiến thức từ KB đặc biệt cho nhiệm vụ mới
- Mô hình: Đây là các mô hình đã học, có thể là mô hình dự đoán hoặc phân loại
trong học tập được giám sát, các cụm hoặc chủ đề trong học tập không giám sát, một
chính sách trong học tập củng cố, v.v.
- Ứng dụng: Đây là ứng dụng của mô hình trong thế giới thực. Điều quan trọng cần
lưu ý là trong quá trình áp dụng mô hình, hệ thống vẫn có thể học kiến thức mới (tức
là, kiến thức về các kết quả, và có thể khám phá các nhiệm vụ mới sẽ được học. Ứng
dụng cũng có thể cung cấp phản hồi cho người học dựa trên kiến thức để cải tiến mô
hình.
- Trình quản lý tác vụ (TM): Nó nhận và quản lý các tác vụ đến trong hệ thống, xử
lý sự thay đổi nhiệm vụ và trình bày nhiệm vụ học tập mới cho KBL theo cách trọn
đời.
- Quy trình học tập suốt đời: Một quy trình LL điển hình bắt đầu bằng Trình quản lý
tác vụ gán một nhiệm vụ mới cho KBL (nhiệm vụ có thể được đưa ra hoặc tự động
phát hiện). KBL sau đó hoạt động với sự trợ giúp của kiến thức trong quá khứ được
lưu trữ trong KB để tạo ra một mô hình đầu ra cho người dùng và cũng gửi thông tin
hoặc kiến thức cần được giữ lại để sử dụng trong tương lai cho KB. Trong quá trình
ứng dụng, hệ thống cũng có thể khám phá các nhiệm vụ mới và học trong khi làm
việc (học trong công việc). Một số kiến thức thu được trong các ứng dụng cũng có
thể được giữ lại để giúp học tập trong tương lai.
12
1.2.2. Các hướng nghiên cứu LL
Học có giám sát suốt đời: Một số kỹ thuật LL đã được đề xuất dựa trên mạng nơ
ron, Naïve Bayesian, mô hình trường ngẫu nhiên có điều kiện (CRF).
Học liên tục sử dụng các mạng nơ ron sâu: Trong vài năm qua, do sự phổ biến của
học sâu, nhiều nhà nghiên cứu đã nghiên cứu vấn đề liên tục học một chuỗi các nhiệm vụ
sử dụng kỹ thuật học sâu. Trong cộng đồng nghiên cứu học sâu thì LL cũng được gọi là
học liên tục. Mục tiêu của nó xây dựng mạng nơ ron sâu có khả năng học thêm từng
nhiệm vụ mới mà không quên đi các mô hình đã học cho các nhiệm vụ trước.
Học thế giới mở: Học có giám sát truyền thống đòi hỏi giả định thế giới đóng phải
đúng: các lớp của các dữ liệu mới phải được nhìn thấy trong quá trình học/huấn luyện [6].
Điều này không phù hợp để học trong các môi trường mở và biến động với những lớp
mới luôn xuất hiện.
Học không giám sát suốt đời: Các nghiên cứu trong hướng này chủ yếu là về mô
hình hoá chủ đề suốt đời và trích chọn thông tin suốt đời. Các kỹ thuật này đều dựa trên
khai thác cấp độ meta, tức là khai thác kiến thức được chia sẻ qua các tác vụ.
Học bán giám sát suốt đời: Nghiên cứu điển hình trong hướng này là hệ thống hệ
thống NELL (Bộ học ngôn ngữ không ngừng). Nó đã đọc nội dung trên Internet liên tục
từ tháng 1 năm 2010 để khai thác thông tin, và đã tích lũy được hàng triệu thực thể và
quan hệ giữa chúng.
Học tăng cường suốt đời: Hướng nghiên cứu này tập trung xây dựng các tác nhân
(agent) học liên tục có khả năng giải quyết dần các nhiệm vụ phức tạp bằng cách học giải
quyết các nhiệm vụ dễ dàng trước tiên.
1.3. Học máy thế giới mở
Do thế giới thực có tính chất mở, luôn có biến động chúng ta cần xây dựng mô hình
có thể nhận ra các lớp mới. Học máy có giám sát thế giới mở nhằm xây dựng các bộ phân
lớp có khả năng nhận ra các lớp đã biết và các lớp chưa từng thấy. Điều này trái ngược
với học máy có giám sát thế giới đóng.
Hiện nay công nghệ đang phát triển theo hướng trợ lý ảo cá nhân hóa một cách
thông minh, xe tự lái, các robot làm việc trong môi trường mở và tương tác với con người,
13
v.v. Việc xây dựng bộ phân lớp trong thế giới mở đang trở nên rất quan trọng. Lấy ví dụ:
ứng dụng đầu tiên về trợ lý cá nhân hóa thông minh (như Amazon Alexa, Google
Assistant và Microsoft Cortana, v.v.) sử dụng những bài viết của người dùng để phân lớp
ý định người dùng và miền ứng dụng (ví dụ: Alexa’s skills, Google’s actions và Cortana’s
skills), từ đó cũng phát hiện ra các bài viết không thuộc vào một trong những lớp ý định
và miền đã biết. Hầu hết các giải pháp hiện có cho học thế giới mở được xây dựng dựa
trên các mô hình phân lớp thế giới đóng. Thêm nữa, các mô hình này rất khó có thể phát
hiện các lớp mới (chưa thấy) vào tập các lớp đã thấy mà không cần học lại hoặc học tăng
cường. Ví dụ: Alexa cho phép các nhà phát triển bên thứ 3 thêm các kỹ năng mới (ứng
dụng mới), tức là các miền mới hoặc các lớp mục đích mới. Điều này đặt ra một thách
thức lớn đối với việc duy trì triển khai mô hình và dữ liệu đào tạo cho các lớp mới.
Xây dựng một mô hình có khả năng phân loại dữ liệu trong tập test vào một trong
những lớp đã biết hoặc bác bỏ nó (dữ liệu đó không thuộc về bất kỳ lớp nào trong tập
huấn luyện, hay thuộc lớp chưa được thấy). Nói cách khác, xây dựng 1 bộ phân lớp f(x)
cho (m + 1) lớp thuộc tập C = {l1, l2, , lm, rejection}. Học máy thế giới mở được định
nghĩa như sau [1, 5].
1. Tại một thời điểm nào đó, bộ học đã xây dựng được một mô hình phân lớp FN dựa
trên N lớp từ tập dữ liệu huấn luyện trước đây: Dp = {D1, D2, , DN} với các lớp
tương ứng YN = {l1, l2, , lN}. FN có khả năng phân loại một đối tượng dữ liệu vào
một trong các lớp li thuộc YN hoặc bác bỏ nó và để nó vào tập bị bác bỏ R.
2. Bộ phân loại hoặc người dùng sẽ xác định tập các lớp chưa xuất hiện C trong R và
thu thập dữ liệu huấn luyện cho các lớp chưa xuất hiện này.
3. Giả sử rằng có k lớp mới trong C có đủ dữ liệu huấn luyện. Bộ học sẽ học tăng dần
cho k lớp này dựa trên dữ liệu học của chúng. Mô hình FN hiện có được cập nhật để
tạo thành mô hình FN+k mới.
Học thế giới mở là một hình thức học suốt đời (LL) vì nó phù hợp với định nghĩa
của LL. Cụ thể, nhiệm vụ học mới TN+1 là để xây dựng một bộ phân lớp mở đa lớp dựa
trên tất cả dữ liệu quá khứ và hiện tại các lớp đã được học. Hệ cơ sở tri thức (KB) chứa
mô hình quá khứ FN và tất cả tập dữ liệu huấn luyện trong quá khứ [2].
Lưu ý rằng nhiệm vụ thứ ba của việc học tăng dần các lớp mới ở đây khác với việc
học lớp tăng dần truyền thống (ICL) được nghiên cứu ở các miền khác nhau vì ICL truyền
14
thống vẫn học trong thế giới khép kín (nghĩa là nó không thực hiện việc bác bỏ lớp chưa
xuất hiện) mặc dù nó có thể thêm các lớp mới tăng dần vào hệ thống phân loại mà không
cần học lại từ đầu toàn bộ mô hình.
Ví dụ, chúng ta muốn xây dựng một robot chào mừng cho một khách sạn. Tại bất kỳ
thời điểm nào, robot đã học cách nhận ra tất cả khách hiện tại của khách sạn. Khi thấy
một vị khách cũ nó có thể gọi tên và trò chuyện với anh ấy/cô ấy. Đồng thời, nó cũng phải
phát hiện bất kỳ vị khách mới nào mà nó chưa từng thấy trước đây. Khi nhìn thấy một vị
khách mới, nó có thể nói xin chào, hỏi tên của khách, chụp một số ảnh và học cách nhận
ra vị khách đó. Lần sau khi gặp lại người đó, nó có thể gọi tên của anh ấy/cô ấy và trò
chuyện như một người bạn cũ. Kịch bản trong xe tự lái cũng tương tự vì rất khó, nếu
không muốn nói là không thể huấn luyện một hệ thống có khả năng nhận ra mọi vật thể
có thể xuất hiện trên đường. Hệ thống phải nhận ra các vật thể mà nó chưa học trước đó
và học chúng trong khi lái xe (có thể thông qua tương tác với hành khách của con người)
để khi nhìn thấy các vật thể lần sau, nó sẽ không gặp vấn đề gì khi nhận ra chúng.
Fei và cộng sự [5] đã đưa ra một ví dụ khác trong phân loại văn bản. Cuộc bầu cử
tổng thống năm 2016 tại Hoa Kỳ là một chủ đề nóng trên phương tiện truyền thông xã hội
và nhiều nhà nghiên cứu khoa học xã hội đã dựa vào các cuộc thảo luận được thu thập để
thực hiện nghiên cứu của họ. Trong chiến dịch, mọi đề xuất mới của một ứng cử viên sẽ
được thảo luận sôi nổi trên phương tiện truyền thông xã hội. Bộ phân loại được xây dựng
ban đầu chắc chắn sẽ gặp các chủ đề mới (ví dụ, kế hoạch cải cách nhập cư của Donald
Trump, hoặc đề xuất tăng thuế của Hillary Clinton), những chủ đề đã không xuất hiện
trong quá trình huấn luyện mô hình trước đó. Trong trường hợp này, trước tiên bộ phân
loại nên nhận ra các chủ đề mới này thay vì phân loại chúng vào một số chủ đề hiện có.
Thứ hai, sau khi thu thập đủ các ví dụ huấn luyện cho các chủ đề mới, bộ phân loại hiện
có nên kết hợp các chủ đề mới một cách tăng dần mà không cần phải huấn luyện lại toàn
bộ hệ thống phân loại từ đầu.
Bendale và Boult [1] đã cố gắng giải quyết vấn đề học thế giới mở để phân loại ảnh.
Phương pháp của nó được gọi là Phương pháp không ngoại lai gần nhất (Nearest Non-
Outlier, NNO), được phát triển từ phương pháp Trung bình lớp gần nhất (Nearest Class
Mean) do Mensink và cộng sự đề xuất. Trong NNO, mỗi ảnh được biểu diễn dưới dạng
một vectơ đặc trưng và mỗi lớp được biểu diễn bằng vector trung bình của các vectơ đặc
15
trưng của tất cả các ảnh trong lớp đó. Khi kiểm tra mô hình, vectơ đặc trưng của ảnh kiểm
tra được so sánh với từng vector trung bình của mỗi một lớp và phân ảnh vào lớp có
vector trung bình gần nhất. NNO thêm tính năng bác bỏ lớp mới vào mô hình chỉ đơn
giản bằng cách thêm vector trung bình của lớp mới vào tập vector của lớp hiện có. Năng
lực bác bỏ của NNO đã được cải thiện trong OpenMax [1]. OpenMax, dựa trên học sâu,
thay tầng phân loại softmax truyền thống bằng một tầng mới, gọi là tầng OpenMax, (từ đó
cho phép bác bỏ) để ước lượng xác suất dữ liệu đầu vào là từ một lớp chưa nhìn thấy. Tuy
nhiên, việc huấn luyện OpenMax cần các dữ liệu ví dụ cho một số lớp chưa nhìn thấy
(không nhất thiết là các lớp trong tập dữ liệu kiểm tra) để tinh chỉnh các tham số. Shu và
cộng sự [13] đã giới thiệu mô hình DOC, dựa trên tư tưởng của OpenMax, được chứng tỏ
là vượt trội hơn OpenMax cho cả phân loại mở cả văn bản lẫn ảnh mà không yêu cầu bất
kỳ dữ liệu ví dụ huấn luyện nào cho lớp chưa nhìn thấy.
Trong miền ứng dụng xử lý dữ liệu y văn, các tên thực thể y sinh (thuốc, bệnh, gien,
protein, v.v) cần được phân vào các khái niệm y sinh được lưu trữ trong một, hoặc nhiều
bộ CSDL từ vựng chuẩn cho trước. Quá trình này được gọi là quá trình chuẩn hoá tên
thực thể y sinh. Trong thực tế, nhiều trường hợp các tên thực thể y sinh được nhắc đến
trong các tài liệu là mới, chưa được lưu trữ trong các CSDL từ vựng cho trước. Có nhiều
hệ thống chuẩn hóa tên thực thể y sinh khác nhau đã được phát triển trong thập kỷ qua.
Tuy vậy, theo hiểu biết của tôi, đến thời điểm hiện tại tất cả các phương pháp này đều
không phải là học thế giới mở, dẫn đến việc các tên mới đều phải được phân vào ít nhất 1
khái niệm trong CSDL từ vựng cho trước. Vì những lý do trên, luận văn này sẽ tập trung
nghiên cứu ứng dụng học thế giới mở vào bài toán chuẩn hoá tên thực thể bệnh (gọi tắt là
tên bệnh), là một thực thể y sinh quan trọng, nhận được nhiều quan tâm nghiên cứu của
cộng đồng nghiên cứu y-sinh.
1.4. Mục tiêu của luận văn
Có thể thấy rằng, cơ sở dữ liệu tri thức tích luỹ được là hết sức quan trọng, và thiết
yếu đối với học suốt đời. Các tri thức được lưu trữ dưới định dạnh có cấu trúc, có thể “đọc”
được bởi máy tính, từ đó có thể thực hiện các phép suy diễn. Tuy nhiên, lúc đầu các tri
thức lại thường được thể hiện dưới dạng văn bản phi cấu trúc, do con người viết ra và chỉ
con người mới hiểu được. Các tri thức thường là mối quan hệ giữa các đối tượng, hiện
tượng nào đó. Việc trích xuất tự động tri thức được viết trong văn bản đang ngày trở nên
16
quan trọng và cấp thiết, đặc biệt là khi số lượng văn bản trong các lĩnh vực chuyên ngành
đang liên tục được tạo ra với một tốc độ chóng mặt.
Về cơ bản, bài toán trích xuất tri thức (dưới dạng quan hệ) trong văn bản bao gồm ba
bước chính: phát hiện đối tượng/thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ
giữa các thực thể. Luận văn do đó sẽ tập trung nghiên cứu ứng dụng mô hình DOC vào
pha có nhiều khả năng có cái mới chưa được thấy, đó là chuẩn hoá thực thể tên (tên mới).
Đặc biệt, với bài toán chuẩn hoá thực thể tên, luận văn sẽ chọn tên bệnh trong miền văn
bản y sinh, là một miền ứng dụng có nhiều ý nghĩa và đầy thách thức.
Phát hiện và chuẩn hóa thực thể y sinh đang ngày càng trở nên rất quan trọng cho
việc khám phá ra các quan hệ mới, quan trọng giữa các hóa chất/thuốc và các bệnh không
xuất hiện cùng nhau trong cùng một bài báo y văn được xuất bản [2].Bài toán chuẩn hóa
tên bệnh là một trong những bài toán chuẩn hóa thực thể y sinh quan trọng, đầy thách
thức, có đầu vào và đầu ra như sau:
Đầu vào:
Tập nhãn/lớp: Một bộ từ vựng được xây dựng sẵn V chứa các khái niệm
bệnh (định danh tên bệnh, cùng với các tên đồng nghĩa của nó).
Dữ liệu huấn luyện: Một tập các tên bệnh (disease mention) đã được gán
định danh khái niệm bệnh trong V.
Tập các tên bệnh chưa được gán định danh D
Đầu ra:
Mô hình có khả năng gán (hoặc bác bỏ) định danh khái niệm bệnh trong V
cho các tên thuốc trong D (Xem ví dụ Bảng 1.1).
Input Output
lidocaine D008012
depression D003866
bradyarrhythmias Unknown
Bảng 1.1 - Một ví dụ về bài toán chuẩn hoá tên bệnh.
17
Kết luận Chương 1
Chương này đã trình bày một giới thiệu tổng quát về mô hình ML cổ điển và những thiếu
sót của nó, sau đó là về Học suốt đời (LL) và học thế giới mở (OpenWorld ML, một dạng
học máy suốt đời). Học máy suốt đời là một hướng đi mới nổi tất yếu và đầy hứa hẹn để
khắc phục những thiếu sót của học máy truyền thống, với mục tiêu cuối cùng là xây dựng
những cỗ máy học hỏi như con người. Tầm quan trọng của hệ cơ sở dữ liệu tri thức (KB)
đối với học suốt đời đã được chỉ ra. Cuối cùng mục tiêu của luận văn cũng đã được giới
thiệu, đó là ứng dụng mô hình học thế giới mở cho bước quan trọng trong việc trích xuất
tự động tri thức từ văn bản y sinh, đó là chuẩn hóa thực thể tên. Đây là bước có sự xuất
hiện của đối tượng mới chưa xuất hiện lúc học, đặc biệt là trong lĩnh vực y sinh, ví dụ: tên
bệnh mới. Tầm quan trọng và thách thức của việc giải quyết bài toán này đối với lĩnh vực
y sinh cũng được đề cập. Chương 2 sẽ giới thiệu sâu về học thế giới mở dựa trên kỹ thuật
học sâu.
18
Chương 2. Học sâu thế giới mở cho văn bản
2.1. Học thế giới mở không gian đơn giản trung tâm
G. Fei và cộng sự [5] đã giới thiệu một mô hình phân lớp thế giới mở dựa trên
phương pháp học không gian tương tự dựa trên trung tâm (được gọi là học CBS Center-
Based Similarity (CBS) Learning). Nó có khả năng phân loại các dữ liệu vào các lớp đã
biết/đã thấy, hoặc bác bỏ để đưa vào lớp chưa biết.
2.1.1 Tăng cường cập nhật mô hình học CBS
Con người được tiếp xúc với các khái niệm mới mọi lúc. Một cách chúng ta học một
khái niệm mới là tìm kiếm từ các khái niệm đã biết để tìm ra các khái niệm tương tự với
khái niệm mới, và sau đó cố gắng tìm ra sự khác biệt giữa các khái niệm đã biết và khái
niệm mới mà không cần sử dụng tất cả các khái niệm đã biết. Ví dụ, giả sử chúng ta đã
học được các khái niệm như “phim truyện”, “đồ nội thất”, “bóng đá”. Giả sử bây giờ
chúng ta cần tìm hiểu khái niệm “bóng rổ” từ bộ tài liệu về nó. Chúng ta sẽ nhận ra rằng
“bóng rổ” giống với “bóng đá” và rất khác với “phim truyện” và “đồ nội thất”. Do đó,
chúng ta chỉ cần tập trung vào sự khác nhau giữa “bóng rổ” với “bóng đá” mà không cần
quan tâm đến nó với “phim truyện” và “đồ nội thất”.
G. Fei và cộng sự [5] sử dụng chiến lược 1-so-với-phần-còn-lại (one-vs.-rest) của
SVM để học tăng cường của nhiều lớp (hoặc khái niệm) (xem Thuật toán 2.1). Trước khi
lớp mới CN+1 xuất hiện, hệ thống học đã xây dựng được mô hình phân lớp FN, bao gồm N
bộ phân loại nhị phân 1-so-với-phần-còn-lại FN= {f1, f2,, fN} cho N lớp trước đây, các
lớp sử dụng tập huấn luyện Dp = {D1; D2;; DN} với các nhãn lớp tương ứng YN = {l1; l2;
; lN}. Mỗi fi là một mô hình phân lớp nhị phân được xây dựng bằng phương pháp học
CBS để xác định các đối tượng dữ liệu thuộc về lớp li. Khi có một bộ dữ liệu mới DN+1
cho lớp lN+1, hệ thống sẽ thực hiện hai bước sau để cập nhật mô hình phân lớp FN thành
mô hình FN+1 mới có khả năng phân loại dữ liệu kiểm tra hoặc dữ liệu của của các lớp
trong tập YN+1 = {l1; l2;; lN; lN+1} và phát hiện ra bất kỳ lớp C0 nào chưa được thấy.
1. Tìm kiếm một tập các lớp SC tương tự như lớp mới lN+1.
2. Học cách tách lớp mới lN+1 và các lớp đã xuất hiện từ trước trong SC.
19
Trong bước 1, sự giống nhau giữa lớp mới lN+1 và các lớp trước l1; l2; ; lN được
tính bằng cách chạy từng bộ phân loại nhị phân 1 so với phần còn lại trong FN = {f1; f2;
; fN} để phân loại các dữ liệu trong DN+1. Các lớp của các bộ phân lớp nhị phân hiện có
mà chấp nhận (phân loại là lớp dương) một số/phần trăm nhất định λsim của các dữ liệu
trong tập DN+1 được xem là các lớp tương tự SC. λsim là ngưỡng kiểm soát số phần trăm
các dữ liệu trong DN+1 nên được phân loại vào lớp li trước khi xem xét li gần với lớp lN+1.
Bước 2 tách lớp mới lN+1 và các lớp trong SC bao gồm hai bước phụ: (1) xây dựng
trình phân loại nhị phân mới fN+1 cho lớp mới lN+1; (2) cập nhật các bộ phân loại hiện có
cho các lớp trong SC. fN+1 được huấn luyện bằng cách sử dụng DN+1 như là ví dụ huấn
luyện dương và dữ liệu cho các lớp trong SC làm dữ liệu huấn luyện âm. Lý do để cập
nhật các bộ phân loại trong SC là việc bổ sung lN+1 gây ra nhầm lẫn cho các bộ phân loại
trong SC. Để xây dựng lại từng bộ phân loại, hệ thống cần sử dụng tập dữ liệu ví dụ âm
hiện có (đã được sử dụng khi xây dựng bộ phân lớp fi) cộng với dữ liệu mới trong DN+1
làm dữ liệu ví dụ huấn luyện âm mới. Lý do mà dữ liệu ví dụ huấn luyện âm cũ vẫn được
sử dụng là do bộ phân loại mới vẫn cần phân biệt lớp li với các lớp cũ.
Tóm lại, quá trình học sử dụng tập SC của các lớp tương tự với lớp mới lN+1 để kiểm
soát cả số lượng bộ phân loại nhị phân cần được xây dựng/cập nhật lại lẫn cả số lượng các
dữ liệu ví dụ huấn luyện âm được sử dụng trong việc xây dựng bộ phân loại mới fN+1.
Điều này cải thiện đáng kể hiệu quả so với việc phải xây dựng lại một bộ phân loại đa lớp
mới FN+1 từ đầu.
Thuật toán 2.1. Học tăng dần các lớp CBS
*Đầu vào: Mô hình phân lớp FN= {f1, f2,, fN}, tập các dữ liệu trong quá khứ Dp = {D1; D2;; DN}, tập dữ
liệu mới DN+1 và ngưỡng tương tự λsim
*Đầu ra: Mô hình phân lớp FN+1= {f1, f2,, fN, fN+1 }.
20
2.1.2 Kiểm tra mô hình học CBS
Để kiểm tra mô hình phân lớp mới F
Các file đính kèm theo tài liệu này:
- luan_van_phan_tich_du_lieu_van_ban_dua_tren_hoc_may_the_gioi.pdf