Luận văn Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

LỜI CẢM ƠN.i

LỜI CAM ĐOAN.ii

TÓM TẮT.iv

DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT .v

DANH SÁCH BẢNG.vi

DANH SÁCH HÌNH ẢNH .vii

Mở đầu.1

Chương 1. Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh .3

1.1 Học máy truyền thống .3

1.2. Học máy suốt đời.5

1.2.1 Định nghĩa học máy suốt đời.7

1.2.2. Các hướng nghiên cứu LL .12

1.3. Học máy thế giới mở .12

1.4. Mục tiêu của luận văn.15

Kết luận Chương 1.17

Chương 2. Học sâu thế giới mở cho văn bản .18

2.1. Học thế giới mở không gian đơn giản trung tâm.18

2.1.1 Tăng cường cập nhật mô hình học CBS .18

2.1.2 Kiểm tra mô hình học CBS.20

2.1.3 Học CBS cho phát hiện lớp chưa thấy.20

2.2. Học sâu thế giới mở phân lớp văn bản .21

2.2.1 CNN và các lớp chuyển tiếp của DOC .22

2.2.2 Tầng 1- với-phần còn lại.23

2.2.2 Giảm rủi ro không gian mở.23

Kết luận Chương 2.24

48 trang | Chia sẻ: honganh20 | Lượt xem: 639 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Luận văn Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

̣i. Việc chuyển sang nhiệm vụ mới có thể xảy ra đột ngột hoặc dần dần, và các nhiệm vụ và dữ liệu của chúng không phải được cung cấp bởi một số hệ thống bên ngoài hoặc người dùng. Một bộ học suốt đời lý tưởng có thể tự phát hiện ra các nhiệm vụ học và dữ liệu đào tạo của riêng mình khi tương tác với con người và môi trường hoặc sử dụng kiến thức đã học trước đó để thực hiện học trong thế giới mở và tự giám sát. 9 Từ định nghĩa trên, có thể thấy LL có năm đặc điểm chính sau [2]: 1. Học liên tục. 2. Tri thức được tích luỹ và lưu giữ trong KB. 3. Sử dụng tri thức tích lũy trong quá khứ để học trong tương lai 4. Có khả năng khám phá ra các nhiệm vụ mới 5. Có khả năng học trong khi làm việc hoặc học trong công việc. Không có những khả năng này, một hệ thống ML sẽ không thể tự học trong môi trường mở, luôn biến động; hệ quả là sẽ không bao giờ thực sự thông minh. Vì kiến thức được tích lũy và sử dụng trong LL, do đó, LL có liên quan đến nhiều khía cạnh khác của trí tuệ nhân tạo cho ML, ví dụ: biểu diễn tri thức, thu nhận, lập luận và duy trì tri thức. Tri thức tích luỹ được không chỉ có thể giúp cải thiện việc học trong tương lai, mà còn có thể giúp thu thập và gán nhãn dữ liệu huấn (tự giám sát) và khám phá các nhiệm vụ mới có khả năng sẽ được học. Con người có khả năng tích hợp của cả học dựa trên dữ liệu và học dựa trên tri thức. ML hiện tại tập trung gần như hoàn toàn vào việc học tối ưu dựa trên dữ liệu, điều mà con người chúng ta không giỏi. Thay vào đó, chúng ta rất giỏi học dựa trên tri thức trước đây của chúng ta. Chúng ta càng biết nhiều thì chúng ta học càng dễ hơn. LL có thể yêu cầu một cách tiếp cận có hệ thống kết hợp nhiều thuật toán học và các sơ đồ biểu diễn tri thức khác nhau. Một thuật toán học duy nhất có thể không đạt được mục tiêu của LL. Trên thực tế, LL đại diện cho một không gian vấn đề rất lớn và phong phú. Kiến trúc hệ thống LL được thể hiện trong Hình 1.2. Không phải tất cả các hệ thống LL hiện có đều sử dụng tất cả các thành phần như trong hình. Trong thực tế, hầu hết các hệ thống hiện tại đơn giản hơn nhiều. Hơn nữa, vẫn chưa có một hệ thống LL chung có thể thực hiện LL trong tất cả các miền có thể, cho tất cả các loại nhiệm vụ có thể. Trong thực tế, chúng ta vẫn còn ở rất xa điều đó. 10 Hình 1.2. Kiến trúc tổng quan của hệ thống học suốt đời [2]. Một hệ thống LL điển hình sẽ có các thành phần cơ bản sau [2]: - Hệ cơ sở tri thức (KB): Chủ yếu để lưu trữ tri thức đã học trước đó. Nó có một vài thành phần phụ:  Kho thông tin quá khứ (PIS): lưu trữ thông tin kết quả từ quá trình học trước đây, bao gồm các mô hình kết quả, mô hình hoặc các dạng kết quả khác. PIS có thể chứa các thông tin liên quan như: (1) dữ liệu gốc được sử dụng trong mỗi nhiệm vụ trước, (2) kết quả trung gian từ mỗi nhiệm vụ trước và (3) mô hình cuối cùng hoặc các mẫu được học từ mỗi nhiệm vụ trước.  Công cụ khai thác kiến thức tổng hợp (MKM): thực hiện khai thác siêu kiến thức trong PIS và trong kho siêu tri thức (xem bên dưới).  Kho siêu kiến thức (MKS): lưu trữ kiến thức được khai thác hoặc tích hợp từ PIS và cũng như từ chính MKS.  Bộ lập luận trên tri thức (KR): suy luận dựa trên tri thức trong MKB và PIS để tạo thêm tri thức mới. Hầu hết các hệ thống hiện tại không có thành phần phụ này. Tuy nhiên, với sự tiến bộ của LL, thành phần này sẽ ngày càng trở nên quan trọng. 11 - Bộ học dựa trên tri thức (KBL): Đối với LL, bộ học cần có khả năng sử dụng tri thức tích luỹ được khi học. Một bộ học như vậy là bộ học dựa trên tri thức, có thể tận dụng tri thức trong KB để học nhiệm vụ mới. Thành phần này có thể có hai thành phần phụ:  Công cụ khai phá tri thức nhiệm vụ (TKM), sử dụng thông tin hoặc thông tin thô trong KB để khai thác hoặc xác định kiến thức phù hợp với nhiệm vụ hiện tại. Điều này là cần thiết bởi vì trong một số trường hợp, KBL không thể sử dụng trực tiếp kiến thức thô trong KB mà cần một số kiến thức cụ thể và cụ thể hơn được khai thác từ KB.  Bộ học có thể tận dụng kiến thức khai thác trong quá trình học. - Công cụ khai thác kiến thức dựa trên nhiệm vụ (TKM): Mô-đun này khai thác kiến thức từ KB đặc biệt cho nhiệm vụ mới - Mô hình: Đây là các mô hình đã học, có thể là mô hình dự đoán hoặc phân loại trong học tập được giám sát, các cụm hoặc chủ đề trong học tập không giám sát, một chính sách trong học tập củng cố, v.v. - Ứng dụng: Đây là ứng dụng của mô hình trong thế giới thực. Điều quan trọng cần lưu ý là trong quá trình áp dụng mô hình, hệ thống vẫn có thể học kiến thức mới (tức là, kiến thức về các kết quả, và có thể khám phá các nhiệm vụ mới sẽ được học. Ứng dụng cũng có thể cung cấp phản hồi cho người học dựa trên kiến thức để cải tiến mô hình. - Trình quản lý tác vụ (TM): Nó nhận và quản lý các tác vụ đến trong hệ thống, xử lý sự thay đổi nhiệm vụ và trình bày nhiệm vụ học tập mới cho KBL theo cách trọn đời. - Quy trình học tập suốt đời: Một quy trình LL điển hình bắt đầu bằng Trình quản lý tác vụ gán một nhiệm vụ mới cho KBL (nhiệm vụ có thể được đưa ra hoặc tự động phát hiện). KBL sau đó hoạt động với sự trợ giúp của kiến thức trong quá khứ được lưu trữ trong KB để tạo ra một mô hình đầu ra cho người dùng và cũng gửi thông tin hoặc kiến thức cần được giữ lại để sử dụng trong tương lai cho KB. Trong quá trình ứng dụng, hệ thống cũng có thể khám phá các nhiệm vụ mới và học trong khi làm việc (học trong công việc). Một số kiến thức thu được trong các ứng dụng cũng có thể được giữ lại để giúp học tập trong tương lai. 12 1.2.2. Các hướng nghiên cứu LL Học có giám sát suốt đời: Một số kỹ thuật LL đã được đề xuất dựa trên mạng nơ ron, Naïve Bayesian, mô hình trường ngẫu nhiên có điều kiện (CRF). Học liên tục sử dụng các mạng nơ ron sâu: Trong vài năm qua, do sự phổ biến của học sâu, nhiều nhà nghiên cứu đã nghiên cứu vấn đề liên tục học một chuỗi các nhiệm vụ sử dụng kỹ thuật học sâu. Trong cộng đồng nghiên cứu học sâu thì LL cũng được gọi là học liên tục. Mục tiêu của nó xây dựng mạng nơ ron sâu có khả năng học thêm từng nhiệm vụ mới mà không quên đi các mô hình đã học cho các nhiệm vụ trước. Học thế giới mở: Học có giám sát truyền thống đòi hỏi giả định thế giới đóng phải đúng: các lớp của các dữ liệu mới phải được nhìn thấy trong quá trình học/huấn luyện [6]. Điều này không phù hợp để học trong các môi trường mở và biến động với những lớp mới luôn xuất hiện. Học không giám sát suốt đời: Các nghiên cứu trong hướng này chủ yếu là về mô hình hoá chủ đề suốt đời và trích chọn thông tin suốt đời. Các kỹ thuật này đều dựa trên khai thác cấp độ meta, tức là khai thác kiến thức được chia sẻ qua các tác vụ. Học bán giám sát suốt đời: Nghiên cứu điển hình trong hướng này là hệ thống hệ thống NELL (Bộ học ngôn ngữ không ngừng). Nó đã đọc nội dung trên Internet liên tục từ tháng 1 năm 2010 để khai thác thông tin, và đã tích lũy được hàng triệu thực thể và quan hệ giữa chúng. Học tăng cường suốt đời: Hướng nghiên cứu này tập trung xây dựng các tác nhân (agent) học liên tục có khả năng giải quyết dần các nhiệm vụ phức tạp bằng cách học giải quyết các nhiệm vụ dễ dàng trước tiên. 1.3. Học máy thế giới mở Do thế giới thực có tính chất mở, luôn có biến động chúng ta cần xây dựng mô hình có thể nhận ra các lớp mới. Học máy có giám sát thế giới mở nhằm xây dựng các bộ phân lớp có khả năng nhận ra các lớp đã biết và các lớp chưa từng thấy. Điều này trái ngược với học máy có giám sát thế giới đóng. Hiện nay công nghệ đang phát triển theo hướng trợ lý ảo cá nhân hóa một cách thông minh, xe tự lái, các robot làm việc trong môi trường mở và tương tác với con người, 13 v.v. Việc xây dựng bộ phân lớp trong thế giới mở đang trở nên rất quan trọng. Lấy ví dụ: ứng dụng đầu tiên về trợ lý cá nhân hóa thông minh (như Amazon Alexa, Google Assistant và Microsoft Cortana, v.v.) sử dụng những bài viết của người dùng để phân lớp ý định người dùng và miền ứng dụng (ví dụ: Alexa’s skills, Google’s actions và Cortana’s skills), từ đó cũng phát hiện ra các bài viết không thuộc vào một trong những lớp ý định và miền đã biết. Hầu hết các giải pháp hiện có cho học thế giới mở được xây dựng dựa trên các mô hình phân lớp thế giới đóng. Thêm nữa, các mô hình này rất khó có thể phát hiện các lớp mới (chưa thấy) vào tập các lớp đã thấy mà không cần học lại hoặc học tăng cường. Ví dụ: Alexa cho phép các nhà phát triển bên thứ 3 thêm các kỹ năng mới (ứng dụng mới), tức là các miền mới hoặc các lớp mục đích mới. Điều này đặt ra một thách thức lớn đối với việc duy trì triển khai mô hình và dữ liệu đào tạo cho các lớp mới. Xây dựng một mô hình có khả năng phân loại dữ liệu trong tập test vào một trong những lớp đã biết hoặc bác bỏ nó (dữ liệu đó không thuộc về bất kỳ lớp nào trong tập huấn luyện, hay thuộc lớp chưa được thấy). Nói cách khác, xây dựng 1 bộ phân lớp f(x) cho (m + 1) lớp thuộc tập C = {l1, l2, , lm, rejection}. Học máy thế giới mở được định nghĩa như sau [1, 5]. 1. Tại một thời điểm nào đó, bộ học đã xây dựng được một mô hình phân lớp FN dựa trên N lớp từ tập dữ liệu huấn luyện trước đây: Dp = {D1, D2, , DN} với các lớp tương ứng YN = {l1, l2, , lN}. FN có khả năng phân loại một đối tượng dữ liệu vào một trong các lớp li thuộc YN hoặc bác bỏ nó và để nó vào tập bị bác bỏ R. 2. Bộ phân loại hoặc người dùng sẽ xác định tập các lớp chưa xuất hiện C trong R và thu thập dữ liệu huấn luyện cho các lớp chưa xuất hiện này. 3. Giả sử rằng có k lớp mới trong C có đủ dữ liệu huấn luyện. Bộ học sẽ học tăng dần cho k lớp này dựa trên dữ liệu học của chúng. Mô hình FN hiện có được cập nhật để tạo thành mô hình FN+k mới. Học thế giới mở là một hình thức học suốt đời (LL) vì nó phù hợp với định nghĩa của LL. Cụ thể, nhiệm vụ học mới TN+1 là để xây dựng một bộ phân lớp mở đa lớp dựa trên tất cả dữ liệu quá khứ và hiện tại các lớp đã được học. Hệ cơ sở tri thức (KB) chứa mô hình quá khứ FN và tất cả tập dữ liệu huấn luyện trong quá khứ [2]. Lưu ý rằng nhiệm vụ thứ ba của việc học tăng dần các lớp mới ở đây khác với việc học lớp tăng dần truyền thống (ICL) được nghiên cứu ở các miền khác nhau vì ICL truyền 14 thống vẫn học trong thế giới khép kín (nghĩa là nó không thực hiện việc bác bỏ lớp chưa xuất hiện) mặc dù nó có thể thêm các lớp mới tăng dần vào hệ thống phân loại mà không cần học lại từ đầu toàn bộ mô hình. Ví dụ, chúng ta muốn xây dựng một robot chào mừng cho một khách sạn. Tại bất kỳ thời điểm nào, robot đã học cách nhận ra tất cả khách hiện tại của khách sạn. Khi thấy một vị khách cũ nó có thể gọi tên và trò chuyện với anh ấy/cô ấy. Đồng thời, nó cũng phải phát hiện bất kỳ vị khách mới nào mà nó chưa từng thấy trước đây. Khi nhìn thấy một vị khách mới, nó có thể nói xin chào, hỏi tên của khách, chụp một số ảnh và học cách nhận ra vị khách đó. Lần sau khi gặp lại người đó, nó có thể gọi tên của anh ấy/cô ấy và trò chuyện như một người bạn cũ. Kịch bản trong xe tự lái cũng tương tự vì rất khó, nếu không muốn nói là không thể huấn luyện một hệ thống có khả năng nhận ra mọi vật thể có thể xuất hiện trên đường. Hệ thống phải nhận ra các vật thể mà nó chưa học trước đó và học chúng trong khi lái xe (có thể thông qua tương tác với hành khách của con người) để khi nhìn thấy các vật thể lần sau, nó sẽ không gặp vấn đề gì khi nhận ra chúng. Fei và cộng sự [5] đã đưa ra một ví dụ khác trong phân loại văn bản. Cuộc bầu cử tổng thống năm 2016 tại Hoa Kỳ là một chủ đề nóng trên phương tiện truyền thông xã hội và nhiều nhà nghiên cứu khoa học xã hội đã dựa vào các cuộc thảo luận được thu thập để thực hiện nghiên cứu của họ. Trong chiến dịch, mọi đề xuất mới của một ứng cử viên sẽ được thảo luận sôi nổi trên phương tiện truyền thông xã hội. Bộ phân loại được xây dựng ban đầu chắc chắn sẽ gặp các chủ đề mới (ví dụ, kế hoạch cải cách nhập cư của Donald Trump, hoặc đề xuất tăng thuế của Hillary Clinton), những chủ đề đã không xuất hiện trong quá trình huấn luyện mô hình trước đó. Trong trường hợp này, trước tiên bộ phân loại nên nhận ra các chủ đề mới này thay vì phân loại chúng vào một số chủ đề hiện có. Thứ hai, sau khi thu thập đủ các ví dụ huấn luyện cho các chủ đề mới, bộ phân loại hiện có nên kết hợp các chủ đề mới một cách tăng dần mà không cần phải huấn luyện lại toàn bộ hệ thống phân loại từ đầu. Bendale và Boult [1] đã cố gắng giải quyết vấn đề học thế giới mở để phân loại ảnh. Phương pháp của nó được gọi là Phương pháp không ngoại lai gần nhất (Nearest Non- Outlier, NNO), được phát triển từ phương pháp Trung bình lớp gần nhất (Nearest Class Mean) do Mensink và cộng sự đề xuất. Trong NNO, mỗi ảnh được biểu diễn dưới dạng một vectơ đặc trưng và mỗi lớp được biểu diễn bằng vector trung bình của các vectơ đặc 15 trưng của tất cả các ảnh trong lớp đó. Khi kiểm tra mô hình, vectơ đặc trưng của ảnh kiểm tra được so sánh với từng vector trung bình của mỗi một lớp và phân ảnh vào lớp có vector trung bình gần nhất. NNO thêm tính năng bác bỏ lớp mới vào mô hình chỉ đơn giản bằng cách thêm vector trung bình của lớp mới vào tập vector của lớp hiện có. Năng lực bác bỏ của NNO đã được cải thiện trong OpenMax [1]. OpenMax, dựa trên học sâu, thay tầng phân loại softmax truyền thống bằng một tầng mới, gọi là tầng OpenMax, (từ đó cho phép bác bỏ) để ước lượng xác suất dữ liệu đầu vào là từ một lớp chưa nhìn thấy. Tuy nhiên, việc huấn luyện OpenMax cần các dữ liệu ví dụ cho một số lớp chưa nhìn thấy (không nhất thiết là các lớp trong tập dữ liệu kiểm tra) để tinh chỉnh các tham số. Shu và cộng sự [13] đã giới thiệu mô hình DOC, dựa trên tư tưởng của OpenMax, được chứng tỏ là vượt trội hơn OpenMax cho cả phân loại mở cả văn bản lẫn ảnh mà không yêu cầu bất kỳ dữ liệu ví dụ huấn luyện nào cho lớp chưa nhìn thấy. Trong miền ứng dụng xử lý dữ liệu y văn, các tên thực thể y sinh (thuốc, bệnh, gien, protein, v.v) cần được phân vào các khái niệm y sinh được lưu trữ trong một, hoặc nhiều bộ CSDL từ vựng chuẩn cho trước. Quá trình này được gọi là quá trình chuẩn hoá tên thực thể y sinh. Trong thực tế, nhiều trường hợp các tên thực thể y sinh được nhắc đến trong các tài liệu là mới, chưa được lưu trữ trong các CSDL từ vựng cho trước. Có nhiều hệ thống chuẩn hóa tên thực thể y sinh khác nhau đã được phát triển trong thập kỷ qua. Tuy vậy, theo hiểu biết của tôi, đến thời điểm hiện tại tất cả các phương pháp này đều không phải là học thế giới mở, dẫn đến việc các tên mới đều phải được phân vào ít nhất 1 khái niệm trong CSDL từ vựng cho trước. Vì những lý do trên, luận văn này sẽ tập trung nghiên cứu ứng dụng học thế giới mở vào bài toán chuẩn hoá tên thực thể bệnh (gọi tắt là tên bệnh), là một thực thể y sinh quan trọng, nhận được nhiều quan tâm nghiên cứu của cộng đồng nghiên cứu y-sinh. 1.4. Mục tiêu của luận văn Có thể thấy rằng, cơ sở dữ liệu tri thức tích luỹ được là hết sức quan trọng, và thiết yếu đối với học suốt đời. Các tri thức được lưu trữ dưới định dạnh có cấu trúc, có thể “đọc” được bởi máy tính, từ đó có thể thực hiện các phép suy diễn. Tuy nhiên, lúc đầu các tri thức lại thường được thể hiện dưới dạng văn bản phi cấu trúc, do con người viết ra và chỉ con người mới hiểu được. Các tri thức thường là mối quan hệ giữa các đối tượng, hiện tượng nào đó. Việc trích xuất tự động tri thức được viết trong văn bản đang ngày trở nên 16 quan trọng và cấp thiết, đặc biệt là khi số lượng văn bản trong các lĩnh vực chuyên ngành đang liên tục được tạo ra với một tốc độ chóng mặt. Về cơ bản, bài toán trích xuất tri thức (dưới dạng quan hệ) trong văn bản bao gồm ba bước chính: phát hiện đối tượng/thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ giữa các thực thể. Luận văn do đó sẽ tập trung nghiên cứu ứng dụng mô hình DOC vào pha có nhiều khả năng có cái mới chưa được thấy, đó là chuẩn hoá thực thể tên (tên mới). Đặc biệt, với bài toán chuẩn hoá thực thể tên, luận văn sẽ chọn tên bệnh trong miền văn bản y sinh, là một miền ứng dụng có nhiều ý nghĩa và đầy thách thức. Phát hiện và chuẩn hóa thực thể y sinh đang ngày càng trở nên rất quan trọng cho việc khám phá ra các quan hệ mới, quan trọng giữa các hóa chất/thuốc và các bệnh không xuất hiện cùng nhau trong cùng một bài báo y văn được xuất bản [2].Bài toán chuẩn hóa tên bệnh là một trong những bài toán chuẩn hóa thực thể y sinh quan trọng, đầy thách thức, có đầu vào và đầu ra như sau: Đầu vào:  Tập nhãn/lớp: Một bộ từ vựng được xây dựng sẵn V chứa các khái niệm bệnh (định danh tên bệnh, cùng với các tên đồng nghĩa của nó).  Dữ liệu huấn luyện: Một tập các tên bệnh (disease mention) đã được gán định danh khái niệm bệnh trong V.  Tập các tên bệnh chưa được gán định danh D Đầu ra:  Mô hình có khả năng gán (hoặc bác bỏ) định danh khái niệm bệnh trong V cho các tên thuốc trong D (Xem ví dụ Bảng 1.1). Input Output lidocaine D008012 depression D003866 bradyarrhythmias Unknown Bảng 1.1 - Một ví dụ về bài toán chuẩn hoá tên bệnh. 17 Kết luận Chương 1 Chương này đã trình bày một giới thiệu tổng quát về mô hình ML cổ điển và những thiếu sót của nó, sau đó là về Học suốt đời (LL) và học thế giới mở (OpenWorld ML, một dạng học máy suốt đời). Học máy suốt đời là một hướng đi mới nổi tất yếu và đầy hứa hẹn để khắc phục những thiếu sót của học máy truyền thống, với mục tiêu cuối cùng là xây dựng những cỗ máy học hỏi như con người. Tầm quan trọng của hệ cơ sở dữ liệu tri thức (KB) đối với học suốt đời đã được chỉ ra. Cuối cùng mục tiêu của luận văn cũng đã được giới thiệu, đó là ứng dụng mô hình học thế giới mở cho bước quan trọng trong việc trích xuất tự động tri thức từ văn bản y sinh, đó là chuẩn hóa thực thể tên. Đây là bước có sự xuất hiện của đối tượng mới chưa xuất hiện lúc học, đặc biệt là trong lĩnh vực y sinh, ví dụ: tên bệnh mới. Tầm quan trọng và thách thức của việc giải quyết bài toán này đối với lĩnh vực y sinh cũng được đề cập. Chương 2 sẽ giới thiệu sâu về học thế giới mở dựa trên kỹ thuật học sâu. 18 Chương 2. Học sâu thế giới mở cho văn bản 2.1. Học thế giới mở không gian đơn giản trung tâm G. Fei và cộng sự [5] đã giới thiệu một mô hình phân lớp thế giới mở dựa trên phương pháp học không gian tương tự dựa trên trung tâm (được gọi là học CBS Center- Based Similarity (CBS) Learning). Nó có khả năng phân loại các dữ liệu vào các lớp đã biết/đã thấy, hoặc bác bỏ để đưa vào lớp chưa biết. 2.1.1 Tăng cường cập nhật mô hình học CBS Con người được tiếp xúc với các khái niệm mới mọi lúc. Một cách chúng ta học một khái niệm mới là tìm kiếm từ các khái niệm đã biết để tìm ra các khái niệm tương tự với khái niệm mới, và sau đó cố gắng tìm ra sự khác biệt giữa các khái niệm đã biết và khái niệm mới mà không cần sử dụng tất cả các khái niệm đã biết. Ví dụ, giả sử chúng ta đã học được các khái niệm như “phim truyện”, “đồ nội thất”, “bóng đá”. Giả sử bây giờ chúng ta cần tìm hiểu khái niệm “bóng rổ” từ bộ tài liệu về nó. Chúng ta sẽ nhận ra rằng “bóng rổ” giống với “bóng đá” và rất khác với “phim truyện” và “đồ nội thất”. Do đó, chúng ta chỉ cần tập trung vào sự khác nhau giữa “bóng rổ” với “bóng đá” mà không cần quan tâm đến nó với “phim truyện” và “đồ nội thất”. G. Fei và cộng sự [5] sử dụng chiến lược 1-so-với-phần-còn-lại (one-vs.-rest) của SVM để học tăng cường của nhiều lớp (hoặc khái niệm) (xem Thuật toán 2.1). Trước khi lớp mới CN+1 xuất hiện, hệ thống học đã xây dựng được mô hình phân lớp FN, bao gồm N bộ phân loại nhị phân 1-so-với-phần-còn-lại FN= {f1, f2,, fN} cho N lớp trước đây, các lớp sử dụng tập huấn luyện Dp = {D1; D2;; DN} với các nhãn lớp tương ứng YN = {l1; l2; ; lN}. Mỗi fi là một mô hình phân lớp nhị phân được xây dựng bằng phương pháp học CBS để xác định các đối tượng dữ liệu thuộc về lớp li. Khi có một bộ dữ liệu mới DN+1 cho lớp lN+1, hệ thống sẽ thực hiện hai bước sau để cập nhật mô hình phân lớp FN thành mô hình FN+1 mới có khả năng phân loại dữ liệu kiểm tra hoặc dữ liệu của của các lớp trong tập YN+1 = {l1; l2;; lN; lN+1} và phát hiện ra bất kỳ lớp C0 nào chưa được thấy. 1. Tìm kiếm một tập các lớp SC tương tự như lớp mới lN+1. 2. Học cách tách lớp mới lN+1 và các lớp đã xuất hiện từ trước trong SC. 19 Trong bước 1, sự giống nhau giữa lớp mới lN+1 và các lớp trước l1; l2; ; lN được tính bằng cách chạy từng bộ phân loại nhị phân 1 so với phần còn lại trong FN = {f1; f2; ; fN} để phân loại các dữ liệu trong DN+1. Các lớp của các bộ phân lớp nhị phân hiện có mà chấp nhận (phân loại là lớp dương) một số/phần trăm nhất định λsim của các dữ liệu trong tập DN+1 được xem là các lớp tương tự SC. λsim là ngưỡng kiểm soát số phần trăm các dữ liệu trong DN+1 nên được phân loại vào lớp li trước khi xem xét li gần với lớp lN+1. Bước 2 tách lớp mới lN+1 và các lớp trong SC bao gồm hai bước phụ: (1) xây dựng trình phân loại nhị phân mới fN+1 cho lớp mới lN+1; (2) cập nhật các bộ phân loại hiện có cho các lớp trong SC. fN+1 được huấn luyện bằng cách sử dụng DN+1 như là ví dụ huấn luyện dương và dữ liệu cho các lớp trong SC làm dữ liệu huấn luyện âm. Lý do để cập nhật các bộ phân loại trong SC là việc bổ sung lN+1 gây ra nhầm lẫn cho các bộ phân loại trong SC. Để xây dựng lại từng bộ phân loại, hệ thống cần sử dụng tập dữ liệu ví dụ âm hiện có (đã được sử dụng khi xây dựng bộ phân lớp fi) cộng với dữ liệu mới trong DN+1 làm dữ liệu ví dụ huấn luyện âm mới. Lý do mà dữ liệu ví dụ huấn luyện âm cũ vẫn được sử dụng là do bộ phân loại mới vẫn cần phân biệt lớp li với các lớp cũ. Tóm lại, quá trình học sử dụng tập SC của các lớp tương tự với lớp mới lN+1 để kiểm soát cả số lượng bộ phân loại nhị phân cần được xây dựng/cập nhật lại lẫn cả số lượng các dữ liệu ví dụ huấn luyện âm được sử dụng trong việc xây dựng bộ phân loại mới fN+1. Điều này cải thiện đáng kể hiệu quả so với việc phải xây dựng lại một bộ phân loại đa lớp mới FN+1 từ đầu. Thuật toán 2.1. Học tăng dần các lớp CBS *Đầu vào: Mô hình phân lớp FN= {f1, f2,, fN}, tập các dữ liệu trong quá khứ Dp = {D1; D2;; DN}, tập dữ liệu mới DN+1 và ngưỡng tương tự λsim *Đầu ra: Mô hình phân lớp FN+1= {f1, f2,, fN, fN+1 }. 20 2.1.2 Kiểm tra mô hình học CBS Để kiểm tra mô hình phân lớp mới F

Các file đính kèm theo tài liệu này:

luan_van_phan_tich_du_lieu_van_ban_dua_tren_hoc_may_the_gioi.pdf