Luận văn Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

LỜI CẢM ƠN.i

LỜI CAM ĐOAN.ii

TÓM TẮT.iv

DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT .v

DANH SÁCH BẢNG.vi

DANH SÁCH HÌNH ẢNH .vii

Mở đầu.1

Chương 1. Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh .3

1.1 Học máy truyền thống .3

1.2. Học máy suốt đời.5

1.2.1 Định nghĩa học máy suốt đời.7

1.2.2. Các hướng nghiên cứu LL .12

1.3. Học máy thế giới mở .12

1.4. Mục tiêu của luận văn.15

Kết luận Chương 1.17

Chương 2. Học sâu thế giới mở cho văn bản .18

2.1. Học thế giới mở không gian đơn giản trung tâm.18

2.1.1 Tăng cường cập nhật mô hình học CBS .18

2.1.2 Kiểm tra mô hình học CBS.20

2.1.3 Học CBS cho phát hiện lớp chưa thấy.20

2.2. Học sâu thế giới mở phân lớp văn bản .21

2.2.1 CNN và các lớp chuyển tiếp của DOC .22

2.2.2 Tầng 1- với-phần còn lại.23

2.2.2 Giảm rủi ro không gian mở.23

Kết luận Chương 2.24

pdf48 trang | Chia sẻ: honganh20 | Ngày: 05/03/2022 | Lượt xem: 406 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Luận văn Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
̣i. Việc chuyển sang nhiệm vụ mới có thể xảy ra đột ngột hoặc dần dần, và các nhiệm vụ và dữ liệu của chúng không phải được cung cấp bởi một số hệ thống bên ngoài hoặc người dùng. Một bộ học suốt đời lý tưởng có thể tự phát hiện ra các nhiệm vụ học và dữ liệu đào tạo của riêng mình khi tương tác với con người và môi trường hoặc sử dụng kiến thức đã học trước đó để thực hiện học trong thế giới mở và tự giám sát. 9 Từ định nghĩa trên, có thể thấy LL có năm đặc điểm chính sau [2]: 1. Học liên tục. 2. Tri thức được tích luỹ và lưu giữ trong KB. 3. Sử dụng tri thức tích lũy trong quá khứ để học trong tương lai 4. Có khả năng khám phá ra các nhiệm vụ mới 5. Có khả năng học trong khi làm việc hoặc học trong công việc. Không có những khả năng này, một hệ thống ML sẽ không thể tự học trong môi trường mở, luôn biến động; hệ quả là sẽ không bao giờ thực sự thông minh. Vì kiến thức được tích lũy và sử dụng trong LL, do đó, LL có liên quan đến nhiều khía cạnh khác của trí tuệ nhân tạo cho ML, ví dụ: biểu diễn tri thức, thu nhận, lập luận và duy trì tri thức. Tri thức tích luỹ được không chỉ có thể giúp cải thiện việc học trong tương lai, mà còn có thể giúp thu thập và gán nhãn dữ liệu huấn (tự giám sát) và khám phá các nhiệm vụ mới có khả năng sẽ được học. Con người có khả năng tích hợp của cả học dựa trên dữ liệu và học dựa trên tri thức. ML hiện tại tập trung gần như hoàn toàn vào việc học tối ưu dựa trên dữ liệu, điều mà con người chúng ta không giỏi. Thay vào đó, chúng ta rất giỏi học dựa trên tri thức trước đây của chúng ta. Chúng ta càng biết nhiều thì chúng ta học càng dễ hơn. LL có thể yêu cầu một cách tiếp cận có hệ thống kết hợp nhiều thuật toán học và các sơ đồ biểu diễn tri thức khác nhau. Một thuật toán học duy nhất có thể không đạt được mục tiêu của LL. Trên thực tế, LL đại diện cho một không gian vấn đề rất lớn và phong phú. Kiến trúc hệ thống LL được thể hiện trong Hình 1.2. Không phải tất cả các hệ thống LL hiện có đều sử dụng tất cả các thành phần như trong hình. Trong thực tế, hầu hết các hệ thống hiện tại đơn giản hơn nhiều. Hơn nữa, vẫn chưa có một hệ thống LL chung có thể thực hiện LL trong tất cả các miền có thể, cho tất cả các loại nhiệm vụ có thể. Trong thực tế, chúng ta vẫn còn ở rất xa điều đó. 10 Hình 1.2. Kiến trúc tổng quan của hệ thống học suốt đời [2]. Một hệ thống LL điển hình sẽ có các thành phần cơ bản sau [2]: - Hệ cơ sở tri thức (KB): Chủ yếu để lưu trữ tri thức đã học trước đó. Nó có một vài thành phần phụ:  Kho thông tin quá khứ (PIS): lưu trữ thông tin kết quả từ quá trình học trước đây, bao gồm các mô hình kết quả, mô hình hoặc các dạng kết quả khác. PIS có thể chứa các thông tin liên quan như: (1) dữ liệu gốc được sử dụng trong mỗi nhiệm vụ trước, (2) kết quả trung gian từ mỗi nhiệm vụ trước và (3) mô hình cuối cùng hoặc các mẫu được học từ mỗi nhiệm vụ trước.  Công cụ khai thác kiến thức tổng hợp (MKM): thực hiện khai thác siêu kiến thức trong PIS và trong kho siêu tri thức (xem bên dưới).  Kho siêu kiến thức (MKS): lưu trữ kiến thức được khai thác hoặc tích hợp từ PIS và cũng như từ chính MKS.  Bộ lập luận trên tri thức (KR): suy luận dựa trên tri thức trong MKB và PIS để tạo thêm tri thức mới. Hầu hết các hệ thống hiện tại không có thành phần phụ này. Tuy nhiên, với sự tiến bộ của LL, thành phần này sẽ ngày càng trở nên quan trọng. 11 - Bộ học dựa trên tri thức (KBL): Đối với LL, bộ học cần có khả năng sử dụng tri thức tích luỹ được khi học. Một bộ học như vậy là bộ học dựa trên tri thức, có thể tận dụng tri thức trong KB để học nhiệm vụ mới. Thành phần này có thể có hai thành phần phụ:  Công cụ khai phá tri thức nhiệm vụ (TKM), sử dụng thông tin hoặc thông tin thô trong KB để khai thác hoặc xác định kiến thức phù hợp với nhiệm vụ hiện tại. Điều này là cần thiết bởi vì trong một số trường hợp, KBL không thể sử dụng trực tiếp kiến thức thô trong KB mà cần một số kiến thức cụ thể và cụ thể hơn được khai thác từ KB.  Bộ học có thể tận dụng kiến thức khai thác trong quá trình học. - Công cụ khai thác kiến thức dựa trên nhiệm vụ (TKM): Mô-đun này khai thác kiến thức từ KB đặc biệt cho nhiệm vụ mới - Mô hình: Đây là các mô hình đã học, có thể là mô hình dự đoán hoặc phân loại trong học tập được giám sát, các cụm hoặc chủ đề trong học tập không giám sát, một chính sách trong học tập củng cố, v.v. - Ứng dụng: Đây là ứng dụng của mô hình trong thế giới thực. Điều quan trọng cần lưu ý là trong quá trình áp dụng mô hình, hệ thống vẫn có thể học kiến thức mới (tức là, kiến thức về các kết quả, và có thể khám phá các nhiệm vụ mới sẽ được học. Ứng dụng cũng có thể cung cấp phản hồi cho người học dựa trên kiến thức để cải tiến mô hình. - Trình quản lý tác vụ (TM): Nó nhận và quản lý các tác vụ đến trong hệ thống, xử lý sự thay đổi nhiệm vụ và trình bày nhiệm vụ học tập mới cho KBL theo cách trọn đời. - Quy trình học tập suốt đời: Một quy trình LL điển hình bắt đầu bằng Trình quản lý tác vụ gán một nhiệm vụ mới cho KBL (nhiệm vụ có thể được đưa ra hoặc tự động phát hiện). KBL sau đó hoạt động với sự trợ giúp của kiến thức trong quá khứ được lưu trữ trong KB để tạo ra một mô hình đầu ra cho người dùng và cũng gửi thông tin hoặc kiến thức cần được giữ lại để sử dụng trong tương lai cho KB. Trong quá trình ứng dụng, hệ thống cũng có thể khám phá các nhiệm vụ mới và học trong khi làm việc (học trong công việc). Một số kiến thức thu được trong các ứng dụng cũng có thể được giữ lại để giúp học tập trong tương lai. 12 1.2.2. Các hướng nghiên cứu LL Học có giám sát suốt đời: Một số kỹ thuật LL đã được đề xuất dựa trên mạng nơ ron, Naïve Bayesian, mô hình trường ngẫu nhiên có điều kiện (CRF). Học liên tục sử dụng các mạng nơ ron sâu: Trong vài năm qua, do sự phổ biến của học sâu, nhiều nhà nghiên cứu đã nghiên cứu vấn đề liên tục học một chuỗi các nhiệm vụ sử dụng kỹ thuật học sâu. Trong cộng đồng nghiên cứu học sâu thì LL cũng được gọi là học liên tục. Mục tiêu của nó xây dựng mạng nơ ron sâu có khả năng học thêm từng nhiệm vụ mới mà không quên đi các mô hình đã học cho các nhiệm vụ trước. Học thế giới mở: Học có giám sát truyền thống đòi hỏi giả định thế giới đóng phải đúng: các lớp của các dữ liệu mới phải được nhìn thấy trong quá trình học/huấn luyện [6]. Điều này không phù hợp để học trong các môi trường mở và biến động với những lớp mới luôn xuất hiện. Học không giám sát suốt đời: Các nghiên cứu trong hướng này chủ yếu là về mô hình hoá chủ đề suốt đời và trích chọn thông tin suốt đời. Các kỹ thuật này đều dựa trên khai thác cấp độ meta, tức là khai thác kiến thức được chia sẻ qua các tác vụ. Học bán giám sát suốt đời: Nghiên cứu điển hình trong hướng này là hệ thống hệ thống NELL (Bộ học ngôn ngữ không ngừng). Nó đã đọc nội dung trên Internet liên tục từ tháng 1 năm 2010 để khai thác thông tin, và đã tích lũy được hàng triệu thực thể và quan hệ giữa chúng. Học tăng cường suốt đời: Hướng nghiên cứu này tập trung xây dựng các tác nhân (agent) học liên tục có khả năng giải quyết dần các nhiệm vụ phức tạp bằng cách học giải quyết các nhiệm vụ dễ dàng trước tiên. 1.3. Học máy thế giới mở Do thế giới thực có tính chất mở, luôn có biến động chúng ta cần xây dựng mô hình có thể nhận ra các lớp mới. Học máy có giám sát thế giới mở nhằm xây dựng các bộ phân lớp có khả năng nhận ra các lớp đã biết và các lớp chưa từng thấy. Điều này trái ngược với học máy có giám sát thế giới đóng. Hiện nay công nghệ đang phát triển theo hướng trợ lý ảo cá nhân hóa một cách thông minh, xe tự lái, các robot làm việc trong môi trường mở và tương tác với con người, 13 v.v. Việc xây dựng bộ phân lớp trong thế giới mở đang trở nên rất quan trọng. Lấy ví dụ: ứng dụng đầu tiên về trợ lý cá nhân hóa thông minh (như Amazon Alexa, Google Assistant và Microsoft Cortana, v.v.) sử dụng những bài viết của người dùng để phân lớp ý định người dùng và miền ứng dụng (ví dụ: Alexa’s skills, Google’s actions và Cortana’s skills), từ đó cũng phát hiện ra các bài viết không thuộc vào một trong những lớp ý định và miền đã biết. Hầu hết các giải pháp hiện có cho học thế giới mở được xây dựng dựa trên các mô hình phân lớp thế giới đóng. Thêm nữa, các mô hình này rất khó có thể phát hiện các lớp mới (chưa thấy) vào tập các lớp đã thấy mà không cần học lại hoặc học tăng cường. Ví dụ: Alexa cho phép các nhà phát triển bên thứ 3 thêm các kỹ năng mới (ứng dụng mới), tức là các miền mới hoặc các lớp mục đích mới. Điều này đặt ra một thách thức lớn đối với việc duy trì triển khai mô hình và dữ liệu đào tạo cho các lớp mới. Xây dựng một mô hình có khả năng phân loại dữ liệu trong tập test vào một trong những lớp đã biết hoặc bác bỏ nó (dữ liệu đó không thuộc về bất kỳ lớp nào trong tập huấn luyện, hay thuộc lớp chưa được thấy). Nói cách khác, xây dựng 1 bộ phân lớp f(x) cho (m + 1) lớp thuộc tập C = {l1, l2, , lm, rejection}. Học máy thế giới mở được định nghĩa như sau [1, 5]. 1. Tại một thời điểm nào đó, bộ học đã xây dựng được một mô hình phân lớp FN dựa trên N lớp từ tập dữ liệu huấn luyện trước đây: Dp = {D1, D2, , DN} với các lớp tương ứng YN = {l1, l2, , lN}. FN có khả năng phân loại một đối tượng dữ liệu vào một trong các lớp li thuộc YN hoặc bác bỏ nó và để nó vào tập bị bác bỏ R. 2. Bộ phân loại hoặc người dùng sẽ xác định tập các lớp chưa xuất hiện C trong R và thu thập dữ liệu huấn luyện cho các lớp chưa xuất hiện này. 3. Giả sử rằng có k lớp mới trong C có đủ dữ liệu huấn luyện. Bộ học sẽ học tăng dần cho k lớp này dựa trên dữ liệu học của chúng. Mô hình FN hiện có được cập nhật để tạo thành mô hình FN+k mới. Học thế giới mở là một hình thức học suốt đời (LL) vì nó phù hợp với định nghĩa của LL. Cụ thể, nhiệm vụ học mới TN+1 là để xây dựng một bộ phân lớp mở đa lớp dựa trên tất cả dữ liệu quá khứ và hiện tại các lớp đã được học. Hệ cơ sở tri thức (KB) chứa mô hình quá khứ FN và tất cả tập dữ liệu huấn luyện trong quá khứ [2]. Lưu ý rằng nhiệm vụ thứ ba của việc học tăng dần các lớp mới ở đây khác với việc học lớp tăng dần truyền thống (ICL) được nghiên cứu ở các miền khác nhau vì ICL truyền 14 thống vẫn học trong thế giới khép kín (nghĩa là nó không thực hiện việc bác bỏ lớp chưa xuất hiện) mặc dù nó có thể thêm các lớp mới tăng dần vào hệ thống phân loại mà không cần học lại từ đầu toàn bộ mô hình. Ví dụ, chúng ta muốn xây dựng một robot chào mừng cho một khách sạn. Tại bất kỳ thời điểm nào, robot đã học cách nhận ra tất cả khách hiện tại của khách sạn. Khi thấy một vị khách cũ nó có thể gọi tên và trò chuyện với anh ấy/cô ấy. Đồng thời, nó cũng phải phát hiện bất kỳ vị khách mới nào mà nó chưa từng thấy trước đây. Khi nhìn thấy một vị khách mới, nó có thể nói xin chào, hỏi tên của khách, chụp một số ảnh và học cách nhận ra vị khách đó. Lần sau khi gặp lại người đó, nó có thể gọi tên của anh ấy/cô ấy và trò chuyện như một người bạn cũ. Kịch bản trong xe tự lái cũng tương tự vì rất khó, nếu không muốn nói là không thể huấn luyện một hệ thống có khả năng nhận ra mọi vật thể có thể xuất hiện trên đường. Hệ thống phải nhận ra các vật thể mà nó chưa học trước đó và học chúng trong khi lái xe (có thể thông qua tương tác với hành khách của con người) để khi nhìn thấy các vật thể lần sau, nó sẽ không gặp vấn đề gì khi nhận ra chúng. Fei và cộng sự [5] đã đưa ra một ví dụ khác trong phân loại văn bản. Cuộc bầu cử tổng thống năm 2016 tại Hoa Kỳ là một chủ đề nóng trên phương tiện truyền thông xã hội và nhiều nhà nghiên cứu khoa học xã hội đã dựa vào các cuộc thảo luận được thu thập để thực hiện nghiên cứu của họ. Trong chiến dịch, mọi đề xuất mới của một ứng cử viên sẽ được thảo luận sôi nổi trên phương tiện truyền thông xã hội. Bộ phân loại được xây dựng ban đầu chắc chắn sẽ gặp các chủ đề mới (ví dụ, kế hoạch cải cách nhập cư của Donald Trump, hoặc đề xuất tăng thuế của Hillary Clinton), những chủ đề đã không xuất hiện trong quá trình huấn luyện mô hình trước đó. Trong trường hợp này, trước tiên bộ phân loại nên nhận ra các chủ đề mới này thay vì phân loại chúng vào một số chủ đề hiện có. Thứ hai, sau khi thu thập đủ các ví dụ huấn luyện cho các chủ đề mới, bộ phân loại hiện có nên kết hợp các chủ đề mới một cách tăng dần mà không cần phải huấn luyện lại toàn bộ hệ thống phân loại từ đầu. Bendale và Boult [1] đã cố gắng giải quyết vấn đề học thế giới mở để phân loại ảnh. Phương pháp của nó được gọi là Phương pháp không ngoại lai gần nhất (Nearest Non- Outlier, NNO), được phát triển từ phương pháp Trung bình lớp gần nhất (Nearest Class Mean) do Mensink và cộng sự đề xuất. Trong NNO, mỗi ảnh được biểu diễn dưới dạng một vectơ đặc trưng và mỗi lớp được biểu diễn bằng vector trung bình của các vectơ đặc 15 trưng của tất cả các ảnh trong lớp đó. Khi kiểm tra mô hình, vectơ đặc trưng của ảnh kiểm tra được so sánh với từng vector trung bình của mỗi một lớp và phân ảnh vào lớp có vector trung bình gần nhất. NNO thêm tính năng bác bỏ lớp mới vào mô hình chỉ đơn giản bằng cách thêm vector trung bình của lớp mới vào tập vector của lớp hiện có. Năng lực bác bỏ của NNO đã được cải thiện trong OpenMax [1]. OpenMax, dựa trên học sâu, thay tầng phân loại softmax truyền thống bằng một tầng mới, gọi là tầng OpenMax, (từ đó cho phép bác bỏ) để ước lượng xác suất dữ liệu đầu vào là từ một lớp chưa nhìn thấy. Tuy nhiên, việc huấn luyện OpenMax cần các dữ liệu ví dụ cho một số lớp chưa nhìn thấy (không nhất thiết là các lớp trong tập dữ liệu kiểm tra) để tinh chỉnh các tham số. Shu và cộng sự [13] đã giới thiệu mô hình DOC, dựa trên tư tưởng của OpenMax, được chứng tỏ là vượt trội hơn OpenMax cho cả phân loại mở cả văn bản lẫn ảnh mà không yêu cầu bất kỳ dữ liệu ví dụ huấn luyện nào cho lớp chưa nhìn thấy. Trong miền ứng dụng xử lý dữ liệu y văn, các tên thực thể y sinh (thuốc, bệnh, gien, protein, v.v) cần được phân vào các khái niệm y sinh được lưu trữ trong một, hoặc nhiều bộ CSDL từ vựng chuẩn cho trước. Quá trình này được gọi là quá trình chuẩn hoá tên thực thể y sinh. Trong thực tế, nhiều trường hợp các tên thực thể y sinh được nhắc đến trong các tài liệu là mới, chưa được lưu trữ trong các CSDL từ vựng cho trước. Có nhiều hệ thống chuẩn hóa tên thực thể y sinh khác nhau đã được phát triển trong thập kỷ qua. Tuy vậy, theo hiểu biết của tôi, đến thời điểm hiện tại tất cả các phương pháp này đều không phải là học thế giới mở, dẫn đến việc các tên mới đều phải được phân vào ít nhất 1 khái niệm trong CSDL từ vựng cho trước. Vì những lý do trên, luận văn này sẽ tập trung nghiên cứu ứng dụng học thế giới mở vào bài toán chuẩn hoá tên thực thể bệnh (gọi tắt là tên bệnh), là một thực thể y sinh quan trọng, nhận được nhiều quan tâm nghiên cứu của cộng đồng nghiên cứu y-sinh. 1.4. Mục tiêu của luận văn Có thể thấy rằng, cơ sở dữ liệu tri thức tích luỹ được là hết sức quan trọng, và thiết yếu đối với học suốt đời. Các tri thức được lưu trữ dưới định dạnh có cấu trúc, có thể “đọc” được bởi máy tính, từ đó có thể thực hiện các phép suy diễn. Tuy nhiên, lúc đầu các tri thức lại thường được thể hiện dưới dạng văn bản phi cấu trúc, do con người viết ra và chỉ con người mới hiểu được. Các tri thức thường là mối quan hệ giữa các đối tượng, hiện tượng nào đó. Việc trích xuất tự động tri thức được viết trong văn bản đang ngày trở nên 16 quan trọng và cấp thiết, đặc biệt là khi số lượng văn bản trong các lĩnh vực chuyên ngành đang liên tục được tạo ra với một tốc độ chóng mặt. Về cơ bản, bài toán trích xuất tri thức (dưới dạng quan hệ) trong văn bản bao gồm ba bước chính: phát hiện đối tượng/thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ giữa các thực thể. Luận văn do đó sẽ tập trung nghiên cứu ứng dụng mô hình DOC vào pha có nhiều khả năng có cái mới chưa được thấy, đó là chuẩn hoá thực thể tên (tên mới). Đặc biệt, với bài toán chuẩn hoá thực thể tên, luận văn sẽ chọn tên bệnh trong miền văn bản y sinh, là một miền ứng dụng có nhiều ý nghĩa và đầy thách thức. Phát hiện và chuẩn hóa thực thể y sinh đang ngày càng trở nên rất quan trọng cho việc khám phá ra các quan hệ mới, quan trọng giữa các hóa chất/thuốc và các bệnh không xuất hiện cùng nhau trong cùng một bài báo y văn được xuất bản [2].Bài toán chuẩn hóa tên bệnh là một trong những bài toán chuẩn hóa thực thể y sinh quan trọng, đầy thách thức, có đầu vào và đầu ra như sau: Đầu vào:  Tập nhãn/lớp: Một bộ từ vựng được xây dựng sẵn V chứa các khái niệm bệnh (định danh tên bệnh, cùng với các tên đồng nghĩa của nó).  Dữ liệu huấn luyện: Một tập các tên bệnh (disease mention) đã được gán định danh khái niệm bệnh trong V.  Tập các tên bệnh chưa được gán định danh D Đầu ra:  Mô hình có khả năng gán (hoặc bác bỏ) định danh khái niệm bệnh trong V cho các tên thuốc trong D (Xem ví dụ Bảng 1.1). Input Output lidocaine D008012 depression D003866 bradyarrhythmias Unknown Bảng 1.1 - Một ví dụ về bài toán chuẩn hoá tên bệnh. 17 Kết luận Chương 1 Chương này đã trình bày một giới thiệu tổng quát về mô hình ML cổ điển và những thiếu sót của nó, sau đó là về Học suốt đời (LL) và học thế giới mở (OpenWorld ML, một dạng học máy suốt đời). Học máy suốt đời là một hướng đi mới nổi tất yếu và đầy hứa hẹn để khắc phục những thiếu sót của học máy truyền thống, với mục tiêu cuối cùng là xây dựng những cỗ máy học hỏi như con người. Tầm quan trọng của hệ cơ sở dữ liệu tri thức (KB) đối với học suốt đời đã được chỉ ra. Cuối cùng mục tiêu của luận văn cũng đã được giới thiệu, đó là ứng dụng mô hình học thế giới mở cho bước quan trọng trong việc trích xuất tự động tri thức từ văn bản y sinh, đó là chuẩn hóa thực thể tên. Đây là bước có sự xuất hiện của đối tượng mới chưa xuất hiện lúc học, đặc biệt là trong lĩnh vực y sinh, ví dụ: tên bệnh mới. Tầm quan trọng và thách thức của việc giải quyết bài toán này đối với lĩnh vực y sinh cũng được đề cập. Chương 2 sẽ giới thiệu sâu về học thế giới mở dựa trên kỹ thuật học sâu. 18 Chương 2. Học sâu thế giới mở cho văn bản 2.1. Học thế giới mở không gian đơn giản trung tâm G. Fei và cộng sự [5] đã giới thiệu một mô hình phân lớp thế giới mở dựa trên phương pháp học không gian tương tự dựa trên trung tâm (được gọi là học CBS Center- Based Similarity (CBS) Learning). Nó có khả năng phân loại các dữ liệu vào các lớp đã biết/đã thấy, hoặc bác bỏ để đưa vào lớp chưa biết. 2.1.1 Tăng cường cập nhật mô hình học CBS Con người được tiếp xúc với các khái niệm mới mọi lúc. Một cách chúng ta học một khái niệm mới là tìm kiếm từ các khái niệm đã biết để tìm ra các khái niệm tương tự với khái niệm mới, và sau đó cố gắng tìm ra sự khác biệt giữa các khái niệm đã biết và khái niệm mới mà không cần sử dụng tất cả các khái niệm đã biết. Ví dụ, giả sử chúng ta đã học được các khái niệm như “phim truyện”, “đồ nội thất”, “bóng đá”. Giả sử bây giờ chúng ta cần tìm hiểu khái niệm “bóng rổ” từ bộ tài liệu về nó. Chúng ta sẽ nhận ra rằng “bóng rổ” giống với “bóng đá” và rất khác với “phim truyện” và “đồ nội thất”. Do đó, chúng ta chỉ cần tập trung vào sự khác nhau giữa “bóng rổ” với “bóng đá” mà không cần quan tâm đến nó với “phim truyện” và “đồ nội thất”. G. Fei và cộng sự [5] sử dụng chiến lược 1-so-với-phần-còn-lại (one-vs.-rest) của SVM để học tăng cường của nhiều lớp (hoặc khái niệm) (xem Thuật toán 2.1). Trước khi lớp mới CN+1 xuất hiện, hệ thống học đã xây dựng được mô hình phân lớp FN, bao gồm N bộ phân loại nhị phân 1-so-với-phần-còn-lại FN= {f1, f2,, fN} cho N lớp trước đây, các lớp sử dụng tập huấn luyện Dp = {D1; D2;; DN} với các nhãn lớp tương ứng YN = {l1; l2; ; lN}. Mỗi fi là một mô hình phân lớp nhị phân được xây dựng bằng phương pháp học CBS để xác định các đối tượng dữ liệu thuộc về lớp li. Khi có một bộ dữ liệu mới DN+1 cho lớp lN+1, hệ thống sẽ thực hiện hai bước sau để cập nhật mô hình phân lớp FN thành mô hình FN+1 mới có khả năng phân loại dữ liệu kiểm tra hoặc dữ liệu của của các lớp trong tập YN+1 = {l1; l2;; lN; lN+1} và phát hiện ra bất kỳ lớp C0 nào chưa được thấy. 1. Tìm kiếm một tập các lớp SC tương tự như lớp mới lN+1. 2. Học cách tách lớp mới lN+1 và các lớp đã xuất hiện từ trước trong SC. 19 Trong bước 1, sự giống nhau giữa lớp mới lN+1 và các lớp trước l1; l2; ; lN được tính bằng cách chạy từng bộ phân loại nhị phân 1 so với phần còn lại trong FN = {f1; f2; ; fN} để phân loại các dữ liệu trong DN+1. Các lớp của các bộ phân lớp nhị phân hiện có mà chấp nhận (phân loại là lớp dương) một số/phần trăm nhất định λsim của các dữ liệu trong tập DN+1 được xem là các lớp tương tự SC. λsim là ngưỡng kiểm soát số phần trăm các dữ liệu trong DN+1 nên được phân loại vào lớp li trước khi xem xét li gần với lớp lN+1. Bước 2 tách lớp mới lN+1 và các lớp trong SC bao gồm hai bước phụ: (1) xây dựng trình phân loại nhị phân mới fN+1 cho lớp mới lN+1; (2) cập nhật các bộ phân loại hiện có cho các lớp trong SC. fN+1 được huấn luyện bằng cách sử dụng DN+1 như là ví dụ huấn luyện dương và dữ liệu cho các lớp trong SC làm dữ liệu huấn luyện âm. Lý do để cập nhật các bộ phân loại trong SC là việc bổ sung lN+1 gây ra nhầm lẫn cho các bộ phân loại trong SC. Để xây dựng lại từng bộ phân loại, hệ thống cần sử dụng tập dữ liệu ví dụ âm hiện có (đã được sử dụng khi xây dựng bộ phân lớp fi) cộng với dữ liệu mới trong DN+1 làm dữ liệu ví dụ huấn luyện âm mới. Lý do mà dữ liệu ví dụ huấn luyện âm cũ vẫn được sử dụng là do bộ phân loại mới vẫn cần phân biệt lớp li với các lớp cũ. Tóm lại, quá trình học sử dụng tập SC của các lớp tương tự với lớp mới lN+1 để kiểm soát cả số lượng bộ phân loại nhị phân cần được xây dựng/cập nhật lại lẫn cả số lượng các dữ liệu ví dụ huấn luyện âm được sử dụng trong việc xây dựng bộ phân loại mới fN+1. Điều này cải thiện đáng kể hiệu quả so với việc phải xây dựng lại một bộ phân loại đa lớp mới FN+1 từ đầu. Thuật toán 2.1. Học tăng dần các lớp CBS *Đầu vào: Mô hình phân lớp FN= {f1, f2,, fN}, tập các dữ liệu trong quá khứ Dp = {D1; D2;; DN}, tập dữ liệu mới DN+1 và ngưỡng tương tự λsim *Đầu ra: Mô hình phân lớp FN+1= {f1, f2,, fN, fN+1 }. 20 2.1.2 Kiểm tra mô hình học CBS Để kiểm tra mô hình phân lớp mới F

Các file đính kèm theo tài liệu này:

  • pdfluan_van_phan_tich_du_lieu_van_ban_dua_tren_hoc_may_the_gioi.pdf
Tài liệu liên quan