Luận án Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác - Phạm Minh Chuẩn

LỜI CAM ĐOAN. 2

LỜI CẢM ƠN. 3

MỤC LỤC . 4

GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT. 6

DANH MỤC CÁC BẢNG. 8

DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ . 9

MỞ ĐẦU . 11

1. TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC. 16

1.1 Bài toán khuyến nghị cộng tác trong mạng đồng tác giả. 16

1.1.1 Mạng xã hội và mạng đồng tác giả. 16

1.1.2 Bài toán khuyến nghị cộng tác . 20

1.1.3. Tổng quan về các độ đo liên kết trong mạng đồng tác giả . 26

1.2. Một số kiến thức liên quan . 34

1.2.1. Các phương pháp phân lớp. 34

1.2.2 Phân cụm mờ và phân cụm bán giám sát mờ . 38

1.2.3. Phân tích theo chủ đề. 41

1.3. Kết luận. 43

2. CÁC ĐỘ ĐO LIÊN KẾT MỞ RỘNG TRONG MẠNG ĐỒNG TÁC GIẢ . 44

2.1. Độ đo liên kết dựa trên trọng số mở rộng. 44

2.2. Các độ đo liên kết dựa trên nội dung bài báo . 46

2.3. Thuật toán tính độ đo liên kết và đánh giá độ phức tạp của thuật toán . 50

2.4. Đánh giá các độ đo liên kết trong mạng đồng tác giả. 58

2.4.1. Chuẩn bị dữ liệu . 58

2.4.2. Kịch bản thực nghiệm. 60

2.4.3. Kết quả thực nghiệm. 63

2.5 Kết luận. 77

3. BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC. 785

3.1. Giới thiệu. 78

3.2. Khuyến nghị cộng tác mới. 79

3.3. Khuyến nghị cộng tác tăng cường . 88

3.3. Kết luận. 96

KẾT LUẬN VÀ KIẾN NGHỊ. 97

TÀI LIỆU THAM KHẢO . 99

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN. 108

108 trang | Chia sẻ: trungkhoi17 | Lượt xem: 682 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác - Phạm Minh Chuẩn, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

đo liên kết dựa trên trọng số mở rộng Dễ nhận thấy, trong mạng đồng tác giả việc xác định trọng số cộng tác giữa hai tác giả đã được nhiều nghiên cứu quan tâm bởi nó là cơ sở để xây dựng các độ đo liên kết trọng số. Nếu trọng số liên kết càng phản ánh một cách khách quan thì hiệu quả của các độ đo liên kết trọng số càng lớn trong việc dự đoán cộng tác. Trong [28] đã đề xuất cách tính trọng số cộng tác giữa hai tác giả là số lượng bài báo đã cộng tác với nhau (𝜔𝑛𝑝). Với cách này, đã phản ánh được một phần mức độ cộng tác giữa hai tác giả. Tuy nhiên, trong một số trường hợp nếu hai cặp tác giả cùng có số lượng bài báo đã viết chung giống nhau thì không thể xác định được cặp tác giả nào có mức độ cộng tác cao hơn nếu không xem xét thêm các thông tin khác. Do vậy, để giải quyết được tình huống này, trong [66] đã đề xuất trọng số cộng tác dựa trên số tác giả trong mỗi bài báo (𝜔𝑛𝑎). Trên thực tế, mức độ cộng tác giữa các tác giả trong bài báo có số lượng đồng tác giả ít hơn sẽ cao hơn so với những bài báo có số lượng đồng tác giả nhiều hơn. Mức độ cộng tác giữa các tác giả ngoài việc phụ thuộc vào số lượng tác giả trong mỗi bài báo còn phụ thuộc vào thứ tự của mỗi tác giả trong bài báo. Chẳng hạn, trong một bài báo một số tác giả đứng đầu tiên thường có mức độ cộng tác với nhau cao hơn so với những trường hợp còn lại. Ngoài ra, yếu tố thời gian công bố của mỗi bài báo cũng phản ánh mức độ thường xuyên cộng tác giữa các tác giả. Vì vậy, trọng số liên kết giữa hai tác giả được tính dựa trên thứ tự của các tác giả trong bài báo và thời gian mà bài báo công bố đã được đề xuất trong [94] (xem công thức (1.5)). Để minh họa rõ hơn độ đo liên kết dựa trên trọng số như đã đề cập, luận án sẽ xem xét việc tính toán giá trị độ đo liên kết thông qua ví dụ về mạng đồng tác giả trong (Hình 1.3 và Bảng 1.1) đối với hai cặp tác giả là (v3, v1) và (v3, v6). Đối với trọng số liên kết dựa trên số lượng bài báo đã viết chung giữa hai tác giả thì 𝑆𝐶𝑁 𝑛𝑝 (v3, v1) = 2 do giữa hai tác giả v3 và v1 có một tác giả láng giềng chung là tác giả v2 (xem Hình 1.3), và số lượng bài báo viết chung giữa hai tác giả v3 và v2 là 3, giữa hai tác giả v2 và CHƯƠNG 2 45 v1 là 1 bài báo (xem Bảng 1.1); tương tự 𝑆𝐶𝑁 𝑛𝑝 (v3, v6) = 2. Như vậy, thông qua giá trị của độ đo liên kết trọng số dựa trên số lượng bài báo viết chung, có thể nhận thấy khả năng cộng tác giữa tác giả v3 và tác giả v1 cũng như tác giả v3 và tác giả v6 trong tương lai là như nhau. Tiếp đến, tính giá trị độ đo liên kết trọng số dựa trên số lượng tác giả trong mỗi bài báo sẽ nhận được 𝑆𝐶𝑁 𝑛𝑎(v3, v1) = (3 + 1/3)/2  1.67, và 𝑆𝐶𝑁 𝑛𝑎(v3, v6) = (3 + 1/2)/2 = 1.75 do giữa hai tác giả v3 và v2 có 3 bài báo được viết chung và trong cả ba bài báo này đều chỉ do hai tác giả này viết. Vì vậy, trọng số liên kết trong mỗi bài báo được xác định bằng 1 (theo công thức (1.15)) và do đó tổng trọng số giữa tác giả v3 và v2 là 3; đối với tác giả v2 và tác giả v1 có một bài báo được viết chung song trong bài báo đó lại bao gồm 4 tác giả vì thế trọng số liên kết giữa hai tác giả v2 và v1 được xác định bằng 1/3. Tương tự như vậy, giữa hai tác giả v2 và v6 có một bài báo được viết chung và số lượng tác giả trong bài báo đó là 3 vì vậy trọng số liên kết giữa hai tác giả này là 1/3. Dễ nhận thấy rằng, đối với độ đo liên kết trọng số dựa trên số lượng bài báo chung trong một số trường hợp cho ra giá trị độ đo liên kết như nhau. Điều này gây khó khăn trong việc dự đoán mức độ cộng tác trong tương lai. Khi áp dụng độ đo liên kết trọng số dựa trên số lượng tác giả trong mỗi bài báo, giá trị độ đo liên kết đã có sự phân biệt hơn (𝑆𝐶𝑁 𝑛𝑎(v3, v1) = 1.67 so với 𝑆𝐶𝑁 𝑛𝑎(v3, v6) = 1.75). Tuy vậy, sự khác biệt giữa 𝑆𝐶𝑁 𝑛𝑎(v3, v1) và 𝑆𝐶𝑁 𝑛𝑎(v3, v6) là chưa nhiều để tác giả v3 đưa ra quyết định cộng tác với tác giả v1 hay v6. Giả sử trong công thức (1.11), nếu thay thế trọng số cộng tác 𝜔𝑛𝑝 bởi 𝜔𝑝𝑡 thì giá trị độ đo liên kết trọng số dựa trên thứ tự tác giả và thời gian công bố của mỗi bài báo đối với hai cặp tác giả (v3, v1) và (v3, v6) được tính bằng 𝑆𝐶𝑁 𝑝𝑡 (v3, v1) = 1.29 và 𝑆𝐶𝑁 𝑝𝑡 (v3, v6)  0.805. Khác với độ đo trọng số dựa trên số tác giả trong mỗi bài báo, mức độ tương đồng 𝑆𝐶𝑁 𝑝𝑡 (v3, v1) > 𝑆𝐶𝑁 𝑝𝑡 (v3, v6), có sự khác biệt này là do giữa hai cặp tác giả (v2, v1) và (v2, v6) có sự khác biệt về thứ tự tác giả trong bài báo cùng với thời gian công bố giữa hai bài báo được viết chung bởi cặp tác giả (v2, v1) và (v2, v6). Có thể thấy rằng, trọng số liên kết 𝜔𝑝𝑡 cũng đã phản ánh được một khách quan hơn mức độ cộng tác giữa hai tác giả so với hai loại trọng số liên kết 𝜔𝑛𝑝 và 𝜔𝑛𝑎. Thật tiếc, cho đến nay, chưa có nghiên cứu nào sử dụng loại trọng số này trong các độ đo liên kết có trọng số như đã đề cập. Do vậy, luận án đã đề xuất các độ đo liên kết trọng số mở rộng dựa trên thứ tự của các tác giả và thời gian bài báo được xuất bản xác định bởi các công thức (2.1), (2.2), và (2.3) tương ứng với các ký hiệu độ đo liên kết lần lượt là 𝑆𝐶𝑁 𝑝𝑡 , 𝑆𝐴𝐴 𝑝𝑡 , 𝑆𝐽𝐶 𝑝𝑡 . 46 Các công thức từ (2.1) đến (2.3) đã được công bố trong nghiên cứu CT5. ( ) ( ) ( , ) ( , ) ( , ) 2 pt ptpt CN z u v u z v z S u v       (2.1) ( ) ( ) ( ) ( , ) ( , ) ( , ) 1 2 (1 ( , )) pt AA pt pt z u v ptz z S u v u z v z Log z z             (2.2) ( ) ( ) ( ) ( ) ( , ) ( , ) 2( , ) ( , ) ( , ) pt pt z u v pt JC pt ptu u v v u z v z S u v u u v v                 (2.3) Trong đó, 𝜔𝑝𝑡(𝑢, 𝑣) được xác định bởi công thức (1.5) trong chương 1. 2.2. Các độ đo liên kết dựa trên nội dung bài báo Các độ đo liên kết dựa trên trọng số giới thiệu trong mục 1.1.3 và mục 2.1 đã phản ánh được mức độ liên kết giữa hai cặp tác giả thông qua số lượng tác giả, thứ tự của các tác giả và thời gian xuất bản các bài báo. Tuy nhiên, trong mạng đồng tác giả, mỗi một mối cộng tác giữa hai tác giả lại ẩn chứa nội dung của bài báo mà hai tác giả cộng tác, nội dung của các bài báo mà mỗi tác giả đã viết có thể cho chúng ta biết về chủ đề hay lĩnh vực họ đang nghiên cứu, từ đó có thể biết được liệu những tác giả nào có lĩnh vực hay nội dung nghiên cứu tương đồng (hoặc gần) với tác giả cần xem xét, từ đó có thêm thông tin để dự đoán xem hai tác giả nào sẽ có khả năng cộng tác với nhau trong tương lai. Một số nghiên cứu trước đó đã xem xét mức độ tương đồng giữa hai tác giả thông qua tập các từ khóa xuất hiện trong các bài báo hoặc tập các từ xuất hiện trong tên và nội dung tóm tắt của bài báo [5, 50, 75, 92], sử dụng véc-tơ trọng số TF-IDF [87] hoặc xem xét mức độ tương quan giữa các tác giả dựa trên các lĩnh vực mà các bài báo họ đã công bố được u v z Pu = {pu1, pu2, , pum} Puz = {puz1, , puzk} Pv = {pv1, pv2, , pvn} Pvz = {pvz1, , pvzq} Nz = {(x1, (x1, z)), , (xl, (xl, z))} (u, z) (v, z) Hình 2.1 Minh họa độ đo liên kết mở rộng 47 phân vào [54]. Với cách này, không xem xét được tính tương đồng ngữ nghĩa hai tập từ, bởi lẽ hai từ khác nhau vẫn có thể có nghĩa tương đồng hoặc cùng thuộc về một chủ đề nào đó hoặc có thể cùng một mảng nghiên cứu được phân vào các lĩnh vực khác nhau và một lĩnh vực nghiên cứu có thể được diễn đạt với các tên khác nhau. Vì vậy, trong luận án này đã sử dụng phương pháp phân tích chủ đề để xác định mức độ tương đồng giữa hai bài báo. Trên thực tế, có nhiều phương pháp phân tích theo chủ đề. Tuy nhiên, vì khuôn khổ luận án có hạn nên chỉ lựa chọn kỹ thuật LDA bởi kỹ thuật này khá trực quan, có nhiều mã nguồn đáng tin cậy được chia sẻ trên mạng Internet có thể sử dụng lại được và đã được sử dụng trong mô hình CTR [86] để khuyến nghị bài báo khoa học. Mặt khác, việc hai tác giả u, v đã từng cùng cộng tác với một tác giả z nào đó cũng sẽ là cầu nối để hai tác giả u, v sẽ cộng tác với nhau trong tương lai. Độ đo liên kết đã được đề xuất như KMC [92] hay AKMC [75] mới chỉ xem xét mức độ tương đồng giữa hai tác giả u, v thông qua hai tập bài báo (Pu, Pv) được công bố bởi họ (dựa trên hai tập từ khóa hoặc hai tập từ xuất hiện trong nội dung tóm tắt của các bài báo) mà chưa xem xét đến mức độ tương đồng giữa tập bài báo được viết bởi tác giả u, z (Puz) với tập bài báo được viết chung bởi tác giả v, z (Pvz). Nếu hai tập bài báo (Pu, Pv) chỉ có một vài bài báo liên quan đến nhau, nhưng nếu những bài báo liên quan này lại xuất hiện tương ứng trong hai tập bài báo (Puz, Pvz) thì khả năng cộng tác giữa u và v càng cao bởi họ đã từng cùng cộng tác với tác giả z trong một số lĩnh vực. Từ phân tích trên kết hợp với những khảo sát về sự ảnh hưởng của nội dung bài báo đến các độ đo liên kết trong công trình nghiên cứu CT3, độ đo liên kết mở rộng dựa trên nội dung bài báo trong mạng đồng tác giả được luận án đề xuất. Hình 2.1 sẽ minh họa cho độ đo liên kết đã đề xuất. Hình 2.1 xem xét sự tương tác giữa hai tác giả u và v thông qua một tác giả z có mối cộng tác với cả hai tác giả u và v. Pu và Pv lần lượt là tập các bài báo đã được công bố bởi tác giả u và v; Puz và Pvz là tập các bài báo được công bố bởi cặp tác giả (u, z) và (v, z) tương ứng; (u, z) và (v, z) là trọng số liên kết giữa u với z, và v với z tương ứng; Nz là tập các tác giả đã cộng tác với z cùng với trọng số liên kết với z. Để xác định mức độ tương đồng giữa hai tác giả, có thể kết hợp mức độ tương đồng giữa hai tập bài báo được công bố bởi hai tác giả u, v (S(Pu, Pv) có thể xem như là mức độ tương đồng về lĩnh vực nghiên cứu) với mức độ tương tự giữa hai tập bài báo được viết chung bởi hai tác giả (u, z) và (v, z) (S(Puz, Pvz)) dựa trên ý tưởng của độ đo liên kết trọng số theo láng giềng chung (𝑆𝐶𝑁 𝑛𝑝 ). 48 Có hai cách kết hợp là kết hợp tích và kết hợp tuyến tính. a) Kết hợp tích, ký hiệu là SP_LDAcosin(u, v) được tính theo công thức (2.4) [CT5] _ cos ( ) ( )1 ( , ) 1 ( , ) ( , ) 1 1 1 ( ) ( )u v uz vz P LDA in z u vS P P S P P S u v u ve e          (2.4) Trong đó, ( , )u v av avx x u vSP P P av avx x u v    (2.5) 1 1 ( ) ( ), 1: m av u ui i x j x j j K m    (2.6) ( , )uz vz av avx x uz vzSP P P av avx x uz vz    (2.7) 1 1 ( ) ( ), 1, k av uz uzi i x j x j j K k    (2.8) Xu = {xu1,,xum}, Xv = {xv1,,xvn}, Xuz = {xuz1,,xuzk}, Xvz = {xvz1,,xvzq} lần lượt là tập các véc-tơ trong không gian K chiều, biểu diễn các bài báo trong Pu, Pv và Pvz tương ứng; 𝑥𝑢 𝑎𝑣là véc-tơ trung bình từ tập các bài báo của tác giả u; m, n lần lượt là số lượng bài báo được công bố bởi tác giả u, v; k, q lần lượt là số bài báo được viết chung bởi tác giả u và z, và v và z. Trong công thức (2.4), mức độ tương đồng giữa hai tác giả càng cao nếu họ có nhiều tương đồng về lĩnh vực nghiên cứu và mức độ tương đồng trung bình giữa tập các bài báo của hai nút với láng giềng chung càng cao. b) Kết hợp tuyến tính, ký hiệu là SLDAcosin (u, v) Độ đo liên kết dựa trên nội dung bài báo (SLDAcosin) được xây dựng dựa trên sự kết hợp tuyến tính mức độ tương đồng giữa hai tập bài báo mà hai tác giả đã công bố (trong Hình 2.1 chính là hai tập Pu và Pv), và mức độ tương đồng giữa hai tập bài báo mà mỗi tác giả đã viết chung với tác giả láng giềng chung (trong Hình 2.1 là tập Puz và Pvz). SLDAcosin được xác định bởi công thức (2.9). ( ) ( ) ( , ) cos 1 ( , ) (1 ) ( , ) | ( ) ( ) | u v uz vz z u v S u v LDA in SP P P SP P P u v              (2.9) 49 Trong đó, hệ số kết hợp  (0, 1), S(Pu, Pv) được tính theo công thức (2.5) và S(Puz, Pvz) được tính theo công thức (2.7). Mức độ tương đồng giữa hai tác giả dựa trên nội dung bài báo được đề xuất trong công thức (2.9) có thể áp dụng cho hai tác giả bất kỳ, trong trường hợp hai tác giả không có láng giềng chung (tức là không có tác giả nào cùng viết chung với hai tác giả đó) thì thành phần thứ hai (chứa S(Puz, Pvz)) trong công thức (2.9) sẽ bằng 0. Như vậy, công thức (2.9) có tính phổ quát cao hơn công thức (2.4), đồng thời tham số  cho phép điều chỉnh sự ảnh hưởng của từng thành phần (thành phần thứ nhất chứa S(Pu, Pv), và thành phần thứ hai chứa S(Puz, Pvz)) tùy thuộc vào từng trường hợp cụ thể. Phương pháp LDA được sử dụng để phân tích mỗi bài báo vào K chủ đề khác nhau (K nguyên dương), thông tin của mỗi bài báo được sử dụng để phân tích chủ đề bao gồm tên và nội dung tóm tắt của bài báo với mong muốn xác định được một cách chính xác nhất và có tính tương đồng cao về ngữ nghĩa lĩnh vực nghiên cứu của mỗi tác giả thông qua nội dung của các bài báo. Sau khi áp dụng kỹ thuật LDA đối với tập các bài báo, sẽ nhận được một véc-tơ độ thuộc p trong không gian K chiều tương ứng với bài báo thứ p, các giá trị của mỗi phần tử jp trong p cho biết bài báo thứ p thuộc vào chủ đề thứ j với độ thuộc bằng bao nhiêu. Véc-tơ p được luận án sử dụng như là một véc-tơ đặc trưng cho bài báo thứ p, và dùng để tính các độ đo liên kết mở rộng mà luận án đã đề xuất. Trên cơ sở các độ đo liên kết trọng số đã được giới thiệu trong mục 1.1.3 và mục 2.1, và độ đo liên kết dựa trên nội dung bài báo (SLDAcosin) đã được đề xuất, có thể kết hợp các độ đo liên kết trọng với chỉ số SLDAcosin để tạo ra một độ đo liên kết mở rộng nhằm tăng cường (cải thiện) mức độ chính xác dự đoán khi áp dụng vào bài toán dự đoán liên kết trong mạng đồng tác giả. Trên cơ sở đó, việc kết hợp các độ đo liên kết trọng số với SLDAcosin đã được đề xuất trong luận án theo các công thức tổng quát từ (2.10) đến (2.12). Các đề xuất của luận án về việc kết hợp tuyến tính giữa các độ đo liên kết trọng số với độ đo liên kết dựa trên nội dung bài báo trên cơ sở việc phân tích sự ảnh hưởng của các độ đo liên kết trong mạng đồng tác giả đã được công bố trong công trình nghiên cứu CT2. _ cos cos( , ) ( , ) (1 ) ( , ) type type CN LDA in CN LDA inS u v S u v S u v      (2.10) type type AA_LDAcosin AA LDAcosin( , ) ( , ) (1 ) ( , )S u v S u v S u v      (2.11) type type JC_LDAcosin LDAcosin( , ) ( , ) (1 ) ( , )JCS u v S u v S u v      (2.12) Trong đó, type  {‘np’, ‘na’, ‘pt’} tương ứng với các kiểu trọng số liên kết, hệ số kết hợp   (0, 1) cho biết mức độ ảnh hưởng của độ đo liên kết trọng số đến độ đo liên kết kết 50 hợp, hệ số này cũng sẽ được tính thông qua thực nghiệm. Như vậy, ba kiểu trọng số liên kết và ba độ đo liên kết khi kết với hợp đô đo SLDAcosin sẽ cho ra được 9 cách kết hợp khác nhau. 2.3. Thuật toán tính độ đo liên kết và đánh giá độ phức tạp của thuật toán Trong mục này, luận án trình bày các thuật toán dưới dạng giả mã để tính toán giá trị độ đo liên kết dựa trên trọng số và dựa trên nội dung bài báo đã trình bày bày trong mục 1.1.3, 2.1 và 2.2. Ở đây, giả thiết mạng đồng tác giả được lưu dưới dạng danh sách kề. Do vậy, tập láng giềng ((u)) của một tác giả đã được xác định. Đầu tiên, luận án sẽ trình bày thuật toán 2.1 để xác định ba loại trọng số (type = {‘np’, ‘na’, ‘pt’}) làm cơ sở để tính toán các độ đo liên kết trọng số. Thuật toán 2.1 Weighted_based_type Đầu vào: Tập quan các hệ cộng tác E(T), tc thời gian hiện tại, tf là thời gian đầu tiên hai tác giả u, v cộng tác, loại trọng số cần tính type và tập các bài báo P(T). Đầu ra: Giá trị trọng số dựa trên type ứng với các cặp tác giả u, v có quan hệ cộng tác trong E(T) (𝜔𝑡𝑦𝑝𝑒). 1: For (u,v)  E(T) 2: (u,v) := 0 3: For p  Puv // tập các bài báo được viết chung bởi hai tác giả u, v 4: If type == ‘np’ 5: (u,v) := (u,v) + 1 6: Else 7: If type == ‘na’ 8: (u,v) := (u,v)+ 1/(p.numofauthors - 1) 9: Else // tính trọng số theo type = ’pt’ 10: tp := p.year; du := p.order(u); dv := p.order(v); t0 := tf - 1 11: (u,v) := (u,v) + DCL(du, dv)*(tp – t0)/(tc – t0) 12: End If 13: End If 14: End For 15: End For // DCL(du, dv) được xác định theo công thức (1.4) trong chương 1 51 Mệnh đề 2.1. Thuật toán 2.1 có độ phức tạp thời gian là O(NDQ). Trong đó, N là tổng số tác giả trong mạng, D và Q lần lượt là số láng giềng lớn nhất và số bài báo lớn nhất của một tác giả nào đó. Chứng minh. Dễ nhận thấy, thuật toán sẽ thực hiện hai vòng For lồng nhau (dòng 1, 3). - Xét vòng For thứ 2 (dòng 3): Dễ nhận thấy, cần phải duyệt vòng For theo tập số bài báo chung của hai tác giả u, v (Puv). Do vậy, độ phức tạp thời gian được xác định là T1 (Q) = O(Q). - Xét vòng For thứ 1 (dòng 1): Dễ nhận thấy, cần phải duyệt vòng For theo số lượng cộng tác trong E(T). Do vậy, độ phức tạp thời gian được xác định là T2 (|E(T)|, Q) = |E(T)|T1(Q) = O(|E (T)|Q). Mặt khác, do đồ thị biểu diễn mối quan hệ cộng tác giữa các tác giả là một đơn đồ thị vô hướng. Vì vậy, ta có mối quan hệ (tổng bậc của tất cả các nút bằng hai lần số cạnh) 2|E(T)| = ∑ |Γ(𝑣)|𝑣∈𝑉(𝑇) . Từ đó, |E (T)|  ND/2. Như vậy, độ phức tạp thời gian khi xét với vòng For thứ nhất là T2(N, D, Q) = O(NDQ). Tóm lại, độ phức tạp thời gian của thuật toán 2.1 là: T(N, D, Q) = T2 (N, D, Q) = O(NDQ). Do các độ đo liên kết trọng số dựa trên CN (bao gồm 𝑆𝐶𝑁 𝑡𝑦𝑝𝑒 , với type là kiểu trọng số liên kết) đều có cách tính tương tự nhau, chỉ khác biệt ở việc tính trọng số liên kết giữa hai tác giả. Nên để cho ngắn gọn, luận án sẽ trình bày một thuật toán chung để tính toán giá trị của các độ đo liên kết trọng số dựa trên CN thông qua Thuật toán 2.2 dưới đây. Mệnh đề 2.2. Thuật toán 2.2 có độ phức tạp thời gian là O(NDQ +ND2). Trong đó, N là tổng số tác giả trong mạng, D và Q lần lượt là số láng giềng lớn nhất và số bài báo lớn nhất của một tác giả nào đó. Chứng minh. Dễ nhận thấy, thuật toán sẽ thực hiện tính trọng số cho các quan hệ cộng tác (type) theo Thuật toán 2.1, sau đó thực hiện ba vòng For lồng nhau (dòng 1, 3, 4). - Để tính trọng số cho các quan hệ cộng tác theo Thuật toán 2.1 thì độ phức tạp thời gian được xác định là T1(N, D, Q) = O(NDQ). - Xét vòng For thứ 3 (dòng 4): cần duyệt theo số láng giềng của tác giả v ((v)), do đó độ phức tạp thời gian được xác định là T2(D) = O(D). - Xét vòng For thứ 2 (dòng 3): cần duyệt theo số láng giềng của tác giả u ((u)), do đó độ phức tạp thời gian được xác định là T3(D) = DT2(D) = O(D2). - Xét vòng For thứ nhất (dòng 1): cần duyệt theo tất cả các tác giả trong mạng (V(T)), do đó độ phức tạp thời gian được xác định là T4(N, D) = NT3(D) = O(ND2). 52 Tóm lại, độ phức tạp thời gian của thuật toán 2.2 là: T(N, Q, D) = T1(N, D, Q) + T4(N, D) = O(NDQ+ND 2). Thuật toán 2.2 Weighted_Metrics_based_CN Đầu vào: Tập các tác giả V(T), tập các cộng tác E(T ), tập các bài báo P(T) và type  {‘np’, ‘na’, ‘pt’} tương ứng với các kiểu trọng số liên kết. Đầu ra: Giá trị độ đo liên kết trọng số dựa trên CN ứng với các cặp tác giả có chung láng giềng (𝑆𝐶𝑁 𝑡𝑦𝑝𝑒 ). 1: type := Weighted_based_type(E(T ), P(T), type)// tính trọng số liên kết cho các quan hệ cộng tác 2: For u  V(T) 3: hset := new HashSet() 4: For v  (u) 5: For x  (v)\{u} 6: If (check(x) ==0 && hset.contains(x)) 7: 𝑆𝐶𝑁 𝑡𝑦𝑝𝑒(𝑢, 𝑥) := 𝑆𝐶𝑁 𝑡𝑦𝑝𝑒(𝑢, 𝑥) + (type(u, v) + type(v, x))/2 8: Else If (check(x) == 0) 9: hset.add(x) 𝑆𝐶𝑁 𝑡𝑦𝑝𝑒(𝑢, 𝑥) := (type(u, v) + type(v, x))/2 10: End If 11: End For 12: End For 13: Check(u) := 1 14: End For 53 Tương tự như các độ đo liên kết trọng số dựa trên CN, các độ đo liên kết trọng số dựa trên AA (bao gồm 𝑆𝐴𝐴 𝑡𝑦𝑝𝑒 ) cũng được trình bày trên một Thuật toán chung để tính toán giá trị của các độ đo liên kết dựa trên Thuật toán 2.3 dưới đây. Thuật toán 2.3 Weighted_Metrics_based_AA Đầu vào: Tập các tác giả V(T), tập các cộng tác E(T ), tập các bài báo P(T) và type  {‘np’, ‘na’, ‘pt’} tương ứng với các kiểu trọng số liên kết. Đầu ra: Giá trị độ đo liên kết trọng số dựa trên AA ứng với các cặp tác giả có láng giềng chung (𝑆𝐴𝐴 𝑡𝑦𝑝𝑒 ). 1: type := Weighted_based_type(E(T ), P(T), type)// tính trọng số liên kết cho các quan hệ cộng tác 2: For u  V(T) 3: For v  (u) // lần lượt xét các láng giềng của u 4: wv := 0 hset : = new HashSet() 5: For y  (v) // lần lượt xét các láng giềng của v 6: wv := wv + type(y, z) // tính tổng trọng số của v 7: End For 8: For x  (v)\{u} // lần lượt xét các láng giềng của v 9: If (check(x) ==0 && hset.contains(x)) 10: 𝑆𝐴𝐴 𝑡𝑦𝑝𝑒(𝑢, 𝑥) := 𝑆𝐴𝐴 𝑡𝑦𝑝𝑒(𝑢, 𝑥) + ( ( , ) ( , )) 2 (1 ) type typeu v v x Log wv    11: Else If (check(x) == 0) 12: hset.add(x) 13: 𝑆𝐴𝐴 𝑡𝑦𝑝𝑒(𝑢, 𝑥) := ( ( , ) ( , )) 2 (1 ) type typeu v v x Log wv    14: End If 15: End For 16: End For 17: Check(u) := 1 18: End For 54 Mệnh đề 2.3. Thuật toán 2.3 có độ phức tạp thời gian là O(NDQ +ND2). Trong đó, N là tổng số tác giả trong mạng, D và Q lần lượt là số láng giềng lớn nhất và số bài báo lớn nhất của một tác giả nào đó. Chứng minh. Dễ nhận thấy, thuật toán sẽ tính toán trọng số liên kết cho các quan hệ cộng tác (type), sau đó thực hiện hai vòng For lồng nhau (dòng 2, 3), đối với vòng For thứ hai thì thực hiện hai vòng For liên tiếp (dòng 5, 8). - Để tính trọng số cho các quan hệ cộng tác theo Thuật toán 2.1 thì độ phức tạp thời gian được xác định là T1(N, D, Q) = O(NDQ). - Xét vòng For dòng 5: cần duyệt theo số láng giềng của tác giả v ((v)), do đó độ phức tạp thời gian được xác định là T2(D) = O(D). - Xét vòng For dòng 8: cần duyệt theo số láng giềng của tác giả v ((v)), do đó độ phức tạp thời gian được xác định là T3(D) = O(D). - Xét vòng For thứ hai (dòng 3): cần duyệt theo số láng giềng của tác giả u ((u)), do đó độ phức tạp thời gian được xác định là T4(D) = D(T2(D)+T3(D)) = O(D2). - Xét vòng For thứ nhất (dòng 1): cần duyệt theo tất cả các tác giả trong mạng (V(T)), do đó độ phức tạp thời gian được xác định là T5 (N, D) = NT4(D) = O(ND2). Tóm lại, độ phức tạp thời gian của thuật toán 2.3 là: T(N, Q, D) = T1(N, D, Q) + T5(N, D) = O(NDQ+ND 2). Tương tự như hai Thuật toán 2.2 và 2.3, các độ đo liên kết trọng số dựa trên JC (bao gồm 𝑆𝐽𝐶 𝑡𝑦𝑝𝑒 ) cũng được trình bày trên một Thuật toán chung để tính toán giá trị của các độ đo liên kết theo Thuật toán 2.4 dưới đây. Mệnh đề 2.4. Thuật toán 2.4 có độ phức tạp thời gian O(NDQ +ND2). Trong đó, N là tổng số tác giả trong mạng, D và Q lần lượt là số láng giềng lớn nhất và số bài báo lớn nhất của một tác giả nào đó. Chứng minh. Dễ nhận thấy, thuật toán sẽ tính toán trọng số liên kết cho các quan hệ cộng tác (type), sau đó từ dòng 2 đến dòng 9 thuật toán sẽ thực hiện hai vòng For lồng nhau (dòng 2, 4), từ dòng 10 đến 23 thuật toán sẽ thực hiện ba vòng For lồng nhau (dòng 10, 12, 13). - Để tính trọng số cho các quan hệ cộng tác theo Thuật toán 2.1 thì độ phức tạp thời gian được xác định là T1(N, D, Q) = O(NDQ). - Xét vòng For dòng 4: cần duyệt theo số láng giềng của tác giả u ((u)), do đó độ phức tạp thời gian được xác định là T2(D) = O(D). - Xét vòng For dòng 2: cần duyệt theo tất cả các tác giả trong mạng (V(T)), do đó độ phức tạp thời gian được xác định là T3(N, D) = NT2(D) = O(ND). 55 - Xét vòng For dòng 13: cần duyệt theo số láng giềng của tác giả v ((v)), do đó độ phức tạp thời gian được xác định là T4(D) = O(D). - Xét vòng For dòng 12: cần duyệt theo số láng giềng của tác giả u ((u)), do đó độ phức tạp thời gian được xác định là T5(D) = DT4(D) = O(D2). - Xét vòng For dòng 10: cần duyệt theo tất cả các tác giả trong mạng (V(T)), do đó độ phức tạp thời gian được xác định là T6(N, D) = NT5(D) = O(ND2). Tóm lại, độ phức tạp thời gian của thuật toán 2.4 là: T(N, Q, D) = T1(N, D, Q)+T3(N, D)+T6(N, D) = O(NDQ)+ O(ND)+O(ND 2) = O(NDQ+ND2). Thuật toán 2.4 Weighted_Metrics_based_JC Đầu vào: Tập các tác giả V(T), tập các cộng tác E(T ), tập các bài báo P(T) và type  {‘np’, ‘na’, ‘pt’} tương ứng với các kiểu trọng số liên kết. Đầu ra: Giá trị độ đo liên kết trọng số dựa trên JC ứng với các cặp tác giả có chung láng giềng (𝑆𝐽𝐶 𝑡𝑦𝑝𝑒 ). 1: type := Weighted_based_type(E(T ), P(T), type)// tính trọng số liên kết cho các quan hệ cộng tác 2: For u  V(T) 3: w(u) := 0 5: For each y  (u) 7: w(u) := w(u) + type(u, y) 8: End For 9: End For 10: For u  V(T) 11: hset : = new HashSet() 12: For each v  (u) // lần lượt xét các láng giềng của u 13: For each x  (v)\{u} // lần lượt xét các láng giềng của v 14: If (check(x) ==0 && hset.contains(x)) 15: 𝑆𝐽𝐶 𝑡𝑦𝑝𝑒(𝑢, 𝑥)= 𝑆𝐽𝐶 𝑡𝑦𝑝𝑒(𝑢, 𝑥) + (type(u, v) + type(v, x))/2(w(u)+w(x)) 16: Else If (check(x) == 0) 17: hset.add(x) 18: 𝑆𝐽𝐶 𝑡𝑦𝑝𝑒(𝑢, 𝑥)= (type(u, v) + type(v, x))/2(w(u)+w(x)) 19: End If 20: End For 21: End For 22: Check(u) := 1 23: End For 56 Giá trị độ đo liên kết dựa trên nội dung bài báo P_LDAcosin và LDAcosin sẽ được xác định dựa trên Thuật toán 2

Các file đính kèm theo tài liệu này:

luan_an_nghien_cuu_va_phat_trien_mot_so_do_do_lien_ket_trong.pdf