Luận án Mở rộng các kỹ thuật xây dựng mô hình QSAR và Tiến hành tổng hợp các dẫn xuất flavonoid mới - Bùi Thị Phương Thúy

LỜI CAM ĐOAN . i

LỜI CẢM ƠN. ii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT. iii

DANH MỤC CÁC BẢNG . vi

DANH MỤC CÁC HÌNH VẼ. viii

MỤC LỤC.x

MỞ ĐẦU .1

CHƯƠNG 1. TỔNG QUAN TÀI LIỆU.4

1.1. BỆNH UNG THƯ CỔ TỬ CUNG. 4

1.1.1. Các nguyên nhân gây ung thư . 4

1.1.2. Điều trị. 5

1.1.3. Phòng ngừa. 6

1.2. LIÊN HỆ GIỮA CẤU TRÚC VÀ HOẠT TÍNH . 6

1.3. TÍNH TOÁN THÔNG TIN CẤU TRÚC . 9

1.3.1. Cơ học phân tử . 9

1.3.2. Cơ học lượng tử. 9

1.3.3. Phương pháp bán thực nghiệm. 11

1.4. CÁC MÔ HÌNH TOÁN HỌC . 12

1.4.1. Hồi quy đa biến . 12

1.4.2. Hồi quy thành phần chính. 22

1.4.3. Bình phương tối thiểu riêng phần. 25

1.4.4. Giải thuật di truyền. 31

1.4.5. Mạng thần kinh nhân tạo (ANN). 39

1.4.5.1. Khái niệm . 39

1.4.5.2. Cấu trúc mạng. 40

1.4.6. Thống kê đánh giá mô hình. 45

1.4.7. Tính toán đóng góp của các tham số . 46

1.5. HỢP CHẤT FLAVONOID. 46

1.5.1. Giới thiệu chung. 46

1.5.2. Phân loại dẫn xuất flavonoid . 47xi

1.5.3. Phân bố flavonoid trong tự nhiên . 48

1.5.4. Hoạt tính sinh học của flavonoid. 48

1.6. PHÂN LẬP VÀ XÁC ĐỊNH CẤU TRÚC FLAVONOID . 50

1.6.1. Phân lập flavonoid. 50

1.6.2. Xác định cấu trúc flavonoid . 50

1.6.3. Thử hoạt tính in vitro của flavonoid tự nhiên. 50

CHƯƠNG 2. NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU .51

2.1. SƠ ĐỒ NGHIÊN CỨU . 51

2.2. CƠ SỞ DỮ LIỆU, NGUYÊN LIỆU VÀ PHƯƠNG PHÁP. 52

2.2.1. Xây dựng cơ sở dữ liệu thông tin phân tử . 52

2.2.2. Nguyên liệu và phương pháp. 52

2.2.2.1. Phần mềm ứng dụng . 52

2.2.2.2. Hóa chất, thiết bị. 52

2.2.2.3. Nguyên liệu . 53

2.3. NGHIÊN CỨU LÝ THUYẾT. 54

2.3.1. Phương pháp tính toán thông tin cấu trúc. 54

2.3.1.1. Cơ học phân tử. 54

2.3.1.2. Hóa lượng tử. 54

2.3.1.3. Các tham số cấu trúc. 55

2.3.2. Xây dựng các mô hình QSAR . 55

2.4. SÀNG LỌC, PHÂN LẬP FLAVONOID TỰ NHIÊN. 56

2.4.1. Phân lập các hợp chất flavonoid. 56

2.4.2. Xác định cấu trúc hóa học các hợp chất flavonoid. 58

2.4.2.1. Phương pháp phổ cộng hưởng từ hạt nhân . 58

2.4.2.2. Đo nhiễu xạ tia X đơn tinh thể. 59

2.4.3. Kỹ thuật thử hoạt tính in vitro . 59

2.4.3.1. Nguyên tắc phương pháp Sulforhodamine B. 59

2.4.3.2. Nuôi cấy tế bào . 60

2.4.3.3. Nhuộm SRB. 61

2.4.3.4. Xử lý kết quả . 61

2.4.3.5. Xác định GI50. 61

2.5. THIẾT KẾ VÀ DỰ BÁO HOẠT TÍNH CỦA FLAVONOID . 62

CHƯƠNG 3. KẾT QUẢ & THẢO LUẬN.63xii

3.1. NGHIÊN CỨU LÝ THUYẾT. 63

3.1.1. Tính toán thông tin cấu trúc. 63

3.1.1.1. Khảo sát phương pháp cơ học phân tử. 63

3.1.1.2. Khảo sát phương pháp hóa lượng tử. 64

3.1.2. Tham số cấu trúc và tính chất phân tử. 65

3.1.2.1. Điện tích . 65

3.1.2.2. Phổ 13C-NMR, 15O-NMR và độ dịch chuyển hóa học. 66

3.1.2.3. Tham số hóa lý . 66

3.1.2.4. Tham số hình học 2D, 3D. 66

3.2. XÂY DỰNG MÔ HÌNH QSAR . 66

3.2.1. Khảo sát các biến số mô hình. 66

3.2.2. Xây dựng các mô hình QESAR. 70

3.2.2.1. Mô hình tuyến tính QESARMLR. 70

3.2.2.2. Mô hình mạng thần kinh QESARANN . 74

3.2.2.3. Kiểm tra khả năng dự đoán. 75

3.2.3. Xây dựng các mô hình QSDAR . 75

3.2.3.1. Mô hình tuyến tính QSDARMLR . 75

3.2.3.2. Mô hình mạng thần kinh QSDARANN. 78

3.2.3.3. Kiểm tra khả năng dự đoán. 78

3.2.4. Xây dựng mô hình QSSRMLR . 79

3.2.4.1. Nguyên tắc xây dựng . 79

3.2.4.2. Tính toán các tham số hóa lý . 80

3.2.4.3. Xây dựng mô hình . 80

3.2.4.4. Kiểm tra khả năng dự đoán. 84

3.2.5. Xây dựng mô hình QSARMLR (3.16) và QSARANN(1). 85

3.2.5.1. Dữ liệu . 85

3.2.5.2. Xây dựng mô hình QSARMLR (3.16) . 85

3.2.5.3. Xây dựng mô hình QSARANN(1). 89

3.2.5.4. Khả năng dự đoán của mô hình QSARMLR (3.16) và QSARANN(1). 90

3.2.6. Xây dựng mô hình QSARMLR (3.17), QSARPCR (3.18) và QSARPCA-ANN. 91

3.2.6.1. Dữ liệu . 91

3.2.6.2. Xây dựng mô hình QSARMLR (3.17), QSARPCR (3.18) . 91

3.2.6.3. Xây dựng mô hình QSARPCA-ANN . 94

3.2.6.4. Khả năng dự đoán của các mô hình . 95xiii

3.2.7. Xây dựng mô hình QSARMLR (3.19), QSARPLS (3.20) và QSARANN(2) . 96

3.2.7.1. Dữ liệu . 96

3.2.7.2. Xây dựng mô hình QSARMLR (3.19) và QSARPLS (3.20) . 96

3.2.7.3. Xây dựng mô hình QSARANN(2). 99

3.2.7.4. Dự đoán hoạt tính sinh học của các hợp chất mới . 100

3.3. SÀNG LỌC, PHÂN LẬP FLAVONOID TỰ NHIÊN. 101

3.3.1. Phân lập cynaroside từ actiso . 101

3.3.2. Phân lập quercetin từ xa kê . 102

3.3.3. Phân lập luteolin từ tía tô. 103

3.3.4. Phân lập daidzin từ đậu nành. 105

3.3.4.1. Xác định cấu trúc daidzin bằng phương pháp NMR. 105

3.3.4.2. Xác định cấu trúc phân tử daidzin bằng phương pháp đo nhiễu xạ tia X . 106

3.3.5. Phân lập kaempferol-3-O-methylether từ gừng gió. 107

3.3.5.1. Xác định cấu trúc kaempferol-3-O-methylether bằng phương pháp NMR . 107

3.3.5.2. Xác định cấu trúc kaempferol-3-O-methylether bằng phương pháp đo nhiễu xạ tia X . 109

3.3.6. Phân lập kaempferol-3-O-(2,4-O-diacetyl-alpha-L-rhamnopyranoside) từ gừng gió . 110

3.3.7. Thử hoạt tính sinh học in vitro của các hợp chất flavonoid tự nhiên . 111

3.4. THIẾT KẾ VÀ DỰ BÁO HOẠT TÍNH CÁC FLAVONOID . 113

3.4.1. Mô hình QESAR . 113

3.4.2. Mô Hình QSDAR. 115

3.4.3. Mô hình QSSRMLR. 116

3.4.4. Mô hình QSARMLR (3.16) và QSARANN (1) . 121

3.4.5. Mô hình QSARMLR (3.17), QSARPCR và QSARPCA-ANN. 123

3.4.6. Mô hình QSARMLR (3.19 ), QSARPLS (3.20) và QSARANN(2) . 124

KẾT LUẬN VÀ KIẾN NGHỊ .127

DANH MỤC CÔNG TRÌNH .129

TÀI LIỆU THAM KHẢO .131

PHỤ LỤC.144

244 trang | Chia sẻ: trungkhoi17 | Lượt xem: 787 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận án Mở rộng các kỹ thuật xây dựng mô hình QSAR và Tiến hành tổng hợp các dẫn xuất flavonoid mới - Bùi Thị Phương Thúy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

rị P < 0,05 Phụ lục 7, hơn nữa đây là mô hình có giá trị R2tr = 0,906 và R2pr = 0,800 cao nhất, SE = 0,121 thấp nhất cho thấy đây là mô hình tuyến tính QSDARMLR tốt hơn cả. Mô hình QSDARMLR (với k = 7) có dạng: pGI50 = 32,99 + 0,016O1 + 0,006O11- 0,045C2 - 0,063C3 - 0,047C6 - 0,059C7 - 0,037C2' (3.5) 3.2.3.2. Mô hình mạng thần kinh QSDARANN Mô hình mạng thần kinh QSDARANN được xây dựng bằng mạng thần kinh trên phần mềm INForm [40] đã được khảo sát kiến trúc mạng. Kiến trúc I(7)- HL(2)-O(1) bao gồm lớp nhập I(7) với yếu tố đầu vào đã được chọn là O1, O11, C2, C3, C6, C7 và C2’ là các biến số trong mô hình tuyến tính QSDARMLR với k = 7 và một lớp xuất O(1) với yếu tố đầu ra (pGI50) như là biến mục tiêu, cấu trúc một lớp ẩn HL(2) với hai nút. Giải thuật lan truyền ngược, sai số 0,001 được sử dụng để luyện kiểu mạng thần kinh này. Các tham số để luyện mạng nơ ron là tốc độ học 0,7; momen = 0,7; vòng lặp 10000 và sai số MSE = 0,0305764. Hàm truyền sigmoid được sử dụng cho mỗi nơ ron của lớp nhập và lớp xuất. Sau khi luyện mô hình thần kinh QSDARANN, R2pr = 0,800; giá trị R2tr đạt được 0,924 cao hơn giá trị R2tr = 0,906 đối với mô hình tuyến tính QSDARMLR. 3.2.3.3. Kiểm tra khả năng dự đoán Khả năng dự đoán của các mô hình QSDARANN và QSDARMLR được đánh giá cẩn thận bằng kỹ thuật đánh giá chéo loại bỏ từng trường hợp. Trong trường hợp này 6 dẫn xuất flavone và isoflavone trong nhóm kiểm tra được chọn ngẫu nhiên như trong Phụ lục 6. Các giá trị hoạt tính kháng ung thư pGI50 của 6 dẫn xuất trong nhóm kiểm tra dẫn ra ở Bảng 3.15 nhận được từ mô hình tuyến tính QSDARMLR được so sánh với các giá trị nhận được từ mô hình mạng nơ ron sử dụng giá trị tuyệt đối của các sai số tương đối ARE,%. 79 Khả năng dự đoán của 2 mô hình cũng dựa vào giá trị MARE,%. Giá trị MARE,% = 1,119 đối với mô hình QSDARANN là nhỏ hơn giá trị MARE,% = 2,391 đối với mô hình QSDARMLR. Như vậy các giá trị dự đoán pGI50 nhận được từ mô hình QSDARANN là gần với các hoạt tính thực nghiệm [80]. Với pGI50,exp và pGI50,pr là các hoạt tính thực nghiệm và kiểm tra. Sai số MARE,% được sử dụng để đánh giá sai số toàn cục của các mô hình QSDARMLR và QSDARANN. Bảng 3.15 Hoạt tính pGI50,pr của các dẫn xuất kiểm tra và các giá trị ARE,% từ các mô hình QSDARMLR (với k = 7) và QSDARANN với kiến trúc I(7)-HL(2)-O(1) Hợp chất pGI50,exp pGI50,pr ARE,% QSADRMLR QSDARANN QSDARMLR QSDARANN a1 5,745 5,781 5,789 0,636 0,764 a2 5,699 5,758 5,796 1,039 1,697 a3 5,796 5,808 5,708 0,209 1,515 a4 5,921 6,181 5,957 4,389 0,606 a5 5,699 5,394 5,755 5,344 0,975 a6 5,658 5,503 5,723 2,730 1,157 MARE,% 2,391 1,119 Sau khi sử dụng các mô hình QSDARMLR và QSDARANN để dự đoán hoạt tính kháng ung thư của các dẫn xuất kiểm tra, độ lệch khoảng dự đoán là có thể chấp nhận. Các mô hình QSDARMLR và QSDARANN thỏa mãn các đòi hỏi thực tế để dự đoán hoạt tính kháng ung thư pGI50 của các dẫn xuất mới. Một lần nữa chúng tôi khẳng định khả năng dự đoán của các mô hình quan hệ cấu trúc hoạt tính là hoàn toàn đáng tin cậy. 3.2.4. Xây dựng mô hình QSSRMLR 3.2.4.1. Nguyên tắc xây dựng Xây dựng mô hình quan hệ cấu trúc – cấu trúc (QSSRMLR) để dự đoán hoạt tính cũng như tính chất hóa lý của các hợp chất flavonoid. Mô hình được xây dựng dựa vào tính chất tương tự của các cấu trúc phân tử dẫn đến các tính chất hóa học hay những tính chất khác cũng có mối tương quan, vì vậy có thể xây dựng mối quan hệ 80 cấu trúc với cấu trúc để từ đó xác định được tính chất của một hợp chất chưa biết dựa vào tính chất của các cấu trúc đã biết. Trong nghiên cứu này có hai nhóm chất có cấu trúc tương tự là nhóm flavone và isoflavone. Sử dụng quan hệ giữa cấu trúc – cấu trúc để dự đoán tính chất, hoạt tính kháng ung thư cúa các dẫn xuất flavonoid trong nhóm kiểm tra và flavonoid phân lập. 3.2.4.2. Tính toán các tham số hóa lý Các hợp chất trong Phụ lục 1a được xây dựng, tối ưu hóa cấu trúc phân tử bằng phương pháp cơ học phân tử MM+, mức gradient 0,05. Tham số hóa lý tính toán như mục 2.3.1 [15] Các tham số cấu trúc này được sử dụng làm dữ liệu để kiểm tra khả năng dự đoán của các mô hình QSSRMLR. 3.2.4.3. Xây dựng mô hình Mô hình tuyến tính QSSRMLR cũng được nghiên cứu, phát triển từ các kỹ thuật hồi quy tuyến tính. Mô hình quan hệ cấu trúc - cấu trúc (QSSRMLR) là mối quan hệ giữa những hợp chất (y) và các hợp chất có cấu trúc tương tự (x). Các mô hình QSSRMLR được xây dựng bằng phương pháp hồi quy tuyến tính. Sự phù hợp tốt nhất của mô hình QSSRMLR được thể hiện ở giá trị R2tr và khả năng dự đoán của các mô hình thể hiện ở giá trị R2pr. Sử dụng các hợp chất trong Phụ lục 1a để xây dựng các mô hình QSSRMLR. Mô hình QSSRMLR được xây dựng từ các thay đổi điện tích các nguyên tử của những hợp chất. Sự xắp xếp dọc theo thứ tự giá trị tương quan của mối quan hệ tuyến tính giữa những hợp chất sử dụng điện tích nguyên tử và tính chất hóa lý được chỉ ra ở Hình 3.4. 81 a) b) Hình 3.4 Mối tương quan giữa các hợp chất: a) sử dụng điện tích; b) sử dụng tính chất hóa lý ■: fla-A23 và fla-A11; ▲: fla-A15 và isofla-A32; ○: isofla-A32 và isofla-A4. Những hợp chất trong Phụ lục 1a được lựa chọn ngẫu nhiên để đánh giá mối tương quan điện tích nguyên tử và tính chất hóa lý giữa các hợp chất. Kết quả tính toán hệ số tương quan điện tích giữa các hợp chất được cho ở Bảng 3.1 . Bảng 3.16 Mối tương quan của các hợp chất sử dụng mô tả điện tích nguyên tử fla-A23 fla-A6 fla-A15 fla-A22 isofla-A32 fla-A28 fla-A5 isofla-A4 fla-A23 1,0000 fla-A6 0,8664 1,0000 fla-A15 0,9220 0,8254 1,0000 fla-A22 0,9984 0,8548 0,9132 1,0000 isofla-A32 0,9247 0,7565 0,9659 0,9254 1,0000 fla-A28 0,9222 0,8259 1,0000 0,9134 0,9656 1,0000 fla-A5 0,9986 0,8696 0,9267 0,9983 0,9261 0,9270 1,0000 isofla-A4 0,9250 0,7560 0,9659 0,9257 1,0000 0,9657 0,9264 1,0000 fla-A11 0,9999 0,8668 0,9225 0,9981 0,9236 0,9227 0,9986 0,9239 Những hợp chất có cấu trúc tương tự có tính chất tương quan tốt với nhau. Mô hình hồi quy tuyến tính của các hợp chất flavone và isoflavone (Y) được xây dựng từ điện tích nguyên tử được trình bày ở Bảng 3.17. Mô hình tuyến tính 82 QSSRMLR với các giá trị thống kê rất tốt R2tr = 0,999 và R2pr = 0,999. Bảng 3.17 đưa ra 10 mô hình từ 32 hợp chất nghiên cứu trong Phụ lục 1a đại diện cho khả năng dự đoán dựa trên mối quan hệ cấu trúc – cấu trúc. Bảng 3.17 Tính chất hóa lý và hoạt tính kháng ung thư pGI50 của các hợp chất nghiên cứu bằng mô hình QSSRMLR và các chất dùng để dự đoán Tính chất hóa lý và hoạt tính kháng ung thư pGI50 Phương pháp ARE% QSSR Tham khảo [15] Mô hình QSSR của Fla-A1 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00020159 Fla-A1 = 0,00015 + 1,018 (Fla-A5) -0,513 (Fla-A21)+ 0,497 (Fla-A22 ) (3.6) Độ khả phân cực bề mặt lưới 68,453 68,120 0,489 pGI50 5,663 5,699 0,638 Mô hình QSSR của Fla-A2 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00035399 Fla-A2 = -0,00020+1,260 (Fla-A6)+0,871 (Fla-A14)-1,134 (Fla-A24) (3.7) Nhiệt nóng chảy (Tm) ở 1 atm 741,521 745,496 0,533 Nhiệt độ tới hạn (Tc) 931,125 934,452 0,356 Mol Refractivity 8,711 8,715 0,053 Nhiệt độ sôi, (Tb) ở 1 atm 978,789 980,510 0,176 pGI50 6,473 5,921 9,321 Mô hình QSSR của Fla-A3 với R 2 tr = 0,9999; R 2 pr = 0,9999; SE = 0,00010411 Fla-A3 = 0,00002+0,935 (Fla-A7) +0,582 (Fla-A16) -0,517 (Fla-A28) (3.8) Nhiệt nóng chảy (Tm) ở 1 atm 737,884 745,496 1,021 Nhiệt độ tới hạn (Tc) 932,899 934,452 0,166 Hiệu ứng nhiệt KJ/mol -318,085 -313,160 1,573 Hằng số Henry 7,266 7,240 0,355 pGI50 5,726 5,699 0,469 Mô hình QSSR của Fla-A4 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00013747 isoFla-A4 = -0,000002+0,980 (isoFla-A8)-0,233(isoFla-A18)+ 0,252(isoFla-A19) (3.9) Nhiệt nóng chảy (Tm) ở 1 atm 718,146 745,496 3,669 Nhiệt độ tới hạn (Tc) 914,478 934,452 2,138 83 Hằng số Henry 7,237 7,240 0,042 pGI50 5,084 5,009 1,495 Mô hình QSSR của Fla-A5 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00019793 Fla-A5 = -0,00015+0,982 (Fla-A1) +0,499 (Fla-A21) -0,483 (Fla-A22) (3.10) Nhiệt độ tới hạn (Tc) 936,289 913,478 2,497 Chỉ số khúc xạ phân tử 8,731 9,179 4,884 Nhiệt độ sôi, (Tb) ở 1 atm 977,737 933,630 4,724 Hằng số Henry 7,034 7,110 1,073 LogP 8,731 9,179 4,884 pGI50 5,734 5,699 0,618 Mô hình QSSR của Fla-A6 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00026038 Fla-A6 = 0,00019+0,682 (Fla-A2)-0,587 (Fla-A14)+0,907 (Fla-A24) (3.11) Nhiệt nóng chảy (Tm) ở 1 atm 730,455 717,167 1,853 Nhiệt độ tới hạn (Tc) 927,997 914,743 1,449 Khối lượng mol 324,833 323,343 0,461 pGI50 5,772 6,046 4,533 Mô hình QSSR của Fla-A7 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00013549 Fla-A7 = -0,00003+1,037 (Fla-A3)+-0,041 (Fla-A16)+0,004 (Fla-A27) (3.12) Nhiệt nóng chảy (Tm) ở 1 atm 743,221 717,167 3,633 Nhiệt độ tới hạn (Tc) 932,252 914,743 1,914 Hiệu ứng nhiệt KJ/mol -309,816 -313,790 1,267 Hằng số Henry 7,228 7,240 0,171 pGI50 5,700 5,658 0,750 Mô hình QSSR của Fla-A8 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00119054 isoFla-A8 = 0,0000051+ 1,006(isoFla-A4)+ 0,253(isoFla-A18)-0,259(isoFla-A19) (3.13) Nhiệt độ sôi, (Tb) ở 1 atm 746,066 717,167 4,030 Nhiệt độ tới hạn (Tc) 936,202 914,743 2,346 Hằng số Henry 7,243 7,240 0,038 pGI50 4,994 5,071 1,503 84 Mô hình QSSR của Fla-A9 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00018592 Fla-A9 = 0,000004+0,047 (Fla-A5) +1,025 (Fla-A11) -0,072 (Fla-A23) (3.14) Nhiệt nóng chảy (Tm) ở 1 atm 836,779 817,055 2,414 Nhiệt độ tới hạn (Tc) 1029,858 1011,888 1,776 Hằng số Henry 7,052 7,050 0,026 LogP 4,663 4,537 2,772 PGI50 5,698 5,745 0,810 Mô hình QSSR của Fla-A10 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00042716 Fla-A10 = 0,00012+0,977 (Fla-A9) -1,055 (Fla-A21) +1,079 (Fla-A22) (3.15) Nhiệt nóng chảy (Tm) ở 1 atm 815,011 814,381 0,077 Áp suất tới hạn (Pc), Bar 18,820 18,692 0,683 Nhiệt độ tới hạn (Tc) 1003,621 1004,806 0,118 Hiệu ứng nhiệt KJ/mol -404,221 -387,410 4,339 Chỉ số khúc xạ phân tử 10,963 10,930 0,305 Log P 3,766 3,740 0,694 Hằng số Henry 7,063 7,050 0,190 PGI50 5,652 5,678 0,448 3.2.4.4. Kiểm tra khả năng dự đoán Mô hình hồi quy tuyến tính nhận được từ các dẫn xuất flavone và isoflavone này có thể ứng dụng để dự đoán tính chất hóa lý cũng như hoạt tính kháng ung thư của các flavone và isoflavone có cấu trúc tương tự. Các mô tả cấu trúc phân tử của các hợp chất để xây dựng mô hình QSSRMLR được tính toán một cách cẩn trọng, kết quả dự đoán tính chất hóa lý và pGI50 cho ở Bảng 3.17, Hình 3.5 chỉ ra rằng mô hình hồi quy tuyến tính QSSRMLR của các hợp chất flavone và isoflavone là hoàn toàn đáng tin cậy. Phân tích ANOVA một yếu tố cũng chỉ ra rằng kết quả dự đoán tính chất hóa lý và hoạt tính kháng ung thư của các dẫn xuất flavone và isoflavone từ mô hình QSSRMLR thì không khác các giá trị tính chất hóa lý tham khảo, giá trị hoạt tính kháng ung thư xác định từ thực nghiệm [28] với (Ftt = 0,0010 < F0,05 = 3,9423). 85 Các mô hình QSSRMLR đã được xây dựng và dự đoán thành công tính chất hóa lý, hoạt tính pGI50 của nhóm dẫn xuất kháng ung thư flavone và isoflavone có cấu trúc tương tự. Hình 3.5 Quan hệ giữa tính chất hóa lý dự đoán và dữ liệu thực nghiệm 3.2.5. Xây dựng mô hình QSARMLR (3.16) và QSARANN(1) 3.2.5.1. Dữ liệu Tập dữ liệu sử dụng để xây dựng các mô hình QSAR bao gồm 32 hợp chất và hoạt tính kháng tế bào ung thư cổ tử cung GI50/M trong Phụ lục 1a. Các tham số cấu trúc 2D, 3D được tính toán bằng phương pháp cơ học phân tử trên phần mềm QSARIS, theo mục 3.1.2.4. Kết quả tính toán cho ở Phụ lục 10a đến Phụ lục 10h. 3.2.5.2. Xây dựng mô hình QSARMLR (3.16) Trong nghiên cứu này, các mô hình QSARMLR (3.16), phương trình 3.16 và QSARANN(1) thu được thông qua 2 nhóm: nhóm luyện được chọn lựa ngẫu nhiên và nhóm kiểm tra. Khả năng dự đoán của mô hình QSARMLR (3.16) và QSARANN(1) được đánh giá bằng cách so sánh kết quả dự đoán và hoạt tính thực nghiệm của các hợp chất trong nhóm kiểm tra, là nhóm không được sử để thiết lập mô hình QSARMLR (3.16) và QSARANN(1) từ nhóm luyện. G iá t rị d ự đ o án Giá trị thực nghiệm 86 Sự biến thiên các giá trị R2, R2pred và SE trong các mô hình QSARMLR với các tham số mô tả 2D và 3D, tương ứng chỉ ra trong Bảng 3.18. Bảng 3.18 Các mô hình QSARMLR (k từ 2 đến 10) với các giá trị R2, R2pred và MSE k Tham số mô tả phân tử 2D, 3D trong các mô hình MSE R² R²pred 2 a1, a2 0,063 0,657 0,630 3 a1, a2, a3 0,034 0,820 0,798 4 a2, a3, a4, a5 0,027 0,866 0,843 5 a2, a5, a6, a7, a8 0,023 0,891 0,867 6 a2, a5, a6, a8, a9, a10 0,019 0,914 0,890 7 a2, a5, a6, a8, a9, a10, a11 0,015 0,933 0,910 8 a5, a8, a10, a12, a13, a14, a15, a16 0,015 0,936 0,909 9 a5, a6, a8, a10, a11, a16, a17, a18, a19 0,012 0,955 0,932 10 a5, a6, a8, a10, a11, a15, a16, a17, a18, a19 0,012 0,955 0,928 Kí hiệu a1 là xvc3, a2 là dipole, a3 là xvpc4, a4 là xvp6, a5 là logP, a6 là xp8, a7 là volume, a8 là knotpv, a9 là xvp8, a10 là SHBa, a11 là Hmaxpos, a12 là xp6, a13 là SaaCH, a14 là k2, a15 là nvx, a16 là knotp, a17 là ABSQ, a18 là SsOH, a19 là phia. Để xây dựng các mô hình QSARMLR, các tham số mô tả 2D và 3D được chọn lựa bằng kĩ thuật hồi quy từng bước. Các tham số mô tả 2D, 3D được chọn dựa trên cơ sở các giá trị thống kê R2, SE và F-stat. Các mô hình được đánh giá chéo bằng kĩ thuật loại bỏ dần từng trường hợp (LOO) để xác định giá trị R2pred. 9 mô hình phù hợp nhất được chỉ ra trong Bảng 3.18. Các mô hình QSARMLR (với k từ 2 đến 10) được xắp xếp một cách trật tự với sự thay đổi các giá trị R2, SE và R2pred. Trong Bảng 3.18, các mô hình QSARMLR (với k từ 8 đến 10) là các mô hình có giá trị R2pred cao hơn cả. Cụ thể, trong mô hình QSARMLR với k = 9 có R2 cao nhất là 0,955 và R2pred là 0,932. Vì vậy, chúng tôi lựa chọn ba mô hình (với k là 8, 9 và 10) để xác định giá trị phần trăm đóng góp của các tham số mô tả 2D, 3D đối với hoạt tính kháng ung thư. 87 Bảng 3.19 Các giá trị thống kê và giá trị phần trăm đóng góp MPmxi,% và GMPmxi,% đối với các tham số mô tả phân tử 2D và 3D trong các mô hình QSARMLR (với k là 8, 9 và 10) QSARMLR MPmxi,% GMPmxi, % m = 8 M = 9 m = 10 m = 8 m = 9 m = 10 R2tr 0,936 0,955 0,955 R2 pr 0,909 0,932 0,928 SE 0,124 0,107 0,110 Hệ số -13,133 3,044 2,946 k2 -4,926 - - 23,638 7,879 xp6 -2,899 - - 6,399 2,133 xp8 - 4,473 4,282 14,301 12.181 8,827 nvx 3,487 - 0,036 45,229 1,138 15,456 knotp -8,350 -2,673 -2,794 9,072 7,879 7,325 8,092 knotpv 34,40 15,54 15,917 9,681 11,878 10,813 10,790 SHBa -0,225 0,019 0,016 4,398 1,004 0,770 2,057 Hmaxpos - -1,203 -1,201 3,439 3,060 2,166 SaaCH -0,166 - - 1,490 0,497 ABSQ - -5,982 -5,939 33,101 29,255 20,785 SsOH - 0,359 0,358 2,924 2,609 1,844 phia - 3,067 2,999 21,167 18,413 13,193 logP 0,050 0,839 0,793 0,093 4,308 3,624 2,675 Các giá trị phần trăm đóng góp trung bình MPmxi,%, GMPmxi, % và các giá trị thống kê khác đối với các mô hình (với k là 8, 9 và 10), được đưa ra trong Bảng 3.19. Giá trị phần trăm đóng góp trung bình MPmxi của các biến độc lập trong mỗi mô hình QSARMLR (với k là 8, 9 và 10), được xác định từ giá trị phần trăm đóng góp Pxk của mỗi biến độc lập trong từng trường hợp quan sát tương tứng Pmxi được tính toán từ giá trị đóng [86] góp tổng cộng Ctotal của mỗi biến trong từng hợp chất 88 [86]. Kết quả tính toán giá trị phần trăm đóng góp trung bình MPmxi,% và giá trị phần trăm đóng góp trung bình toàn cục GMPmxi,% được đưa ra trong Bảng 3.19. Giá trị phần trăm đóng góp trung bình toàn cục GMPmxi,% [86] trong Bảng 3.19 đã mô tả mức độ quan trọng của các tham số mô tả 2D, 3D của các flavone và isoflavone. Sự xắp xếp mức độ ảnh hưởng quan trọng của các tham số 2D, 3D trong các mô hình QSARMLR theo thứ tự là GMPmxi,%: SaaCH < SsOH < SHBa < xp6 < Hmaxpos < logP < k2 < knotp < xp8 < knotpv < phia < nvx < ABSQ. Các tham số mô tả ABSQ, nvx, phia, knotpv, xp8, knotp, k2 và LogP được xem là các tham số mô tả quan trọng nhất trong mỗi phân tử. Ngoài ra, các tham số mô tả phân tử đại diện cho các nhóm carbonyl C4 = O11 và nguyên tố O1. Các nguyên tố này có các cặp electron tự do với electron  của liên kết C2 = C3 và C4 = O11 tạo hệ liên hợp. Nhóm carbonyl C4 = O11 thể hiện toàn bộ phản ứng tự nhiên của nhóm của nhóm cacbonyl [80, 103]. Vì vậy, các tham số mô tả phân tử cũng chứng minh được định lượng tổng điện tích trên toàn phân tử bởi giá trị GMPmxi và chúng cũng phù hợp với các giá trị thực nghiệm [54, 80, 103]. Vì vậy, vị trí các nguyên tử C6 và C3’ còn trống, có thể gắn các nhóm thế mới trong nghiên cứu dẫn xuất mới [80, 89, 103]. Các vị trí khác cũng có thể đại điện tác động đến hoạt tính sinh học GI50, nhưng chúng là các vị trí không thể gắn thêm nhóm thế nên không được sử dụng để thiết kế dẫn xuất mới. 4.0 4.5 5.0 5.5 6.0 6.5 4.0 4.5 5.0 5.5 6.0 6.5 p G I5 0 pGI50Pred a) 5 .6 9 9 5 .6 9 9 5 .6 1 9 8 5 .6 3 8 3 5 .6 9 9 5 .0 8 6 25 .7 3 7 1 1 6 .0 4 7 8 1 5 .7 6 6 1 9 5 .6 8 4 3 4 5 .7 0 5 7 7 4 .9 3 6 4 9 fla1 fla11 fla24 fla25 fla26 fla30 2 3 4 5 6 7 V al u es p G I 5 0 Test substance flavonoid pGI 50,exp pGI 50,Pred Hợp chất flavonoid trong nhóm kiểm tra b) Hình 3.6 a) Hồi quy tuyến tính đa biến và b) giá trị pGI50 và pGI50,pred của flavonoid trong nhóm kiểm tra 89 Các vị trí C6 và C3’ được lựa chọn để gắn thêm các nhóm thế mới tạo thành các flavonoid mới. Tương tự, vị trí C2’ cũng còn trống và có thể sử dụng để gắn các nhóm mới vào phân tử. Điều này cho phép tạo nên các hợp chất mới có hoạt tính sinh học cao hơn hợp chất mẫu. Từ đó, các flavonoid chiết xuất có thể chọn lựa làm hợp chất mẫu để thiết kế thuốc mới có hoạt tính cao hơn. Điều này được chỉ ra trong phần thảo luận bên dưới. Các mô tả phân tử được ứng dụng trọng kỹ thuật phân tích hồi quy đa biến để thiết lập mô hình QSAR với quá trình lựa chọn biến số độc lập bằng cách sử dụng mô hình MLR [86, 107]. Mô hình QSAR cuối cùng với các tham số mô tả k = 9 là mô hình tốt nhất [106]. Chín biến số độc lập bao gồm xp8, ABSQ, SsOH, Hmaxpos, phia, knotp, knotpv, SHBa và LogP được lựa chọn để xây dựng mô hình QSARMLR. Kết quả dự đoán hoạt tính sinh học được minh chứng qua giá trị R2 dự đoán (R2Pr) phù hợp với dữ liệu thực nghiệm. Mô hình QSARMLR (3.16) như sau: pGI50 = 3,044 + 4,473×xp8 -5,982×ABSQ + 0,359×SsOH - 1,203×Hmaxpos + 3,067×phia - 2,673×knotp + 15,540×knotpv + 0,019×SHBa + 0,839×LogP (3.16) Với n = 34; R2tr = 0,955; R2Adj= 0,932; R2pr = 0,745; SE = 0,107; F = 42,182 3.2.5.3. Xây dựng mô hình QSARANN(1) Mô hình QSARANN(1) được xây dựng bằng kỹ thuật neuro-fuzzy với thuật toán di truyền sử dụng phần mềm INForm [40]. Mô hình mạng thần kinh nhân tạo có kiến trúc mạng I(9)-HL(5)-O(1) được xây dựng. Kiến trúc mạng này bao gồm lớp input I(9) với 9 nơ ron tương ứng với 9 biến độc lập xp8, ABSQ, SsOH, Hmaxpos, phia, knotp, knotpv, SHBa và LogP; lớp ẩn HL(5) với 5 nơ ron và lớp output O(1) với 1 nơ ron là hoạt tính sinh học pGI50. Thuật toán lan truyền ngược được ứng dụng để luyện mạng thần kinh. Hàm truyền cho mỗi nơ ron là đường tiếp tuyến Hypecbol; mỗi tham số luyện mạng khác nhau được sử dụng cho quá trình luyện mạng với tốc độ huấn luyện (moment) là 0.7 và tốc độc học là 0.01; sai số tổng cộng là 0,0003017, sai số dự đoán là 0,00001 với 300000 vòng lặp. Sau khi 90 luyện mạng mô hình mạng thần kinh thu được có kiến trúc I(9)-HL(5)-O(1), với giá trị thống kê R2tr là 0,8963 và R2pr là 0,8883. 3.2.5.4. Khả năng dự đoán của mô hình QSARMLR (3.16) và QSARANN(1) Khả năng dự đoán của các mô hình QSARMLR (3.16) và QSARANN(1) được đánh giá cẩn thận bằng kỹ thuật loại bỏ từng trường hợp (LOO) và giá trị R2pr. Sáu hợp chất trong nhóm kiểm tra được sử dụng để kiểm tra khả năng dự đoán hoạt tính sinh học của các mô hình QSARMLR (3.16) và QSARANN(1). Hoạt tính dự đoán của các flavonoid trong nhóm kiểm tra được so sánh với dữ liệu thực nghiệm, cho ở Bảng 3.20. Hoạt tính sinh học dự đoán từ các mô hình QSAR được so sánh với hoạt tính sinh học thực nghiệm và so sánh giữa các mô hình với nhau bởi giá trị sai số tương đối trung bình MARE,%. Các giá trị MARE,% cho thấy rằng khả năng dự đoán của mô hình QSARMLR (3.16) thì thấp hơn của mô hình QSARANN(1) chỉ ra trong Bảng 3.20. Sau khi sử dụng các mô hình QSARMLR (3.16) và QSARANN(1) để dự đoán hoạt tính sinh học pGI50 của sáu hợp chất trong nhóm kiểm tra chỉ ra khả năng dự đoán chính xác của các mô hình QSAR với các sai số nằm trong khoảng tin cậy của phép đo thực nghiệm. Tuy nhiên, các mô hình QSARMLR (3.16) và QSARANN(1) đều có khả năng dự báo tốt đối với hoạt tính sinh học của các hợp chất mới. Bảng 3.20 Hoạt tính sinh học pGI50 của nhóm kiểm tra từ các mô hình QSARMLR (3.16) và QSARANN(1) Hợp chất pGI50,exp pGI50,pred ARE,% M1 M2 M1 M2 Fla-1 5,699 5,3879 5,7371 5,4589 0,6685 Fla-11 5,699 5,9188 6,0478 3,8568 6,1204 Fla-24 5,6198 5,9316 5,7662 5,5482 2,6051 Fla-25 5,6383 5,8627 5,6843 3,9799 0,8158 Fla-26 5,699 5,8841 5,7058 3,2479 0,1193 Fla-30 5,0862 4,8677 4,9365 4,2959 2,9433 MARE,% 4,3979 2,2121 M1: Mô hình QSARMLR (3.16); M2 là mô hình QSARANN (1) 91 3.2.6. Xây dựng mô hình QSARMLR (3.17), QSARPCR (3.18) và QSARPCA-ANN 3.2.6.1. Dữ liệu Tập dữ liệu sử dụng để xây dựng các mô hình QSAR bao gồm 32 hợp chất và hoạt tính kháng tế bào ung thư cổ tử cung GI50/M (Phụ lục 1a). Các tham số cấu trúc 2D, 3D được tính toán bằng phương pháp cơ học phân tử trên phần mềm QSARIS, theo mục 3.1.2.4. Kết quả tính toán cho ở Phụ lục 10a - 10h. Các tham số này sử dụng để xây dựng hồi quy tuyến tính (QSARMLR) [86], hồi quy thành phần chính (QSARPCR) [9] và mạng nơ-ron nhân tạo (mô hình QSARPCA-ANN [40]. 3.2.6.2. Xây dựng mô hình QSARMLR (3.17), QSARPCR (3.18) Dữ liệu ban đầu được chia thành tập luyện và tập kiểm tra bằng phương pháp lấy mẫu ngẫu nhiên. Các mô hình QSAR xây dựng từ nhóm luyện. Sự thay đổi các giá trị R2, R2pred và SE trong các mô hình QSARMLR với các tham số 2D và 3D được chỉ ra trong Bảng 3.21. Các mô hình QSARMLR, các mô tả phân tử 2D và 3D được chọn bằng thuật toán hồi quy bằng thuật toán hồi quy. Bảng 3.21 Các mô hình QSARMLR (k từ 2 đến 10) với các giá trị R2, R2pred và MSE k Tham số mô tả phân tử 2D, 3D trong các mô hình R2 R2pred SE 2 a1, a2 0,756 0,731 0,430 3 a1, a2, a3 0,774 0,732 0,417 4 a1, a2, a3, a4 0,805 0,772 0,390 5 a1, a2, a3, a4, a5 0,832 0,756 0,365 6 a1, a4, a5, a6, a7, a8 0,854 0,812 0,342 7 a1, a2, a3, a4, a5, a9, a10 0,836 0,721 0,365 8 a1, a2, a3, a4, a5, a8, a9, a10 0,837 0,693 0,367 9 a1, a2, a3, a4, a5, a8, a9, a10, a11 0,838 0,682 0,369 10 a1, a2, a3, a4, a5, a6, a8, a9, a10, a11 0,841 0,650 0,368 (Với a1 là LogP, a2 là MaxNeg, a3 là ka2, a4 là SdO, a5 là MaxQp, a6 là Ovality, a7 là SdssC, a8 là ka3, a9 là ABSQ, a10 là ABSQon, a11 là dipole). 92 Quy trình lựa chọn cho mô tả 2D và 3D dựa trên sự thay đổi của các giá trị thống kê R2, SE và F-stat. Các mô hình QSARMLR đánh giá chéo bằng kỹ thuật LOO, các giá trị R2pred được xác định. 9 mô hình phù hợp nhất được đưa ra trong Bảng 3.21. Các mô hình QSARMLR (với k từ 2 đến 10) được xắp xếp theo trật tự thay đổi của các giá trị thống kê R2, SE và R2pred. Trong Bảng 3.21, các mô hình QSARMLR (với k từ 5 đến 7) cho thấy giá trị R2pred lớn hơn. Bảng 3.22 Các giá trị thống kê và phần trăm đóng góp MPmxi,%, GMPmxi,% của các tham số mô tả phân tử 2D, 3D trong các mô hình QSARMLR (với k bằng 5, 6, 7) Biến số QSARMLR MPmxi,% GMPmxi, % m m = 5 m = 6 m = 7 m = 5 m = 6 m = 7 R2 0,832 0,854 0,836 R2adj 0,820 0,841 0,820 SE 0,365 0,342 0,365 R2pred 0,756 0,812 0,721 Hệ số 3,883 8,509 4,790 ABSQ -0,222 - -0,257 27,945 18,636 19,005 21,862 ABSQon - - 0,0143 - - 0,433 0,144 MaxQp 3,416 2,8540 3,588 24,043 25,862 25,908 25,271 MaxNeg - - 6,122 - 24,203 23,890 16,031 SdO 0,0125 0,0247 0,0126 6,192 3,792 3,665 4,550 ka2 0,133 - 0,143 27,484 17,617 17,426 20,842 LogP 0,156 0,2192 0,163 15,651 9,829 9,672 11,717 Ovality - -3,6969 - 5,292 4,393 2,315 4,000 SdssC - 0,2969 - 4,382 5,613 7,236 5,744 ka3 - 0,3635 - 5,351 9,324 3,473 6,049 Đặc biệt, mô hình QSARMLR (3.17) R với k = 6 với giá trị R2tr là 0,854 và R2pr là 0,812 cao hơn các mô hình còn lại. Mô hình QSARMLR (3.17) với k = 6: pGI50 = 8,509 + 2,8540MaxQp + 0,0247SdO + 0,2192LogP - 3,6969Ovality + 0,2969SdssC + 0,3635ka3 (3.17) 93 Vì vậy, ba mô hình tốt nhất (với k của 5, 6 và 7) được chọn để xác định tỷ lệ phần trăm đóng góp của mô tả 2D, 3D đến hoạt tính kháng ung thư. Tỷ lệ đóng góp có giá trị MPmxi, GMPmxi và các giá trị thống kê khác nhau của các mô hình (với k bằng 5, 6 và 7) tương ứng được trình bày trong Bảng 3.22. Giá trị phần trăm đóng góp MPmxi của

Các file đính kèm theo tài liệu này:

luan_an_mo_rong_cac_ky_thuat_xay_dung_mo_hinh_qsar_va_tien_h.pdf