LỜI CAM ĐOAN . i
LỜI CẢM ƠN. ii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT. iii
DANH MỤC CÁC BẢNG . vi
DANH MỤC CÁC HÌNH VẼ. viii
MỤC LỤC.x
MỞ ĐẦU .1
CHƯƠNG 1. TỔNG QUAN TÀI LIỆU.4
1.1. BỆNH UNG THƯ CỔ TỬ CUNG. 4
1.1.1. Các nguyên nhân gây ung thư . 4
1.1.2. Điều trị. 5
1.1.3. Phòng ngừa. 6
1.2. LIÊN HỆ GIỮA CẤU TRÚC VÀ HOẠT TÍNH . 6
1.3. TÍNH TOÁN THÔNG TIN CẤU TRÚC . 9
1.3.1. Cơ học phân tử . 9
1.3.2. Cơ học lượng tử. 9
1.3.3. Phương pháp bán thực nghiệm. 11
1.4. CÁC MÔ HÌNH TOÁN HỌC . 12
1.4.1. Hồi quy đa biến . 12
1.4.2. Hồi quy thành phần chính. 22
1.4.3. Bình phương tối thiểu riêng phần. 25
1.4.4. Giải thuật di truyền. 31
1.4.5. Mạng thần kinh nhân tạo (ANN). 39
1.4.5.1. Khái niệm . 39
1.4.5.2. Cấu trúc mạng. 40
1.4.6. Thống kê đánh giá mô hình. 45
1.4.7. Tính toán đóng góp của các tham số . 46
1.5. HỢP CHẤT FLAVONOID. 46
1.5.1. Giới thiệu chung. 46
1.5.2. Phân loại dẫn xuất flavonoid . 47xi
1.5.3. Phân bố flavonoid trong tự nhiên . 48
1.5.4. Hoạt tính sinh học của flavonoid. 48
1.6. PHÂN LẬP VÀ XÁC ĐỊNH CẤU TRÚC FLAVONOID . 50
1.6.1. Phân lập flavonoid. 50
1.6.2. Xác định cấu trúc flavonoid . 50
1.6.3. Thử hoạt tính in vitro của flavonoid tự nhiên. 50
CHƯƠNG 2. NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU .51
2.1. SƠ ĐỒ NGHIÊN CỨU . 51
2.2. CƠ SỞ DỮ LIỆU, NGUYÊN LIỆU VÀ PHƯƠNG PHÁP. 52
2.2.1. Xây dựng cơ sở dữ liệu thông tin phân tử . 52
2.2.2. Nguyên liệu và phương pháp. 52
2.2.2.1. Phần mềm ứng dụng . 52
2.2.2.2. Hóa chất, thiết bị. 52
2.2.2.3. Nguyên liệu . 53
2.3. NGHIÊN CỨU LÝ THUYẾT. 54
2.3.1. Phương pháp tính toán thông tin cấu trúc. 54
2.3.1.1. Cơ học phân tử. 54
2.3.1.2. Hóa lượng tử. 54
2.3.1.3. Các tham số cấu trúc. 55
2.3.2. Xây dựng các mô hình QSAR . 55
2.4. SÀNG LỌC, PHÂN LẬP FLAVONOID TỰ NHIÊN. 56
2.4.1. Phân lập các hợp chất flavonoid. 56
2.4.2. Xác định cấu trúc hóa học các hợp chất flavonoid. 58
2.4.2.1. Phương pháp phổ cộng hưởng từ hạt nhân . 58
2.4.2.2. Đo nhiễu xạ tia X đơn tinh thể. 59
2.4.3. Kỹ thuật thử hoạt tính in vitro . 59
2.4.3.1. Nguyên tắc phương pháp Sulforhodamine B. 59
2.4.3.2. Nuôi cấy tế bào . 60
2.4.3.3. Nhuộm SRB. 61
2.4.3.4. Xử lý kết quả . 61
2.4.3.5. Xác định GI50. 61
2.5. THIẾT KẾ VÀ DỰ BÁO HOẠT TÍNH CỦA FLAVONOID . 62
CHƯƠNG 3. KẾT QUẢ & THẢO LUẬN.63xii
3.1. NGHIÊN CỨU LÝ THUYẾT. 63
3.1.1. Tính toán thông tin cấu trúc. 63
3.1.1.1. Khảo sát phương pháp cơ học phân tử. 63
3.1.1.2. Khảo sát phương pháp hóa lượng tử. 64
3.1.2. Tham số cấu trúc và tính chất phân tử. 65
3.1.2.1. Điện tích . 65
3.1.2.2. Phổ 13C-NMR, 15O-NMR và độ dịch chuyển hóa học. 66
3.1.2.3. Tham số hóa lý . 66
3.1.2.4. Tham số hình học 2D, 3D. 66
3.2. XÂY DỰNG MÔ HÌNH QSAR . 66
3.2.1. Khảo sát các biến số mô hình. 66
3.2.2. Xây dựng các mô hình QESAR. 70
3.2.2.1. Mô hình tuyến tính QESARMLR. 70
3.2.2.2. Mô hình mạng thần kinh QESARANN . 74
3.2.2.3. Kiểm tra khả năng dự đoán. 75
3.2.3. Xây dựng các mô hình QSDAR . 75
3.2.3.1. Mô hình tuyến tính QSDARMLR . 75
3.2.3.2. Mô hình mạng thần kinh QSDARANN. 78
3.2.3.3. Kiểm tra khả năng dự đoán. 78
3.2.4. Xây dựng mô hình QSSRMLR . 79
3.2.4.1. Nguyên tắc xây dựng . 79
3.2.4.2. Tính toán các tham số hóa lý . 80
3.2.4.3. Xây dựng mô hình . 80
3.2.4.4. Kiểm tra khả năng dự đoán. 84
3.2.5. Xây dựng mô hình QSARMLR (3.16) và QSARANN(1). 85
3.2.5.1. Dữ liệu . 85
3.2.5.2. Xây dựng mô hình QSARMLR (3.16) . 85
3.2.5.3. Xây dựng mô hình QSARANN(1). 89
3.2.5.4. Khả năng dự đoán của mô hình QSARMLR (3.16) và QSARANN(1). 90
3.2.6. Xây dựng mô hình QSARMLR (3.17), QSARPCR (3.18) và QSARPCA-ANN. 91
3.2.6.1. Dữ liệu . 91
3.2.6.2. Xây dựng mô hình QSARMLR (3.17), QSARPCR (3.18) . 91
3.2.6.3. Xây dựng mô hình QSARPCA-ANN . 94
3.2.6.4. Khả năng dự đoán của các mô hình . 95xiii
3.2.7. Xây dựng mô hình QSARMLR (3.19), QSARPLS (3.20) và QSARANN(2) . 96
3.2.7.1. Dữ liệu . 96
3.2.7.2. Xây dựng mô hình QSARMLR (3.19) và QSARPLS (3.20) . 96
3.2.7.3. Xây dựng mô hình QSARANN(2). 99
3.2.7.4. Dự đoán hoạt tính sinh học của các hợp chất mới . 100
3.3. SÀNG LỌC, PHÂN LẬP FLAVONOID TỰ NHIÊN. 101
3.3.1. Phân lập cynaroside từ actiso . 101
3.3.2. Phân lập quercetin từ xa kê . 102
3.3.3. Phân lập luteolin từ tía tô. 103
3.3.4. Phân lập daidzin từ đậu nành. 105
3.3.4.1. Xác định cấu trúc daidzin bằng phương pháp NMR. 105
3.3.4.2. Xác định cấu trúc phân tử daidzin bằng phương pháp đo nhiễu xạ tia X . 106
3.3.5. Phân lập kaempferol-3-O-methylether từ gừng gió. 107
3.3.5.1. Xác định cấu trúc kaempferol-3-O-methylether bằng phương pháp NMR . 107
3.3.5.2. Xác định cấu trúc kaempferol-3-O-methylether bằng phương pháp đo nhiễu xạ tia X . 109
3.3.6. Phân lập kaempferol-3-O-(2,4-O-diacetyl-alpha-L-rhamnopyranoside) từ gừng gió . 110
3.3.7. Thử hoạt tính sinh học in vitro của các hợp chất flavonoid tự nhiên . 111
3.4. THIẾT KẾ VÀ DỰ BÁO HOẠT TÍNH CÁC FLAVONOID . 113
3.4.1. Mô hình QESAR . 113
3.4.2. Mô Hình QSDAR. 115
3.4.3. Mô hình QSSRMLR. 116
3.4.4. Mô hình QSARMLR (3.16) và QSARANN (1) . 121
3.4.5. Mô hình QSARMLR (3.17), QSARPCR và QSARPCA-ANN. 123
3.4.6. Mô hình QSARMLR (3.19 ), QSARPLS (3.20) và QSARANN(2) . 124
KẾT LUẬN VÀ KIẾN NGHỊ .127
DANH MỤC CÔNG TRÌNH .129
TÀI LIỆU THAM KHẢO .131
PHỤ LỤC.144
244 trang |
Chia sẻ: trungkhoi17 | Lượt xem: 549 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận án Mở rộng các kỹ thuật xây dựng mô hình QSAR và Tiến hành tổng hợp các dẫn xuất flavonoid mới - Bùi Thị Phương Thúy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
rị
P < 0,05 Phụ lục 7, hơn nữa đây là mô hình có giá trị R2tr = 0,906 và R2pr = 0,800 cao
nhất, SE = 0,121 thấp nhất cho thấy đây là mô hình tuyến tính QSDARMLR tốt hơn
cả. Mô hình QSDARMLR (với k = 7) có dạng:
pGI50 = 32,99 + 0,016O1 + 0,006O11- 0,045C2 - 0,063C3 - 0,047C6 - 0,059C7 -
0,037C2' (3.5)
3.2.3.2. Mô hình mạng thần kinh QSDARANN
Mô hình mạng thần kinh QSDARANN được xây dựng bằng mạng thần kinh
trên phần mềm INForm [40] đã được khảo sát kiến trúc mạng. Kiến trúc I(7)-
HL(2)-O(1) bao gồm lớp nhập I(7) với yếu tố đầu vào đã được chọn là O1, O11, C2,
C3, C6, C7 và C2’ là các biến số trong mô hình tuyến tính QSDARMLR với k = 7 và
một lớp xuất O(1) với yếu tố đầu ra (pGI50) như là biến mục tiêu, cấu trúc một lớp
ẩn HL(2) với hai nút. Giải thuật lan truyền ngược, sai số 0,001 được sử dụng để
luyện kiểu mạng thần kinh này. Các tham số để luyện mạng nơ ron là tốc độ học
0,7; momen = 0,7; vòng lặp 10000 và sai số MSE = 0,0305764. Hàm truyền
sigmoid được sử dụng cho mỗi nơ ron của lớp nhập và lớp xuất. Sau khi luyện mô
hình thần kinh QSDARANN, R2pr = 0,800; giá trị R2tr đạt được 0,924 cao hơn giá trị
R2tr = 0,906 đối với mô hình tuyến tính QSDARMLR.
3.2.3.3. Kiểm tra khả năng dự đoán
Khả năng dự đoán của các mô hình QSDARANN và QSDARMLR được đánh giá
cẩn thận bằng kỹ thuật đánh giá chéo loại bỏ từng trường hợp. Trong trường hợp
này 6 dẫn xuất flavone và isoflavone trong nhóm kiểm tra được chọn ngẫu nhiên
như trong Phụ lục 6. Các giá trị hoạt tính kháng ung thư pGI50 của 6 dẫn xuất trong
nhóm kiểm tra dẫn ra ở Bảng 3.15 nhận được từ mô hình tuyến tính QSDARMLR
được so sánh với các giá trị nhận được từ mô hình mạng nơ ron sử dụng giá trị tuyệt
đối của các sai số tương đối ARE,%.
79
Khả năng dự đoán của 2 mô hình cũng dựa vào giá trị MARE,%. Giá trị
MARE,% = 1,119 đối với mô hình QSDARANN là nhỏ hơn giá trị MARE,% = 2,391
đối với mô hình QSDARMLR. Như vậy các giá trị dự đoán pGI50 nhận được từ mô
hình QSDARANN là gần với các hoạt tính thực nghiệm [80]. Với pGI50,exp và pGI50,pr
là các hoạt tính thực nghiệm và kiểm tra. Sai số MARE,% được sử dụng để đánh giá
sai số toàn cục của các mô hình QSDARMLR và QSDARANN.
Bảng 3.15 Hoạt tính pGI50,pr của các dẫn xuất kiểm tra và các giá trị ARE,% từ các
mô hình QSDARMLR (với k = 7) và QSDARANN với kiến trúc I(7)-HL(2)-O(1)
Hợp
chất
pGI50,exp
pGI50,pr ARE,%
QSADRMLR QSDARANN QSDARMLR QSDARANN
a1 5,745 5,781 5,789 0,636 0,764
a2 5,699 5,758 5,796 1,039 1,697
a3 5,796 5,808 5,708 0,209 1,515
a4 5,921 6,181 5,957 4,389 0,606
a5 5,699 5,394 5,755 5,344 0,975
a6 5,658 5,503 5,723 2,730 1,157
MARE,% 2,391 1,119
Sau khi sử dụng các mô hình QSDARMLR và QSDARANN để dự đoán hoạt
tính kháng ung thư của các dẫn xuất kiểm tra, độ lệch khoảng dự đoán là có thể
chấp nhận. Các mô hình QSDARMLR và QSDARANN thỏa mãn các đòi hỏi thực tế để
dự đoán hoạt tính kháng ung thư pGI50 của các dẫn xuất mới. Một lần nữa chúng tôi
khẳng định khả năng dự đoán của các mô hình quan hệ cấu trúc hoạt tính là hoàn
toàn đáng tin cậy.
3.2.4. Xây dựng mô hình QSSRMLR
3.2.4.1. Nguyên tắc xây dựng
Xây dựng mô hình quan hệ cấu trúc – cấu trúc (QSSRMLR) để dự đoán hoạt tính
cũng như tính chất hóa lý của các hợp chất flavonoid. Mô hình được xây dựng dựa
vào tính chất tương tự của các cấu trúc phân tử dẫn đến các tính chất hóa học hay
những tính chất khác cũng có mối tương quan, vì vậy có thể xây dựng mối quan hệ
80
cấu trúc với cấu trúc để từ đó xác định được tính chất của một hợp chất chưa biết
dựa vào tính chất của các cấu trúc đã biết. Trong nghiên cứu này có hai nhóm chất
có cấu trúc tương tự là nhóm flavone và isoflavone. Sử dụng quan hệ giữa cấu trúc
– cấu trúc để dự đoán tính chất, hoạt tính kháng ung thư cúa các dẫn xuất flavonoid
trong nhóm kiểm tra và flavonoid phân lập.
3.2.4.2. Tính toán các tham số hóa lý
Các hợp chất trong Phụ lục 1a được xây dựng, tối ưu hóa cấu trúc phân tử bằng
phương pháp cơ học phân tử MM+, mức gradient 0,05. Tham số hóa lý tính toán
như mục 2.3.1 [15] Các tham số cấu trúc này được sử dụng làm dữ liệu để kiểm tra
khả năng dự đoán của các mô hình QSSRMLR.
3.2.4.3. Xây dựng mô hình
Mô hình tuyến tính QSSRMLR cũng được nghiên cứu, phát triển từ các kỹ thuật
hồi quy tuyến tính. Mô hình quan hệ cấu trúc - cấu trúc (QSSRMLR) là mối quan hệ
giữa những hợp chất (y) và các hợp chất có cấu trúc tương tự (x). Các mô hình
QSSRMLR được xây dựng bằng phương pháp hồi quy tuyến tính. Sự phù hợp tốt
nhất của mô hình QSSRMLR được thể hiện ở giá trị R2tr và khả năng dự đoán của các
mô hình thể hiện ở giá trị R2pr. Sử dụng các hợp chất trong Phụ lục 1a để xây dựng
các mô hình QSSRMLR.
Mô hình QSSRMLR được xây dựng từ các thay đổi điện tích các nguyên tử
của những hợp chất. Sự xắp xếp dọc theo thứ tự giá trị tương quan của mối quan hệ
tuyến tính giữa những hợp chất sử dụng điện tích nguyên tử và tính chất hóa lý
được chỉ ra ở Hình 3.4.
81
a) b)
Hình 3.4 Mối tương quan giữa các hợp chất: a) sử dụng điện tích; b) sử dụng tính
chất hóa lý
■: fla-A23 và fla-A11; ▲: fla-A15 và isofla-A32; ○: isofla-A32 và isofla-A4.
Những hợp chất trong Phụ lục 1a được lựa chọn ngẫu nhiên để đánh giá mối
tương quan điện tích nguyên tử và tính chất hóa lý giữa các hợp chất. Kết quả tính
toán hệ số tương quan điện tích giữa các hợp chất được cho ở Bảng 3.1 .
Bảng 3.16 Mối tương quan của các hợp chất sử dụng mô tả điện tích nguyên tử
fla-A23 fla-A6 fla-A15 fla-A22 isofla-A32 fla-A28 fla-A5 isofla-A4
fla-A23 1,0000
fla-A6 0,8664 1,0000
fla-A15 0,9220 0,8254 1,0000
fla-A22 0,9984 0,8548 0,9132 1,0000
isofla-A32 0,9247 0,7565 0,9659 0,9254 1,0000
fla-A28 0,9222 0,8259 1,0000 0,9134 0,9656 1,0000
fla-A5 0,9986 0,8696 0,9267 0,9983 0,9261 0,9270 1,0000
isofla-A4 0,9250 0,7560 0,9659 0,9257 1,0000 0,9657 0,9264 1,0000
fla-A11 0,9999 0,8668 0,9225 0,9981 0,9236 0,9227 0,9986 0,9239
Những hợp chất có cấu trúc tương tự có tính chất tương quan tốt với nhau.
Mô hình hồi quy tuyến tính của các hợp chất flavone và isoflavone (Y) được xây
dựng từ điện tích nguyên tử được trình bày ở Bảng 3.17. Mô hình tuyến tính
82
QSSRMLR với các giá trị thống kê rất tốt R2tr = 0,999 và R2pr = 0,999. Bảng 3.17 đưa
ra 10 mô hình từ 32 hợp chất nghiên cứu trong Phụ lục 1a đại diện cho khả năng dự
đoán dựa trên mối quan hệ cấu trúc – cấu trúc.
Bảng 3.17 Tính chất hóa lý và hoạt tính kháng ung thư pGI50 của các hợp chất
nghiên cứu bằng mô hình QSSRMLR và các chất dùng để dự đoán
Tính chất hóa lý và hoạt tính kháng ung thư pGI50
Phương pháp
ARE%
QSSR Tham khảo [15]
Mô hình QSSR của Fla-A1 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00020159
Fla-A1 = 0,00015 + 1,018 (Fla-A5) -0,513 (Fla-A21)+ 0,497 (Fla-A22 ) (3.6)
Độ khả phân cực bề mặt lưới 68,453 68,120 0,489
pGI50 5,663 5,699 0,638
Mô hình QSSR của Fla-A2 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00035399
Fla-A2 = -0,00020+1,260 (Fla-A6)+0,871 (Fla-A14)-1,134 (Fla-A24) (3.7)
Nhiệt nóng chảy (Tm) ở 1 atm 741,521 745,496 0,533
Nhiệt độ tới hạn (Tc) 931,125 934,452 0,356
Mol Refractivity 8,711 8,715 0,053
Nhiệt độ sôi, (Tb) ở 1 atm 978,789 980,510 0,176
pGI50 6,473 5,921 9,321
Mô hình QSSR của Fla-A3 với R
2
tr = 0,9999; R
2
pr = 0,9999; SE = 0,00010411
Fla-A3 = 0,00002+0,935 (Fla-A7) +0,582 (Fla-A16) -0,517 (Fla-A28) (3.8)
Nhiệt nóng chảy (Tm) ở 1 atm 737,884 745,496 1,021
Nhiệt độ tới hạn (Tc) 932,899 934,452 0,166
Hiệu ứng nhiệt KJ/mol -318,085 -313,160 1,573
Hằng số Henry 7,266 7,240 0,355
pGI50 5,726 5,699 0,469
Mô hình QSSR của Fla-A4 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00013747
isoFla-A4 = -0,000002+0,980 (isoFla-A8)-0,233(isoFla-A18)+ 0,252(isoFla-A19) (3.9)
Nhiệt nóng chảy (Tm) ở 1 atm 718,146 745,496 3,669
Nhiệt độ tới hạn (Tc) 914,478 934,452 2,138
83
Hằng số Henry 7,237 7,240 0,042
pGI50 5,084 5,009 1,495
Mô hình QSSR của Fla-A5 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00019793
Fla-A5 = -0,00015+0,982 (Fla-A1) +0,499 (Fla-A21) -0,483 (Fla-A22) (3.10)
Nhiệt độ tới hạn (Tc) 936,289 913,478 2,497
Chỉ số khúc xạ phân tử 8,731 9,179 4,884
Nhiệt độ sôi, (Tb) ở 1 atm 977,737 933,630 4,724
Hằng số Henry 7,034 7,110 1,073
LogP 8,731 9,179 4,884
pGI50 5,734 5,699 0,618
Mô hình QSSR của Fla-A6 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00026038
Fla-A6 = 0,00019+0,682 (Fla-A2)-0,587 (Fla-A14)+0,907 (Fla-A24) (3.11)
Nhiệt nóng chảy (Tm) ở 1 atm 730,455 717,167 1,853
Nhiệt độ tới hạn (Tc) 927,997 914,743 1,449
Khối lượng mol 324,833 323,343 0,461
pGI50 5,772 6,046 4,533
Mô hình QSSR của Fla-A7 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00013549
Fla-A7 = -0,00003+1,037 (Fla-A3)+-0,041 (Fla-A16)+0,004 (Fla-A27) (3.12)
Nhiệt nóng chảy (Tm) ở 1 atm 743,221 717,167 3,633
Nhiệt độ tới hạn (Tc) 932,252 914,743 1,914
Hiệu ứng nhiệt KJ/mol -309,816 -313,790 1,267
Hằng số Henry 7,228 7,240 0,171
pGI50 5,700 5,658 0,750
Mô hình QSSR của Fla-A8 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00119054
isoFla-A8 = 0,0000051+ 1,006(isoFla-A4)+ 0,253(isoFla-A18)-0,259(isoFla-A19) (3.13)
Nhiệt độ sôi, (Tb) ở 1 atm 746,066 717,167 4,030
Nhiệt độ tới hạn (Tc) 936,202 914,743 2,346
Hằng số Henry 7,243 7,240 0,038
pGI50 4,994 5,071 1,503
84
Mô hình QSSR của Fla-A9 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00018592
Fla-A9 = 0,000004+0,047 (Fla-A5) +1,025 (Fla-A11) -0,072 (Fla-A23) (3.14)
Nhiệt nóng chảy (Tm) ở 1 atm 836,779 817,055 2,414
Nhiệt độ tới hạn (Tc) 1029,858 1011,888 1,776
Hằng số Henry 7,052 7,050 0,026
LogP 4,663 4,537 2,772
PGI50 5,698 5,745 0,810
Mô hình QSSR của Fla-A10 với R2tr = 0,9999; R2pr = 0,9999; SE = 0,00042716
Fla-A10 = 0,00012+0,977 (Fla-A9) -1,055 (Fla-A21) +1,079 (Fla-A22) (3.15)
Nhiệt nóng chảy (Tm) ở 1 atm 815,011 814,381 0,077
Áp suất tới hạn (Pc), Bar 18,820 18,692 0,683
Nhiệt độ tới hạn (Tc) 1003,621 1004,806 0,118
Hiệu ứng nhiệt KJ/mol -404,221 -387,410 4,339
Chỉ số khúc xạ phân tử 10,963 10,930 0,305
Log P 3,766 3,740 0,694
Hằng số Henry 7,063 7,050 0,190
PGI50 5,652 5,678 0,448
3.2.4.4. Kiểm tra khả năng dự đoán
Mô hình hồi quy tuyến tính nhận được từ các dẫn xuất flavone và isoflavone
này có thể ứng dụng để dự đoán tính chất hóa lý cũng như hoạt tính kháng ung thư
của các flavone và isoflavone có cấu trúc tương tự.
Các mô tả cấu trúc phân tử của các hợp chất để xây dựng mô hình QSSRMLR
được tính toán một cách cẩn trọng, kết quả dự đoán tính chất hóa lý và pGI50 cho ở
Bảng 3.17, Hình 3.5 chỉ ra rằng mô hình hồi quy tuyến tính QSSRMLR của các hợp
chất flavone và isoflavone là hoàn toàn đáng tin cậy.
Phân tích ANOVA một yếu tố cũng chỉ ra rằng kết quả dự đoán tính chất hóa
lý và hoạt tính kháng ung thư của các dẫn xuất flavone và isoflavone từ mô hình
QSSRMLR thì không khác các giá trị tính chất hóa lý tham khảo, giá trị hoạt tính
kháng ung thư xác định từ thực nghiệm [28] với (Ftt = 0,0010 < F0,05 = 3,9423).
85
Các mô hình QSSRMLR đã được xây dựng và dự đoán thành công tính chất
hóa lý, hoạt tính pGI50 của nhóm dẫn xuất kháng ung thư flavone và isoflavone có
cấu trúc tương tự.
Hình 3.5 Quan hệ giữa tính chất hóa lý dự đoán và dữ liệu thực nghiệm
3.2.5. Xây dựng mô hình QSARMLR (3.16) và QSARANN(1)
3.2.5.1. Dữ liệu
Tập dữ liệu sử dụng để xây dựng các mô hình QSAR bao gồm 32 hợp chất
và hoạt tính kháng tế bào ung thư cổ tử cung GI50/M trong Phụ lục 1a.
Các tham số cấu trúc 2D, 3D được tính toán bằng phương pháp cơ học phân
tử trên phần mềm QSARIS, theo mục 3.1.2.4. Kết quả tính toán cho ở Phụ lục 10a
đến Phụ lục 10h.
3.2.5.2. Xây dựng mô hình QSARMLR (3.16)
Trong nghiên cứu này, các mô hình QSARMLR (3.16), phương trình 3.16 và
QSARANN(1) thu được thông qua 2 nhóm: nhóm luyện được chọn lựa ngẫu nhiên và
nhóm kiểm tra. Khả năng dự đoán của mô hình QSARMLR (3.16) và QSARANN(1)
được đánh giá bằng cách so sánh kết quả dự đoán và hoạt tính thực nghiệm của các
hợp chất trong nhóm kiểm tra, là nhóm không được sử để thiết lập mô hình
QSARMLR (3.16) và QSARANN(1) từ nhóm luyện.
G
iá
t
rị
d
ự
đ
o
án
Giá trị thực nghiệm
86
Sự biến thiên các giá trị R2, R2pred và SE trong các mô hình QSARMLR với các
tham số mô tả 2D và 3D, tương ứng chỉ ra trong Bảng 3.18.
Bảng 3.18 Các mô hình QSARMLR (k từ 2 đến 10) với các giá trị R2, R2pred và MSE
k Tham số mô tả phân tử 2D, 3D trong các mô hình MSE R² R²pred
2 a1, a2 0,063 0,657 0,630
3 a1, a2, a3 0,034 0,820 0,798
4 a2, a3, a4, a5 0,027 0,866 0,843
5 a2, a5, a6, a7, a8 0,023 0,891 0,867
6 a2, a5, a6, a8, a9, a10 0,019 0,914 0,890
7 a2, a5, a6, a8, a9, a10, a11 0,015 0,933 0,910
8 a5, a8, a10, a12, a13, a14, a15, a16 0,015 0,936 0,909
9 a5, a6, a8, a10, a11, a16, a17, a18, a19 0,012 0,955 0,932
10 a5, a6, a8, a10, a11, a15, a16, a17, a18, a19 0,012 0,955 0,928
Kí hiệu a1 là xvc3, a2 là dipole, a3 là xvpc4, a4 là xvp6, a5 là logP, a6 là xp8,
a7 là volume, a8 là knotpv, a9 là xvp8, a10 là SHBa, a11 là Hmaxpos, a12 là xp6, a13 là
SaaCH, a14 là k2, a15 là nvx, a16 là knotp, a17 là ABSQ, a18 là SsOH, a19 là phia.
Để xây dựng các mô hình QSARMLR, các tham số mô tả 2D và 3D được chọn
lựa bằng kĩ thuật hồi quy từng bước. Các tham số mô tả 2D, 3D được chọn dựa trên
cơ sở các giá trị thống kê R2, SE và F-stat. Các mô hình được đánh giá chéo bằng kĩ
thuật loại bỏ dần từng trường hợp (LOO) để xác định giá trị R2pred. 9 mô hình phù
hợp nhất được chỉ ra trong Bảng 3.18. Các mô hình QSARMLR (với k từ 2 đến 10)
được xắp xếp một cách trật tự với sự thay đổi các giá trị R2, SE và R2pred. Trong
Bảng 3.18, các mô hình QSARMLR (với k từ 8 đến 10) là các mô hình có giá trị
R2pred cao hơn cả. Cụ thể, trong mô hình QSARMLR với k = 9 có R2 cao nhất là 0,955
và R2pred là 0,932. Vì vậy, chúng tôi lựa chọn ba mô hình (với k là 8, 9 và 10) để xác
định giá trị phần trăm đóng góp của các tham số mô tả 2D, 3D đối với hoạt tính
kháng ung thư.
87
Bảng 3.19 Các giá trị thống kê và giá trị phần trăm đóng góp MPmxi,% và
GMPmxi,% đối với các tham số mô tả phân tử 2D và 3D trong các mô hình
QSARMLR (với k là 8, 9 và 10)
QSARMLR MPmxi,%
GMPmxi, %
m = 8 M = 9 m = 10 m = 8 m = 9 m = 10
R2tr 0,936 0,955 0,955
R2 pr 0,909 0,932 0,928
SE 0,124 0,107 0,110
Hệ số -13,133 3,044 2,946
k2 -4,926 - - 23,638 7,879
xp6 -2,899 - - 6,399 2,133
xp8 - 4,473 4,282 14,301 12.181 8,827
nvx 3,487 - 0,036 45,229 1,138 15,456
knotp -8,350 -2,673 -2,794 9,072 7,879 7,325 8,092
knotpv 34,40 15,54 15,917 9,681 11,878 10,813 10,790
SHBa -0,225 0,019 0,016 4,398 1,004 0,770 2,057
Hmaxpos - -1,203 -1,201 3,439 3,060 2,166
SaaCH -0,166 - - 1,490 0,497
ABSQ - -5,982 -5,939 33,101 29,255 20,785
SsOH - 0,359 0,358 2,924 2,609 1,844
phia - 3,067 2,999 21,167 18,413 13,193
logP 0,050 0,839 0,793 0,093 4,308 3,624 2,675
Các giá trị phần trăm đóng góp trung bình MPmxi,%, GMPmxi, % và các giá
trị thống kê khác đối với các mô hình (với k là 8, 9 và 10), được đưa ra trong Bảng
3.19. Giá trị phần trăm đóng góp trung bình MPmxi của các biến độc lập trong mỗi
mô hình QSARMLR (với k là 8, 9 và 10), được xác định từ giá trị phần trăm đóng
góp Pxk của mỗi biến độc lập trong từng trường hợp quan sát tương tứng Pmxi được
tính toán từ giá trị đóng [86] góp tổng cộng Ctotal của mỗi biến trong từng hợp chất
88
[86]. Kết quả tính toán giá trị phần trăm đóng góp trung bình MPmxi,% và giá trị
phần trăm đóng góp trung bình toàn cục GMPmxi,% được đưa ra trong Bảng 3.19.
Giá trị phần trăm đóng góp trung bình toàn cục GMPmxi,% [86] trong Bảng
3.19 đã mô tả mức độ quan trọng của các tham số mô tả 2D, 3D của các flavone và
isoflavone. Sự xắp xếp mức độ ảnh hưởng quan trọng của các tham số 2D, 3D trong
các mô hình QSARMLR theo thứ tự là GMPmxi,%: SaaCH < SsOH < SHBa < xp6 <
Hmaxpos < logP < k2 < knotp < xp8 < knotpv < phia < nvx < ABSQ. Các tham số
mô tả ABSQ, nvx, phia, knotpv, xp8, knotp, k2 và LogP được xem là các tham số
mô tả quan trọng nhất trong mỗi phân tử. Ngoài ra, các tham số mô tả phân tử đại
diện cho các nhóm carbonyl C4 = O11 và nguyên tố O1. Các nguyên tố này có các
cặp electron tự do với electron của liên kết C2 = C3 và C4 = O11 tạo hệ liên hợp.
Nhóm carbonyl C4 = O11 thể hiện toàn bộ phản ứng tự nhiên của nhóm của nhóm
cacbonyl [80, 103].
Vì vậy, các tham số mô tả phân tử cũng chứng minh được định lượng tổng
điện tích trên toàn phân tử bởi giá trị GMPmxi và chúng cũng phù hợp với các giá trị
thực nghiệm [54, 80, 103]. Vì vậy, vị trí các nguyên tử C6 và C3’ còn trống, có thể
gắn các nhóm thế mới trong nghiên cứu dẫn xuất mới [80, 89, 103]. Các vị trí khác
cũng có thể đại điện tác động đến hoạt tính sinh học GI50, nhưng chúng là các vị trí
không thể gắn thêm nhóm thế nên không được sử dụng để thiết kế dẫn xuất mới.
4.0
4.5
5.0
5.5
6.0
6.5
4.0 4.5 5.0 5.5 6.0 6.5
p
G
I5
0
pGI50Pred
a)
5
.6
9
9
5
.6
9
9
5
.6
1
9
8
5
.6
3
8
3
5
.6
9
9
5
.0
8
6
25
.7
3
7
1
1
6
.0
4
7
8
1
5
.7
6
6
1
9
5
.6
8
4
3
4
5
.7
0
5
7
7
4
.9
3
6
4
9
fla1 fla11 fla24 fla25 fla26 fla30
2
3
4
5
6
7
V
al
u
es
p
G
I 5
0
Test substance flavonoid
pGI
50,exp
pGI
50,Pred
Hợp chất flavonoid trong nhóm kiểm tra
b)
Hình 3.6 a) Hồi quy tuyến tính đa biến và b) giá trị pGI50 và pGI50,pred của flavonoid
trong nhóm kiểm tra
89
Các vị trí C6 và C3’ được lựa chọn để gắn thêm các nhóm thế mới tạo thành
các flavonoid mới. Tương tự, vị trí C2’ cũng còn trống và có thể sử dụng để gắn các
nhóm mới vào phân tử. Điều này cho phép tạo nên các hợp chất mới có hoạt tính
sinh học cao hơn hợp chất mẫu. Từ đó, các flavonoid chiết xuất có thể chọn lựa làm
hợp chất mẫu để thiết kế thuốc mới có hoạt tính cao hơn. Điều này được chỉ ra trong
phần thảo luận bên dưới.
Các mô tả phân tử được ứng dụng trọng kỹ thuật phân tích hồi quy đa biến để
thiết lập mô hình QSAR với quá trình lựa chọn biến số độc lập bằng cách sử dụng
mô hình MLR [86, 107]. Mô hình QSAR cuối cùng với các tham số mô tả k = 9 là
mô hình tốt nhất [106]. Chín biến số độc lập bao gồm xp8, ABSQ, SsOH,
Hmaxpos, phia, knotp, knotpv, SHBa và LogP được lựa chọn để xây dựng mô hình
QSARMLR. Kết quả dự đoán hoạt tính sinh học được minh chứng qua giá trị R2 dự
đoán (R2Pr) phù hợp với dữ liệu thực nghiệm. Mô hình QSARMLR (3.16) như sau:
pGI50 = 3,044 + 4,473×xp8 -5,982×ABSQ + 0,359×SsOH - 1,203×Hmaxpos
+ 3,067×phia - 2,673×knotp + 15,540×knotpv + 0,019×SHBa + 0,839×LogP
(3.16)
Với n = 34; R2tr = 0,955; R2Adj= 0,932; R2pr = 0,745; SE = 0,107; F = 42,182
3.2.5.3. Xây dựng mô hình QSARANN(1)
Mô hình QSARANN(1) được xây dựng bằng kỹ thuật neuro-fuzzy với thuật
toán di truyền sử dụng phần mềm INForm [40]. Mô hình mạng thần kinh nhân tạo
có kiến trúc mạng I(9)-HL(5)-O(1) được xây dựng. Kiến trúc mạng này bao gồm
lớp input I(9) với 9 nơ ron tương ứng với 9 biến độc lập xp8, ABSQ, SsOH,
Hmaxpos, phia, knotp, knotpv, SHBa và LogP; lớp ẩn HL(5) với 5 nơ ron và lớp
output O(1) với 1 nơ ron là hoạt tính sinh học pGI50. Thuật toán lan truyền ngược
được ứng dụng để luyện mạng thần kinh. Hàm truyền cho mỗi nơ ron là đường tiếp
tuyến Hypecbol; mỗi tham số luyện mạng khác nhau được sử dụng cho quá trình
luyện mạng với tốc độ huấn luyện (moment) là 0.7 và tốc độc học là 0.01; sai số
tổng cộng là 0,0003017, sai số dự đoán là 0,00001 với 300000 vòng lặp. Sau khi
90
luyện mạng mô hình mạng thần kinh thu được có kiến trúc I(9)-HL(5)-O(1), với giá
trị thống kê R2tr là 0,8963 và R2pr là 0,8883.
3.2.5.4. Khả năng dự đoán của mô hình QSARMLR (3.16) và QSARANN(1)
Khả năng dự đoán của các mô hình QSARMLR (3.16) và QSARANN(1) được đánh
giá cẩn thận bằng kỹ thuật loại bỏ từng trường hợp (LOO) và giá trị R2pr. Sáu hợp
chất trong nhóm kiểm tra được sử dụng để kiểm tra khả năng dự đoán hoạt tính sinh
học của các mô hình QSARMLR (3.16) và QSARANN(1). Hoạt tính dự đoán của các
flavonoid trong nhóm kiểm tra được so sánh với dữ liệu thực nghiệm, cho ở Bảng
3.20. Hoạt tính sinh học dự đoán từ các mô hình QSAR được so sánh với hoạt tính
sinh học thực nghiệm và so sánh giữa các mô hình với nhau bởi giá trị sai số tương
đối trung bình MARE,%. Các giá trị MARE,% cho thấy rằng khả năng dự đoán của
mô hình QSARMLR (3.16) thì thấp hơn của mô hình QSARANN(1) chỉ ra trong Bảng
3.20. Sau khi sử dụng các mô hình QSARMLR (3.16) và QSARANN(1) để dự đoán hoạt
tính sinh học pGI50 của sáu hợp chất trong nhóm kiểm tra chỉ ra khả năng dự đoán
chính xác của các mô hình QSAR với các sai số nằm trong khoảng tin cậy của phép
đo thực nghiệm. Tuy nhiên, các mô hình QSARMLR (3.16) và QSARANN(1) đều có
khả năng dự báo tốt đối với hoạt tính sinh học của các hợp chất mới.
Bảng 3.20 Hoạt tính sinh học pGI50 của nhóm kiểm tra từ các mô hình QSARMLR
(3.16) và QSARANN(1)
Hợp chất pGI50,exp
pGI50,pred ARE,%
M1 M2 M1 M2
Fla-1 5,699 5,3879 5,7371 5,4589 0,6685
Fla-11 5,699 5,9188 6,0478 3,8568 6,1204
Fla-24 5,6198 5,9316 5,7662 5,5482 2,6051
Fla-25 5,6383 5,8627 5,6843 3,9799 0,8158
Fla-26 5,699 5,8841 5,7058 3,2479 0,1193
Fla-30 5,0862 4,8677 4,9365 4,2959 2,9433
MARE,% 4,3979 2,2121
M1: Mô hình QSARMLR (3.16); M2 là mô hình QSARANN (1)
91
3.2.6. Xây dựng mô hình QSARMLR (3.17), QSARPCR (3.18) và QSARPCA-ANN
3.2.6.1. Dữ liệu
Tập dữ liệu sử dụng để xây dựng các mô hình QSAR bao gồm 32 hợp chất
và hoạt tính kháng tế bào ung thư cổ tử cung GI50/M (Phụ lục 1a). Các tham số cấu
trúc 2D, 3D được tính toán bằng phương pháp cơ học phân tử trên phần mềm
QSARIS, theo mục 3.1.2.4. Kết quả tính toán cho ở Phụ lục 10a - 10h. Các tham số
này sử dụng để xây dựng hồi quy tuyến tính (QSARMLR) [86], hồi quy thành phần
chính (QSARPCR) [9] và mạng nơ-ron nhân tạo (mô hình QSARPCA-ANN [40].
3.2.6.2. Xây dựng mô hình QSARMLR (3.17), QSARPCR (3.18)
Dữ liệu ban đầu được chia thành tập luyện và tập kiểm tra bằng phương pháp
lấy mẫu ngẫu nhiên. Các mô hình QSAR xây dựng từ nhóm luyện. Sự thay đổi các
giá trị R2, R2pred và SE trong các mô hình QSARMLR với các tham số 2D và 3D được
chỉ ra trong Bảng 3.21. Các mô hình QSARMLR, các mô tả phân tử 2D và 3D được
chọn bằng thuật toán hồi quy bằng thuật toán hồi quy.
Bảng 3.21 Các mô hình QSARMLR (k từ 2 đến 10) với các giá trị R2, R2pred và MSE
k Tham số mô tả phân tử 2D, 3D trong các mô hình R2 R2pred SE
2 a1, a2 0,756 0,731 0,430
3 a1, a2, a3 0,774 0,732 0,417
4 a1, a2, a3, a4 0,805 0,772 0,390
5 a1, a2, a3, a4, a5 0,832 0,756 0,365
6 a1, a4, a5, a6, a7, a8 0,854 0,812 0,342
7 a1, a2, a3, a4, a5, a9, a10 0,836 0,721 0,365
8 a1, a2, a3, a4, a5, a8, a9, a10 0,837 0,693 0,367
9 a1, a2, a3, a4, a5, a8, a9, a10, a11 0,838 0,682 0,369
10 a1, a2, a3, a4, a5, a6, a8, a9, a10, a11 0,841 0,650 0,368
(Với a1 là LogP, a2 là MaxNeg, a3 là ka2, a4 là SdO, a5 là MaxQp, a6 là
Ovality, a7 là SdssC, a8 là ka3, a9 là ABSQ, a10 là ABSQon, a11 là dipole).
92
Quy trình lựa chọn cho mô tả 2D và 3D dựa trên sự thay đổi của các giá trị
thống kê R2, SE và F-stat. Các mô hình QSARMLR đánh giá chéo bằng kỹ thuật
LOO, các giá trị R2pred được xác định. 9 mô hình phù hợp nhất được đưa ra trong
Bảng 3.21.
Các mô hình QSARMLR (với k từ 2 đến 10) được xắp xếp theo trật tự thay đổi
của các giá trị thống kê R2, SE và R2pred. Trong Bảng 3.21, các mô hình QSARMLR
(với k từ 5 đến 7) cho thấy giá trị R2pred lớn hơn.
Bảng 3.22 Các giá trị thống kê và phần trăm đóng góp MPmxi,%, GMPmxi,% của các
tham số mô tả phân tử 2D, 3D trong các mô hình QSARMLR (với k bằng 5, 6, 7)
Biến số QSARMLR MPmxi,% GMPmxi,
% m m = 5 m = 6 m = 7 m = 5 m = 6 m = 7
R2 0,832 0,854 0,836
R2adj 0,820 0,841 0,820
SE 0,365 0,342 0,365
R2pred 0,756 0,812 0,721
Hệ số 3,883 8,509 4,790
ABSQ -0,222 - -0,257 27,945 18,636 19,005 21,862
ABSQon - - 0,0143 - - 0,433 0,144
MaxQp 3,416 2,8540 3,588 24,043 25,862 25,908 25,271
MaxNeg - - 6,122 - 24,203 23,890 16,031
SdO 0,0125 0,0247 0,0126 6,192 3,792 3,665 4,550
ka2 0,133 - 0,143 27,484 17,617 17,426 20,842
LogP 0,156 0,2192 0,163 15,651 9,829 9,672 11,717
Ovality - -3,6969 - 5,292 4,393 2,315 4,000
SdssC - 0,2969 - 4,382 5,613 7,236 5,744
ka3 - 0,3635 - 5,351 9,324 3,473 6,049
Đặc biệt, mô hình QSARMLR (3.17) R với k = 6 với giá trị R2tr là 0,854 và R2pr
là 0,812 cao hơn các mô hình còn lại. Mô hình QSARMLR (3.17) với k = 6:
pGI50 = 8,509 + 2,8540MaxQp + 0,0247SdO + 0,2192LogP - 3,6969Ovality +
0,2969SdssC + 0,3635ka3 (3.17)
93
Vì vậy, ba mô hình tốt nhất (với k của 5, 6 và 7) được chọn để xác định tỷ lệ
phần trăm đóng góp của mô tả 2D, 3D đến hoạt tính kháng ung thư. Tỷ lệ đóng góp
có giá trị MPmxi, GMPmxi và các giá trị thống kê khác nhau của các mô hình (với k
bằng 5, 6 và 7) tương ứng được trình bày trong Bảng 3.22.
Giá trị phần trăm đóng góp MPmxi của
Các file đính kèm theo tài liệu này:
- luan_an_mo_rong_cac_ky_thuat_xay_dung_mo_hinh_qsar_va_tien_h.pdf