MỤC LỤC
Nội dung Trang
Trang bìa . i
Trang trong . ii
Lời Cảm Tạ . iii
Tóm Tắt Luận Văn . iv
Mục Lục . vi
Danh Sách Các Bảng . ix
Danh Sách Các Hình . x
Danh Sách Các Chử Viết Tắt . xii
Phần 1. LỜI MỞ ĐẦU . 1
Phần 2. TỔNG QUAN TÀI LIỆU . 4
2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU . 4
2.1.1. Định nghĩa . 4
2.1.2. Hệ quản trị CSDL . 4
2.1.3. Các mô hình dữ liệu . 5
2.1.3.1. Định nghĩa . 5
2.1.3.2. So sánh các mô hình dữ liệu .5
2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB . 6
2.2.1. Perl . 6
2.2.1.1. Tóm tắt lịch sử phát triển . 6
2.2.1.2. Ứng dụng . 7
2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng . 7
2.2.2. Giới thiệu về mạng Internet . 8
2.2.2.1. Tóm lƣợc lịch sử phát triển . 8
2.2.2.2. Một số khái niệm . 9
2.2.3. Web . 9
2.2.3.1. Tóm lƣợt lịch sử phát triển . 9
2.2.3.2. Tích hợp CSDL với web dùng CGI . 10
2.3. CƠ SỞ DỮ LIỆU SINH HỌC . 11
2.3.1. NCBI . 11
2.3.1.1. Vài nét về NCBI . 11
2.3.1.2. Một số cơ sở dữ liệu trong NCBI. 11
2.3.1.3. Một số công cụ trong NCBI . 12
2.3.2. EBI . 13
2.3.2.1. Vài nét về EBI . 13
2.3.2.2. Một số cơ sở dữ liệu trong EBI . 13
2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học . 14
2.3.3. SIB . 15
2.3.4. DDJB và PDBj . 15
2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE . 18
2.4.1. CAULIMOVIRIDAE . 19
2.4.1.1. Khái quát . 19
2.4.1.2. Cấu tạo . 20
2.4.1.3. Đặc tính sinh học . 20
2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ . 20
2.4.2. CLOSTEROVIRIDAE . 21
2.4.2.1. Khái quát . 21
2.4.2.2. Cấu tạo . 21
2.4.2.3. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ . 22
2.5. Gene Hsp-70 và Reverse transcriptase-RNaseH . 23
2.5.1. Gene Reverse transciptase-RNaseH . 23
2.5.2.1. Vị trí gene RT-RNaseH nằm trong genome . 23
2.5.2.2. Chức năng của protein . 23
2.5.2. Gene hsp-70 . 24
2.5.1.1. Vị trí gene hsp-70 nằm trong genome . 24
2.5.1.2. Chức năng . 24
PHẦN 3. PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG . 25
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng. 25
3.1.1. Hệ điều hành . 25
3.1.2. Các chƣơng trình phân tích trình tự . 25
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW . 25
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST . 25
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL . 26
3.1.2.4. Apache web Server . 27
3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng . 27
3.2. Phƣơng pháp . 28
3.2.1. Thu nhận trình tự . 28
3.2.2. Xác định gene và protein trong bộ gene virus . 29
3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH . 32
3.2.3.1. Phân tích dữ liệu . 32
3.2.3.2. Thiết kế CSDL dạng bảng . 34
3.2.3.3. Lƣu trữ các thông tin vào CSDL . 35
3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web . 37
Phần 4. KẾT QUẢ VÀ THẢO LUẬN . 39
4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae . 39
4.2. Kết quả thu nhận trình tự hai gene hsp-70 và Reverse transcriptase-RNaseH . 41
4.3. CSDL trình tự gene hsp-70 và RT-RNaseH . 42
4.4. Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH . 46
4.4.1. Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH . 47
4.4.2. Trang tìm kiếm . 47
4.4.3. Trang công cụ . 49
4.4.4. Trang cây phân loài . 52
4.4.4.1. Trang Caulimoviridae . 52
4.4.4.2. Trang Closteroviridae . 54
4.4.5. Trang liên kết . 54
4.4.6. Trang thông tin về bộ môn công nghệ sinh học . 54
PHẦN 5. KẾT LUẬN VÀ ĐỀ NGHỊ . 55
4.1. KẾT LUẬN . 55
4.2. ĐỀ NGHỊ . 55
PHẦN 6. TÀI LIỆU THAM KHẢO . 57
PHỤ LỤC . 59
72 trang |
Chia sẻ: leddyking34 | Lượt xem: 2187 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Khóa luận Xây dựng cơ sở dữ liệu hai gene HSP-70 và Reverse Transcripte - RNaseH ở một số loài virus thực vật, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ocal Alignment Search Tool): có BLAST Homepage là nơi
cung cấp thông tin hƣớng dẫn về BLAST, chƣơng trình BLAST,…
Blink: nơi hiển thị kết quả bằng BLAST trên mọi protein có trong mọi CSDL
protein Entrez.
Network-client BLAST: client BLAST (blastcl3) có thể thâm nhập vào bộ
máy BLAST của NCBI. Blastcl3 này có thể tìm kiếm tất cả các trình tự dƣới dạng file
FASTA và tạo sự gióng cột một-nhiều trình tự, sau đó lƣu dƣới dạng file text hay
HTML. Ngoài ra, blastcl3 còn có thể thực hiện việc tìm kiếm trên nhiều CSDL.
Stand-alone BLAST: là phần mềm có thể tải về từ NCBI. Phần mềm này
thực hiện việc tìm kiếm các trình tự tƣơng tự trên CSDL trình tự cục bộ.
o Phân loại sinh vật:
Taxonomy Browser: công cụ thực hiện việc tìm kiếm trên CSDL Taxonomy.
Taxonomy BLAST: nhóm lại những kết quả có tỉ lệ tƣơng đồng khi thực
hiện BLAST, tùy thuộc vào sự phân loại của chúng trong CSDL Taxonomy.
TaxTable: tóm tắt kết quả sau khi thực hiện BLAST với CSDL Taxonomy và
hiển thị mối quan hệ giữa sinh vật này với sinh vật khác bằng các biểu đồ màu.
13
Công cụ phục vụ cho việc góp trình tự protein, DNA, EST, STS,
…lên NCBI
Sequin: phần mềm này có thể tải về từ NCBI, hổ trợ cho việc tạo ra những
file văn bản (chứa trình tự, tên tác giả, bài báo,…) có cấu trúc theo khuôn mẫu. Trong
phần mềm này còn kèm theo một số công cụ nhỏ nhƣ công cụ tìm khung đọc mở, công
cụ gióng cột trình tự,… phần mềm này thích hợp cho việc góp nhiều trình tự cùng một
lúc.
NCBI còn tích hợp khá nhiều những công cụ, phần mềm phân tích
trình tự DNA, protein nhƣ:
BanklIt, ORF Finder, Electronic-PCR (e-PCR), VecScreen, Homologene,
COGs, COGnitor, GEO, MGC, Clone Registry, CDD, LocusLink,…
2.3.2. EBI (European Bioinformatics Insiture) [23]
2.3.2.1. Vài nét về EBI
EBI là viện Tin - sinh học của Cộng đồng chung Châu Âu, EBI đặt tại
Welcome Trust Genome Campus nƣớc Anh, thành lập năm 1992. EBI bắt nguồn từ
EMBL (European Molecular Biology Laboratory). EBML đƣợc thành lập năm 1980
tại phòng thí nghiệm sinh học phân tử Heidelberg của Đức và đây là CSDL trình tự
nucleotide đầu tiên của thế giới.
EBI phục vụ cho việc nghiên cứu trong các lĩnh vực nhƣ sinh học phân tử, di
truyền, y học, nông nghiệp,… bằng cách xây dựng, duy trì những CSDL chia sẻ trực
tuyến thông tin cần thiết. Bên cạnh đó, EBI còn thực hiện những nghiên cứu trong lĩnh
vực Tin-sinh học và sinh học phân tử tính toán.
2.3.2.2. Một số cơ sở dữ liệu trong EBI
EMBL (European Molecular Biology Laboratory): còn đƣợc gọi là EMBL-
BANK chứa CSDL về trình tự DNA, RNA.
MSD (Macromolecular Structure Database): chứa thông tin cấu trúc của các
đại phân tử sinh học nhƣ protein, DNA, RNA,…
ArrayExpress: tích trữ nguồn dữ liệu về sự biểu hiện của gene dựa trên kỹ
thuật microArray.
TrEMBL (Translate EMBL): là cơ sở dữ liệu về protein. Do lƣợng trình tự
này ngày càng nhiều và để quản lý tốt hơn, TrEMBL đã kết hợp với Swiss-Prot (CSDL
14
Cơ sở dữ liệu về
protein của Thụy
Sỹ đặt tại Genva
Cơ sở dữ liệu về protein
của trƣờng đại học Y
Georgetown (Mỹ)
Hình 2.3 Một số cơ sở dữ liệu trong EBI
về trình tự protein của Thụy Sỹ), PIR (CSDL về protein của trƣờng đại học Y
Georgetown, Hoa Kỳ) tạo thành CSDL UniProt.
Ngoài ra, EBI còn một số CSDL khác. Chúng là các CSDL trung gian, đƣợc tạo
thành từ sự kết hợp của hai hay nhiều CSDL trên, hay do liên kết đến CSDL khác
2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học
FASTA: Do Smith và Waterman tạo ra năm 1981, là chƣơng trình tìm kiếm
những trình tự tƣơng đồng, có thể là trình tự DNA hay trình tự protein, trong CSDL đã
chọn.
BLAST: chủ yếu là phần mềm WU-BLAST (Washington University Bacis
Local Alignment Tool version 2.0). Đặc điểm chính của công cụ này là tìm kiếm vùng
trình tự tƣơng đồng nhanh chóng.
ClustalW: là công cụ dành cho việc sắp gióng cột ở hai hay nhiều trình tự
sinh học (cả protein và DNA), công cụ này cho ra kết quả có ý nghĩa sinh học cao.
15
2.3.3. SIB (Swiss Insitute of Bioiformatics) [32]
Là viện Tin-sinh học của Thụy Sỹ đặt tại Genva, nơi cung cấp dịch vụ trên
web chất lƣợng cao cho cộng đồng khoa học thế giới qua trang ExPASy (Expert
Protein Analyis System).
Một số CSDL trong ExPASy:
SWISS-PROT: là CSDL protein, đƣợc thành lập năm 1986. Nhƣng kể từ
năm 1987, SWISS-PROT liên kết với EBI.
SWISS-2DPAGE (2-dimensional polyacrylamide gel electrophoresis
database): chứa dữ liệu điện di hai chiều từ protein của ngƣời, chuột, E.coli,…
PROSITE: tích trữ về các họ protein có cùng chức năng.
ENZYME (enzyme nomenclature): cung cấp thông tin về danh pháp của
enzyme.
SWISS-3DIMAGE: lƣu trữ hình ảnh chất lƣợng cao của các đại phân tử sinh
học đã biết cấu trúc không gian ba chiều.
2.3.4. DDBJ (DNA Data Bank Japan) và PDBj (Protein Database Japan) [25]
DDBJ là CSDL về trình tự DNA của Nhật Bản, chính thức đi vào hoạt động
năm 1986, đặt tại viện di truyền quốc gia (NIG). Đến năm 2001, trung tâm thông tin về
sinh học ở NIG đƣợc tổ chức lại với cái tên là CIB (Center Information Biology) kết
hợp với DDBJ, viết tắt CIB/DDBJ.
PDBj là CSDL của Nhật Bản, tích trữ dữ liệu về cấu trúc, chức năng protein.
DDBJ của Nhật Bản, EMBL của Châu Âu, NCBI của Hoa Kỳ là ba CSDL về
trình tự nucleotide lớn, mang tính chất toàn cầu và ba cơ sở dữ liệu này có sự hợp tác,
trao đổi qua lại dữ liệu. Từ đó càng làm cho dữ liệu về trình tự nucleotide trở nên
phong phú hơn.
16
Các tổ chức này đều xây dựng công cụ tìm kiếm trong CSDL của họ. Với
NCBI là Entrez, EBI là SRS và CIB là getentry. Nhƣ vậy để có thể khai thác hiệu quả
các CSDL này thì việc đầu tiên cần thực hiện là nắm vững các hoạt động của công cụ
tìm kiếm (“search engines”) này.
Ngoài ra, cũng có sự kết hợp của các CSDL protein trên thế giới để tạo ra một
CSDL thống nhất wwPDB (world wide Protein Database).
EB
I
GenBank
DDBJ
EMB
L
EMB
L
Entrez
SRS
getentry
NIG
CI
B
NCB
I
NI
H
•Submissions
•Updates
•Submissions
•Updates
•Submissions
•Updates
Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB -DDB) và
công cụ tìm kiếm tƣơng ứng.
Hình 2.5 Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB
17
Bảng 2.1. MỘT SỐ CSDL SINH HỌC LỚN VÀ CÁC ĐỊA CHỈ WEB TƢƠNG ỨNG.
STT Tổ chức
Tên cơ sở dữ
liệu
Địa chỉ trang web
1
EBI
(
ww.ebi.a
c.uk/)
EMBL-BANK
TrEMBL
MSD
Ensembl
ArrayExpress
2
NCBI
(
ww.ncbi.
nlm.nih.
gov)
OMIM
GenBank
Protein
Genome
MMDB
Taxonomy
dbSNP
CDD
Pubmed
Cancer
Chromosomes
Chromosomes
dbEST
dbSTS
DbGSS
18
Bảng 2.2. MỘT SỐ CSDL SINH HỌC LỚN VÀ CÁC ĐỊA CHỈ WEB TƢƠNG ỨNG
(tiếp theo)
2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE
Giới thiệu chung [1]
Bệnh hại do virus thực vật gây ra cho nền nông nghiệp rất lớn. Nhƣng xác
định đúng tác nhân gây ra những thiệt hại này đối với từng loại cây trồng gặp nhiều
khó khăn vì bệnh do virus gây ra thƣờng rất khó xác định, do kích thƣớc của chúng
quá bé, do biến chuyển của quá trình gây bệnh thƣờng rất phức tạp và chịu ảnh hƣởng
của nhiều điều kiện khác nhau.
Ví dụ: Theo J.S.Hu và cộng sự, bệnh héo do virus (Mealybug wilt of
pineapple- MWP) là bệnh gây thiệt hại ở nhiều khu vực trồng dứa trên thế giới. Các
nghiên cứu đã chứng minh rằng một yếu tố tiềm tàng liên quan đến bệnh là virus. Một
dạng closterovirus hình que gấp khúc đƣợc phân lập từ những cây có triệu chứng
MWP ở Hawaii. Tuy nhiên sau đó những tiểu phần closterovirus cũng đƣợc tìm thấy ở
cả cây dứa có và không có thể hiện triệu chứng trên phạm vi thế giới. Virus liên quan
đến bệnh héo ở dứa (PMWaV) thực chất là phức hợp của 2 loại virus PMWaV-1 và
PMWaV-2. Vì tác nhân không biểu hiện ra ngoài không gây ảnh hƣởng đến sự sinh
trƣởng và phát triển của dứa, để phát hiện phân biệt hai tác nhân này ở những cây
không và có biểu hiện ra ngoài là rất khó khăn.
STT Tổ chức Tên cơ sở dữ liệu Địa chỉ trang web
3 SIB
(
asy.org)
SWISS-PROT
SWISS-2DPAGE
PROSITE
ENZYME
SWISS-3DIMAGE
CD40L
4 CIB/DDBJ DDBJ
5 Pdbj Pdbj
6 PDB PDB
7 wwPDB wwPDB
19
Trong đó:
ORF I Movement protein
ORF II Insect transmission factor
ORF III
ORF IV Capsid protein
ORF V Protease, reverse transcriptase and RNaseH
ORF VI Translational activator / Inclusion body protein
ORF VII Unknown (dispensable)
Hình 2.6 Tổ chức genome của virus CaMV (Caulimoflower mosaic virus)
2.4.1. CAULOMOVIRIDAE [29]
2.4.1.1. Khái quát
Caulimoviriruse là họ virus thực vật có genome chứa dsDNA. Đƣợc chia ra
làm năm nhóm gồm:
Caulimovirus (loài đặc trƣng: cauliflower mosaic virus).
Soymovirus (loài đặc trƣng: Soybean chlorotic mottle-like viruses).
Cavemovirus (loài đặc trƣng: Cassava vein mosaic-like viruses).
Tungrovirus (loài đặc trƣng: Rice tungro bacilliform-like viruses).
Badnavirus (loài đặc trƣng: Cammelina yellow mottle virus).
Petuvirus (loài đặc trƣng: Petunia vein clearing-like virus).
Trong đó, Virion của các loài Caulimovirus, Soymovirus, Cavemovirus,
Petuvirus có đƣờng kính khoảng 50 nm. Còn Tungrovirus và Badnavirus có chiều dài
110-400 và 130 nm, đƣờng kính khoảng 30-35 và 30-35 nm tƣơng ứng. Các loài trong
họ có kích thƣớc genome khoảng 7,5-8 kb và tổ chức genome gồm 9 ORF (Open
Reading Frame) trong ORF1 gồm có ORF1a và ORF1b). Sự sao mã genome của virus
trong tế bào ký chủ phụ thuộc vào gene reverse transcriptase (gene này không chèn
vào DNA của tế bào ký chủ trong quá sao mã và dịch mã)
20
2.4.1.2. Cấu tạo
Virion có cấu trúc đơn giản gồm một lớp vỏ capsid. Viron không có áo
(enveloped) bao bọc bên ngoài. Capsid có hình cầu hoặc dạng bacilliform. Ở dạng cầu
có đƣờng kính khoảng 35-47.52-50 nm. Các lớp vỏ (shell) capsid của virion là tổ hợp
của những màng đa, sự sắp xếp của capsomer không có sự phân biệt. Còn ở dạng
bacilliform thì capsid có độ dài 130 nm hoặc 60-900 nm và có đƣờng kính 24-30-35
nm.
2.4.1.3. ĐẶC TÍNH SINH HỌC
Dãy ký chủ tự nhiên
Ký chủ của virus liên quan đến Domain Eucarya.
Mối quan hệ vector và ký chủ trung gian
Virus có thể đƣợc vận chuyển bởi một số nhân tố sau: vector, hạt,
phấn hoa, sự cọ sát giữa hai ký chủ,…
Vùng phân bố
Phân bố khắp nơi nhƣ châu Phi, Mỹ, Á,…
2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ [18]
Virus tấn công vào tế bào ký chủ thông qua các thụ thể trên màng, khi vào tế
bào ký chủ tiến hành cởi bỏ lớp vỏ, phóng thích dsDNA vào tế bào chất của tế bào ký
chủ. Sợi dsDNA này tiến hành đi vào nhân của tế bào ký chủ, sau đó nó tiến hành nhân
bản trong nhân và sao mã tạo mRNA dƣới sự tham gia của các enzyme của nhân và
virus (DNA-dependent RNA polymerase). mRNA này từ nhân đi ra tế bào chất của tế
bào ký chủ để thực hiện việc dịch mã. Các protein của sự dịch mã mRNA virus lại trở
Hình 2.7 Hình thái virion của một số loài trong họ Caulimoviridae
21
Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của
virus dsDNA
lại nhân, kết hợp với sản phẩm của quá trình nhân bản, để hình thành nên các virion,
các virion này thoát khỏi nhân và cuối cùng ly giải ra khỏi tế bào ký chủ (Hình 2.8).
2.4.2. CLOSTEROVIRIDAE
2.4.2.1. Khái quát [12]
Closteroviridae cũng là họ virus gây hại trên thực vật, có bộ genome là
ssRNA và virion có hình dạng sợi tròn mảnh (flexuous rod-shaped virion), có độ dài
khoảng 1250-2200 nm chứa một sợi sense dƣơng, kích thƣớc của một RNA sợi đơn
khoảng 15,5-19.3 kb (Martelli và cộng sự, 2002). Đƣợc chia ra làm 3 nhóm gồm:
Ampelovirus (loài đặc trƣng: Grapevine leafroll-associated virus 3).
Closterovirus (loài đặc trƣng: Beet yellows virus).
Crinivirus (loài đặc trƣng: Lettuce infectious yellows virus).
2.4.2.2. Cấu tạo [30]
Virion có cấu tạo đơn giản gồm có một lớp vỏ (capsid), không có lớp áo
(enveloped) bao bên ngoài. Capsid của nó rất mảnh, có độ dài khoảng 650-900 hoặc
1200-2325 nm và có đƣờng kính khoảng 10-13 nm.
22
Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus
2.4.2.3. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ [18]
Thông qua các thụ thể trên màng của tế bào ký chủ, virus nhận biết và tấn
công vào vào tế bào ký chủ để đi vào tế bào chất của tế bào ký chủ. Khi ở trong tế bào
chất virus tiến hành sự hóa acid thể nhân (acidification of endosome) để tạo ra sợi
single strand RNA sense (+). Ở trong tế bào chất, mRNA này có hai nhiệm vụ là:
Thực hiện việc dịch mã ra protein virus, protein này sau đó đƣợc biến đổi để
hình thành nên các protein cấu trúc của virus
Sao mã genome của virus tiếp đó tạo nên sợi single strand RNA (ssRNA).
Các protein cấu trúc đƣợc hình thành sẽ “gói” các ssRNA ở trên để hình thành các
virion trong tế bào chất, sau đó ly giải màng tế bào ký chủ và phóng thích ra ngoài.
(hình 2.10).
Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus (+)ssRNA
23
2.5. Gene Hsp-70 và Reverse transcriptase-RNaseH
Mụch tiêu của khóa luận là xây dựng CSDL phục vụ cho việc phân biệt các loài
trong họ hay phân biệt các họ với nhau thông qua phản ứng PCR phát hiện. Nên chúng
tôi chỉ quan tâm đến vùng gene bảo tồn để tiến hành xây dựng CSDL. Mặc dù, trong
hai họ virus này có nhiều gene bảo tồn, nhƣng sau khi tìm hiểu thông tin chúng tôi tiến
hành xây dựng CSDL về hai gene hsp-70 và RT-RnasH với hai lý do sau:
Thứ nhất, gene hsp-70 là gene quan trọng ở Closteroviridae khi tồn tại trong môi
trƣờng sốc nhiệt và gene Reverse Transcriptase-RNaseH (RT-RNaseH) ở
Caulimoviridae thuộc nhóm Retrovirus nên gene RT-RNaseH rất quan trọng cho quá
trình hoàn thành chu kỳ sống của chúng trong tế bào ký chủ.
Thứ hai, các thông tin về trình tự hai gene này đƣợc nghiên cứu, giải trình tự và
đăng tải nhiều trên CSDL nucleotide của NCBI.
2.5.1. Gene Reverse transciptase-RnasH (RT-RNaseH)
2.5.1.1. Vị trí gene RT-RNaseH nằm trong genome [15, 16]
Gene RT-RNaseH đây là tổ hợp của hai gene RT và RNaseH mã hóa cho
enzyme reverse transcriptase và ribonuclease H (RNaseH) thuộc ORF5 trong tổ chức
genome của Cauliflower mosaic virus. Đây là hai gene có mối quan hệ chặt chẽ trong
quá trình thực hiện sao chép từ ssRNA sang dsDNA của quá trình tạo genome hoàn
chỉnh của virus. Ngoài ra, trong ORF5 này còn chứa một số gene khác mã hóa cho một
số polyprotein khác nhƣ aspartic protease, protein áo,… Còn một số thành viên khác
thuộc giống Badnavirus thì gene này nằm trong ORF3. Gene RT-RNaseH bảo tồn
trong họ mã hóa cho protein reverse transcriptase-RNaseH, đây là một trong những
protein bảo tồn trong họ virus Caulimoviridae.
2.5.1.2. Chức năng của protein [31]
Đối với các loài virus có tổ chức genome là dsDNA trong quá trình sao mã
trong tế bào ký chủ, chúng sử dụng enzyme Reverse transcriptase-RNaseH để hoàn
thành chu kỳ sao mã của chúng.
Protein Reverse transcriptase-RNaseH có hai chức năng:
DNA polymerase: Trong chu kỳ sống của virus reverse transcriptase chỉ
sao chép RNA. Nó sẽ sao mã cả khuân mẫu RNA và DNA sợi đơn. Trong
cả hai trƣờng hợp này nó điều cần những primer RNA hoặc DNA để khởi
đầu cho sự tổng hợp của nó.
Hình 2.11 Vị trí gene RT-RNaseH nằm trong cấu trúc genome Cauliflower mosaic virus (CMV)
24
Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus (BYV)
Hình 2.12 Protein Reverse transcriptase
RNase H: là một ribonuclease, enzyme này có chức năng phân tách RNA
từ những RNA-DNA lai, RNA-DNA lai này đƣợc hình thành trong quá trình
sao mã ngƣợc của đoạn khuôn mẫu RNA. RNase H hoạt động có hai tính
năng endonuclease và exonuclease trong quá trình phân tách RNA-DNA lai.
2.5.2. Gene hsp-70
2.5.2.1. Vị trí gene hsp-70 nằm trong genome [13, 17]
Gene hsp-70 mã hóa cho enzyme HSP-70 thuộc ORF2 trong tổ chức genome
(gồm có 9 ORF nằm trong 2 RNA là RNA1 và RNA2) và gene này thuộc RNA2 của
họ Closteroviridae. Đây là gene bảo tồn trong họ và nhiều nghiên cứu tiến hành xây
dựng cây phát sinh loài dựa trên gene này.
2.5.2.2. Chức năng [10]
Protein HSP-70 (hình 2.14), trọng lƣợng phân tử 70 kD đƣợc mã hóa từ gene
hsp-70 có vai trò quan trọng trong quá trình tồn tại của sinh vật trong môi trƣờng có sự
thay đổi đột ngột về nhiệt độ. Ngoài ra, protein HSP-70 còn tham gia vào một số quá
trình điều hòa quan trọng khác nhƣ: giúp sự hình thành cấu của protein, giúp di chuyển
của virus qua các tế bào ký chủ,…Đây là protein bảo tồn trong họ.
Hình 2.14 Protein HSP-70
25
PHẦN 3
PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng
3.1.1. Hệ điều hành: Windows XP (Microsoft). Xây dựng CSDL trình tự
nucleotide, protein ở Caulimoviridae và Closteroviridae trên hệ điều hành này.
3.1.2. Các chƣơng trình phân tích trình tự
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW [26]
ClustalW là một phần mềm (chạy trên nền Dos) dùng để so sánh sự tƣơng
đồng của hai hay nhiều trình tự sinh học (pairswise or mutiple alignment). ClustalW
mô tả kết quả bằng hệ thống các kí hiệu làm nổi bậc những nét đặc trƣng trong những
đoạn tƣơng đồng. ClustalW ngày càng trở nên hữu ích cho các nhà nghiên cứu trong
việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein. Sự hiểu biết
về mutiple alignment giúp ích rất nhiều cho các nhà khoa học trong việc dự đoán cấu
trúc bậc hai, bậc ba của protein, đồng thời phát hiện sự tƣơng đồng giữa những đoạn
gene (hoặc protein) vừa đƣợc giải trình tự với những gene (hoặc protein) đã tồn tại.
ClustalW tiến hành so sánh tƣơng đồng nhiều trình tự sinh học qua ba giai đoạn:
Đầu tiên chƣơng trình sử dụng thuật toán alignment xấp xỉ của Wilbur và
Lipman năm 1983 để tính hệ số tƣơng đồng giữa mỗi cặp trình tự.
Những hệ số tƣơng đồng tính đƣợc sẽ đƣợc sử dụng để thành lập cây phả hệ
(“Guide tree” hay dendrogram) bằng phƣơng pháp UPGMA (Unwieghted Pair –
Group Method) của Sneath và Sokal năm 1973.
Cuối cùng các trình tự đƣợc so sánh với những nhóm trình tự lớn hơn và cứ
thế tiếp tục. Ở mỗi giai đoạn so sánh này, ClustalW sẽ sử dụng thuật toán của Myers
và Miller (1998) nhằm tối ƣu kết quả.
ClustalW 1.83 đƣợc sử dụng trong khóa luận này, đƣợc tải về từ trang web
(
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST [27]
BLAST là một chƣơng trình tìm kiếm và so sánh trình tự tƣơng đồng đƣợc
nhiều ngƣời dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ ý tƣởng “liệu
trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế giới
26
nhƣ GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự đang quan
tâm”. BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay protein) với những
trình tự trong CSDL. Kết quả của BLAST là những số liệu thống kê chính xác về tỉ lệ
tƣơng đồng và nguồn gốc các trình tự.
Chiến lƣợc tìm kiếm trình tự tƣơng đồng trong BLAST đƣợc thực hiện qua ba
bƣớc chính:
Đầu tiên BLAST tìm kiếm những đoạn tƣơng đồng HSPs (High Scoring
Pair) giữa một trình tự đƣa vào và mỗi trình tự trong CSDL.
Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ
sự tƣơng đồng nào đƣợc tìm thấy.
Sau cùng BLAST đƣa ra một báo cáo kết quả giống nhau thỏa mãn ngƣỡng
giá trị mà ngƣời dùng mong muốn.
Stand-alone BLAST version 2.28 là phiên bản đƣợc sử dụng trong khóa
luận này, có thể dễ dàng tải về từ địa chỉ web của trang CSDL NCBI
(ftp://ftp.ncbi.nih.gov.blast/executables/).
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL[33]
MySQL là một hệ quản trị CSDL quan hệ nguồn mở phổ biến nhất, dƣới
sự phát triển, phân phối và bảo vệ bởi MySQL AB (MySQL AB là một công ty thƣơng
mại). Phần SQL của MySQL đƣợc viết tắt từ chữ ”Structured Query Language''. SQL
là một ngôn ngữ chuẩn đƣợc dùng phổ biến để xây dựng CSDL và đƣợc công nhận bởi
cơ quan tiêu chuẩn SQL là ANSI/ISO công nhận (phiên bản chuẩn của SQL ra đời từ
năm 1986 và cho đến nay thì có rất nhiều phiên bản đã tồn tại, “SQL:2003” là phiên
bản chuẩn ra đời vào giữa năm 2003, phiên bản này có nhiều ƣu điểm so với các phiên
bản trƣớc đó).
Xuất xứ của tên MySQL không rõ. Tiền tố My của MySQL chỉ xuất hiện cách
đây khoảng 10 năm nay, có lẽ nó đƣợc lấy từ tên con gái của Monty Widenius (ngƣời
đặt nền móng cho sự phát triển của MySQL). MySQL đƣợc viết dựa trên ngôn ngữ C
và C++, hoạt động trên nhiều hệ điều hành khác nhau. Phiên bản mới nhất của MySQL
là MySQL 5.0.
Ƣu điểm.
Dể sử dụng.
Mã nguồn mở.
27
Thích hợp cho việc xây dựng CSDL vừa và nhỏ.
Nhƣợc điểm:
Không thích hợp cho việc xây dựng CSDL lớn.
Phiên bản MySQL 4.0.15 đƣợc sử dụng trong khóa luận này.
3.1.2.4. Apache web Server [28]
Trên thế giới hiện nay có rất nhiều trình chủ web hỗ trợ CGI và một trong
số đó là Apache web Server. Apache web Server là một trình chủ web đƣợc nhiều
ngƣời dùng nhất hiện nay trên Internet. Theo số liệu thăm dò của NetCraft, có trên
60% trình chủ web đang đƣợc sử dụng trên Internet hiện nay là sử dụng Apache web
Server. Sở dĩ Apache có đƣợc một vị trí đáng nể nhƣ thế là nhờ vào việc nó là một
chƣơng trình mã nguồn mở và hoàn toàn miễn phí. Hai ƣu điểm này đã giúp Apache
đƣợc yêu thích đối với những công việc vừa và lớn của nhiều công ty trên thế giới.
Hơn thế, Apache hoạt động ổn định, an toàn và đáng tin cậy. Chỉ trong thời gian 5 năm
qua, Apache đã trở thành một trình chủ web có chức năng tƣơng đƣơng, thậm chí còn
vƣợt trội so với nhiều trình chủ web thƣơng mại khác.
Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web
thông qua các module. Có 2 loại module trong Apache đó là external module và
internal module. Cả hai loại module này điều có thể đƣợc sửa chữa, thay thế hoặc
nâng cấp vì chúng có kèm theo mã nguồn mở. Khi một yêu cầu từ trình tự khách đƣợc
gởi đến Apache phải trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả
cho ngƣời dùng.
Apache có một chế độ bảo mật đáng tin cậy. Quy trình làm việc của Apache
cho phép ngƣời dùng thêm mới những module cần thiết vào bất kỳ giai đoạn nào của
quá trình xử lý.
Apache 1.3.24 là phiên bản đƣợc sử dụng trong khóa luận này, có thể tải
phiên bản này từ địa chỉ (
3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng
Trình dịch phiên bản Perl phiên bản 5.6
DBI, DBD::MySQL, CGI.pm
DBI: version 1.37
DBD::MySQL version 2.9002
28
Dùng Perl script tải về lấy tất cả các
trình tự có ACCESSION NUMBER
của hai gene RT-RNaseH và hsp-70
Từ khóa
Tách lấy
ACCESSION
NUMBER
NCBI
Toàn bộ thông tin về
trình tự gene hsp-70
và RT-RNaseH
Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự
CGI.pm version 2.752
Các gói này đƣợc cài đặt thông qua ppm trong Perl.
3.2. Phƣơng pháp
3.2.1 Thu nhận trình tự
Trình tự nucleotide và protein của hai gene hsp-70 (heat sock protein 70)
và RT-RNaseH (Reverse transcriptase-RNaseH), dùng để tạo CSDL đƣợc thu nhận từ
trang CSDL NCBI. Sơ đồ tóm tắt quá trình thu nhận nhƣ sau:
Các bƣớc thực hiện tuần tự theo sơ đồ sau:
Từ khóa sử dụng là:
“Caulimovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
“Badnavius[ORGANISM]reverse transcriptase-RNaseH[GENE]”
“Soymovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
“Cavemovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
29
Tách lấy tất cả các trình tự
Thực hiện sắp gióng cột từng cặp
trình tự gene (trên cùng loài)
tƣơng ứng
Sau đó ta xác định vị trí của gene
trong ORF hay genome thông qua
trình tự gene đã biết
Hình 3.2 Sơ đồ xác định gene trong ORF hay genome virus
Lƣu trữ các trình tự trên vào CSDL
Trình tự của gene RT-
RNaseH trong ORF hay
genome từ NCBI
Trình tự gene RT-RNaseH
đã biết đƣợc thu nhận từ
NCBI
Viết chƣơng trình Perl script để
tách lấy các gene đã đƣợc xác
định vị trí ở trên
“Tungrovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
“Petuvirus[ORGANISM]reverse transcripte-RNaseH[GENE]”
“Ampelovirus[ORGANISM]hsp-70[GENE]”
“Closterovirus[ORGANISM]hsp-70[GENE]”
“Crinivirus [ORGANISM]hsp-70[GENE]”
3.2.2. Xác định gene và protein trong bộ gene virus
Sau khi khảo sát các mẫu tin về trình tự gene hsp-70 và RT-RNaseH trên hai
họ virus chúng tôi nhận thấy toàn bộ mẫu tin gene hsp-70 và chỉ có một số mẫu tin của
gene RT-RNaseH đƣợc xác định vị trí rõ trong ORF hay genome, nên chúng tôi chỉ cần
viết chƣơng trình perl script để tách chúng (thông qua vị trí đã biết). Còn đối với có
một số mẫu tin chứa gene RT-RNaseH chƣa biết vị trí chúng tôi tiến hành thu nhận
gene này theo sơ đồ sau:
30
Các bƣớc thực hiện
Bƣớc 1: thu nhận trình tự gene về gene RT-RNaseH đã biết và chƣa biết (các
mẫu tin chứa toàn bộ genome hay ORF).
Để xác định đƣợc vị trí của một gene trong các gene khác trong ORF hay
genome của virus, phải thông qua các trình gene đã biết thu nhận đƣợc.
Từ đó, thông qua trình tự gene đã biết này ta xác định vị trí của gene RT-
RNasH nằm trong genome hay nằm cùng với các gene trong ORF của virus.
Bƣớc 2: tách các trình tự gene trong các file t
Các file đính kèm theo tài liệu này:
- khoa luan tot nghiep - Thai CNSH27.pdf