Mục Lục
LỜI CẢM ƠN . iii
TÓM TẮT KHOÁ LUẬN . iv
ABSTRACT . vi
DANH SÁCH CÁC TỪ VIẾT TẮT . xi
Chương 1 . 1
MỞ ĐẦU . 1
1.1 Đặt vấn đề
1.2.Mục tiêu của khóa luận
Chương 2 . 3
TỔNG QUAN TÀI LIỆU . 3
2.1 Giớ thiệu về chi cam chanh . 3
2.1.1 Vị trí phân lọai . 3
2.1.2 Đặc điểm . 4
2.1.3 Sâu hại và bệnh tật . 6
2.2 EST . 7
2.3.1 Sơ lược về EST . 7
2.3.2 Nguồn gốc của EST . 7
2.3.Sơ lược về phương pháp Microsatellite (SSR) . 8
2.3.1Những khái niệm về kỹ thuật microsatellite . 8
2.3.2 Giới thiệu chung . 9
2.3.2.1 Tính chất . 9
2.3.2.2 Khuếch đại của microsatellites . 10
2.3.2.3 Những giới hạn của microsatellite . 11
2.3.3 Các loại microsatellite . 12
2.3.4 Cơ chế hình thành microsatellite . 12
2.3.5 Vai trò của microsatellite . 13
2.4 Phương pháp xác định microsatellite truyền thống. 15
2.5 Phương pháp phát hiện microsatellite sử dụng . 16
2.6 Ứng dụng . 18
2.7 Cơ sở dữ liệu sinh học . 18
2.7.1 NCBI . 19
2.7.1.1 Vài nét về NCBI . 19
3.1.1.2 Một số cơ sở dữ liệu trong NCBI . 19
Chương 3 . 20
VẬT LIỆU VÀ PHưƠNG PHÁP . 20
3.1 Các chương trình và ngôn ngữ lập trình được sử dụng. 20
3.1.1 Hệ điều hành . 20
3.1.2 Các chương trình phân tích trình tự . 20
3.1.2.1 Chương trình Perl ssrfinder_1 . 20
3.1.2.2 Chương trình tìm kiếm các trình tự tương đồng – BLAST . 22
3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS . 23
3.1.2.4 Egassembler . 23
3.1.3 Apache web Server . 24
3.4 CÁC BưỚC TIẾN HÀNH . 25
Chương 4 . 37
KẾT QUẢ VÀ THẢO LUẬN . 37
4.1 Thu thập trình tự ESTs Citrus từ CSDL dbEST . 37
4.2 Loại các dữ liệu nhiễu và dư bằng công cụ EGassembler bao gồm các bước sau:
. 38
4.2.1 Làm sạch trình tự . 38
4.2.2 Dấu những vùng trình tự nhiễu của vector và adaptors . 39
4.2.3 Dấu những vùng trình tự nhiễu của các bào quan . 39
4.3 Assembling . 41
4.4 Tìm SSR: bằng SSRFinder v1.0 của Steven Schroeder . 42
4.4.1 BLASTn: . 43
4.5.Thiết kế và kiểm tra primer . 45
4.6 tBLASTx . 48
4.7. Đưa tất cả các dữ liệu này vào CSDL quan hệ Microsoft ACCESS để dễ dàng
truy xuất thông tin. . 49
4.8 Tích hợp CSDL vừa xây dựng vào web thông qua Apache Server để chia sẽ
thông tin qua mạng. . 49
4.8.1 Trang chủ (HOME PAGE) . 49
4.8.2 Trang cơ sở dữ liệu SSRs (SSRs PAGE) . 50
Chương5 . 52
KẾT LUẬN VÀ ĐỀ NGHỊ . 52
5.1. Kết luận . 52
5.2. Đề nghị . 53
TÀI LIỆU THAM KHẢO . 54
Phụ Lục . 57
71 trang |
Chia sẻ: leddyking34 | Lượt xem: 1887 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Khóa luận Khai thác dữ liệu ESTs (Expressed Sequence TAGs) ở chi cam chanh (Citrus) cho việc phát triển marker phân tử SSR (Simple Sequence Repeats), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ấp đầy đủ thông tin về di truyền, trong đó alleles đặc thù của tổ tiên có thể đƣợc
10
nhận biết dễ dàng. Bằng cách này, microsatellite là lý tƣởng để xác định nguồn gốc,
nghiên cứu di truyền quần thể và bản đồ tái tổ hợp. Nó còn là marker phân tử dùng
để cung cấp đầu mối về những alleles có mối quan hệ gần nhau hơn.
Microsatellite có đƣợc tính hay thay đổi với tỉ lệ đột biến tăng dần so với
vùng trung tính khác của DNA. Tỉ lệ đột biến cao này có thể đƣợc giải thích bởi sự
bắt cặp sai trong bộ phận trƣợt (slipped strand mispairing - sự giữ không đúng mục
tiêu) trong suốt quá trình sao chép DNA trên một chuỗi đơn xoắn kép. Sự đột biến
cũng xảy ra suốt quá trình tái tổ hợp trong quá trình giảm phân. Một vài lỗi sai mục
tiêu đƣợc sửa bởi cơ chế đọc và sửa trong nhân, thế nhƣng một vài đột biến có thể
không đƣợc sửa chữa. Kích thƣớc của đơn vị lặp lại, số lần lặp lại và sự hiện diện
của sự lặp lại khác nhau là tất cả các yếu tố, cũng nhƣ là tính thƣờng xuyên của sự
dịch mã trong khu vực của DNA lặp lại. Sự gián đoạn của microsatellites, có thể do
đột biến, có thể là nguyên nhân trong việc giảm sự đa hình. Tuy nhiên, cơ chế tƣơng
tự này thỉnh thoảng có thể dẫn đến sự khuếch đại không chính xác của
microsatellites; nếu sự sai mục tiêu xảy ra sớm trong suốt quá trình PCR, thì chiều
dài không chính xác của microsatellites có thể đƣợc khuếch đại.
2.3.2.2 Khuếch đại của microsatellites
Microsatellites có thể đƣợc khuếch đại để nhận biết bằng việc sử dụng PCR,
sử dụng mẫu của những vùng lân cận (primer). DNA đƣợc biến tính ở nhiệt độ cao,
tách ra làm hai dãy, cho phép sự bắt cặp của primer và sự kéo dài của trình tự
nucleotide dọc theo chuỗi đối diện ở nhiệt độ thấp. Kết quả của quá trình này là có
đủ hàm lƣợng DNA để có thể nhìn thấy đƣợc trên gel agarose hay arcrylamide, một
số lƣợng nhỏ DNA cần thiết cho việc khuếch đại kết hợp với chu trình nhiệt cách
hợp lí để tạo ra sự tăng lên theo số mủ trong đoạn đƣợc sao chép. Với sự phong phú
của kỹ thuật microsatellite, primer liên kết với vị trí microsatelltes thì đơn giản và
đƣợc sử dụng nhanh chóng, tuy nhiên sự phát triển của những primers nhƣ vậy
thƣờng là một quá trình tốn kém và đơn điệu.
11
2.3.2.3 Những giới hạn của microsatellite
Microsatellite đƣợc chứng tỏ là marker phân tử hữu hiệu, đặc biệt là trong
nghiên cứu quần thể, thế nhƣng chúng không phải là không có hạn chế.
Microsatellite đƣợc phát triển cho những chủng đặc trƣng có thể đƣợc ứng dụng
thƣờng xuyên với những chủng có mối quan hệ họ hàng gần nhau, tuy nhiên tỉ tệ
phần trăm vị trí di truyền đƣợc khuếch đại thành công có thể bị giảm bởi sự gia tăng
khoảng cách di truyền. Điểm đột biến trong vị trí bắt cặp của primer trong một loài
nào đó có thể dẫn đến sự cố „alleles không giá trị‟ (null alleles), nơi mà primer
microsatellite không thể đáp ứng để khuếch đại trong thí nghiệm PCR. Null alleles
có thể đóng góp vào một vài hiện tƣợng. Sự phân kì trong trình tự ở vùng liên kết có
thể dẫn đến sự bắt cặp nghèo nàn của primer, đặc biệt ở vùng 3‟ nơi mà sự kéo dài
bắt đầu, sự khuếch đại ƣu tiên của vị trí alleles đặc thù do sự cạnh tranh tự nhiên
của PCR có thể dẫn đến việc cá thể dị hợp tử đƣợc ghi nhận từ đồng hợp tử (bộ
phận không có giá trị). Sự thất bại của phản ứng PCR có thể thu nhận kết quả khi sự
sai khác ở vị trí đặc thù đƣợc khuếch đại. Tuy nhiên, ảnh hƣởng sai khác của quần
thể nhỏ và khả năng của sự liên kết giới tính cũng cần đƣợc xem xét để không đƣa
ra giá trị sai của alleles không giá trị do sự tăng tính đồng hình trong phân tích quần
thể. Sự khác nhau trong kích thƣớc alleles cũng không phản ánh sự khác nhau thật
sự đột biến có thể có từ sự thêm vào hay mất đi của bases và toàn bộ microsatellite
có thể chịu sự nén chặt về chiều dài. Tỉ lệ đột biến thì không có tiêu chuẩn để đánh
giá. Vùng trung tính của một số vùng microsatellite còn đang nghi vấn, có lẽ do sự
biến thiên tính trạng số lƣợng hoặc sự cố trong vùng exon của genes dƣới sự chọn
lọc. Khi sử dụng microsatellite để so sánh loài, vị trí đồng hình có thể dễ dàng
khuếch đại trong những loài có quan hệ, thế nhƣng số vị trí khuếch đại thành công
trong suốt phản ứng PCR có thể giảm do sự tăng khoảng cách di truyền giữa các
loài nghi vấn. Đột biến trong alleles microsatellite có thể bị ảnh hƣởng xấu trong
trƣờng hợp có một đoạn alleles lớn hơn chứa nhiều bases hơn, và do đó có thể đƣợc
dịch sai trong quá trình phiên mã DNA. Một alleles nhỏ hơn tham gia vào việc làm
tăng kích thƣớc, trong khi một alleles lớn hơn tham gia để làm giảm kích thƣớc, khi
12
mà chúng có thể là nguyên nhân cho sự giới hạn trên về kích thƣớc, sự ép buộc này
đã đƣợc xác định nhƣng giá trị khẳng định là chƣa chuyên biệt. Nếu có một sự khác
biệt lớn về kích cỡ giữa alleles của cá thể, điều đó có thể làm tăng sự không bền
vững trong sự tái tổ hợp ở quá trình giảm phân. Trong tế bào khối u, nơi mà sự kiểm
soát trên phiên mã bị phá hủy, microsatellite có thể tăng thêm hay mất đi thƣờng
xuyên ở tỉ lệ đặc biệt cao trong mỗi chu kỳ nguyên phân. Do đó một dòng tế bào
khối u có thể chỉ ra những đặc điểm khác biệt di truyền từ những mô kí chủ đó.
2.3.3 Các loại microsatellite
Căn cứ vào cấu tạo của đơn vị lặp lại (2-6 lần) chúng ta có :
Dinucleotide SSR (GT)6
GTGTGTGTGTGT
Trinucleotide SSR (CTG)4
CTGCTGCTGCTG
Tetranucleotide SSR (ACTC)4
ACTCACTCACTCACTC
Trinucleotide SSR xuất hiện ít hơn dinucleotide SSR khoảng 10 lần, và
tetranucleotide SSR còn hiếm hơn nữa (Ma và ctv., 1996).
2.3.4 Cơ chế hình thành microsatellite
Cơ chế đột biến hình thành microsatellite vẫn chƣa đƣợc hiểu biết một cách
đầy đủ. Tuy nhiên di truyền học và các nghiên cứu khác cho rằng cơ chế xuất hiện
và hình thành microsatellite là do 2 quá trình sau:
Quá trình bắt chéo lỗi trong quá trình giảm phân (unequal crossing- over
during meiosis)
.
Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân
13
Quá trình trƣợt lỗi trong sao mã (replication slippage)
Đây đƣợc coi là nguyên nhân chủ yếu và nó xảy ra trên mạch chậm (lagging
strand). Quá trình này liên quan đến quá trình trƣợt lỗi của enzyme polymerase trên
phân tử DNA mới tổng hợp. Sự trƣợt lỗi này tạo ra một chỗ phình nhất thời có thể
bị loại bỏ trong quá trình sửa lỗi hoặc là có thể kéo dài thêm ở mạch đối diện tạo
thành một đoạn lặp lại dài hơn.
Hình 2.4 Cơ chế trƣợt lỗi trong quá trình sao mã
2.3.5 Vai trò của microsatellite
Rất nhiều microsatellite đã đƣợc tìm thấy ở vùng phía trên của các vùng khởi
đầu sao mã của vùng mang mã. Chức năng rõ rệt của những vùng nhƣ vậy vẫn còn
chƣa rõ ràng, mặc dù ngƣời ta tìm thấy chúng tồn tại giữa các vùng exon và có liên
quan tới các bệnh di truyền.
Microsatellite đƣợc dùng nhƣ một marker di truyền để nghiên cứu về di
truyền quần thể, quan hệ tiến hóa, lập bản đồ gen. Tuy nhiên có rất nhiều chứng cứ
14
cho rằng trình tự microsatellite cũng đóng vai trò là yếu tố mang mã hoặc nhân tố
điều hòa. Microsatellite đƣợc tìm thấy khắp nơi ở phần trƣớc vùng khởi đầu sao mã
của vùng mang mã, và một số đã đƣợc tìm thấy có quan hệ với vùng mã hoá. Số
lƣợng khác nhau của các đoạn lặp lại của microsatellite ở vùng mã hoá có quan hệ
với sự biểu hiện của gene và chức năng của gene.
Ở một số trƣờng hợp, sự thay đổi (mất hoặc thêm) các đơn vị lặp lại của
microsatellite cũng làm thay đổi chức năng hoạt động của promotor. Vị trí của
microsatellite gần hay xa promotor cũng làm hoạt động của promotor thay đổi.
Vùng điều khiển có chứa microsatellite hoạt động nhƣ một nhân tố thúc đẩy quá
trình phiên mã và những đột biến mất đoạn microsatellite đã làm giảm chức năng
của gen.
Microsatellite cũng liên kết với các protein bám mà các protein này có chức
năng bám dính vào các trình tự khởi động của gene, khi trình tự này đƣợc giải
phóng thì gen đƣợc khởi động và sao mã. Điều này chỉ ra rằng microsatellite hoạt
động nhƣ một yếu tố điều hòa trong quá trình sao mã, ảnh hƣởng đến quá trình sao
mã thông qua ảnh hƣởng đến protein bám. Rất nhiều nghiên cứu chỉ ra rằng ảnh
hƣởng thúc đẩy của microsatellite và protein bám dính của nó là một chức năng của
các đoạn lặp lại trong một vùng microsatellite đặc biệt nào đó. Nhƣ một trình tự
mang mã, microsatellite đã đƣợc tìm thấy biểu hiện ở rất nhiều protein và sự khác
nhau về số lần lặp lại của các trình tự trong microsatellite có thể dẫn đến sự khác
nhau về chức năng của protein và hoạt động của gen, do đó có thể ảnh hƣởng đến
chức năng sinh lý cũng nhƣ sự phát triển của cơ thể.
Một số nghiên cứu gần đây đã chỉ ra rằng có sự ảnh hƣởng của chiều dài
khác nhau của microsatellite đến hình thái và sự phát triển ở mức độ cơ quan đƣợc
tổng kết lại nhƣ một yếu tố chức năng của hệ gen. Những tính chất đặc biệt của
microsatellite nhƣ sự đột biến điểm dẫn đến những giả thiết cho rằng microsatellite
có thể là một nguồn chủ yếu tạo nên sự đa dạng về di truyền số lƣợng và quá trình
tiến hóa thích nghi (Kashi và ctv.,1990,1997). Nó cho phép một quần thể có thể
khôi phục lại nguồn đa dạng di truyền đã bị mất trong quá trình chọn lọc, nó hoạt
15
động nhƣ một “núm điều chỉnh” mà qua đó những gen đặc biệt có thể điều chỉnh
nhanh chóng các phản ứng thay đổi ít hay nhiều trong quá trình đòi hỏi của tiến hóa
(King và ctv., 1997, 1998). Do vậy microsatellite là một nguồn rất quan trọng trong
việc nghiên cứu đa dạng di truyền và làm cơ sở cho sự thay đổi của tiến hóa
2.4 Phƣơng pháp phân lập microsatellite truyền thống
Primer của microsatellite đƣợc phát triển bởi việc tạo dòng ngẫu nhiên một
đoạn DNA từ những giống loài trọng tâm. Những đoạn này đƣợc chèn vào plasmid
hoặc phage vector, và đƣợc chuyển tiếp vào vi khuẩn Escheria coli. Khuẩn lạc sau
đó phát triển và đƣợc chụp lên phim với những trình tự nucleotide đƣợc đánh dấu
huỳnh quang đƣợc lai với trình tự lặp lại của microsatellite, nếu nó có hiện diện trên
đoạn DNA. Nếu dòng dƣơng tính có thể thu đƣợc từ quy trình này, đoạn DNA đƣợc
đọc trình tự và primers PCR sẽ đƣợc chọn từ vùng trình tự liên kết nhƣ vùng để xác
định vị trí đặc trƣng. Quy trình này liên quan đến những thử nghiệm thành công, khi
trình tự lặp lại của microsatellites phải đƣợc dự đoán trƣớc và primers đƣợc thu
nhận ngẩu nhiên có thể không biểu hiện tính đa hình có ý nghĩa.Vị trí microsatellite
đƣợc trải xuyên suốt genome và có thể đƣợc thu nhận từ sự thoái hoá DNA chung
của những mẫu cũ hơn, khi đó là tất cả những chất nền cần thiết và hợp lí để khuếch
đại thông qua PCR.
Primer microsatellite đặc trƣng cho một loài sẽ giúp phát hiện sự đa hình ở
những vị trí tƣơng đồng (cùng locus trên mỗi alleles) đối với từng cá thể trong loài.
Điều này có thể thực hiện đƣợc là nhờ trình tự microsatellite và trình tự của vùng
flanking- vùng nằm ở 2 bên trình tự microsatellite để thiết kế primer- đƣợc bảo tồn
trong quá trình di truyền của loài. Vùng flanking rất quan trọng vì nó giúp phát hiện
trình tự microsatellite đặc trƣng ở mỗi locus trên nhiễm sắc thể.
Một qui trình phân lập 1 SSR mất khoảng 3 tuần trong đó giai đọan thiết kế
mồi và kiểm tra mòi vừa thiết kế cho SSR mất khỏang hơn 2 tuần. Đồng thời phải
tốn một chi phí khá lớn để mua các hóa chất và máy móc cần thiết để tiến hành thí
nghiệm ( cần khoảng 200 USD tiền hóa chất để xác định đƣợc 1SSR) nhƣng rủi ro
thu đƣợc SSR là khá lớn
16
Hình 2.5: Phƣơng pháp phân lập microsatellite truyền thống
2.5 Phƣơng pháp phân lập microsatellite sử dụng
SSR đƣợc phân lập theo phƣơng pháp truyền thống từ thƣ viện cDNA hay
thƣ viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mò mẫm.
17
Trong khi đó, phƣơng pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTs có
chi phí thấp và tƣơng đối dễ thực hiện, do trình tự ESTs luôn sẵn có.
Hiện nay, có rất nhiều phần mềm để phân lập SSR từ ESTs, ví dụ nhƣ:
1.MIcroSAtellite (MISA) []
2.Sputnik [ /sputnik/index.html]
3.CUGIssr []
4.SSRSEARCH [ftp://ftp.gramene.org/pub/gramene/software/scripts/ssr.pl]
5.SSRFinder [
SSRFINDER/ssrfinder_1_0.tar.gz]
Công cụ đƣợc tìm kiếm trình tự SSR đƣợc tham khảo và tải về từ địa chỉ
của
tác giả Steven Schroeder viết với mục đích là: tìm kiếm, tách các trình tự SSR và
những vùng kế bên trong một trình tự chính để phục vụ cho những nghiên cứu về
sau.
So sánh hiệu quả của 2 phƣơng pháp phân lập
Phƣơng pháp truyền thống Phƣơng pháp sử dụng
Chỉ xác định đƣợc 1 hoặc vài SSR
trong 1 lần thí nghiệm
Tiền hóa chất, nhân công và thiết bị
khá nhiều
Thời gian để tiến hành 1 qui trình
phân lập , thiết kế mồi cho1 SSR khá
lâu (khoảng 3 tuần)
Không xác định đƣợc chính xác các
SSRs có thể có trong gene
Độ chính xác không cao do có thể bị
nhiễm trong quá trình làm
Có thể xác định đƣợc nhiều SSR 1 lúc
Chi phí cho quá trình phân lập khá
thấp vì không phải tốn tiền hóa chất và
máy móc thiết bị nhiều
Thời gian tiến hành phân lập và thiết
kế mồi nhanh (1 phút)
Xác định chính xác các SSRs có thể
có trong 1 gen
Độ chính xác cao do cơ sở dữ liệu đã
đƣợc phân tích và công bố rộng rãi
18
2.6 Ứng dụng
Thiết kế bản đồ gen trong di truyền
Đa dạng hóa vật liệu di truyền
Nghiên cứu quần thể
Chẩn đoán và xác định các bệnh ở ngƣời
Sử dụng cho việc bảo tồn hệ sinh vật trong thiên nhiên
2.7 Cơ sở dữ liệu sinh học
Dữ liệu sinh học đang đƣợc thu nhận với tốc độ rất nhanh. Đến tháng 8 năm
2000, ngân hàng dữ liệu GENEBANK đã có 8.214.000 mục liên quan đến các trình
tự sinh học DNA và cơ sở dữ liệu SWISS-PROT có 88.166 mục liên quan đến các
trình tự protein. Trung bình những sơ sở dữ liệu đang tăng gấp đôi kích thƣớc sau
mỗi chu kỳ 15 tháng. Ngoài ra sự ra đời của vô số dự án nghiên cứu gen, xác định
cấu trúc protein đƣợc mã hóa trong bộ gen... đã tạo ra một lƣợng lớn thông tin sinh
học và thông tin này ngày càng đa dạng và phong phú.
Do dữ liệu sinh học tăng trƣởng mạnh mẽ nên công cụ tin học đã trở thành
một phƣơng tiện không thể thiếu trong phân tích xử lý dữ liệu sinh học. Công nghệ
thông tin có thể quản lý nguồn dữ liệu khổng lồ, phân tích các dữ liệu đa dạng và
luôn biến đổi trong thế giới tự nhiên. Ngành Sinh Tin học đƣợc xem là lĩnh vực
nghiên cứu liên ngành nhằm kết hợp các kỹ thuật xử lý, tính toán và tổ chức thông
tin bằng thiết bị tin học với các kỹ thuật, công cụ phổ biến trong ngành sinh học
phân tử.
Sinh tin học hiện đang là ngành nghiên cứu khoa học khá mới tại Việt Nam ,
ra đời với mục tiêu xây dựng các công cụ để tính toán , mô phỏng và đƣa ra những
chƣơng trình máy tính phục vụ nghiên cứu sinh học .
Có thể tiến hành phân lập SSR từ bất
cứ đọan gen mong muốn nào
trên NCBI và các cơ sở dữ liệu sinh
học lớn khác
Nếu không có cơ sở dữ liệu EST thì
không thể tiến hành phân lập SSR
19
Một số cơ sở dữ liệu lớn, trực tuyến đã đƣợc xây dựng để cung cấp thông tin
cho các nhà nghiên cứu sinh học nhƣ NCBI, EBI, SIB, DDBJ,…
2.7.1 NCBI
2.7.1.1 Vài nét về NCBI
Hình 2.6 Tƣơng quan giữa NCBI (National Library of Medicine và NIH)
NCBI là chữ viết tắt của “Center for Bioinformatic Information”. Đây là
trung tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của Hoa
kỳ (NIH – National Insitute of Health). NCBI chính thức đƣợc thành lập vào ngày
4/10/1988. Đến năm 1991, NCBI đảm nhiệm việc quản lý cơ sở dữ liệu trình tự
DNA và từ đó NCBI còn đƣợc gọi là GenBank.
NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông
qua những cơ sở dữ liệu trực tuyến. Ngoài ra, NCBI còn tham gia những nghiên cứu
về “sinh học tính toán” (computation biology), phát triển những công cụ phân tích
dữ liệu bộ gene, protein,…
3.1.1.2 Một số cơ sở dữ liệu trong NCBI
Nucleotide (GenBank): là cơ sở dữ liệu về trình tự nucleotide.
Protein: là cơ sở dữ liệu về trình tự amino acid.
Genome: trình tự toàn bộ genome của một số sinh vật.
Structure: hay còn có tên gọi là MMDB (Molecular Modeling
Database) chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn
những chuỗi nucleotide.. DDBJ của Nhật Bản, EMBL của Châu Âu, NCBI của
Hoa Kỳ là ba cơ sở dữ liệu về trình tự nucleotide lớn, mang tính toàn cầu và ba cơ
sở dữ liệu này có hợp tác, trao đổi qua lại dữ liệu lẫn nhau. Từ đó, càng làm cho cơ
sở dữ liệu về các trình tự nucleotide ngày càng trở nên phong phú
NLM
NCBI
NIH
20
Chƣơng 3
VẬT LIỆU VÀ PHƢƠNG PHÁP
3.1 Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng
3.1.1 Hệ điều hành
Microsoft Windows XP Server Pack 2. Xây dựng CSDL trình tự SSRs của
chi cam chanh (Citrus) trên hệ điều hành này.
3.1.2 Các chƣơng trình phân tích trình tự
3.1.2.1 Chƣơng trình Perl ssrfinder_1_0
Đây là một chƣơng trình của tác giả Steven Schroeder thuộc trƣờng
Đại học Missouri – Michigan. Chƣơng trình gồm 6 Perl scripts có chức năng
xác định SSR và thiết kế primer thích hợp cho mỗi SSR tìm đƣợc
- 1_ssr_repeat_finder.pl: tìm SSR, lấy ra trình tự SSR và vùng
flanking cho những phân tích sau.
- 2_ssr_primer_designer.pl: thiết kế primer mà mục tiêu là khuếch đại
vùng trình tự chứa SSR.
- 3_ssr_primer_rep_check.pl: sàng lọc lại các primer đã thiết kế để
loại bỏ những primer có chứa trình tự lặp lại
- 4_ssr_primer_blast.pl: so sánh các primer đã thiết kế với cơ sở dữ
liệu primer
- 5_ssr_order_filter.pl: tạo 1 file chỉ chứa SSR mà có primer duy nhất
- 6_ssr_primer_formatter.pl: tạo 1 file chỉ chứa SSR có primer duy
nhất – file này đƣợc tạo đơn giản chỉ chứa những thông tin cần thiết cho việc
chọn lựa primer.
21
Yêu cầu: vì chƣơng trình này đƣợc viết cho hệ điều hành Unix hay
Linux nên cần phải thực hiện sửa đổi một số lệnh lập trình cơ bản để có thể
chạy trên môi trƣờng Window.
Chƣơng trình cần sự kết hợp với 3 phần mềm khác là Primer3, blastall
và formatdb để thực thi. Ba phần mềm này có thể tải hoàn toàn miễn phí (có
phiên bản dành cho Window) từ trang Primer3
và trang Blast của NCBI
Các thông số của chƣơng trình thiết kế primer đều đƣợc mặc định nhƣ
sau
TARGET= m, n với m là vị trí bắt đầu có microsatllite và n là chiều
dài microsatellite (mục tiêu)
PRIMER_PRODUCT_SIZE_RANGE=80-160 80-240 80-300 (kích
thƣớc sản phẩm)
PRIMER_OPT_SIZE=24 (kích thƣớc tối ƣu của primer)
PRIMER_MIN_SIZE=20 (kích thƣớc tối thiểu của primer)
PRIMER_MAX_SIZE=28 (kích thƣớc tối đa của primer)
PRIMER_OPT_TM=63 (nhiệt độ nóng chảy tối ƣu của primer)
PRIMER_MIN_TM=60 (nhiệt độ nóng chảy tối thiểu của primer)
PRIMER_MAX_TM=65 (nhiệt độ nóng chảy tối đa của primer)
PRIMER_MAX_DIFF_TM=1 (độ chênh lệch nhiệt độ nóng chảy tối
đa)
Với các thông số mặc định trên chƣơng trình hoàn toàn có thể sử dụng cho
mục tiêu của đề tài.
Hiện nay, có rất nhiều phần mềm để phân lập SSR từ ESTs, ví dụ nhƣ:
1.MIcroSAtellite (MISA) [],
2.Sputnik [ /sputnik/index.html],
3.CUGIssr []
4.SSRSEARCH [ftp://ftp.gramene.org/pub/gramene/software/scripts/ssr.pl]
22
5.SSRFinder [
SSRFINDER/ssrfinder_1_0.tar.gz]
Các công cụ này hầu nhƣ dựa trên cùng một thuật toán tìm SSR, tuy nhiên
mỗi phần mềm đƣợc viết bằng các ngôn ngữ lập trình khác nhau. Một điểm nổi bật
của công cụ SSRFinder (đƣợc viết bằng Perl, có tích hợp Primer3 và ncbi-BLAST)
là có tích hợp thêm những Perlscript giúp hỗ trợ việc thiết kế primer cũng nhƣ kiểm
tra lại primer, tuy nhiên các Perlscript này đƣợc lập trình dƣới hệ điều hành UNIX
nên cần đƣợc chỉnh sữa để có thể sử dụng trên hệ điều hành Windows. Ngoài ra,
còn có rất nhiều trang web hỗ trợ việc tìm SSR trên trình tự nhƣ:
1.SSR Server []
2. SSR Primer Discovery [
binpub/ssrprimer/indexssr.pl]
3. SSRIT []
3.1.2.2 Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST
BLAST là một chƣơng trình tìm kiếm và so sánh trình tự tƣơng đồng đƣợc
nhiều ngƣời dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ ý tƣởng “liệu
trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế
giới nhƣ GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự
đang quan tâm”. BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay
protein) với những trình tự trong CSDL. Kết quả của BLAST là những số liệu thống
kê chính xác về tỉ lệ tƣơng đồng và nguồn gốc các trình tự.
Chiến lƣợc tìm kiếm trình tự tƣơng đồng trong BLAST đƣợc thực hiện qua
ba bƣớc chính:
Đầu tiên BLAST tìm kiếm những đoạn tƣơng đồng HSPs (High Scoring
Pair) giữa một trình tự đƣa vào và mỗi trình tự trong CSDL.
Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ sự
tƣơng đồng nào đƣợc tìm thấy.
Sau cùng BLAST đƣa ra một báo cáo kết quả giống nhau thỏa mãn ngƣỡng
giá trị mà ngƣời dùng mong muốn.
23
Stand-alone BLAST sử dụng trong khóa luận này có thể tải về từ địa chỉ của
trang CSDL NCBI: blast-2.2.14-ia32-win32.exe
(ftp://ftp.ncbi.nih.gov.blast/executables/).
3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS
Microsoft Access là một phần mềm ứng dụng thuộc bộ phần mềm Microsoft
Office, đƣợc sử dụng để quản lý dữ liệu (quản lý nhân sự, khách hàng, vật tƣ, kế
toán…).Phần mềm này đƣợc bảo vệ và phân phân phối bởi hãng Microsoft
Phiên bản Access tùy thuộc vào phiên bản của bộ phần mềm Microsoft
Office
Để sử dụng phần mềm này chúng ta phải mua bản quyền của Microsoft
Mỗi tập tin ACCESS gọi là một cơ sở dữ liệu.
Một cơ sở dữ liệu chứa đựng nhiều dữ liệu nằm trong một thành phần
chính của một tập tin ACCESS gọi là bảng (TABLE).
Các bảng này có mối quan hệ với nhau theo một quy luật nào đó do
ngƣời thiết kế tạo nên.
3.1.2.4 Egassembler
Là 1 công cụ trực tuyến cung cấp những công cụ sinh học tự động mà ngƣời
dùng có thề sử dụng để phân tích làm sạch trình tự, dấu những vùng lập lại, dấu
những vùng trình tự nhiễu của vector và adaptors, dấu những vùng trình tự nhiễu
của các bào quan, sắp gióng cột và assembly các đọan ESTs và đọan genomic. Hệ
thống máy chủ chấp nhận nhiều dạng trình tự DNA ở dạng FASTA nhƣ EST, ,
cDNA, gDNA, GSS
Hệ thống gồm 5 công cụ chính:
Làm sạch trình tự
Dấu những vùng lặp lại
Dấu những vùng trình tự nhiễu của vector và adaptors
Dấu những vùng trình tự nhiễu của các bào quan
Assembling: sắp gióng cột vá chồng các trình tự lại với nhau
tạo thành các Contigs và Singletons
24
Egassembler web có 3 tùy chọn chính, mỗi tùy chọn dành cho những ngƣời
dùng khác nhau
One-Click Assembly : cho ngƣời dùng mới bắt đầu với sinh tin học, các
bƣớc sẽ đƣợc thực hiện lần lƣợt theo mặc định đã cài sẵn, ngƣời dùng có
thể lựa chọn thƣ viện dữ liệu để dấu những vùng lặp lại, dấu những vùng
trình tự nhiễu của vector và adaptors, dấu những vùng trình tự nhiễu của
các bào quan.Các quá trình xử lý đƣợc thực hiện lần lƣợt.
Step-by-Step Assembly: Ngƣời dùng có thể sử dụng mọi công cụ trong
web, và có thể chạy từng mục một với các tùy chọn nâng cao. Kết quả
đầu ra ở bƣớc trƣớc sẽ đƣợc sử dụng làm dữ liệu đầu vào cho bƣớc tiếp
theo một cách tự động. Ngƣời dùng có thể đi đến bất kỳ bƣớc nào vào bất
cứ thời điểm nào với kết quả đã đƣợc lƣu lại từ trƣớc
Stand-Alone Processing : Tùy chọn này giống với Step-by-Step
Assembly chỉ khác ở chỗ ngƣời dùng không thể sử dụng kết quả đầu ra ở
bƣớc trƣớc để làm dữ liệu đầu vào cho các quá trình sử lý khác
3.1.3 Apache web Server
. Apache web Server là một trình chủ web đƣợc nhiều ngƣời dùng nhất hiện
nay trên Internet. Apache có đƣợc một vị trí đáng nể nhƣ thế là nhờ vào việc nó là
một chƣơng trình mã nguồn mở và hoàn toàn miễn phí. Hai ƣu điểm này đã giúp
Apache đƣợc yêu thích đối với những công việc vừa và lớn của nhiều công ty trên
thế giới.
Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web
thông qua các module. Khi một yêu cầu từ trình tự khách đƣợc gởi đến Apache phải
trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho ngƣời dùng.
Apache có thể đƣợc tải về từ địa chỉ : (
25
3.4 CÁC BƢỚC TIẾN HÀNH
1 Thu nhập trình tự
2 Lọai các dữ liệu nhiễu và dƣ
3. Aseembling
4 Tìm SSR 4.1Blastn 4 Tìm SSR
5 Thiết kế và kiểm tra Primer
6. tBLASTx trên cơ
sở dữ liệu UniGene
7. 7.Đƣa vào
Sơ đồ qui trình phân lập và xác định 8 Tích hợp
chức năng SSR của cây cam quýt
CSDL dbEST và CoreNucleotide của NCBI
ESTs - Citrus
ESTs Citrus không
thừa, không nhiễu
Contigs
Singletons
ESTs, SSR Citrus
CSDL EST-SSr
Primer Citrus
Cơ sở dữ liệu quan hệ
WebSite
Cơ sở dữ liệu EST-SSR-
Primer Citrus liên quan đến
gene kháng bệnh
EST-SSR none
primer citrus
26
Bƣớc 1. Thu thập trình tự ESTs Citrus từ CSDL dbEST
Quá trình thu nhận trình tự nucleotide đƣợc tóm tắt thành sơ đồ sau
Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI
Từ khóa sử dụng cho tung lòai là
Bảng 3.2 : Từ khóa sử dụng để thu nhận trình tự trên NCBI
Citrus aurantium "txid43166"[Organism] AND gbdiv_EST[PROP]
Citrus clementina "txid85681"[Organism]ANDgbdiv_EST[PROP]
Citrus jambhiri "txid64884"[Organism]ANDgbdiv
Các file đính kèm theo tài liệu này:
- LUU TRAN CONG HUY.pdf