MỤC LỤC
CHƯƠNG TRANG
Trang tựa
Lời cảm tạ .iii
Tóm tắt . . .iv
Mục lục . .v
Danh sách các chữ viết tắt.viii
Danh sách các bảng .ix
Danh sách các hình .x
1. MỞ ĐẦU .1
1.1. Đặt vấn đề.1
1.2. Mục đích và yêu cầu nghiên cứu.2
1.2.1. Mục đích nghiên cứu .2
1.2.2. Yêu cầu nghiên cứu .2
1.3. Giới hạn .2
2. TỔNG QUAN TÀI LIỆU .3
2.1. Giới thiệu chung về ong mật .3
2.1.1. Cấu tạo cơ thể của ong mật.3
2.1.1.1. Hình thái cơ thể .3
2.1.1.2. Các cơ quan bên trong .6
2.1.2. Tổ chức của đàn ong .6
2.1.3. Yêu cầu dinh dưỡng của ong .7
2.1.4. Các sản phẩm của ong .7
2.1.4.1. Mật ong .7
2.1.4.2. Phấn hoa .7
2.1.4.3. Sữa ong chúa .7
2.1.4.4. Sáp ong .8
2.2. Nguồn gốc EST (Expressed Sequence Tags) .8
2.2.1. EST là gì? .8
2.2.2. Phương pháp tạo EST .8
2.3. Microsatellite là gì? .10
2.3.1. Các dạng microsatellite .10
2.3.2. Cơ chế hình thành microsatellite .11
2.3.3. Ứng dụng của microsatellite .12
2.3.4. Marker phân tử (molecular markers) .13
2.3.5. Vì sao chọn marker microsatellite? .14
2.4. Ngôn ngữ lập trình Perl (Practical Extraction and Reporting Language) .15
2.4.1. Nguồn gốc của Perl .15
2.4.2. Cấu trúc của Perl .16
2.4.2.1. Dữ liệu vô hướng (scala data) .16
2.4.2.2. Cấu trúc điều khiển .16
2.4.2.3. Các List, Array và Hash .19
2.4.2.4. Dòng chương trình và các thường trình con .19
2.4.2.5. Package và Module .20
2.5. Giới thiệu về mồi (primer) .21
2.5.1. Khái quát về mồi .21
2.5.2. Đặc điểm của mồi .21
2.5.2.1. Tính chuyên biệt .21
2.5.2.2. Tính ổn định .22
2.5.2.3. Tính tương thích .23
2.6. Tin sinh học .24
2.6.1. Khái niệm tin sinh học .24
2.6.2. Các lĩnh vực nghiên cứu chính của tin sinh học .24
2.6.2.1. Genomics - Hệ gen học .24
2.6.2.2. Sinh học tiến hóa .26
2.6.2.3. Phân tích chức năng gen .26
3. PHưƠNG TIỆN VÀ PHưƠNG PHÁP NGHIÊN CỨU .29
3.1. Thời gian và địa điểm tiến hành nghiên cứu .29
3.1.1. Thời gian nghiên cứu .29
3.1.2. Địa điểm nghiên cứu .29
3.2. Vật liệu và công cụ nghiên cứu .29
3.2.1. Vật liệu nghiên cứu .29
3.2.2. Công cụ nghiên cứu .29
3.3. Phương pháp tiến hành nghiên cứu .30
3.3.1. Quy trình nghiên cứu tổng quát .30
3.3.2. Phương pháp nghiên cứu .31
3.3.2.1. Sơ đồ các bước tiến hành nghiên cứu .31
3.3.2.2. Các bước tiến hành nghiên cứu chi tiết .32
4. KẾT QUẢ VÀ THẢO LUẬN .42
4.1. Kết quả tìm kiếm và tải trình tự EST về máy tính cá nhân .42
4.1.1. Kết quả tìm kiếm EST .42
4.1.2. Kết quả tải trình tự EST về máy tính cá nhân .43
4.2. Kết quả tìm và phân loại microsatellite .44
4.2.1. Kết quả tìm microsatellite qua xử lý của EST_TRIMMER .44
4.2.2 Kết quả xử lý qua MISA .45
4.3. Kết quả thiết kế primer .49
4.3.1. Kết quả thiết kế primer qua 6 Script Perl .49
4.3.2. Kết quả so sánh và chọn lọc primer được thiết kế .56
5. KẾT LUẬN VÀ ĐỀ NGHỊ .59
5.1. Kết luận .59
5.1.1. Sơ đồ phương pháp thực hiện .59
5.1.2. Kết quả đạt được .60
5.2. Đề nghị .60
6. TÀI LIỆU THAM KHẢO .61
7. PHỤ LỤC .64
94 trang |
Chia sẻ: leddyking34 | Lượt xem: 3092 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Khóa luận Khai thác dữ liệu EST (Expressed Sequence Tags) nhằm phát hiện Microsatellite phục vụ cho công tác phân tích và so sánh đặc điểm di truyền của ong mật, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ác protein–protein (protein-protein
interaction) và mô hình hóa các quá trình tiến hóa. Thuật ngữ tin sinh học và khoa học
tính toán thƣờng dùng hoán đổi cho nhau, mặt dù cái trƣớc, nói một cách nghiêm túc là
tập con của cái sau.
Những mối quan tâm chính trong các dự án tin sinh học và khoa học tính toán
là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các dữ liệu
hỗn độn đƣợc thu nhận từ các kỹ thuật sinh học với lƣu lƣợng mức độ lớn. Lĩnh vực
khai thác dữ liệu (data mining) trùng lắp với sinh học tính toán về phƣơn diện này.
Những bài toán đặc trƣng trong sinh học tính toán bao gồm việc lắp ráp (assembly)
những trình tự DNA chất lƣợng cao từ các đoạn ngắn DNA đƣợc thu nhận từ kỹ thuật
xác định trình tự DNA và việc dự đoán qui luật biểu hiện điều hoà gen (gene
regulation) với dữ liệu từ các mRNA, microarray hay khối phổ (mass spectrometry).
2.6.2. Các lĩnh vực nghiên cứu chính của tin sinh học
2.6.2.1. Genomics - Hệ gen học
25
Phân tích trình tự
Kể từ khi Phage - X174 đƣợc xác định trình tự (1977). Cho đến nay,
trình tự DNA của rất nhiều loài đƣợc dự trữ trong các ngân hàng cơ sở dữ liệu.
Việc thực hiện phân tích nguồn dữ liệu này về các vấn đề tìm kiếm gen cấu trúc
(mã hóa cho một protein nào đó), quy luật những trình tự tƣơng đồng, so sánh
gen trong cùng một loài hay giữa các loài, mối quan hệ phát sinh chủng loài là
không thể thực hiện đƣợc bằng tay. Do đó, các chƣơng trình máy tính đã đƣợc
phát triển và ứng dụng vào các công việc này với nguồn dữ liệu lên đến hàng tỷ
và nhiều công đoạn nghiên cứu phức tạp khác. Mà dự án genome ngƣời
(Human Genome Project) là một minh chứng. Trong dự án này các nhà tin sinh
học đã phải mất cả hàng tháng trên một loạt siêu máy tính (các máy DEC Alpha
ra đới năm 2000) để sắp xếp đúng toàn bộ số lƣợng trình tự DNA nhỏ (shotgun
DNA sequence) đƣợc giải mã tạo nên một sợi DNA với kích thƣớc lớn mà với
kỹ thuật hiện nay không thể giải mã đƣợc sợi DNA cở vài chục ngàn nucleotide.
Giải mã genome hiện nay và giải thuật lắp ráp genome (genome
assembly algorithms) là một trong những lĩnh vực nóng của tin sinh học.
Chỉ định gen
Annotation là quá trình đánh dấu các gen và các đặc tính sinh học
(biological features) khác trong một chuỗi DNA. Hệ thống phần mềm làm
nhiệm vụ “ genome annotation” đã đƣợc phát triển. Công việc này giúp cho lĩnh
vực chuyên về nghiên cứu bản đồ gen (genomics).
Dò tìm đột biến và SNP
Rất nhiều nghiên cứu xác định trình tự (sequencing) hiện nay là nhằm
tìm ra các đột biến điểm (point mutation) xảy ra các gen khác nhau trong ung
thƣ. Tập sơ khởi (sheer volume) các dữ liệu đƣợc tạo ra đòi hỏi các hệ thống tự
động đọc những dữ liệu kiểu chuỗi này (sequence data), rồi so sánh trình tự kết
quả với các trình tự đã biết trên genome ngƣời, bao gồm những điểm đa hình
trên các tế bào dòng tinh (germline) đã biết.
Những hệ thống oligonucleotide microarray, bao gồm những hệ thống
dùng để xác định điểm đa hình đơn nucleotide (Sinlge Nucleotide Polymophism)
hoặc khảo sát tính dị biệt so sánh genome (comparative genomic hybridization)
26
với khả năng cho phép khảo sát một lúc hàng trăm ngàn vị trí trên cùng một bản
đồ gen đang đƣợc sử dụng để xác định những đột biến thêm và mất đoạn nhiễm
sắc thể trong quá trình hình thành ung thƣ.
2.6.2.2. Sinh học tiến hóa
Phân loại học phân tử
Tiến hóa học máy tính (Computional Evolutation Biology, CEB) đã ra
đời trƣớc kỹ nguyên hệ gen học (genomics) nghiên cứu xây dựng các mô hình
tính toán quần thể và sự biến thiên của chúng theo thời gian.
Bảo tồn đa dạng sinh học
Tin sinh học thƣờng áp dụng trong lĩnh vực bảo tồn đa dạng sinh học
(biodiversity). Thông tin quan trọng nhất đƣợc thu thập chính là tên, mô tả, sự
phân bố, trạng thái và kích thƣớc phân bố của các chủng loài (speciese), nhu cầu
thói quen (habitat) mà cách mà mỗi tổ chức tƣơng tác với các chủng loài khác.
Thông tin này đƣợc lƣu trữ trong cơ sở dữ liệu các máy tính, đƣợc truy xuất bởi
các chƣơng trình phần mềm để tìm kiếm, hiển thị, phân tích thông tin đó một
cách tự động và quan trọng nhất là để giao tiếp đƣợc với con ngƣời, đặc biệt là
qua internet.
Một ví dụ của ứng dụng này là dự án Speciese 2000. Nó là một dự án
nghiên cứu toàn cầu dựa vào internet để giúp cung cấp thông tin về mỗi chủng
loài đƣợc biết đến của cây, động vật, nấm (fungus), và vi khuẩn (microbe) còn
tồn tại để làm cơ sở cho việc nghiên cứu đa dạng sinh học toàn cầu.
2.6.2.3. Phân tích chức năng gen
Mức độ biểu hiện gen
Nhà sinh học phân tử có thể đánh giá mức độ biểu hiện của một gen bằng
cách xác định lƣợng mRNA đƣợc tạo ra từ gen đó thông qua các kỹ thuật nhƣ
microarray, EST, SAGE (Serial Analygis of Gene Expression), MPSS
(Massively Parllel Signature Sequencing), hay khối phổ định lƣợng protein. Tất
cả những dữ liệu trên đƣợc tạo ra đều chứa thông tin nhiễu (noise-prone) làm
việc phân tích, tính toán trở nên phức tạp. Yêu cầu thực tế đó đã cho ra đời một
27
lĩnh vực mới trong sinh học tính toán đó là phát triển công cụ thống kê để lọc
tín hiệu xác đáng khỏi thông tin nhiễu trong những nghiên cứu biểu hiện gen đa
lƣợng (high-thoughput gene expression).
Nhận diện protein
Protein microarray và hệ thống khối phổ cao năng (high- throughput
mass spectrometry) có thể cung cấp hình ảnh (snapshot) tổng thể của các
protein hiện có trong một mẫu sinh học (biological sample). Các ứng dụng tin
sinh học có liên quan rất nhiều đến việc lý giải các dữ liệu thu đƣợc từ những hệ
thống này.
Đối với protein microarray, những nhà tin sinh học cần kiểm tra dữ liệu
mRNA gắn trên array. Trong khi đó, những vấn đề tin sinh học liên quan đến
việc gán (matching) dữ liệu phổ sắc ký MS với cơ sở dữ liệu về trình tự protein.
Dự đoán cấu trúc protein
Dự đoán cấu trúc là một ứng dụng quan trọng nữa của tin sinh học. Có
thể dễ dàng xác định trình tự acid amin của protein từ trình tự gen mã hóa cho
nó. Nhƣng protein chỉ có chức năng khi nó có cấu trúc bậc hai, bậc ba, bậc bốn.
Sẽ là vô cùng khó khăn khi dự đoán cấu trúc gấp nếp này từ tình tự axit amin.
Một số phƣơng pháp dự đoán cấu trúc bằng máy tính hiện đang phát triển.
Trong đó ý tƣởng quan trọng trong nghiên cứu tin sinh học là về quan
điểm tƣơng đồng. Với kỹ thuật mô phỏng tƣơng đồng (homology modeling),
thông tin này đƣợc dùng để dự đoán cấu trúc của một protein khi đã biết cấu
trúc của một protein khác tƣơng đồng với nó. Hiện tại, đây là cách dự đoán cấu
trúc protein đáng tin cậy nhất.
Các hệ thống sinh học kiểu mẫu
Sinh học hệ thống bao gồm việc sử dụng khả năng mô phỏng bằng máy
tính (computer simulation) các hệ cơ quan tế bào để có thể phân tích và hiển thị
hóa (visualize) việc kết nối phức tạp của các quá trình. Sự sống nhân tạo
(artificial life) hay tiến hóa ảo nổ lực nhằm tìm hiểu quá trình tiến hóa thông
qua việc mô phỏng bằng máy tính các dạng sự sống (nhân tạo) đơn giản.
Phân tích hình ảnh mức độ cao
28
Các kỹ thuật tính toán cũng đƣợc dùng để tăng tốc độ hoặc giúp tự động
hoàn toàn quá trình xử lý định lƣợng, và phân tích một lƣợng lớn hình ảnh sinh
học có chứa- thông- tin-cao. Các hệ thống xử lý ảnh hiện đại tăng cƣờng khả
năng quan sát để giúp cho việc tính toán từ môt tập lớn và phức tạp các hình ảnh
bằng cách cải tiến độ chính xác, tính khách quan, hay tốc độ. Một hệ thống phân
tích đƣợc phát triển hoàn thiện có thể thay thế hoàn toàn ngƣời quan sát.
Các công cụ phần mềm
Một trong những công cụ dùng trong sinh học tính toán nổi tiếng nhất là
BLAST, một giải thuật để tìm kiếm các trình tự acid nucleic hoặc protein tƣơng
đồng lƣu trữ trên các cơ sở dữ liệu. Ba nguồn cơ sở dữ liệu công cộng lớn nhất
(thƣờng đƣợc gọi là ngân hàng gen) là NCBI, EMBL, DDBJ.
Các ngôn ngữ lập trình của máy tính nhƣ Perl và Python thƣờng đƣợc
dùng để giao tiếp (interface) và ly trích (parse) dữ liệu từ các ngân hàng cơ sở
dữ liệu sinh học (biological database) thông qua những chƣơng trình tin sinh
học (bioinformatics program).
Cộng đồng những lập trình viên sinh tin học đã triển khai nhiều dự án
phần mềm mã nguồn mở (free/open source) nhƣ EMBOSS, Bioconductor,
BioPerl, BioPhyton, BioRubi, BioJava. Điều này giúp cho việc chia sẻ, phát
triển và phổ biến các công cụ lập trình và tài nguyên lập trình (programming
objects) giữa các nhà tin sinh học.
29
Phần 3
PHƢƠNG TIỆN VÀ PHƢƠNG PHÁP NGHIÊN CỨU
3.1. Thời gian và địa điểm tiến hành nghiên cứu
3.1.1 Thời gian nghiên cứu
Đề tài đƣợc bắt đầu tiến hành nghiên cứu từ tháng 3 năm 2006 và phải hoàn
thành vào ngày 15 tháng 8 năm 2006.
3.1.2. Địa điểm nghiên cứu
Đề tài đƣợc thực hiện tại Trung Tâm Phân Tích Thí Nghiệm Hóa Sinh thuộc
trƣờng Đại học Nông Lâm Thành Phố Hồ Chí Minh.
3.2. Vật liệu và công cụ nghiên cứu
3.2.1. Vật liệu nghiên cứu
Vật liệu nghiên cứu là toàn bộ EST (Expressed Sequence Tags) của của tất cả
các loài ong cho mật (tính đến ngày 14-06-2006), hiện đã đƣợc công bố trên các ngân
hàng cơ sở dữ liệu nhƣ NCBI, EMBL, DDBJ.
Trong số trình tự EST này, sẽ có một số lƣợng nhất định các trình tự đơn lặp lại
(Simple Sequence Repeats, SSRs). Trong số microsatellite tìm đƣợc có những
microsatellite có đặc điểm đặc trƣng, đƣợc ứng dụng làm marker microsatellite. Và
trên thực tế hiện nay marker microsatellite đang đƣợc sử dụng nhiều trong các dự án
nghiên cứu nhƣ lập bản đồ bộ gen của các loài ngũ cốc, trong dự án genome ngƣời
(Human Genome Project) và nhiều nghiên cứu khác trong việc phân tích, so sánh đặc
điểm di truyền của các loài sinh vật.
3.2.2. Công cụ nghiên cứu
Máy tính IBM với hệ điều hành window server 2003 và hệ điều hành Linux
(phiên bản Fedora core 1)
Internet truy cập cơ sở dữ liệu thế giới
Trình biên dịch Active Perl 5.6
30
Phần mềm soạn thảo lập trình Perl: Ultraedit, Notepad
Phần mềm thiết kế mồi Primer3 (Primer.exe)
Các phần mềm thiết kế mồi với mã nguồn mở hiện đang có trên mạng:
PrimerQuest. DNAClub, PDA…
Phần mềm Blastall
Phần mềm Formatdb
Phần mềm MISA, EST_TRIMMER
Cùng một số công cụ, cơ sở dữ liệu khác đƣợc sử dụng để so sánh và chọn lựa
phƣơng thức tối ƣu nhất cho công việc nghiên cứu.
3.3. Phƣơng pháp tiến hành nghiên cứu
3.3.1 Quy trình nghiên cứu tổng quát
Xác định phân loại
Microsatellite có trong EST
Thiết kế primer cho phản ứng
PCR dựa trên vùng hai bên
locus SSR đặc trƣng
Đối tƣợng nghiên cứu
(các loài ong cho mật)
Công cụ nghiên cứu
(các phần mềm và thiết bị cần thiết)
Vật liệu nghiên cứu
EST của ong cho mật
31
Phân tích, so sánh để chọn
ra những primer tốt nhất
Hình 3.1. Sơ đồ trình bày quy trình nghiên cứu tổng quát
Để tiến hành nghiên cứu đạt đƣợc hiệu quả nhanh và tốt thì việc đƣa ra một quy
trình tổng quát là rất cần thiết. Việc thiết lập nên quy trình này giúp cho công việc
nghiên cứu có một kế hoạch tƣơng đối và sẽ bố trí đƣợc công việc thực hiện trong các
phân đoạn đƣợc tiến hành song song, có hiệu quả, đạt đƣợc kết quả trong thời gian
sớm nhất và kết quả tốt nhất. Sau đây là qui trình nghiên cứu tổng quát, tôi đã xây
dựng để hỗ trợ tốt theo những ƣu điểm nêu trên.
3.3.2. Phƣơng pháp nghiên cứu
3.3.2.1. Sơ đồ các bƣớc tiến hành nghiên cứu
Bƣớc 1
Thu thập dữ liệu EST
● Script Perl
● Công cụ hỗ trợ từ NCBI
Bƣớc 2
Tìm và phân loại microsatellite
● Xử lứ qua EST_TRIMMER
● Xử lý qua MISA
Bƣớc 3
Thiết kế primer
Tiến hành qua 6 script Perl
32
Bƣớc 4
So sánh, chọn lựa primer
● Primer3
● Primerquest
● PDA
● DNAClub
Hình 3.2. Sơ đồ các bƣớc tiến hành nghiên cứu chính
Nhằm giúp cho công việc nghiên cứu đƣợc tiến hành nhanh, hiệu quả,
chính xác các công việc đƣợc thực hiện lôgic việc thiết lập nên sơ đồ tiến hành
nghiên cứu chi tiết từng bƣớc là điều cần làm. Công việc này là cụ thể hóa cho
sơ đồ nghiên cứu tổng quát đƣợc xây dựng ở mục 3.1. Hơn thế nữa, sơ đồ
nghiên cứu chi tiết sẽ giúp cho những ngƣời quan tâm đến đề tài dễ dàng hình
dung, theo dõi từng công việc đƣợc làm trong đề tài. Vì mục đích đó, tôi xây
dựng nên bảng đồ chi tiết trong nghiên cứu đƣợc trình bày cụ thể hình 3.2.
3.3.2.2. Các bƣớc tiến hành nghiên cứu chi tiết
Buớc 1: thu thập dữ liệu EST
Chọn ngân hàng cơ sở dữ liệu nào có chứa nguồn EST nhiều nhất, chất
lƣợng cao nhất. Vì rằng, mỗi ngân hàng cơ sở dữ liệu có số lƣợng khác nhau và
mức độ trùng lắp dữ liệu cũng không loại trừ. Việc trùng lắp dữ liệu làm cho số
liệu trở nên dƣ thừa không cần thiết và tốn thời gian hơn cho việc xử lý dữ liệu.
Tôi sử dụng keywork “honeybee” và chọn lựa 3 ngân hàng cơ sở dữ liệu
lớn nhất là NCBI, EMBL, DDBJ. Kết quả tìm đƣợc nhiều nhất trên trang NCBI
với số lƣợng 24,468 trình tự EST. Bên cạnh đó, trang NCBI có trang download
hỗ trợ, giúp cho ngƣời nghiên cứu có thể tải cùng lúc tất cả dữ liệu EST về máy
cá nhân một cách nhanh chóng. Ngƣời nghiên cứu chỉ việc đánh từ khóa cần
quan tâm và vào chọn dạng text là có thể dễ dàng tải trình tự cần nghiên cứu về
máy của mình. Tuy nhiên, dạng định dạng còn phải phụ thuộc vào yêu cầu
nghiên cứu cụ thể.
33
Hình 3.3. Giao diện trên trang NCBI với từ khóa “honeybee”
Dùng ngôn ngữ lập trình Perl để thiết kế đoạn mã (Perl script) tải toàn bộ
nguồn EST đã chọn về máy tính cá nhân. Chi tiết cấu trúc đoạn mã nhƣ sau:
#!/usr/bin/perl –w
# Day la day la script download du lieu EST tu NCBI
##############################################
use strict;
use LWP::Simple;
my($path1,@content,$temp,@acc,$tam,$url);
my(@raw,$undownacc,$file,$i);
$path1="e:\\downpbp\\accession1.txt";
$viet="";
open(ACC,$path1)||die("Can't open file accession");
@content=;
for($i=0;$i<=$#content;$i++){
$content[$i]=~s/\n{0,}\s{0,}//g;
@acc=split(":",$content[$i]);
$acc[1]=~s/\s{0,}//g;
chomp($acc[1]);
$url="
&txt=on&val=";
$url.=$acc[1];
print"Trinh tu thu $acc[0] :\n";
print"$url\n";
if (@raw=get($url)){
$file="d:\\loi\\download\\database\\$acc[1].txt";
open (PBP,"+>$file")|| die("Khong luu duoc file DNA\n");
34
print PBP @raw ;
close (PBP);
$viet=$acc[1];
}else{
#Neu ACCESSION nao khong tai duoc thi luu vao tap tin
undown.txt
print "$acc[1] tai khong duoc\n";
$undownacc = $acc[1]."\n";
$tam=$acc[1];}}
$file="d:\\loi\\download\\undown.txt";
open (UNPBP, "+>$file")|| die("Khong luu duoc file DNA\n");
print UNPBP $undownacc ;
close (UNPBP);
Sở dĩ cần phải thiết lập đoạn mã ngoài việc tải trình tự bằng phƣơng tiện
có sẵn từ trang NCBI là để dễ dàng cho việc phân loại trình tự EST có chứa
microsatellite trong bƣớc thực hiện thiết kế mồi sau này.
Bƣớc 2: tìm và phân loại microsatellite
Tìm và phân loại microsatellite trong toàn bộ EST đã tải về máy, phải
chọn lựa phần mềm tìm và phân loại phù hợp nhất, hay kết hợp các phần mềm
với nhau, hay phải tự thiết kế.
Đây là giai đoạn cần phải giải quyết tốt về vấn đề phân loại. Viêc phân
loại thành cộng sẽ tạo thuận lợi rất nhiều cho các bƣớc tiếp sau. Nó sẽ giúp cho
ngƣời nghiên cứu bƣớc đầu, xác định đƣợc tỷ lệ các dạng lặp lại, từ đó có thể
loại bỏ đƣợc những dạng lặp lại không đặc trƣng, rút ngắn công đoạn nghiên
cứu tiếp sau đó và làm cho việc xử lý số liệu còn lại đơn giản hơn. Trong bƣớc
này, tôi sử dụng các phần mềm EST_TRIMMER và MISA.
EST_TRIMMER là công cụ dùng cho việc tìm microsatellite từ EST.
Ƣu điểm của EST_TRIMMER là dễ dàng thay đổi các thông số cần thiết cho
việc tìm microsatellite. Vì vậy, tôi đã sử dụng EST_TRIMMER đầu tiên cho
việc xác định microsatellite.
Cú pháp thực thi của EST_TRIMMER có dạng:
est_trimmer.pl [-amb=n,win] [tr5=(A|C|G|T),n,win]
[-tr3=(A|C|G|T),n,win] [-cut=min,max] [-id=name]
35
[-help]
Để chạy đƣợc chƣơng trình này thì cần phải thực hiện các công việc nhƣ sau:
- Phải tải đƣợc script của EST_TRIMMER về máy tính cá nhân, và cần
phải cài ngôn ngữ lập trình Perl ( Active Perl 5.6) vào máy.
- Phải tạo một file trong đó có chứa dữ liệu EST theo định dạng FASTA.
- Script của EST_TRIMMER và file chứa EST phải nằm trong cùng một
thƣ mục.
Hình 3.4. Cú pháp thực thi của EST_TRIMMER
MISA là một công cụ dùng để tìm microsatellite. Nó đƣợc thiết kế
dùng kết hợp với Primer3 trong việc tìm microsatellite và thiết kế primer vùng
flanking của những locus microsatellite tìm đƣợc.
Ở đây tôi chỉ ứng dụng MISA cho việc tìm microsatellite và chỉnh sửa
thông số cần thiết theo yêu cầu nghiên cứu. Sở dĩ, tôi dùng MISA là vì công cụ
này cho ra kết quả rõ ràng, dễ dàng cho việc phân loại tiếp sau. Và tôi không
dùng cho việc thiết kế primer là vì các thông số trong thiết kế primer đã đƣợc
mặc định và không thể chỉnh sửa nên không phù hợp cho mục đích nghiên cứu.
Việc ứng dụng MISA không có gì phức tạp. Tuy nhiên, ngƣời mới bắt
đầu thì cũng sẽ gặp một vài trở ngại. Vì vậy, trƣớc hết phải tham khảo kỹ phần
readme của chƣơng trình này để có thể vận dụng vào mục đích ứng dụng của
mình đƣợc. Sau đây là cách thức xử lý dữ liệu qua MISA.
Trƣớc tiên, ngƣời ứng dụng cần phải đƣa script của MISA vào cùng
thƣ mục với EST_TRIMMER ở trên (nếu dùng MISA cho cả việc thiết kế
primer thì phải tải phần mềm Primer3_ core vào cùng thƣ mục).
36
Tiếp theo, ngƣời ứng dụng phải định dạng lại dữ liệu (dạng fasta và
lƣu lại bằng một tên file mới) từ file kết quả đạt đƣợc từ việc thực thi
EST_TRIMMER.
Cuối cùng, ngƣời ứng dụng vào MS-DOS thực thi lệnh chạy MISA. Cú
pháp để thực thi MISA có dạng:
misa.pl
là tên file chứa trình tự DNA theo định dạng FASTA.
Hình 3.3: Cú pháp thực thi của MISA
Sau khi dữ liệu đƣợc xử lý qua MISA, microsatellite đƣợc xác định và
phân nhóm rõ ràng. Tất cả đƣợc lƣu trữ trong cùng một file. Việc cần làm bây
giờ là tính tỉ lệ phần trăm của từng dạng microsatellite trong tổng số
microsatellite và phần trăm của microsatellite với hai loại EST (5‟EST và
3‟EST).
Mục đích của việc tính tỷ lệ phần trăm của từng dạng microsatellite và
phần trăm của microsatellite của hai loại EST là xác định dạng microsatellite
nào sẽ đƣợc sử dụng trong bƣớc thiết kế primer. Việc chọn lựa này loại bỏ đi
một lƣợng lớn các dạng microsatellite nhƣng chiếm tỉ lệ rất thấp. Từ đó làm cho
việc thiết kế primer sẽ đơn giản và chính xác hơn.
Sau khi tính toán và chọn lựa các dạng mocrosatellite hoàn tất, việc làm
kế tiếp là chuyển tất cả những dạng microsatellite chọn vào từng thƣ mục riêng
biệt, chuẩn bị cho bƣớc thiết kế primer.
37
Bƣớc 3: thiết kế primer
Đây là khâu rất quan trọng, primer đƣợc thiết kế phải đảm bảo nghiêm
ngặt các thông số về nhiệt độ, tỷ lệ %GC, nhiệt độ chênh lệch giữa mồi xuôi và
mồi ngƣợc, không tạo cấu trúc kẹp tóc… của primer khi chạy phản ứng PCR.
Đồng thời phải giải quyết đƣợc mức độ phức tạp của các dạng microsatellite có
trong EST, có nhƣ vậy mới không bỏ sót đƣợc những microsatellite đặc trƣng.
Nhiệt độ Tm của primer đƣợc thiết lập ở ba mức độ nhƣ sau:
Tm = 65 - nhiệt độ cao nhất
Tm = 63 - nhiệt độ trung bình
Tm = 60 - nhiệt độ thấp nhất
Sự chênh lệch giữa primer xuôi và primer ngƣợc tối đa là 10C
Chiều dài primer có ba trƣờng hợp:
Chiều dài tối đa = 28 base
Chiều dài trung bình = 24 base
Chiều dài tối thiểu = 20 base
Phần trăm GC nằm trong khoảng từ 50% - 60%
Mức độ phức tạp của các dạng microsatellite: microsatellite không chỉ
có một dạng trong một EST mà trong một EST có thể có rất nhiều dạng
microsatellite cùng tồn tại. Chính sự tồn tại đa dạng này làm cho công việc tìm
microsatellite trở nên phức tạp hơn rất nhiều. Vì vậy, phải làm sao thiết kế đƣợc
đoạn mã để đáp ứng yêu cầu thực có nhƣ trên.
Công đoạn này đƣợc giải quyết qua 6 script perl cùng với sự hỗ trợ của
các phần mềm Primer3, Blastall, Formatdb. Những Script Perl này đƣợc thiết
lập và có thể nhúng vào các phần mềm Primer3, Blastall và Formardb. Thứ tự
các script trên đƣợc sắp xếp từ 1 – 6 và thực thi các tác vụ nhƣ sau:
1_ssr_repeat_finder: thực thi tác vụ tìm và phân loại tất cả các EST
có microsatellite, chuyển vào một file mới chuẩn bị cho bƣớc phân tích tiếp
theo.
2_ssr_primer_designer: thực thi tác vụ thiết kế primer cho mục đích
khuếch đại microsatellite chứa đựng trong một vùng trình tự.
38
3_ssr_primer_rep_check: thực thi tác vụ loại bỏ những mồi đã đƣợc
thiết kế trên những trình tự lặp lại có độ phức tạp thấp.
4_ssr_primer_blast: thực thi tác vụ kiểm tra sự tƣơng thích những
trình tự lặp lại đối với primer đã thiết kế
5_ssr_order_filter: thực thi tác vụ tạo ra một file chứa đựng chỉ
những microsatellite có mồi duy nhất
6_ssr_order_formatter: thực thi tác vụ tạo ra một file chỉ chứa
microsatellite có mồi duy nhất và cung cấp thông tin về primer một cách đơn
giản, dễ quan sát.
Trong đó script thứ 2 nhúng vào Primer3 trong việc thiết kế primer.
Hình 3.6. Giao diện của Primer3
Primer3 là chƣơng trình thiết kế primer miễn phí. Chƣơng trình này đƣợc
tạo bởi các nhà khoa học thuộc Viện Nghiên Cứu Y Sinh Học Whitehead và
Trung Tâm Nghiên Cứu Genome của MTI (Whitehead Institute For Biomedical
Research and Center For Genome Research). Primer3 rất dễ dàng sử dụng để
thiết kế primer, nó có hàng trăm tùy chọn và có thể thay đổi đƣợc nếu ngƣời sử
dụng không muốn sử dụng các thông số đã đƣợc mặc định. Để thay đổi các
thông số này ngƣời sử dụng chỉ việc đƣa trình tự cần thiết kế primer của mình
vào vị trí ô trống lớn nhƣ đƣợc thấy ở Hình 3.4, sau đó đƣa chuột vào các ô tùy
chọn và gõ vào các thông số mong muốn của mình, tiếp theo chỉ việc ấn vào nút
Pick Primers là chƣơng trình tự động thiết kế primer.
39
Tuy nhiên, vì có đến hàng trăm tùy chọn khác nhau nên để sử dụng có
hiệu quả Primer3, ngƣời sử dụng cần tìm hiểu kỹ càng trƣớc khi điều chỉnh các
thông số theo mong muốn là điều cần làm trƣớc tiên. Primer3 có thể sử dụng
hoàn toàn miễn phí tại địa chỉ internet
bin/primer/primer3_www.cgi
Bƣớc 4: so sánh, chọn lựa primer
Đây là buớc cuối cùng của cuộc nghiên cứu. Tuy không tốn nhiều công
sức nhƣng cũng rất quan trọng. Bƣớc này với nhiệm vụ là chọn ra những cặp
primer tốt nhất đảm bảo cho việc chạy phản ứng PCR đạt đƣợc kết quả nhƣ
mong muốn.
Trên cơ sở những cặp primer đã đƣợc thiết kế và sàng lọc ở bƣớc thứ 3,
để có đƣợc những cặp primer đảm bảo là tốt nhất thì cần phải tiến hành chọn
lựa lại lần cuối. Việc này đƣợc thực hiện thông qua việc kiểm tra lại các thông
số của các cặp primer cùng với đó là sử dụng các phần mềm thiết kế primer
khác nhƣ PrimerQuest, PDA, DNAClub. Việc sử dụng các phần mềm thiết kế
primer này là nhằm so sánh tính duy nhất của primer. Từ các phân tích và so
sánh này sẽ chọn lại đƣợc những cặp primer hoàn hảo nhất.
Bƣớc này cần phải làm các nhiệm vụ nhƣ sau:
Chọn lựa các primer đã thiết kế ở bƣớc thứ 3, kiểm tra về các thông số của
từng cặp primer với các thông số đƣợc xây dựng trong chƣơng trình thiết kế
primer.
Thanh lọc bớt số lƣợng primer đƣợc tạo ra từ hai trình tự EST giống hệt nhau
và chỉ chọn một, hay giữa hai primer để khuyếch đại cùng một sự đa hình của
một dạng microsatellite có thông số thích hợp hơn.
Sử dụng các phần mềm thiết kế primer để kiểm tra tính đồng nhất của primer.
Tạo bảng danh sách các primer đƣợc chọn lựa cuối cùng.
PrimerQuest
PrimerQuest là chƣơng trình thiết kế primer đƣợc đặt trong trang web của hãng
Intergrated DNA Technology (IDT)
40
(
PrimerQuest đƣợc viết lại trên nền của Primer3. Tuy nhiên, nó không giống với
Primer3, giao diện của nó khác rất nhiều và có thêm nhiều tùy chon thú vị khác so với
Primer3. Một trong những tiện ích hấp dẫn từ PrimerQuest đó là, ngƣời sử dụng có thể
đặt thiết kế primer mình đã thiết kế ngay trên giao diện của PrimerQuest.
Hình 3.7. Giao diện của PrimerQuest
PDA (Primer Design Assistant)
Không nhƣ hầu hết các chƣơng trình thiết kế primer đều chỉ nhận và thiết kế
primer trên một trình tự DNA đƣa vào, PDA có khả năng thiết kế primer dựa trên một
hay nhiều trình tự DAN đƣa vào. PDA đƣợc phát triển bởi các nhà khoa học thuộc
Phân Viện Thống Kê Sinh Học và Tin Sinh Học của Viện Nghiên Cứu Sức Khỏe Đài
Loan. PDA đƣợc sử dụng miễn phí qua internet tại trang web
41
Hình 3.8. Giao diện của PDA
DNAClub
DNAClub đƣợc thiết kế bởi Xiongfong Chen (xc@cornell.edu) với nhiều tính
năng khác nhau. Ngƣời dùng có thể sử dụng chƣơng trình để thiết kế một bản đồ giới
hạn của trình tự DNA đƣa vào, hay có thể thiết kế primer để nhân bản một trình tự
DNA nào đó. Có thể sử dụng miễn phí DNAClub tại địa chỉ trang web
Hình 3.9. Giao diện của DNAClub
42
Phần 4
KẾT QUẢ VÀ THẢO LUẬN
4.1. Kết quả tìm kiếm và tải trình tự EST về máy tính cá nhân
4.1.1. Kết quả tìm kiếm EST
Sau khi tôi kiểm tra và so sánh số lƣợng, chất lƣợng nguồn vật liệu EST từ ba
ngân hàng cơ sở dữ liệu NCBI, EMBL và DDBJ. Kết quả, ngân hàng cơ sở dữ liệu
NCBI có đƣợc dữ liệu EST tốt nhất. Ngoài ra, ngân hàng cơ sở dữ liệu NCBI còn có
nhiều trang web hỗ
Các file đính kèm theo tài liệu này:
- TRAN NGOC VIET - 02126159.pdf