Khóa luận Khai thác dữ liệu EST (Expressed Sequence Tags) nhằm phát hiện Microsatellite phục vụ cho công tác phân tích và so sánh đặc điểm di truyền của ong mật

MỤC LỤC

CHƯƠNG TRANG

Trang tựa

Lời cảm tạ .iii

Tóm tắt . . .iv

Mục lục . .v

Danh sách các chữ viết tắt.viii

Danh sách các bảng .ix

Danh sách các hình .x

1. MỞ ĐẦU .1

1.1. Đặt vấn đề.1

1.2. Mục đích và yêu cầu nghiên cứu.2

1.2.1. Mục đích nghiên cứu .2

1.2.2. Yêu cầu nghiên cứu .2

1.3. Giới hạn .2

2. TỔNG QUAN TÀI LIỆU .3

2.1. Giới thiệu chung về ong mật .3

2.1.1. Cấu tạo cơ thể của ong mật.3

2.1.1.1. Hình thái cơ thể .3

2.1.1.2. Các cơ quan bên trong .6

2.1.2. Tổ chức của đàn ong .6

2.1.3. Yêu cầu dinh dưỡng của ong .7

2.1.4. Các sản phẩm của ong .7

2.1.4.1. Mật ong .7

2.1.4.2. Phấn hoa .7

2.1.4.3. Sữa ong chúa .7

2.1.4.4. Sáp ong .8

2.2. Nguồn gốc EST (Expressed Sequence Tags) .8

2.2.1. EST là gì? .8

2.2.2. Phương pháp tạo EST .8

2.3. Microsatellite là gì? .10

2.3.1. Các dạng microsatellite .10

2.3.2. Cơ chế hình thành microsatellite .11

2.3.3. Ứng dụng của microsatellite .12

2.3.4. Marker phân tử (molecular markers) .13

2.3.5. Vì sao chọn marker microsatellite? .14

2.4. Ngôn ngữ lập trình Perl (Practical Extraction and Reporting Language) .15

2.4.1. Nguồn gốc của Perl .15

2.4.2. Cấu trúc của Perl .16

2.4.2.1. Dữ liệu vô hướng (scala data) .16

2.4.2.2. Cấu trúc điều khiển .16

2.4.2.3. Các List, Array và Hash .19

2.4.2.4. Dòng chương trình và các thường trình con .19

2.4.2.5. Package và Module .20

2.5. Giới thiệu về mồi (primer) .21

2.5.1. Khái quát về mồi .21

2.5.2. Đặc điểm của mồi .21

2.5.2.1. Tính chuyên biệt .21

2.5.2.2. Tính ổn định .22

2.5.2.3. Tính tương thích .23

2.6. Tin sinh học .24

2.6.1. Khái niệm tin sinh học .24

2.6.2. Các lĩnh vực nghiên cứu chính của tin sinh học .24

2.6.2.1. Genomics - Hệ gen học .24

2.6.2.2. Sinh học tiến hóa .26

2.6.2.3. Phân tích chức năng gen .26

3. PHưƠNG TIỆN VÀ PHưƠNG PHÁP NGHIÊN CỨU .29

3.1. Thời gian và địa điểm tiến hành nghiên cứu .29

3.1.1. Thời gian nghiên cứu .29

3.1.2. Địa điểm nghiên cứu .29

3.2. Vật liệu và công cụ nghiên cứu .29

3.2.1. Vật liệu nghiên cứu .29

3.2.2. Công cụ nghiên cứu .29

3.3. Phương pháp tiến hành nghiên cứu .30

3.3.1. Quy trình nghiên cứu tổng quát .30

3.3.2. Phương pháp nghiên cứu .31

3.3.2.1. Sơ đồ các bước tiến hành nghiên cứu .31

3.3.2.2. Các bước tiến hành nghiên cứu chi tiết .32

4. KẾT QUẢ VÀ THẢO LUẬN .42

4.1. Kết quả tìm kiếm và tải trình tự EST về máy tính cá nhân .42

4.1.1. Kết quả tìm kiếm EST .42

4.1.2. Kết quả tải trình tự EST về máy tính cá nhân .43

4.2. Kết quả tìm và phân loại microsatellite .44

4.2.1. Kết quả tìm microsatellite qua xử lý của EST_TRIMMER .44

4.2.2 Kết quả xử lý qua MISA .45

4.3. Kết quả thiết kế primer .49

4.3.1. Kết quả thiết kế primer qua 6 Script Perl .49

4.3.2. Kết quả so sánh và chọn lọc primer được thiết kế .56

5. KẾT LUẬN VÀ ĐỀ NGHỊ .59

5.1. Kết luận .59

5.1.1. Sơ đồ phương pháp thực hiện .59

5.1.2. Kết quả đạt được .60

5.2. Đề nghị .60

6. TÀI LIỆU THAM KHẢO .61

7. PHỤ LỤC .64

94 trang | Chia sẻ: leddyking34 | Lượt xem: 2991 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Khóa luận Khai thác dữ liệu EST (Expressed Sequence Tags) nhằm phát hiện Microsatellite phục vụ cho công tác phân tích và so sánh đặc điểm di truyền của ong mật, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ác protein–protein (protein-protein interaction) và mô hình hóa các quá trình tiến hóa. Thuật ngữ tin sinh học và khoa học tính toán thƣờng dùng hoán đổi cho nhau, mặt dù cái trƣớc, nói một cách nghiêm túc là tập con của cái sau. Những mối quan tâm chính trong các dự án tin sinh học và khoa học tính toán là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các dữ liệu hỗn độn đƣợc thu nhận từ các kỹ thuật sinh học với lƣu lƣợng mức độ lớn. Lĩnh vực khai thác dữ liệu (data mining) trùng lắp với sinh học tính toán về phƣơn diện này. Những bài toán đặc trƣng trong sinh học tính toán bao gồm việc lắp ráp (assembly) những trình tự DNA chất lƣợng cao từ các đoạn ngắn DNA đƣợc thu nhận từ kỹ thuật xác định trình tự DNA và việc dự đoán qui luật biểu hiện điều hoà gen (gene regulation) với dữ liệu từ các mRNA, microarray hay khối phổ (mass spectrometry). 2.6.2. Các lĩnh vực nghiên cứu chính của tin sinh học 2.6.2.1. Genomics - Hệ gen học 25 Phân tích trình tự Kể từ khi Phage - X174 đƣợc xác định trình tự (1977). Cho đến nay, trình tự DNA của rất nhiều loài đƣợc dự trữ trong các ngân hàng cơ sở dữ liệu. Việc thực hiện phân tích nguồn dữ liệu này về các vấn đề tìm kiếm gen cấu trúc (mã hóa cho một protein nào đó), quy luật những trình tự tƣơng đồng, so sánh gen trong cùng một loài hay giữa các loài, mối quan hệ phát sinh chủng loài là không thể thực hiện đƣợc bằng tay. Do đó, các chƣơng trình máy tính đã đƣợc phát triển và ứng dụng vào các công việc này với nguồn dữ liệu lên đến hàng tỷ và nhiều công đoạn nghiên cứu phức tạp khác. Mà dự án genome ngƣời (Human Genome Project) là một minh chứng. Trong dự án này các nhà tin sinh học đã phải mất cả hàng tháng trên một loạt siêu máy tính (các máy DEC Alpha ra đới năm 2000) để sắp xếp đúng toàn bộ số lƣợng trình tự DNA nhỏ (shotgun DNA sequence) đƣợc giải mã tạo nên một sợi DNA với kích thƣớc lớn mà với kỹ thuật hiện nay không thể giải mã đƣợc sợi DNA cở vài chục ngàn nucleotide. Giải mã genome hiện nay và giải thuật lắp ráp genome (genome assembly algorithms) là một trong những lĩnh vực nóng của tin sinh học. Chỉ định gen Annotation là quá trình đánh dấu các gen và các đặc tính sinh học (biological features) khác trong một chuỗi DNA. Hệ thống phần mềm làm nhiệm vụ “ genome annotation” đã đƣợc phát triển. Công việc này giúp cho lĩnh vực chuyên về nghiên cứu bản đồ gen (genomics). Dò tìm đột biến và SNP Rất nhiều nghiên cứu xác định trình tự (sequencing) hiện nay là nhằm tìm ra các đột biến điểm (point mutation) xảy ra các gen khác nhau trong ung thƣ. Tập sơ khởi (sheer volume) các dữ liệu đƣợc tạo ra đòi hỏi các hệ thống tự động đọc những dữ liệu kiểu chuỗi này (sequence data), rồi so sánh trình tự kết quả với các trình tự đã biết trên genome ngƣời, bao gồm những điểm đa hình trên các tế bào dòng tinh (germline) đã biết. Những hệ thống oligonucleotide microarray, bao gồm những hệ thống dùng để xác định điểm đa hình đơn nucleotide (Sinlge Nucleotide Polymophism) hoặc khảo sát tính dị biệt so sánh genome (comparative genomic hybridization) 26 với khả năng cho phép khảo sát một lúc hàng trăm ngàn vị trí trên cùng một bản đồ gen đang đƣợc sử dụng để xác định những đột biến thêm và mất đoạn nhiễm sắc thể trong quá trình hình thành ung thƣ. 2.6.2.2. Sinh học tiến hóa Phân loại học phân tử Tiến hóa học máy tính (Computional Evolutation Biology, CEB) đã ra đời trƣớc kỹ nguyên hệ gen học (genomics) nghiên cứu xây dựng các mô hình tính toán quần thể và sự biến thiên của chúng theo thời gian. Bảo tồn đa dạng sinh học Tin sinh học thƣờng áp dụng trong lĩnh vực bảo tồn đa dạng sinh học (biodiversity). Thông tin quan trọng nhất đƣợc thu thập chính là tên, mô tả, sự phân bố, trạng thái và kích thƣớc phân bố của các chủng loài (speciese), nhu cầu thói quen (habitat) mà cách mà mỗi tổ chức tƣơng tác với các chủng loài khác. Thông tin này đƣợc lƣu trữ trong cơ sở dữ liệu các máy tính, đƣợc truy xuất bởi các chƣơng trình phần mềm để tìm kiếm, hiển thị, phân tích thông tin đó một cách tự động và quan trọng nhất là để giao tiếp đƣợc với con ngƣời, đặc biệt là qua internet. Một ví dụ của ứng dụng này là dự án Speciese 2000. Nó là một dự án nghiên cứu toàn cầu dựa vào internet để giúp cung cấp thông tin về mỗi chủng loài đƣợc biết đến của cây, động vật, nấm (fungus), và vi khuẩn (microbe) còn tồn tại để làm cơ sở cho việc nghiên cứu đa dạng sinh học toàn cầu. 2.6.2.3. Phân tích chức năng gen Mức độ biểu hiện gen Nhà sinh học phân tử có thể đánh giá mức độ biểu hiện của một gen bằng cách xác định lƣợng mRNA đƣợc tạo ra từ gen đó thông qua các kỹ thuật nhƣ microarray, EST, SAGE (Serial Analygis of Gene Expression), MPSS (Massively Parllel Signature Sequencing), hay khối phổ định lƣợng protein. Tất cả những dữ liệu trên đƣợc tạo ra đều chứa thông tin nhiễu (noise-prone) làm việc phân tích, tính toán trở nên phức tạp. Yêu cầu thực tế đó đã cho ra đời một 27 lĩnh vực mới trong sinh học tính toán đó là phát triển công cụ thống kê để lọc tín hiệu xác đáng khỏi thông tin nhiễu trong những nghiên cứu biểu hiện gen đa lƣợng (high-thoughput gene expression). Nhận diện protein Protein microarray và hệ thống khối phổ cao năng (high- throughput mass spectrometry) có thể cung cấp hình ảnh (snapshot) tổng thể của các protein hiện có trong một mẫu sinh học (biological sample). Các ứng dụng tin sinh học có liên quan rất nhiều đến việc lý giải các dữ liệu thu đƣợc từ những hệ thống này. Đối với protein microarray, những nhà tin sinh học cần kiểm tra dữ liệu mRNA gắn trên array. Trong khi đó, những vấn đề tin sinh học liên quan đến việc gán (matching) dữ liệu phổ sắc ký MS với cơ sở dữ liệu về trình tự protein. Dự đoán cấu trúc protein Dự đoán cấu trúc là một ứng dụng quan trọng nữa của tin sinh học. Có thể dễ dàng xác định trình tự acid amin của protein từ trình tự gen mã hóa cho nó. Nhƣng protein chỉ có chức năng khi nó có cấu trúc bậc hai, bậc ba, bậc bốn. Sẽ là vô cùng khó khăn khi dự đoán cấu trúc gấp nếp này từ tình tự axit amin. Một số phƣơng pháp dự đoán cấu trúc bằng máy tính hiện đang phát triển. Trong đó ý tƣởng quan trọng trong nghiên cứu tin sinh học là về quan điểm tƣơng đồng. Với kỹ thuật mô phỏng tƣơng đồng (homology modeling), thông tin này đƣợc dùng để dự đoán cấu trúc của một protein khi đã biết cấu trúc của một protein khác tƣơng đồng với nó. Hiện tại, đây là cách dự đoán cấu trúc protein đáng tin cậy nhất. Các hệ thống sinh học kiểu mẫu Sinh học hệ thống bao gồm việc sử dụng khả năng mô phỏng bằng máy tính (computer simulation) các hệ cơ quan tế bào để có thể phân tích và hiển thị hóa (visualize) việc kết nối phức tạp của các quá trình. Sự sống nhân tạo (artificial life) hay tiến hóa ảo nổ lực nhằm tìm hiểu quá trình tiến hóa thông qua việc mô phỏng bằng máy tính các dạng sự sống (nhân tạo) đơn giản. Phân tích hình ảnh mức độ cao 28 Các kỹ thuật tính toán cũng đƣợc dùng để tăng tốc độ hoặc giúp tự động hoàn toàn quá trình xử lý định lƣợng, và phân tích một lƣợng lớn hình ảnh sinh học có chứa- thông- tin-cao. Các hệ thống xử lý ảnh hiện đại tăng cƣờng khả năng quan sát để giúp cho việc tính toán từ môt tập lớn và phức tạp các hình ảnh bằng cách cải tiến độ chính xác, tính khách quan, hay tốc độ. Một hệ thống phân tích đƣợc phát triển hoàn thiện có thể thay thế hoàn toàn ngƣời quan sát. Các công cụ phần mềm Một trong những công cụ dùng trong sinh học tính toán nổi tiếng nhất là BLAST, một giải thuật để tìm kiếm các trình tự acid nucleic hoặc protein tƣơng đồng lƣu trữ trên các cơ sở dữ liệu. Ba nguồn cơ sở dữ liệu công cộng lớn nhất (thƣờng đƣợc gọi là ngân hàng gen) là NCBI, EMBL, DDBJ. Các ngôn ngữ lập trình của máy tính nhƣ Perl và Python thƣờng đƣợc dùng để giao tiếp (interface) và ly trích (parse) dữ liệu từ các ngân hàng cơ sở dữ liệu sinh học (biological database) thông qua những chƣơng trình tin sinh học (bioinformatics program). Cộng đồng những lập trình viên sinh tin học đã triển khai nhiều dự án phần mềm mã nguồn mở (free/open source) nhƣ EMBOSS, Bioconductor, BioPerl, BioPhyton, BioRubi, BioJava. Điều này giúp cho việc chia sẻ, phát triển và phổ biến các công cụ lập trình và tài nguyên lập trình (programming objects) giữa các nhà tin sinh học. 29 Phần 3 PHƢƠNG TIỆN VÀ PHƢƠNG PHÁP NGHIÊN CỨU 3.1. Thời gian và địa điểm tiến hành nghiên cứu 3.1.1 Thời gian nghiên cứu Đề tài đƣợc bắt đầu tiến hành nghiên cứu từ tháng 3 năm 2006 và phải hoàn thành vào ngày 15 tháng 8 năm 2006. 3.1.2. Địa điểm nghiên cứu Đề tài đƣợc thực hiện tại Trung Tâm Phân Tích Thí Nghiệm Hóa Sinh thuộc trƣờng Đại học Nông Lâm Thành Phố Hồ Chí Minh. 3.2. Vật liệu và công cụ nghiên cứu 3.2.1. Vật liệu nghiên cứu Vật liệu nghiên cứu là toàn bộ EST (Expressed Sequence Tags) của của tất cả các loài ong cho mật (tính đến ngày 14-06-2006), hiện đã đƣợc công bố trên các ngân hàng cơ sở dữ liệu nhƣ NCBI, EMBL, DDBJ. Trong số trình tự EST này, sẽ có một số lƣợng nhất định các trình tự đơn lặp lại (Simple Sequence Repeats, SSRs). Trong số microsatellite tìm đƣợc có những microsatellite có đặc điểm đặc trƣng, đƣợc ứng dụng làm marker microsatellite. Và trên thực tế hiện nay marker microsatellite đang đƣợc sử dụng nhiều trong các dự án nghiên cứu nhƣ lập bản đồ bộ gen của các loài ngũ cốc, trong dự án genome ngƣời (Human Genome Project) và nhiều nghiên cứu khác trong việc phân tích, so sánh đặc điểm di truyền của các loài sinh vật. 3.2.2. Công cụ nghiên cứu Máy tính IBM với hệ điều hành window server 2003 và hệ điều hành Linux (phiên bản Fedora core 1) Internet truy cập cơ sở dữ liệu thế giới Trình biên dịch Active Perl 5.6 30 Phần mềm soạn thảo lập trình Perl: Ultraedit, Notepad Phần mềm thiết kế mồi Primer3 (Primer.exe) Các phần mềm thiết kế mồi với mã nguồn mở hiện đang có trên mạng: PrimerQuest. DNAClub, PDA… Phần mềm Blastall Phần mềm Formatdb Phần mềm MISA, EST_TRIMMER Cùng một số công cụ, cơ sở dữ liệu khác đƣợc sử dụng để so sánh và chọn lựa phƣơng thức tối ƣu nhất cho công việc nghiên cứu. 3.3. Phƣơng pháp tiến hành nghiên cứu 3.3.1 Quy trình nghiên cứu tổng quát Xác định phân loại Microsatellite có trong EST Thiết kế primer cho phản ứng PCR dựa trên vùng hai bên locus SSR đặc trƣng Đối tƣợng nghiên cứu (các loài ong cho mật) Công cụ nghiên cứu (các phần mềm và thiết bị cần thiết) Vật liệu nghiên cứu EST của ong cho mật 31 Phân tích, so sánh để chọn ra những primer tốt nhất Hình 3.1. Sơ đồ trình bày quy trình nghiên cứu tổng quát Để tiến hành nghiên cứu đạt đƣợc hiệu quả nhanh và tốt thì việc đƣa ra một quy trình tổng quát là rất cần thiết. Việc thiết lập nên quy trình này giúp cho công việc nghiên cứu có một kế hoạch tƣơng đối và sẽ bố trí đƣợc công việc thực hiện trong các phân đoạn đƣợc tiến hành song song, có hiệu quả, đạt đƣợc kết quả trong thời gian sớm nhất và kết quả tốt nhất. Sau đây là qui trình nghiên cứu tổng quát, tôi đã xây dựng để hỗ trợ tốt theo những ƣu điểm nêu trên. 3.3.2. Phƣơng pháp nghiên cứu 3.3.2.1. Sơ đồ các bƣớc tiến hành nghiên cứu Bƣớc 1 Thu thập dữ liệu EST ● Script Perl ● Công cụ hỗ trợ từ NCBI Bƣớc 2 Tìm và phân loại microsatellite ● Xử lứ qua EST_TRIMMER ● Xử lý qua MISA Bƣớc 3 Thiết kế primer Tiến hành qua 6 script Perl 32 Bƣớc 4 So sánh, chọn lựa primer ● Primer3 ● Primerquest ● PDA ● DNAClub Hình 3.2. Sơ đồ các bƣớc tiến hành nghiên cứu chính Nhằm giúp cho công việc nghiên cứu đƣợc tiến hành nhanh, hiệu quả, chính xác các công việc đƣợc thực hiện lôgic việc thiết lập nên sơ đồ tiến hành nghiên cứu chi tiết từng bƣớc là điều cần làm. Công việc này là cụ thể hóa cho sơ đồ nghiên cứu tổng quát đƣợc xây dựng ở mục 3.1. Hơn thế nữa, sơ đồ nghiên cứu chi tiết sẽ giúp cho những ngƣời quan tâm đến đề tài dễ dàng hình dung, theo dõi từng công việc đƣợc làm trong đề tài. Vì mục đích đó, tôi xây dựng nên bảng đồ chi tiết trong nghiên cứu đƣợc trình bày cụ thể hình 3.2. 3.3.2.2. Các bƣớc tiến hành nghiên cứu chi tiết Buớc 1: thu thập dữ liệu EST Chọn ngân hàng cơ sở dữ liệu nào có chứa nguồn EST nhiều nhất, chất lƣợng cao nhất. Vì rằng, mỗi ngân hàng cơ sở dữ liệu có số lƣợng khác nhau và mức độ trùng lắp dữ liệu cũng không loại trừ. Việc trùng lắp dữ liệu làm cho số liệu trở nên dƣ thừa không cần thiết và tốn thời gian hơn cho việc xử lý dữ liệu. Tôi sử dụng keywork “honeybee” và chọn lựa 3 ngân hàng cơ sở dữ liệu lớn nhất là NCBI, EMBL, DDBJ. Kết quả tìm đƣợc nhiều nhất trên trang NCBI với số lƣợng 24,468 trình tự EST. Bên cạnh đó, trang NCBI có trang download hỗ trợ, giúp cho ngƣời nghiên cứu có thể tải cùng lúc tất cả dữ liệu EST về máy cá nhân một cách nhanh chóng. Ngƣời nghiên cứu chỉ việc đánh từ khóa cần quan tâm và vào chọn dạng text là có thể dễ dàng tải trình tự cần nghiên cứu về máy của mình. Tuy nhiên, dạng định dạng còn phải phụ thuộc vào yêu cầu nghiên cứu cụ thể. 33 Hình 3.3. Giao diện trên trang NCBI với từ khóa “honeybee” Dùng ngôn ngữ lập trình Perl để thiết kế đoạn mã (Perl script) tải toàn bộ nguồn EST đã chọn về máy tính cá nhân. Chi tiết cấu trúc đoạn mã nhƣ sau: #!/usr/bin/perl –w # Day la day la script download du lieu EST tu NCBI ############################################## use strict; use LWP::Simple; my($path1,@content,$temp,@acc,$tam,$url); my(@raw,$undownacc,$file,$i); $path1="e:\\downpbp\\accession1.txt"; $viet=""; open(ACC,$path1)||die("Can't open file accession"); @content=; for($i=0;$i<=$#content;$i++){ $content[$i]=~s/\n{0,}\s{0,}//g; @acc=split(":",$content[$i]); $acc[1]=~s/\s{0,}//g; chomp($acc[1]); $url=" &txt=on&val="; $url.=$acc[1]; print"Trinh tu thu $acc[0] :\n"; print"$url\n"; if (@raw=get($url)){ $file="d:\\loi\\download\\database\\$acc[1].txt"; open (PBP,"+>$file")|| die("Khong luu duoc file DNA\n"); 34 print PBP @raw ; close (PBP); $viet=$acc[1]; }else{ #Neu ACCESSION nao khong tai duoc thi luu vao tap tin undown.txt print "$acc[1] tai khong duoc\n"; $undownacc = $acc[1]."\n"; $tam=$acc[1];}} $file="d:\\loi\\download\\undown.txt"; open (UNPBP, "+>$file")|| die("Khong luu duoc file DNA\n"); print UNPBP $undownacc ; close (UNPBP); Sở dĩ cần phải thiết lập đoạn mã ngoài việc tải trình tự bằng phƣơng tiện có sẵn từ trang NCBI là để dễ dàng cho việc phân loại trình tự EST có chứa microsatellite trong bƣớc thực hiện thiết kế mồi sau này. Bƣớc 2: tìm và phân loại microsatellite Tìm và phân loại microsatellite trong toàn bộ EST đã tải về máy, phải chọn lựa phần mềm tìm và phân loại phù hợp nhất, hay kết hợp các phần mềm với nhau, hay phải tự thiết kế. Đây là giai đoạn cần phải giải quyết tốt về vấn đề phân loại. Viêc phân loại thành cộng sẽ tạo thuận lợi rất nhiều cho các bƣớc tiếp sau. Nó sẽ giúp cho ngƣời nghiên cứu bƣớc đầu, xác định đƣợc tỷ lệ các dạng lặp lại, từ đó có thể loại bỏ đƣợc những dạng lặp lại không đặc trƣng, rút ngắn công đoạn nghiên cứu tiếp sau đó và làm cho việc xử lý số liệu còn lại đơn giản hơn. Trong bƣớc này, tôi sử dụng các phần mềm EST_TRIMMER và MISA. EST_TRIMMER là công cụ dùng cho việc tìm microsatellite từ EST. Ƣu điểm của EST_TRIMMER là dễ dàng thay đổi các thông số cần thiết cho việc tìm microsatellite. Vì vậy, tôi đã sử dụng EST_TRIMMER đầu tiên cho việc xác định microsatellite. Cú pháp thực thi của EST_TRIMMER có dạng: est_trimmer.pl [-amb=n,win] [tr5=(A|C|G|T),n,win] [-tr3=(A|C|G|T),n,win] [-cut=min,max] [-id=name] 35 [-help] Để chạy đƣợc chƣơng trình này thì cần phải thực hiện các công việc nhƣ sau: - Phải tải đƣợc script của EST_TRIMMER về máy tính cá nhân, và cần phải cài ngôn ngữ lập trình Perl ( Active Perl 5.6) vào máy. - Phải tạo một file trong đó có chứa dữ liệu EST theo định dạng FASTA. - Script của EST_TRIMMER và file chứa EST phải nằm trong cùng một thƣ mục. Hình 3.4. Cú pháp thực thi của EST_TRIMMER MISA là một công cụ dùng để tìm microsatellite. Nó đƣợc thiết kế dùng kết hợp với Primer3 trong việc tìm microsatellite và thiết kế primer vùng flanking của những locus microsatellite tìm đƣợc. Ở đây tôi chỉ ứng dụng MISA cho việc tìm microsatellite và chỉnh sửa thông số cần thiết theo yêu cầu nghiên cứu. Sở dĩ, tôi dùng MISA là vì công cụ này cho ra kết quả rõ ràng, dễ dàng cho việc phân loại tiếp sau. Và tôi không dùng cho việc thiết kế primer là vì các thông số trong thiết kế primer đã đƣợc mặc định và không thể chỉnh sửa nên không phù hợp cho mục đích nghiên cứu. Việc ứng dụng MISA không có gì phức tạp. Tuy nhiên, ngƣời mới bắt đầu thì cũng sẽ gặp một vài trở ngại. Vì vậy, trƣớc hết phải tham khảo kỹ phần readme của chƣơng trình này để có thể vận dụng vào mục đích ứng dụng của mình đƣợc. Sau đây là cách thức xử lý dữ liệu qua MISA. Trƣớc tiên, ngƣời ứng dụng cần phải đƣa script của MISA vào cùng thƣ mục với EST_TRIMMER ở trên (nếu dùng MISA cho cả việc thiết kế primer thì phải tải phần mềm Primer3_ core vào cùng thƣ mục). 36 Tiếp theo, ngƣời ứng dụng phải định dạng lại dữ liệu (dạng fasta và lƣu lại bằng một tên file mới) từ file kết quả đạt đƣợc từ việc thực thi EST_TRIMMER. Cuối cùng, ngƣời ứng dụng vào MS-DOS thực thi lệnh chạy MISA. Cú pháp để thực thi MISA có dạng: misa.pl là tên file chứa trình tự DNA theo định dạng FASTA. Hình 3.3: Cú pháp thực thi của MISA Sau khi dữ liệu đƣợc xử lý qua MISA, microsatellite đƣợc xác định và phân nhóm rõ ràng. Tất cả đƣợc lƣu trữ trong cùng một file. Việc cần làm bây giờ là tính tỉ lệ phần trăm của từng dạng microsatellite trong tổng số microsatellite và phần trăm của microsatellite với hai loại EST (5‟EST và 3‟EST). Mục đích của việc tính tỷ lệ phần trăm của từng dạng microsatellite và phần trăm của microsatellite của hai loại EST là xác định dạng microsatellite nào sẽ đƣợc sử dụng trong bƣớc thiết kế primer. Việc chọn lựa này loại bỏ đi một lƣợng lớn các dạng microsatellite nhƣng chiếm tỉ lệ rất thấp. Từ đó làm cho việc thiết kế primer sẽ đơn giản và chính xác hơn. Sau khi tính toán và chọn lựa các dạng mocrosatellite hoàn tất, việc làm kế tiếp là chuyển tất cả những dạng microsatellite chọn vào từng thƣ mục riêng biệt, chuẩn bị cho bƣớc thiết kế primer. 37 Bƣớc 3: thiết kế primer Đây là khâu rất quan trọng, primer đƣợc thiết kế phải đảm bảo nghiêm ngặt các thông số về nhiệt độ, tỷ lệ %GC, nhiệt độ chênh lệch giữa mồi xuôi và mồi ngƣợc, không tạo cấu trúc kẹp tóc… của primer khi chạy phản ứng PCR. Đồng thời phải giải quyết đƣợc mức độ phức tạp của các dạng microsatellite có trong EST, có nhƣ vậy mới không bỏ sót đƣợc những microsatellite đặc trƣng. Nhiệt độ Tm của primer đƣợc thiết lập ở ba mức độ nhƣ sau: Tm = 65 - nhiệt độ cao nhất Tm = 63 - nhiệt độ trung bình Tm = 60 - nhiệt độ thấp nhất Sự chênh lệch giữa primer xuôi và primer ngƣợc tối đa là 10C Chiều dài primer có ba trƣờng hợp: Chiều dài tối đa = 28 base Chiều dài trung bình = 24 base Chiều dài tối thiểu = 20 base Phần trăm GC nằm trong khoảng từ 50% - 60% Mức độ phức tạp của các dạng microsatellite: microsatellite không chỉ có một dạng trong một EST mà trong một EST có thể có rất nhiều dạng microsatellite cùng tồn tại. Chính sự tồn tại đa dạng này làm cho công việc tìm microsatellite trở nên phức tạp hơn rất nhiều. Vì vậy, phải làm sao thiết kế đƣợc đoạn mã để đáp ứng yêu cầu thực có nhƣ trên. Công đoạn này đƣợc giải quyết qua 6 script perl cùng với sự hỗ trợ của các phần mềm Primer3, Blastall, Formatdb. Những Script Perl này đƣợc thiết lập và có thể nhúng vào các phần mềm Primer3, Blastall và Formardb. Thứ tự các script trên đƣợc sắp xếp từ 1 – 6 và thực thi các tác vụ nhƣ sau: 1_ssr_repeat_finder: thực thi tác vụ tìm và phân loại tất cả các EST có microsatellite, chuyển vào một file mới chuẩn bị cho bƣớc phân tích tiếp theo. 2_ssr_primer_designer: thực thi tác vụ thiết kế primer cho mục đích khuếch đại microsatellite chứa đựng trong một vùng trình tự. 38 3_ssr_primer_rep_check: thực thi tác vụ loại bỏ những mồi đã đƣợc thiết kế trên những trình tự lặp lại có độ phức tạp thấp. 4_ssr_primer_blast: thực thi tác vụ kiểm tra sự tƣơng thích những trình tự lặp lại đối với primer đã thiết kế 5_ssr_order_filter: thực thi tác vụ tạo ra một file chứa đựng chỉ những microsatellite có mồi duy nhất 6_ssr_order_formatter: thực thi tác vụ tạo ra một file chỉ chứa microsatellite có mồi duy nhất và cung cấp thông tin về primer một cách đơn giản, dễ quan sát. Trong đó script thứ 2 nhúng vào Primer3 trong việc thiết kế primer. Hình 3.6. Giao diện của Primer3 Primer3 là chƣơng trình thiết kế primer miễn phí. Chƣơng trình này đƣợc tạo bởi các nhà khoa học thuộc Viện Nghiên Cứu Y Sinh Học Whitehead và Trung Tâm Nghiên Cứu Genome của MTI (Whitehead Institute For Biomedical Research and Center For Genome Research). Primer3 rất dễ dàng sử dụng để thiết kế primer, nó có hàng trăm tùy chọn và có thể thay đổi đƣợc nếu ngƣời sử dụng không muốn sử dụng các thông số đã đƣợc mặc định. Để thay đổi các thông số này ngƣời sử dụng chỉ việc đƣa trình tự cần thiết kế primer của mình vào vị trí ô trống lớn nhƣ đƣợc thấy ở Hình 3.4, sau đó đƣa chuột vào các ô tùy chọn và gõ vào các thông số mong muốn của mình, tiếp theo chỉ việc ấn vào nút Pick Primers là chƣơng trình tự động thiết kế primer. 39 Tuy nhiên, vì có đến hàng trăm tùy chọn khác nhau nên để sử dụng có hiệu quả Primer3, ngƣời sử dụng cần tìm hiểu kỹ càng trƣớc khi điều chỉnh các thông số theo mong muốn là điều cần làm trƣớc tiên. Primer3 có thể sử dụng hoàn toàn miễn phí tại địa chỉ internet bin/primer/primer3_www.cgi Bƣớc 4: so sánh, chọn lựa primer Đây là buớc cuối cùng của cuộc nghiên cứu. Tuy không tốn nhiều công sức nhƣng cũng rất quan trọng. Bƣớc này với nhiệm vụ là chọn ra những cặp primer tốt nhất đảm bảo cho việc chạy phản ứng PCR đạt đƣợc kết quả nhƣ mong muốn. Trên cơ sở những cặp primer đã đƣợc thiết kế và sàng lọc ở bƣớc thứ 3, để có đƣợc những cặp primer đảm bảo là tốt nhất thì cần phải tiến hành chọn lựa lại lần cuối. Việc này đƣợc thực hiện thông qua việc kiểm tra lại các thông số của các cặp primer cùng với đó là sử dụng các phần mềm thiết kế primer khác nhƣ PrimerQuest, PDA, DNAClub. Việc sử dụng các phần mềm thiết kế primer này là nhằm so sánh tính duy nhất của primer. Từ các phân tích và so sánh này sẽ chọn lại đƣợc những cặp primer hoàn hảo nhất. Bƣớc này cần phải làm các nhiệm vụ nhƣ sau: Chọn lựa các primer đã thiết kế ở bƣớc thứ 3, kiểm tra về các thông số của từng cặp primer với các thông số đƣợc xây dựng trong chƣơng trình thiết kế primer. Thanh lọc bớt số lƣợng primer đƣợc tạo ra từ hai trình tự EST giống hệt nhau và chỉ chọn một, hay giữa hai primer để khuyếch đại cùng một sự đa hình của một dạng microsatellite có thông số thích hợp hơn. Sử dụng các phần mềm thiết kế primer để kiểm tra tính đồng nhất của primer. Tạo bảng danh sách các primer đƣợc chọn lựa cuối cùng. PrimerQuest PrimerQuest là chƣơng trình thiết kế primer đƣợc đặt trong trang web của hãng Intergrated DNA Technology (IDT) 40 ( PrimerQuest đƣợc viết lại trên nền của Primer3. Tuy nhiên, nó không giống với Primer3, giao diện của nó khác rất nhiều và có thêm nhiều tùy chon thú vị khác so với Primer3. Một trong những tiện ích hấp dẫn từ PrimerQuest đó là, ngƣời sử dụng có thể đặt thiết kế primer mình đã thiết kế ngay trên giao diện của PrimerQuest. Hình 3.7. Giao diện của PrimerQuest PDA (Primer Design Assistant) Không nhƣ hầu hết các chƣơng trình thiết kế primer đều chỉ nhận và thiết kế primer trên một trình tự DNA đƣa vào, PDA có khả năng thiết kế primer dựa trên một hay nhiều trình tự DAN đƣa vào. PDA đƣợc phát triển bởi các nhà khoa học thuộc Phân Viện Thống Kê Sinh Học và Tin Sinh Học của Viện Nghiên Cứu Sức Khỏe Đài Loan. PDA đƣợc sử dụng miễn phí qua internet tại trang web 41 Hình 3.8. Giao diện của PDA DNAClub DNAClub đƣợc thiết kế bởi Xiongfong Chen (xc@cornell.edu) với nhiều tính năng khác nhau. Ngƣời dùng có thể sử dụng chƣơng trình để thiết kế một bản đồ giới hạn của trình tự DNA đƣa vào, hay có thể thiết kế primer để nhân bản một trình tự DNA nào đó. Có thể sử dụng miễn phí DNAClub tại địa chỉ trang web Hình 3.9. Giao diện của DNAClub 42 Phần 4 KẾT QUẢ VÀ THẢO LUẬN 4.1. Kết quả tìm kiếm và tải trình tự EST về máy tính cá nhân 4.1.1. Kết quả tìm kiếm EST Sau khi tôi kiểm tra và so sánh số lƣợng, chất lƣợng nguồn vật liệu EST từ ba ngân hàng cơ sở dữ liệu NCBI, EMBL và DDBJ. Kết quả, ngân hàng cơ sở dữ liệu NCBI có đƣợc dữ liệu EST tốt nhất. Ngoài ra, ngân hàng cơ sở dữ liệu NCBI còn có nhiều trang web hỗ

Các file đính kèm theo tài liệu này:

TRAN NGOC VIET - 02126159.pdf