MỤC LỤC
Giới thiệu CNSH trong bệnh cây 6
1.1. Khái niệm về công nghệ sinh học 6
1.2. Công nghệ sinh học trong bệnh cây 6
Chương 1. Di truyền quần thể trong bệnh cây 7
1. Sinh học quần thể của tác nhân gây bệnh 7
2. Tiến hóa 7
2.1. Tiến hóa 7
2.2. Sinh học tiến hóa: Di truyền quần thể và phả hệ trong bệnh cây 7
3. Năm lực tiến hóa (Five Evolutionary Forces) 8
4. Đột biến 8
4.1. Định nghia 8
4.2. Vai trò 8
4.3. Một mô hình đột biến đơn giản 8
4.4. Đột biến trong tác nhân gây bệnh cây 9
4.5. Đột biến và chiến lược tạo giống kháng 9
5. Trôi dạt di truyền 10
5.1. Định nghĩa 10
5.2. Đặc điểm 10
5.3. Nguyên nhân 10
5.4. Đo trôi dạt di truyền 10
5.5. Trôi dạt di truyền làm giảm đa dạng di truyền và dẫn tới phân chia quần thể 10
5.6. Trôi dạt di truyền trong tác nhân gây bệnh cây 11
5.7. Ví dụ trôi dạt di truyền trong bệnh cây 11
6. Giao lưu gene và kiểu gen (Gene and Genotype Flow) 11
6.1. Định nghĩa. 11
6.2. Đặc điểm 11
6.3. Giao lưu gen (gene flow) và giao lưu kiểu gen (genotype flow) 11
6.4. Phân chia quần thể và giao lưu gen 11
6.5. Ví dụ giao lưu gen trong bệnh cây 13
6.6. Mối liên hệ giữa trôi dạt di truyền và giao lưu gen 13
6.7. Khái niệm siêu quần thể và tác nhân gây bệnh 14
7. Hệ thống sinh sản/ghép cặp (Reproductive/Mating Systems) 14
7.1. Đánh giá cấu trúc di truyền trong quần thể 14
7.2. Hệ thống sinh sản và ghép cặp của các tác nhân gây bệnh cây 16
7.3. Đa dạng gen và đa dạng kiểu gen 17
7.3.1 Đa dạng gen 18
7.3.2 Đa dạng kiểu gen 18
7.3.3 Ví dụ đo đa dạng gen và đa dạng kiểu gen 18
8. Chọn lọc tự nhiên 20
8.1. Khái niệm 20
8.2. Hai mô hình chọn lọc 20
9. Tương tác giữa các lực tiến hóa và cấu trúc di truyền của quần thể tác nhân gây bệnh 20
9.1. Tương tác giữa đột biến và chọn lọc 20
9.2. Tương tác giữa tái tổ hợp và chọn lọc 21
9.3. Tương tác giữa trôi dạt di truyền, giao lưu kiểu gen và chọn lọc 21
9.4. Tương tác giữa chọn lọc và giao lưu kiểu gen 21
9.4.1 Tương tác giữa tái tổ hợp và giao lưu gen 21
9.5. Ứng dụng di truyền quần thể để đánh giá các nguy cơ do tiến hóa của tác nhân gây bệnh 22
Chương 2. Lựa chọn vùng gen của tác nhân gây bệnh 25
1. Bộ gen của tác nhân gây bệnh 25
1.1. Bộ gen viroid 25
1.2. Bộ gen virus 25
1.3. Bộ gen vi khuẩn và phytoplasma 26
1.4. Bộ gen nấm 26
2. Chọn vùng gen nghiên cứu 26
2.1. Chọn vùng gen virus 26
2.2. DNA ribosome 27
2.2.1 Cấu trúc và chức năng RNA ribosome 27
2.2.2 Vai trò của rDNA trong phân loại và nghiên cứu đa dạng và chẩn đoán 27
2.3. Gen mã hóa 28
2.4. Các chuỗi lặp 28
2.4.1 Các chuỗi lặp liền kề (tandem repetitive sequences) 28
2.4.2 Các chuỗi lặp phân bố rải rác (Dispersed repetitive sequences) 28
2.5. DNA ti thể (mitochondrial DNA) 28
Chương 3. Các kỹ thuật CNSH trong nghiên cứu bệnh cây 28
1. Các marker di truyền 29
1.1. Định nghĩa 29
1.2. Phân loại 29
2. Các loại marker phân tử 29
3. Kỹ thuật dựa trên lai phân tử: RFLP 30
3.1. RFLP: các chú ý về kỹ thuật 30
3.1.1 RFLP: Các ưu điểm chính 30
3.1.2 RFLP: Các hạn chế chính 30
4. Các kỹ thuật dựa trên PCR 31
5. Các kỹ thuật dựa trên PCR dùng mồi tùy ý: RAPD, AP-PCR và DAF 31
5.1. RAPD 31
5.1.1 RAPD: nhược điểm 31
5.2. DAF 31
5.3. AP-PCR 32
6. Kỹ thuật dựa trên PCR dùng mồi tùy ý: AFLP 32
6.1. AFLP: các bước 32
6.2. AFLP: ưu điểm 32
6.3. AFLP: nhược điểm 32
7. Kỹ thuật dựa trên PCR dùng mồi tùy ý: ISSR 32
8. Kỹ thuật dựa trên PCR dùng mồi đặc hiêu: SSR (=Microsatellites) 33
8.1. Phân loại microsatellite 33
8.2. Đặc điểm di truyền của microsatellite 33
8.3. Cơ chế tạo đột biến của microsatellite 33
8.4. Phân bố của microsatellite 35
8.5. Trình tự phân tích microsatellite 35
8.6. Microsattelite: ưu điểm chính 37
8.7. Microsattelite: nhược điểm chính 37
9. Marker EST (expressed sequence tags) 37
10. Kỹ thuật CAPS 37
11. Kỹ thuật SNP 37
12. Kỹ thuật rep-PCR 38
13. Tóm tắt các kỹ thuật 38
Chương 4. Phân tích kết quả dựa vào số liệu băng điện di 40
1. Giới thiệu 40
2. Các bước chính trong phân tích đa dạng dựa trên băng điện di 41
2.1. Mô tả sự đa dạng 41
2.2. Tính toán mối quan hệ giữa các đơn vị được phân tích ở bước trên 41
2.3. Biểu diễn mỗi quan hệ 41
3. Lượng hóa mức đa dạng: đo đa dạng trong quần thể 41
3.1. Dựa trên số lượng biến dị 41
3.1.1 Mức đa hình hay tỷ lệ đa hình (Pj) 41
3.1.2 Tỷ lệ các locus đa hình (P) 41
3.1.3 Số allele trung bình trên locus 41
3.2. Dựa vào tần số biến dị 42
3.2.1 Số lượng allele hiệu quả (Ae) 42
3.2.2 Mức dị hợp tử kỳ vọng trung bình (H = mức đa dạng di truyền Nei (D) 42
3.3. Ví dụ tính đa dạng di truyền trong quần thể dùng 1 marker đồng trội 43
3.4. Ví dụ 43
3.4.1 Các bước tính (bảng dưới) 43
3.5. Ví dụ tính đa dạng di truyền trong quần thể dùng 1 marker trội 44
3.5.1 Ví dụ 44
3.5.2 Các bước tính (bảng dưới) 44
4. Lượng hóa mối quan hệ di truyền: khoảng cách di truyền (nghĩa rộng) 45
4.1. Đánh giá các mối quan hệ dựa theo khoảng cách hình học 46
4.1.1 Các phương pháp phổ biến tính hệ số tương đồng S (similarity) dựa trên biến nhị thức (0, 1) 46
5. Phần mềm 47
Chương 5. Phân tích đa dạng, phân loại dựa trên trình tự DNA 47
1. Các thuật ngữ/khái niệm 47
2. Giải trình tự chuỗi DNA (sequencing) 47
2.1. Giới thiệu 47
2.2. Sequencing dùng BigDye Terminator 47
3. Tìm kiếm chuỗi có quan hệ gần trên ngân hàng gen 48
3.1. Ngân hàng gen (Genbank) và NCBI 48
3.2. Tìm kiếm chuỗi DNA trên GenBank bằng phần mềm BLAST 48
4. So sánh trình tự 49
4.1. Căn trình tự đa chuỗi bằng phần mềm ClustalX 50
4.2. Xác định mức đồng nhất (sequence identity) bằng phần mềm Bioedit 50
4.3. Xác định khoảng cách di truyền (genetic distance) 51
4.3.1 Khái niệm khoảng cách di truyền phân tử 51
4.3.2 Mô hình thay thế nucleotide (subtituation model). 51
4.3.3 Ví dụ tính khoảng cách di truyền dựa trên 5 chuỗi 16S RNA vi khuẩn dùng phần mềm MEGA 53
5. Xây dựng cây phả hệ 54
5.1. Maximum parsimony 54
5.2. Maximum likelyhood 55
5.3. Phương pháp khoảng cách (Distance) 55
5.4. Ví dụ xây dựng cây phả hệ của chuỗi các chuỗi 16S RNA vi khuẩn dùng phần mềm MEGA 58
Chương 6. Công nghệ microarray (chip gen) 59
1. Giới thiệu 59
2. Các loại microarray DNA 60
2.1. Microarray với các dò oligonucleotide ngắn 60
2.2. Microarrays với dò oligonucleotide dài 60
2.3. Microarrays với dò cDNA 60
3. Các phương pháp cố định dò trong microarray DNA 60
3.1. Tổng hợp trực tiếp ngay trên giá đỡ (in situ) 60
3.2. Tạo microarray bằng spotting 60
4. Gán nhãn dò 60
4.1. Gán nhãn trực tiếp 61
4.2. Gán nhãn gián tiếp 61
4.3. Gãn nhãn dùng dendrimer 61
5. Vật liệu để cố định dò 61
6. Các phương pháp gắn dò vào lam kính 61
7. Ứng dụng microarray DNA 61
7.1. Nghiên cứu biểu hiện gen “gene expression profiling” 61
8. Chẩn đoán và nghiên cứu kiểu gen (genome typing) 62
Chương 7. Công nghệ RNA interference 62
1. Lịch sử phát hiện 62
1.1. Hiện tượng đồng ức chế 62
1.2. Hiện tượng chế ngự (quelling) 63
1.3. Hiện tượng câm gen cảm ứng bởi virus 63
1.4. RNA Interferrence 63
2. Small interfering RNA (siRNA) và microRNA (miRNA) 63
2.1. miRNAs - khám phá 63
2.2. miRNAs - định nghĩa 63
2.3. miRNAs – nguồn gốc 63
2.4. miRNAs – sinh tổng hợp 63
2.5. siRNAs - khám phá 64
2.6. siRNAs - định nghĩa 64
2.7. siRNAs – nguồn gốc 64
2.8. siRNAs – sinh tổng hợp 64
3. So sánh miRNA và siRNA 64
3.1. Giống nhau 64
3.1.1 Khác nhau 64
4. Công nghệ RNAi trong tạo giống kháng bệnh virus 64
4.1. Giới thiệu 64
4.2. Các đặc điểm chính trong công nghệ RNAi dựa trên siRNA 65
4.2.1 Thiết kế cấu trúc chuyển gen 65
4.2.2 Chọn chuỗi gen virus 66
5. Ví dụ công nghệ RNAi kháng bệnh virus 66
5.1. Tạo cây chuyển gen kháng PVY thông qua RNA silencing 66
5.1.1 Giới thiệu. 66
5.1.2 Thiết kế cấu trúc chuyển gen (hình) và chuẩn bị dòng vi khuẩn chuyển gen 67
5.1.3 Biến nạp cấu trúc chuyển gen vào cây khoai tây 67
5.1.4 Các phân tích chính cây chuyển gen 67
5.2. Tạo cây chuyển gen kháng TYLCV thông qua RNA silencing 68
5.2.1 Giới thiệu. 68
5.2.2 Thiết kế cấu trúc chuyển gen (hình) và chuẩn bị dòng vi khuẩn chuyển gen 68
5.2.3 Biến nạp cấu trúc chuyển gen vào cây khoai tây 69
5.2.4 Các phân tích chính cây chuyển gen 70
6. Sử dụng công nghệ microRNA trong phòng chống bệnh virus 70
6.1. Dùng công nghệ miRNA tạo tính kháng CMV 70
6.1.1 Giới thiệu 70
6.1.2 Thiết kế cấu trúc miRNA chuyển gen 71
6.1.3 Chuyển gen vào cây thuốc lá 73
6.1.4 Lây nhiễm nhân tạo 73
6.1.5 Đánh giá cây chuyển gen được lây nhiễm CMV dựa trên triệu chứng 73
6.1.6 Phân tích miRNA trên cây chuyển gen 73
6.1.7 Phân tích RNA của CMV trên cây lây nhiễm 73
6.1.8 Phân tích virion CMV trên cây lây nhiễm 73
Chương 8. PCR trong chẩn đoán tác nhân gây bệnh 74
1. Tóm tắt kỹ thuật 74
2. Thiết kế và lựa chọn mồi (primer) 74
2.1. Tự thiết kế mồi 75
2.1.1 Các chú ý khi thiết kế mồi 75
2.1.2 Thiết kế mồi chung (degenerate primer) 75
2.1.3 Phần mềm 76
2.2. Ví dụ mồi chung 76
Chương 9. Công nghệ huyết thanh học trong chẩn đoán 76
1. Cơ sở của phản ứng huyết thanh học 76
2.3. Các khái niệm 76
2.3.1 Kháng nguyên (antigen): 77
2.3.2 Nhóm quyết định kháng nguyên (epitope) 77
2.3.3 Kháng nguyên của tác nhân gây bệnh cây 77
2.3.4 Kháng thể (antibody) 77
2.4. Kháng thể đơn dòng và kháng thể đa dòng 78
3. Sản xuất kháng thể đơn dòng 78
3.1. Các bước chính để sản xuất kháng thể đơn dòng gồm 78
3.2. Qui trình tạo kháng thể đơn dòng 79
3.2.1 Gây miễn dịch trên thỏ 79
3.2.2 Dung hợp (lai) 79
3.2.3 Sản xuất 80
4. Kỹ thuật chẩn đoán bằng ELISA 80
4.1. Vật liệu chính cho ELISA 80
4.2. Các kỹ thuật ELISA. 80
4.2.1 Kỹ thuật ELISA trực tiếp kiểu kẹp kép kháng thể (DAS-ELISA) 81
4.2.2 Phản ứng ELISA gián tiếp kiểu bẫy kháng nguyên trước (PTA-ELISA) 81
ng mã hóa và 3’UTR.
Tần số thay đổi theo đơn vị phân loại (theo nghĩa số lượng tuyệt đối các loci microsatellite và motif của chuỗi lặp). Ở thực vật, tần số microsatellite cao ở thực vật có bộ gen nhỏ (vd 0.85% ở cây Arabidopsis) và thấp hơn ở cây có bộ gen lớn (vd 0.37% ở ngô). Tần số = 1.07% ở nhiễm sắc thể 22 của người và 0.21% ở tuyến trùng Caernorhabditis elegans.
Trình tự phân tích microsatellite
Thực hiện một phân tích microsatellite không đơn giản như đối với các phân tích dùng mồi ngẫu nhiên hoặc ISSR. Có nhiều kỹ thuật microsatellite khác nhau nhưng phổ biến nhất là PCR sử dụng 2 mồi F và R được thiết kế ở một locus bảo thủ ở 2 phía của của microsatellite. Như vậy cặp mồi này có thể được áp dụng cho mọi cá thể của loài và tạo ra sản phẩm PCR có kích thước khác nhau nếu microsatellite của các cá thể là khác nhau (hình ). Tuy nhiên để có được bộ mồi thích hợp không hề dễ dàng vì microsatellite phải được phân lập trước.
Hình Phát hiện microsatellites từ DNA genome. Hai mồi F và R (mũi tên xám) được thiết kế ở 2 bên vùng microsatellite. Nếu không có microsatellite => có sản phẩm 100 bp. Giả sử có một microsatellite với chuỗi lặp CA và n = 8 (dài 16 bp) thì sản phẩm PCR có kích thước = 116 bp.
Các bước chính trong phân tích microsatellite bao gồm
Xây dựng thư viện microsatellite
Xác định loci microsatellite duy nhất
Xác định vùng thích hợp để thiết kế mồi
Thử PCR
Đánh giá và diễn giải các băng
Đánh giá sản phẩm PCR tao sự đa hình.
Xây dựng thư viện microsatellite. Đây là bước phức tạp, tốn công sức nhất. Các bước cụ thể gồm:
Tinh chiết DNA genomic
Cắt sản phẩm DNA genome bằng RE.
Điện di sản phẩm cắt bằng agarose nồng độ thấp (khoảng 0.7%). Chọn vùng điện di chứa các băng trong khoảng 300 – 700 bp. Tinh chiết các băng khỏi gel agarose.
Clone các băng (dùng TA vector hoặc adapter) vào E.coli.
Chọn lọc các clone (+, có khả năng chứa microsatellite) bằng Southen blot với dò chứa các chuỗi lặp.
Giải trình tự các clon +.
Sau khi đã biết trình tự các clone, các mồi đặc hiệu sẽ được thiết kế và thử PCR.
Vì xây dựng thư viện microsatellite theo phương pháp truyền thống rất tốn công sức (có thể mất 1 tháng để hoàn thành), hơn nữa năng suất lại không cao nên đã có nhiều kỹ thuật khác được áp dụng. Chẳng hạn, trong một kỹ thuật gọi là PIMA (PCR isolation of microsatellite arrays), thay vì cắt sản phẩm DNA genome và clone, người ta thực hiện RAPD dùng mồi ngẫu nhiên. Các sản phẩm RAPD được clone và kiểm tra bằng mồi đặc hiệu chuỗi lặp và mồi đặc hiệu vector. Kỹ thuật PIMA dựa trên cơ sở là các sản phẩm RAPD thường chứa nhiều microsatellite hơn các sản phẩm cắt ngẫu nhiên. Kỹ thuật PIMA có thể giảm thời gian xuống còn 1 tuần.
Hình. Sơ đồ trình bày các bước thiết lập marker microsatellite. Bên trái là sơ đồ truyền thống và bên phải là sơ đồ PIMA (Zane et al., 2002).
Bước tiếp theo là chọn các marker satellite tốt nhất và tối ưu hóa điều kiện phản ứng PCR. Mục tiêu là để cân bằng giữa giữa yêu cầu đặc hiệu cao và năng suất của sản phẩm PCR. Ngoài ra còn cần phải xét đến khả năng nhận được sản phẩm từ nhiều loci microsatelitte khác nhau với kích thước không trùm (overlap) lên nhau. Hiệu quả của microsatellite phụ thuộc vào sự phong phú của các chuỗi lặp vì càng nhiều chuỗi lặp khác nhau thì càng dễ chọn lựa marker thích hợp.
Nhìn chung, các nhà nghiên cứu thích dùng các mồi nhằm vào các đoạn microsatellite với 3 hoặc 4 nts lặp (để tránh hiện tượng hình thành các băng “stutters” thường bắt gặp ở các microsatellite 2 nts).
Microsattelite: ưu điểm chính
Là marker đồng trội => cực kỳ tuyệt vời cho phân tích di truyền quần thể đối với các sinh vật giao phối.
Có thể tự động hóa nếu mồi được gán nhãn huỳnh quang và được phân tích trên máy sequencer tự động.
Nếu bộ mồi đã được lựa chọn thì việc áp dụng tương đối dễ dàng.
Microsattelite: nhược điểm chính
Như đã trình bày, việc xây dựng thư viện microsattelite và chọn lựa mồi thích hợp là cực kỳ tốn kém công sức và tiền bạc.
Các sản phẩm PCR trong phân tích microsatellite thường có kích thước nhỏ (một vài trăm bp) và chênh lêch kích thước nhiều khi không nhiều dẫn tới phải điện di agarose nồng độ cao (~3 %) hoặc điện di polyacrylamide hoặc phân tích dùng máy sequencer tự động (đắt).
Marker EST (expressed sequence tags)
Mỗi gen phải được phiên mã sang messenger RNA (mRNA) trước khi dịch mã sang protein. Tuy nhiên vì mRNA rất không bền bên ngoài tế bào nên các nhà khoa học phải chuyển nó sang dạng DNA bổ trợ (cDNA = complementary DNA). Ngay sau khi cDNA đã được phân lập, các nhà khoa học có thể giải trình tự vài trăm nts đầu 5’ và đầu 3’ của nó để tạo ra các nhãn chuỗi biểu hiện 5’ETS hoặc 3’ ETS (expressed sequence tags). 3’ETS thường nằm trong vùng không mã hóa (intron) hoặc UTR nên có xu hướng kém bảo thủ giữa các loài hơn.
EST đầu tiên được sử dụng để xác định các transcripts nhưng dần trở thành công cụ để khám phá gen nhằm có được thông tin về biểu hiện và điều hòa gen và để phát triển các marker phân tử như EST-based RFLPs, SSRs, SNPs, và CAPS.
ESTs đã được sử dụng để thiết kế các dò cho microarray DNA; phát triển các marker RFLP đơn hay có số copy thấp. Các marker RFLP xây dựng từ EST đã được sử dụng rộng rãi để xây dựng các bản đồ liên kết di truyền mật độ cao. Thông thường, các marker RFLP dựa trên EST cho phép thiết lập bản đồ liên kết có khả năng so sánh giữa các loài vì vùng mã hóa thường bảo thủ. Do vậy, phát triển một marker cho 1 loài có thể sử dụng sô liệu của loài khác đã có sẵn.
EST cũng cho phép tính toán để phát triển các marker SSR hay SNP. Các phần mềm tìm kiếm mô hình (pattern) cho phép xác định các chuỗi lặp SSR trong EST. Thông tin trình tự nucleotide sẵn có cho phép thiết kế các cặp mồi để kiểm tra tính đa hình của đối tượng nghiên cứu. Khoảng 1 -5% các EST ở nhiều loài cây có các SSR có độ dài thích hợp (>=20 bp). Có thể tìm một số lượng lớn SSR của một đối tượng nếu nhiều EST của nó đã được xác định. Ví dụ Kantety et al. (2002) đã tiềm kiếm các SSR với chuỗi lặp 2,3 và 4 nucleotid với độ dài tối thiểu 18 nucleotid) từ 262,631 EST của 5 loài cây (ngô, lúa, lúa mỳ, lúa miến và yến mạch) sẵn có trên cơ sở dữ liệu và phát hiện thấy rằng 3,2% EST chứa SSR. Các SSR dựa trên EST thường liên kết với các vùng phiên mã bảo thủ trong loài hơn là liên kết với các vùng không phiên mã; do đó, các SSR này có thể áp dụng trên các đối tượng thuộc cùng chi. Các SSR dựa trên EST cũng có khả năng cao hơn trong đánh giá sự biểu hiện khác nhau của gen so với các SSR dựa trên genome ngẫu nhiễn khác.
Kỹ thuật CAPS
CAPS (cleaved amplified polymorphic sequence) là một kỹ thuật kết hợp giữa PCR và RFLP nên còn có tên nguyên thủy là PCR-RFLP. Kỹ thuật rất đơn giản và gồm 2 bước: (1) PCR để nhân một đoạn genome quan tâm và (2) tiếp theo, dùng RE thích hợp để cắt sản phẩm PCR. Do vậy, CAPS phụ thuộc vào mô hình cắt bằng RE.
Ưu điểm
Đơn giản: chỉ PCR và cắt bằng RE (không cần phát triển dò và lai phân tử như RFLP)
Chủ yếu di truyền đồng trội.
Nhược điểm
Khả năng phát hiện đa hình DNA không cao bằng SSR và AFLP vì mức đa hình chỉ phụ thuộc vào sự thay đổi trình tự tại vị trí nhận biết của RE trên sản phẩm PCR.
Kỹ thuật SNP
Đơn vị cấu trúc nhỏ nhất của bộ genome là nucleotide. Có 4 loại nucleotide là A, G, C, T. Một đa hình nucleotide đơn (SNP, single nucleotide polymorphism) hình thành ở một vị trí nucleotide, và một loại nucleotide ở vị trí này được gọi là một allele. Ví dụ, có 2 đoạn DNA CCACGTT và CCATGTT, trong đó có 2 nucleotide khác nhau ở vị trí thứ tư là C và T; trong trường hợp này chúng ta gọi SNP có 2 allele. Mặc dù sự đa hình có thể gồm 2, 3 hay 4 allele các SNP 3 hay 4 allele là cực kỳ hiếm. Do vậy, nhìn chung SNP được xem như là đa hình 2 allele.
Để sai khác trở thành một SNP nó phải có tần số > 1%. Một locus SNP được gọi là đồng hợp tử khi 2 allele giống nhau và dị hợp tử khi 2 allele khác nhau. Allelle có tần số cao hơn được gọi là hoang dại (wildtype) còn allele kia được gọi là đột biến.
Vì số lượng SNP khá phong phú và phân bố đều khắp bộ gen của nhiều sinh vật (Vd ở bộ gen lúa, trung bình cứ 170 bp có 1 SNP) nên SNP đã trở thành 1 công cụ phân tích di truyền hấp dẫn.
Vì marker SNP chỉ là sự sai khác của 1 bp nên trái với các loại marker khác, người ta không thể phân biệt được allele trên cơ sở so sánh kích thước băng điện di. Có nhiều phương pháp genotyping dựa trên SNP và tất cả các phương pháp đều gồm 2 phần: (1) tạo một sản phẩm đặc hiệu allele và (2) phân tích sản phẩm đó. Phần lớn các phương pháp thuộc 1 trong 4 nhóm sau:
Các kỹ thuật lai trực tiếp đặc hiệu allele. Dựa trên khả năng phân biệt 2 chuỗi DNA khác nhau chỉ bởi 1 nucleotide bằng lai DNA. Hai dò đặc hiệu allele sẽ được thiết kế, thường với một nucleotide đa hình ở giữa. Dưới điều kiện lai hóa đã được tối ưu hóa, chỉ các tổ hợp lai khớp nhau hoàn hảo mới ổn định. Phần lớn các lớn các kỹ thuật lai là Dot Blot trong đó DNA thử (genome, cDNA hay sản phẩm PCR) được cố đinh trên màng và được lai hóa với dò (thường là oligonucleotide). Trong kỹ thuật Dot Blot đảo, dò sẽ được cố định trước lên màng. Nhìn chung, kỹ thuật lai hóa dễ mắc lỗi nên cần phải thiết kế dò cẩn thận và chuẩn điều kiện lai. Cải tiến mới nhất đối với nhóm kỹ thuật lai là dùng microarray (xem phần).
Các kỹ thuật kéo dài mồi. Có 3 nhóm chính:
Minisequencing. Nucleotide đa hình được xác định bằng cách thêm một dideoxynucleotid triphosphate (ddNTP).
Kéo dài mồi đặc hiệu allele. Mồi chỉ được tổng hợp tiếp nếu khớp hoàn hảo với khuôn (chú ý đầu 3’ của mồi).
Pyrosequencing. Là kỹ thuật sequencing dựa trên sự phát hiện pyrophosphate giải phóng ra trong quá trình sequencing.
Các kỹ thuật nối oligonucleotid. Hai dò oligonucleotid được thiết kế: một dò một dò đặc hiệu allele (đầu 3’ của nó là ở vị trí đa hình) và một dò kế tiếp phía hạ lưu. Khi lai hóa 2 dò lên chuỗi thử, nếu không có mismat ở vị trí đa hình, đầu 3’ của dò đặc hiệu allele sẽ được nối với đầu 5’ của dò thứ 2.
Các kỹ thuật cắt dò. Hai dò oligonucleotide được thiết kế: dò 1 (dò xâm nhập) tương đồng phần 3’ tính từ vị trí đa hình của chuỗi thử (đầu 3’ của dò là 1 nucleotide không khớp (non-matching) với nucleotide đa hình của của chuỗi thử). Dò 2 là dò đặc hiệu allele, được thiết kế gối qua vị trí đa hình khoảng vài nucleotide. Khi lai với chuỗi thử, nếu không có mismatch, hai dò sẽ tạo ra một cấu trúc 3 hướng và 1 cleavase sẽ nhận biết được cấu trúc này và cắt phần gối của dò đặc hiệu allele. Phần bị cắ này thường được gắn với một nhãn huỳnh quang và phát huỳnh quang khi được giải phóng khỏi dò.
Kỹ thuật rep-PCR
Rep-PCR (repetitive sequence primed PCR) là 1 kỹ thuật PCR fingerprinting rất hiệu quả để nghiên cứu đa dạng các loài vi khuẩn. Kỹ thuật sử dụng các mồi được thiết kế dựa trên các chuỗi lặp trên bộ gen vi khuẩn như: Các chuỗi lặp đối song vùng không mã hóa (REP, repetitive extragenic palindromic) có kích thước 35 - 40 bp, các chuỗi lặp bảo thủ vùng liên gen (ERIC, enterobacterial repetitive intergenic consensus) có kích thước 124 - 127 bp, chuỗi BOX có kích thước 54-bp.
Phản ứng PCR sử dụng các mồi này được gọi cụ thể là REP-PCR, ERIC-PCR và BOX-PCR.
Mặc dù Gillings & olley (1997) đã chứng minh rằng các chuỗi lặp này không có ở bộ gen eukaryote nhưng kỹ thuật này cũng có thể được áp dụng để nghiên cứu đa dạng nhiều loài nấm gây bệnh cây. Các mồi rep-PCR trong trường hợp nghiên cứu nấm, như vậy, đóng vai trò như các mồi ngẫu nhiên giống như trong kỹ thuật RAPD.
Bảng: các mồi được sử dụng trong rep-PCR
Mồi
Trình tự
Tham khảo
BOX A1R
5'-CTACggCAAggCgACgCTgACg-3'
Versalovic et al. 1994
ERIC 1R
5'-ATgTAAgCTCCTggggATTCAC-3'
Versalovic et al. 1991
ERIC 2
5'-AAgTAAgTgACTggggTgAgCg-3'
Versalovic et al. 1991
REP 1R
5'-IIIICgICgICATCIggC-3'
Versalovic et al. 1991
REP 2I
5'-ICgICTTATCIggCCTAC-3'
Versalovic et al. 1991
Tóm tắt các kỹ thuật
Thử thách đối với nhà nghiên cứu là làm sao chọn một hoặc vài kỹ thuật phù hợp với mục tiêu nghiên cứu của mình. Các đặc điểm mong muốn của một marker phân tử tốt là: một mặt có tính đa hình cao, di truyền đồng trội (phân biệt được cả đồng hợp tử và dị hợp tử), xuất hiện thường xuyên và phân bố đồng đều trên bộ gen, chọn lọc trung tính; nhưng mặt khác lại phải dễ tiếp cận, chi phí thấp, dễ thực hiện, có khả năng áp dụng với kết quả thống nhất giữa các phòng thí nghiệm. Không có một marker phân tử nào hiện nay có thể đáp ứng được các yêu cầu này, tuy nhiên người ta vẫn có thể chọn được các kỹ thuật mong muốn tùy đều kiện. Các yếu tố cần xét khi lựa chọn là
Hệ thống marker sẵn có.
Tính đơn giản và thời gian thực hiện của kỹ thuật.
Mức đa hình yêu cầu của đối tượng nghiên cứu
Chất lượng và số lượng DNA của đối tượng nghiên cứu
Kỹ năng và trang thiết bị
Kinh phí của nghiên cứu.
Tính di truyền của marker trong đối tượng nghiên cứu (trội hay đồng trội)
Loại thông tin di truyền cần biết
Ví dụ, xét về điều kiện kinh tế, các kỹ thuật dựa trên microarray và sequencing (như SNP) hiện nay có lẽ không dễ thực hiện tại các quốc gia đang phát triển như Việt Nam.
Xét về mức sẵn có của trình tự gen, các marker dựa trên EST như EST-SSR, EST-CAPS và EST-RFLP chỉ có thể áp dụng cho các loài mà các chuỗi EST đã được xác đinh trước (sẵn có trên ngân hàng gen)
Nhìn chung các kỹ thuật như RFLP, SSR, RAPD, AFLP, ISSR và rep-PCR có thể được áp dụng cho nhiều đối tượng trong điều kiện Việt Nam.
Các bảng dưới đây mô tả đặc điểm một số kỹ thuật/marker phổ biến
Mức phân biệt trông nghiên cứu đa dạng và phân loại một số kỹ thuật/marker phân tử
Loại phân tích
Mức phân biệt
RAPD
Cá thể, nhóm dưới loài
SSR (Microsatellite)
Cá thể, nhóm dưới loài, loài gần gũi (một số)
AFLP
Cá thể, nhóm dưới loài, loài gần gũi
RFLP dựa trên mtDNA
Nhóm dưới loài, loài gần gũi
RFLP dựa trên vùng ITS/IGS
Loài gần gũi, nhóm dưới loài
Sequencing vùng ITS
Loài gần gũi, nhóm dưới loài (một số)
Sequencing vùng rRNA
Ngành (phylum), họ, chi, loài
Các gen mã hóa protein cấu trúc/chức năng
Ngành (phylum), họ, chi, loài, dưới loài (một số)
Bảng. Đặc điểm một số kỹ thuật/marker phân tử
RFLP
Microsatellite
RAPD
AFLP
ISSR
Mức phong phú trên bộ gen
Cao
Trung bình
Rất cao
Rất cao
Trung bình
Phần gen được khảo sat
Các vùng mã hóa có số copy thấp
Toàn bộ genome
Toàn bô genome
Toàn bộ genome
Toàn bộ genome
Lượng DNA yêu cầu
Cao
Thấp
Thấp
Trung bình
Thấp
Chất lượng DNA yêu cầu
Cao
Trung bình
Trung bình
Cao
Trung bình
Loại đa hình
Các thay đổi, thêm, mất nucleotide đơn
Các thay đổi độ dài đoạn lặp
Các thay đổi, thêm, mất nucleotide đơn
Các thay đổi, thêm, mất nucleotide đơn
Các thay đổi, thêm, mất nucleotide đơn
Mức đa hinh*
Trung bình
Cao
Cao
Rất cao
Cao
Di truyền của marker
Đồng trội
Đồng trội
Trội
Trội
Trội
Phát hiện allele
Có
Có
Không
Không
Không
Dễ sử dụng
Rất nhiều bước
Dễ
Dễ
Lúc đầu khó
Dễ
Khả năng tự động
Thấp
Cao
Trung bình
Trung bình
Trung bình
Tính lặp lại (độ tin cậy)
Cao
Cao
Trung bình
Cao
Trung bình – Cao
Loại dò/mồi
DNA genome có số copy thấp hoặc clone cDNA
Các chuỗi DNA lặp đặc hiệu
Thường dài 10 nts (ngẫu nhiên)
Các chuỗi đặc hiệu
Các chuỗi DNA lặp đặc hiệu
Cloning và/hoặc sequencing
Có
Có
Không
Không
Không
Phát hiện dùng bức xạ
Có/không
Không
Không
Có/Không
Không
Chi phí khởi đầu
Cao
Cao
Thấp
Trung bình
Trung bình
Hiện trạng bản quyền
Không
Không (một số có)
Có
Có
Không
Chương 4. Phân tích kết quả dựa vào số liệu băng điện di
Giới thiệu
Các loại marker phân tử khác nhau sẽ cho các kết quả điện di khác nhau. Ví dụ kỹ thuật RFLP và một số kỹ thuật fingerprinting khác như microsatellite (SSR) nhìn chung sẽ tạo các băng điện di đơn, thường từ 1 – 20 băng. Các băng này có thể dễ dàng chuyển sang dạng số liệu nhị nguyên (có băng = 1, không có băng = 0). Dựa trên số liệu này, người ta có thể tính toán mức tương đồng di truyền S (xem các công thức tính hệ số tương đồng) và khoảng cách di truyền D (=1-S), cuối cùng là xây dựng một cây phả hệ thường thông qua phân tích cụm.
Phân tích dựa trên băng điện di giống nhau cho 2 nhóm phân tích.
Nhóm 1 thường tạo ít băng (điển hình RFLP, microsatellite, ISSR)
Nhóm 2 thường tạo rất nhiều băng phức tạp (điển hình AFLP, rep-PCR). Mặc dù các băng có thể được đánh giá và ghi bằng tay thì thông thường người ta dùng một 1 phần mềm hình ảnh để scan các băng, điều chỉnh, chọn lựa và chuyển sang dạng số liệu nhị thức.
Vd phần mềm CrossChecker (miễn phí):
Vd phần mềm GelcomparII (thương mại):
Hình. Biến dị allele trong phân tích microsatellite đối với nấm đạo ôn lúa (Pyricularia oryzae. (Prondani et al. 2000). Một ví dụ về mô hình băng điện di đơn giản
Hình Đa dạng gen trong phâ tích rep-PCR đối với vi khuẩn Xanthomonas oryzae (Cruz et al 1996). Một ví dụ về mô hình băng điện di phức tạp.
Các bước chính trong phân tích đa dạng dựa trên băng điện di
Mô tả sự đa dạng
Việc mô tả sự đa dạng có thể được thực hiện giữa các cá thể trong quần thể, giữa các quần thể trong một khu vự với nhau, thậm chí giữa các đơn vị quần thể lớn hơn nhiều (ví du gữa các vùng thuộc các lục địa khác nhau).
Locus
Cá thể /quần thể
1
2
3
4
5
6
Số liệu marker
A
1
0
1
1
0
1
B
1
0
0
0
1
1
C
0
1
1
0
1
0
D
1
0
0
0
1
1
E
0
0
1
1
0
0
F
1
1
1
0
0
0
G
1
0
1
0
1
1
Tính toán mối quan hệ giữa các đơn vị được phân tích ở bước trên
Bước này chủ yếu tính khoảng cách di truyền giữa các cặp đơn vị phân tích.
Ví dụ. Khoảng cách di truyền giữa các cá thể
1
2
3
4
5
6
1
0
2
0.56
0
3
0.33
0.33
0
4
0.47
0.26
0.50
0
5
0.32
0.43
0.37
0.28
0
6
0.33
0.56
0.56
0.37
0.46
0
Biểu diễn mỗi quan hệ
Biểu diễn mối quan hệ bằng các phương pháp khác nhau (ví dụ vẽ cây phả hệ…)
Cá thể 5
Cá thể 3
Cá thể 6
Cá thể 4
Cá thể 2
Cá thể 1
Hình. Cây phả hệ thể hiện mối quan hệ giữa các cá thể ở trên.
Lượng hóa mức đa dạng: đo đa dạng trong quần thể
Dựa trên số lượng biến dị
Mức đa hình hay tỷ lệ đa hình (Pj)
Một gen được xem là đa hình nếu tần số của một trong các allele của nó ≤ 0.95 hoặc 0.99
Pj = q ≤ 0.95 hoặc Pj = q ≤ 0.99
Trong đó,
Pj = tỷ lệ đa hình
q = tần số allele
Pj chủ yếu được sử dung với các marker đồng trội vì các marker trội có thể bỏ qua các biến dị hợp tử.
Một gen đa hình thường là gen mà allele phổ biến nhất của nó có tần số ≤ 0.95 . Các allele hiếm của nó có thể có tần số ≤ 0.005. Đặt giới hạn tần số 0.95 hay 0.99 là tùy ý.
Tỷ lệ các locus đa hình (P)
Tỷ lệ locus đa hình được tính theo công thức đơn giản sau:
Trong đó,
P = tỷ lệ các locus đa hình
npj = số lượng các locus đa hình
ntotal = tổng số locus nghiên cứu
P biểu diễn phần trăm các locus đa hình trong quần thể, được tính toán dựa trên đếm trực tiếp các locus đa hình và tổng số locus nghiên cứu.
P chủ yếu được sử dụng cho các loại marker đồng trội
Số allele trung bình trên locus
Số allele trung bình trên locus cung cấp thông tin về mức độ đa dạng của quần thể. Nó được tính bằng công thức đơn giản sau:
Trong đó,
n = số allele trung bình trên locus
K = tổng số locus
ni = tổng số allele phát hiện thấy ở locus thứ i
Số allele trung bình trên locus được sử dụng với các marker đồng trội vì marker trội không cho phép phát hiện tất cả các allele.
Dựa vào tần số biến dị
Số lượng allele hiệu quả (Ae)
Số lượng allele hiệu quả cho biết số allele có thể có mặt ở một locus trong quần thể và được tính theo công thức sau
Trong đó,
pi = tần số của allele thứ i ở một locus
h = 1 – Σpi2 (mức dị hợp tử (heterozygosity) tại một locus)
Số lượng allele hiệu quả có thể được sử dụng với các marker đồng trội
Giá trị của nó bị ảnh hưởng bởi kích thước mẫu thử, do vậy nó có ý nghĩa trong chọn lựa cách lấy mẫu. Ví dụ, chúng ta tính Ae trong một mẫu, sau đó ta tính Ae của một mẫu thứ 2 hoặc toàn bộ mẫu. Nếu số liệu lần thứ 2 nhỏ hơn lần thứ nhất thì có lẽ chúng ta phải lấy lại mẫu.
Ví dụ tính số lượng allele hiệu quả Ae
Locus (A, B, C)
Quần thể 1
Quần thể 2
Cá thể 1
A1 A1
B1 B1
C1 C1
A1 A1
B1 B3
C1 C1
Cá thể 2
A1 A2
B1 B2
C2 C2
A1 A1
B2 B3
C1 C1
Cá thể 3
A1 A1
B1 B1
C1 C3
A2 A2
B1 B4
C1 C1
Cá thể 4
A1 A3
B1 B3
C2 C3
A2 A2
B1 B1
C1 C1
Cá thể 5
A3 A3
B3 B3
C3 C3
A1 A2
B4 B4
C1 C1
Số allele
3
3
3
2
4
1
Tần số allele 1
0.60
0.60
0.30
0.50
0.40
0.10
Tần số allele 2
0.10
0.10
0.30
0.50
0.10
0.00
Tần số allele 3
0.30
0.30
0.40
-
0.20
0.00
Tần số allele 4
-
-
-
-
0.30
-
Mức dị hợp tử (h)
0.54
0.54
0.66
0.50
0.70
0.00
Số allele hiệu quả (Ae)
2.17
2.17
2.94
2.00
3.33
1.00
Mức dị hợp tử kỳ vọng trung bình (H = mức đa dạng di truyền Nei (D)
Mức đa dạng di truyền Nei là xác suất để 2 allele bất kỳ tại một locus được lấy ngẫu nhiên trong quần thể là khác nhau.
Có 3 cách tính :
(khi một locus chỉ có 2 allele)
(khi một locus thứ j có i allele)
(khi tính trung bình cho tất cả các locus
Trong đó,
hj = mức dị hợp tử (heterozygosity) trên locus
p và q = các tần số allele
H = mức dị hợp tử (heterozygosity) trung bình trên nhiều locus
L = tổng số locus
H là một ước lượng mức độ biến dị di truyền trong quần thể, được tính bằng cách lấy 1 trừ tần số đồng hợp tử tại 1 locus. Quá trình được lặp lại cho tất cả các locus và được lấy trung bình.
H có thể được áp dụng cho cả 2 loại marker (trội và đồng trội).
H có giá trị từ 0 đến 1
H đạt giá trị tối đa khi tất cả các allele có tần số bằng nhau.
Để đảm bảo ý nghĩa thống kê, nên phân tích khoảng 30 locus / 20 cá thể /quần thể.
Ví dụ tính đa dạng di truyền trong quần thể dùng 1 marker đồng trội
Ví dụ
Nửa trên của hình là một sơ đồ gel với 30 cá thể được phân tích với môt marker đồng trội (ví dụ RFLP hoặc SSR). Marker này phát hiện 5 locus là A, B, C, D và E. Trong số các locus này, chỉ có 3 locus là đa hình (A, B và E). Để đơn giản, chúng ta giả sử chỉ có tối đa 2 allele / locus.
Nửa dưới của hình là kết quả ghi điểm các băng cho mỗi cá thể và mỗi locus. Chú ý là các băng thuộc locus C và D cũng được ghi điểm mặc dù điều này không cần thiết vì chúng không tạo ra sự đa dạng.
Ví dụ cá thể 1 và 2 sẽ có số liệu sau:
Cá thể 1: 1101101001
Cá thể 2: 0101101011
Các bước tính (bảng dưới)
Đầu tiên, chúng ta để ý thấy rằng các locus A, B và E là đa hình vì chúng có tần số allele nhỏ hơn 0.99. Trái lại, locus C và D là đơn hình (monomorphic) vì chúng có các tần số allele = 1. Chú ý các chữ viết tắt: exp. = expected value; obs. = observed value.
Tỷ lệ các locus đa hình (P) = 3/5 = 0.6 hay 60%.
Để tính mức dị hợp tử trung bình quan sát (Ho ), chúng ta:
Đếm số locus dị hợp tử. Ví dụ: cá thể 1 có có 1 locus dị hợp tử (A), cá thể 2 có 1 locus dị hợp tử (E), cá thể 27 có 2 locus dị hợp tử (A và E),….Tổng số, chúng ta có 16 cá thể đơn hình (tức là chỉ có 1 băng ở tất cả 5 locus), 13 cá thể có 1 locus dị hợp tử và 1 cá thể có 2 locus dị hợp tử.
Tính mức dị hợp tử quan sát (Ho = observated heterozygosity): Ho = [16(0/5) + 13(1/5) + 1(2/5)]/(30) = 0.1
Mức đa dạng gen trong nội bộ quần thể (hj) được tính cho mỗi locus theo công thức ở hàng trên của bảng (như vậy, có thể gọi hj là mức đa dạng gen trong nội bộ locus) . Kết quả, hj của của locus A = 0.23, của locus B = 0.41 và của locus E = 0.46.
Mức đa dạng gen trung bình (Hi) (i = intrapopulation = nội bộ quần thể) được tính theo công thức là: Hi = (0.23 + 0.41 + 0.46)/5 = 0.22
Bang. Tính một số chỉ số đa dạng quần thể từ ví dụ trên
Locus
Số liệu phân tích
Tần số allele
hj = 1 – p2 –q2
Hi
A
Kiểu gen
A1A1
A1A2
A2A2
Tổng
p
q
0.22
Tần số gen (exp.)
p2
2pq
q2
1
Số cá thể
2
4
24
30
Tần số gen (obs.)
P11 = 0.07
P12 = 0.13
P22 = 0.80
1
0.13
0.87
0.23
B
Kiểu gen
B1B1
B1B2
B2B2
Tổng
p
q
Tần số gen (exp.)
p2
2pq
q2
1
Số cá thể
7
3
20
30
Tần số gen (obs.)
P11 = 0.23
P12 = 0.10
P22 = 0.67
1
0.28
0.72
0.41
E
Kiểu gen
E1E1
E1E2
E2E2
Tổng
p
q
Tần số gen (exp.)
p2
2pq
q2
1
Số cá thể
15
8
7
30
Tần số gen (obs.)
P11 = 0.50
P12 = 0.27
P22 = 0.23
1
0.63
0.37
0.46
Ví dụ tính đa dạng di truyền trong quần thể dùng 1 marker trội
Ví dụ
Nửa trên của hình là một sơ đồ gel với 30 cá thể được phân tích với môt marker trội (ví dụ AFLP hoặc ISSR). Marker này phát hiện 5 locus là A, B, C, D và E. Trong số các locus này, chỉ có 3 locus là đa hình (A, B và E). Tương tự như ở ví dụ marker đồng trội, để đơn giản, chúng ta giả sử chỉ có tối đa 2 allele / locus.
Nửa dưới của hình là kết quả ghi điểm các băng cho mỗi cá thể và mỗi locus. Chú ý, vì là marker trội nên các băng sẽ được ghi điểm là 1 nếu có mặt hoặc 0 nếu không có mặt. Các băng ở locus C và D (locus đơn hình) có thể không cần ghi điểm hoặc nếu có ghi thì chúng nhận giá trị 1 cho tất cả các cá thể.
Ví dụ cá thể 1 và 2 sẽ có số liệu sau:
Cá thể 1: 100 (hoặc 10110)
Cá thể 2: 001 (hoặc 00111)
Các bước tính (bảng dưới)
Đầu tiên, chúng ta thấy rằng các locus A, B và E là đa hình vì chúng có tần số allele nhỏ hơn 0.99. Trái lại, locus C và D là đơn hình (monomorphic) vì chúng có các tần số allele = 1. Chú ý các chữ viết tắt: exp. = expected value; obs. = observed value.
Tỷ lệ các locus đa hình (P) = 3/5 = 0.6 hay 60%. Mức dị hợp tử trung bình He khôn