DANH MỤC BẢNG. iii
DANH MỤC HÌNH .iv
DANH MỤC TỪ VIẾT TẮT.v
MỞ ĐẦU.1
CHƯƠNG 1. TỔNG QUAN.2
1.1. Giới thiệu về giống lợn Ỉ.2
1.1.1. Nguồn gốc giống vật nuôi .2
1.1.2. Giống lợn nhà (Sus scrofa) .2
1.1.3. Giống lợn Ỉ .3
1.2. Tầm quan trọng của các nghiên cứu về lợn tại Việt Nam .6
1.3. Marker trong nghiên cứu đa dạng di truyền .7
1.3.1. Cấu trúc hệ gen ty thể.9
1.3.2. Ty thể trong nghiên cứu đa dạng di truyền .10
1.4. PhƯơng pháp giải trình tự Sanger .12
1.5. PhƯơng pháp phân tích sự chủng loại phát sinh .17
1.5.1. Cây chủng loại phát sinh.17
1.5.2. Phương pháp Bayesian.19
CHƯƠNG 2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP .21
2.1. Đối tƯợng .21
2.2. Vật liệu và trang thiết bị .21
2.3. PhƯơng pháp .21
2.3.1. Thu mẫu.21
2.3.2. Tách chiết mẫu DNA tổng số (với nguồn mẫu là máu).21
2.3.3. Thiết kế mồi .22
2.3.4. Khuếch đại trình tự hệ gen ty thể bằng kỹ thuật PCR.23
2.3.5. Giải trình tự trên máy ABI 3500 .24
39 trang |
Chia sẻ: anan10 | Lượt xem: 564 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Xác định và phân tích trình tự hệ gene ty thể hoàn chỉnh của giống lợn ỉ tại Việt Nam, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ng tục tập quán của các dân tộc thiểu số, nhƣ các
ngày lễ hội đón năm mới hay các dịp đặc biệt trong suốt một năm [35].
Số lƣợng lợn tại Việt Nam trong những năm gần đây đã tăng lên nhanh chóng.
Năm 2001, số lƣợng lợn đƣợc nuôi là khoảng 21,8 triệu con, và đạt xấp xỉ 24,7 triệu
con vào năm 2005, tăng bình quân 6,3% một năm. Năm 2005, 2,3 triệu tấn thịt lợn
đƣợc tạo ra, và 2006 là 2,4 triệu tấn, chiếm lần lƣợt 81% và 71,5% tổng sản lƣợng thịt
của các năm tƣơng ứng [71]. Hơn 90% lƣợng thịt lợn đƣợc cung cấp trong nƣớc bởi
các hộ nông dân và hơn 98% các hộ gia đình Việt Nam tiêu thụ sản phẩm thịt lợn [6].
Luận văn thạc sĩ
Nguyễn Đức Hiếu 7 K23 Sinh học thực nghiệm
Đặc biệt là tại các hộ gia đình ở các tỉnh miền núi, phần lớn các hộ đều sử dụng chính
sản phẩm thịt họ nuôi.
Một số nghiên cứu đã đƣợc tiến hành để đánh giá hiệu suất của các giống lợn tại
các trang trại và các trung tâm giống về các giống ngoại lai, các giống lai và một số đặc
điểm của các giống bản địa nhƣ khả năng sinh sản, sinh trƣởng, cũng nhƣ phần trăm
thịt nạc [2-4]. Do điều kiện chăn nuôi nhỏ, hiệu suất của chăn nuôi lợn tại Việt Nam
nhìn chung vẫn ở mức thấp.
Những thông tin di truyền về các giống lợn bản địa Việt Nam còn khá hạn chế.
Mặc dù việc phân biệt các giống bản địa Việt Nam có thể đƣợc thực hiện thông qua các
đặc điểm hình thái rất riêng biệt của chúng, nhƣng thông tin về di truyền vẫn hết sức
quan trọng. Chúng giúp kiểm soát tốt hơn, chính xác hơn các giống và có thể tìm ra
mối liên hệ giữa chúng với các tính trạng quý. Ngoài ra, những nghiên cứu đánh giá
năng suất, chất lƣợng thịt và liên hệ chúng với sự đa dạng di truyền của các giống lợn
vẫn chƣa đƣợc thực hiện nhiều ở Việt Nam.
1.3. Marker trong nghiên cứu đa dạng di truyền
Việc áp dụng di truyền phân tử trong nghiên cứu đa dạng di truyền có thể tác
động lớn tới hiểu biết của chúng ta về những sự kiện đã từng diễn ra. Cụ thể, các
nghiên cứu gần đây cho phép tìm ra tổ tiên của các loài gia súc hiện nay cũng nhƣ quá
trình phát triển chăn nuôi trong hàng ngàn năm qua [56, 77]. Những thông tin thú vị
này đã cho chúng ta hiểu biết thêm về sự sống, đặc biệt là cách thức con ngƣời tạo nên
sự đa dạng sinh học nông nghiệp trong một khoảng thời gian tƣơng đối ngắn. Hơn nữa,
kết hợp các nghiên cứu tiến hóa ở ngƣời [30], vật nuôi [73, 80] và cây trồng [77] có thể
cung cấp cho chúng ta một cái nhìn toàn diện về xã hội loài ngƣời trên khắp thế giới.
Cho đến nay vẫn có rất nhiều tranh luận giữa các nhà khảo cổ học động vật về
thời điểm xuất hiện và thời gian của những thay đổi trong cấu trúc tuổi, giới tính của
các quần thể động vật thuần hóa [7, 101]. Điều này để lại những câu hỏi mở về những
quần thể dƣới loài hoặc thậm chí các loài tổ tiên hoang dã đã đƣợc thuần hóa và mức
Luận văn thạc sĩ
Nguyễn Đức Hiếu 8 K23 Sinh học thực nghiệm
độ đóng góp của chúng vào nguồn gen hiện đại ngày nay. Nghiên cứu phân tử cho
phép trả lời các câu hỏi đó, các dấu hiệu DNA có thể đƣợc áp dụng và nghiên cứu
chủng loại phát sinh, đa dạng quần thể, xác định di truyền của cá thể, đƣợc phát triển từ
những năm 1970 [41, 86] nhƣng chỉ đƣợc áp dụng phổ biến cho các nghiên cứu động
vật thuần hóa và đa dạng từ những năm đầu thập niên 1990 [54, 56].
Một trong những mối quan tâm toàn cầu hiện nay là sự mất dần của đa dạng
sinh học nông nghiệp khi phải đối mặt với những áp lực ngày càng tăng của quá trình
canh tác hiện đại. Việc xây dựng các khái niệm về tạo giống hiện đại từ giữa những
năm 1800 đã gây ra nhƣng thay đổi đáng kể trong lĩnh vực chăn nuôi, đặc biệt là ở mức
độ quy mô lớn [66]. Hệ quả là ngƣời nông dân dần dần thay thế các giống vật nuôi bản
địa ít hiệu quả bằng các giống quốc tế có năng suất cao., do vậy một lƣợng đáng kể gia
súc đã biến mất hoặc đang bị đe dọa [90]. Những dữ liệu này cũng cho thấy tầm quan
trọng của việc quản lý và bảo tồn các nguồn gen động vật và thực vật ngày nay. Nhiều
sự đa dạng đang mất đi mà không rõ nguyên nhân, bao gồm số lƣợng lớn các giống vật
nuôi, mà không hề đƣợc quản lý và thống kê tại thời điểm hiện tại trong khi sự đa dạng
sinh học này có thể chứa những vật liệu di truyền (ví dụ nhƣ các loài thích nghi bản
địa) có giá trị cho sản xuất trong tƣơng lai. Có khả năng là một lƣợng lớn các giống
đang và sẽ tiếp tục biến mất trƣớc khi các đặc điểm cũng nhƣ tiềm năng của chúng
đƣợc nghiên cứu và đánh giá. Do đó, trong hoàn cảnh này, những chiến lƣợc để bảo
tồn đa dạng gia súc là rất quan trọng và các dữ liệu nghiên cứu phân tử của các giống
vật nuôi có thể sẽ trở thành cơ sở hỗ trợ việc bảo tồn sự đa dạng [16] .
Để xác định đƣợc nguồn gốc thuần hóa của một loài vật nuôi, các nhà khoa học
phải dựa vào một số dấu hiệu phân tử. Các marker này cần có một số đặc điểm, đầu
tiên, nó nên đủ bảo thủ để cho phép xác định các đơn vị phân loại hoặc quần thể từ
mức loài trở xuống. Thứ hai, nó vẫn đủ đa dạng theo phạm vi địa lý của loài để có thể
xác định gần đúng sự phân bố của quá trình thuần hóa. Thứ ba, các dấu hiệu phân tử
nên tiến hóa nhƣng với tỉ lệ không đổi, cho phép xác định thời điểm nguồn gốc của một
Luận văn thạc sĩ
Nguyễn Đức Hiếu 9 K23 Sinh học thực nghiệm
đa hình. Do đáp ứng đƣợc các yêu cầu này, hiện nay DNA ty thể là một công cụ đƣợc
sử dụng rộng rãi nhất trong nghiên cứu về quá trình thuần hóa.
1.3.1. Cấu trúc hệ gen ty thể
Hệ gen ty thể của động vật có vú bao gồm một DNA mạch vòng có kích thƣớc
16.6 kb. Hai sợi trên mạch kép của DNA ty thể đƣợc phân biệt thành hai sợi sợi nặng
(H) và sợi nhẹ (L) dựa theo tỷ lệ thành phần các nucleotide [42]. Hầu hết thông tin
đƣợc mã hóa trên sợi nặng, với gen mã hóa cho hai rRNA, mƣời bốn tRNA, và mƣời
hai protein. Sợi nhẹ mã hóa cho tám tRNA và một protein lớn. Tất cả các sản phẩn
protein là thành phần của các phức hợp enzyme tham gia vào quá trình phosphoryl oxy
hóa [19]. Các gen không chứa intron và ngoại trừ một số vùng điều hòa, trình tự
intergentic thƣờng không tồn tại hoặc chỉ có giới hạn ở một số vùng. Cả hai loại phân
tử tRNA và rRNA đều có kích thƣớc nhỏ bất thƣờng [97]. Một số gen mã hóa protein
nằm chồng chéo và trong nhiều trƣờng hợp, một phần của bộ ba kết thúc tuy không
đƣợc mã hóa nhƣng đƣợc tạo ra sau khi phiên mã bởi quá trình gắn đuôi polyA sau
phiên mã [63].
Với những trình tự DNA ty thể đã đƣợc nghiên cứu, so sánh các chuỗi protein ty
thể cho thấy những khác biệt so với mã di truyền chuẩn và có những thay đổi trong
việc quy định mã bộ ba đã đƣợc tìm ra ở những loài khác nhau [64]. Ví dụ, trong hệ
gen ty thể của hầu hết các loài, TGA đƣợc sử dụng nhƣ mã bộ ba mã hóa cho
Tryptophan chứ không phải là stop codon. Tƣơng tự, AGR (R=A, G) mã hóa cho mã
bộ ba kết thúc ở hệ gen ty thể của động vật có xƣơng sống, serine ở hệ gen ty thể động
vật da gai và mã hóa cho Arginine ở hệ gen ty thể nấm men cũng nhƣ bộ mã di truyền
chuẩn.
Một đặc điểm đáng ngạc nhiên của hệ thống di truyền ty thể đó là sử dụng một
cơ chế mã hóa đơn giản, cho phép dịch mã các codon với ít hơn 32 loại tRNA, điều này
là do việc sử dụng chỉ một tRNA duy nhất với nucleotide tại vị trí đầu tiên (vị trí biến
đổi) là Uracil để nhận biết tất cả các bộ ba của một họ gồm có 4 bộ ba mã hóa [11]. Ty
Luận văn thạc sĩ
Nguyễn Đức Hiếu 10 K23 Sinh học thực nghiệm
thể của nấm sử dụng Uracil tại vị trí biến đổi để đọc hai họ bộ ba mã hóa với một
purine nằm tại vị trí thứ ba của mã bộ ba [36]. Cơ chế này ngăn ngừa việc đọc sai của
hai họ mã bộ ba bằng cách sử dụng một Pyrimidine tại vị trí thứ ba và nó đƣợc coi là
không thay đổi ở các hệ gen ty thể của động vật có xƣơng. Hơn nữa với bộ ba AGR ở
động vật có xƣơng đóng vai trò bộ ba kết thúc, đồng thời việc biến đổi mã khởi đầu
cho phép chỉ cần 22 tRNA là đủ để dịch mã tất cả 13 gen mã hóa cho protein của hệ
gen ty thể [60, 64].
Ở các tế bào động vật có xƣơng sống diễn ra quá trình trao đổi chất, có một tỷ lệ
lớn các DNA ty thể có chứa cấu trúc sợi ba, đƣợc gọi là vòng lặp thay thế hoặc D loop,
trong đó bao gồm một cấu trúc sợi nucleic acid ngắn, bổ sung với sợi L và chiếm chỗ
của sợi H [42]. Vùng D loop nằm giữa các gen mã hóa cho tRNA Phe and tRNA Pro
và đóng vai trò vị trí kiểm soát chính quá trình biểu hiện của DNA ty thể, chứa vị trí
khởi đầu tái bản và các promoter chính của quá trình phiên mã [94].
Ty thể không thể trực tiếp tự vận hành. Quá trình tái bản và phiên mã phụ thuộc
vào các yếu tố đƣợc mã hóa trong nhân. Các tRNA ty thể đƣợc điều khiển với các
enzyme amino acyl-tRNAsynthases và trong các động vật có xƣơng sống tất cả các
protein của ribosome ty thể đều đƣợc mã hóa và tổng hợp bên ngoài bào quan. Các
enzyme của các con đƣờng dị hóa khác nhau nằm trong ty thể cũng nhƣ các các thành
phần của ty thể đều đƣợc mã hóa trong DNA nhân. Thậm chí cả các phức hợp enzyme
của hệ thống phosphoryl oxy hóa cũng có nguồn gốc di truyền kết hợp từ cả DNA ty
thể và nhân [75].
1.3.2. Ty thể trong nghiên cứu đa dạng di truyền
Hệ gen ty thể mặc dù có kích thƣớc rất nhỏ trong kích thƣớc toàn bộ hệ gen của
sinh vật nhƣng nó lại đƣợc coi là một marker đa dang phân tử phổ biến nhất ở động vật
trong suốt nhiều thập kỷ qua. Đã có rất nhiều những nhà di truyền học quần thể và hệ
thống học áp dụng công cụ này trong nghiên cứu của họ [8, 59].
Luận văn thạc sĩ
Nguyễn Đức Hiếu 11 K23 Sinh học thực nghiệm
Trong các nghiên cứu về về nguồn gốc của các giống lợn bản địa, Fernández
(2008, 2011) đã tiến hành nghiên cứu mối quan hệ giữa đa hình DNA ty thể và chất
lƣợng thịt ở giống lợn Iberia. Kết quả đã phát hiện một số đa hình đóng vai trò nhƣ các
chỉ thị phân tử đóng góp vào quá trình chọn giống lợn này [25, 26]. Năm 2008, Wu và
cs cũng sử dụng các phân tích đa hình DNA ty thể nhƣ một công cụ để xác định nguồn
gốc của các giống lợn bản địa phân bố ở khu vực sông Mê Kông và các vùng trung và
hạ lƣu sông Dƣơng Tử [25]. Xác định trình tự hệ gen ty thể hoàn chỉnh của giống lợn
Visayan, lợn Java với tổng 16.475 bp cho thấy nó có cấu trúc đặc trƣng của 13 gen mã
hóa protein, 2 gen rRNA, 22 gen tRNA và một vùng điều khiển không mã hóa D-loop.
Sự sắp xếp của các gen này tƣơng tự nhƣ ở các giống lợn khác. Hệ gen ty thể phân tích
ở đây sẽ cung cấp nguồn tài nguyên di truyền mới để khám phá sự phát triển của lợn
[23, 52].
Những lý do của việc DNA ty thể trở thành một lựa chọn tốt cho marker phân tử
đó là: DNA ty thể tƣơng đối dễ khuếch đại bởi nó có nhiều bản sao trong tế bào, trình
tự gen ty thể đƣợc bảo tồn rất mạnh giữa các loài động vật, với rất ít sự trùng lặp,
không chứa intron, các vùng intergenic ngắn [28]. DNA ty thể có độ đa dạng cao trong
quần thể tự nhiên do tỷ lệ đột biến lớn, điều này có thể trở thành các bằng chứng cho
lịch sử phát triển của quần thể. Các vùng biến đổi (Ví dụ vùng D loop) thƣờng đặt giữa
các vùng bảo tồn cao (DNA ribosome), ở đó các mồi PCR có thể đƣợc thiết kế. Quá
trình khuếch đại không đặc hiệu chỉ xảy ra khi các cặp mồi PCR khuếch đại cả những
vùng gen ty thể đã đƣợc chuyển vào hệ gen nhân ở một số loài. Rõ ràng, DNA ty thể là
một giải pháp tiện lợi nhất và rẻ nhất cho việc khám phá gen của các loài mới trong tự
nhiên.
Vùng D loop không mã hóa cho bất kì một protein nào và có tốc độ tiến hóa cao
hơn nhiều so với các các khu vực khác của hệ gen ty thể. Trong suốt hai mƣơi năm
qua, D loop đã đƣợc sử dụng trong các phân tích chủng loại phát sinh. Sự khác biệt của
chuỗi D loop giữa các giống bò thuộc châu Âu, Phi và Ấn Độ giúp tìm ra nguồn gốc
Luận văn thạc sĩ
Nguyễn Đức Hiếu 12 K23 Sinh học thực nghiệm
của hai giống bò Bos taurus và Bos indicus bản địa là từ hai vùng riêng biệt [13].
Ngoài ra, trình tự D loop còn đƣợc sử dụng để nghiên cứu sự đa dạng và tính bản địa ở
các loài chó, ngựa, và dê. Việc nghiên cứu hoàn chỉnh trình tự vùng D-loop ty thể của
giống lợn trắng Pudong ở vùng Taihu - Trung Quốc, đã cho thấy không có sự trao đổi
di truyền giữa các quần thể, và giống lợn này chỉ xuất hiện duy nhất tại đây, do vậy cần
có những chính sách để bảo tồn nguồn gen bản địa quý hiếm này [95].
Bên cạnh đó, DNA ty thể có một số đặc tính sinh học cụ thể [9, 10], để trở thành
một marker phân tử sử dụng trong lĩnh vực đa dạng sinh học. Đầu tiên, ty thể đƣợc di
truyền vô tính theo dòng mẹ, có nghĩa là nó sẽ không xảy ra quá trình tái tổ hợp – tất cả
các vùng trên hệ gen đều có nguồn gốc di truyền chung. Điều này giúp giảm bớt số
lƣợng mẫu và lƣợng dữ liệu cần phân tích so với khi phân tích các loại đối tƣợng biến
đổi mạnh. Thứ hai, mức độ biến đổi của DNA ty thể là thấp. Do tham gia các chức
năng trao đổi chất cơ bản, các gen mã hóa trên hệ gen ty thể đƣợc coi là ít có khả năng
biến đổi hơn so với các gen khác liên quan đến quá trình thích nghi. Cuối cùng, tốc độ
tiến hóa của DNA ty thể đƣợc giả định là theo thời gian, chỉ chứa các đột biến đƣợc
tích lũy dần theo thời gian mà không liên quan đến sự chọn lọc. Rõ ràng DNA ty thể là
một marker lý tƣởng.
1.4. Phƣơng pháp giải trình tự Sanger
Phƣơng pháp này đƣợc phát triển bởi Fred Sanger vào khoảng thời gian giữa
những năm 1970 [79]. Thay vì sử dụng phản ứng hóa học, Sanger lựa chọn một
phƣơng pháp sử dụng tới một dạng cấu trúc thứ ba của gốc đƣờng ribose. Nhƣ thể hiện
trong hình 1.1, ribose có một nhóm hydroxyl tại cả hai vị trí carbon 2’ và 3’ trong khi
deoxyribose chỉ có duy nhất một nhóm hydroxyl tại vị trí carbon 3’. Dạng thứ ba của
ribose trong đó loại bỏ hydroxyl tại cả hai vị trí carbon 2’ và 3’. Dạng này đƣợc gọi là
dideoxyribose, và bất cứ khi nào một dideoxyribose đƣợc gắn vào một chuỗi
polynucleotide, quá trình kéo dài chuỗi đó sẽ bị dừng lại. Nhƣ vậy, sự kết hợp của các
dideoxynucleotide riêng biệt sẽ tạo ra các chuỗi có kết thúc có chọn lọc.
Luận văn thạc sĩ
Nguyễn Đức Hiếu 13 K23 Sinh học thực nghiệm
Hình 1.1. Cấu trúc của ba loại đường năm carbon ribose, deoxyribose và
dideoxyribose [92].
Các nhóm hydroxyl được biểu diễn bằng màu đỏ.
Sanger đã tiến hành thiết lập quy trình trong đó bốn phản ứng đƣợc thực hiện
riêng biệt, kết hợp một loại dideoxynucleotide khác nhau cùng với bốn
deoxynucleotide, sẽ tạo ra các đoạn có két thúc tại tất cả các vị trí gắn của nhóm
dideoxynucleotide nếu tỷ lệ dideoxynucleotide và deoxynucleotide tƣơng ứng đƣợc
thiết lập đúng.
Sự ra đời của giải trình tự Sanger đã thức đẩy các nghiên cứu giải trình tự DNA
nói chung, sự gia tăng của các dữ liệu trình tự trong các nghiên cứu khoa học cũng dẫn
đến việc thành lập các kho lƣu trữ trình tự DNA đầu tiên bởi Walter Goad tại Phòng thí
nghiệm Quốc gia Los Alamos năm 1979. Kho dữ liệu này sau đó trở thành GenBank
[61].
Luận văn thạc sĩ
Nguyễn Đức Hiếu 14 K23 Sinh học thực nghiệm
Hình 1.2. Sơ đồ phản ứng giải trình tự Sanger [92].
Ở đây, các mồi giải trình tự được gắn phóng xạ và các phản ứng tạo ra các đoạn trình tự bổ
sung với khuôn DNA. Các đoạn trình tự được phân tách trên gel polyacrylamide và được chụp
ảnh phóng xạ. Trình tự được xác định nhờ các băng trên gel.
Một trong những phát triển quan trọng nhất trong phƣơng pháp giải trình tự
nhằm tạo nên một hệ thống thông lƣợng cao là sự ra đời của các hệ thống giải trình tự
sử dụng kết thúc dideoxy gắn huỳnh quang. Năm 1986, Leroy Hood và các đồng
nghiệp đã đƣa ra một phƣơng pháp giải trình tự DNA trong đó các tín hiệu phóng xạ
đƣợc thay thế bằng tín hiệu huỳnh quang, sử dụng laser cảm ứng huỳnh quang liên kết
với hệ thống máy tính [83]. Trong phƣơng pháp của họ, mồi sẽ đƣợc gắn một trong
bốn loại tín hiệu huỳnh quang khác nhau và đƣợc đƣa vào các phản ứng giải trình tự
riêng biệt cùng với một trong bốn loại dideoxynucleotides. Khi phản ứng đã hoàn tất,
bốn phản ứng đƣợc gộp lại và chạy cùng nhau trong một làn của gel giải trình tự
polyacrylamide. Một cảm biến laser bốn màu sẽ quét qua các đoạn di chuyển trong gel.
Tín hiệu huỳnh quang của từng đoạn sau đó đƣợc gửi tới một máy tính với phần mềm
Luận văn thạc sĩ
Nguyễn Đức Hiếu 15 K23 Sinh học thực nghiệm
đƣợc thiết kế để nhận diện các base (hình 1.2). Phƣơng pháp này đƣợc thƣơng mại hóa
vào năm 1987 bởi Applied Biosystems.
Hình 1.3. Cấu trúc và phổ phát xạ huỳnh quang của bốn loại dye succinylfluorescein
được phát triển bởi DuPont [92].
A. Cấu trúc của bốn loại dye succinylfluorescein. B. Phổ phát xạ huỳnh quang của các loại
dye tại bước sóng kích thích 480 nm .
James M. Prober và các đồng nghiệp tại DuPont đã thực hiện bƣớc phát triển
tiếp theo của phƣơng pháp giải trình tự gắn huỳnh quang. Trong đó thay vì gắn huỳnh
quang vào mồi, họ gắn tín hiệu vào chính các kết thúc dideoxy. Một bộ dye sẽ bao gồm
các succinylfluorescein, thay đổi bƣớc sóng phản xạ thông qua các nhóm phụ khác
nhau. Các dye SF505, SF512, SF519, và SF526 đƣợc gắn lần lƣợt vào ddG, ddA, ddC,
và ddT. Phổ phát xạ của bốn loại thuốc nhuộm đƣợc thể hiện trong hình 1.3. Tất cả bốn
loại dye đều đƣợc kích thích bằng laser bƣớc sóng 480 nm và mỗi loại sẽ phát ra một
tín hiệu khác nhau đƣợc phát hiện bởi hệ thống cảm biến. Với hệ thống phát hiện này,
phản ứng giải trình tự có thể đƣợc thực hiện trong một ống duy nhất với tất cả bốn loại
ddNTP và quá trình đọc trình tự đƣợc thực hiện chỉ trong một làn duy nhất [67].
Luận văn thạc sĩ
Nguyễn Đức Hiếu 16 K23 Sinh học thực nghiệm
DuPont thƣơng mãi hóa công nghệ của chính mình trong một thời gian ngắn và sau đó
bán cho Applied Biosystems.
Hình 1.4. Sơ đò biểu diễn của một hệ thống giải trình tự DNA mao quản [92].
A. Các thiết lập cơ bản của một hệ thống mao quản. Phản ứng giải trình tự được chứa trong
ngăn chứa mẫu, đệm điện di được chứa trong ngăn thứ hai, mao quản được bơm đầy polymer,
một điện thế được đưa vào hai đầu mao quản. B. Tín hiệu phát ra từ các đoạn giải trình tự khi
đi qua laser quét được thu nhận thông qua các cảm biến sáng và thông tin sẽ được chuyền về
máy tính. C. Biểu đồ tín hiệu đầu ra.
Vào những năm 1990, Applied Biosystems đã tiếp tục có những sự tinh chỉnh
đối với các hóa chất và thiết bị cảm biến. Các thuốc nhuộm huỳnh quang đã đƣợc thay
đổi thành một loạt các dẫn xuất của rhodamine, ddG, ddA, ddC, và ddT lần lƣợt đƣợc
gắn với dichloroROX, dichloroR6G, dichloroR110 và dichloroTAMRA. Mặc dù
những cải thiện này dẫn đến tăng đáng kể hiệu suất giải trình tự DNA, hệ thống vẫn
Luận văn thạc sĩ
Nguyễn Đức Hiếu 17 K23 Sinh học thực nghiệm
phải sử dụng gel acrylamide vốn cần quá nhiều thao tác và không phù hợp với một hệ
thống thông lƣợng cao. Đến những năm 1990, Harold Swerdlow và các đồng nghiệp đã
sử dụng điện di mao quản trong giải trình DNA [88, 89]. Mao quản có kích thƣớc nhỏ,
đƣờng kính bên trong chỉ 50μm, chúng có khả năng tản nhiệt rất hiệu quả do diện tích
bề mặt lớn. Điều này có nghĩa rằng hệ thống mao quản có thể chạy với điện áp cao hơn
nhiều từ đó giảm đáng kể thời gian chạy. Quan trọng nhất, các hệ thống mao quản có
thể chạy tự động, ƣu điểm lớn so với hệ thống dựa trên gel. Cuối cùng vào năm 1993,
B.L. Karger và các đồng nghiệp báo cáo về việc sử dụng một loại chất nền phân tách
độ nhớt thấp có thể bơm vào các mao quản với áp suất tƣơng đối thấp [74]. Loại
polyme này có thể rửa ra và thay thế sau quá trình sử dụng. Đây là tất cả các yếu tố cần
thiết để phát triển một nền tảng giải trình tự thông lƣợng cao (hình 1.4). Hiện nay hệ
thống đƣợc phát triển có thể giải trình tự các đoạn DNA có độ dài 500-1000 base chỉ
trong vài giờ.
1.5. Phƣơng pháp phân tích sự chủng loại phát sinh
1.5.1. Cây chủng loại phát sinh
Trƣớc thời điểm ra đời công nghệ giải trình tự DNA, thuật ngữ cây chủng loại
phát sinh hầu nhƣ chỉ đƣợc sử dụng để mô tả các mối quan hệ giữa các loài trong hệ
thống học (systematic) và phân loại học (taxonomy). Ngày nay, khái niệm này đƣợc sử
dụng trong hầu hết các ngành của sinh học. Ngoài việc thể hiện các mối quan hệ của
các loài, cây còn có thể đƣợc sử dụng để mô tả mối quan hệ về nguồn gốc của các họ
gen [58], lịch sử phát sinh quần thể [22], quá trình biến đổi dịch tễ của các tác nhân gây
bệnh [32, 57], mối quan hệ của các tế bào sinh dƣỡng trong suốt quá trình biệt hóa
hoặc phát triển của ung thƣ [78]. Gần đây, phân tích sự chủng loại phát sinh sử dụng
công cụ phân tử đã trở thành một công cụ không thể thiếu khi so sánh các hệ gen, phân
loại các trình tự metagenomics [14], để xác định gen, các yếu tố điều hòa và các RNA
không mã hóa nằm trên các hệ gen sau khi đã đƣợc giải trình tự [44, 51, 65], phân tích
Luận văn thạc sĩ
Nguyễn Đức Hiếu 18 K23 Sinh học thực nghiệm
genome của các cá thể hiện đại và cổ đại [31, 33, 50], hoặc tái tạo lại genome tổ tiên
[55].
Một cây chủng loại phát sinh sẽ bao gồm các điểm nút và từ các điểm nút đó sẽ
chia ra thành các nhánh. Mỗi nhánh biểu diễn cho sự tồn tại của một đối tƣợng di
truyền theo thời gian và mỗi điểm nút đánh dấu thời điểm ra của các đối tƣợng mới.
Nếu cây biểu diễn mối quan hệ di truyền giữa một nhóm các loài, mỗi điểm nút sẽ đại
diện cho một sự kiện đặc biệt nào đó. Ví dụ, trong một cây đƣợc xây dựng dựa trên
trình tự của các đối tƣợng cần nghiên cứu, mỗi điểm nút sẽ đại diện cho sự phát sinh
của các cá thể đƣợc coi là tổ tiên của các mẫu này, trong khi đó đối với cây đƣợc xây
dựng để biểu diễn một họ gen, các điểm nút sẽ đại diện cho các điểm trùng lặp gen
[99].
Cây chủng loại phát sinh không đƣợc vẽ trực tiếp mà đƣợc suy ra từ các dữ liệu
của trình tự hoặc các loại dữ liệu khác. Phƣơng pháp xây dựng cây chủng loại phát sinh
sẽ dựa vào khoảng cách tính toán đƣợc hoặc các đặc điểm của dữ liệu. Đối với các
phƣơng pháp sử dụng ma trận khoảng cách, tùy theo từng loại phƣơng pháp riêng
khoảng cách giữa các giữa các trình tự đƣợc tính toán lần lƣợt theo cặp, sau đó ma trận
sẽ tổng hợp các kết quả khoảng cách lại và sử dụng chúng để dựng cây. Ví dụ, phƣơng
pháp Neighbor joining áp dụng thuật toán gộp nhóm vào tính toán ma trận khoảng cách
để xác định sự chủng loại phát sinh [76]. Các phƣơng pháp phân tích dựa trên các đặc
điểm của dữ liệu phân tích nhƣ Maximum parsimony, Maximum likelihood và
Bayesian. Những phƣơng pháp này sẽ đồng thời so sánh tất cả các trình tự đã đƣợc sắp
xếp, xem xét các đặc điểm tại cùng một vị trí sắp xếp, cùng một thời điểm để tính toán
ra một loại chỉ số gọi là điểm số của cây. “Điểm số của cây” đƣợc tính toán theo công
thức khác nhau tùy theo phƣơng pháp, đối với Maximum parsimony là giá trị thay đổi
nhỏ nhất, đối với Maximum likelihood là log của khả năng xảy ra (log-likelihood) và
đối với Bayesian là xác suất hậu nghiệm. Theo lí thuyết, cây có điểm số cao nhất đƣợc
xác định bằng cách so sánh điểm số của tất cả các cây có khả năng xảy ra. Tuy nhiên
Luận văn thạc sĩ
Nguyễn Đức Hiếu 19 K23 Sinh học thực nghiệm
trong thực tế, do số lƣợng cây có thể xảy ra rất lớn, việc tìm kiếm toàn bộ là không khả
thi ngoại trừ trƣờng hợp đối với lƣợng dữ liệu nhỏ. Thay vào đó, các thuật toán tìm
kiếm cây mô phỏng đƣợc sử dụng. Cách tiếp cận này thƣờng tạo ra các cây ban đầu
bằng các thuật toán nhanh, sau đó thực hiện sắp xếp lại tại các vị trí để tăng điểm số
của cây lên. Cách tìm kiếm cây mô phỏng sẽ không đảm bảo tìm ra đƣợc cây tốt nhất
theo lý thuyết nhƣng đó là một phƣơng pháp khả thi khi phân tích lƣợng dữ liệu lớn.
Để biểu diễn số liệu, cả phƣơng pháp ma trận khoảng cách, Maximum likelihood và
Bayesian đều sử dụng những mô hình thay thế đƣợc đặt ra trong khi Maximum
pasrsimony không có một mô hình rõ ràng và các giá trị của nó đƣợc ẩn đi [99].
1.5.2. Phương pháp Bayesian
Cơ sở cho phân tích Bayesian cũng là các phƣơng pháp chung của suy luận
thống kê. Tuy nhiên phƣơng pháp này khác với Maximum likelihood ở các tham số
đƣợc sử dụng, chúng là các biến ngẫu nhiên đối với phƣơng pháp Bayesian và là các
hằng số cố định chƣa biết đối với phƣơng pháp Maximum likelihood. Trƣớc khi phân
tích các dữ liệu, các tham số đƣợc gắn cho một phân bố tiền nghiệm, sau đó kết hợp
với các dữ liệu để tìm ra phân bố hậu nghiệm. Hiện này phân tích Bayesian trở nên phổ
biến nhờ những tiến bộ trong phƣơng pháp tính toán, đặc biệt là thuật toán Markov
chain Monte Carlo (MCMC) [99].
Cả hai phƣơng pháp Bayesian và likelihood đều sử dụng hàm “khả năng có thể
xảy ra” và do đó chúng có chung nhiều ƣu điểm thống kê nhƣ tính thống nhất và hiệu
quả [98]. Tuy nhiên, cách suy luận thống kê của hai phƣơng pháp này là đối lập, do đó
điểm mạnh và điểm yếu của phƣơng pháp sẽ phụ thuộc vào của từng loại phƣơng pháp.
Điểm mạnh của phân tích Bayesian là phƣơng pháp này có thể đƣa ra câu trả lời
trực tiếp và hiệu quả các kết quả thông qua việc biểu diễn xác suất hậu nghiệm, đó đơn
giản chỉ là xác suất để cây đó là chính xác, biểu diễn nó dƣới dạng dữ liệu và mô hình.
Ngƣợc lại, trong khi việc phân tích chủng loại phát sinh vẫn chƣa thể xác định một
khoảng tin cậy của cây phát sinh thì việc sử dung khái niệm khoảng tin cậy giả định có
Luận văn thạc sĩ
Nguyễn Đức Hiếu 20 K23 Sinh học thực nghiệm
thể gây khó
Các file đính kèm theo tài liệu này:
- 01050003379_1_6376_2002677.pdf