DANH MỤC BẢNG. iii
DANH MỤC HÌNH .iv
DANH MỤC TỪ VIẾT TẮT.v
MỞ ĐẦU.1
CHƯƠNG 1. TỔNG QUAN.2
1.1. Giới thiệu về giống lợn Ỉ.2
1.1.1. Nguồn gốc giống vật nuôi .2
1.1.2. Giống lợn nhà (Sus scrofa) .2
1.1.3. Giống lợn Ỉ .3
1.2. Tầm quan trọng của các nghiên cứu về lợn tại Việt Nam .6
1.3. Marker trong nghiên cứu đa dạng di truyền .7
1.3.1. Cấu trúc hệ gen ty thể.9
1.3.2. Ty thể trong nghiên cứu đa dạng di truyền .10
1.4. PhƯơng pháp giải trình tự Sanger .12
1.5. PhƯơng pháp phân tích sự chủng loại phát sinh .17
1.5.1. Cây chủng loại phát sinh.17
1.5.2. Phương pháp Bayesian.19
CHƯƠNG 2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP .21
2.1. Đối tƯợng .21
2.2. Vật liệu và trang thiết bị .21
2.3. PhƯơng pháp .21
2.3.1. Thu mẫu.21
2.3.2. Tách chiết mẫu DNA tổng số (với nguồn mẫu là máu).21
2.3.3. Thiết kế mồi .22
2.3.4. Khuếch đại trình tự hệ gen ty thể bằng kỹ thuật PCR.23
2.3.5. Giải trình tự trên máy ABI 3500 .24
                
              
                                            
                                
            
 
            
                
39 trang | 
Chia sẻ: anan10 | Lượt xem: 770 | Lượt tải: 0
              
            Bạn đang xem trước 20 trang tài liệu Luận văn Xác định và phân tích trình tự hệ gene ty thể hoàn chỉnh của giống lợn ỉ tại Việt Nam, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ng tục tập quán của các dân tộc thiểu số, nhƣ các 
ngày lễ hội đón năm mới hay các dịp đặc biệt trong suốt một năm [35]. 
Số lƣợng lợn tại Việt Nam trong những năm gần đây đã tăng lên nhanh chóng. 
Năm 2001, số lƣợng lợn đƣợc nuôi là khoảng 21,8 triệu con, và đạt xấp xỉ 24,7 triệu 
con vào năm 2005, tăng bình quân 6,3% một năm. Năm 2005, 2,3 triệu tấn thịt lợn 
đƣợc tạo ra, và 2006 là 2,4 triệu tấn, chiếm lần lƣợt 81% và 71,5% tổng sản lƣợng thịt 
của các năm tƣơng ứng [71]. Hơn 90% lƣợng thịt lợn đƣợc cung cấp trong nƣớc bởi 
các hộ nông dân và hơn 98% các hộ gia đình Việt Nam tiêu thụ sản phẩm thịt lợn [6]. 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 7 K23 Sinh học thực nghiệm 
Đặc biệt là tại các hộ gia đình ở các tỉnh miền núi, phần lớn các hộ đều sử dụng chính 
sản phẩm thịt họ nuôi. 
Một số nghiên cứu đã đƣợc tiến hành để đánh giá hiệu suất của các giống lợn tại 
các trang trại và các trung tâm giống về các giống ngoại lai, các giống lai và một số đặc 
điểm của các giống bản địa nhƣ khả năng sinh sản, sinh trƣởng, cũng nhƣ phần trăm 
thịt nạc [2-4]. Do điều kiện chăn nuôi nhỏ, hiệu suất của chăn nuôi lợn tại Việt Nam 
nhìn chung vẫn ở mức thấp. 
Những thông tin di truyền về các giống lợn bản địa Việt Nam còn khá hạn chế. 
Mặc dù việc phân biệt các giống bản địa Việt Nam có thể đƣợc thực hiện thông qua các 
đặc điểm hình thái rất riêng biệt của chúng, nhƣng thông tin về di truyền vẫn hết sức 
quan trọng. Chúng giúp kiểm soát tốt hơn, chính xác hơn các giống và có thể tìm ra 
mối liên hệ giữa chúng với các tính trạng quý. Ngoài ra, những nghiên cứu đánh giá 
năng suất, chất lƣợng thịt và liên hệ chúng với sự đa dạng di truyền của các giống lợn 
vẫn chƣa đƣợc thực hiện nhiều ở Việt Nam. 
1.3. Marker trong nghiên cứu đa dạng di truyền 
Việc áp dụng di truyền phân tử trong nghiên cứu đa dạng di truyền có thể tác 
động lớn tới hiểu biết của chúng ta về những sự kiện đã từng diễn ra. Cụ thể, các 
nghiên cứu gần đây cho phép tìm ra tổ tiên của các loài gia súc hiện nay cũng nhƣ quá 
trình phát triển chăn nuôi trong hàng ngàn năm qua [56, 77]. Những thông tin thú vị 
này đã cho chúng ta hiểu biết thêm về sự sống, đặc biệt là cách thức con ngƣời tạo nên 
sự đa dạng sinh học nông nghiệp trong một khoảng thời gian tƣơng đối ngắn. Hơn nữa, 
kết hợp các nghiên cứu tiến hóa ở ngƣời [30], vật nuôi [73, 80] và cây trồng [77] có thể 
cung cấp cho chúng ta một cái nhìn toàn diện về xã hội loài ngƣời trên khắp thế giới. 
Cho đến nay vẫn có rất nhiều tranh luận giữa các nhà khảo cổ học động vật về 
thời điểm xuất hiện và thời gian của những thay đổi trong cấu trúc tuổi, giới tính của 
các quần thể động vật thuần hóa [7, 101]. Điều này để lại những câu hỏi mở về những 
quần thể dƣới loài hoặc thậm chí các loài tổ tiên hoang dã đã đƣợc thuần hóa và mức 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 8 K23 Sinh học thực nghiệm 
độ đóng góp của chúng vào nguồn gen hiện đại ngày nay. Nghiên cứu phân tử cho 
phép trả lời các câu hỏi đó, các dấu hiệu DNA có thể đƣợc áp dụng và nghiên cứu 
chủng loại phát sinh, đa dạng quần thể, xác định di truyền của cá thể, đƣợc phát triển từ 
những năm 1970 [41, 86] nhƣng chỉ đƣợc áp dụng phổ biến cho các nghiên cứu động 
vật thuần hóa và đa dạng từ những năm đầu thập niên 1990 [54, 56]. 
Một trong những mối quan tâm toàn cầu hiện nay là sự mất dần của đa dạng 
sinh học nông nghiệp khi phải đối mặt với những áp lực ngày càng tăng của quá trình 
canh tác hiện đại. Việc xây dựng các khái niệm về tạo giống hiện đại từ giữa những 
năm 1800 đã gây ra nhƣng thay đổi đáng kể trong lĩnh vực chăn nuôi, đặc biệt là ở mức 
độ quy mô lớn [66]. Hệ quả là ngƣời nông dân dần dần thay thế các giống vật nuôi bản 
địa ít hiệu quả bằng các giống quốc tế có năng suất cao., do vậy một lƣợng đáng kể gia 
súc đã biến mất hoặc đang bị đe dọa [90]. Những dữ liệu này cũng cho thấy tầm quan 
trọng của việc quản lý và bảo tồn các nguồn gen động vật và thực vật ngày nay. Nhiều 
sự đa dạng đang mất đi mà không rõ nguyên nhân, bao gồm số lƣợng lớn các giống vật 
nuôi, mà không hề đƣợc quản lý và thống kê tại thời điểm hiện tại trong khi sự đa dạng 
sinh học này có thể chứa những vật liệu di truyền (ví dụ nhƣ các loài thích nghi bản 
địa) có giá trị cho sản xuất trong tƣơng lai. Có khả năng là một lƣợng lớn các giống 
đang và sẽ tiếp tục biến mất trƣớc khi các đặc điểm cũng nhƣ tiềm năng của chúng 
đƣợc nghiên cứu và đánh giá. Do đó, trong hoàn cảnh này, những chiến lƣợc để bảo 
tồn đa dạng gia súc là rất quan trọng và các dữ liệu nghiên cứu phân tử của các giống 
vật nuôi có thể sẽ trở thành cơ sở hỗ trợ việc bảo tồn sự đa dạng [16] . 
Để xác định đƣợc nguồn gốc thuần hóa của một loài vật nuôi, các nhà khoa học 
phải dựa vào một số dấu hiệu phân tử. Các marker này cần có một số đặc điểm, đầu 
tiên, nó nên đủ bảo thủ để cho phép xác định các đơn vị phân loại hoặc quần thể từ 
mức loài trở xuống. Thứ hai, nó vẫn đủ đa dạng theo phạm vi địa lý của loài để có thể 
xác định gần đúng sự phân bố của quá trình thuần hóa. Thứ ba, các dấu hiệu phân tử 
nên tiến hóa nhƣng với tỉ lệ không đổi, cho phép xác định thời điểm nguồn gốc của một 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 9 K23 Sinh học thực nghiệm 
đa hình. Do đáp ứng đƣợc các yêu cầu này, hiện nay DNA ty thể là một công cụ đƣợc 
sử dụng rộng rãi nhất trong nghiên cứu về quá trình thuần hóa. 
1.3.1. Cấu trúc hệ gen ty thể 
Hệ gen ty thể của động vật có vú bao gồm một DNA mạch vòng có kích thƣớc 
16.6 kb. Hai sợi trên mạch kép của DNA ty thể đƣợc phân biệt thành hai sợi sợi nặng 
(H) và sợi nhẹ (L) dựa theo tỷ lệ thành phần các nucleotide [42]. Hầu hết thông tin 
đƣợc mã hóa trên sợi nặng, với gen mã hóa cho hai rRNA, mƣời bốn tRNA, và mƣời 
hai protein. Sợi nhẹ mã hóa cho tám tRNA và một protein lớn. Tất cả các sản phẩn 
protein là thành phần của các phức hợp enzyme tham gia vào quá trình phosphoryl oxy 
hóa [19]. Các gen không chứa intron và ngoại trừ một số vùng điều hòa, trình tự 
intergentic thƣờng không tồn tại hoặc chỉ có giới hạn ở một số vùng. Cả hai loại phân 
tử tRNA và rRNA đều có kích thƣớc nhỏ bất thƣờng [97]. Một số gen mã hóa protein 
nằm chồng chéo và trong nhiều trƣờng hợp, một phần của bộ ba kết thúc tuy không 
đƣợc mã hóa nhƣng đƣợc tạo ra sau khi phiên mã bởi quá trình gắn đuôi polyA sau 
phiên mã [63]. 
Với những trình tự DNA ty thể đã đƣợc nghiên cứu, so sánh các chuỗi protein ty 
thể cho thấy những khác biệt so với mã di truyền chuẩn và có những thay đổi trong 
việc quy định mã bộ ba đã đƣợc tìm ra ở những loài khác nhau [64]. Ví dụ, trong hệ 
gen ty thể của hầu hết các loài, TGA đƣợc sử dụng nhƣ mã bộ ba mã hóa cho 
Tryptophan chứ không phải là stop codon. Tƣơng tự, AGR (R=A, G) mã hóa cho mã 
bộ ba kết thúc ở hệ gen ty thể của động vật có xƣơng sống, serine ở hệ gen ty thể động 
vật da gai và mã hóa cho Arginine ở hệ gen ty thể nấm men cũng nhƣ bộ mã di truyền 
chuẩn. 
Một đặc điểm đáng ngạc nhiên của hệ thống di truyền ty thể đó là sử dụng một 
cơ chế mã hóa đơn giản, cho phép dịch mã các codon với ít hơn 32 loại tRNA, điều này 
là do việc sử dụng chỉ một tRNA duy nhất với nucleotide tại vị trí đầu tiên (vị trí biến 
đổi) là Uracil để nhận biết tất cả các bộ ba của một họ gồm có 4 bộ ba mã hóa [11]. Ty 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 10 K23 Sinh học thực nghiệm 
thể của nấm sử dụng Uracil tại vị trí biến đổi để đọc hai họ bộ ba mã hóa với một 
purine nằm tại vị trí thứ ba của mã bộ ba [36]. Cơ chế này ngăn ngừa việc đọc sai của 
hai họ mã bộ ba bằng cách sử dụng một Pyrimidine tại vị trí thứ ba và nó đƣợc coi là 
không thay đổi ở các hệ gen ty thể của động vật có xƣơng. Hơn nữa với bộ ba AGR ở 
động vật có xƣơng đóng vai trò bộ ba kết thúc, đồng thời việc biến đổi mã khởi đầu 
cho phép chỉ cần 22 tRNA là đủ để dịch mã tất cả 13 gen mã hóa cho protein của hệ 
gen ty thể [60, 64]. 
Ở các tế bào động vật có xƣơng sống diễn ra quá trình trao đổi chất, có một tỷ lệ 
lớn các DNA ty thể có chứa cấu trúc sợi ba, đƣợc gọi là vòng lặp thay thế hoặc D loop, 
trong đó bao gồm một cấu trúc sợi nucleic acid ngắn, bổ sung với sợi L và chiếm chỗ 
của sợi H [42]. Vùng D loop nằm giữa các gen mã hóa cho tRNA Phe and tRNA Pro 
và đóng vai trò vị trí kiểm soát chính quá trình biểu hiện của DNA ty thể, chứa vị trí 
khởi đầu tái bản và các promoter chính của quá trình phiên mã [94]. 
Ty thể không thể trực tiếp tự vận hành. Quá trình tái bản và phiên mã phụ thuộc 
vào các yếu tố đƣợc mã hóa trong nhân. Các tRNA ty thể đƣợc điều khiển với các 
enzyme amino acyl-tRNAsynthases và trong các động vật có xƣơng sống tất cả các 
protein của ribosome ty thể đều đƣợc mã hóa và tổng hợp bên ngoài bào quan. Các 
enzyme của các con đƣờng dị hóa khác nhau nằm trong ty thể cũng nhƣ các các thành 
phần của ty thể đều đƣợc mã hóa trong DNA nhân. Thậm chí cả các phức hợp enzyme 
của hệ thống phosphoryl oxy hóa cũng có nguồn gốc di truyền kết hợp từ cả DNA ty 
thể và nhân [75]. 
1.3.2. Ty thể trong nghiên cứu đa dạng di truyền 
Hệ gen ty thể mặc dù có kích thƣớc rất nhỏ trong kích thƣớc toàn bộ hệ gen của 
sinh vật nhƣng nó lại đƣợc coi là một marker đa dang phân tử phổ biến nhất ở động vật 
trong suốt nhiều thập kỷ qua. Đã có rất nhiều những nhà di truyền học quần thể và hệ 
thống học áp dụng công cụ này trong nghiên cứu của họ [8, 59]. 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 11 K23 Sinh học thực nghiệm 
Trong các nghiên cứu về về nguồn gốc của các giống lợn bản địa, Fernández 
(2008, 2011) đã tiến hành nghiên cứu mối quan hệ giữa đa hình DNA ty thể và chất 
lƣợng thịt ở giống lợn Iberia. Kết quả đã phát hiện một số đa hình đóng vai trò nhƣ các 
chỉ thị phân tử đóng góp vào quá trình chọn giống lợn này [25, 26]. Năm 2008, Wu và 
cs cũng sử dụng các phân tích đa hình DNA ty thể nhƣ một công cụ để xác định nguồn 
gốc của các giống lợn bản địa phân bố ở khu vực sông Mê Kông và các vùng trung và 
hạ lƣu sông Dƣơng Tử [25]. Xác định trình tự hệ gen ty thể hoàn chỉnh của giống lợn 
Visayan, lợn Java với tổng 16.475 bp cho thấy nó có cấu trúc đặc trƣng của 13 gen mã 
hóa protein, 2 gen rRNA, 22 gen tRNA và một vùng điều khiển không mã hóa D-loop. 
Sự sắp xếp của các gen này tƣơng tự nhƣ ở các giống lợn khác. Hệ gen ty thể phân tích 
ở đây sẽ cung cấp nguồn tài nguyên di truyền mới để khám phá sự phát triển của lợn 
[23, 52]. 
Những lý do của việc DNA ty thể trở thành một lựa chọn tốt cho marker phân tử 
đó là: DNA ty thể tƣơng đối dễ khuếch đại bởi nó có nhiều bản sao trong tế bào, trình 
tự gen ty thể đƣợc bảo tồn rất mạnh giữa các loài động vật, với rất ít sự trùng lặp, 
không chứa intron, các vùng intergenic ngắn [28]. DNA ty thể có độ đa dạng cao trong 
quần thể tự nhiên do tỷ lệ đột biến lớn, điều này có thể trở thành các bằng chứng cho 
lịch sử phát triển của quần thể. Các vùng biến đổi (Ví dụ vùng D loop) thƣờng đặt giữa 
các vùng bảo tồn cao (DNA ribosome), ở đó các mồi PCR có thể đƣợc thiết kế. Quá 
trình khuếch đại không đặc hiệu chỉ xảy ra khi các cặp mồi PCR khuếch đại cả những 
vùng gen ty thể đã đƣợc chuyển vào hệ gen nhân ở một số loài. Rõ ràng, DNA ty thể là 
một giải pháp tiện lợi nhất và rẻ nhất cho việc khám phá gen của các loài mới trong tự 
nhiên. 
Vùng D loop không mã hóa cho bất kì một protein nào và có tốc độ tiến hóa cao 
hơn nhiều so với các các khu vực khác của hệ gen ty thể. Trong suốt hai mƣơi năm 
qua, D loop đã đƣợc sử dụng trong các phân tích chủng loại phát sinh. Sự khác biệt của 
chuỗi D loop giữa các giống bò thuộc châu Âu, Phi và Ấn Độ giúp tìm ra nguồn gốc 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 12 K23 Sinh học thực nghiệm 
của hai giống bò Bos taurus và Bos indicus bản địa là từ hai vùng riêng biệt [13]. 
Ngoài ra, trình tự D loop còn đƣợc sử dụng để nghiên cứu sự đa dạng và tính bản địa ở 
các loài chó, ngựa, và dê. Việc nghiên cứu hoàn chỉnh trình tự vùng D-loop ty thể của 
giống lợn trắng Pudong ở vùng Taihu - Trung Quốc, đã cho thấy không có sự trao đổi 
di truyền giữa các quần thể, và giống lợn này chỉ xuất hiện duy nhất tại đây, do vậy cần 
có những chính sách để bảo tồn nguồn gen bản địa quý hiếm này [95]. 
Bên cạnh đó, DNA ty thể có một số đặc tính sinh học cụ thể [9, 10], để trở thành 
một marker phân tử sử dụng trong lĩnh vực đa dạng sinh học. Đầu tiên, ty thể đƣợc di 
truyền vô tính theo dòng mẹ, có nghĩa là nó sẽ không xảy ra quá trình tái tổ hợp – tất cả 
các vùng trên hệ gen đều có nguồn gốc di truyền chung. Điều này giúp giảm bớt số 
lƣợng mẫu và lƣợng dữ liệu cần phân tích so với khi phân tích các loại đối tƣợng biến 
đổi mạnh. Thứ hai, mức độ biến đổi của DNA ty thể là thấp. Do tham gia các chức 
năng trao đổi chất cơ bản, các gen mã hóa trên hệ gen ty thể đƣợc coi là ít có khả năng 
biến đổi hơn so với các gen khác liên quan đến quá trình thích nghi. Cuối cùng, tốc độ 
tiến hóa của DNA ty thể đƣợc giả định là theo thời gian, chỉ chứa các đột biến đƣợc 
tích lũy dần theo thời gian mà không liên quan đến sự chọn lọc. Rõ ràng DNA ty thể là 
một marker lý tƣởng. 
1.4. Phƣơng pháp giải trình tự Sanger 
Phƣơng pháp này đƣợc phát triển bởi Fred Sanger vào khoảng thời gian giữa 
những năm 1970 [79]. Thay vì sử dụng phản ứng hóa học, Sanger lựa chọn một 
phƣơng pháp sử dụng tới một dạng cấu trúc thứ ba của gốc đƣờng ribose. Nhƣ thể hiện 
trong hình 1.1, ribose có một nhóm hydroxyl tại cả hai vị trí carbon 2’ và 3’ trong khi 
deoxyribose chỉ có duy nhất một nhóm hydroxyl tại vị trí carbon 3’. Dạng thứ ba của 
ribose trong đó loại bỏ hydroxyl tại cả hai vị trí carbon 2’ và 3’. Dạng này đƣợc gọi là 
dideoxyribose, và bất cứ khi nào một dideoxyribose đƣợc gắn vào một chuỗi 
polynucleotide, quá trình kéo dài chuỗi đó sẽ bị dừng lại. Nhƣ vậy, sự kết hợp của các 
dideoxynucleotide riêng biệt sẽ tạo ra các chuỗi có kết thúc có chọn lọc. 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 13 K23 Sinh học thực nghiệm 
Hình 1.1. Cấu trúc của ba loại đường năm carbon ribose, deoxyribose và 
dideoxyribose [92]. 
Các nhóm hydroxyl được biểu diễn bằng màu đỏ. 
Sanger đã tiến hành thiết lập quy trình trong đó bốn phản ứng đƣợc thực hiện 
riêng biệt, kết hợp một loại dideoxynucleotide khác nhau cùng với bốn 
deoxynucleotide, sẽ tạo ra các đoạn có két thúc tại tất cả các vị trí gắn của nhóm 
dideoxynucleotide nếu tỷ lệ dideoxynucleotide và deoxynucleotide tƣơng ứng đƣợc 
thiết lập đúng. 
Sự ra đời của giải trình tự Sanger đã thức đẩy các nghiên cứu giải trình tự DNA 
nói chung, sự gia tăng của các dữ liệu trình tự trong các nghiên cứu khoa học cũng dẫn 
đến việc thành lập các kho lƣu trữ trình tự DNA đầu tiên bởi Walter Goad tại Phòng thí 
nghiệm Quốc gia Los Alamos năm 1979. Kho dữ liệu này sau đó trở thành GenBank 
[61]. 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 14 K23 Sinh học thực nghiệm 
Hình 1.2. Sơ đồ phản ứng giải trình tự Sanger [92]. 
Ở đây, các mồi giải trình tự được gắn phóng xạ và các phản ứng tạo ra các đoạn trình tự bổ 
sung với khuôn DNA. Các đoạn trình tự được phân tách trên gel polyacrylamide và được chụp 
ảnh phóng xạ. Trình tự được xác định nhờ các băng trên gel. 
Một trong những phát triển quan trọng nhất trong phƣơng pháp giải trình tự 
nhằm tạo nên một hệ thống thông lƣợng cao là sự ra đời của các hệ thống giải trình tự 
sử dụng kết thúc dideoxy gắn huỳnh quang. Năm 1986, Leroy Hood và các đồng 
nghiệp đã đƣa ra một phƣơng pháp giải trình tự DNA trong đó các tín hiệu phóng xạ 
đƣợc thay thế bằng tín hiệu huỳnh quang, sử dụng laser cảm ứng huỳnh quang liên kết 
với hệ thống máy tính [83]. Trong phƣơng pháp của họ, mồi sẽ đƣợc gắn một trong 
bốn loại tín hiệu huỳnh quang khác nhau và đƣợc đƣa vào các phản ứng giải trình tự 
riêng biệt cùng với một trong bốn loại dideoxynucleotides. Khi phản ứng đã hoàn tất, 
bốn phản ứng đƣợc gộp lại và chạy cùng nhau trong một làn của gel giải trình tự 
polyacrylamide. Một cảm biến laser bốn màu sẽ quét qua các đoạn di chuyển trong gel. 
Tín hiệu huỳnh quang của từng đoạn sau đó đƣợc gửi tới một máy tính với phần mềm 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 15 K23 Sinh học thực nghiệm 
đƣợc thiết kế để nhận diện các base (hình 1.2). Phƣơng pháp này đƣợc thƣơng mại hóa 
vào năm 1987 bởi Applied Biosystems. 
Hình 1.3. Cấu trúc và phổ phát xạ huỳnh quang của bốn loại dye succinylfluorescein 
được phát triển bởi DuPont [92]. 
A. Cấu trúc của bốn loại dye succinylfluorescein. B. Phổ phát xạ huỳnh quang của các loại 
dye tại bước sóng kích thích 480 nm . 
James M. Prober và các đồng nghiệp tại DuPont đã thực hiện bƣớc phát triển 
tiếp theo của phƣơng pháp giải trình tự gắn huỳnh quang. Trong đó thay vì gắn huỳnh 
quang vào mồi, họ gắn tín hiệu vào chính các kết thúc dideoxy. Một bộ dye sẽ bao gồm 
các succinylfluorescein, thay đổi bƣớc sóng phản xạ thông qua các nhóm phụ khác 
nhau. Các dye SF505, SF512, SF519, và SF526 đƣợc gắn lần lƣợt vào ddG, ddA, ddC, 
và ddT. Phổ phát xạ của bốn loại thuốc nhuộm đƣợc thể hiện trong hình 1.3. Tất cả bốn 
loại dye đều đƣợc kích thích bằng laser bƣớc sóng 480 nm và mỗi loại sẽ phát ra một 
tín hiệu khác nhau đƣợc phát hiện bởi hệ thống cảm biến. Với hệ thống phát hiện này, 
phản ứng giải trình tự có thể đƣợc thực hiện trong một ống duy nhất với tất cả bốn loại 
ddNTP và quá trình đọc trình tự đƣợc thực hiện chỉ trong một làn duy nhất [67]. 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 16 K23 Sinh học thực nghiệm 
DuPont thƣơng mãi hóa công nghệ của chính mình trong một thời gian ngắn và sau đó 
bán cho Applied Biosystems. 
Hình 1.4. Sơ đò biểu diễn của một hệ thống giải trình tự DNA mao quản [92]. 
A. Các thiết lập cơ bản của một hệ thống mao quản. Phản ứng giải trình tự được chứa trong 
ngăn chứa mẫu, đệm điện di được chứa trong ngăn thứ hai, mao quản được bơm đầy polymer, 
một điện thế được đưa vào hai đầu mao quản. B. Tín hiệu phát ra từ các đoạn giải trình tự khi 
đi qua laser quét được thu nhận thông qua các cảm biến sáng và thông tin sẽ được chuyền về 
máy tính. C. Biểu đồ tín hiệu đầu ra. 
Vào những năm 1990, Applied Biosystems đã tiếp tục có những sự tinh chỉnh 
đối với các hóa chất và thiết bị cảm biến. Các thuốc nhuộm huỳnh quang đã đƣợc thay 
đổi thành một loạt các dẫn xuất của rhodamine, ddG, ddA, ddC, và ddT lần lƣợt đƣợc 
gắn với dichloroROX, dichloroR6G, dichloroR110 và dichloroTAMRA. Mặc dù 
những cải thiện này dẫn đến tăng đáng kể hiệu suất giải trình tự DNA, hệ thống vẫn 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 17 K23 Sinh học thực nghiệm 
phải sử dụng gel acrylamide vốn cần quá nhiều thao tác và không phù hợp với một hệ 
thống thông lƣợng cao. Đến những năm 1990, Harold Swerdlow và các đồng nghiệp đã 
sử dụng điện di mao quản trong giải trình DNA [88, 89]. Mao quản có kích thƣớc nhỏ, 
đƣờng kính bên trong chỉ 50μm, chúng có khả năng tản nhiệt rất hiệu quả do diện tích 
bề mặt lớn. Điều này có nghĩa rằng hệ thống mao quản có thể chạy với điện áp cao hơn 
nhiều từ đó giảm đáng kể thời gian chạy. Quan trọng nhất, các hệ thống mao quản có 
thể chạy tự động, ƣu điểm lớn so với hệ thống dựa trên gel. Cuối cùng vào năm 1993, 
B.L. Karger và các đồng nghiệp báo cáo về việc sử dụng một loại chất nền phân tách 
độ nhớt thấp có thể bơm vào các mao quản với áp suất tƣơng đối thấp [74]. Loại 
polyme này có thể rửa ra và thay thế sau quá trình sử dụng. Đây là tất cả các yếu tố cần 
thiết để phát triển một nền tảng giải trình tự thông lƣợng cao (hình 1.4). Hiện nay hệ 
thống đƣợc phát triển có thể giải trình tự các đoạn DNA có độ dài 500-1000 base chỉ 
trong vài giờ. 
1.5. Phƣơng pháp phân tích sự chủng loại phát sinh 
1.5.1. Cây chủng loại phát sinh 
Trƣớc thời điểm ra đời công nghệ giải trình tự DNA, thuật ngữ cây chủng loại 
phát sinh hầu nhƣ chỉ đƣợc sử dụng để mô tả các mối quan hệ giữa các loài trong hệ 
thống học (systematic) và phân loại học (taxonomy). Ngày nay, khái niệm này đƣợc sử 
dụng trong hầu hết các ngành của sinh học. Ngoài việc thể hiện các mối quan hệ của 
các loài, cây còn có thể đƣợc sử dụng để mô tả mối quan hệ về nguồn gốc của các họ 
gen [58], lịch sử phát sinh quần thể [22], quá trình biến đổi dịch tễ của các tác nhân gây 
bệnh [32, 57], mối quan hệ của các tế bào sinh dƣỡng trong suốt quá trình biệt hóa 
hoặc phát triển của ung thƣ [78]. Gần đây, phân tích sự chủng loại phát sinh sử dụng 
công cụ phân tử đã trở thành một công cụ không thể thiếu khi so sánh các hệ gen, phân 
loại các trình tự metagenomics [14], để xác định gen, các yếu tố điều hòa và các RNA 
không mã hóa nằm trên các hệ gen sau khi đã đƣợc giải trình tự [44, 51, 65], phân tích 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 18 K23 Sinh học thực nghiệm 
genome của các cá thể hiện đại và cổ đại [31, 33, 50], hoặc tái tạo lại genome tổ tiên 
[55]. 
Một cây chủng loại phát sinh sẽ bao gồm các điểm nút và từ các điểm nút đó sẽ 
chia ra thành các nhánh. Mỗi nhánh biểu diễn cho sự tồn tại của một đối tƣợng di 
truyền theo thời gian và mỗi điểm nút đánh dấu thời điểm ra của các đối tƣợng mới. 
Nếu cây biểu diễn mối quan hệ di truyền giữa một nhóm các loài, mỗi điểm nút sẽ đại 
diện cho một sự kiện đặc biệt nào đó. Ví dụ, trong một cây đƣợc xây dựng dựa trên 
trình tự của các đối tƣợng cần nghiên cứu, mỗi điểm nút sẽ đại diện cho sự phát sinh 
của các cá thể đƣợc coi là tổ tiên của các mẫu này, trong khi đó đối với cây đƣợc xây 
dựng để biểu diễn một họ gen, các điểm nút sẽ đại diện cho các điểm trùng lặp gen 
[99]. 
Cây chủng loại phát sinh không đƣợc vẽ trực tiếp mà đƣợc suy ra từ các dữ liệu 
của trình tự hoặc các loại dữ liệu khác. Phƣơng pháp xây dựng cây chủng loại phát sinh 
sẽ dựa vào khoảng cách tính toán đƣợc hoặc các đặc điểm của dữ liệu. Đối với các 
phƣơng pháp sử dụng ma trận khoảng cách, tùy theo từng loại phƣơng pháp riêng 
khoảng cách giữa các giữa các trình tự đƣợc tính toán lần lƣợt theo cặp, sau đó ma trận 
sẽ tổng hợp các kết quả khoảng cách lại và sử dụng chúng để dựng cây. Ví dụ, phƣơng 
pháp Neighbor joining áp dụng thuật toán gộp nhóm vào tính toán ma trận khoảng cách 
để xác định sự chủng loại phát sinh [76]. Các phƣơng pháp phân tích dựa trên các đặc 
điểm của dữ liệu phân tích nhƣ Maximum parsimony, Maximum likelihood và 
Bayesian. Những phƣơng pháp này sẽ đồng thời so sánh tất cả các trình tự đã đƣợc sắp 
xếp, xem xét các đặc điểm tại cùng một vị trí sắp xếp, cùng một thời điểm để tính toán 
ra một loại chỉ số gọi là điểm số của cây. “Điểm số của cây” đƣợc tính toán theo công 
thức khác nhau tùy theo phƣơng pháp, đối với Maximum parsimony là giá trị thay đổi 
nhỏ nhất, đối với Maximum likelihood là log của khả năng xảy ra (log-likelihood) và 
đối với Bayesian là xác suất hậu nghiệm. Theo lí thuyết, cây có điểm số cao nhất đƣợc 
xác định bằng cách so sánh điểm số của tất cả các cây có khả năng xảy ra. Tuy nhiên 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 19 K23 Sinh học thực nghiệm 
trong thực tế, do số lƣợng cây có thể xảy ra rất lớn, việc tìm kiếm toàn bộ là không khả 
thi ngoại trừ trƣờng hợp đối với lƣợng dữ liệu nhỏ. Thay vào đó, các thuật toán tìm 
kiếm cây mô phỏng đƣợc sử dụng. Cách tiếp cận này thƣờng tạo ra các cây ban đầu 
bằng các thuật toán nhanh, sau đó thực hiện sắp xếp lại tại các vị trí để tăng điểm số 
của cây lên. Cách tìm kiếm cây mô phỏng sẽ không đảm bảo tìm ra đƣợc cây tốt nhất 
theo lý thuyết nhƣng đó là một phƣơng pháp khả thi khi phân tích lƣợng dữ liệu lớn. 
Để biểu diễn số liệu, cả phƣơng pháp ma trận khoảng cách, Maximum likelihood và 
Bayesian đều sử dụng những mô hình thay thế đƣợc đặt ra trong khi Maximum 
pasrsimony không có một mô hình rõ ràng và các giá trị của nó đƣợc ẩn đi [99]. 
1.5.2. Phương pháp Bayesian 
Cơ sở cho phân tích Bayesian cũng là các phƣơng pháp chung của suy luận 
thống kê. Tuy nhiên phƣơng pháp này khác với Maximum likelihood ở các tham số 
đƣợc sử dụng, chúng là các biến ngẫu nhiên đối với phƣơng pháp Bayesian và là các 
hằng số cố định chƣa biết đối với phƣơng pháp Maximum likelihood. Trƣớc khi phân 
tích các dữ liệu, các tham số đƣợc gắn cho một phân bố tiền nghiệm, sau đó kết hợp 
với các dữ liệu để tìm ra phân bố hậu nghiệm. Hiện này phân tích Bayesian trở nên phổ 
biến nhờ những tiến bộ trong phƣơng pháp tính toán, đặc biệt là thuật toán Markov 
chain Monte Carlo (MCMC) [99]. 
Cả hai phƣơng pháp Bayesian và likelihood đều sử dụng hàm “khả năng có thể 
xảy ra” và do đó chúng có chung nhiều ƣu điểm thống kê nhƣ tính thống nhất và hiệu 
quả [98]. Tuy nhiên, cách suy luận thống kê của hai phƣơng pháp này là đối lập, do đó 
điểm mạnh và điểm yếu của phƣơng pháp sẽ phụ thuộc vào của từng loại phƣơng pháp. 
Điểm mạnh của phân tích Bayesian là phƣơng pháp này có thể đƣa ra câu trả lời 
trực tiếp và hiệu quả các kết quả thông qua việc biểu diễn xác suất hậu nghiệm, đó đơn 
giản chỉ là xác suất để cây đó là chính xác, biểu diễn nó dƣới dạng dữ liệu và mô hình. 
Ngƣợc lại, trong khi việc phân tích chủng loại phát sinh vẫn chƣa thể xác định một 
khoảng tin cậy của cây phát sinh thì việc sử dung khái niệm khoảng tin cậy giả định có 
Luận văn thạc sĩ 
Nguyễn Đức Hiếu 20 K23 Sinh học thực nghiệm 
thể gây khó
            Các file đính kèm theo tài liệu này:
01050003379_1_6376_2002677.pdf