Luận văn Xác định và phân tích trình tự hệ gene ty thể hoàn chỉnh của giống lợn ỉ tại Việt Nam

DANH MỤC BẢNG. iii

DANH MỤC HÌNH .iv

DANH MỤC TỪ VIẾT TẮT.v

MỞ ĐẦU.1

CHƯƠNG 1. TỔNG QUAN.2

1.1. Giới thiệu về giống lợn Ỉ.2

1.1.1. Nguồn gốc giống vật nuôi .2

1.1.2. Giống lợn nhà (Sus scrofa) .2

1.1.3. Giống lợn Ỉ .3

1.2. Tầm quan trọng của các nghiên cứu về lợn tại Việt Nam .6

1.3. Marker trong nghiên cứu đa dạng di truyền .7

1.3.1. Cấu trúc hệ gen ty thể.9

1.3.2. Ty thể trong nghiên cứu đa dạng di truyền .10

1.4. PhƯơng pháp giải trình tự Sanger .12

1.5. PhƯơng pháp phân tích sự chủng loại phát sinh .17

1.5.1. Cây chủng loại phát sinh.17

1.5.2. Phương pháp Bayesian.19

CHƯƠNG 2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP .21

2.1. Đối tƯợng .21

2.2. Vật liệu và trang thiết bị .21

2.3. PhƯơng pháp .21

2.3.1. Thu mẫu.21

2.3.2. Tách chiết mẫu DNA tổng số (với nguồn mẫu là máu).21

2.3.3. Thiết kế mồi .22

2.3.4. Khuếch đại trình tự hệ gen ty thể bằng kỹ thuật PCR.23

2.3.5. Giải trình tự trên máy ABI 3500 .24

39 trang | Chia sẻ: anan10 | Lượt xem: 472 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận văn Xác định và phân tích trình tự hệ gene ty thể hoàn chỉnh của giống lợn ỉ tại Việt Nam, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ng tục tập quán của các dân tộc thiểu số, nhƣ các ngày lễ hội đón năm mới hay các dịp đặc biệt trong suốt một năm [35]. Số lƣợng lợn tại Việt Nam trong những năm gần đây đã tăng lên nhanh chóng. Năm 2001, số lƣợng lợn đƣợc nuôi là khoảng 21,8 triệu con, và đạt xấp xỉ 24,7 triệu con vào năm 2005, tăng bình quân 6,3% một năm. Năm 2005, 2,3 triệu tấn thịt lợn đƣợc tạo ra, và 2006 là 2,4 triệu tấn, chiếm lần lƣợt 81% và 71,5% tổng sản lƣợng thịt của các năm tƣơng ứng [71]. Hơn 90% lƣợng thịt lợn đƣợc cung cấp trong nƣớc bởi các hộ nông dân và hơn 98% các hộ gia đình Việt Nam tiêu thụ sản phẩm thịt lợn [6]. Luận văn thạc sĩ Nguyễn Đức Hiếu 7 K23 Sinh học thực nghiệm Đặc biệt là tại các hộ gia đình ở các tỉnh miền núi, phần lớn các hộ đều sử dụng chính sản phẩm thịt họ nuôi. Một số nghiên cứu đã đƣợc tiến hành để đánh giá hiệu suất của các giống lợn tại các trang trại và các trung tâm giống về các giống ngoại lai, các giống lai và một số đặc điểm của các giống bản địa nhƣ khả năng sinh sản, sinh trƣởng, cũng nhƣ phần trăm thịt nạc [2-4]. Do điều kiện chăn nuôi nhỏ, hiệu suất của chăn nuôi lợn tại Việt Nam nhìn chung vẫn ở mức thấp. Những thông tin di truyền về các giống lợn bản địa Việt Nam còn khá hạn chế. Mặc dù việc phân biệt các giống bản địa Việt Nam có thể đƣợc thực hiện thông qua các đặc điểm hình thái rất riêng biệt của chúng, nhƣng thông tin về di truyền vẫn hết sức quan trọng. Chúng giúp kiểm soát tốt hơn, chính xác hơn các giống và có thể tìm ra mối liên hệ giữa chúng với các tính trạng quý. Ngoài ra, những nghiên cứu đánh giá năng suất, chất lƣợng thịt và liên hệ chúng với sự đa dạng di truyền của các giống lợn vẫn chƣa đƣợc thực hiện nhiều ở Việt Nam. 1.3. Marker trong nghiên cứu đa dạng di truyền Việc áp dụng di truyền phân tử trong nghiên cứu đa dạng di truyền có thể tác động lớn tới hiểu biết của chúng ta về những sự kiện đã từng diễn ra. Cụ thể, các nghiên cứu gần đây cho phép tìm ra tổ tiên của các loài gia súc hiện nay cũng nhƣ quá trình phát triển chăn nuôi trong hàng ngàn năm qua [56, 77]. Những thông tin thú vị này đã cho chúng ta hiểu biết thêm về sự sống, đặc biệt là cách thức con ngƣời tạo nên sự đa dạng sinh học nông nghiệp trong một khoảng thời gian tƣơng đối ngắn. Hơn nữa, kết hợp các nghiên cứu tiến hóa ở ngƣời [30], vật nuôi [73, 80] và cây trồng [77] có thể cung cấp cho chúng ta một cái nhìn toàn diện về xã hội loài ngƣời trên khắp thế giới. Cho đến nay vẫn có rất nhiều tranh luận giữa các nhà khảo cổ học động vật về thời điểm xuất hiện và thời gian của những thay đổi trong cấu trúc tuổi, giới tính của các quần thể động vật thuần hóa [7, 101]. Điều này để lại những câu hỏi mở về những quần thể dƣới loài hoặc thậm chí các loài tổ tiên hoang dã đã đƣợc thuần hóa và mức Luận văn thạc sĩ Nguyễn Đức Hiếu 8 K23 Sinh học thực nghiệm độ đóng góp của chúng vào nguồn gen hiện đại ngày nay. Nghiên cứu phân tử cho phép trả lời các câu hỏi đó, các dấu hiệu DNA có thể đƣợc áp dụng và nghiên cứu chủng loại phát sinh, đa dạng quần thể, xác định di truyền của cá thể, đƣợc phát triển từ những năm 1970 [41, 86] nhƣng chỉ đƣợc áp dụng phổ biến cho các nghiên cứu động vật thuần hóa và đa dạng từ những năm đầu thập niên 1990 [54, 56]. Một trong những mối quan tâm toàn cầu hiện nay là sự mất dần của đa dạng sinh học nông nghiệp khi phải đối mặt với những áp lực ngày càng tăng của quá trình canh tác hiện đại. Việc xây dựng các khái niệm về tạo giống hiện đại từ giữa những năm 1800 đã gây ra nhƣng thay đổi đáng kể trong lĩnh vực chăn nuôi, đặc biệt là ở mức độ quy mô lớn [66]. Hệ quả là ngƣời nông dân dần dần thay thế các giống vật nuôi bản địa ít hiệu quả bằng các giống quốc tế có năng suất cao., do vậy một lƣợng đáng kể gia súc đã biến mất hoặc đang bị đe dọa [90]. Những dữ liệu này cũng cho thấy tầm quan trọng của việc quản lý và bảo tồn các nguồn gen động vật và thực vật ngày nay. Nhiều sự đa dạng đang mất đi mà không rõ nguyên nhân, bao gồm số lƣợng lớn các giống vật nuôi, mà không hề đƣợc quản lý và thống kê tại thời điểm hiện tại trong khi sự đa dạng sinh học này có thể chứa những vật liệu di truyền (ví dụ nhƣ các loài thích nghi bản địa) có giá trị cho sản xuất trong tƣơng lai. Có khả năng là một lƣợng lớn các giống đang và sẽ tiếp tục biến mất trƣớc khi các đặc điểm cũng nhƣ tiềm năng của chúng đƣợc nghiên cứu và đánh giá. Do đó, trong hoàn cảnh này, những chiến lƣợc để bảo tồn đa dạng gia súc là rất quan trọng và các dữ liệu nghiên cứu phân tử của các giống vật nuôi có thể sẽ trở thành cơ sở hỗ trợ việc bảo tồn sự đa dạng [16] . Để xác định đƣợc nguồn gốc thuần hóa của một loài vật nuôi, các nhà khoa học phải dựa vào một số dấu hiệu phân tử. Các marker này cần có một số đặc điểm, đầu tiên, nó nên đủ bảo thủ để cho phép xác định các đơn vị phân loại hoặc quần thể từ mức loài trở xuống. Thứ hai, nó vẫn đủ đa dạng theo phạm vi địa lý của loài để có thể xác định gần đúng sự phân bố của quá trình thuần hóa. Thứ ba, các dấu hiệu phân tử nên tiến hóa nhƣng với tỉ lệ không đổi, cho phép xác định thời điểm nguồn gốc của một Luận văn thạc sĩ Nguyễn Đức Hiếu 9 K23 Sinh học thực nghiệm đa hình. Do đáp ứng đƣợc các yêu cầu này, hiện nay DNA ty thể là một công cụ đƣợc sử dụng rộng rãi nhất trong nghiên cứu về quá trình thuần hóa. 1.3.1. Cấu trúc hệ gen ty thể Hệ gen ty thể của động vật có vú bao gồm một DNA mạch vòng có kích thƣớc 16.6 kb. Hai sợi trên mạch kép của DNA ty thể đƣợc phân biệt thành hai sợi sợi nặng (H) và sợi nhẹ (L) dựa theo tỷ lệ thành phần các nucleotide [42]. Hầu hết thông tin đƣợc mã hóa trên sợi nặng, với gen mã hóa cho hai rRNA, mƣời bốn tRNA, và mƣời hai protein. Sợi nhẹ mã hóa cho tám tRNA và một protein lớn. Tất cả các sản phẩn protein là thành phần của các phức hợp enzyme tham gia vào quá trình phosphoryl oxy hóa [19]. Các gen không chứa intron và ngoại trừ một số vùng điều hòa, trình tự intergentic thƣờng không tồn tại hoặc chỉ có giới hạn ở một số vùng. Cả hai loại phân tử tRNA và rRNA đều có kích thƣớc nhỏ bất thƣờng [97]. Một số gen mã hóa protein nằm chồng chéo và trong nhiều trƣờng hợp, một phần của bộ ba kết thúc tuy không đƣợc mã hóa nhƣng đƣợc tạo ra sau khi phiên mã bởi quá trình gắn đuôi polyA sau phiên mã [63]. Với những trình tự DNA ty thể đã đƣợc nghiên cứu, so sánh các chuỗi protein ty thể cho thấy những khác biệt so với mã di truyền chuẩn và có những thay đổi trong việc quy định mã bộ ba đã đƣợc tìm ra ở những loài khác nhau [64]. Ví dụ, trong hệ gen ty thể của hầu hết các loài, TGA đƣợc sử dụng nhƣ mã bộ ba mã hóa cho Tryptophan chứ không phải là stop codon. Tƣơng tự, AGR (R=A, G) mã hóa cho mã bộ ba kết thúc ở hệ gen ty thể của động vật có xƣơng sống, serine ở hệ gen ty thể động vật da gai và mã hóa cho Arginine ở hệ gen ty thể nấm men cũng nhƣ bộ mã di truyền chuẩn. Một đặc điểm đáng ngạc nhiên của hệ thống di truyền ty thể đó là sử dụng một cơ chế mã hóa đơn giản, cho phép dịch mã các codon với ít hơn 32 loại tRNA, điều này là do việc sử dụng chỉ một tRNA duy nhất với nucleotide tại vị trí đầu tiên (vị trí biến đổi) là Uracil để nhận biết tất cả các bộ ba của một họ gồm có 4 bộ ba mã hóa [11]. Ty Luận văn thạc sĩ Nguyễn Đức Hiếu 10 K23 Sinh học thực nghiệm thể của nấm sử dụng Uracil tại vị trí biến đổi để đọc hai họ bộ ba mã hóa với một purine nằm tại vị trí thứ ba của mã bộ ba [36]. Cơ chế này ngăn ngừa việc đọc sai của hai họ mã bộ ba bằng cách sử dụng một Pyrimidine tại vị trí thứ ba và nó đƣợc coi là không thay đổi ở các hệ gen ty thể của động vật có xƣơng. Hơn nữa với bộ ba AGR ở động vật có xƣơng đóng vai trò bộ ba kết thúc, đồng thời việc biến đổi mã khởi đầu cho phép chỉ cần 22 tRNA là đủ để dịch mã tất cả 13 gen mã hóa cho protein của hệ gen ty thể [60, 64]. Ở các tế bào động vật có xƣơng sống diễn ra quá trình trao đổi chất, có một tỷ lệ lớn các DNA ty thể có chứa cấu trúc sợi ba, đƣợc gọi là vòng lặp thay thế hoặc D loop, trong đó bao gồm một cấu trúc sợi nucleic acid ngắn, bổ sung với sợi L và chiếm chỗ của sợi H [42]. Vùng D loop nằm giữa các gen mã hóa cho tRNA Phe and tRNA Pro và đóng vai trò vị trí kiểm soát chính quá trình biểu hiện của DNA ty thể, chứa vị trí khởi đầu tái bản và các promoter chính của quá trình phiên mã [94]. Ty thể không thể trực tiếp tự vận hành. Quá trình tái bản và phiên mã phụ thuộc vào các yếu tố đƣợc mã hóa trong nhân. Các tRNA ty thể đƣợc điều khiển với các enzyme amino acyl-tRNAsynthases và trong các động vật có xƣơng sống tất cả các protein của ribosome ty thể đều đƣợc mã hóa và tổng hợp bên ngoài bào quan. Các enzyme của các con đƣờng dị hóa khác nhau nằm trong ty thể cũng nhƣ các các thành phần của ty thể đều đƣợc mã hóa trong DNA nhân. Thậm chí cả các phức hợp enzyme của hệ thống phosphoryl oxy hóa cũng có nguồn gốc di truyền kết hợp từ cả DNA ty thể và nhân [75]. 1.3.2. Ty thể trong nghiên cứu đa dạng di truyền Hệ gen ty thể mặc dù có kích thƣớc rất nhỏ trong kích thƣớc toàn bộ hệ gen của sinh vật nhƣng nó lại đƣợc coi là một marker đa dang phân tử phổ biến nhất ở động vật trong suốt nhiều thập kỷ qua. Đã có rất nhiều những nhà di truyền học quần thể và hệ thống học áp dụng công cụ này trong nghiên cứu của họ [8, 59]. Luận văn thạc sĩ Nguyễn Đức Hiếu 11 K23 Sinh học thực nghiệm Trong các nghiên cứu về về nguồn gốc của các giống lợn bản địa, Fernández (2008, 2011) đã tiến hành nghiên cứu mối quan hệ giữa đa hình DNA ty thể và chất lƣợng thịt ở giống lợn Iberia. Kết quả đã phát hiện một số đa hình đóng vai trò nhƣ các chỉ thị phân tử đóng góp vào quá trình chọn giống lợn này [25, 26]. Năm 2008, Wu và cs cũng sử dụng các phân tích đa hình DNA ty thể nhƣ một công cụ để xác định nguồn gốc của các giống lợn bản địa phân bố ở khu vực sông Mê Kông và các vùng trung và hạ lƣu sông Dƣơng Tử [25]. Xác định trình tự hệ gen ty thể hoàn chỉnh của giống lợn Visayan, lợn Java với tổng 16.475 bp cho thấy nó có cấu trúc đặc trƣng của 13 gen mã hóa protein, 2 gen rRNA, 22 gen tRNA và một vùng điều khiển không mã hóa D-loop. Sự sắp xếp của các gen này tƣơng tự nhƣ ở các giống lợn khác. Hệ gen ty thể phân tích ở đây sẽ cung cấp nguồn tài nguyên di truyền mới để khám phá sự phát triển của lợn [23, 52]. Những lý do của việc DNA ty thể trở thành một lựa chọn tốt cho marker phân tử đó là: DNA ty thể tƣơng đối dễ khuếch đại bởi nó có nhiều bản sao trong tế bào, trình tự gen ty thể đƣợc bảo tồn rất mạnh giữa các loài động vật, với rất ít sự trùng lặp, không chứa intron, các vùng intergenic ngắn [28]. DNA ty thể có độ đa dạng cao trong quần thể tự nhiên do tỷ lệ đột biến lớn, điều này có thể trở thành các bằng chứng cho lịch sử phát triển của quần thể. Các vùng biến đổi (Ví dụ vùng D loop) thƣờng đặt giữa các vùng bảo tồn cao (DNA ribosome), ở đó các mồi PCR có thể đƣợc thiết kế. Quá trình khuếch đại không đặc hiệu chỉ xảy ra khi các cặp mồi PCR khuếch đại cả những vùng gen ty thể đã đƣợc chuyển vào hệ gen nhân ở một số loài. Rõ ràng, DNA ty thể là một giải pháp tiện lợi nhất và rẻ nhất cho việc khám phá gen của các loài mới trong tự nhiên. Vùng D loop không mã hóa cho bất kì một protein nào và có tốc độ tiến hóa cao hơn nhiều so với các các khu vực khác của hệ gen ty thể. Trong suốt hai mƣơi năm qua, D loop đã đƣợc sử dụng trong các phân tích chủng loại phát sinh. Sự khác biệt của chuỗi D loop giữa các giống bò thuộc châu Âu, Phi và Ấn Độ giúp tìm ra nguồn gốc Luận văn thạc sĩ Nguyễn Đức Hiếu 12 K23 Sinh học thực nghiệm của hai giống bò Bos taurus và Bos indicus bản địa là từ hai vùng riêng biệt [13]. Ngoài ra, trình tự D loop còn đƣợc sử dụng để nghiên cứu sự đa dạng và tính bản địa ở các loài chó, ngựa, và dê. Việc nghiên cứu hoàn chỉnh trình tự vùng D-loop ty thể của giống lợn trắng Pudong ở vùng Taihu - Trung Quốc, đã cho thấy không có sự trao đổi di truyền giữa các quần thể, và giống lợn này chỉ xuất hiện duy nhất tại đây, do vậy cần có những chính sách để bảo tồn nguồn gen bản địa quý hiếm này [95]. Bên cạnh đó, DNA ty thể có một số đặc tính sinh học cụ thể [9, 10], để trở thành một marker phân tử sử dụng trong lĩnh vực đa dạng sinh học. Đầu tiên, ty thể đƣợc di truyền vô tính theo dòng mẹ, có nghĩa là nó sẽ không xảy ra quá trình tái tổ hợp – tất cả các vùng trên hệ gen đều có nguồn gốc di truyền chung. Điều này giúp giảm bớt số lƣợng mẫu và lƣợng dữ liệu cần phân tích so với khi phân tích các loại đối tƣợng biến đổi mạnh. Thứ hai, mức độ biến đổi của DNA ty thể là thấp. Do tham gia các chức năng trao đổi chất cơ bản, các gen mã hóa trên hệ gen ty thể đƣợc coi là ít có khả năng biến đổi hơn so với các gen khác liên quan đến quá trình thích nghi. Cuối cùng, tốc độ tiến hóa của DNA ty thể đƣợc giả định là theo thời gian, chỉ chứa các đột biến đƣợc tích lũy dần theo thời gian mà không liên quan đến sự chọn lọc. Rõ ràng DNA ty thể là một marker lý tƣởng. 1.4. Phƣơng pháp giải trình tự Sanger Phƣơng pháp này đƣợc phát triển bởi Fred Sanger vào khoảng thời gian giữa những năm 1970 [79]. Thay vì sử dụng phản ứng hóa học, Sanger lựa chọn một phƣơng pháp sử dụng tới một dạng cấu trúc thứ ba của gốc đƣờng ribose. Nhƣ thể hiện trong hình 1.1, ribose có một nhóm hydroxyl tại cả hai vị trí carbon 2’ và 3’ trong khi deoxyribose chỉ có duy nhất một nhóm hydroxyl tại vị trí carbon 3’. Dạng thứ ba của ribose trong đó loại bỏ hydroxyl tại cả hai vị trí carbon 2’ và 3’. Dạng này đƣợc gọi là dideoxyribose, và bất cứ khi nào một dideoxyribose đƣợc gắn vào một chuỗi polynucleotide, quá trình kéo dài chuỗi đó sẽ bị dừng lại. Nhƣ vậy, sự kết hợp của các dideoxynucleotide riêng biệt sẽ tạo ra các chuỗi có kết thúc có chọn lọc. Luận văn thạc sĩ Nguyễn Đức Hiếu 13 K23 Sinh học thực nghiệm Hình 1.1. Cấu trúc của ba loại đường năm carbon ribose, deoxyribose và dideoxyribose [92]. Các nhóm hydroxyl được biểu diễn bằng màu đỏ. Sanger đã tiến hành thiết lập quy trình trong đó bốn phản ứng đƣợc thực hiện riêng biệt, kết hợp một loại dideoxynucleotide khác nhau cùng với bốn deoxynucleotide, sẽ tạo ra các đoạn có két thúc tại tất cả các vị trí gắn của nhóm dideoxynucleotide nếu tỷ lệ dideoxynucleotide và deoxynucleotide tƣơng ứng đƣợc thiết lập đúng. Sự ra đời của giải trình tự Sanger đã thức đẩy các nghiên cứu giải trình tự DNA nói chung, sự gia tăng của các dữ liệu trình tự trong các nghiên cứu khoa học cũng dẫn đến việc thành lập các kho lƣu trữ trình tự DNA đầu tiên bởi Walter Goad tại Phòng thí nghiệm Quốc gia Los Alamos năm 1979. Kho dữ liệu này sau đó trở thành GenBank [61]. Luận văn thạc sĩ Nguyễn Đức Hiếu 14 K23 Sinh học thực nghiệm Hình 1.2. Sơ đồ phản ứng giải trình tự Sanger [92]. Ở đây, các mồi giải trình tự được gắn phóng xạ và các phản ứng tạo ra các đoạn trình tự bổ sung với khuôn DNA. Các đoạn trình tự được phân tách trên gel polyacrylamide và được chụp ảnh phóng xạ. Trình tự được xác định nhờ các băng trên gel. Một trong những phát triển quan trọng nhất trong phƣơng pháp giải trình tự nhằm tạo nên một hệ thống thông lƣợng cao là sự ra đời của các hệ thống giải trình tự sử dụng kết thúc dideoxy gắn huỳnh quang. Năm 1986, Leroy Hood và các đồng nghiệp đã đƣa ra một phƣơng pháp giải trình tự DNA trong đó các tín hiệu phóng xạ đƣợc thay thế bằng tín hiệu huỳnh quang, sử dụng laser cảm ứng huỳnh quang liên kết với hệ thống máy tính [83]. Trong phƣơng pháp của họ, mồi sẽ đƣợc gắn một trong bốn loại tín hiệu huỳnh quang khác nhau và đƣợc đƣa vào các phản ứng giải trình tự riêng biệt cùng với một trong bốn loại dideoxynucleotides. Khi phản ứng đã hoàn tất, bốn phản ứng đƣợc gộp lại và chạy cùng nhau trong một làn của gel giải trình tự polyacrylamide. Một cảm biến laser bốn màu sẽ quét qua các đoạn di chuyển trong gel. Tín hiệu huỳnh quang của từng đoạn sau đó đƣợc gửi tới một máy tính với phần mềm Luận văn thạc sĩ Nguyễn Đức Hiếu 15 K23 Sinh học thực nghiệm đƣợc thiết kế để nhận diện các base (hình 1.2). Phƣơng pháp này đƣợc thƣơng mại hóa vào năm 1987 bởi Applied Biosystems. Hình 1.3. Cấu trúc và phổ phát xạ huỳnh quang của bốn loại dye succinylfluorescein được phát triển bởi DuPont [92]. A. Cấu trúc của bốn loại dye succinylfluorescein. B. Phổ phát xạ huỳnh quang của các loại dye tại bước sóng kích thích 480 nm . James M. Prober và các đồng nghiệp tại DuPont đã thực hiện bƣớc phát triển tiếp theo của phƣơng pháp giải trình tự gắn huỳnh quang. Trong đó thay vì gắn huỳnh quang vào mồi, họ gắn tín hiệu vào chính các kết thúc dideoxy. Một bộ dye sẽ bao gồm các succinylfluorescein, thay đổi bƣớc sóng phản xạ thông qua các nhóm phụ khác nhau. Các dye SF505, SF512, SF519, và SF526 đƣợc gắn lần lƣợt vào ddG, ddA, ddC, và ddT. Phổ phát xạ của bốn loại thuốc nhuộm đƣợc thể hiện trong hình 1.3. Tất cả bốn loại dye đều đƣợc kích thích bằng laser bƣớc sóng 480 nm và mỗi loại sẽ phát ra một tín hiệu khác nhau đƣợc phát hiện bởi hệ thống cảm biến. Với hệ thống phát hiện này, phản ứng giải trình tự có thể đƣợc thực hiện trong một ống duy nhất với tất cả bốn loại ddNTP và quá trình đọc trình tự đƣợc thực hiện chỉ trong một làn duy nhất [67]. Luận văn thạc sĩ Nguyễn Đức Hiếu 16 K23 Sinh học thực nghiệm DuPont thƣơng mãi hóa công nghệ của chính mình trong một thời gian ngắn và sau đó bán cho Applied Biosystems. Hình 1.4. Sơ đò biểu diễn của một hệ thống giải trình tự DNA mao quản [92]. A. Các thiết lập cơ bản của một hệ thống mao quản. Phản ứng giải trình tự được chứa trong ngăn chứa mẫu, đệm điện di được chứa trong ngăn thứ hai, mao quản được bơm đầy polymer, một điện thế được đưa vào hai đầu mao quản. B. Tín hiệu phát ra từ các đoạn giải trình tự khi đi qua laser quét được thu nhận thông qua các cảm biến sáng và thông tin sẽ được chuyền về máy tính. C. Biểu đồ tín hiệu đầu ra. Vào những năm 1990, Applied Biosystems đã tiếp tục có những sự tinh chỉnh đối với các hóa chất và thiết bị cảm biến. Các thuốc nhuộm huỳnh quang đã đƣợc thay đổi thành một loạt các dẫn xuất của rhodamine, ddG, ddA, ddC, và ddT lần lƣợt đƣợc gắn với dichloroROX, dichloroR6G, dichloroR110 và dichloroTAMRA. Mặc dù những cải thiện này dẫn đến tăng đáng kể hiệu suất giải trình tự DNA, hệ thống vẫn Luận văn thạc sĩ Nguyễn Đức Hiếu 17 K23 Sinh học thực nghiệm phải sử dụng gel acrylamide vốn cần quá nhiều thao tác và không phù hợp với một hệ thống thông lƣợng cao. Đến những năm 1990, Harold Swerdlow và các đồng nghiệp đã sử dụng điện di mao quản trong giải trình DNA [88, 89]. Mao quản có kích thƣớc nhỏ, đƣờng kính bên trong chỉ 50μm, chúng có khả năng tản nhiệt rất hiệu quả do diện tích bề mặt lớn. Điều này có nghĩa rằng hệ thống mao quản có thể chạy với điện áp cao hơn nhiều từ đó giảm đáng kể thời gian chạy. Quan trọng nhất, các hệ thống mao quản có thể chạy tự động, ƣu điểm lớn so với hệ thống dựa trên gel. Cuối cùng vào năm 1993, B.L. Karger và các đồng nghiệp báo cáo về việc sử dụng một loại chất nền phân tách độ nhớt thấp có thể bơm vào các mao quản với áp suất tƣơng đối thấp [74]. Loại polyme này có thể rửa ra và thay thế sau quá trình sử dụng. Đây là tất cả các yếu tố cần thiết để phát triển một nền tảng giải trình tự thông lƣợng cao (hình 1.4). Hiện nay hệ thống đƣợc phát triển có thể giải trình tự các đoạn DNA có độ dài 500-1000 base chỉ trong vài giờ. 1.5. Phƣơng pháp phân tích sự chủng loại phát sinh 1.5.1. Cây chủng loại phát sinh Trƣớc thời điểm ra đời công nghệ giải trình tự DNA, thuật ngữ cây chủng loại phát sinh hầu nhƣ chỉ đƣợc sử dụng để mô tả các mối quan hệ giữa các loài trong hệ thống học (systematic) và phân loại học (taxonomy). Ngày nay, khái niệm này đƣợc sử dụng trong hầu hết các ngành của sinh học. Ngoài việc thể hiện các mối quan hệ của các loài, cây còn có thể đƣợc sử dụng để mô tả mối quan hệ về nguồn gốc của các họ gen [58], lịch sử phát sinh quần thể [22], quá trình biến đổi dịch tễ của các tác nhân gây bệnh [32, 57], mối quan hệ của các tế bào sinh dƣỡng trong suốt quá trình biệt hóa hoặc phát triển của ung thƣ [78]. Gần đây, phân tích sự chủng loại phát sinh sử dụng công cụ phân tử đã trở thành một công cụ không thể thiếu khi so sánh các hệ gen, phân loại các trình tự metagenomics [14], để xác định gen, các yếu tố điều hòa và các RNA không mã hóa nằm trên các hệ gen sau khi đã đƣợc giải trình tự [44, 51, 65], phân tích Luận văn thạc sĩ Nguyễn Đức Hiếu 18 K23 Sinh học thực nghiệm genome của các cá thể hiện đại và cổ đại [31, 33, 50], hoặc tái tạo lại genome tổ tiên [55]. Một cây chủng loại phát sinh sẽ bao gồm các điểm nút và từ các điểm nút đó sẽ chia ra thành các nhánh. Mỗi nhánh biểu diễn cho sự tồn tại của một đối tƣợng di truyền theo thời gian và mỗi điểm nút đánh dấu thời điểm ra của các đối tƣợng mới. Nếu cây biểu diễn mối quan hệ di truyền giữa một nhóm các loài, mỗi điểm nút sẽ đại diện cho một sự kiện đặc biệt nào đó. Ví dụ, trong một cây đƣợc xây dựng dựa trên trình tự của các đối tƣợng cần nghiên cứu, mỗi điểm nút sẽ đại diện cho sự phát sinh của các cá thể đƣợc coi là tổ tiên của các mẫu này, trong khi đó đối với cây đƣợc xây dựng để biểu diễn một họ gen, các điểm nút sẽ đại diện cho các điểm trùng lặp gen [99]. Cây chủng loại phát sinh không đƣợc vẽ trực tiếp mà đƣợc suy ra từ các dữ liệu của trình tự hoặc các loại dữ liệu khác. Phƣơng pháp xây dựng cây chủng loại phát sinh sẽ dựa vào khoảng cách tính toán đƣợc hoặc các đặc điểm của dữ liệu. Đối với các phƣơng pháp sử dụng ma trận khoảng cách, tùy theo từng loại phƣơng pháp riêng khoảng cách giữa các giữa các trình tự đƣợc tính toán lần lƣợt theo cặp, sau đó ma trận sẽ tổng hợp các kết quả khoảng cách lại và sử dụng chúng để dựng cây. Ví dụ, phƣơng pháp Neighbor joining áp dụng thuật toán gộp nhóm vào tính toán ma trận khoảng cách để xác định sự chủng loại phát sinh [76]. Các phƣơng pháp phân tích dựa trên các đặc điểm của dữ liệu phân tích nhƣ Maximum parsimony, Maximum likelihood và Bayesian. Những phƣơng pháp này sẽ đồng thời so sánh tất cả các trình tự đã đƣợc sắp xếp, xem xét các đặc điểm tại cùng một vị trí sắp xếp, cùng một thời điểm để tính toán ra một loại chỉ số gọi là điểm số của cây. “Điểm số của cây” đƣợc tính toán theo công thức khác nhau tùy theo phƣơng pháp, đối với Maximum parsimony là giá trị thay đổi nhỏ nhất, đối với Maximum likelihood là log của khả năng xảy ra (log-likelihood) và đối với Bayesian là xác suất hậu nghiệm. Theo lí thuyết, cây có điểm số cao nhất đƣợc xác định bằng cách so sánh điểm số của tất cả các cây có khả năng xảy ra. Tuy nhiên Luận văn thạc sĩ Nguyễn Đức Hiếu 19 K23 Sinh học thực nghiệm trong thực tế, do số lƣợng cây có thể xảy ra rất lớn, việc tìm kiếm toàn bộ là không khả thi ngoại trừ trƣờng hợp đối với lƣợng dữ liệu nhỏ. Thay vào đó, các thuật toán tìm kiếm cây mô phỏng đƣợc sử dụng. Cách tiếp cận này thƣờng tạo ra các cây ban đầu bằng các thuật toán nhanh, sau đó thực hiện sắp xếp lại tại các vị trí để tăng điểm số của cây lên. Cách tìm kiếm cây mô phỏng sẽ không đảm bảo tìm ra đƣợc cây tốt nhất theo lý thuyết nhƣng đó là một phƣơng pháp khả thi khi phân tích lƣợng dữ liệu lớn. Để biểu diễn số liệu, cả phƣơng pháp ma trận khoảng cách, Maximum likelihood và Bayesian đều sử dụng những mô hình thay thế đƣợc đặt ra trong khi Maximum pasrsimony không có một mô hình rõ ràng và các giá trị của nó đƣợc ẩn đi [99]. 1.5.2. Phương pháp Bayesian Cơ sở cho phân tích Bayesian cũng là các phƣơng pháp chung của suy luận thống kê. Tuy nhiên phƣơng pháp này khác với Maximum likelihood ở các tham số đƣợc sử dụng, chúng là các biến ngẫu nhiên đối với phƣơng pháp Bayesian và là các hằng số cố định chƣa biết đối với phƣơng pháp Maximum likelihood. Trƣớc khi phân tích các dữ liệu, các tham số đƣợc gắn cho một phân bố tiền nghiệm, sau đó kết hợp với các dữ liệu để tìm ra phân bố hậu nghiệm. Hiện này phân tích Bayesian trở nên phổ biến nhờ những tiến bộ trong phƣơng pháp tính toán, đặc biệt là thuật toán Markov chain Monte Carlo (MCMC) [99]. Cả hai phƣơng pháp Bayesian và likelihood đều sử dụng hàm “khả năng có thể xảy ra” và do đó chúng có chung nhiều ƣu điểm thống kê nhƣ tính thống nhất và hiệu quả [98]. Tuy nhiên, cách suy luận thống kê của hai phƣơng pháp này là đối lập, do đó điểm mạnh và điểm yếu của phƣơng pháp sẽ phụ thuộc vào của từng loại phƣơng pháp. Điểm mạnh của phân tích Bayesian là phƣơng pháp này có thể đƣa ra câu trả lời trực tiếp và hiệu quả các kết quả thông qua việc biểu diễn xác suất hậu nghiệm, đó đơn giản chỉ là xác suất để cây đó là chính xác, biểu diễn nó dƣới dạng dữ liệu và mô hình. Ngƣợc lại, trong khi việc phân tích chủng loại phát sinh vẫn chƣa thể xác định một khoảng tin cậy của cây phát sinh thì việc sử dung khái niệm khoảng tin cậy giả định có Luận văn thạc sĩ Nguyễn Đức Hiếu 20 K23 Sinh học thực nghiệm thể gây khó

Các file đính kèm theo tài liệu này:

01050003379_1_6376_2002677.pdf