Luận văn Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - áp dụng trên cây sinh loài nhỏ

MỤC LỤC

LỜI CAM ĐOAN .1

LỜI CẢM ƠN .2

TÓM TẮT LUẬN VĂN .3

DANH MỤC BẢNG .4

DANH MỤC HÌNH .5

MỤC LỤC .6

Chương 1. GIỚI THIỆU ĐỀTÀI .9

1.1. Giới thiệu . 9

1.2. Cấu trúc luận văn . 10

Chương 2. CƠSỞLÝ THUYẾT VỀCÁC CẤU TRÚC ĐẠI SỐVÀ XÁC SUẤT

THỐNG KÊ .12

2.1. Một sốcấu trúc đại sốcơbàn . 12

2.1.1. Lý thuyết nhóm .12

2.1.2. Lý thuyết vành .13

2.1.3. Trường .14

2.1.4. Vành đa thức .14

2.1.5. Ma trận .15

2.1.6. Định thức .15

2.1.7. Không gian vector.16

2.1.8. Đa tạp đại số.18

2.2. Các khái niệm vềxác suất thống kê . 18

2.2.1. Định nghĩa vềxác suất.18

2.2.2. Xác suất có điều kiện .19

2.2.3. Đại lượng ngẫu nhiên và hàm phân phối .20

2.2.4. Các đặc trưng của đại lượng ngẫu nhiên.20

2.2.5. Lý thuyết mẫu .21

2.2.6. Ước lượng tham số.22

2.2.7. Sơlược về ước lượng hợp lý cực đại .22

Chương 3. ƯỚC LƯỢNG HỢP LÝ CỰC ĐẠI TRÊN MẪU QUAN SÁT.25

3.1. Ước lượng hợp lý cực đại là gì? . 25

3.1.1. Đặt vấn đề.25

3.1.2. Khái quát về ước lượng hợp lý cực đại.25

3.1.3. Ví dụvề ước lượng hợp lý cực đại .26

3.2. Giải bài toán ước lượng hợp lý cực đại. 26

3.2.1. Nguyên lý ước lượng hợp lý cực đại .26

3.2.2. Logarit hàm hợp lý.26

3.3. Tổng quát hóa bài toán ước lượng hợp lý cực đại . 27

3.3.1. Ước lượng hợp lý cực đại trên mẫu quan sát .27

3.3.2. Một sốphương pháp giải phương trình hợp lý .28

Chương 4. CÂY SINH LOÀI - MÔ HÌNH XÁC SUẤT THỐNG KÊ TRÊN CÂY

SINH LOÀI .30

4.1. Giới thiệu sơlược vềcây sinh loài . 30

4.2. Các nghiên cứu phát sinh sinh loài. 31

4.3. Mô hình ước lượng hợp lý cực đại trên cây sinh loài . 32

4.4. Mô hình tiến hóa . 33

Chương 5. BẤT BIẾN TRÊN CÂY SINH LOÀI .37

5.1. Dẫn nhập. 37

5.2. Mô hình xác suất trên cây sinh loài. 38

5.2.1. Mô hình bài toán cây sinh loài .38

5.2.2. Nhóm Abel và sựliên hệvới các ma trận chuyển đổi .39

5.3. Biến đổi Fourier . 40

5.4. Toạ độFourier . 42

5.5. Áp dụng tìm bất biến trên một cây sinh loài . 42

5.5.1. Mô hình bài toán .42

5.5.2. Các khảnăng xảy ra trên các nút lá .43

5.5.3. Các lớp xác suất tương đương .43

5.5.4. Chuyển đổi Fourier .44

5.5.5. Kết quảtìm được .45

5.6. Những tính chất của thành phần bất biến. 46

Chương 6. GIẢI PHƯƠNG TRÌNH HỢP LÝ.47

6.1. Quỹtích hợp lý trên một đa tạp . 47

6.2. Ma trận Jacobi của các đa thức bất biến. 47

6.2.1. Gradient- Vector vận tốc.47

6.2.2. Ma trận Jacobi của các đa thức bất biến .48

6.2.3. Không gian tiếp xúc .49

6.3. Bài toán cực trị điều kiện . 49

6.4. Bậc của hợp lý cực đại . 50

6.5. Các thuật toán . 50

6.6. Áp dụng giải phương trình hợp lý. 51

Chương 7. CHƯƠNG TRÌNH THỰC HIỆN .53

7.1. Sơ đồkhối chương trình. 53

7.2. Sơlược vềchương trình . 54

7.3. Kết quảchương trình . 54

Chương 8. TỔNG KẾT – ĐÁNH GIÁ .57

8.1. Tổng kết . 57

8.2. Những đóng góp của luận văn . 57

8.3. Hướng phát triển . 58

TÀI LIỆU THAM KHẢO.59

76 trang | Chia sẻ: lethao | Lượt xem: 3053 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận văn Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - áp dụng trên cây sinh loài nhỏ, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 27 Công thức này thoạt nhìn không có vẻ đơn giản, nhưng thật ra nó rất dễ dàng khi tính đạo hàm cho log likelihood trong trường hợp này cũng như nhiều trường hợp khác. Lấy đạo hàm và cho chúng bằng 0, chúng ta được: ' (1 ) ( )( ) 0 1 .(1 ) .(1 ) H T H T H H T D N N N N N N Nl θ θ θθ θ θ θ θ θ θ − − − += − = = =− − − TH H NN N +=⇔θ Bảng 1: Bảng biến thiên của hàm hợp lý với θ là nghiệm chúng ta cần tìm, phù hợp với những gì chúng ta mong muốn. Theo ví dụ trên nếu (NH, NT ) = (3, 2) và MLE tính được là 3 0.6 5 = . Đồ thị của hàm hợp lý cho ta thấy ở hình 2. Hình 2: Đồ thị của hàm hợp lý 3.3. Tổng quát hóa bài toán ước lượng hợp lý cực đại 3.3.1. Ước lượng hợp lý cực đại trên mẫu quan sát Nếu x là biến ngẫu nhiên với hàm phân bố: [ ] 1 2( , , ..., )x i Kf θ θ θ với 1 2, , ..., Kθ θ θ là K tham số cần phải ước lượng, với dãy N mẫu độc lập là x[1], x[2], ..., x[N]. Thì hàm likelihood được cho bởi tích sau: 1 2 [ ] 1 2 1 ( , , ..., ) ( , , ..., ) N D K x i i L f Kθ θ θ θ θ θ = =∏ Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 28 và hàm ln likelihood như sau: [ ] 1 1 1 ( ) ln ( ) ln ( , , ..., ) N D D x i k i L fθ θ θ θ = = =∑A θ MLE của 1 2, , ..., Kθ θ θ đạt được khi ( )DL θ hay ( )D θA là lớn nhất, chúng ta đã biết xác định giá trị lớn nhất với ( )D θA dễ hơn với ( )DL θ , vậy MLE của 1 2, , ..., Kθ θ θ là giải hệ K phương trình sau: ( ) 0, 1,2, ..., j j Kθ ∂ = =∂ A Ví dụ: Tung một con xúc sắc có K = 6 mặt, chúng ta muốn xác định những tham số 1 2, ,..., Kθ θ θ là xác suất của mặt có nút tương ứng 1, 2,…, K nhận được khi tung xúc sắc. Từ quan sát ta có 1 2, ,..., KN N N là số lượng tương ứng của từng mặt khi quan sát. Theo công thức hàm khả năng sẽ: 1 ( ) j K N D j j L θ θ = =∏ và hàm ln likelihood tương ứng sẽ là: 1 ( ) ln ( ) ln( ) K D D i i l L N iθ θ θ = = =∑ Sau khi giải hệ phương trình ( ) 0, 1,2,..., j l j Kθ ∂ = =∂ chúng ta được: 1 k k K l l N N θ = = ∑ với k =1, …, K 3.3.2. Một số phương pháp giải phương trình hợp lý Theo trên, giải phương trình hợp lý làm cực đại phương trình: 1 2( ) ( ) ( ) ... ( )1 2 u u nL f f f n uθ θ θ θ= với iu ∈` . Hiện nay có hai hướng tiếp cận khác nhau để giải quyết bài toán này, trong mỗi phương pháp có những ưu và khuyết điểm riêng của nó: Phương pháp gần đúng: Giải phương trình hợp lý bằng phương pháp tìm kiếm cục bộ, heuristics, …Ưu điểm của phương pháp này là nhanh chóng, có thể giải quyết Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 29 trên những bài toán lớn. Nhược điểm lớn nhất của phương pháp này là tính tin cậy không cao. Phương pháp tính toán đại số: Ngược lại với phương pháp gần đúng trên, phương pháp tính toán đại số hiện nay chỉ giải quyết được với những bài toán nhỏ, nhưng cho kết quả chính xác. Với sự tiến bộ của khoa học kỹ thuật nói chung và ngành máy tính cũng như lãnh vực đại số máy tính nói riêng, đã mở ra con đường cho hướng tiếp cận này. Vì lý do trên phương pháp này được chọn sử dụng để giải quyết bài toán ước lượng hợp lý cực đại - áp dụng trên cây sinh loài nhỏ. Để hiểu rõ cây sinh loài, ước lượng hợp lý cực đại trên cây sinh loài chúng ta tìm hiểu sơ qua cây sinh loài và mô hình xác suất thống kê trên cây sinh loài ở chương sau. Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 30 Chương 4. CÂY SINH LOÀI - MÔ HÌNH XÁC SUẤT THỐNG KÊ TRÊN CÂY SINH LOÀI Chương này giới thiệu cây sinh loài cũng mô hình xác suất thống kê trên cây sinh loài. Ngoài ra cũng giới thiệu một số mô hình thường sử dụng hiện nay trên cây sinh loài như mô hình Neyman 2 trạng thái, Jukes – Cantor, Kimura với 2 và 3 tham số. 4.1. Giới thiệu sơ lược về cây sinh loài Cây sinh loài (còn gọi là cây tiến hóa hay là cây chủng loài) mô tả lịch sử tiến hóa của một nhóm các loài (species) với những đặc tính khác nhau nhưng cùng có mối quan hệ họ hàng với nhau và cùng hình thành từ một tổ tiên chung trong quá khứ. Có nhiều hướng nghiên cứu khác nhau để chứng minh đặc điểm phát sinh sinh loài này. Trước hết, người ta có thể so sánh trình tự các đoạn DNA (thuộc sinh học phân tử hay hệ gene học (genomics); hoặc so sánh các hóa thạch (fossil) hoặc các di chỉ (record) của sinh vật cổ (thuộc khảo cổ học - paleontology). Các nhà sinh học tổ chức và phân tích các mối quan hệ tiến hóa thông qua các phương pháp khác nhau, bao gồm phân loại học (phylogenetics), ngoại hình học (phenetics) và cladistics. Các sự kiện chính xảy ra trong quá trình tiến hóa của sự sống được xây dựng thành biểu đồ thời gian của tiến hóa (evolutionary timeline) dựa trên các hiểu biết hiện nay của khoa học. Hình 3 cho ta thấy hình dạng của cây sinh loài sự sống trên hành tinh chúng ta. Hình 3: Cây sinh loài của sự sống Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 31 4.2. Các nghiên cứu phát sinh sinh loài Trong ngành sinh học, người ta nghiên cứu mối quan hệ giữa các loài sinh vật thông qua các bằng chứng phân tử, cụ thể là trình tự DNA và protein. Như vậy sự khác biệt giữa các trình tự (DNA) chỉ định sự phân kỳ di truyền như là kết quả của tiến hóa phân tử theo tiến trình thời gian. Các phương pháp dùng để nghiên cứu phát sinh sinh loài chủ yếu dựa trên một sự giả định về các tiến trình tiến hóa ở mức phân tử thông qua việc quan sát phân tích trình tự DNA hoặc protein. Bằng cách sử dụng công cụ máy tính, các chuỗi dữ liệu sẽ được mô phỏng tiến trình tiến hóa và phân tích tiến trình phát sinh sinh loài. Giả sử là chúng ta có một “cây tiến hóa đúng”, chúng ta có thể dùng nó để kiểm tra lại độ chính xác, tính nhất quán khả năng tin cậy của những mô hình tiến hóa. Tuy nhiên khi sử dụng các dữ liệu sinh học, cái gọi là cây tiến hóa có thể không bao giờ có, hoặc ít ra cũng có thể nói là KHÔNG BIẾT. Do vậy người ta chấp nhận một cây tiến hóa được dựng nên mà người ta tin là nó GIỐNG NHẤT với cây tiến hóa đúng. Trong các bước trình tự cơ bản để cho một nghiên cứu phát sinh sinh loài thì đánh giá sự phát sinh sinh loài cũng là một bước không thể bỏ qua. Sau đây là một số phương pháp được sử dụng hiện nay: Phương pháp Hà tiện tối đa (Maximum parsimony), một sự giả định cho rằng cây tiến hóa tốt nhất mổ tả tiến trình tiến hóa tốt nhất chính là cây mô tả được các loài ít thay đổi nhất tức là có ít đột biến nhất, cây vì thế có điểm thấp nhất (hà tiện) theo một tiêu chuẩn định sẵn. Phương pháp Khoảng cách (Distance method): Khác với phương pháp parsimony có mô hình tiến hóa là một hàm ẩn, thì phương pháp khoảng cách lại có mô hình tiến hóa là một hàm hiện. Trong phương pháp này từng cặp trình tự một sẽ được so sánh thẳng hàng cặp đôi và ứng với từng cặp, khoảng cách di truyền sẽ được tính toán. Do mô hình tiến hóa là một hàm hiện nên một trong số mô hình tiến hóa có thể được chọn để tính toán khoảng cách di truyền giữa từng cặp taxa từ đó cho ra một ma trận khoảng cách giữa tất cả các taxa. Và để có được cây tiến hóa, phương pháp phân rã hình ngôi sao thường được sử dụng ví dụ phương pháp neighbor-joining(liên kết cận kề). Do phương pháp neighbor-joining mà một trong những phương pháp nhanh nhất để dò tìm cây tiến hóa nên nó thường được sử dụng để phân tích khối dữ liệu lớn với nhiều taxa. Phương pháp Hợp lý cực đại (Maximum Likelihood) là phương pháp tiêu tốn nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất. Mô hình tiến hóa dùng trong phương pháp này cũng là một hàm hiện. Ứng với mỗi mô hình tiến hóa được chọn, phương pháp này sẽ tính toán khả năng xác suất mà một cây tiến hóa có thể có từ chuỗi trình tự phân tích. Cây tiến hóa có xác suất cao nhất là cây cuối cùng được chọn. Chúng ta tập trung vào phương pháp ML, để hiểu được điều này chúng ta bắt đầu với những ví dụ cụ thể để mô hình hóa bài toán trên cây sinh loài. Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 32 4.3. Mô hình ước lượng hợp lý cực đại trên cây sinh loài Cho S1, S2, …, SN là một dãy mẫu DNA mà chúng ta có. Để đơn giản, giả thiết rằng mọi chuỗi trên có cùng chiều dài. Chúng ta muốn xác định những tham số của một cây sinh loài thông qua dãy mẫu trên và làm cực đại khả năng có thể xảy ra. Để giải bài toán này ta cần chỉ rõ một mô hình xác suất. Cho đơn giản, giả thiết “DNA” của chúng ta chỉ có hai trạng thái X và Y. Cạnh e được gán xác suất , có nghĩa là xác suất những thay thế (X ÙY) ngang qua e là (Hình 4). ep ep Hình 4: Mô tả xác suất chuyển đổi trạng thái của chuỗi “DNA” Phải chăng cạnh e được gán xác suất , có nghĩa xác suất của những mẫu liên quan thay thế ngang qua e, ví dụ XXYXYÙYXYXX được xác định rõ, và dễ dàng tính toán hàm Likelihood cho mẫu này: . ep 2 3(1 )e ep p− Qua bài toán trên có câu hỏi đặt ra như sau: Cái gì “hợp lý” mẫu trên? Có nghĩa là tìm kiếm mà nó làm cực đại xác suất của các mẫu trên. ep Mở rộng mô hình bài toán trên, mô hình mới của chúng ta sẽ gồm có một cây thông thường, nhưng ngoài ra các cạnh được gán những xác suất thay thế. Ví dụ ở đây, cây có 4 taxa. Những taxa này là sinh vật hoặc là gen, mỗi một taxa được mô tả bởi chuỗi DNA: Human: ATGGCTATTCTTATAGTACG Mouse: BATCGCTAGTCTTATATTACA Rate: TTCACTAGACCTGTGGTCCA Chicken: TTGACCAGACCTGTGGTCCG Hình 5: Cây sinh loài với các nút trong và xác suất chuyển đổi Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 33 Bây giờ chúng ta không biết trạng thái ở tại nút trong, đồng thời cũng không biết những tham số cạnh (Hình 5). 1 2 3 4 5 5 , , , , , ,e e e e e e ep p p p p p p 6 Hai hướng được đưa ra: 1. Cực đại qua những trạng thái của những nút bên trong. 2. Trung bình qua những trạng thái của những nút bên trong. Trong cả hai trường hợp, chúng ta đều làm cực đại những tham số qua cạnh. Trong hướng đầu tiên (trung bình, hoặc tổng những trạng thái những nút trong) chúng ta đang tìm kiếm “thích hợp nhất” đặt trên những cạnh của cây. Hướng này được gọi là cực đại khả năng cây sinh loài. Trong hướng này ML có lẽ là phương pháp suy diễn rộng rãi nhất được sử dụng hiện nay. Trong hướng thứ hai (làm cực đại qua những trạng thái của những nút trong) Chúng ta đang tìm kiếm “thích hợp nhất” những trạng thái tổ tiên. Hướng này được cực đại khả năng xảy ra ở tổ tiên (ancestral maximum likelihood -AML). Hướng thứ hai cũng phải sử dụng phương pháp ML bởi vì mục tiêu cuối cùng cũng phải là cực đại khả năng. 4.4. Mô hình tiến hóa Trong sinh vật học, quá trính tiến hóa là một quá trình phức tạp. Trong quá trình đó, các chuỗi gen phân kỳ từ cùng một tổ tiên. Nhưng vì sự đột biến và chia rẽ của sự đột biến đó làm tiến hóa cộng đồng bởi sự chọn lọc. Kết quả là sự thay đổi trạng thái của một nucleotide này thành một nucleotide khác ở những vị trí khác nhau. Trong việc tái cấu trúc cây sinh loài, chúng ta cần phải chấp nhận mô hình với một số giả định về quá trình cũng như trạng thái thay thế sau: - Mô hình đơn giản nhất là mô hình mà trong đó khả năng của bất kỳ nucleotide nào thay đổi thành bất kỳ nucleotide khác là bằng nhau. - Dự đoán khả năng rằng một nucleotide cụ thể ở một vị trí cụ thể sẽ thay đổi thành một nucleotide xác định khác trong một khoảng thời gian, cái chúng ta cần biết ở đây là tỷ lệ tức thời của sự thay đổi. Ma trận tỷ lệ (hoặc ma trận Q) là ma trận vuông ( ijQ q )= , với chỉ mục hàng và cột cho bởi { , , , }A C G T∑ = . Chúng ta cũng có thể sử dụng ký tự nhị phân hoặc 20 kí tự của amino axit cho tập . Ma trận tỷ lệ phải thỏa những yêu cầu sau: ∑ 0ijq ≥ với i j≠ 0ij j q ∈∑ =∑ cho tất cả i∈∑ , 0iiq < với tất cả i∈∑ Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 34 Ma trận tỷ lệ có được từ ý nghĩa từ tỷ lệ tức thời của đột biến. Từ ma trận tỷ lệ Q, chúng ta có thể tính được ma trận thay thế ( )tθ bởi hàm mũ theo công thức sau: 0 1( ) ! Qt i i i t e Q t i θ ∞ = = =∑ Phần tử của ( )tθ ở dòng i và cột j chính là xác suất mà sự thay đổi xảy ra trong một khoảng thời gian là t. i → →" j Mô hình đơn giản có một tham số và được biết là mô hình Jukes-Cantor với tỷ lệ chuyển đổi từ một nucleotide này đến một nucleotide khác là bằng nhau như sau: 3 3 3 3 A G C T A G Q C T α α α α α α α α α α α α α α α α −⎛ ⎞⎜ ⎟−⎜ ⎟= ⎜ ⎟−⎜ ⎟−⎝ ⎠ Và ma trận thay thế tương ứng là: 4 4 4 4 4 4 4 4 4 4 4 4 4 1 3 1 1 1 1 1 3 1 11( ) 4 1 1 1 3 1 1 1 1 1 3 t t t t t t t t t t t t t e e e e e e e e t e e e e e e e e α α α α α α α α α α α α α θ − − − − − − − − − − − − − − − − ⎛ ⎞+ − − −⎜ ⎟− + − −⎜ ⎟= ⎜ ⎟− − + −⎜ ⎟⎜ ⎟− − − +⎝ ⎠ 4 4 4 t t t α α α Ma trận ( )tθ thỏa: các phần tử của ma trận đều lớn hơn hoặc bằng 0 và nhỏ hơn hoặc bằng 1, tổng các phần tử trên một hàng bằng 1. Chúng ta cần xác định tính hợp lý mô hình trên. Giả sử chúng ta có G ở vị trí nào đó ở thời điểm t = 0, chúng ta hỏi rằng khả năng bao nhiêu ở đó vẫn là G vào thời điểm t (kí hiệu ), và tương tự như vậy khả năng là bao nhiêu nếu như A thay thế vào vị trí đó (kí hiệu ). Nếu tỉ lệ thay đổi là α trên đơn vị thời gian như mô hình Jukes - Cantor trên, thì: ( ) ( )GGP t ( ) ( )GAP t -4 ( ) 1 3( ) 4 4 tGGP t e α= + và -4( ) 1 1( ) 4 4 t GAP t e α= − Cũng theo mô hình Jukes-Cantor thì tất cả thay thế là như nhau, nên phát biểu chung là: -4 ( ) 1 3( ) 4 4 tiiP t e α= + và -4( ) 1 1( ) 4 4 t ijP t e α= − Ta thấy: Khi thì và , 0t → ( ) ( ) 1iiP t → ( ) ( ) 0ijP t → Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 35 Khi t thì →∞ ( ) 1( ) 4iiP t → và ( ) 1( ) 4ij P t → Điều này rõ ràng là phù hợp với thực tế của mô hình Jukes - Cantor, vì tại một thời điểm tức thời việc giử nguyên trạng thái với xác suất rõ ràng là bằng 1 và chuyển trạng thái này sang trạng thái khác là 0. Tương tự khi thời gian vô cùng lớn thì việc chuyển đổi trạng thái từ một nucleotide này sang một nucleotide khác hay giữ nguyên trạng thái là bằng nhau và bằng 0.25. Hiện nay, ngoài mô hình Jukes-Cantor còn có một số mô hình khác thường sử dụng như: Kimura-2, Kimura-3,…. Trong các mô hình này có sự khác nhau về tỉ lệ thay đổi trạng thái giữa các cơ sở. Khi sử dụng mô hình tiến hóa để tái cấu trúc cây, một là gán giá trị cụ thể cho tỉ lệ hoặc là ước lượng giá trị từ dữ liệu. Những mô hình này hoàn toàn giả định rằng các tốc độ là như nhau ở tất cả các vị trí. ML cố gắng suy ra một cây sinh loài bằng cách tìm ra cây mà cực đại khả năng đối với dữ liệu mẫu. Ví dụ: Dữ liệu mẫu ở đây là những chuỗi bằng nhau của nucleotides hoặc amino acids (chiều dài mỗi chuỗi N=32): TCAAAAATGGCTTTATTCGCTTAATGCCGTTA TCCGTGATGGATTTATTTCTGCAATGCCTGTC TTCGTGATGGATTTATTGTTGGTATGCCAGTC TTCGTGACGGGTTTATCTTGGCAATGCCGGTC Chúng ta bắt đầu với một mô hình tiến hóa cho bởi ma trận ( )tθ và một giả định một số hình dáng cây với chiều dài tương ứng. Có 15 khả năng cho các dạng cây có gốc với 4 taxa, một trong những cây đó là hình 6, trong đó các đỉnh ở lá tương ứng với các dữ liệu dóng theo cột được đánh dấu đánh đậm trên 4 chuỗi trên. Hình 6: Một trong những cây sinh loài 4 taxa Chúng ta không biết các nucleotide ở nút X và Y, nhưng có 4 khả năng xảy ra cho mỗi nút X và Y, vậy có có 16 trường hợp có thể xảy ra ở cây trên, một trong những trường hợp đó là hình 7. Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 36 Hình 7: Cây sinh loài với dữ liệu trên nút lá và các khả năng xảy ra ở các nút tổ tiên Xác xuất cho sự kiện mà mẫu quan sát A ở gốc là PA, bằng tần suất xuất hiện của A và thường được lấy bằng 0.25, giá trị này xác định được do thực nghiệm và độc lập với mô hình. Xác suất chuyển đổi từ A ở gốc đến G ở lá được tính toán từ ma trận ( )tθ và chiều dài của nhánh từ A đến G là ( )AGP . Vậy xác suất của cây là: 1 ( ) ( ) ( ) ( ) (. . . . . tree A AG AC AT TT TP P P P P P P= )T . Bởi vì có 16 trường hợp như vậy, xác suất của cây được tính bằng tổng các khả năng như sau: _ 1 2 tree i tree tree treeP P P P= + + +" 16 Đây chỉ là xác suất cho cây với dữ liệu quan sát ở một vị trí i được đánh dấu màu đậm ở các chuỗi trên. Khả năng của toàn bộ dữ liệu mẫu ở tất cả các vị trí bằng tích các khả năng cho mỗi một vị trí từ 1 đến N _ 1 N TREE tree i i P P = =∏ Áp dụng phương pháp ML là tìm xác suất các _tree iP hay rõ hơn là tìm xác suất chuyển đổi trạng thái trên các nhánh của cây dựa theo tham số của ma trận ( )tθ trên từng nhánh của cây sao cho xác suất đạt giá trị lớn nhất. TREEP Tuy nhiên việc giải bài toán trên là việc giải một hệ thống phương trình phi tuyến với nhiều ẩn số. Việc giải bằng tay là một điều không thể. Hướng giải quyết đưa ra là chọn một phương pháp toán học thích hợp kết hợp những ứng dụng của đại số máy tính hiện nay chúng ta có thể giải quyết bài toán trên với một số cây sinh loài nhỏ với một số mô hình chuyển đổi thường sử dụng.Với cách tiếp cận như vậy chúng ta có thể giải tìm nghiệm chính xác cho bài toán trên. Một trong những phương pháp đó là tìm thành phần bất biến trên cây sinh loài sẽ giới thiệu ở chương sau. Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 37 Chương 5. BẤT BIẾN TRÊN CÂY SINH LOÀI Theo chương trước chúng ta nhận thấy, giải bài toán cây sinh loài dẫn đến giải một bài toán cực đại một phương trình phi tuyến rất nhiều ẩn. Việc làm này khó khả thi ngay cả những cây sinh loài nhỏ. Người ta nhận thấy, đối với những mô hình thường sử dụng, trên cây sinh loài tồn tại những thành phần bất biến. Đối với một cây sinh loài cụ thể thành phần không đổi và không phụ thuộc vào mẫu dữ liệu quan sát. Từ những thành phần bất biến này, thay vì giải bài toán trên các tham số thì ta giải bài toán tương đương dựa trên các thành phần bất biến với sẽ đơn giản hơn. Trong chương này tập trung vào việc tìm tất cả thành phần bất biến. Cuối chương có một ví dụ về bất biến trên một cây sinh loài cụ thể. 5.1. Dẫn nhập Mô hình thống kê đại số mà chúng ta đang xét trên cây sinh loài là một ánh xạ có dạng: : d mf →^ ^ ở đây không gian tổng quát trên trường số phức, tuy nhiên các toạ độ thực tế 1,..., mf f của hàm số là các đa thức có hệ số hữu tỷ, có nghĩa là 1 1,..., [ ,..., ]m df f θ θ∈_ . Sử dụng phương pháp hợp lý cực đại, với các chuỗi dữ liệu quan sát ta có phương trình hợp lý tương ứng sau: mu m u ffL ...11= (1) trong đó là các số nguyên dương. 1,..., mu u Mục tiêu cuối cùng là làm cực đại hàm L trên bằng cách giải các phương trình đạo hàm riêng của nó: 0 0 m i i i i j u f f θ= ∂ =∂∑ với j = 1, .., d (2) Tuy nhiên, khi nghiên cứu bài toán trên cây sinh loài các đa thức 1,..., mf f là những phương trình phi tuyến với nhiều tham số 1, ..., dθ θ , cho nên việc giải bài toán trên với việc giải hệ phương trình (2) là việc làm khó khả thi. Một câu hỏi được đặt ra: các tập ảnh như thế nào khi các mff ,...,1 dθθ ,...,1 chạy trên miền xác định của nó? Nếu chúng ta xác định được tập các ảnh thì thay vì giải quyết bài toán (1) trên các tham số mff ,...,1 dθθ ,...,1 chúng ta chỉ xét bài toán (1) trên các tọa độ sẽ đơn giản hơn nhiều. mff ,...,1 Ví dụ: Chúng ta xét các ví dụ với ánh xạ 2 3:f →^ ^ Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 38 (i) Nếu thì tập ảnh là nghiệm phương trình ),,( 2121 2 1 θθθθθ=f 032 =− ff (ii) Nếu thì tập ảnh là nghiệm phương trình ),2,( 2221 2 1 θθθθ=f 04 31 2 2 =− fff (iii) Nếu thì tập ảnh là nghiệm phương trình ),,( 4221 4 2 5 121 5 1 θθθθθθθθ +++=f 0)()()(2 20231 5 132 4 321 11 =−+−−+−+ fffffffff Qua các ví dụ trên có nhận xét sau: Các đa thức ở dạng những đơn thức thì tập ảnh là nghiệm của những phương trình đơn giản, ngược lại thì là những phương trình bậc rất lớn. mff ,...,1 Quay trở lại bài toán trên cây sinh loài chúng ta quan tâm, những đa thức đối với từng cây cụ thể có tính chất riêng của chúng. Tập hợp ảnh của những tức là tìm tất cả các phương trình quan hệ của chúng. Tập các phương trình như thế được gọi là thành phần bất biến của cây sinh loài. mff ,...,1 mff ,...,1 Mục tiêu của phần này giới thiệu một phép biến đổi có tên là phép biến đổi Fourier để tìm ra tất cả các bất biến trên một cây sinh loài cụ thể. 5.2. Mô hình xác suất trên cây sinh loài 5.2.1. Mô hình bài toán cây sinh loài Cho T là cây có gốc với n lá. Đặt V(T) là tập các nút của T. Với mỗi một , chúng ta kí hiệu biến Xv, mỗi biến này mang 1 trong k giá trị. Trong sinh học, k hầu như có các giá trị 2, 4 và 20. Kí hiệu P(Xv = i) cho xác suất Xv mang trạng thái i. ( )v V T∈ Mối quan hệ giữa các biến ngẫu nhiên Xv được xác định bởi cấu trúc của cây. Đặt π là phân bố của biến Xr tại nút gốc r. Với mỗi một nút ( ) \ { }v V T r∈ , đặt a(v) là nút cha duy nhất của v. Sự chuyển trạng thái từ a(v) đến v được cho bởi ma trận xác suất chuyển đổi A(v) có kích cỡ k k× . Và xác suất phân bố ở mỗi một nút được tính toán đệ quy như sau: ∑ = === k i va v ijv iXPAjXP 1 )( )( )(.)( Công thức này được suy ra từ phân bố trên tất cả biến ngẫu nhiên Xv. Chúng ta gán nhãn các nút lá cho T bởi 1, 2, …, n và ta có xác suất phân bố các biến tại các lá: ),...,,( 2211..21 nniii iXiXiXPp n ==== Trong các ứng dụng sinh học, người ta ước lượng có kn khả năng từ n chuỗi bằng nhau trên k kí tự. Mục đích chúng ta là dựa vào n chuỗi bằng nhau đó, xác định hình dáng cây sinh loài ở quá khứ mà khả năng xảy ra lớn nhất, nói cách khác là tái cấu trúc cây sinh loài. Vậy đầu vào bài toán chúng ta chỉ có n mẫu dữ liệu, tức là n chuỗi DNA tương ứng, các phân bố gốc π và ma trận chuyển trạng thái A(v) là chưa biết. Tuy nhiên để đơn giản cho các bài toán, người ta đưa ra các mô hình đơn giản Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 39 gần với thực tế thường sử dụng là: Phân phối π là phân phối đều và ma trận chuyển trạng thái A(v) được sử dụng là mô hình Jukes - Cantor hay Kimura 2 và 3 trạng thái. Với các giả thiết trên, các bất biến của cây sinh loài của mô hình là một đa thức dựa trên các khả năng ở lá là và triệt tiêu với mọi sự chọn lựa tham số của mô hình. Tập các đa thức là iđêan nguyên tố trên vành đa thức với các biến chưa biết . Mục tiêu chúng ta là tìm các iđêan này. niiip ..21 niiip ...21 5.2.2. Nhóm Abel và sự liên hệ với các ma trận chuyển đổi Ở mô hình Neyman trên 2 kí tự (k = 2) là mô hình với ma trận chuyển đổi ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ − −= vv vvv aa aa A 1 1)( với av là xác suất được tạo ra bởi sự chuyển đổi giữa các trạng thái dọc theo cạnh từ a(v) đến v. Mô hình Kimura với 3 tham số với k = 4 kí tự (đối với chuỗi DNA) có ma trận chuyển đổi sau: ⎟⎟ ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜⎜ ⎜ ⎝ ⎛ −−− −−− −−− −−− = vvvvvv vvvvvv vvvvvv vvvvvv v cbaabc acbacb bccbaa cbacba A 1 1 1 1 )( Mô hình Kimura 2 tham số được định nghĩa như ma trận trên với v vb c= . Tương tự, mô hình Jukes- Cantor với 4 kí tự, ma trận trên với . v va b c= = v Chìa khóa đối với trạng thái các biến ngẫu nhiên vX là nhóm hữu hạn Abel (ví dụ hoặc với phép toán cộng trên các tọa độ và mod cho 2). Giả sử rằng, chúng ta xem các cơ sở {A, G, C, T} như là các phần tử của nhóm Abel, với phép toán được định nghĩa với bảng cộng sau: 2 {0,1}=Z 2 2 {(0,0),(0,1),(1,0),(1,1)}⊕ =Z Z AG C T GA T C C TA G T CG A T C G A TCGA+ Nhóm trên đẳng cấu với nhóm 2 2⊕Z Z , tương ứng với AÙ(0,0), GÙ(0,1), CÙ(1,0), TÙ(1,1). Từ đó dễ thấy rằng, ma trận ở mô hình Kimura 3 tham số có tính chất tương ứng với từng cặp cơ sở . Mặt khác, chúng ta thấy rằng sự chuyển trạng thái từ đến ( , )i jg g ig jg chỉ phụ thuộc vào hiệu ig g j− . Điều đó cũng đúng khi chúng ta xem xét Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ Bùi Văn Đồng Trang 40 đối với mô hình Jukes-Cantor. Vì thế, ma trận chuyển đổi của những mô hình đang quan tâm không gì khác hơn những ma trận trên nhóm chúng ta đang xét. 5.3. Biến đổi Fourier Đặt là nhóm hữu hạn Abel với phép toán được viết như là +. Đặt G { :z z= ∈ =Y C 1} như là vòng tròn đơn vị trên mặt phẳng số phức. Chúng ta thấy rằngYlà một nhóm Abel với phép toán nhân thông thường của số phức. Những đặc trưng của là những đồng cấu nhóm từ vào Y. Nghĩa là G G :χ →G Y là một đặc trưng nếu 1 2 1 2

Các file đính kèm theo tài liệu này:

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ.pdf