Luận văn Xây dựng cơ sở dữ liệu SSRs (Simple Sequence Repeats) từ ESTs (Expressed Sequence Tags) của cây Dứa (Ananas comosus)

MỤC LỤC

Nội dung Trang

LỜI CẢM ƠN .iv

TÓM TẮT KHOÁ LUẬN . v

DANH SÁCH CÁC HÌNH . x

DANH SÁCH CÁC BẢNG .xi

DANH SÁCH CÁC TỪ VIẾT TẮT . xii

Phần 1. Mở đầu . 1

1.1. Đặt vấn đề . 1

1.1.1. Sơ lược về sinh – tin học . 1

1.1.2. Sơ lược về cây dứa . 2

1.1.3. Sơ lược về phương pháp Microsatellite . 2

1.2. Mục tiêu của khóa luận . 3

Phần 2. Tổng quan tài liệu . 4

2.1. Giới thiệu về cây dứa . 4

2.1.1. Vị trí phân loại . 4

2.1.2. Nguồn gốc và phân bố . 4

2.1.3. Đặc điểm hình thái . 5

2.1.3.1. Rễ . 5

2.1.3.2. Thân . 5

2.1.3.3. Lá . 5

2.1.3.4. Hoa . 5

2.1.3.5. Quả . 6

2.3.1.6. Hạt . 6

2.1.4. Đặc điểm trồng trọt . 6

2.1.4.1. Yếu tố khí hậu . 6

2.1.4.2. Yếu tố đất đai . 6

2.1.4.3. Yếu tố sinh vật . 7

2.1.5. Giá trị kinh tế và sử dụng . 7

2.1.6. Các giống trồng . 8

2.1.6.1. Nhóm Cayenne . 8

2.1.6.2. Nhóm Queen . 9

2.1.6.3. Nhóm Spanish . 9

2.1.6.4. Nhóm Abacaxi . 10

2.1.6.5. Các giống trồng trong nước . 11

2.1.7. Tình hình phát triển của cây dứa trong và ngoài nước . 11

2.2. Các Marker phân tử . 12

2.2.1. Isozymes . 12

2.2.2. ALP . 12

2.2.3. AFLP . 12

2.2.4. RAPD . 13

2.2.5. SSCP . 14

2.2.6. SNP . 14

2.2.7. SSR . 15

2.2.8. Kỹ thuật STS và SCARP . 15

2.2.9. RFLP . 15

2.3. Chi tiết về microsatellite . 16

2.3.1. Định nghĩa . 16

2.3.2. Các phương pháp phát hiện microsatellite . 16

2.3.2.1. Phương pháp lai . 17

2.3.2.2. Phương pháp PCR . 17

2.3.3. Vai trò của microsatellite . 18

2.3.4. Ứng dụng . 19

2.4. EST . 19

2.4.1. Sơ lược về EST . 19

2.4.2. Nguồn gốc của EST . 20

2.5. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu . 20

2.5.1. Nguyên nhân ra đời của mô hình quan hệ . 20

2.5.2. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệ . 21

2.5.2.1. Định nghĩa cơ sở dữ liệu . 21

2.5.2.2. Hệ quản trị cơ sở dữ liệu . 21

2.5.3. Các mô hình dữ liệu . 23

2.5.3.1. Định nghĩa . 23

2.5.3.2. So sánh các mô hình dữ liệu . 23

2.5.4. Người dùng . 24

2.5.5. Cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ . 25

2.5.5.1. Vấn đề 1: Cấu trúc logic và cấu trúc vật lý . 25

2.5.5.2. Vấn đề 2: Dư thừa dữ liệu . 25

2.5.5.3. Vấn đề 3: Sự khai thác dữ liệu của người sử dụng . 25

2.6. Internet và Web . 26

2.6.1. Sơ lược về Internet . 26

2.6.1.1. Tóm lược lịch sử phát triển . 26

2.6.1.2. Tổng quát về Internet . 26

2.6.2. Các dịch vụ được cung cấp trên Internet . 28

2.6.2.1. Phân loại khối thông tin . 28

2.6.2.2. Các dịch vụ cơ bản . 28

2.6.3. Tích hợp cơ sở dự liệu với web . 28

2.7. Ngôn ngữ lập trình Perl và Javascript . 28

2.7.1. Ngôn ngữ Perl . 28

2.7.1.1. Tóm tắt lịch sử phát triển . 28

2.7.1.2. Ứng dụng. 29

2.7.1.3. Một số module của Perl thường được sử dụng . 29

2.7.2. Ngôn ngữ Javascript. 30

2.7.2.1. Định nghĩa Javascript . 31

2.7.2.2. Javascript có thể làm gì? . 31

2.7.2.3. Ưu và nhược điểm của Javascript . 31

2.8. Cơ sở dữ liệu sinh học . 32

2.8.1. NCBI . 32

2.8.1.1. Vài nét về NCBI . 32

2.8.1.2. Một số cơ sở dữ liệu trong NCBI . 33

2.8.1.3. Một số công cụ trong NCBI . 33

Phần 3. Phƣơng pháp và chƣơng trình sử dụng . 35

3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng . 35

3.1.1. Hệ điều hành . 35

3.1.2. Các chương trình phân tích trình tự . 35

3.1.2.1. Chương trình so sánh trình tự ClustalW . 35

3.1.2.2. Chương trình tìm kiếm các trình tự tương đồng – BLAST . 36

3.1.2.3. Hệ quả trị CSDL quan hệ MySQL . 36

3.1.2.4. Apache web Server . 37

3.2. Thu nhận trình tự SSRs . 38

3.2.1. Thu thập và chọn lọc dữ liệu . 40

3.2.2. Thu nhận trình tự SSR . 41

3.3. Xây dựng CSDL, công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu. . 44

3.3.1. Xây dựng cơ sở dữ liệu . 44

3.3.1.1. Tạo bảng chứa dữ liệu . 44

3.3.1.2. Xây dựng mối quan hệ . 46

3.3.1.3. Nhập dữ liệu vào bảng . 47

3.4. Thiết kế giao diện web để truy xuất thông tin tại cơ sở dữ liệu . 47

3.5. Tích hợp các công cụ sinh học vào trang web . 48

Phần 4. Kết quả và thảo luận . 49

4.1. Kết quả thu nhận trình tự microsatellite . 49

4.1.1. Kết quả thu nhận trình tự của Ananas comosus. 49

4.1.2. Kết quả thu nhận trình tự SSRs . 50

4.2. Xây dựng CSDL, công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu . 51

4.2.1. Cơ sở dữ liệu trình tự Ananas comosus . 51

4.2.2. Kết quả sau khi lập CSDL của trình tự microsatellite . 52

4.2.3. Mô hình quan hệ . 57

4.3. Trang web thể hiện thông tin cơ sở dữ liệu SSRs của Ananas comosus . 59

4.3.1. Trang chủ (HOME PAGE) . 60

4.3.2. Trang thông tin về microsatellite (ABOUT SSRs PAGE) . 60

4.3.3. Trang thông tin về Ananas comosus (Ananas comosus PAGE) . 60

4.3.4. Trang cơ sở dữ liệu ESTs (ESTs PAGE) . 61

4.3.5. Trang cơ sở dữ liệu SSRs (SSRs PAGE) . 62

4.3.6. Trang công cụ . 64

4.3.6.1. Trang tích hợp công cụ để tìm kiếm SSR . 64

Phần 5. Kết luận và đề nghị . 65

5.1. Kết luận . 65

5.2. Đề nghị . 65

Phần 6. Tài liệu tham khảo . 66

83 trang | Chia sẻ: leddyking34 | Lượt xem: 2451 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng cơ sở dữ liệu SSRs (Simple Sequence Repeats) từ ESTs (Expressed Sequence Tags) của cây Dứa (Ananas comosus), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

trình tự. Hạn chế: Cần lượng DNA lớn (50 - 250 mg). 16 Tốn thời gian và công sức.  Ứng dụng: Lập bản đồ, phát hiện gen. Ứng dụng trong chuyển gen. 2.3. Chi tiết về microsatellite [2, 15, 26] 2.3.1. Định nghĩa Microsatellite ngày nay đã trở thành thuật ngữ chung nhất để miêu tả các trình tự lặp lại ngắn và ngẫu nhiên, thay vì sử dụng các thuật ngữ STR (short tandem repeats, Edward,1991) hay VNTR (variable number of tandem repeats). Microsatellite bao gồm các đoạn lặp lại ngắn từ 2-6 bp và kích thước tại mỗi locus là 20–100 bp. Microsatellite được tìm thấy trong tất cả cơ thể sống, đặc biệt là ở những cơ thể sống có bộ gen lớn và phân bố đều trên genome. Microsatellite có tính đa hình rất cao (đa hình theo chiều dài), là những codominant-alen hay alen đồng trội (bao gồm 2 loại: alen đồng hợp và alen dị hợp), nó có các tính chất cần thiết chất cần thiết cho một marker. Tần số đột biến từ 104 - 5.10-6, nó tuân theo định luật Mendel. Vị trí của microsatellite trên nhiễm sắc thể có thể được xác định bằng PCR từ một lượng DNA rất nhỏ. Xác định microsatellite PCR trên một loài nào đó thì có thể áp dụng trên những loài khác có quan hệ họ hàng. Ví dụ: Mononucleotide SSR (A)11 AAAAAAAAAAA Dinucleotide SSR (GT)6 GTGTGTGTGTGT Trinucleotide SSR (CTG)4 CTGCTGCTGCTG Tetranucleotide SSR (ACTC)4 ACTCACTCACTCACTC 2.3.2. Các phƣơng pháp phát hiện microsatellite Có 2 phương pháp để phát hiện microsatllite: phương pháp lai và phương pháp PCR. 17 2.3.2.1. Phƣơng pháp lai Phương pháp lai ghép phân tử cho phép xác định chính xác kiểu microsatellite bằng cách chuyển qua màng lai, cùng một lúc có thể phát hiện nhiều kiểu microsatellite bằng các mẫu dò khác nhau. Tuy nhiên xác định chiều dài của chúng còn bị hạn chế. Trong phương pháp lai có hai cách: phương pháp phát hiện nhờ đồng vị phóng xạ và phương pháp nhuộm bạc. Phương pháp phát hiện nhờ đồng vị phóng xạ: Phương pháp hiệu quả và được dùng đầu tiên là đồng vị phóng xạ. Người ta có thể đánh dấu vào một đầu của primer (end-labelling) hoặc đánh dấu và trộn lẫn một trong bốn thành phần nucleotide A, T, G, C (incorporation- labelling). Nhưng ngày nay phương pháp dùng đồng vị phóng xạ rất ít được sử dụng vì nguy hiểm đến sức khỏe con người và đòi hỏi việc xử lý chất thải tốn kém. Phương pháp nhuộm bạc (phát hiện không dùng phóng xạ): Phương pháp này rẻ, không độc hại nhưng độ nhạy cao, đòi hỏi một số kỹ thuật rắc rối khi nhuộm. 2.3.2.2. Phƣơng pháp PCR Phương pháp PCR sử dụng màu huỳnh quang để đánh dấu primer forward và sử dụng máy giải trình tự tự động. Phương pháp này được phát triển cùng với sự phát triển của màng giải trình tự nucleotide để phát hiện sản phẩm PCR được đánh dấu bởi một chất nhuộm huỳnh quang (end-labelling primer hoặc incorporation). Khi kích thích bởi tia laser, các chất nhuộm màu này giải phóng ra một tín hiệu mà máy tính có thể phát hiện được bằng cách so sánh sự di chuyển của sản phẩm PCR với DNA chuẩn, chúng ta có thể có kích thước chính xác của đoạn DNA quan tâm. Chất huỳnh quang này được gắn vào một đầu 5’ của cặp mồi, 40 ng mồi loại này đủ dùng cho 10000 phản ứng PCR. Phương pháp này có hiệu quả rất cao và đang được sử dụng phổ biến trên các phòng thí nghiệm trên thế giới. Người ta có thể đánh dấu bằng 3 loại chất nhuộm huỳnh quang khác nhau, trong cùng một phản ứng PCR và 18 chạy cùng một giếng điện di, kể cả kích thước các đoạn bằng nhau nhưng chúng ta vẫn có thể xác định được nhờ màu huỳnh quang khác nhau. Kết quả được thể hiện trên máy tính, nhờ đó chúng ta có thể xác định được chính xác kích thước của alen, loại trừ những băng lặp lại (stuter DNA) hoặc thêm một nucleotide A,… 2.3.3. Vai trò của microsatellite Rất nhiều microsatellite đã được tìm thấy ở vùng phía trên của các vùng khởi đầu sao mã của vùng mang mã. Chức năng rõ rệt của những vùng như vậy vẫn còn chưa rõ ràng, mặc dù người ta tìm thấy chúng tồn tại giữa các vùng exon và có liên quan tới các bệnh di truyền. Microsatellite được dùng như một marker di truyền để nghiên cứu về di truyền quần thể, quan hệ tiến hóa, lập bản đồ gen. Tuy nhiên có rất nhiều chứng cứ cho rằng trình tự microsatellite cũng đóng vai trò là yếu tố mang mã hoặc nhân tố điều hòa. Microsatellite được tìm thấy khắp nơi ở phần trước vùng khởi đầu sao mã của vùng mang mã, và một số đã được tìm thấy có quan hệ với vùng mã hoá. Số lượng khác nhau của các đoạn lặp lại của microsatellite ở vùng mã hoá có quan hệ với sự biểu hiện của gene và chức năng của gene. Ở một số trường hợp, sự thay đổi (mất hoặc thêm) các đơn vị lặp lại của microsatellite cũng làm thay đổi chức năng hoạt động của promotor. Vị trí của microsatellite gần hay xa promotor cũng làm hoạt động của promotor thay đổi. Vùng điều khiển có chứa microsatellite hoạt động như một nhân tố thúc đẩy quá trình phiên mã và những đột biến mất đoạn microsatellite đã làm giảm chức năng của gen. Microsatellite cũng liên kết với các protein bám mà các protein này có chức năng bám dính vào các trình tự khởi động của gen, khi trình tự này được giải phóng thì gen được khởi động và sao mã. Điều này chỉ ra rằng microsatellite hoạt động như một yếu tố điều hòa trong quá trình sao mã, ảnh hưởng đến quá trình sao mã thông qua ảnh hướng đến protein bám. Rất nhiều nghiên cứu chỉ ra rằng ảnh hưởng thúc đẩy của microsatellite và protein bám dính của nó là một chức năng của các đoạn lặp lại trong một vùng microsatellite đặc biệt nào đó. Như một trình tự mang mã, microsatellite đã 19 được tìm thấy biểu hiện ở rất nhiều protein và sự khác nhau về số lần lặp lại của các trình tự trong microsatellite có thể dẫn đến sự khác nhau về chức năng của protein và hoạt động của gen, do đó có thể ảnh hưởng đến chức năng sinh lý cũng như sự phát triển của cơ thể. Một số nghiên cứu gần đây đã chỉ ra rằng có sự ảnh hưởng của chiều dài khác nhau của microsatellite đến hình thái và sự phát triển ở mức độ cơ quan được tổng kết lại như một yếu tố chức năng của hệ gen. Những tính chất đặc biệt của microsatellite như sự đột biến điểm dẫn đến những giả thiết cho rằng microsatellite có thể là một nguồn chủ yếu tạo nên sự đa dạng về di truyền số lượng và quá trình tiến hóa thích nghi. Nó cho phép một quần thể có thể khôi phục lại nguồn đa dạng di truyền đã bị mất trong quá trình chọn lọc, nó hoạt động như một “núm điều chỉnh” mà qua đó những gen đặc biệt có thể điều chỉnh nhanh chóng các phản ứng thay đổi ít hay nhiều trong quá trình đòi hỏi của tiến hóa. Do vậy microsatellite là một nguồn rất quan trọng trong việc nghiên cứu đa dạng di truyền và làm cơ sở cho sự thay đổi của tiến hóa. 2.3.4. Ứng dụng Thiết kế bản đồ gen trong di truyền. Đa dạng hóa vật liệu di truyền. Nghiên cứu quần thể. Chẩn đoán và xác định các bệnh ở người. Sử dụng cho việc bảo tồn hệ sinh vật trong thiên nhiên. 2.4. EST [23] 2.4.1. Sơ lƣợc về EST EST (Expressed Sequence Tag) là những Marker được tạo ra nhờ PCR, sử dụng các primer có tính chất oligonucleotide, thiết kế primer trên cơ sở chuỗi trình tự của cDNA. Expressed Sequence Tag là một phần nhỏ của toàn bộ gen mà nó có thể được sử dụng để nhận biết những gen chưa biết và xác lập vị trí của chúng trong bộ gen. 20 ESTs cung cấp một phương pháp nghiên cứu nhanh chóng và không tốn kém đối với việc khám phá ra các gen mới, tính bảo toàn của gen về biểu hiện và điều khiển hoạt động, và xây dựng bản đồ di truyền. 2.4.2. Nguồn gốc của EST ESTs là những mảnh nhỏ của cấu trúc DNA (thường có chiều dài từ 200 đến 500 Nucleotide), chúng được hình thành bởi một phần hay toàn bộ cấu trúc của một gen biểu hiện. Đó là sự kết hợp những phần nhỏ DNA của gen nằm trong các tế bào, mô, cơ quan của những sinh vật khác nhau và sử dụng những “tags” này để thiết lập một gen nằm ngoài vị trí của chromosome bằng cách bắt cặp với các cặp base. Đây là sự kết hợp khó khăn của những gen đã biết từ các bộ gen khác nhau giữa các loài sinh vật và phụ thuộc vào kích thước của bộ gen khi có mặt hay không có mặt của các intron, sự can thiệp của cấu trúc DNA làm gián đoạn cấu trúc của gen quy định protein. 2.5. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu [1, 7] 2.5.1. Nguyên nhân ra đời của mô hình quan hệ (Relational Model) Trong nhiều năm, công nghệ tính toán và thông tin phát triển từ những hệ thống lớn, đắt tiền, độc quyền đến các hệ thống mở mạnh và không đắt tiền. Sự phát triển này mang lại lợi ích to lớn cho người dùng cuối bởi sự phát triển của các gói ứng dụng số như xử lý văn bản, bảng tính điện tử, văn phòng xuất bản, hệ quản lý cơ sở dữ liệu, máy tính trợ giúp công nghệ phần mềm.... Trước khi máy tính hóa cơ sở dữ liệu đươc giới thiệu, dữ liệu được lưu trữ theo kiểu điện tử thành nhiều tập tin riêng biệt sử dụng hệ tập tin (hệ tập tin theo lối cũ). Những tập tin này được xử lý bằng các ngôn ngữ thế hệ thứ ba như Cobol, Fortran, Pascal và ngay cả Basic để tạo ra các giải pháp cho các vấn đề của doanh nghiệp. Các ứng dụng như vậy tạo ra ba vấn đề sau: Có sự liên kết chặt chẽ giữa cấu trúc luận lý và cấu trúc vật lý của các tập tin và chương trình ứng dụng khai thác chúng. Điều này khiến việc tạo nên các ứng dụng này rất khó khăn, tốn nhiều thời gian và do vậy mà tốn kém trong bảo trì hệ thống. Có sự dư thừa dữ liệu rất lớn qua việc trùng lắp các tập tin trong các ứng dụng khác nhau. Điều này tạo ra những vấn đề như: dữ liệu thiếu nhất 21 quán, không gian đĩa bị lãng phí, thời gian bảo trì và lưu phòng hờ các tập tin gia tăng, vấn đề về quản trị như không chú trọng bảo mật và tổ chức dữ liệu thiếu thống nhất. Người sử dụng có ít khả năng khai thác trực tiếp dữ liệu. 2.5.2. Cơ sở dữ liệu (Database) và hệ quản trị cơ sở dữ liệu (Database Management System) 2.5.2.1. Định nghĩa cơ sở dữ liệu Cơ sở dữ liệu là một tập hợp dữ liệu được tổ chức theo một cấu trúc chặt chẽ nhằm phục vụ cho nhiều mục tiêu khác nhau một cách có chọn lọc, có tương quan, các mẫu tin và các cột. Tập hợp dữ liệu sẽ được lưu trữ trên các thiết bị lưu trữ thông tin thứ cấp như băng từ, đĩa từ,… để thỏa mãn nhu cầu khai thác thông tin đồng thời của nhiều người sử dụng hay nhiều chương trình ứng dụng với nhiều mục đích khác nhau. Ngày nay cơ sở dữ liệu tồn tại trong mỗi ứng dụng thông dụng. Như vậy, các đặc tính của một cơ sở dữ liệu là: Tính nhất quán. Tính toàn vẹn. Tính tích hợp. Tính chia sẻ. Tính độc lập dữ liệu. Tính an toàn. Tính bảo mật. 2.5.2.2. Hệ quản trị cơ sở dữ liệu Hệ quản trị cơ sở dữ liệu đầu tiên ra đời vào đầu những năm 60 dựa trên mô hình dữ liệu phân cấp và mô hình mạng. Năm 1976 đánh dấu sự ra đời hệ quản trị cơ sở dữ liệu đầu tiên dựa trên mô hình quan hệ mang tên System-R. Đến những năm 90, bắt đầu xuất hiện các hệ quản trị cơ sở dữ liệu dựa trên mô hình hướng đối tượng,… Tuy nhiên chúng vẫn dựa chủ yếu vào nền tảng là mô hình quan hệ. Hệ quản trị ODMG ra đời năm 1996 được coi là hệ quản trị thuần hướng đối tượng nhất. Một hệ quản trị cơ sở dữ liệu là: 22 Một tập các phần mềm quản lý cơ sở dữ liệu và cung cấp các dịch vụ xử lý cơ sở dữ liệu cho các những người phát triển ứng dụng và người dùng cuối. Hệ quản trị cơ sở dữ liệu cung cấp một giao diện giữa người sử dụng và dữ liệu. Hệ quản trị cơ sở dữ liệu biến đổi cơ sở dữ liệu vật lý thành cơ sở dữ liệu logic. Hình 2. 2. Sơ đồ một hệ quản trị cơ sở dữ liệu Dựa vào cách tổ chức dữ liệu, hệ quản trị cơ sở dữ liệu được chia thành năm loại: Loại phân cấp như hệ IMS của IBM Loại mạng như IDMS của Cullinet Software Loại tập tin đảo như ADABAS của Software AG Loại quan hệ như như ORACLE của Oracle, DB2 của IBM, ACCESS của Microsoft Access Loại đối tượng là một tiếp cận khá mới trong thiết kế hệ quản trị cơ sở dữ liệu và việc sử dụng loại này sớm trở nên phổ biến Hiện tại, loại hệ quản trị cơ sở dữ liệu chính được sử dụng trong công nghệ là loại hệ quản trị cơ sở dữ liệu quan hệ. Loại này đã chiếm lĩnh trong công nghệ trên 10-15 năm cuối cùng khi đánh bật loại hệ quản trị cơ sở dữ liệu phân cấp và gần đây là hệ quản trị cơ sở dữ liệu mạng. Hiện nay, một số hệ quản trị cơ sở dữ liệu mạnh đang được đưa ra thị trường như Visual FoxPro, SQL-Server, Oracle,… Một hệ quản trị cơ sở dữ liệu phải có khả năng giải quyết các vấn đề: 23 Tính chủ quyền của dữ liệu: đó là phải bảo đảm vấn đề an toàn dữ liệu và tính chính xác của dữ liệu. Tính bảo mật và quyền khai thác thông tin của người sử dụng. Tranh chấp dữ liệu: do có thể cùng một lúc có nhiều người cùng truy cập vào một nguồn tài nguyên dữ liệu với các mục đích khác nhau nên hệ quản trị cơ sở dữ liệu phải có cơ chế ưu tiên truy cập dữ liệu. Phục hồi dữ liệu khi có sự cố. 2.5.3. Các mô hình dữ liệu 2.5.3.1. Định nghĩa Mô hình dữ liệu là sự trừu tượng hóa thế giới thực, là sự biểu diễn dữ liệu mức quan niệm. Mô hình dữ liệu được phân loại dựa trên các cách tiếp cận dữ liệu khác nhau của các nhà phân tích, thiết kế cơ sở dữ liệu. Mô hình dữ liệu hoàn toàn độc lập giữa hệ thống máy tính và cấu trúc dữ liệu. Hiện nay, có năm loại mô hình dữ liệu chính. Đó là: Mô hình dữ liệu mạng: thập niên 60-70. Mô hình dữ liệu phân cấp: thập niên 60-70. Mô hình dữ liệu quan hệ: thập niên 80. Mô hình dữ liệu thực thể kết hợp: thập niên 90. Mô hình dữ liệu hướng đối tượng: thập niên 90. 2.5.3.2. So sánh các mô hình dữ liệu Sự ra đời của mô hình dữ liệu quan hệ đã khắc phục được những khó khăn khi thiết kế và quản lí cơ sở dữ liệu theo mô hình mạng và mô hình phân cấp. Thứ nhất, mô hình mạng và mô hình phân cấp sử dụng nguyên lý chủ nhân – thành viên, cha – con rất khó khăn cho việc thiết kế, sắp xếp và sau khi thiết kế xong muốn sửa đổi rất phức tạp, hầu như phải làm lại từ đầu. Mô hình quan hệ tổ chức dữ liệu dưới dạng bảng dễ hiểu và đơn giản hơn trong việc thiết kế và sửa đổi sau này. Ngoài ra, việc thiết kế mô hình quan hệ hoàn toàn độc lập với hệ quản trị cơ sở dữ liệu. 24 Thứ hai, các ngôn ngữ để tạo và thao tác các cấu trúc trong mô hình mạng và mô hình phân cấp rất khó sử dụng. Ví dụ khi sử dụng hệ quản trị IDMS đòi hỏi phải thông thạo về ngôn ngữ từ điển dữ liệu tích hợp và các trình biên dịch lược đồ và lược đồ con. Trong khi đó, các hệ quản trị theo mô hình quan hệ dễ sử dụng hơn vì sử dụng ngôn ngữ truy vấn dữ liệu ở mức độ cao như SQL,… Do những ưu điểm trên cơ sở dữ liệu quan hệ ngày càng được sử dụng rộng rãi. Tuy nhiên, trong một số trường hợp, mô hình quan hệ trở nên không thích hợp, nhất là khi sử dụng nó để thể hiện những dữ liệu có quan hệ cấu trúc như cây hệ thống sinh học. đối với những loại dữ liệu loại này, sử dụng mô hình dữ liệu hướng đối tượng là thích hợp nhất. Khi một cơ sở dữ liệu được xây dựng xong, thì việc tiếp theo là làm sao để có thể truy xuất thông tin từ cơ sở dữ liệu này, nghĩa là người dùng có thể nhận được các thông tin mà họ cần hay có thể bổ sung thêm một vài thông tin qua một giao diện thân thiện. Hơn thế nữa, người dùng còn muốn chia sẻ thông tin với các nơi khác. Để thực hiện được điều đó, người ta thường chọn giao thức CGI, hiển thị những đòi hỏi thông tin về cơ sở dữ liệu của người dùng thông qua dịch vụ web. 2.5.4. Ngƣời dùng (User) Người dùng khai thác cơ sở dữ liệu thông qua hệ quản trị cơ sở dữ liệu có thể phân thành ba loại: người quản trị cơ sở dữ liệu, người phát triển ứng dụng và lập trình, người dùng cuối. Người quản trị cơ sở dữ liệu, hàng ngày, chịu trách nhiệm quản lý và bảo trì cơ sở dữ liệu Người phát triển và lập trình ứng dụng là những người chuyên nghiệp về máy tính có trách nhiệm thiết kế, tạo dựng và bảo trì hệ thông tin cho người dùng cuối. Người dùng cuối là những người không chuyên về máy tính nhưng họ là các chuyên gia trong các lãnh vực khác có trách nhiệm cụ thể trong tổ chức. Họ khai thác cơ sở dữ liệu thông qua hệ được phát triển bởi người phát triển ứng dụng hay các công cụ truy vấn của hệ quản trị cơ sở dữ liệu. 25 2.5.5. Cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ  Tiếp cận cơ sở dữ liệu đã giải quyết 3 vấn đề của hệ tập tin theo lối cũ: 2.5.5.1. Vấn đề 1: Cấu trúc logic và cấu trúc vật lý Hình 2. 3. So sánh cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ Kiến trúc bên trong hệ quản trị cơ sở dữ liệu quan hệ tách biệt rõ ràng giữa: Cấu trúc luận lý của tất cả tập tin và chương trình ứng dụng khai thác tập tin này Cấu trúc vật lý của cơ sở dữ liệu và phần lưu trữ các tập tin. Tiếp cận này tạo cho người quản trị cơ sở dữ liệu có thể thay đổi cấu trúc vật lý hay nơi lưu trữ của tập tin mà không ảnh hưởng đến chương trình ứng dụng. 2.5.5.2. Vấn đề 2: Dƣ thừa dữ liệu Khi hệ quản trị cơ sở dữ liệu quan hệ được giới thiệu, nhiều tổ chức mong tích hợp các tập tin đã phân tán khắp trong tổ chức vào một cơ sở dữ liệu tập trung. Dữ liệu có thể chia sẻ cho nhiều ứng dụng khác nhau và người sử dụng có thể khai thác đồng thời các tập con dữ liệu liên quan đến họ. Điều này làm hạn chế sự dư thừa dữ liệu. 2.5.5.3. Vấn đề 3: Sự khai thác dữ liệu của ngƣời sử dụng Trong hệ quản trị cơ sở dữ liệu quan hệ người dùng có thể trực tiếp khai thác dữ liệu thông qua việc sử dụng các câu truy vấn hay các công cụ báo cáo được cung cấp bởi hệ quản trị cơ sở dữ liệu. 26 2.6. Internet và Web [5] 2.6.1. Sơ lƣợc về Internet 2.6.1.1. Tóm lƣợc lịch sử phát triển Năm 1957, Bộ quốc phòng Mỹ thành lập cơ quan nghiên cứu các dự án kỹ thuật cao ARPA (Advanced Research Projects Agency), thuộc một bộ phận trong bộ quốc phòng. Chỉ một thập niên sau, năm 1969, ARPA thiết lập mạng ARPANET – tiền thân của Internet ngày nay. ARPANET là một mạng máy tính nối bốn máy chủ tại các trường đại học California – Los Angeles, đại học California – Santa Barbara, viện nghiên cứu Standford và đại học Utah lại với nhau. Từ năm 1969 đến 1986, số lượng máy chủ tăng lên khoảng năm ngàn. Đến năm 1973, mạng xuyên quốc gia đầu tiên được thiết lập giữa hai nước Anh và Na Uy. Năm 1982, giao thức TCP/IP ra đời và nhanh chóng trở thành giao thức chuẩn. Năm 1985 là năm bùng nổ Internet lần thứ 1 khi xa lộ thông tin thực sự hình thành. Lúc này có khoảng 2000 máy trên Internet. 2.6.1.2. Tổng quát về Internet Internet là kho tài nguyên thông tin, là mạng của các mạng, là một tổ hợp hàng triệu máy tính trên toàn thế giới, có thể trao đổi, chia sẻ nguồn thông tin hầu như vô tận với nhau cho dù người dùng đang ở đâu và vào lúc nào. Các máy tính có thể đủ các loại và sử dụng các hệ điều hành khác nhau một cách bình đẳng. Như vậy Internet là một mạng khổng lồ được tạo ra bằng việc kết nối các máy tính và các mạng máy tính lại với nhau. Nó kết hợp nhiều mạng máy tính riêng rẽ của các trường học, thư viện, các hãng kinh doanh, bệnh viện, các tổ chức nhà nước, viện nghiên cứu… và nhiều thành phần khác vào trong một mạng chung rộng lớn mang tính chất toàn cầu. Từ đó, một loạt các thuật ngữ lần lượt ra đời như webServer, webClient, webPage, webSite, URL: WebServer: Máy cung cấp thông tin dạng web. WebClient: Máy truy xuất thông tin từ web server. 27 WebSite: Tập hợp các trang web của một tổ chức, một website có thể có nhiều web server. WebPage: Một trang tự liệu web. URL (Uniform Resource Locator) đường dẫn chỉ đến một tập tin trong một máy chủ trên Internet. Việc kết nối về mặt vật lý các mạng máy tính này được thực hiện thông qua các mạng viễn thông khác nhau như mạng điện thoại công cộng, kênh vệ tinh (satellite), các kênh vi-ba (micro-waves), các đường thuê riêng (dedicated lines), hoặc cáp quang (optical cable),… Không thể có được sơ đồ cụ thể của mạng Internet vì các máy tính và các mạng máy tính liên tục đăng ký thêm vào mạng Internet cũng như các thông tin trên mạng cũng liên tục được thay đổi, cập nhật. Các đặc tính chính của Internet: Mạng thông tin phát triển với tốc độ nhanh chưa từng thấy trong lịch sử. Mạng máy tính lớn nhất thế giới. Mạng duy nhất có quy mô toàn cầu, lớn nhất về lãnh thỗ, số người tham gia, các hoạt động dịch vụ về thông tin. Internet là công nghệ tin học tiên tiến nhất, mới nhất, là công nghệ chuẩn, công nghệ mở, sản phẩm trí tuệ chung của nhân loại. Internet là mạng thông tin không có chủ hoặc có rất nhiều chủ. Công cụ không thể thiếu trong xã hội thông tin. Bộ mặt văn hóa mới có tính toàn cầu. Thành phần của Internet bao gồm: Các máy chủ (Host Computer hay Internet Server). Các máy trạm (Work Station hay Client). Các thiết bị đầu cuối như Card mạng, Hub, Router,… Đường truyền. Các phần mềm quản trị Server trên máy chủ. Các phần mềm Client trên máy người dùng. 28 2.6.2. Các dịch vụ đƣợc cung cấp trên Internet 2.6.2.1. Phân loại khối thông tin  Khối thông tin mở cho công cộng: bao gồm các thông tin về văn hóa, xã hội, giáo dục và đào tạo, khoa học kỹ thuật, kết quả của các công trình nghiên cứu khoa học công nghệ. Bất cứ ai thuộc mạng, một khi đã truy cập vào mạng, tại bất kỳ điểm nút nào, bất cứ lúc nào đều có thể khai thác và nhận được tất cả thông tin thuộc loại mở này.  Khối thông tin không mở cho công cộng: bao gồm các hệ thống cơ sở dữ liệu chuyên ngành do các tổ chức có mạng con hoặc có các máy chủ ở bất cứ nước nào xây dựng và thiết lập để phục vụ cho các nhu cầu riêng của họ và để bán thông tin. Các cơ sở dữ liệu này thường được bảo mật cao, chỉ những người sử dụng nào được phép mới có quyền truy nhập và khai thác. 2.6.2.2. Các dịch vụ cơ bản  Tìm kiếm thông tin.  Thư điện tử.  Truyền File.  Trao đổi trực tiếp.  Truy cập máy tính khác. 2.6.3. Tích hợp cơ sở dự liệu với web Có nhiều kỹ thuật được dùng để tích hợp cơ sở dữ liệu với web để tạo ra trang web động như CGI, PHP, ASP, JSP, Coldfusion. 2.7. Ngôn ngữ lập trình Perl và Javascript 2.7.1. Ngôn ngữ Perl [7] 2.7.1.1. Tóm tắt lịch sử phát triển Perl là chữ viết tắt của “Practical Extraction and Report Language”. Larry Wall tạo ra ngôn ngữ Perl năm 1986 nhằm quản trị và cấu hình các mạng máy tính lớn. Ngôn ngữ này phát sinh từ ngôn ngữ lập trình C và bị ảnh hưởng bởi ngôn ngữ khác như BASIC, awk, sed và UNIX shell. Năm 1987, Perl 1.0 ra đời. 29 Năm 1988, Perl 2.0 phát hành và được các nhà quản trị UNIX sử dụng rộng rãi. Năm 1989, Perl 3.0 ra đời, nhưng phiên bản này được phát hành dưới bản quyền được bảo vệ của GNU. Với phiên bản này Perl nhanh chóng trở thành tiêu chuẩn để viết CGI script dùng cho việc xử lý dữ liệu được gửi trên Internet. Năm 1991, phiên bản 4.0 được đưa ra vào tháng 3. Đến thời điểm này, Perl đã trở thành ngôn ngữ khá hoàn chỉnh mặc dù vẫn còn một số khuyết điểm nhỏ. Năm 1994, phiên bản Perl 5.0 ra đời cùng với sự ra đời của DBI (Database Interface) và DBD (Datadbase Driver) cho hệ quản trị cơ sở dữ liệu Oracle của Tim Bunce. Từ đó, các DBD của các hệ quản trị cơ sở dữ liệu khác cũng dần xuất hiện. Năm 2000, phiên bản 5.6 xuất hiện vào tháng 3. Phiên bản này đã chuyển sang định dạng tiêu chuẩn và có sự hỗ trợ cả Unicode và UTF-8. Năm 2002, phiên bản Perl 5.8 ra đời cùng với nhiều cải tiến mới được bổ sung. 2.7.1.2. Ứng dụng Perl được dùng để xử lý tập tin, truy cập dữ liệu và được dùng cho giao diện cổng chung (Common Gateway Interface – CGI), tiến hành tạo script của Microsoft Windows, tạo giao diện người dùng đồ họa (graphical user interface – GUI). Ưu điểm: là ngôn ngữ dễ nắm bắt, thích hợp cho xử lý chuỗi và văn bản thuần túy, được sự hổ trợ của nhiều hệ điều hành. Vì vậy, Perl là ngôn ngữ lập trình thích hợp cho các nhà tin – sinh học vì nó có thể giúp cho việc thao tác trên các chuỗi trình tự sinh học, tạo cơ sở dữ liệu sinh học dễ dàng hơn. Ngoài ra, Perl còn được sự hỗ trợ module (tập các hàm) giúp kết nối, truy xuất cơ sở dữ liệu với trang Web, tạo ra trang web động. Nhược điểm: chỉ có thể dùng để viết các chương trình, script nhỏ. 2.7.1.3. Một số module của Perl thƣờng đƣợc sử dụng Mudule CGI (Common Gateway Interface – CGI) của Perl: do Lincoln D. Stein viết. Module này gồm các hàm giúp viết kịch bản Perl 30 theo giao thức CGI. Các script này giúp lấy thông tin từ trình diệt khách gởi đến máy chủ, đưa vào chương trình sử lý và đưa lại thông tin kết quả đến máy khách. Module DBI (Database Interface) của Perl: là tập các hàm, biến và những qui ước cần thiết cho việc tương tác với một cơ sở dữ liệu nhất định thông qua Perl script, hoàn toàn độc lập với hệ quản trị cơ sở dữ liệu (do tác giả của DBI, Tim Bunce, định nghĩa). Những tương tác có thể nhập, nâng cấp, xử lý, rút trích,…dữ liệu vào hay ra khỏi cơ sở dữ liệu. Module DBD (Datadbase Driver) của Perl: là một module phụ thuộc loại hệ quản trị cơ sở dữ liệu và liên kết với module BDI để truy cập vào một loại hệ quản trị cơ sở dữ liệu nhất định. Như vậy tương

Các file đính kèm theo tài liệu này:

TRAN NGUYEN MINH DANG - 02126145.pdf