Báo cáo So sánh các ngân hàng cơ sở dữ liệu

Tìm kiếm các thuật ngữ(Text Term Searching)

- Bao gồm: entrez, linkout, citation matcher

+Entrez: cung cấp cách truy cập vào các dữ liệu trình tự protein và DNA từ hơn 100000 sinh vật cùng với các cấu trúc protein 3D, các thông tin về bản đồ gen và PubMed MEDLINE

+LinkOut: một dịch vụ đăng ký để tạo ra các đường kết nối từ các bài báo, tạp chí hoặc các dữ liệu sinh học trong Entrez với các nguồn trang Web bên ngoài

+Citation Matcher: cho phép tìm các ID của PubMed hoặc các UID của MEDLINE của bất kỳ bài báo nào trong CSDL PubMed

60 trang | Chia sẻ: netpro | Lượt xem: 4080 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Báo cáo So sánh các ngân hàng cơ sở dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

BÁO CÁO CHUYÊN ĐỀ 4 GV: NGÔ CÔNG THẮNG SV: VŨ THỊ THÙY LINH MSV:522969 NỘI DUNG I.NCBI (National Centre for Biotechnology Informatic)1. Cơ sở dữ liệu 2. Các công cụ II. ExpaSy 1. Cơ sở dữ liệu 2. Các công cụ III.DDBJ (DNA Data Bank of Japan) IV. So sánh các ngân hàng CSDL 1. Cơ sở dữ liệu 2. Các công cụ I.NCBI(National Centre forBiotechnology Informatic) -Địa chỉ: 1 CSDL của NCBI a) CSDL tài liệu -Bookshelf: giúp tìm kiếm những thông tin cơ bản hoặc các chủ đề nghiên cứu mới miễn phí - PubMed: cho phép truy cập vào phần tóm tắt của hơn 15.000.000 kết quả nghiên cứu trong lĩnh vực sinh y học -PubMed Central: là một tạp chí khoa học sự sống, kết hợp với hệ thống Enztrez, cho phép truy cập tự do với hơn 160 tạp chi khoa học sự sống -OMIM: là một hệ thống các bệnh di truyền -OMIA: là một CSDL của các gen, các rối loạn di truyền và các tính trạng của các loài động vật -Journals:Tìm các CSDL tạp chí cho phép kết nối các tạp chí với hệ thống Entrez b) CSDL Nucleotide -GenBank:là CSDL trình tự di truyền của NIH, tập hợp của tất cả các trình tự DNA đã công bố -dbEST: là một tập hợp các trình tự đêo thẻ hoặc các trình tự ngắn lấy từ mRNA -dbGSS: chứa các dạng dữ liệu + Single-pass genom sequence + Các trình tự tận cùng của cosmid/BAC/YAC + Các trình tự Alu PCR + Các trình tự transposon được đeo thẻ -dbSNP: là CSDL các đa hình do sự thay thế, thêm hoặc bớt nu -RefSeq: CSDL của các trình tự tra cứu không có sự dư thừa -dbSTS: CSDL của các vị trí trình tự được đeo thể hoặc các trình tưu ngắn thường chỉ có mặt một lần duy nhất trong gen -UniSTS: là một CSDL toàn diện của các vị trí đánh dấu trinh tự được lấy từ các bản đồ STS và các thí nghiệm khác -UniGene: là một hệ thống thực nghiệm cho việc phân chia tự động các trình tự GenBank thành một hệ thống không thữa thãi của các cụm có định hướng gen -HomoloGene: so sánh trình tự nu giữa hai sinh vật - dbHTG: tập hợp rất nhiều các trình tự genom thu được từ các trung tâm xác định trình tự gen -MGC:cung cấp các dòng đầy đủ chiều dài của các khung đọc mở cho người, chuột nhắt và các gen chuột cống -PopSet: là một hệ thống các trình tự DNA được thu thập để phân tích mối quan hệ tiến hóa của môt quần thể -GEO Datasets: lưu giữ các gen biểu hiện -SAGE: hỗ trợ cho việc sử dụng công cộng và công bố các dữ liệu gen biểu hiện c) CSDL Protein (Protein Databases) 3D Domains: Bao gồm các trình tự và cấu trúc 3 chiều của các domain trong các phân tử protein. +Proteins: Tập hợp các CSDL trình tự protein +RefSeq: Cung cấp một CSDL không dư thừa (non-redundant) bao gồm DNA, RNA và Protein. +PROW: CSDL về protein trên Web (Protein Reviews on the Web PROW) ... d) Cơ sở dữ liệu cấu trúc (Structure Databases) 3D Domain +MMDB (Molecular Modeling Database) : CSDL mô hình cấu trúc phân tử 3D, bao gồm các protein và các polynucleotide. MMDB chứa hơn 28.000 cấu trúc và được liên kết với phần còn lại của CSDL ở NCBI, bao gồm các trình tự, các trích dẫn, phân loại học, và các trình tự và cấu trúc lân cận. +Conserved Domains: Tập hợp các CSDL về các vùng domain bảo thủ của các protein, họ protein. e) Cơ sở dữ liệu hệ thống học (Taxonomy Databases) Cơ sở dữ liệu hệ thống học (Taxonomy database) chứa tên của các sinh vật có mặt trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotide hoặc protein. NCBI cung cấp một hệ thống hệ thống phân loại cùng với các đơn vị phân loại (taxa). f) Cơ sở dữ liệu genom (genome database) +Các nhiễm sắc thể ung thư: 3 cơ sở dữ liệu NCI/NCBI SKY?M-FISH và CGH. +COGs (Clusters of Orthologous Groups of proteins): Nhóm của các nhóm Orthologous của protein được dẫn xuất từ việc so sánh trình tự protein được mã hóa thành các genom hoàn chỉnh, đại diện cho các dòng giống chủ yếu của phân loại hệ thống học. +Cơ sử dữ liệu các gen: Các gen được lưu trữ trong một hệ thống, để truy cập có thể sử dụng các công cụ như Entrez Gene. +Cơ sở dữ liệu của các dự án giải trình tự: Các trình tự hoàn tất, đang ở giai đoạn lắp ráp hoặc đang tiến hành đều được lưu trữ trong một hệ thống. Chúng ta có thể sử dụng công cụ Entrez Genome Project để truy cập. +Genomes:Các nguồn genom đặc thù từng loại sinh vật: Chứa toàn bộ genom của hơn 1000 sinh vật gồm những genom hoàn chỉnh và đang tiến hành: Aspergillus, Bacteria, Bee, Cat, Chickent, Cow, Dog, các bào quan của eukaryote, Frog, Fruit fly, Human, Mosquito, Mouse, Pig, plant genome, rat, Retrovirus, Sheep, Viral Genomes, Yeast, Zebrafish... g) Cơ sở dữ liệu hệ thống học +Cơ sở dữ liệu hệ thống học (Taxonomy database) chứa tên của các sinh vật có mặt trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotide hoặc protein. NCBI cung cấp một hệ thống hệ thống phân loại cùng với các đơn vị phân loại (taxa). h) Cơ sử dữ liệu cấu trúc (Structure Databases) - MMDB (Molecular Modeling Database): CSDL mô hình phân tử chứa các cấu trúc 3D của đại phân tử, bao gồm các protein và các polynucleotide. MMDB chứa hơn 28,000 cấu trúc và nó được kết nối với phần còn lại của NCBI bao gồm các trình tự, trích dẫn, hệ thống phân loại và các trình tự và cấu trúc liên quan. -GEO Datasets:CSDL này lưu giữ các gen biểu hiện +SAGE: Để hỗ trợ cho việc sử dụng công cộng và công bố các dữ liệu gen biểu hiện (serial analysis of gene expression SAGE), NCBI gần đây đã chỉnh sửa lại website này. +SAGEmap là một nguồn dữ liệu SAGE cho yêu cầu truy vấn, thu nhân và phân tích các dữ liệu SAGE từ một loài sinh vật bất kỳ. Tất cả các dữ liệu có mặt trong website này có thể được truy cập từ các kho lưu trữ của GEO (Gene Expression Omnibus). k) CSDL hóa học -Các phản ứng, test.. -Danh sách các chất hóa học -Danh sách các hợp chât 2 Các công cụ tìm kiếm, phân tích các CSDL a) Các công cụ phân tích trình tự -Bao gồm: COGs, GEO, CDD, MGC, Clone Registry, Trace Archive, ORF Finder, Vecscreen, e-PRC +COGs(Cluster of Orthologous Groups): Một hệ thống của các họ gen từ các genom hoàn chỉnh +GEO(Gene Expression Omnibus):Kho dữ liệu gen biểu hiện và các nguồn trực tuyến cho việc thu nhận các dữ liệu gen biểu hiện từ bất kỳ sinh vật nào hoặc nguồn nhân tạo nào +HomoloGene: So sánh các trình tự nucleotide giữa các cặp sinh vật để xác định các gen ở các loài khác nhau được tiến hóa từ một gen tổ tiên chung do quá trình phân loài và chúng thường vẫn giữ được nguyên chức năng trong quá trình tiến hóa +CDD(Conserved Domain Database - CSDL các vùng bảo thủ):tập hợp các bản sao sánh trình tự và các profile của các vùng bảo thủ của các phân tử protein trong quá trình tiến hóa phân tử +MGC(Mammalian Gene Collection- tập hợp các gen động vật có vú): +Clone Registry: một CSDL được sử dụng bởi sự tham gia của các trung tâm trình tự genom người và chuột để lưu giữ những dòng sswowcj lựa chọn từ việc đọc trình tự, các dòng đang được đọc trình tự và các dòng đã hoàn tất và được lưu giữ ở genBank +Trace Archive: Được phát triển để lưu giữ các dữ liệu trình tự thô được tạo ra từ các dự án xác định trình tự +VecScreen: công cụ cho phép xác định các đoạn trình tự nucleotide mà có thể là của vector, các vùng linker hoặc các điểm khởi đầu sao chép trước khi sử dụng các công cụ phân tích trình tự hoặc đăng ký trình tự +ORF Finder (Open Reading frame Finder): tìm khung đọc mở là một công cụ phân tích hiển thị dưới dạng đồ họa +e-PRC(Electronic Polymerase Chain Reation): Để so sánh một trình tự truy vấn với các vị trí trong trình tự đánh dấu để tìm ra một vị trí bản đồ có thể cho trình tự truy vấn b) Tìm kiếm trình tự giống nhau - Bao gồm các công cụ:Blink, network-client BLAST, stand-alone BLAST +BLAST Homepage (Basic Local Alignment Search Tool): Cho phép truy cập vào chương trình và cong cụ BLAST, các trợ giúp.. +Blink: Trình bày các kết quả tìm kiếm của BLAST đối với mỗi trình tự protein trong CSDL protein Entrez +Network-Client BLAST: cho phép tiếp cận các công cụ tìm kiếm BLAST của NCBI. Blastcl3 có thể tìm tất cả các trình tự trong file FASTA và tạo ra một hay nhiều các bản so sánh trình tự dưới dạng text hoặc HTML . Nó cho phép thực hiện tìm kiếm nhiều CSDL +Stand-alone BLAST: chương trình có thể sử dụng sau khi tải về và cài đặt vào trong máy tính cá nhân c) Hệ thống đơn vị phân loại - Bao gồm: Taxonmy browser, taxonomy blast, taxtable, prottable, taxplot +Taxonomy Browser: công cụ cho phép tìm kiếm các CSDL taxonomy của NCBI + Taxonomy BLAST: các nhóm công cụ BLAST sắp xếp các nguồn sinh vật theo CSDL taxonomy của NCBI +TaxTable: bảng tóm tắt các dữ liệu taxon của BLAST và tình bày các mối quan hệ của sinh vật này với các sinh vật khác thông qua dạng đồ họa màu +ProtTable: cung cấp một bảng tóm tắt các vùng mã hóa protein trong một gene +TaxPlot: cung cấp các dạng quan sát genom giống nhau d) Đăng kí trình tự - Bao gồm: sequln, bankit +Sequin: Công cụ đăng ký trình tự bao gồm: ORF finder, sửa chữa và xem trình tự +BankIt: đăng ký một hay nhiều trình tự một lúc thông qua WWW e) Tìm kiếm các thuật ngữ(Text Term Searching) - Bao gồm: entrez, linkout, citation matcher +Entrez: cung cấp cách truy cập vào các dữ liệu trình tự protein và DNA từ hơn 100000 sinh vật cùng với các cấu trúc protein 3D, các thông tin về bản đồ gen và PubMed MEDLINE +LinkOut: một dịch vụ đăng ký để tạo ra các đường kết nối từ các bài báo, tạp chí hoặc các dữ liệu sinh học trong Entrez với các nguồn trang Web bên ngoài +Citation Matcher: cho phép tìm các ID của PubMed hoặc các UID của MEDLINE của bất kỳ bài báo nào trong CSDL PubMed f) Các công cụ thể hiện cấu trúc 3D và các kết quả tìm kiếm trình tự giống nhau -CD-search, Cn3D, domain architecture retrieval tool, vast search +CD-Seach(Conserved Domain Search Service): dịch vụ tìm kiếm các vùng bảo thủ có thể được sử dụng để xác định các vùng bảo thủ có mặt trong các trình tự protein +Cn3D: Công cụ cho phép hiển thị các trình tự và cấu trúc 3D cho các CSDL NCBI +Domain Architecture Retrieval Tool: hiển thị các vùng chức năng là vị trí tạo nên một phần tử protein và các protein với các cấu trúc domain tương tự +VAST Search: dịch vụ tìm kiếm cấu trúc tương đồng, so sánh cấu trúc protein của một cấu trúc protein mới xác định với các CSDL MMDB/PDB g) CSDL bản đồ - Công cụ quan sát bản đồ II. ExpaSy 1. CSDL của ExpaSy -Swiss-Prot and TrEMBL:CSDL protein -prosite:CSDL về các họ protein và các domain -SWISS-2DPAGE:CSDL protein -ENZYME: định tên các enzym -SWISS-MODEL Repository:các mô hình được tạo ra tự động -GermOnline:CSDL về sự biệt hóa tế bào mầm -Ashbya Genome databases 2 Các công cụ phân tích 2.1 Nhận dạng và xác định các đặc điểm của protein a)Nhận dạng và xác định các đặc điểm của protein thông qua các dữ liệu peptide thu được từ khối phổ - Bao gồm: aldente, findMod, Findpept, GlycoMod, PepMAPPER +Aldente: nhận dạng các protein với các dữ liệu khối phổ peptide +FindMod: dự đoán những khả năng cải biến sau dịch mã và khả năng thay thế các amino acid trong chuỗi peptide. Các thực nghiệm đo khối lượng peptide với các peptide tính toán lý thuyết vừ CSDL Swiss-Prot hoặc từ các trình tự do người sử dụng đăng ký. So sánh sự khác biệt về khối lượng của các peptide cũng là một trong những biện pháp hiệu quả trong việc nhận dạng protein +FondPept: nhận dạng các peptide do kết quả từ các thí nghiệm khối phổ, từ đó giải thích cho những cải biến sau dịch mã và hoạt động tự thủy phân +GlycoMod: dự đoán các cấu trúc oligosacharide xảy ra trên phân tử protein từ các thí nghiệm xác định khối lượng +PepMAPPER:công cụ nhận dạng khối lượng peptide từ UMIST, UK +ProFound: tìm kiếm các tình tự protein đã biết với thông tin về khối lượng peptide từ trường ĐH Rockefller và NY b) Nhận dạng và xác định các đặc điểm của protein nhờ dữ liệu MS/MS -Bao gồm: Popitam, phenyx, OMSSA, PepFrag, ProteinProspector, SearchXlinks +Popitam:công cụ nhận dạng và xác định protein cho các peptide với những cải biến không đoán trước được +Phenyx: nhận dạng, xác định đặc điểm của protein vả peptide từ dữ liệu MS/MS của GeneBio, Switzerland +OMSSA:Nhận dạng các phổ peptide MS/MS bằng cách so sánh các thư viện của các protein đã biết +PepFrag: tìm kiếm các trình tự protein đã biết với thông tin về khối phổ mảnh peptide từ Rockefeller và NY Universities hoặc từ Genomic Solutions +ProteinProspector: công cụ UCSF cho các dữ liệu về khối lượng các mảnh ion +SearchXLinks: phân tích khối phổ của các protein đã bị cải biến, liên kết ngang, phân giải mà có các trình tự axit đã biết từ Caesar, Đức c) Nhận dạng protein dựa vào thành phần axit amin, pI, khối lượng phân tử -AACompIdent, AACompIdent, TagIdent, MultiIdent + AACompIdent:Xác định một protein nhờ vào thành phần axit amin của nó + AACompIdent: so sánh thành phần axit amin của một đăng nhập trong UniProtKB/Swidd-Prot với các đăng nhập khác +TagIdent: nhận dạng các protein nhờ vào pI, Mw và các trình tự đeo thể hoặc đưa ra một danh sách các protein có pI và Mw gần với protein truy vấn nhất +MultiIdent:nhận dạng các protein dựa vào thành phần axit amin, pO, Mw, trình tự đeo thẻ và dữ liệu khối phổ peptide d) Các công cụ dự đoán khác - Bao gồm: GlycanMass, PeptideCutter, PeptideMass, IsotopIdent +GlycanMass:tính toán khối lượng của một cấu trúc oligosacharide +PeptideCutter: dự đoán các vị trí phân cắt và thủy phân bởi các hóa chất đối với một trình tự nhất định +PeptideMass: tính toán khối lượng peptide và các cải biến sau dịch mã đối với một đăng nhập của UniProtKB/Swidd-Prot hoặc UniProtKB/TrEMBL hoặc một trình tự bất kỳ do người sử dụng đưa vào +IsotopIdent: dự đoán sự phân bố đồng vị về mặt lý thuyết của một chuỗi pepdide, protein, polynucleotide hoặc các chất hóa học 2.2 Các công cụ chuyển DNA-> Protein -Bao gồm: Translate, transeq, graphical Condon Usage Analyser, BCM serch launcher, Backtranslate, Genewise, FSED +Translate:dịch mã một trình tự nucleotide thành một trình tự protein +Transeq: dịch mã từ trình tự nucleotide thành protein từ phần mềm EMBOSS +Graphical Codon Usage Analyser: hiển thị codon bias dưới dạng đồ họa +BCM search launcher: dịch mã ra 6 khung từ một trình tự nucleotide +Backtranslation: dịch mã một trình tự protein ngược trở lại thành trình tự nucleotide +Reverse Translate: dịch mã một trình tự protein thành trình tự nucletide +Genewise: so sánh trình tự của một protein với trình tự DNA genomic để nghiên cứu intro, các đột biến lệch khung 2.3 Tìm kiếm các trình tự giống nhau -BLAST và WU-BLAST- kết hợp với rất nhiều các phiên bản BLAST -Bao gồm: +BLAST :ở ExPASy/ EMBL/NCBI +WU-BLAST của EMBL + WU-BLAST và BLAST ở EBI +BLAST ở PBIL +Fasta3 +MPsrch: so sánh trình tự của Smith/Waterman ở EBI +PropSearch: tìm kiếm cấu trúc tương đồng +Scanps: tìm kiếm trình tự giống nhau bằng thuật toán của Barton 2.4 Các dạng tìm kiếm mô hình và mô tả sơ lược -Bao gồm: InterPro Sean, scanProsite, MotifScan, Pfam HMM search, fingerPRINTScan, FPAT, PRAT, PPSEARCH, PROSITE, PATTINPROT, TEIRESIAS,Hits 2.5 Dự đoán các cải biên sau phiên mã -Bao gồm: chloroP, lipoP, MITOPROT, PATS,Predotar, ptis1, signalP, netAcet, netOGlyc, NetNGlyc, YinOYang, Myristoylator, netPhos, NetPicoRNA, sulfinator 2.6 Dự đoán cấu trúc hình học không gian -Bao gồm:PSORT, DAS, HMMTOP, PredictProtein, SOSUI, TMAP, TMpred, topPred 2.7 Phân tích cấu trúc sơ cấp -Bao gồm: ProtParam; comrute pI/Mw; ScanSite pI/Mw; MW,pI, Titration curve; Radar; REP; Coils; Paircoil, Multicoil; ProtScale; Protein Colourer; Three To One; Colorseq; RandSeq 2.8 Dự đoán cấu trúc bậc 2 -AGADIR; APSP, JUFO 2.9 Phân tích cấu trúc bậc cao -Bậc 3: iMolTalk, STRAP, TLSMD -Bậc 4: Các mô hình so sánh + SWISS-MODEL, 3Djigsaw 2.10 So sánh trình tự So sánh 2 trình tự:SIM+LALNVIEW, LALIGN, Dotlet So sánh nhiều trình tự: Decreas redundancy, NOMAD, CLUSTALW, MAFR, Muscle, MUSCA -So sánh trình tự và phân tích: AMAS, Bork’s alignment tools 3.2.11 Phân tích hệ thống phát sinh -Phylogenetic programs, PHYLIP, BIONJ, PHYML, PHYLIP, MOLPHY, MrBayes, PAML, TREE PUZZLE, ConSurf 3.2.12 Phân tích các chữ, cụm từ sinh học - AcroMed, MedMener, protein Annotator’s Assistant, XplorMed III.DDBJ(DNA Data Bank of Japan) -Là CSDL công nghệ sinh học quan trọng và là cơ sở dữ liệu DNA duy nhất ở Nhật Bản -Cung cấp trực tiếp cho người sử dụng rất nhiều nhóm thông tin khác nhau, bao gồm cả thông tin thường xuyên hay truy cập và khai thác hay các chương trình xử lý thông tin -VD:SRS, gententry, FASTA BLAST, S&W, Search Sqmatch XML… Cơ sở dữ liệu cũng bao gồm các dữ liệu từ Cơ quan Patent Nhật Bản (JPO), Cơ quan Patent châu Âu (EPO), Hoa Kỳ và bằng sáng chế nhãn hiệu hàng hoá Văn phòng (USPTO), và Hàn Quốc Văn phòng Sở hữu trí tuệ (KIPO). b.Các công cụ - Dữ liệu lấy và từ khóa tìm kiếm + GetEntry: Cơ sở dữ liệu tìm kiếm và truy nhập bằng cách nhập số chống DDBJ và cơ sở dữ liệu sinh học phân tử khác. + DDBJ :Truy DDBJ nhập + ARSA: từ khoá tìm kiếm hệ thống với hơn 20 cơ sở dữ liệu khoa học đời sống phát triển bởi DDBJ. - Trình tự tìm kiếm và phân tích + Blast Finds : vùng giống nhau giữa các chuỗi sinh học được phát triển bởi NCBI . + ClustalW :Nhiều dãy chỉnh chương trình cho DNA hay protein phát triển bởi EBI + FASTA :vùng Finds của giống địa phương giữa Protein hoặc ADN trình tự phát triển bởi các trường Đại học Virginia. + VecScreen :Một hệ thống cho nhanh chóng xác định các phân đoạn của một chuỗi nucleic acid có thể sẽ được xuất xứ vectơ - DDBJ gốc hệ thống + Gib Genome : thông tin môi giới (GIB) là kho dữ liệu toàn diện của bộ gen hoàn thành vi sinh vật trong lĩnh vực công cộng. + Gtop Genome Để Protein (GTOP) : là một cơ sở dữ liệu này tóm tắt kết quả phân tích so với mã hóa trình tự xác định bởi các dự án khác nhau bộ gen. + GTPS Gene Trek trong Prokaryote Space (GTPS) : là một cơ sở dữ liệu được tái chú thích ORFs chống lại vi sinh vật dữ liệu trong hệ gen DDBJ cơ sở dữ liệu. +GIBV Genome thông tin môi giới cho virus (GIB-V) : là một vi-rút hoàn thành kho dữ liệu gen DDBJ chiết xuất từ cơ sở dữ liệu. + GIBEnv Genome thông tin môi giới cho môi trường mẫu (GIBEnv): là một cơ sở dữ liệu mà được thêm thông tin chú thích với bộ phận môi trường DDBJ. GIBIS Genome thông tin môi giới cho Chen Sequence (GIBIS) là một cơ sở dữ liệu chứa toàn bộ dữ liệu thu được bằng vi khuẩn IS chiết IS khu vực từ các chuỗi nucleotide công bố công khai của DDBJ. - SPS Splicing Profile dựa Số điểm (SPS) là một phương thức mới để so sánh hai trình tự axit amin. - Hệ thống cơ sở dữ liệu công cộng khác + TxSearch : Một hệ thống truy cho Phân loại học Cơ sở dữ liệu được thống nhất bởi DDBJ, GenBank và EMBL - RefSeq: Các trình tự tham khảo (RefSeq) được phát triển bởi NCBI và cung cấp, tích hợp toàn diện, không thiết lập dự phòng của trình tự, bao gồm DNA, bảng điểm (RNA), và các sản phẩm protein, cho các sinh vật nghiên cứu lớn. + Ensembl Ensembl :là một dự án hợp tác giữa EMBL - EBI và Viện Sanger để phát triển một hệ thống phần mềm mà sản xuất và duy trì các chú thích tự động trên hệ gen nhân chuẩn lựa chọn. + NCBIGenomeAnnotation NCBI Genome chú thích :là một bản tóm tắt các cơ sở dữ liệu gen NCBI. - OMIM Online Mendel Thừa kế trong Man (OMIM) là một cửa hàng của một gene của con người và các rối loạn di truyền được phát triển bởi NCBI. GO The Gene Ontology dự án cung cấp một vốn từ vựng được kiểm soát để mô tả gen và sản phẩm gen thuộc tính trong cơ nào. - Nhận được kết quả đó được gọi là không đồng bộ + RequestManager: Một dịch vụ cho kết quả nhận được gọi là không đồng bộ + Workflow :Hệ thống GPS IV. So sánh các ngân hàng CSDL -Nhìn chung 3 ngân hàng EBI,DDBJ,NCBI đều có các cơ sở dữ liệu giống nhau nhưng có cách tổ chức (lưu trữ) và phân loại khác nhau 1.CSDL EBI NCBI ExpaSy -CSDL tài liệu -CSDL tài liệu -CSDL microarray -CSDL nucleotide -CSDL nucleotide -CSDL protein -CSDL Protein -CSDL protein -CSDL Proteomic -CSDL cấu trúc - CSDL cấu trúc -CSDL hệ thống học -CSDL genom -CSDL hóa học -Các mô hình protein -Định tên các enzym -Các họ protein và các domain -CSDL về sự biệt hóa tế bào mầm 2. Công cụ EBI NCBI ExpaSy -Similarity & Homology -Tìm kiếm trình tự giống nhau - Tìm kiếm các trình (công cụ phân tích mức độ tự giống nhau giống nhau và tương đồng giữa các trình tự) -Protein Functionnal Analysis (Phân tích chức năng của protein) -Proteomic Services (các phương thức truy cập vào các dịch vụ proteomic do EBI cung cấp) -Sequence Analysis -Các công cụ phân - So sánh trình tự (phân tích trình tự) tích trình tự -Phân tích cấu trúc -Phân tích cấu trúc sơ cấp -Phân tích cấu trúc bậc cao -Hệ thống đơn vị phân loại -Đăng kí trình tự -Tìm kiếm các thuật ngữ -Công cụ thể hiện cấu trúc 3D và các kết quả tìm kiếm trình tự giống nhau -Công cụ quan sát bản đồ -Nhận dạng và xác định các đặc điểm của protein -Công cụ chuyểnDNA>Protein - Tìm kiếm mô hình và mô tả sơ lược -Dự đoán các cải biên sau phiên mã -Dự đoán cấu trúc hình học không gian -Dự đoán cấu trúc bậc 2 -Phân tích hệ thống phát sinh - Phân tích các chữ, cụm từ sinh học Tài liệu tham khảo 1. Bài giảng tin sinh học – Nguyễn Đức Bách Phan Trọng Nhật Trường ĐH Nông Nghiệp HN 2.Tin sinh học - GS.TS Nguyễn Văn Cách NXB Khoa hoc và kỹ thuật

Các file đính kèm theo tài liệu này:

baocaotinsinh.linh4.ppt