Transcript
Bioinformatyka Wykład 2 (12.X.2010) I r. studiów magisterskich, biologia (SGGW)
Krzysztof Pawłowski
…tydzień temu… Co to jest bioinformatyka Sekwencjonowanie genomów – „historia” Metagenomika
Wykład 2 – spis treści Bioinformatyka w genomice „Gen” ??? Biologiczne bazy danych – historia Biologiczne bazy danych – „najważniejsze” Sekwencyjne bazy danych – formaty plików
Bioinformatyka w genomice Bazy danych Składanie genomu Identyfikacja obiektów w genomie (geny kodujące białka, geny miRNA, motywy i regiony regulatorowe,...) Porównywanie genomów Przewidywanie funkcji genów i in. obiektów genomicznych
Rozwój technik sekwencjonowania
Gene definitions…
1860s–1900s: Gene as a discrete unit of heredity 1910s: Gene as a distinct locus 1940s: Gene as a blueprint for a protein 1950s: Gene as a physical molecule 1960s: Gene as transcribed code 1970s–1980s: Gene as open reading frame (ORF) sequence pattern 1990s–2000s: Annotated genomic entity, enumerated in the databanks
What is a gene, post-ENCODE?
Gerstein et al., Genome Res. 2007 17: 669-681
The gene is a union of genomic sequences encoding a coherent set of potentially overlapping functional products. 1. A gene is a genomic sequence (DNA or RNA) directly encoding functional product molecules, either RNA or protein. 2. In the case that there are several functional products sharing overlapping regions, one takes the union of all overlapping genomic sequences coding for them. 3. This union must be coherent—i.e., done separately for final protein and RNA products—but does not require that all products necessarily share a common subsequence.
Model Organizacji danych Poziom badań
Zasoby
N=1230...
Pierwsze bazy białkowe 1951 Sanger i Tuppy – rozwój technik sekwencjonowania białek
1965-78 Margaret Dayhoff i współpr. – pierwsza baza danych o sekwencjach białek Atlas of Protein Sequence and Structure; pogrupowanie białek w rodziny i nadrodziny w oparciu o stopień podobieństwa; stworzenie macierzy (tablic) PAM zawierających prawdopodobieństwa zmian jednego aminokwasu na inny
1984 powstanie bazy danych PIR (Protein Information Resource)
Pierwsze bazy DNA 1977 Maxam i Gilbert oraz Sanger i współpr. – rozwój technik sekwencjonowania kwasów nukleinowych; oprogramowanie (Staden)
1979 Walter Goad i współpr. z LANL – stworzenie prototypu GenBank-u, bazy danych sekwencji nukleotydowych
1982 upublicznienie danych w GenBank-u
1980 powstanie obecnej bazy danych EMBL (European Molecular Biology Laboratory) w Heidelbergu
1984 powstanie bazy danych DDBJ (DNA DataBank of Japan) w Mishima
Integracja baz 1987
2002
International Nucleotide Sequence Database Collaboration
UniProtR – International Protein Sequence Database
GenBank NCBI Bethesda USA
EMBL EBI Hinxton UK
DDBJ Mishima Japonia
TrEMBL EBI UK
PIR GU USA
SwissProt SIB Szwajcaria
Dalszy rozwój baz 1986 Powstanie białkowej bazy danych SWISS-PROT; Szwajcaria
1988 Utworzenie NCBI (National Center for Biotechnology Information) przy NIH/NLM, USA
1991 Adams i współpr. - powstawanie bibliotek i baz cDNA i ESTs (expressed sequence tags) – duże znaczenie dla badania genomów, określania ekspresji genów w różnych warunkach i tkankach
1992 Założenie TIGR (The Institute for Genomic Research); Rockville; Maryland
1993 Cherry i Cartinhour – pierwsza baza genomowa: ACEDB (a Caenorhabditis elegans database)
Rozwój metod do analiz sekwencji Algorytm do porównywania i sekwencji białkowych: Needleman i Wunsch - 1970 Powstanie i rozwój programów do uzyskiwania danych z baz: ENTREZ (NCBI) - 1992 Powstanie i rozwój programów do analizy sekwencji: GCG (Genetics Computer Group) - od lat 1980-tych Szybkie przeszukiwanie sekwencyjne baz danych: FASTA – 1985 BLAST - 1990
Zasoby pierwotne i wtórne
Pierwotne bazy danych GenBank/EMBL/DDBJ dbEST dbSTS dbSNP Trace Wtórne bazy danych Assembly Archive CDD EntrezGene Genome Projects HomoloGene Map Viewer RefSeq, SwissProt UniSTS
Baza pierwotna
Baza wtórna
September 16, 2010: RefSeq Release 43 This release includes: Number of taxids: 10854 Number of Accessions and total length per molecule type: Genomic: RNA: Protein:
2.293.783 2.417.194 11.223.078
144.882.401.872 3.824.569.584 3.761.205.880
Białkowe bazy danych
SWISS-PROT, Szwajcaria RefSeq Protein (NCBI), USA
UniProt = SwissProt + PIR + TrEMBL
Białkowe bazy danych
SWISS-PROT, Szwajcaria RefSeq Protein (NCBI), USA
UniProt = SwissProt + PIR + TrEMBL
Białkowe bazy danych PDB - The Protein Data Bank, USA - struktury trójwymiarowe kwasów nukleinowych i białek
Genomowe bazy danych NCBI Genomic Resources, USA TIGR - The Institute for Genomic Research, USA Ensembl Genome Browser (EBI & Sanger Institute) Genome Browser at the University of California Santa Cruz (UCSC)
NCBI – Home Page
The GenBank flatfile (GBFF) LOCUS DEFINITION
HUMCFTRM 6129 bp mRNA linear PRI 27-APR-1993 Human cystic fibrosis mRNA, encoding a presumed transmembrane conductance regulator (CFTR). ACCESSION M28668 VERSION M28668.1 GI:180331 KEYWORDS cystic fibrosis; transmembrane conductance regulator. SOURCE Human, cDNA to mRNA. ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 6129) AUTHORS Riordan,J.R., Rommens,J.M., Kerem,B., Alon,N., Rozmahel,R., Grzelczak,Z., Zielenski,J., Lok,S., Plavsic,N., Chou,J.-L., Drumm,M.L., Iannuzzi,M.C., Collins,F.S. and Tsui,L.-C. TITLE Identification of the cystic fibrosis gene: cloning and characterization of complementary DNA JOURNAL Science 245 (4922), 1066-1073 (1989) MEDLINE 89368940 PUBMED 2475911 COMMENT A three base-pair deletion spanning positions 1654-1656 is observed in cDNAs from cystic fibrosis patients. FEATURES Location/Qualifiers source 1..6129 /organism="Homo sapiens" /db_xref="taxon:9606" CDS 133..4575 /note="cystic fibrosis transmembrane conductance regulator" /codon_start=1 /protein_id="AAA35680.1" /db_xref="GI:180332" /translation="MQRSPLEKASVVSKLFFSWTRPILRKGYRQRLELSDIYQIPSVD SADNLSEKLEREWDRELASKKNPKLINALRRCFFWRFMFYGIFLYLGEVTKAVQPLLL VTYQIIRRTLKQAFADCTVILCEHRIEAMLECQQFLVIEENKVRQYDSIQKLLNERSL FRQAISPSDRVKLFPHRNSSKCKSKPQIAALKEETEEEVQDTRL" BASE COUNT 1886 a 1181 c 1330 g 1732 t ORIGIN 1 aattggaagc aaatgacatc acagcaggtc agagaaaaag ggttgagcgg caggcaccca 61 gagtagtagg tctttggcat taggagcttg agcccagacg gccctagcag ggaccccagc 121 gcccgagaga ccatgcagag gtcgcctctg gaaaaggcca gcgttgtctc caaacttttt 6061 taagaagact gcattatatt tattactgta agaaaatatc acttgtcaat aaaatccata 6121 catttgtgt //
The Header
The feature table
The sequence
FASTA format
gi number
Accession number
Definition line
>gi|7144485|gb|AAC16332.2| Limulus polyphemus myosin III mRNA, complete cds MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQANKKVALKIIGHIAENLLDIETEYRIY KAVNGIQFFPEFRGAFFKRGERESDNEVWLGIEFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAV QYLHENSIIHRDIRAANIMFSKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNY TCDVWSIGITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYRPCIQ Database Identifiers EIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQPHEKIYVDDLAFLDSP gb GenBank TEEVVLENLEQRYRKGEIYTFAGDVLLTLNPGKVLPLYGDQTAVKYCERGRSDNPPHVFAVADRAYQQML emb EMBL HHKSPQAVILSGVSGSGKSFCTHQVIRHLAFLGAQNKEGMREKLEYLCPLLDTLGNAYTSTNPNSSHFVK ILEVTFTKTGKITGAILFTFLLEARRLTDIPKGERNFHVFYYFYEGLRSEGRLKEFGLEEKNYRYLPELK dbj DDBJ SSNSPEYVKGYQQFLRALTSLAFTEEEIFAIQKVLAAILLLGETEIQNSAAFKLLGAESSELENTLTQDV sp SWISS-PROT NARDVYARAMYLRLFSWIVAVVNRQLSFSRLVFGDVYSVTVIDSPGFENGLHNSLHQLCANVISDNLQNY pdbProtein Databank IQQIIFFKELEEYGEEGVNVPFNLEGGVDHRTLVNKLMDSGQGLLTAISKATQYQRKGESGWMESLQEAD SEELVEFSNVNGKPIVSVKHIFRKVSYDATDLVKKNVEDKTRALTSTMQRSCDPRIRAIFSSENPSPFLS pir PIR SPRRSSIQENMLLPERTVTDSLHSALSSVLNLASTEDPPHLILCMRPQKKELINDYDSKSVQIQLHALNV ref RefSeq LETILIRQFGFARRISFVDFLNRYQYLAFDFNENVELTKENCRLLLLRLKMDGWTLGKNKVFLKYYSEEY LSRIYETHIKKIVKVQAIARKYFVKVRQSKTKPH
Problemy w bazach danych zanieczyszczenie sekwencjami wektorów wykorzystywanymi do klonowania, bakterii, rRNA, mtDNA i innymi przypadkowymi sekwencjami poziom błędu sekwencji nukleotydowych: 1/10 000 (bardzo dobry), 1/100 (dla raz przeczytanych sekwencji w bazach EST, HTG) poziom błędu sekwencji aminokwasowych: przesunięcie ramki odczytu (frame-shift error) - 5-10% sekwencji; błędnie przetłumaczone na białkowe sekwencje genów (np. błędne określenie eksonów - 10-15%): utrata niektórych eksonów, przetłumaczenie sekwencji intronów występowanie w bazach sekwencji identycznych jako różnych rekordów – > tworzenie baz non-redundant
Problemy w bazach danych przypisanie funkcji charakterystycznej dla jednej sekwencji do drugiej sekwencji wykazującej homologię do pierwszej sekwencji sekwencja A
funkcja 1
sekwencja B błędne adnotacje z ”trzeciej i czwartej ręki” sekwencja B sekwencja C
funkcja 1 „Funkcja 1”
funkcja 1?? sekwencja C BRAK HOMOLOGII sekwencja A
funkcja 1
UniProt, GenBank, RefSeq
GenBank i RefSeq
GenBank
RefSeq, SwissProt