Preview only show first 10 pages with watermark. For full document please download

Omologia Di Sequenze: Allineamento E Ricerca

Omologia di sequenze: allineamento e ricerca Genomi (organismi) e geni hanno un evoluzione divergente Sequenze imparentate per evoluzione divergente sono omologhe Le sequenze sono confrontabili tramite

   EMBED

  • Rating

  • Date

    May 2018
  • Size

    1.5MB
  • Views

    10,129
  • Categories


Share

Transcript

Omologia di sequenze: allineamento e ricerca Genomi (organismi) e geni hanno un evoluzione divergente Sequenze imparentate per evoluzione divergente sono omologhe Le sequenze sono confrontabili tramite allineamento Sequenze simili in modo significativo sono considerate omologhe Omologia Omologia significa significa condivisione condivisione di di un un antenato antenato comune comune Sequenza ancestrale ATCGGCCACTTTCGCGATCA ATCGGCCACTTTCGCGATCG ATAGGCCACTTTCGCGATCA ATAGGCCACTTTCGCGATTA ATCGGCCACTTTCGTGATCG ATCGGCCACGTTCGTGATCG ATCGGCCACGTTCGCGATCG ATAGGGCACTTTCGCGATTA ATCGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATTA ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA Sequenze omologhe Mutazioni Mutazioni Mutazioni: alterazioni dell'informazione nel DNA Sostituzioni: cambiamento di una base Transizioni: cambiamenti Purina/Purina o Pirimidina/Pirimidina Transversioni: cambiamenti Purina/Pirimidina o viceversa Inserzioni: aggiunte di nucleotidi Delezioni: rimozioni di nucleotidi Mutazioni Mutazioni in in sequenze sequenze codificanti codificanti Sostituzioni sinonime: non modificano l'amino acido di senso: cambiano un amino acido in uno diverso non-senso: amino acido codone di stop Inserzioni/Delezioni Con cornice di lettura mantenuta (multipli di tre) Frameshift Comparsa Comparsa e e accettazione accettazione delle delle mutazioni mutazioni mutazione neutrale mutazione svantaggiosa mutazione vantaggiosa comparsa della mutazione (caso) accettazione della mutazione (caso, selezione naturale?) Teoria neutrale dell'evoluzione molecolare Le mutazioni neutrali o debolmente svantaggiose possono essere accettate nella popolazione (Deriva genetica) Le mutazioni debolmente vantaggiose possono non essere accettate nella popolazione La comparsa di mutazioni vantaggiose è un evento raro. La maggior parte delle mutazioni osservate sono mutazioni neutrali Kimura, M. The neutral theory of molecular evolution (983) Esito delle mutazioni Tipo mutazione Esito probabile Forza evolutiva Svantaggiosa Eliminazione Selezione purificatrice Deb. svantaggiosa Eliminazione / Accettazione Deriva genetica Neutrale Eliminazione / Accettazione Deriva genetica Deb. vantaggiosa Eliminazione / Accettazione Deriva genetica Vantaggiosa Accettazione Selezione positiva Adattamento Separazione Separazione per per speciazione speciazione Evento di speciazione Organismo ancestore ATCGGCCACTTTCGCGATCA Lo stesso gene in organismi diversi ATTGCCCACGTTCGCGATCG Specie moderna A ATAGGGCACTTT-GCGATGA Sequenze ortologhe Specie moderna B Separazione Separazione per per duplicazione duplicazione genica genica Evento di duplicazione gene ancestore ATCGGCCACTTTCGCGATCA Geni originati per duplicazione in uno stesso genoma ATTGCCCACGTTCGCGATCG gene moderno A ATAGGGCACTTT-GCGATGA Sequenze paraloghe gene moderno B Evoluzione Evoluzione dei dei geni geni duplicati duplicati La duplicazione genica è l'evento più frequente nell'evoluzione di nuovi geni o funzioni Duplicazione (% dei geni / milioni anni) Divergenza per mutazioni (.% / milioni di anni) Esiti Esiti della della duplicazione duplicazione genica genica Silenziamento di una copia (pseudogene) pseudogene X Mantenimento della funzione nelle due copie Acquisizione di una nuova funzione Le Le sequenze sequenze sono sono confrontate confrontate mediante mediante allineamento allineamento Sequenze allineate Osservazione ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA ** * *** ** ***** Sequenza ancestrale ATCGGCCACTTTCGCGATCA? Ipotesi ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA Allineamento Allineamento di di sequenze sequenze biologiche biologiche DNA: alfabeto di 4 lettere + gaps AATGTCA AC-GTAA Proteine: alfabeto di 2 lettere + gaps SPRRNQ-ACTCC NPR-NQGASCCC Criteri Criteri per per la la somiglianza somiglianza di di nucleotidi nucleotidi e e amninoacidi amninoacidi Nucleotidi: identità AGGCTGACCTGGGAAGGGAAACTCTCAAAACCAT AGGATGAGCT-GGAAGGATA-CTCTCAAAAACAT *** *** ** ******* ** ******** *** Aminoacidi: identità + somiglianza VLSSADKTNVKAAWGKVGAHAGEYGAEALERMFL VLSAADKANIKAAW-KVGGQAGDHGAEALERMPL ***:*** *:**** ***: **: ******** * Come Come quantificare quantificare la la somiglianza somiglianza degli degli aminoacidi? aminoacidi? Venn diagram of the proteinogenic amino acids according to their physicochemical properties Difficile stabilire criteri oggettivi per le somiglianze fisico-chimiche degli amino acidi. Non è possibile sapere a priori quali delle varie caratteristiche fisico-chimiche sono più importanti per le proteine Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (978) Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (978) Calcolo di tutte le sostituzioni osservate tra set di proteine altamente simili Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (978) Calcolo di tutte le sostituzioni osservate tra set di proteine altamente simili Costruzione di una matrice di sostituzione A(i,j) con le probabilità che un aminoacido Aj muti in un aminoacido Ai in una unità evolutiva ( PAM) Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (978) Calcolo di tutte le sostituzioni osservate tra set di proteine altamente simili Costruzione di una matrice di sostituzione A(i,j) con le probabilità che un aminoacido Aj muti in un aminoacido Ai in una unità evolutiva ( PAM) Derivazione delle matrici di sostituzioni per diverse intervalli evolutivi moltiplicando la matrice unitaria Matrici Matrici PAM PAM PAM: Una mutazione accettata su residui A A R N D C R N D C MATRICE PAM Probabilità che un aminoacido di una colonna j sia sostituito da un aminoacido di una riga i in un intervallo evolutivo di una singola mutazione su residui Matrici Matrici della della serie serie PAM PAM Tutte le matrici della serie sono derivate per moltiplicazione della matrice unitaria (PAM): PAM X PAM = PAM2 PAM3 = 3 sostituzioni su siti (~ 75% identità) PAM2 = 2 sostituzioni su siti (~ 4% identità) PAM25 = 25 sostituzioni su siti (~ 2% identità) Log-odds Log-odds PAM25 PAM25 Frequenza osservata mutazione i j Log Frequenza attesa (Fi x Fj) Le matrici PAM attualmente usate sono simmetriche e nella forma log odds. I valori esprimono il rapporto tra le probabilità di sostituzione date dall'evoluzione e le probabilità di sostituzione date dal caso. BLOSUM: BLOSUM: BLOck BLOck SUbstitution SUbstitution Matrix Matrix Henikoff and Henikoff, 992 Blocchi conservati Identità ~45% Blosum45 Identità ~62% Blosum62 Identità ~8% Blosum8 Blosum62 Blosum62 Confronto Confronto Blosum Blosum -- PAM PAM PAM Media score idrofilici = 4 Media score idrofobici =8. BLOSUM Media score idrofilici = 5 Media score idrofobici =5.2 Definizione Definizione di di allineamento allineamento : La sovrapposizione ottimale tra le lettere delle due sequenze senza modificarne l ordine DATE 2 sequenze un sistema di punteggio per le sovrapposizioni un sistema di penalità per i gaps OTTENERE Un appaiamento ottimale che conservi l ordine delle lettere ammettendo l'introduzione di elementi vuoti in modo da produrre un punteggio totale più alto Il Il punteggio punteggio di di un un allineamento allineamento è è la la somma somma del del punteggio punteggio dei dei singoli singoli elementi elementi Sequenze da allineare )AGGC 2)AGC Sequenze allineate Punteggio = 2 AGGC AG-C Contributi individuali al punteggio A G G C A G - C Punteggio totale= somiglianze penalità gap Trovare la sovrapposizione ottimale tra sequenze equivale a trovare il massimo valore per la funzione Esistono Esistono algoritmi algoritmi per per trovare trovare in in modo modo efficiente efficiente allineamenti allineamenti ottimali ottimali I programmi di allineamento non esplorano tutte le combinazioni possibili per trovare la sovrapposizione ottimale Combinazioni possibili = = = = = = = = = = Il numero di combinazioni possibili per sequenze di lunghezza n è proporzionale a 2n*m. [O(2n*m)] Questa soluzione avrebbe tempi di calcolo elevatissimi anche per sequenze di lunghezza modesta Si utilizzano algoritmi più efficienti di programmazione dinamica Il numero di calcoli per trovare un allineamento con questi algoritmi è proporzionale a n*m. [ O(n*m)] Allineamenti Allineamenti globali globali e e allineamenti allineamenti locali locali Allineamento globale (Needleman and Wunsch, JMB 97) Allineamento locale (Smith and Waterman, JMB 98) Seq) AAGCTAAAGCTTCGACTT Seq2) TTAAAAGTTATT Un algoritmo di allineamento globale costringe le sequenze a sovrapporsi per l'intera estensione indipendentemente dalla somiglianza. Es: AAGCTAAAGCTTCGACTT TTA--AAAG-TT--A-TT Un algoritmo di allineamento locale riporta la sovrapposizione solo per la porzione più somigliante. Es: AAAGCTT AAAG-TT Allineamento Allineamento con con programmazione programmazione dinamica dinamica H E A G A W G H E E P A W H E A E HEAGAWGHE-E P---AW-HEAE L'algoritmo di programmazione dinamica consiste nel riempire con calcoli opportuni una tebella in cui le due sequenze sono confrontate per righe e colonne. Il numero di calcoli per trovare un allineamento con questi algoritmi è proporzionale a n*m. [ O(n*m)] N.B. Nell'esempio è stato usato un punteggio di + per due aa uguali e per due aa diversi. II valori valori nelle nelle matrici matrici di di sostituzione sostituzione determinano determinano il il punteggio punteggio di di un un allineamento allineamento Score allineamento: 5 Seq Seq2 V D S - C Y V E S L C Y Score 4 2 Blosum Scelta Scelta delle delle penalità penalità per per ii gap gap Punteggio totale= somiglianze penalità gap La scelta della penalità risponde alla domanda: Qual'è il guadagno di punteggio necessario per poter inserire un gap? Ad esempio: se la penalità scelta è di e la matrice usata è la blosum62 un gap sarà inserito se ad esempio vengono sovrapposte: due alanine (punteggio=5) + due proline (punteggio=7) oppure due triptofani (punteggio=)...mttap......mt-ap......mttap......mtap... Penalità gap 2 Penalità gap 2 Penalità Penalità per per apertura apertura gap gap e e penalità penalità per per allungamento allungamento gap gap Se in una posizione è tollerata l'inserzione o delezione di un residuo è probabile che siano tollerate inserzioni o delezioni di più residui Penalità gap= penalita apertura penalità allungamento Formula Formula generale generale per per l'allineamento l'allineamento Punteggio totale= somiglianze penalità gap (apertura + allungamento) Significatività Significatività di di un un allineamento allineamento Sequenze allineate Osservazione ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA ** * *** ** ***** Ipotesi OMOLOGIA? CASO? P (omologia) + P (caso) = Valido se P(caso) Allineamenti Allineamenti significativi significativi e e casuali casuali Human haemoglobin (4 aa). Human myoglobin (53 aa) VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQ ::.. :..::::.:...:.:.: :.:. :.:. :.:.:...:.. GLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASED VKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLP.: ::.:.:: :.. :: :.....:.:...:... : LKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHP AEFTPAVHASLDKFLASVSTVLTSKYR :...: :.....:.:. GDFGADAQGAMNKALELFRKDMASNYKELGFQG Distribuzione dei punteggi di allineamento con sequenze randomizzate Punteggio all. Punteggio allineamento = 76 punteggio all. Chicken lysozyme (29 aa) - Bovine ribonuclease (24 aa) KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINS :. ::..:..:..... :...:. : KETA----AAKFERQHMDSSTSAASSSNYCNQMMKSRNLTKDRCKPVNTFVHESLADVQA RWWCNDGRTP--GSRNLCNIPCSALLSSDITASVNCAKKIVSDGDGMNAWVAWRNRCKGT : :..:...:.....:.....: :.:. V--CSQKNVACKNGQTNCYQSYSTMSITDCRET-GSSKYPNCAYKTTQANKHIIVACEGN DVQAWIRGCRL.... PYVPVHFDASV Distribuzione dei punteggi di allineamento con sequenze randomizzate Punteggio allineamento = 3 Statistica Statistica parametrica parametrica degli degli score score casuali casuali Inizialmente la distribuzione dei punteggi casuali veniva approssimata con una curva gaussiana (Dayhoff et al.). In realtà la distribuzione dei punteggi casuali segue una curva detta dei valori estremi (EVD), che è asimmetrica verso i valori più alti (Altschul et al.) Calcolo Calcolo della della significatività significatività secondo secondo la la E.V.D E.V.D Altschul et al. E Kmne S Il valore E (Expected) rappresenta il numero di segmenti attesi (per effetto del caso) in un allineamento con un punteggio uguale o maggiore di un dato score S Dove n e m sono le lunghezze delle due sequenze e K e sono parametri stimati con fitting da allineamenti di sequenze casuali per una determinata matrice di somiglianza e penalità di gap. Questa statistica è pienamente valida solo per gli allineamenti locali Probabilità casuali di un allineamento con score S Il valore di E non è propriamente un valore di probabilità. La probabilità di avere uno score uguale o superiore a S è P = e-e Per valori di E bassi ( .5) E e P convergono a valori molto simili