TEMA 4 Fonaments de Bioinformàtica (FBI) (2017)

Apunte Catalán
Universidad Universidad de Girona (UdG)
Grado Biología - 3º curso
Asignatura Fonaments de Bioinformàtica
Año del apunte 2017
Páginas 39
Fecha de subida 01/07/2017
Descargas 0
Subido por

Descripción

Inclou els apunts del tema 4 corresponents a l'assignatura de Fonaments de Bioinformàtica (FBI) (Part genètica). Alineaments múltiples i construcció d’arbres filogenètics.

Vista previa del texto

Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA TEMA 4 – Alineaments múltiples i construcció d’arbres filogenètics 4.1. Alineaments múltiples - Alineament múltiple de seqüències (AMS) Un alineament múltiple és fer un alineament que sigui de més de dos seqüències.
Aquestes són seqüències biològiques, que poden ser d’ADN, ARN, aminoàcids... i es tracta de intentar ajustar les seqüències quan són més de dos.  Són una extensió de l’alineament per parells de seqüències, que consisteix en alinear diverses seqüències (DNA, RNA, aa) relacionades per aconseguir la millor coincidència entre elles.
Per poder fer un alineament múltiple les seqüències utilitzades han de tenir certa homologia.  L’alineament múltiple de seqs (AMS) és una manera d’ordenar seqüències biològiques de DNA, RNA o aa per identificar regions de similitud que puguin ser conseqüència d’una relació funcional, estructural o evolutiva entre elles.
Quan es fa un alineament és obvi que les seqüències es posen una sota l’altre (files) i a les columnes es troben cadascuna de les posicions d’aquestes seqüències. Intentes ajustar, posar-ho bé, perquè aquests caràcters siguin homòlegs.  La millor forma de representar un alineament múltiple és escrivint les seqüències a comparar en files una sobre de l’altra, generant així una matriu de m seqüències x n caràcters, contenint cada columna residus homòlegs. Això possibilita una comparació ràpida entre les seqüències.
Per exemple, si tenim aquestes 4 seqüències i el deixem així no busca aquesta homologia. Jo se que això si és comú són posicions homòlogues perquè cada columna tingui el màxim d’homologia possible i potser hem de ficar gaps o indels.
Quin avantatge té o perquè serveixen els alineaments múltiples?    Revelen molta més informació biològica que un grup d’alineaments per parells Si les seqüències de DNA tenen un ancestre comú...
Per seqüències de proteïnes...
És fàcil veure si estan conservades amb les diferents seqüències que estem comparant. Si per exemple estem fent filogènia o un estudi evolutiu es pot deduir si en una determinada posició hi ha un canvi o bé indels, aquestes espècies estan començant a divergir.
Quan utilitzem aminoàcids, les zones altament conservades són aquelles que són importants.
1 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Criteris construcció AMS: Els criteris per construir un AMS, on els tres primers corresponen a informació biològica però de vegades no tenim aquesta informació. En aquest cas únicament tenim l’últim criteri, similitud de la seqüència. Podem inferir a partir d’això a que serà similar estructuralment, funcionalment i evolutivament (és el més utilitzat).
Si hi ha la opció de triar, podem tenir diverses opcions (Selecció de seqüències): → Proteïnes o DNA  si tenim DNA i hem d’alinear les seqüències de DNA, si tenim la opció de passar-lo a proteïnes i a partir dels aminoàcids fer l’alineament. Si la meva seqüència de DNA no es codificant, no tenim la opció i no podem passar-la a proteïna. Si fos codificant i codifica, doncs, per aminoàcids, és més senzill passar la seqüència de DNA a aminoàcids i fer l’alineament amb els aminoàcids. Serà més curta, més senzill, menys variable. Més tard ho pots revertir a seqüència un cop alineat.
→ Si tenim moltes seqüències, si volem fer un estudi filogenètic molt ambiciós pots utilitzar totes les seqüències però si tens moltes no cal que les utilitzis totes.
→ De vegades les seqüències poden ser molt diferents tot i ser homòlogues, un 30% idèntiques, serà molt complicat fer l’alineament i és millor evitar, si es pot, aquest tipus de seqüències.
→ Si les seqüències que estem alineant són molt i molt similars no estan aportant informació. Si tenim 4 que són pràcticament idèntiques no m’aporta nova informació. S’ha de mirar un equilibri, un compendi de que més de la meitat de les seqüències estigui entre un 30 i 70% de identitat.
2 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Els alineaments múltiples majoritàriament es fan servir per mirar zones conservades en proteïnes o fer arbres filogenètics i interessa que les seqüències comparades tinguin una mida similar. Un dels problemes dels alineaments múltiples és quan tenim zones repetitives.
Principals aplicacions: - Extrapolació  tenim unes seqüències de diferents espècies però no sabem a qui pertanyen i podem utilitzar seqüències de referència - Anàlisis filogenètiques  necessitem un alineament múltiple per poder fer-ho - Identificació de dominis proteics / seqüències amb funció coneguda - Predicció d’estructures secundàries/terciàries proteiques i d’RNA - Detecció de polimorfismes (SNPs, microsatèl·lits) - Disseny de cebadors (primers) per PCR  primers degenerats on la primera base dóna lloc a diferents nucleòtids Limitacions dels alineaments múltiples: - Repeticions en tàndem - Proteïnes (diversos graus de repetició de determinats dominis) - DNA (satèl·lits, minisatèl·lits, microsatèl·lits) 3 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Quan tenim repeticions en quant a microsatèl·lits però aquests no tenen el mateix nombre de repeticions què fem?  eliminem aquest per evitar un biaix. Les zones repetitives s’eliminen dels alineaments múltiples normalment.
Com posar els indels (insercions/delecions)?  En aquest alineament més o menys tenen la mateixa longitud. Hem de posar gaps, de vegades és complicat saber on posar-ho.
Algoritmes d’alineament pairwise El DotPlot no és un alineament real, és qualitatiu.
El local és Smith-Waterman i el global Needleman-Wunsch.
Funció de puntuació Tant als alineaments per parells de seqüències com els múltiples es basen en una funció, una funció de puntuació.
AMS consisteix en acomodar les seqüències de forma que el màxim número de residus (posicions) de cada seqüència coincideixin d’acord a una funció de puntuació (scoring function) particular  La que normalment s’utilitza al AMS és la funció de puntuació de suma de parells (SP).
Aquesta és simplement quan es realitza l’alineament tu intentes ajustar-ho perquè el màxim de posicions siguin homòlogues i arribar a tenir una matriu de puntuació. Els match, missmatch i gap tenen diferents puntuacions.
4 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA El que fas és, un cop realitzada la puntuació es mira de dos en dos totes les comparatives possibles i mires quina puntuació tens i al final de tot sumes dos a dos les puntuacions. S’intenta que aquest valor sigui el màxim possible perquè com més elevat sigui millor serà el teu alineament.
Suma de la puntuació de tots els possibles parells de seqüències utilitzant una matriu de puntuació particular. AMS amb el màxim SP score.
Exemple de funció de puntuació: Cada opció que fem serà un alineament diferent. Els números de funció poden canviar però millor no tocar-ho.
 Si utilitzem +1 per coincidència (match), -1 és la penalització per discrepància (missmatch) i ignorem els gaps (0), amb les seqüències: ATGGCGT ATGAGT  El millor alineament seria:  Un alineament alternatiu seria: Ens quedem amb l’alineament de dalt perquè obtenim un 4 en comptes de un 2.
Típica pregunta d’EXAMEN GATGT ACGT GATGG La primera amb la segona, la segona amb la tercera i la primera amb la tercera. Mirem per columnes. També es pot fer per files, el que et vagi millor a tu.
Aquest és un alineament però podria haver més d’un. Ens hem de quedar l’alineament que doni un valor més elevat.
Algoritmes d’alineament múltiple 5 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Les seqüències molt curtes, molt similars i en un nombre reduït són molt “fàcils” d’alinear manualment, però normalment es treballa amb seqüències llargues, amb variació i número important. Això fa necessari la utilització d’algoritmes d’alineament.
Dos grans grups:   Globals: intenten optimitzar un alineament que recorri tota la longitud de les seqüències.
Locals: identifiquen regions de similitud (només alinea aquestes regions) a seqüències llargues que en conjunt són més divergents.
De programes d’alineament tenim dos grans grups: globals i locals. Els globals intenten maximitzar el màxim de coincidències al llarg de tota la seqüència. El local només mira a nivell de fragments que siguin molt similars.
Algoritmes exhaustius     Alineament de tots els possibles alineaments simultàniament i similar a com es realitza a la programació dinàmica Això implica la construcció d’una matriu multidimensional, (p.e. per alinear tres seqüències (k = 3), es requereix construir una matriu tridimensional).
Finalment s’ha de realitzar el seguiment al llarg de les k dimensions per trobar el camí que representi el millor alineament.
Acostumen a limitar-se a petits conjunts de seqüències (k<10), perquè necessiten molt de temps computacional  Alternativa són els mètodes heurístics Tant dins de global com local altres tipus d’algoritmes són els exhaustius. Exhaustiu vol dir que a cada posició miro simultàniament totes les seqüències alhora, intento maximitzar al màxim la posició del alineament a totes les posicions. Aquest tipus d’alineament no es pot fer amb 10, 15 seqüències. Només es pot aplicar quan tenim poques seqüències (3-5) perquè és computacionalment molt costós. Et garanteix que aquest alineament serà l’òptim, el millor de tots.
Es fan les matrius de Smith i Needleman amb més dimensions. Per cadascun dels parells es fa l’alineament. Es creen unes fronteres o marges. Els marges on van coincidint els tres parells alhora es el que construeix el AMS.
Algoritmes heurístics No sempre es pot fer l’alineament òptim perquè tenim massa seqüències i s’utilitzen altres vies anomenades algoritmes heurístics, són aproximacions que no són la òptima però està bé. Hi ha tres tipus: - Alineament progressiu  Clustal, T-Coffee  les seqüències més semblants són les que es van alineant i es van afegint progressivament les seqüències més semblants fins que arribem a la més distant - Alineament iteratiu  PRRN, MUSCLE  crea un alineament inicial i va fer iteracions per tal de millorar-lo (iteració = repetició) 6 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA - Alineament basat en blocs  DIALIGN2  alineament locals que al llarg de les seqüències es busquen blocs o zones conservades i estan en el mateix ordre de les seqüències L’alineament progressiu (/jeràrquic/tree method)  Aquest mètode ens ampla progressivament alineaments de parells de seqüències per crear l’AMS. Si tenim x seqüències totes aquestes s’alinearan de dos en dos per crear una matriu de distàncies inicial. Fem alineament dos a dos i amb aquesta fem un arbre... aquest arbre és un arbre guia que guia amb l’alineament i finalment les alinea totes amb el mateix arbre.
1. Alineament global per parells de seqüències utilitzant un algoritme (NeedlemanWunsch) 2. Matriu de distàncies 3. Arbre guia (Clustal i T-Coffee; PILEUP; UPGMA) 4. Les 2 seqüències més relacionades són realineades (utilitzant l’algoritme N-W), convertint-se en una seqüència (consens) 5. Aquest procés continua fins que totes les seqüències queden alineades Programes: Clustal, PILEUP i T-Coffee utilitzen aquest sistema Exemple de alineament progressiu Si tenim aquestes seqüències i fem alineament dos a dos, utilitzant la programació dinàmica que coneixem de Needleman. Fem alineament dos a dos amb totes les comparatives dos a dos possibles. Quan ho fem, podem mirar els match i missmatch que tenim per poder crear una matriu de distàncies. Gràcies a aquests alineament dos a dos es crea una matriu inicial i això servirà per fer un arbre filogenètic. Depenent del programa, l’arbre que es fa pot ser UPGMA i el de neighbor join. Aquest arbre serveix perquè les seqüències més semblants són A i B; C i D.
Es realitzen tots els alineaments de parells de seqüències individuals (2 a 2) i es construeix una matriu de distàncies pairwise S’alineen els parells C-D i A-B per separat utilitzant programació dinàmica (N-W): 7 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Aquests alineaments per parells (C-D i A-B) es redueixen a seqüències consens, les quals s’alineen entre elles Es crea una nova seqüència consens per C-D-A-B, la qual s’alinea amb E per finalment completar l’alineament múltiple Resumint: Si alineem C i D, creem una seqüència consens CD. Alinearem A i B i creem una única seqüència consens AB. Lo següent més semblant que hi havia era AB amb CD i ara hem de seguir l’ordre, convertirem una única seqüència consens ABCD. Aquesta s’alinearà amb la més diferent de totes, la que queda, la E. Finalment, tindrem una única seqüència consens ABCDE.
Dos a dos es fa Needleman tota l’estona perquè es mira a nivell global.
Com es fa una seqüència consens? (Incís) ACTG ATTA AGCG Consens és que tinc la informació de tot l’alineament alhora. En el exemple situat més a dalt, la seqüència consens seria  ABYR  això s’aconsegueix quan anem al codi IUPAC (International Union of Pure and Applied Chemistry) i si té CTG es posa una B.
Algoritmes heurístics  Alineament progressiu (limitacions) Quin és el problema de les seqüències de quan es fa l’alineament progressiu?  De vegades si trobem seqüències molt i molt similars ens quedem amb la primera per ordre. Un dels problemes és que si són molt i molt diferents les seqüències podem tenir errors que podem propagar, anar arrossegant al llarg del alineament perquè aquest fixa els gaps des del principi. Els gaps no es trauran, no es reajusta al llarg dels 8 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA alineaments.  El resultat final està molt influenciat per l’ordre de les seqüències.
El resultat de l’alineament depèn de l’alineament inicial de parells de seqüències: - Si les dues primeres seqüències són molt similars, l’alineament base tindrà pocs errors Si les dues primeres seqüències són molt divergents, els errors i els forats (gaps) s’aniran acumulant, propagant (si les seqüències són molt diferents, més gaps haurem de posar i més complicat és).
Han de ser seqüències estretament relacionades i és molt bo quan tenim moltes seqüències a diferència de l’exhaustiu perquè és bastant ràpid.
Alineament progressiu: quan utilitzar-lo? - Quan tents seqüències estretament relacionades - Per a un gran nombre de seqüències Algoritmes heurístics: Alineament iteratiu (repetitiu) - Aquest tipus de mètodes es basen en la idea de que la solució òptima es pot trobar modificant repetidament les solucions subòptimes existents.  Fan un alineament al atzar per tenir un punt de partida i van repetint contínuament l’alineament fins trobar una solució satisfactòria.
- El procés comença produint un alineament de “baixa qualitat” i gradualment el va millorant fins que no sigui possible millorar més els alignment scores.
(Els exhaustius triguen molt i troben la solució òptima els heurístics triguen menys però no troben l’òptim).
Un dels programes que utilitzen algoritmes iteratius és el PRRN. Es basa en fer repeticions i en concret utilitza un tipus d’iteració anomenat doble anidada.
Repeticions internes i externes.
9 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA  PRRN (http://www.genome.jp/tools/prrn) és un algoritme per alineament múltiple que utilitza una estratègia iterativa doble anidada: Efectua l’AMS mitjançant 2 conjunts d’iteracions: la interna i l’externa 1. En la iteració externa: AMS aleatori inicial  matriu  arbre UPGMA Tens un alineament aleatori que a partir d’aquest alineament la primera part sona al progressiu.
2. Pesos de l’arbre aplicats per optimitzar l’AMS A partir d’aquest primer arbre potser les relacions posades a l’alineament de partida a l’atzar no són les que semblaven. Optimitzem aquest alineament al atzar inicial. Tindre uns pesos que m’haurà donat aquest arbre per ajustar la solució, la qual no és definitiva.
3. A la iteració interna: seqüències aleatòriament dividides en dos grups Es divideix en dos aquest alineament, aquesta seqüència a sobre de l’altre es divideix en dos grups que s’alinearan entre si i tindré dues seqüències consens.
4. Seqüència consens per a cada grup Aquestes seqüències consens per cada grup s’alineen entre elles i s’obté una puntuació (suma de parells) 5. Els 2 grups s’alineen entre ells amb programació dinàmica global  SCORE Aquesta puntuació. Segons els paràmetres es pot ordenar al programa que o bé es torni a fer des del punt 1 i un total de 1000 iteracions internes o quan assoleixis una puntuació de tal, para. A partir d’aquí, d’aquest alineament amb tal puntuació es torna a començar, a fer una iteració interna. Durant x cicles.
6. El procés es repeteix al llarg d’uns quants cicles (torno a començar al punt 3) fins que la puntuació total de la suma de parells (SP) no s’incrementa més 7. (Tornaria a començar a l’1). En aquest punt, l’AMS resultant és utilitzat per a: “8” Construir un nou arbre UPGMA “9” Els nous pesos són aplicats per optimitzar les puntuacions de l’alineament “10” El nou alineament optimitzat és subjecte d’un posterior realineament (tornem a tenir uns quants cicles) en la iteració interior Aquest procés és repetit durant molts cicles fins que no hi ha més millora en les puntuacions globals de l’alineament 10 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Esquema: aquest alineament inicial és a l’atzar completament, pot sortir alguna cosa que no tingui res a veure i conforme anem fent repeticions i hi hagi més scores anirem millorant. S’obté una matriu amb la qual farem un arbre. Aquest arbre també serà un arbre tipus guia i en base a aquest es millora una mica (aplicar els pesos) i es divideix en dos grups. Aquest grup (5) i (3 i 4) s’alineen entre ells i dins de cada grup torna a ser a l’atzar. Això evita, fa que la seqüència de la primera vagi canviant, que hi hagi influència per l’ordre. Com realineem a l’atzar evitem ficar gaps i ens quedarem amb el que tingui l’score més elevat. Un cop obtinc una seqüència consens per cada grup realitzem una programació dinàmica i alineo les dues seqüències consens. Separar els dos grups i realinear és una fletxa que torna i és una iteració interna. Quan pari de fer les iteracions internes obtindré un nou alineament múltiple. Aquest no serà el mateix de l’inici. Estarà millorat, ja que s’ha fet un nombre d’iteracions internes i es torna a començar una repetició externa. Això es torna a fer els cops que s’indica. Si la puntuació de l’alineament convergeix  la puntuació és de 2, quan faig més la puntuació puja a 4, 8. Arriba un punt que tinc 10,1, 10,111... si no millora la puntuació s’atura i és aquest l’alineament amb el que em quedo.
Progressiu i iteratiu són destinats a fer alineaments globals. Si m’interessa fer un local utilitzaré altres algoritmes, com per exemple el basat en blocs.
Algoritmes heurístics  Alineament basat en blocs      Necessitat de generar estratègies per trobar similituds locals Les seqüències per alinear, poden compartir blocs més o menys conservats, separats per regions llargues més o menys conservades Cada bloc es construeix amb alineaments locals de diferents fragments de cada seqüència Un cop fixats els blocs, s’utilitzen altres mètodes d’alineament per alinear aquestes regions DIALIGN2 és un programa per trobar similituds locals  totes les seqüències que tinc les trenco en fragments més petits i tots aquests s’alineen dos a dos i un cop realitzat això es mira els que es repeteixen més i s’anomenen blocs. Són fragments que repeteixen en x vegades en les diferents seqüències dos a dos. No 11 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA    cal que un bloc determinat estigui present en totes les seqüències però com a mínim ha d’estar en dos.
Aquest mètode trenca les seqüències en seqüències més petites i realitza tots els alineaments pairwise entre els segments Els segments amb una elevada puntuació entre les diferents seqüències són denominats blocs Aquests blocs són compilats de forma progressiva per fer un assemblatge en un complet AMS Visualment a l’esquerra 4 seqüències diferents no alineades. Són blocs. Si s’alinea per blocs obtindrem lo de baix. Interessen les regions conservades perquè tindran un sentit biològic important que interessa. Lo que esta enmig dels blocs no s’alinea, no interessa. S’ha d’utilitzar un altre programa que alinea lo que queda al mig.
Les zones en gap no es tenen en compte, no les vol, no les alinea.
Aquest tipus de programa és bastant útil quan vols alinear proteïnes que tenen dominis importants.
Programes més utilitzats per a la realització de AMS: Els que més s’utilitzen bàsicament són Clustal W, T-Coffee i MUSCLE.
12 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Els dos primers són del tipus progressiu i l’últim de tipus iteratiu.
Quan fem BioEdit, l’alineament el realitza ClustalW. És el més utilitzat i està implementat en altres softwares.
ClustalW és molt important perquè com és alineament progressiu si al principi queda fixat un gap aquest quedarà fins al final encara que sigui erroni. Per tant, si a les nostres seqüències tenim gaps inicialment, abans de fer l’alineament els hem de treure perquè ell no ens els traurà.
Hem d’intentar no tocar els paràmetres a menys que sigui necessari.
13 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA TCoffee (Tree-based Consistency Objectve Function For alignment Evaluation) (Notredame et al. 2000)  alineament tipus progressiu Similar a ClustalW, però AMS més exactes (més temps de computació). És una mica millor que ClustalW perquè triga una mica més en fer la computació. Això és així perquè el ClustalW el que fa és inicialment alinear les seqüències dos a dos i en base a això computa una matriu. En canvi, T-Coffee inicialment fa alineament dos a dos però més refinat perquè utilitza dos programes diferents pel seu benefici. És un programa que utilitza 2 programes. El ClustalW per fer alineament global i Lalign per fer alineament local. Alhora per cada parell de seqüències.
1. Construeix un alineament progressiu, però realitzant un alineament dels parells de seqüències tant local (utilitza el software Lalign) com global (utilitza ClustalW).
2. Els resultats d’aquests dos alineaments (global i local) s’emmagatzemen per formar una biblioteca.
3. Per cada parell de residus en cada parell de seqüències es calcula una puntuació de consistència provinent dels alineaments locals i globals.
4. Extensió de la biblioteca: cada alineament de parells s’alinea amb una tercera possible seqüència  resultat obtingut és utilitzat per a refinar l’alineament de parells original. Mirem si això canvia si afegim una tercera seqüència. La puntuació que s’havia obtingut es canvia.
5. Basat en aquest refinament de l’alineament de parells  matriu  arbre guia (NJ). Un cop tinc tots els parells de seqüències alineats dos a dos farem una matriu, arbre guia i AMS progressiu.
6. AMS progressiu Esquema: a dalt de tot tenim la seqüència A i B, la A amb la C i la B amb la C, alineaments dos a dos. Es pot fer l’alineament global (ClustalW) o el local (Lalign) i es fa alhora per cada parell de seqüències. Tindré una puntuació per cada tipus 14 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA d’alineament i això constituirà la meva biblioteca de puntuacions. Però això no acaba aquí, s’ha de fer una extensió de la biblioteca. Un cop tenim les puntuacions finals fem una matriu amb alineaments dos a dos, un arbre i un alineament progressiu.
Exemple d’extensió de la biblioteca: Cada dos seqüències tinc una puntuació. A i B no estan gaire ben alineades i afegim la C. A i B canvien entre elles perquè s’ha de reajustar. Si afegim una D també s’ha de reajustar. Gràcies a això veiem que entre A i B hi ha llocs que són més consistents o línies més gruixudes respecte altres que són més primes. S’ha de millorar, reajustar.
S’obtenen noves puntuacions per les seqüències. No estarà tan bé fer la matriu si no hem reajustat.
TCoffee (Tree-based Consistency Objective Function For alignment Evaluation)  http://www.tcoffee.org Aquests altres programes serveixen per altres objectius. Pot ser un alineament de ClustalW o altre programa i et qüestiona si l’alineament és de confiança, ho avalua.
Un altre programa és MCOFFEE et combina diferents alineaments, tels ajunta i tenim un alineament de 10 espècies per un marcador molecular i de les mateixes 10 15 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA espècies però per altre marcador molecular. Combina i tenim un únic alineament múltiple.
L’EXPRESSO (si no tens informació estructural de la proteïna no passa res però si la tens la pots introduir al programa perquè la tingui en compte).
MUSCLE (MUltiple Sequence Comparison by Log Expectation) (Edgar 2004) Es fa servir bàsicament per fer alineaments en seqüenciació massiva. Moltes seqüències alhora per alinear. Vas més ràpid. Es basa principalment en k-taples o kmer (motius, frases). En aquest programa el que es fa inicialment és no fer cap alineament, simplement comparem les seqüències dos a dos però no les alineo, miro si tenen motius compartits (ACTG per exemple). No fem cap alineament, només es compara i és més ràpid que alinear-les. Un cop les comparo sense alinear obtinc una matriu i aquesta no és d’alineament no mirem residus. Mirem incidències de k-mers. Si ens quedéssim en el primer pas seria com alineament progressiu però en comptes de dos en dos es fa en k-mer. Si es iteratiu què es fa?  un cop tenim l’alineament a partir d’aquest mirem les seqüències dos a dos però ara no mirarem els k-mers sinó que ens basarem en una distància genètica: Distància de kimura (basada en un model evolutiu). Faig una matriu. Un nou arbre. Un nou alineament. Es va retocant fins assolir una puntuació que convergeixi. Fins a un cert nombre d’iteracions i paro.
1. Draft Progressive (esborrany): 1.1.
Sense construir l’alineament, calcula la distància entre dues seqüències comptant el nombre de fragments curts (k-mer) que tenen en comú 1.2.
Matriu de distàncies k-mer per crear l’arbre guia (k-mer Clustering) (UPGMA).
1.3.
AMS progressiu 2. Improved Progressive (distància de Kimura, millorament): 2.1.
A partir dels parells de seqüències de l’AMS obtingut es calcula una matriu de distàncies pairwise (Kimura) 2.2.
NOU ARBRE 2.3.
NOU AMS progressiu d’acord al NOU ARBRE 3. Refinament (repeticions) de l’alineament mitjançant iteracions fins la convergència o durant un nombre determinat de vegades 16 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Tot aquest procés és el que fa el MUSCLE.
Etapa 1. Inicialment, per fer l’esborrany en base als k-mers són les seqüències comparades dos a dos (no alineament) i es fa una matriu. Es fa un arbre i es van afegint seqüències de més semblant a menys i tenim un alineament. El fet d’utilitzar kmers va molt bé perquè és molt ràpid quan tinc moltes seqüències però perdem fiabilitat. Alineament inicial.
La diferència amb l’altre tipus iteratiu, l’alineament inicial era a l’atzar i en aquest cas no. Vull anar ràpid però utilitzo k-mer, no és a l’atzar.
A partir d’aquest alineament inicial que no és a l’atzar arribem al AMS (Etapa 2).
17 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Miro dos a dos les seqüències i en comptes de mirar diferències em baso en aquest tipus de distància genètica anomenat distància de Kimura (model evolutiu).
A partir d’aquesta matriu 2 es fa un arbre i es torna a fer un alineament. Alineament 2 en base a les distàncies de Kimura.
Per fer la matriu de Kimura partim d’un alineament, en l’anterior no tenim alineament (k-mer). A partir d’aquest alineament 2 què passa?  arribem a la tercera etapa.
Intento millorar. Aquest arbre el trenco per la meitat o per un marge però tallem.
Obtenim dos subgrups. No es separen els grups a l’atzar. Aquests dos subgrups i dins de cadascun d’ells alineo. El que fem és que aquests dos grups es fa un alineament final i s’anomena alinear perfils. Perfil del grup 1 i perfil del grup 2. Hem de posar els gaps per alinear els perfils. Obtinc un alineament final.
18 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Si aquest alineament final (3) el comparo amb el 2 i millora em quedo amb aquest. Si no millora l’elimino i torno a separar l’arbre en dos grups, torno a fer alineament de perfils i fins a un nombre determinat d’iteracions o bé no aconsegueixes una millora de l’score.
MUSCLE (MUltiple Sequence http://www.drive5.com/muscle/)    Comparison by Log Expectation, És precís, donant AMS de qualitat, i molt ràpid (gràcies al k-mer clustering, és 3000 vegades més ràpid que Clustal en crear arbres però aquests poden ser menys acurats)  perquè utilitza els k-mers, has de tenir moltes seqüències.
Aquest programa és ideal per l’alineament d’un nombre elevat de seqüències (>100).
Accessible en diferents servidors MultAlin Fins ara hem vist programes d’alineament. Que un programa alinea per tu no significa que ho faci bé. S’ha de repassar l’alineament. Arreglar manualment. Sempre hem de revisar els alineaments obtinguts d’un programa. Necessitem un programa d’edició que et permeti editar aquell alineament.
EDITAR I PUBLICAR ALINEAMENTS Edició manual de AMS:   Els programes d’alineament automàtic són molt útils, però de vegades poden cometre errades en els nostres AMS Aquestes “errades” produïdes pels alineaments automàtics poden ser fàcilment corregides mitjançant els programes d’edició manual de AMS Programes més utilitzats per a l’edició manual de AMS:  Offline: - BioEdit  retocar a mà el resultat d’un programa (ClustalW) - clc sequence viewer - Eviox - Seaview  Online: - Jalview BioEdit (http://www.mbio.ncsu.edu/bioedit/page2.html) (Hall 1999)    És una potent eina per l’edició i maneig de seqüències (nt o aas).
Permet realitzar múltiples tasques.
Accepta i converteix varietat de format d’arxius (.fas, .phy, .gb, etc...).
19 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA     Pot obrir cromatogrames (.abi).  si la sortida del seqüenciador hi ha una base degenerada hi ha dobles pics i veure que no ho ha llegit bé. Permet editar els cromatogrames per arribar a la seqüència inicial.
Té molts tipus de formats diferents (important per fer diferents anàlisis genètiques).
Una Interface amb finestres molt intuïtiva i fàcil d’utilitzar.
Incorporar altres eines bioinformàtiques (p.e. Clustal, BLAST, etc...).
JalView (http://www.jalview.org/download.html) (Clamp et al. 2004)   Eina d’edició online (també opció offline).
Incorpora Clustal, T-Coffee i MUSCLE (BioEdit incorpora el Clustal) Pots incorporar molta informació biològica al teu alineament.
Arxiu de sortida, fa alineament, arbre filogenètic, predicció de la estructura tridimensional de la proteïna...
Per què s’han de preparar els AMS per publicar? Veure com s’interpreta o treure profit de la seqüenciació. Tenim diferents programes per millorar l’aspecte visual o que el lector pugui interpretar millor l’alineament.
Preparació dels alineament per publicar:      Visualització dels alineaments és complicada (seqs llargues) Destacar la informació més rellevant de l’alineament múltiple (fer-lo interessant) Incloure en presentacions, publicacions, etc...
Editors de AMS Eines d’interpretació i millora de l’aspecte visual de AMS Eines d’interpretació dels alineaments: El programa Logo té enganxat l’alineament i extreu zones amb un interès biològic, zones conservades que tenen importància biològica. El motiu que està gran és molt més fàcil d’interpretar. La sortida Logo dona les posicions de l’alineament i l’alçada en 20 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA el Logo informa de la conservació de les seqüències comparades. Tinc una C a totes les seqüències que he comparat. Aquesta posició és super conservada en totes les seqüències però l’altre C és molt conservada però no 100% perquè o bé tinc una T o una C. La base més freqüent (més mida) es posa a dalt i es posa en ordre decreixent.
Ràpidament visualitzem les posicions i en quina freqüència es troben.
L’última eina per millorar l’aspecte visual és el BoxShade i ombreja, fa ombres en funció de si és més o menys conservat aquell residu. Si és el mateix residu es marca en negre i si és semblant, aminoàcids semblants bioquímicament o el residu. Es marca en gris.
Eines de millora aspecte visual AMS: 4.2. Construcció d’arbres filogenètics Si no tens un AMS no pots fer un arbre. Tipus global  les seqüències que comparis ho compares al llarg de la seva longitud. Les diferents parts d’un arbre. Mètodes per reconstruir arbres filogenètics.
- Definició arbre filogenètic Mètodes d’inferència filogenètica o Distància (UPGMA, NJ)  escola fenètica, escola cladista o Parsimònia  escola cladista o Màxima versemblança  màximum likelihood i és un compendi de les dues anteriors, té en compte tant distàncies com probabilitat (que és en lo que es basa la parsimònia) També tenim mètodes d’inferència bayesiana i és semblant a la versemblança tot i que la hipòtesi inicial és diferent. No hi entrarem.
Què és una filogènia? (imatge d’arbre filogenètic inferit amb gens ribosòmics entre Bacteria, Archaea i Eucarya)  primer intent de relacionar totes les espècies o dominis de la Terra.
21 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Quines són les relacions de parentesc, evolutives, entre els taxons que estem comparant. Intenta estudiar quines són aquestes relacions.
Un arbre filogenètic és una hipòtesi o inferència en forma de representació gràfica d’aquesta filogènia. Per poder fer una filogènia la premissa bàsica és que els individus estan relacionats han d’anar compartint ancestres sinó no els podem relacionar de cap manera. Com més semblants en un AMS siguin les seqüències que estiguem comparant més properes evolutivament se suposa que són i més proper és l’ancestre comú que comparteixen. D’altra banda, si són molt diferents és que seran molt distants evolutivament entre elles i del seu ancestre comú.
Permeten l’estudi de les relacions evolutives dels diferents nivells de classificació dels organismes. Per tant, és la història de la ramificació de les rutes que segueix l’herència. La forma (o topologia) d’aquests arbres filogenètics constitueixen un dels fets dominants i indispensables de la història de l’evolució. Es poden utilitzar dades morfològiques o moleculars.
Tree of Life web project: http://tolweb.org/tree/  quan es fan filogènies es tracta de reconstruir la historia evolutiva d’un determinat grup d’espècies, quina relació entre tots els essers vius que hi ha. És un projecte internacional on col·laboren molts biòlegs d’arreu del món i totes les seves dades les basen en aquest projecte per tal de reconstruir la història evolutiva i hi ha tant dades morfològiques o evolutives.
Dades moleculars (DNA i proteïnes) vs dades morfològiques: - Són universals i més objectius Són molt més abundants Hi ha algunes parts del projecte de Tree of Life que només es podia fer amb dades morfològiques perquè el fet de seqüenciar DNA és bastant recent. Seqüenciar tota la biodiversitat de la Terra és complicat. La majoria de dades del Tree of Life Project es recolzen o basen en dades morfològiques i potser no són del tot correctes en algunes branques. Les dades moleculars es van afegint poc a poc i són millors que les morfològiques.
Les dades moleculars són universals i, per tant, aquell marcador molecular es pot trobar a totes les espècies del mon. 16S es troba a tots llocs. D’altra banda, un tret morfològic només estarà en algunes espècies i aquestes estaran més relacionades entre elles.
Les dades moleculars són més objectives perquè quan seqüenciem la A serà una A, la C serà una C, no hi ha error en la interpretació, és el que és. En canvi, les dades morfològiques poden donar lloc a confusió, els valors entre una espècie i una altre es solapen. Si és superior a... gran o petit... és subjectiu.
En un individu podem trobar molts marcadors moleculars però pocs trets morfològics.
Un dels problemes principals dels trets morfològics respecte les dades moleculars és l’homoplàsia. Les dades comparades han de ser homòlogues. Trobem homoplàsia perquè estan influenciades per l’ambient. Els trets morfològics comparant dues espècies poden ser exactament iguals i donar per fet que deriven d’un mateix ancestre 22 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA comú i els identifiquem com a la mateixa espècie. Pot ser que siguin iguals per adaptació a l’ambient, convergència evolutiva. Són espècies diferents i en realitat no tenen ancestre comú recent. No es pot fer servir per fer inferències filogenètiques perquè estaré distorsionant l’arbre.
Homologia: es defineix a les seqüències biològiques (dades moleculars) en: - Ortologia: homologia entre dos gens derivats per especiació (ancestre comú) mantenen la mateixa funció, estructura Paralogia: homologia entre dos gens derivats per duplicació (d’un gen) i aquestes canvien lleugerament la funció. Aquella còpia de més que tens habitualment (no té perquè) guanya una funció, és una avantatge evolutiva. Està més o menys relacionada amb la funció que realitzava en primer lloc.
ARBRE FILOGENÈTIC 23 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Figura dreta a dalt. Bàsicament quan es fa un arbre, si tinc dues seqüències (en un AMS tenim més) considero que seran homologues i cadascuna de les posicions de l’alineament s’han fet perquè siguin homologues. Les dues seqüències, una està a l’esquerra i una a la dreta. Es mira què tinc en comú i què tinc de diferent. El que tinguin de diferent pot inferir en com seria el meu ancestre comú més recent. Els residus es pot deduir que el meu ancestre tenia GA. Les bases que tingui diferent no sabrem com era el meu ancestre. Tenia aquella o aquella altre base.
Els nodes. Tenim nodes terminals o fulles (final de tot de l’arbre). Tenim els OTUs, poden ser espècies diferents, poblacions diferents, individus d’una mateixa espècie...
També tenim nodes interns que representen l’ancestre comú d’aquells individus que estic comparant i tenim un ancestre comú hipotètic a partir del qual deriven aquells OTUs. Aquest ja no existeix però en cadascun d’aquests nodes he de fer la deducció.
En el teu arbre tenim un node particular intern anomenat ARREL. Aquest últim node és l’ancestre comú de tot el que estem comparant, el més antic, és el comú de tots.
L’arrel està indicant que és el més antic i dóna polaritat o direccionalitat en el temps. Als extrems o més recent tenim les fulles.
El grup monofilètic o clade inclou el node A amb tots els seus descendents. El node B el grup monofilètic seria aquest node més tots els seus descendents (del 2 al 6). El node C seria monofilètic si inclou el node i tots els seus descendents.
Si no tenim un grup monofilètic, podem tenir altres tipus de grups que no sigui monofilètic, com per exemple el de la figura de dreta a baix. El grup anomenat Reptilia engloba els 3 taxons de cocodril, serp i tortuga. No és monofilètic. És parafilètic perquè per ser monofilètic ha d’incloure l’ancestre comú de tot el grup i tots els seus descendents. Com no incloem els ocells, no pot ser monofilètic. Un grup parafilètic inclou ancestre comú però no tots els descendents.
Interessa que obtinguem grups monofilètics. Si tenim un que no sigui monofilètic no hem acabat la nostra feina i no ha estat satisfactòria, no és vàlid evolutivament parlant.
Les politomies tampoc les volem. Si tenim una politomia és el que hi ha i no és lo desitjable, intento no tenir-les. Quan fem un arbre filogenètic ha de ser dicotòmic, anar fent branques de dos en dos. Si tenim que d’un event d’especiació surten 3 coses alhora vol dir que no tenim prou informació com per saber quin event va succeir abans.
Hem de seqüenciar altres marcadors per tractar de resoldre les zones de politomia no desitjables.
Tipus d’ARBRE 24 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Al darrer arbre no tenim politomies. En el node es poden rotar les branques i m’estan dient la mateixa informació. No podem passar la C a baix però sí girar els nodes.
Els arbres sense arrel o els arbres amb arrel: - - Si un arbre no té arrel, on l’arrel és l’ancestre comú de tot el que estem comparant, no podem saber la direccionalitat en el temps. No podem saber què és més recent o més antic però si podem saber quines són les relacions entre taxons (més proper o llunyà). No tenim ancestre comú de tots. Els OTUs 2 i 3 tenen ancestre comú però no sabem si és més recent que el node entre 4 i 5.
Si l’arbre té arrel sí tenim polaritat i podem saber què és més antic i què és més recent. Tenim un node de més en aquest cas respecte el cas dels arbres sense 25 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA arrel, perquè és el node arrel. Per passar un arbre sense arrel  arbre amb arrel hem d’afegir un node i si volem fer al revés hem de treure un node.
Si tenim un arbre arrelat (perquè tenim informació) sempre podem treure l’arrel. Si tens un arbre sense arrel i el vols arrelar sense informació no es pot fer. Molt sovint l’arrel es posa de forma arbitrària i no és correcte.
El més correcte a l’hora d’arrelar és tenir més informació. Utilitzant un OUTGRUP. És un grup extern que el grup d’estudi. El grup d’estudi serà el intern. Hem de saber que el grup extern és més antic que el grup d’estudi perquè sinó no té sentit. Més antic significa que el seu ancestre comú s’ha originat abans que l’ancestre comú del grup d’estudi. Aquest grup extern no pot ser molt distant.
Aquest grup extern normalment mostra una branca molt més llarga que la resta i correspon a l’outgroup. El node de l’ingroup i l’outgroup queda enmig.
QUANTS ARBRES (diferents) SENSE ARREL OBTINDREM PER A 4 OTUS? Si tens 4 OTUs s’obtenen 3 arbres diferents amb relacions diferents. Amb arrel surten molts més arbres. La formula no cal saber-la. N és el nombre de taxons implicats.
Aquest exemple era amb 4 OTUs però a mesura que augmenti el OTUs el nombre d’arbres amb arrel augmenta exponencialment. És impossible fer-ho a ma, ho fa un ordinador. Sempre hi ha més arbres amb arrel que no pas sense arrel.
26 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Tipus d’ARBRE La informació és la mateixa (relacions d’agrupació dels OTUs). Quan els dos taxons s’originen per un mateix ancestre comú s’anomenen taxons germans. La diferència és que un està escalat i l’altre no. Es pot representar com vulguem. Del node F (ancestre hipotètic que ja no hi és) hi ha 1 unitat (canvi mutacional o en base a distància). A la dreta si que hi ha escala perquè si són dos passos mutacionals la branca és més llarga que no pas una. Si l’arbre no està escalat necessitem posar el nombre de canvis mutacionals que s’han realitzat.
Mètodes d’inferència filogenètica:    Distància (UPGMA, NJ): es calculen les distàncies evolutives (model de substitució)  la premissa primera que hem d’utilitzar és una matriu de distàncies. Sense una matriu no podem realitzar un arbre basat en distàncies.
Quan diem distàncies diem un model de substitució nucleotídica.
Màxima parsimònia (MP): estat dels caràcters (informatiu o no) + parsimònia  les posicions informatives serveixen per fer reconstruccions de màxima parsimònia perquè es basen en caràcters de màxima parsimònia, els altres no els vol. Es basa en la parsimònia i això és que el més probable per aquesta escola sempre és lo mes senzill. Que es pugui explicar pel nombre mínim de canvis.
Màxima Versemblança (Maximum Likelihood, ML): Donat el model (arbre + model de substitució)  probabilitat d’observar les dades (alineament de seqüències). S’escull l’arbre (combinació de distància i MP) de major versemblança (probabilitat).  tenim en compte dues coses: tindrem un model (model de substitució i estem parlant de distàncies genètiques) i tindrem en compte la distància i a més a més es basa en la probabilitat dels arbres. Probabilístic i de distància, és un intermig dels dos. El més probable és el més senzill.
Models de substitució nucleotídica: Jukes-Cantor 27 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Per poder fer un arbre basat en distàncies genètiques: agafem la proporció o p distance. Al llarg de tot això quants canvis dividit pels canvis totals. A part d’aquests dos, tenim els models purs i durs basats en paràmetres. Es basen en la taxa de substitució i en la freqüència de cadascuna de les bases nucleotídiques. Dels models que utilitzen paràmetres, el més senzill és el de Jukes i Cantor.
Hi ha les quatre bases nucleotídiques i tenim les fletxes grans (transicions) i les discontínues (transversions) Les taxes de substitucions és la probabilitat de canviar una base per una altre. Les taxes de substitució venen representades per a, b, c, d, e i f. Aquest model diu que totes les taxes de substitució tenen el mateix valor. És igual de probable fer un canvi d’una base per una altre. Qualsevol canvi és igual de probable.
Es basa en dos paràmetres: taxa de substitució i freqüència de nucleòtids. Aquesta última es considera que és igual també, 0,25 cadascuna.
Desglossem el model amb les taxes i veiem que són iguals de probables. Quan canviem un paràmetre obtindrem un model de substitució nucleotídica diferent.
Models de substitució nucleotídica: Kimura 28 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Quan fèiem el MUSCLE hi havia primer en base als k-mer i després s’utilitzava el model de distàncies de Kimura per fer la matriu.
Aquí, en base al que hem vist abans, les taxes de substitució iguals són a, c, d, i f (transversions) són iguals entre elles. b i e són transicions i són iguals entre elles però diferents a les transversions.
Aquest model s’anomena Kimura o Kimura dos paràmetres perquè considera que transicions i transversions són diferents. Considera que són diferents perquè les transicions són més importants. Tenen estructura molecular similar. Si fem una transició es canvia una purina per purina o pirimidina per pirimidina. És mes probable que fer un canvi de transversió (passar d’un anell a dos o a la inversa, purina per pirimidina o a inversa). A mesura que anem complicant el model tenen més en compte aquests paràmetres. Les freqüències són les mateixes entre tots.
Models de substitució nucleotídica: GTR (General Time Reversible) El més complicat de tots és aquest. Les taxes són totes diferents. És el màxim de complicació perquè hem de tenir en compte tots els paràmetres. Més temps trigarà en córrer el programa. Té en compte que totes les bases nucleotídiques no tenen perquè tenir la mateixa freqüència, és el màxim de complicació.
Si afegim més paràmetres per tenir en compte més coses. Per exemple el paràmetre gamma (G) i el paràmetre (I) que mesura les posicions conservades.
Models de substitució nucleotídica: GTR + G + I 29 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA El paràmetre gamma ve de la distribució gamma que poden tenir les seqüències.
De vegades les seqüències no poden tenir la mateixa taxa de substitució. Al llarg de les seqüències puguis modular les taxes de substitució. Com el codi genètic és degenerat la tercera posició canvia i hem de tenir en compte que no totes les posicions canvien igual de ràpid o de lent. Aquesta distribució gamma pot tenir diferents tipus de valors. Segons la forma que tingui com més desplaçada cap aquí.
L’eix de les x és la taxa de substitució i l’eix de les y mostra la freqüència de posicions que tenen aquestes taxes de substitució. Les que tenen un valor de alfa de 0,25, al llarg de les substitucions presenten molt poques posicions amb taxes elevades. La majoria tenen taxes baixes. Això indica que tenim molta heterogeneïtat de taxes de substitució al llarg d’aquella seqüència. La majoria donen taxes baixes.
Serien uns valors d’alfa baixos.
Si resulta que les taxes són similars, la freqüència seria una distribució normal.
Tindríem uns valors d’alfa més elevats. Més o menys les taxes es distribueixen de forma uniforme en totes les posicions.
Segons el meu valor de gamma podem introduir aquest model. Com d’heterogeni és al llarg de la seqüència. La freqüència és el nombre de posicions que presenten al llarg de la substitució.
El paràmetre I és una mesura de les posicions que són invariables (conservades).
Hem vist Jukes i Cantor (el més senzill), Kimura (2 paràmetres) i GTR (màxim complicació). Podem passar d’un model a l’altre.
Si tinc un alineament i vull fer un arbre de distàncies quin model apliquem per fer un arbre?  Normalment no ho decidim nosaltres. Si prèviament algú ha publicat algun estudi relacionat i ha fet una filogènia ens podem basar en els seus models. Sinó hem de fer un test del meu alineament per veure quin és el millor model. El test no el fem nosaltres perquè dóna problemes. Ho fa el programa MODELTEST (necessitem que 30 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA l’alineament estigui correcte). Decideix de forma jeràrquica. I mira tant el model i aplica lo de la gamma i lo invariable. Al final de tot tindrem quin és el millor per aplicar al teu alineament i així poder realitzar l’arbre de distàncies.
El programa MODELTEST (Posada 2004) analitza els grups de seqüències i proporciona el model de substitució més adequat a les mateixes, amb els paràmetres corresponents: Mètodes de distància: UPGMA (Unweighted Pair-Group Method using arithmetic Averages).
UPGMA i WPGMA són els mètodes més senzills. La diagonal si és de distància tindrem 0. Els OTUs més propers són els que agruparem i el valor de distància es divideix per dos a l’hora de fer l’arbre. Es divideix entre 2 perquè es consideren per igual les dues parts. Aquest valor de distància es reparteix per igual a les branques dels OTUs perquè es considera que tenen un rellotge molecular constant.
Si per exemple a la matriu surt dos vegades el mateix valor (igual de petits) i tots dos arbres són igual de probables amb les dades que tenim. Triem un dels dos i fem totes les matrius fins a arribar a l’arbre. Posteriorment, agafem l’altre valor i fem totes les matrius fins a arribar a l’arbre.
Són iguals de equiprobables i no podem decidir en cap, no és un millor que l’altre. Si enmig del procés ens torna a succeir hem de fer exactament lo mateix. Si haguéssim tingut més informació no hauria passat.
Partim sempre de la matriu inicial.
31 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA L’últim node es considera l’arrel perquè considerem el rellotge molecular constant.
Considerem que la més distant serà la més antiga però normalment es considera que és millor que hi hagi un OUTGROUP. Que es doni una taxa evolutiva constant és molt difícil a la natura (a no ser que siguin espècies molt properes).
Mètodes de distància: WPGMA (Weighted Pair-Group Method using arithmetic Averages).
El procediment és molt similar a UPGMA però les mitjanes no es miren a la primera matriu sinó que es mira sempre just a la matriu just anterior. Sempre hem de fer mitjanes entre 2 ja que sempre tindrem dos grups.
Aquests tipus d’arbre tant per UPGMA com per WPGMA són arbres arrelats i a més a més se’ls anomena ultra-mètrics. Això vol dir que tots els OTUs estan tots a la mateixa distància respecte el node més antic (ancestral). Divergeixen per igual (rellotge molecular constant). Tots estaran a la mateixa distància de l’arrel.
Mètodes de distància: UPGMA vs WPGMA 32 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA http://www.slimsuite.unsw.edu.au/teaching/upgma Mètodes de distància: Neighbor-Joining (NJ) NO HEM DE SABER FORMULES Hem de saber el procediment Neighbor Joining es basa en ajuntar el veí més pròxim. El que intentes és minimitzar la longitud de l’arbre. Aquells dos individus seran pròxims entre ells i llunyans a la resta. Per fer això fa com una correcció al càlcul de la matriu de distàncies. La metodologia és partir d’una matriu de distàncies (obtinguda en base al model que utilitzem). A aquesta matriu de distàncies aplicarem una correcció per veure quins són els veïns més pròxims.
En base a aquesta matriu Q, un cop hem aplicat el factor de correcció, anem a la matriu i mirarem el valor més petit. Aquest indica quins són els dos OTUs que hem d’agrupar.
Un cop agafes els dos OTUs que has d’agrupar: de partida tindrem tots els OTUs sortint del mateix origen i agrupa F i G. Fem que aquests dos OTUs surtin d’un node (u) que indicarà un ancestre compartit.
El valor de distància que hi ha entre aquests dos, per un d’ells la branca és una mica més llarga. Hem de calcular a quina distància està l’OTU F del node u i el OTU G del node u. No serà un mètode ultra-mètric.
33 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Com he creat un nou grup, el qual està format per FG alhora i quan reduïm la matriu hem de posar (FG) o (u). Tornem a calcular les distàncies de la resta de membres respecte aquest nou grup i haurem reduït en un OTU la matriu de distància. Tornem a començar.
Tinc la meva matriu de distància reduïda i hem de tornar a calcular la matriu de distància Q. Tornem a repetir el procediment anterior fins que no quedi cap més per agrupar. Hem de calcular la distància dels dos OTUs respecte el node. És un arbre additiu. No té arrel. Per posar arrel haure de buscar un OUTGROUP.
Mètode de Màxima Parsimònia: MP Parsimònia vol dir que el nombre mínim de canvis que pugui explicar aquell arbre és el més probable. Es basa en les posicions informatives. Llocs parsimoniosament informatius. Aquests ajudaran a discernir (triar) un arbre respecte l’altre, són els que s’utilitzaran. Els llocs no informatius no ajuden a triar un arbre respecte altre.
  Busca l’arbre que pugui ser explicat amb el nombre més petit de canvis evolutius (passos mutacionals)  PARSIMÒNIA No tots els llocs són informatius. Només són informatius aquells que afavoreixen un dels possibles arbres respecte als altres En el següent exemple tenim 4 OTUs que estan anotades com a 1, 2, 3, 4. Aquest és el seu alineament i a dalt tenim les posicions. Per considerar una posició parsimoniosament informativa havíem de tenir com a mínim dos grups de nucleòtids que com a mínim tinguessin 2 membres. Si tenim 4 seqüències o 4 OTUs diferents quants arbres sense arrel es poden formar?  Sense arrel es poden formar com a màxim 3 diferents.
Arbre 1. Les seqüències 1 i 2 estan juntes i 3 i 4 juntes. De dalt a baix, la topologia d’arbre és la topologia tipus 1. Tenim 3 tipus de topologies d’arbre.
La posició 3 és informativa?  no, i el perquè ho veurem amb l’exemple.
En la posició 3 està dient que la seqüència 1 té una G, la 2 té una A i la 3 té una A. Si miro la primera topologia hem de posar una mutació o canvi (puntet) per passar de G a A.
34 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Si anem al segon també necessitem 2 canvis i si passem al tercer també necessitem canvis.  No podem triar un arbre respecte l’altre perquè és una posició no informativa.
La posició 4 no és informativa i passarà el mateix que anteriorment. No podem triar un arbre respecte l’altre perquè totes les topologies necessiten 3 canvis.
La posició 5, en canvi, amb aquest tipus de topologia (1) només necessito un únic canvi per passar d’un nucleòtid a l’altre i en canvi, a les altres topologies, necessitaré 2. Aquest tipus de posició permet triar un tipus de topologia perquè hi ha un que necessita menys canvis. Això només per UNA posició.
També tenim marcada la posició 7 i la posició 9. Mirem quin ens quedem finalment el que acumuli menys canvis. La suma de posicions informatives tingui el menor nombre de canvis.  Aquest mètode utilitzarà només les posicions informatives.
No cal que apliquem cap model de substitució nucleotídica. Encara que ho posem no ho tindrà en compte perquè només utilitza les posicions informatives.
Tant a la màxima parsimònia o qualsevol tipus de reconstrucció filogenètica. Si trobem que amb les nostres dades hi ha molts arbres equiprobables com resumim això gràficament?  realitzem un arbre consens. Tenim diferents tipus: - Estricte  fa agrupacions sense mirar amb quina freqüència es repeteix Regla de la majoria  Realitza l’arbre consens tenint en compte la freqüència amb la qual es manifesten aquestes agrupacions. Que la C s’uneixi amb el grup AB es repeteix sempre però A i B s’uneixin entre ells només es repeteix 2 cops (freqüència de 2/3).
Mètode de Màxima Versemblança: ML Es basa alhora en models de distància i també és un model probabilístic. Implica menys canvis i és semblant al de la parsimònia. Té dos mètodes agrupats en 1.
Intenta que la probabilitat d’observar aquell arbre sigui la màxima donades unes dades (el meu alineament) i un model (que és el model de substitució, és de distància).
 S’infereix l’arbre més versemblant (probable) que pugui generar les dades sota un model evolutiu escollit.
35 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA   La funció de versemblança representa la probabilitat d’observar la configuració de nucleòtids i, j, k i l a les seqüències 1, 2, 3 i 4 per a un arbre hipotètic donat i model de substitució. Les probabilitats s'expressen en termes de longitud de les branques (t o v).
S’estima aquesta probabilitat per cada lloc nucleotídic de les seqüències i es combinen totes en un únic arbre consens.
Per exemple, si tinc una posició concreta i els 4 OTUs o seqüències diferents. Arbre amb arrel i arbre sense arrel. T3 t3 t1 és la probabilitat (Likelihood) i modula el model de substitució, la distància de longitud de les branques en funció del model per intentar que siguin el màxim de versemblants. A part de mirar la probabilitat també mira la distància.
Això ho fa per cadascuna de les posicions i per cadascuna de les topologies. És el model computacionalment més costós dels que hi ha.
Per exemple, aquí tenim en números romans 4 seqüències i les posicions. Per la posició 4 ell pot tenir aquesta topologia que agrupa la seqüència 2 i la 3. Mira la 36 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA probabilitat de cadascuna de les branques per a cada posició. El mateix succeeix per totes les altres possibles topologies i les possibles longituds de branques possibles.
Triga moltíssim per fer això, trobar l’arbre més probable i el més versemblant.
Compendi de màxima parsimònia i versemblança.
Comparació entre mètodes: El programa MODELTEST (Posada 2004) analitza els grups de seqüències i proporciona el model de substitució nucleotídica més adequat Més ràpids o o UPGMA: Assumeix una taxa evolutiva constant NJ: NO requereix l’assumpció d’una taxa evolutiva constant a totes les branques de l’arbre Més lents, però més precisos matemàticament o o MP: Els millors arbres són els que presenten menys canvis evolutius. Minimitza el nombre d’events homoplàsics. No utilitza models de substitució.
ML: Requereix assumpcions explícites sobre el patró de substitució nucleotídica i la taxa d’evolució (és probabilístic)  compendi dels dos anteriors Quina seria la comparació entre els mètodes ja que si volguéssim fer un arbre filogenètic hem de mirar més o menys quina és la distància o la singularitat que hi ha a les seqüència en base a la qual et decantaràs per un mètode o un altre? Avantatges de UPGMA o WPGMA és un dels més ràpids però no és del tot realistic perquè té en compte que té un rellotge molecular constant i això és cert en molt pocs casos. Si he de triar un mètode de distància, si tinc temps computacionalment em quedaria amb un Neighbor Joining.
Si no fem distàncies, un altre tipus de reconstrucció en màxima parsimònia i màxim likelihood és molt més lent perquè mira tots els arbres possibles. Em testa totes les posicions en totes les topologies (likelihood).
Com ens decantem per un o altre?  similaritat. Si el meu alineament té molt pocs canvis i són molt semblants em decantaré per màxima parsimònia. Això va molt bé quan els arbres són molt similars. Quan tenim arbres més canvis, la màxima parsimònia no s’ajusta tan bé. Si tens uns canvis intermitjos (no és ni molt molt semblant ni molt molt diferent, valor intermig) decanta’t per un mètode de Neighbor Joining. Si són bastant diferents les seqüències, fes màximum likelihood (tot i que trigarà molt). Si vols inferir les relacions filogenètiques entre coses molt diferents t’interessa aquest mètode. Si tenim dubtes i no sabem quin triar, fem-los tots. No ho fem nosaltres, ho fa el programa. Normalment és el que es fa. Si no tens eines tries un. Sinó es fa tot i els compares. On vegis que coincideixen els arbres, són potents.
Decidir quin arbre dóna més informació per la part que no coincideix i acabar de decantar. Això ho acabem de fer amb el Bootstrap.
Robustesa dels arbres: Bootstrapping 37 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA El bootstrap serveix per veure la confiança dels teus arbres, nodes. Veure com de potents són. D’entrada fem un arbre filogenètic i aquell és el teu arbre amb les seves relacions. Volem veure quantes vegades es repetirien aquelles mateixes agrupacions si féssim els agrupaments a l’atzar. Si es fessin molts cops vol dir que serien molt potents.
o o o Estima el nivell de confiança (robustesa estadística, “probabilitat”) de les hipòtesis filogenètiques.
Consisteix en generar pseudo-mostres de seqüències canviant a l’atzar els nucleòtids de lloc respecte la mostra original, amb reemplaçament (el mateix lloc pot ser mostrejat novament amb igual probabilitat).
Valors de Bootstrapping elevats= Elevada confiança (bon agrupament) Alineament inicial amb 5 seqüències. 8 posicions però en realitat hi ha més. Té 100 o 1000 o el que sigui (longitud de l’alineament) i fem pseudorèpliques d’aquest alineament amb la mateixa longitud. Un bootstrap és una pseudorèplica. Agafo aquestes posicions a l’atzar per tenir un nou alineament de la mateixa longitud.
S’agafa una vegada la posició 6 i es fica a la posició 1. Reemplaçament. Pot ser que torni a agafar la mateixa columna a la pseudorèplica i pot ser que hi hagi columnes que no les agafi. Si estan repetides algunes, pot ser que les altres es quedin sense agafar, perquè és a l’atzar. Pseudorèplica 1. Això seria si només féssim un bootstrap.
Per considerar que un bootstrap és correcte has de fer 1000 pseudorèpliques com a mínim. 1000 AMS o alineaments múltiples i farem 1000 arbres a partir d’aquells AMS fets a l’atzar. Quan es facin aquests 1000 arbres es realitza un arbre consens d’aquests 1000 arbres bootstrap i trobaràs quins nodes o branques es repeteixen més en aquests 1000 arbres en tant per cent (%). Són els valors que tenim aquí. El valor de 90 o 95 a sobre dels nodes vol dir que quan fem un bootstrap de 1000, el 90% de les vegades de tots aquells arbres aquella repetició a l’atzar es repeteix un 90% dels cops.
Té molta confiança, segur que això és així.
Si tens valors per sota de 70 les anotacions s’han d’agafar amb pinces. Si és 50 oblida’t. Aquell node que agrupa dues espècies es podrien haver trobat en una agrupació diferent, no ens en refiem.
Programes per a la realització de filogènies: 38 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA o o PAUP (Phylogenetic Analysis Using Parsimony; Swofford 2000): El programa més utilitzat durant 2000’s. És molt potent i permet fer moltíssims anàlisis aplicant qualsevol model de substitució nucleotídica (permet incorporar la informació de MODELTEST). L’inconvenient és que en les primeres versions i les últimes versions de Windows treballen amb comandes (la última versió de Mac treballa amb finestres). De pagament MEGA (Molecular Evolutionary Genetics Analysis; Kumar et al. 2001): És el programa que utilitzem a BIA. Molt fàcil perquè es treballa amb finestres. Les versions inicials no incorporaven tots els models de substitució nucleotídics però la última versió permet la seva estimació. Software gratuït.
Si no fem un AMS el primer pas seria fer comparatives dos a dos. Blast, Fasta, veure regions homòlogues a bases de dades. Fer alineament múltiple, veure el model de substitució, fem la filogènia amb els diferents tipus d’arbres i després quan tenim l’arbre mirem com de potent o quina confiança tens. Interpretem les agrupacions en base a l’historia evolutiva, altres articles...
39 ...

Tags:
Comprar Previsualizar