Tema 5. FIlogenia (2015)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Genética - 3º curso
Asignatura Evolució
Año del apunte 2015
Páginas 37
Fecha de subida 16/03/2016
Descargas 12
Subido por

Vista previa del texto

Evo- Tema 5 mfiguls TEMA 5: FILOGÉNIA • • Anagènesi: canvi en el seno d’un llinatge (ex/ evolució de l’anatomia del pic en pinsans) Cladogènesis: diversificació de llinatges (ex/ especiació en els pinsans) A partir d’un ancestre comú tenim canvis anagenètics.
Un exemple d’anagènesis és l’evolució de l’anatomia del pic dels pinzons. De Cladogènesis la seva especiació.
ESTIMACIÓ DELS SEQUÈNCIES: ARBRES FILOGENÈTICS MITJANÇANT ANÀLISI COMPARATIU DE Phylogeny programs: classifica els programes de filogènia segons diferents paràmetres.
ARBRES FILOGENÈTICS: TERMINOLOGIA I CONCEPTES En matemàtiques un graf és una representació abstracte d’un grup d’objectes denominats nodes (o vèrtexs) dels que uns estan units a altres mitjançant connexions denominades branques (o edges). Una ruta (o path) en un graf és qualsevol seqüència de branques que connecta dos nodes.
1 Evo- Tema 5 Grafs: • • mfiguls Arbres: dos nodes poden estar connectats per rutes múltiples Xarxes: dos nodes estan connectats per una única ruta En un graf distingim: - - Node: unitat taxonòmica – expècie o tacó superior, població, individu o gen OTU: Operational Taxonomic Unit (en negre)à terminal HTU: Hypothetical Taxonomic Unit (en blanc)à intern Branques: relació entre unitats taxonòmiques en termes ancestredescendent o Interna o externa Topologia: patró de ramificació d’un arbre filogenètic.
Cada bifurcació es considera un esdeveniment de ESPECIACIÓ.
Hi ha 3 formes de representació , tot i que totes són la mateixa topologia: - horitzontal - vertical - radial Les línies verticals de l’arbre filogenètic no són informatives.
Si rotem els nodes, la topologia no canvia. Tampoc si orientem diferent els arbres.
El node bifurcant binari o dicotòmic sempre s’interpreta com un esdeveniment d’especiació. D’ell descendeixen només dos llinatges. En cada node intern d’un arbre incideixen només tres branques, una ancestral i dues derivades.
binari Els nodes dicotòmics es poden col·lapsar de manera que formen nodes politòmics. Aquests apareixen per esdeveniments d’especiació consecutius separats per intervals de temps reduïts tal que no s’acumula un número de canvis filogenèticament informatius suficients.
2 Evo- Tema 5 mfiguls El node multiforcant o politònic del que descendeixen tres o més llinatges.
D’aquests, en tenim dues interpetacions possible, molt difícils de resoldre: • • Politomia estricte: radiació evolutiva Politomia laxa: falta de resolució ELS ARBRES SÓN HIPÒTESIS Són reals les politomies? • Freqüentment no • Apareixen en casos d’esdeveniments d’especiació consecutius separats per intervals de temps reduïts tal que no s’acumula un número de canvis filogenèticament informatius suficient. Per tant, per falta de resolució no podem determinar quina és la situació vertadera *Arbol vertader: el que és real *Arbre inferit: la hipòtesi Al trobar-nos amb politomies hem d’estendre les seqüències, augmentar el numero de seqüències que fem servir.
El temps entre la diversificació entre dos taxons és molt breu, el número de canvis no és suficient com perquè ho podem detectar com una diversificació, per tant adjudiquem un taxó politòmic quan és un dicotòmic dins d’un dicotòmic.
L’arbre inferit o que reconstruïm és una estima de l’arbre veritable que és el paramètric. Disposem de major o menor confiança en la nostra estima, donant per suposat que l’arbre esquerra és el verdader i que el dret és l’inferit.
E, F, G tenen radiació evolutiva.
A vegades, és difícil determinar si hi ha radiació evolutiva o no.
Un arbre filogenètic és una hipòtesi sobre les veritables relacions filogenètiques entre els organismes: Ex/ Humans i ximpanzés es van separar molt poc després de que el llinatge anterior es separés del goril·la.
Això es va resoldre amb l'anàlisi genòmic que maneja quantitats immenses de caràcters. Es van crear diferents hipòtesis basats en diferents caràcters.
RCGs** son esdeveniments que passen molt poc (molt poc probable que succeeixin paral·lelament), pel que son bastant informatius.
Un 55% dels estudis reforçaven la hipòtesi 1 al analitzar 98 gens, els resultats eren similars si s’estudiaven Pls. I si s’estudiaven RGCs, el 100% dels estudis reforçaven la 1.
3 Evo- Tema 5 mfiguls Encara que no tots els estudis reforcen la hipòtesi 1, ens la creiem (la majoria el reforcen). Així doncs, podem veure amb una altra perspectiva la història evolutiva d’alguns gens. Llavors podem trobar gens que estudiantlos ens permetin veure tots els processos de especiació i les relacions reals, mentre que hi ha d’altres que no.
En l’exemple següent, si la branca és curta no hi ha potència suficient per diferenciar entre una polisomia i una segona dicotomia, però si la branca és llarga hi ha potencial suficient per fer-ho.
X = canvis que diferencien A i B de C Arbre sense arrel (unrooted): només defineix el grau de relació entre OTUs, sense precisar el sentit o polaritat del canvi evolutiu.
Amb aquest, mai podrem determinar el sentit del canvi evolutiu, NO HI HA POLARITZACIÓ MRCA: Most Recent Common Ancestor LUCA: Last Universal Common Ancestor Signifiquen el mateix. El MRCA no sols és l’últim antecessor comú sinó que el més recent, per tant son el mateix.
La branca interna d’un arbre sense arrel amb 4 nodes externs es denomina branca central.
Arbre amb arrel (rooted): defineix el grau de relació entre OTUs i el SENTIT O POLARITAT DEL CANVI EVOLUTIU. (si el canvi va anar de A à T o de TàA).
MÈTODES D’EMBRANCAMENT D’UN ARBRE: 4 Evo- Tema 5 mfiguls 1. Utilitzant informació sobre ancestres: si coneixem l’ancestre és més possible fer-ho, gràcies als fòssils. En el cas de les molècules és més difícil, tot i que s'estan fent molts avanços en les tècniques de recuperació de DNA ancestral.
2. Mètode del punt mig o midpoint-rooting: és el que utilitza el MEGA. compara els taxons entre si i aquells dos que estan separats amb major distància, els separa entre dos i ubica l'arrel en el punt mig.
Per tant, en aquest cas els taxons més distants són A i D i al col·locar el punt d'arrelament en el mig els fa equidistants. això és una elecció capritxosa, no té cap sentit biològic i és una simple necessitat de representació de la polaritat del canvi evolutiu.
a. Per poder fer aquest mètode hem d’acceptar una PREMISSA: que A i D evolucionen a la mateixa taxa 3. Ús d’OTUs externs o outgrups: és el que més s’utilitza (no per Eubacterias, Archaea i Eucariotes).
L’arrel pot estar en qualsevol branca i en qualsevol punt de la branca. Primer hem de buscar la branca.
a. S’utilitza un altre taxó, G tal que G sigui evolutivament el més pròxim possible al grup (A-F) però extern a ell.
b. Suposem que G es connecta al llarg de la branca externa que acaba en F. Si G és extern a AF, l’arbre amb arrel resultant serà 5 Evo- Tema 5 mfiguls c. Un cop posat l’outgrup (que és G), la resta d’OTUs es diuen ingroups.
En aquest cas, introduir l’outgrup no ha canviat la topologia, entesa com a relacions entre els taxons.
Una reconstrucció filogenètica és bona, quan el fet d’afegir l’outgrup no afecta als ingroups (segueixen distribuint-se igual).
Mitjançant aquest mètode és relativament fàcil trobar la branca a on hi ha l'arrel, però no ho és trobar el punt de la branca en el que està l'arrel.
Número de nodes i branques en arbres amb i sense arrel: Branques graduades o “scaled”: proporcionals al número de canvis (substitucions nucleotídiques o reemplaçaments aminoaciídiques). à FILOGRAMA à Longitud d’un arbre o “tree length”: número total de canvis En branques graduades, la longitud d’un arbre és la suma total.
Branques no graduades o “unscaled”: no proporcionals al número de canvis.
OTUs equidistants de l’arrel i nodes situats proporcionalment als temps de divergència. à CLADOGRAMA DENDOGRAMA= arbre Tenim 3 tipus d’arbres: • Cladograma: topologia d’un arbre amb arrel. Només informa de les relacions filogenètiques. L’eix vertical no té significat.
• Filograma: les branques són proporcionals al nombre de canvis.
• Cronograma: els OTUs són equidistants de l’arrel. Les branques són proporcionals al temps.
6 Evo- Tema 5 mfiguls L’eix vertical no té significat.
A la base de la representació tenim l’escala per orientar-nos.
Diapos 37-39 GRAUS DE SIMETRIA D’UN ARBRE FILOGENÈTIC AMB ARREL : TREE BALANCE 1. Indicador del patró d’esdeveniments d’especiació en el taxó estudiat.
Arbre filogenètic equilibrat (balanced tree): tots els descendents d’un node presenten la mateixa contribució en la cladogènesi.
Arbre filogenètic no equilibrat (unbalanced tree): tenen les branques molt llargues i costen més de reconstruir. Només un dels dos llinatges segueix espaiant-se després de cada esdeveniment cladogenètic.
2. Indicador de dificultat de la reconstrucció filogenètica Els arbres no equilibrats contenen branques llargues on és més probable que s’acumulin canvis homoplàstics pel que presenten una major dificultat de reconstrucció que els arbres equilibrats.
Una manera de solucionar això és introduir més taxons a l’arbre (es trenquen les branques) o bé utilitzar models de substitució.
Així podrem determinar tota la història d’un caràcter i veure si s’han produït homoplàsies o no.
MONOFILIA, PARAFÍLIA I POLIFILIA: 7 Evo- Tema 5 mfiguls La nostra classificació no té perquè coincidir amb les relacions evolutives. Podem determinar que B,C i D són un grup(tot i que A també en formaria part), però ho hem fet d’una manera arbitrària.
Tenim el cas dels rèptils que és un grup parafilètic si no incloem les aus. Si incloem les aus serà un grup monofilètic.
Si tenim en compte mamífers i aus i rèptils tindrem un grup polifilètic.
Els taxons com “animals de sang” són utilitzats tot i que careixen de validesa filogenètica i per això s’anomenen de conveniència (els agrupem perquè són de sang calenta).
L’anàlisi de característiques moleculars diferencia humans i ximpanzés de la resta de Pongidae.
En contes de definir una nova família per humans, se’ls va incloure dins la superfamília Hominidae, que contenia Homininae, Gorilinae i Ponginiae.
A nivell molecular, les diferencies entre el genoma de Ximpanzè i Humà son menys que entre humà i goril·la, ximpanzé i goril·la...
8 Evo- Tema 5 mfiguls FORMAT NEWICK: La cadena de caràcters és un model bidimensional d’una cosa tridimensional (DNA).
Descripció d’arbres filogenètics en ordinadors.
El formato Newick para representar árboles filogenéticos fue adoptado el 26 de junio de 1986 en una reunión informal en la «Newick’s Lobster House» en Dover, New Hampshire. Actualmente, Newick constituye el formato estándard utilizado en la mayoría de las aplicaciones de reconstrucción filogenética. Nunca fue descrito formalmente en una publicación. La primera referencia al mismo en una publicación fue en 1992. (GRAUR,2012) • Arbre arrelat sense graduar: taxons separats amb coma i agrupats amb parèntesi, acabat tot amb ; !! falta el ; • Arbre desarrelat sense graduar: • Arbre desarrelat graduat: separem els taxons amb : 9 Evo- Tema 5 mfiguls El número possible d’alineaments pot ser major al número d’OTUs.
NOMBRE POSSIBLE D’ARBRES FILOGENÈTICS BIFURCANTS: Per exemple: si tenim 3 OTUs: a) Sense arrel: 1 possibilitat (A,B,C) b) Amb arrel: 3 possibilitats 10 Evo- Tema 5 Per exemple: si tenim 4 OTUs: a) Sense arrel: 3 possibilitats mfiguls b) Amb arrel: 15 possibilitats: Cas general: n OTUs: Quan augmentem el nombre de OTUs, augmenta de manera exagerada el nombre d’arbres sense arrel, i encara augmenta més el nombre d’arbres amb arrel.
L’evolució és un procés històric. Només un relat és cert: De 8.200.794.532.637.891.559.375 possibilitats només 1 és certa. 8.200.794.532.637.891.559.374 són falses.
• Com sabem quina és la correcte? En realitat no se sap, sinó que s’infereix utilitzant criteris de decisió. L’arbre inferit pot no ser el verdader. Es nomes una hipòtesi sobre l’arbre vertader , i com a tal, podria no ser correcta.
TIPUS DE DADES UTILITZADES EN INFERÈNCIA FILOGENÈTICA Parlarem de caràcters i distàncies.
CARÀCTERS: Són tets ben definits que en una OTU quepoden aportar un de dos o més estats de caràcter “mútuament excloents”.
11 Evo- Tema 5 mfiguls Suposicions explícites Les inferències filogenètiques incorporen suposicions explícites sobre l’evolució dels caràcters sobre: • • Número de passos discrets necessaris per que un estat de caràcter canviï a un altre La probabilitat de que tal canvi passi Caràcters: • • Continu Discret o Estats múltiples § Ordenat: el canvi entre estats de caràcters passa a través d’una seqüència de passos simètrica § o • Perfectament: el numero de passos d’un estat a un altre és igual al valor absolut de la diferències entre números d’estat (per exemple, el numero de repeticions per un motiu nucleotídic – si es pot assumir que el canvi succeeix pas a pas) • Parcialment: el numero de passos canvia segons el parell d’estats considerats, i no existeix una relació definida entre el numero de passos i el nombre d’estat.
(per exemple, el canvi TyràLeu es produeix a traves de Phe o His).
No ordenat: en canvi entre estats de caràcters passa en un sol pas Binari § Polar § No polar Matriu de passos o ”stepmatrix” El numero de passos entre estats de caràcter s’especifica mitjançant la matriu de passos.
Polaritat: Dels estats de caràcter en el temps. Segons la seva antiguitat es classifiquen en: • • Ancestrals o primitius: o Plesiomorfies o Simplesiomorfies: estat de caràcter primitiu que compartit per varis taxons Derivats o novells: o Apomorfies o Sinapomorfies: estat de caràcter derivat que és compartit per varis taxons o Autapomorfies: estat de caràcter únic d’un taxó particular és 12 Evo- Tema 5 Capacitat natatòria entre el tauró i la carpa? Segons la imatge: • • • • mfiguls La capacitat natatòria entre el tauró i la carpa és una Simplesiomorfia Les escames entre la carpa i el guppy és una Sinapomorfia Les plomes del gall és una Autopomorfia Les ales entre el gall i el ratpenat és una Homoplsia DISTÀNCIES: Són una afirmació quantitativa entre el grau de dissimilitud entre dos OTUs.
Les distàncies utilitzades per realitzar inferència filogenètica es denominen DISTÀNCIES MÈTRIQUES A partir de les dades moleculars es determinen estats de caràcter que en molts casos són posteriorment convertits a distàncies: Tipus de distàncies: 1. Additives: la distància entre dos OTUs és igual a la suma de les longituds de les branques que el connecten. Arbre additiu: l’additivitat no es compleix estrictament si hi ha substitucions múltiples.
2. Ultramètriques: la distància entre dos OTUs és igual a la suma de les longituds de les branques que el connecten + totes les OTUs són equidistants de l’arrel.
13 Evo- Tema 5 mfiguls INTERFERÈNCIA FILOGENÈTICA 1. Procediment d’estimació: reconstrucció d’una història evolutiva sobre la base d’informació incompleta.
2. Generalment hi ha una manca d’informació sobre el passat: només es disposa d’informació sobre seqüències procedents d’organismes contemporanis.
3. Ja que a un mateix conjunt d’OTUs pot correspondre múltiples arbres filogenètics diferents es necessari especificar criteris per elegir un o uns pocs arbres com la millor estima de la seva història evolutiva verdadera. Es procedeixen en dos passos: a. Pas 1. Definició d’un criteri d’optimització o funció objectiu: valor que s’assigna a un arbre i que és utilitzat per comparar uns arbres amb uns altres.
b. Pas 2. Designació d’algoritmes específics per calcular el valor de la funció objectiu i identificar l’arbre o arbres amb els millors valors d’acord amb aquest criteri.
“The inferred tree is (at most) as good as the assumptions on which the method of phylogenetic reconstruction is based» Gaur y Li (2001) RECONSTRUCCIÓ D’ARBRES FILOGENÈTICS: MÈTODES DE DISTÀNCIA: Es calculen les distàncies evolutives (P. Ex: número de substitucions nucleotídiques o reemplaçaments aminoacídics entre dos OTUs) per tots els parells d’OTUs i es construeix un arbre filogenètic mitjançant un algoritme basat en algun tipus de relació funcional entre els valors de distància.
Necessitem corregir les substitucions múltiples.
14 Evo- Tema 5 mfiguls NECESSITAT DE MODELAR EL PROCÉS DE SUBSTITUCIÓ: EL PATRÓ DE SUBSTITUCIÓ: En general, les transicions són més freqüents que les transversions, probablement perquè no tenen el mateix efecte.
Podem considerar transició vs transversió, els dos tipus de transició o els 4 tipus de transversió.
El model que hem d’aplicar ha de ser el més realista possible, de manera que hem de tenir en compte el patró de substitució.
Matriu Q (matriu de transició de probabilitats): Té en compte que l’estat actual de la seqüencia està afectat per l’anterior. El patró de substitució en el nostre model, adopta una forma de matriu. Si les probabilitats són iguals (la matriu és simètrica) llavors el model és reversible.
15 Evo- Tema 5 mfiguls MODELS DE SUBSTITUCIÓ NUCLEOTÍDICA. ANIUATS: Com determinar el millor model? Es va avançant a través de diferents models i es mira quin millor s’ajusta a les dades.
- JC69 (Jukes – Cantor): és el més simple, suposa que tots els canvis es donen amb igual probabilitat, i, per tant, que la taxa de transició i transversió son iguals.
- K2P: la constricció que la taxa de transició es igual a la transversió es relaxa. Permetem que les dues taxes difereixin.
- HKY85: es relaxa la suposició que les freqüències nucleotídiques hagin de ser iguals.
- GTR:A part de les dues constriccions anterior, considera els 2 tipus de transició i els 4 tipus de transversió.
Si resulta que al anar canviant de model i anar relaxant suposicions se’ns expliquen les dades, es que el model explica millor la realitat (ex/ si se’ns ajusten al HK, vol dir que realment les freqüències nucleotídiques són diferents).
A mesura que el model és mes general, la incertesa també és major. L’error que cometen augmenta perquè tenim els mateixos valors i demanem més complexitat.
Heterogeneïtat de la taxa d’evolució entre llocs: En els models d’evolució s’assumeix per defecte que tots els llocs d’una molècula evolucionen a la mateixa taxa o taxa uniforme. Assumir uniformitat en situacions de taxa heterogènia condueix a subestimar el veritable número de canvis. Una forma de modelar la heterogeneïtat de taxes és assumint que les taxes d’evolució per lloc varien d’acord a una distribució gamma. El grau d’heterogeneïtat varia de manera inversament proporcional al valor del paràmetre α.
En la distribució gamma, la seva forma es pot resumir pel paràmetre alfa. Les formes que adopta la distribució descriuen la distribució de les taxes de 16 Evo- Tema 5 mfiguls canvi al llarg de l’alineament.
• • • Alfa baixa (menors que 1) la distribució té forma de L. à tenim molts llocs que canvien poc, nomes uns canvien molt Alfa gran (major que 1): forma normal à taxa de canvi heterogèna Com menys alfa, més dispersió.
Es important fer la distribució gamma perquè si en una seqüencia hi ha molts llocs que canvien poc i molt pocs que canvien molt, llavors la mitja ens dirà que canvien poc. Però realment hi ha llocs que poden patir homoplàsia (perquè varien molt) i amb la distribució gamma ho veurem,.
Si la distribució gamma es molt plana, vol dir que les taxes de canvi son molt iguals entre elles, i per tant, en aquest cas la podem obviar.
La distribució gamma es molt flexible, permet modelar molt bé Els caràcters dels models biològics evolucionen a taxes diferents.
• La major part dels llocs evolucionen a una taxa molt baixa.
• Hi ha molt pocs llocs que evolucionin molt ràpid.
TEST DE RAÓ DE VEROSIMILITUDS: LIKELIHOOD RATIO TEST Criteri estadístic per escollir el millor model: S’utilitza el criteri de verosimilitud. Estimem els valors dels paràmetres fent servir el mètode de verosimilitud de dos models i els comparem. (per exemple JC i HK). Fem 2 vegades el ln de la verosimilitud del model 1 – la verosimiliud del 2.
A ser possible, sempre es millor el model més senzill.
∆ es distribueix com una 𝑋 ! amb un número de graus de llibertat igual al número addicional de paràmetres invocats en el model més complexes.
MÈTODES BASATS EN MATRIU DE DISTÀNCIES UPGMA És el mètode de distància més simple. Suposa que les taxes d’evolució son constants, per tant, els nodes són equidistants.
La longitud de les branques s’estima dividint les diferències entre dos (mitja aritmètica) 17 Evo- Tema 5 mfiguls Mètode d’agrupament seqüencial en el que les relacions topològiques locals són identificades en ordre de similitud decreixent i la construcció de l’arbre es realitza per passos: Ara representem un taxó compost: (H.sa, P.tr) Tornem a ajuntar tres espècies: 18 Evo- Tema 5 mfiguls Finalment: UPGMA genera respostes correctes si i només si les distàncies són ULTRAMÈTRIQUES. Què passa quan les distàncies son només ADDITIVES? NEIGHBOR- JOINING En un arbre binari sense arrel es considera que dos OTUs són veïns o “neighbors” si estan connectats per un únic node intern.
Si combinem les OTUs A i B en una OTU composta (AB) llavors la OTU (AB) i la OTU simple C es converteixen en veïns: La condició dels quatre punts (four point condition): Es parteix (a) d’un arbre en forma d’estrella (“startlike tree” o arbre sense estructura jeràrquica) i es procedeix identificant seqüencialment parells de veïns (node X) que minimitzen la longitud total de l’arbre. En cada pas les OTUs veïnes identificades són combinades en una OTU composta.
19 Evo- Tema 5 mfiguls Tens 8 taxons que no estan relacionats de manera jeràrquica. L’estructura filogenètica de l’arbre té forma d’estrella.
En els mètodes de distància s’assumeix que: • Similitud = parentesc o grau de relació evolutiva.
Però: similitud i parentesc són conceptes diferents.
• • Similitud: grau de semblança (observació) Parentesc: grau de relació genètica (inferència) El taxó C és més similar en seqüència al taxó A (d=3) que al taxó B (d=7) però està més emparentat amb el taxó B que amb el taxó A (comparteixen un ancestre comú més recent que l’ancestre que qualsevol d’ells comparteix amb A).
MÀXIMA PARSIMÒNIA: La màxima parsimònia (MP) implica la identificació d’una topologia que invoca el menor número possible de canvis evolutius per explicar les diferencies observades entre les OTUs estudiades. à La millor estrategia és aquella que implica menys canvis.
Els mètodes de MP utilitzen estats de caràcters discrets i la ruta més curta que condueix a aquests estats de caràcter es elegida com el “millor” arbre o arbre més parsimoniós. à La màxima parsimònia opera sobre caràcters, que és la principal diferència amb les matrius de distàncies.
És freqüent trobar dos o més arbres amb el mateix número de canvis, de manera que no és possible obtenir un únic arbre. Aquests arbres reben el nombre de igualment parsimoniosos.
à A vegades hi ha més d’una ruta possible com a més parsimoniosa, llavors es diu que hi ha més d’un arbre igualment parsimoniosos.
Imaginem 9 llocs, quins tipus ens trobem i com podem classificar-los? Invariants: pot ser que l’absència de variació es doni per constricció funcional o perquè no ha passat suficient temps perquè es doni aquesta variació.
Variants: - No informatius (2,3,4) Informatius (5,7,9) 20 Evo- Tema 5 mfiguls Definició rigurosa: un caràcter (lloc) és filogenèticament informatiu si afavoreix un subconjunt de tots els arbres possibles.
Definició pràctica: un caràcter (lloc) és filogenèticament informatiu només si mostra com a mínim dos estats de caràcter diferents, cada un dels quals apareix com a mínim en dues de les OTUs estudiades.
En el cas de 4 OTUs un lloc informatiu només pot afavorir un dels tres arbres alternatius possibles.
L’arbre recolzat pel major nombre de llocs informatius és l’arbre més parsimoniós Ex/ Pel lloc 3 observem els estat de caràcter G,C,A,A. Un d’ells (A) es troba més vegades (2 vegades). Per tant, aquest lloc no és informatiu. Si el considerem en la reconstrucció filogenètica, hi ha tres formes de disposar els taxons en un arbre.
Ex/ Pel lloc 9 observem: Si el lloc és informatiu, dels tres possibles arbres, el 2 només requereix invocar un canvi, pel que serà l’arbre més parsimoniós.
En l’exemple amb els tres arbres, els més parsimoniosos serien l’1 i el 2 de forma igual, això, és comú que passi.
21 Evo- Tema 5 mfiguls Com inferir l’arbre més parsimoniós? 1.
2.
3.
4.
Identificació de tots els caràcters informatius Calcular per cada arbre possible el número de canvis de cada caràcter Suma del número de canvis en tots els caràcters informatius Escollir l’arbre que requereixi menor número de canvis com el més parsimoniós Donats 4 otus, mirem tots els caràcters informatius i fem l’arbre per cadascun, mirant quants canvis s’han d’invocar segons cada arbre.
Si l’arbre 1 fos correcte, hi hauria 4 canvis. Si fos el 2, 5. I si fos el 3, 6.
22 Evo- Tema 5 mfiguls Mètode d’inferència d’estats ancestrals de Fitch (1971) (per més de 4 OTUs): Regla 1: l’estat en un node intern és la intersecció (∩) dels estats dels seus nodes descendents immediats si la intersecció no és un conjunt buit.
Regla 2: l’estat en un node intern és la unió (∪) dels estats dels seus nodes descendents immediats si la intersecció és un conjunt buit.
Regla 3: quan es requereix una unió per formar l’estat d’un node, llavors s’assumeix que hi va haver un canvi en aquest caràcter.
A cada un només s’invoca un canvi. Si els taxons són molt recents (molt emparentats entre si), l’error serà menor. Com més lluny amb el temps, més canvis han tingut lloc i més error tenim.
Estudi de les propietats de proteïnes ancestrals: Gaucher et al (2003) va utilitzar seqüències del Factor d’elongació Termoinestable (EF-Tu) de bactèries mesòfiles per reconstruir les seqüències ancestrals en els nodes de l’arbre bacterià. Les seqüències inferides van ser sintetitzades posteriorment al laboratori i les seves activitats i estabilitats tèrmiques mesurades i comparades amb les dels organismes actuals.
El perfil tèrmic de les proteïnes ancestrals inferides va ser 55ºC suggerint que l’ancestre dels mesòfils actuals va ser un termòfil.
Pel que fa a la possibilitat de reconstruir estats ancestrals en el cas de trets fenotípics continus, de moment no existeix un consens tant clar (foto gat!) Cerca dels arbres òptims: Mètodes exactes Però buscar tots els possibles arbres és un problema. Per resoldre’l s’han inventat algorismes de cerca. à Algoritmes de cerca de l’arbre MP: 23 Evo- Tema 5 mfiguls 1. EXHAUSTIVA garantitza l’obtenció del major arbre/es.
“Branch-and-Bound” garantitza l’obtenció del major arbre/es.
No permet analitzar de 12 a 25 OTUS.
Basats en que la incorporació d’un nova OTU a un arbre, mai pot reduir la seva longitud. Com a molt és possible que no causi un augment de la homoplàsia, perquè la incorporació de OTUs en pot eliminar la homoplàsia per les OTUs ja incorporades.
El llindar s’estableix en funció de les topologies que vas trobant.
En l’exemple, exploraríem els arbres de puntuació de 221 i 213, i abandonarem el de 280.
Llavors anem afegint els taxons. Llavors uqan anem afegint també incporem la puntuació i eliminem els arbres amb puntuació més alta.
A cada una de les branques hi afegint el cinquè taxó. Per tant creem totes les topologies i després ens quedem amb la més curta, la que necessités fer menys passos possibles per construir-lo.
El problema és que amb més de 10 taxons això no es pot fer, per tant a la pràctica mai s’utilitzen.
És una drecera de la tècnica anterior, ja que no és necessari reconstruir tots els possibles arbres i avaluar-los un per un.
Anem descartant vies: vas avaluant els nous arbres i quan en trobes un que necessita més passos que el que ja tens ja no el construeixes, abandones la via. Per tant et vas quedant només amb la via de menys passos.
24 Evo- Tema 5 Cerca dels arbres òptims: Mètodes aproximats mfiguls Heurística no garantitza l’obtenció del major arbre/es.
Sacrifiquem la precisió per una disminució del temps.
Busca arbres més curts, va explorant fins que el troba. El límit és el temps que tu vols estar fent servir la màquina.
El clade AB es talla i s’inserta a la branca G. Si és millor ens quedem amb aquest arbre. Seguim “podant” i “reinsertant”.
Ens quedem amb l’arbre més curt, però no estem segurs de que sigui el més curt, pot ser que n’hem deixat algun pel camí que no hem valorat.
25 Evo- Tema 5 mfiguls MÀXIMA VEROSIMILITUD: 𝑑𝑎𝑑𝑒𝑠 ℎ𝑖𝑝ò𝑡𝑒𝑠𝑖𝑠 Exemple: llançament d’una moneda. Obtenim 6 cares i 4 creus en 10 tirades.
• Hipòtesi: distribució binominal: les estimes dels paràmetres que obtenim són les que maximitzen la probabilitat de les dades observades.
𝐿 = ML en filogènia: 𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑖𝑒𝑠 𝑎𝑟𝑏𝑟𝑒 És més complex, perquè tenim les dades, l’arbre i un model d’evolució. Es representa com la verosimilitud com les seqüències donat l’arbre (i també assumint un model d’evolució) • Dades: l’alineament de seqüències.
• Hipòtesi: arbre • Model: probabilitats de transició entre estats de caràcter (nucleotídics o aminoacídics). P. Ex: Jukes-Cantor, Kimura 2P, etc.
𝐿 = • Paràmetres a estimar: topologia i longituds de les branques Per tant, assumim un arbre i un model per poder obtenir estimes de la longitud de les branques i dels paràmetres del model, per tal d’inferir la màxima verosimilitud.
A diferència de les altres estimes, es comparen totes les seqüències entre elles (no dos a dos) i s’estudien estats de caràcter.
Per exemple: per trobar la verosimilitud dels arbres, considerem, totes les possibles combinacions de arbres i a partir de les matrius de transició, calculem la probabilitat de cada arbre. Cada arbre és igual però canvien els estats de caràcter dels otus interns.
26 Evo- Tema 5 mfiguls Al final la verosimilitud de les dades seria totes les probabilitats sumades.
à Molt diferent a la màxima parsimònia, que suposa que l’evolució es dona pel camí mes curt. En aquest, es tracta de trobar els paràmetres que maximitzen el valor de l’alineament.
El càlcul de les probabilitats és molt costós computacionalment, pel que es fa amb ordinadors. Es van assajant combinacions de valors, i la que maximitza la verosimilitud és amb la que ens quedarem. En la cerca, ens podem quedar estancats en un màxim local pensant que aquells valors són els que donen màxima verosimilitud.
- per no estancar-se en màxims locals, es fan processos iteratius.
Exemple per entendre-ho: Imaginem que tenim un model i unes seqüències. Ens quedem amb el model que millor resulta, fixem l’arbre i busquem combinacions de paràmetres que maximitzen la verosimilitud per tots els possibles arbres.
L’arbre amb la verosimilitud més alta és el que adoptarem.
Actualment estan sent substituïts pels mètodes Bayesians (dels que no parlarem) que assigna una probabilitat a cadascun dels esdeveniments.
Màxima verosimilitud i Bayes són els mètodes més acceptats (i utilitzats) actualment.
27 Evo- Tema 5 mfiguls CONFIANÇA EN LA RECONSTRUCIÓ FILOGENÈTICA La reconstrucció filogenètica és un problema d’interferència estadística. Sempre s’ha de quantificar la fiabilitat de la filogènia inferida i les seves parts components: Preguntes que ens hem de fer un cop obtenim l’arbre: • • • Quan fiable és un arbre? Quines parts de l’arbre són fiables? L’arbre inferit és significativament millor que qualsevol altre? MÈTODE BOOTSTRAP: És un procés (no és un procés estadístic convencional), una tècnica estadística en la que es fa ús del REMOSTREIG ALEATORI INTENSIU per estimar un estadístic, la distribució subjacent del qual es desconeix.
Aquesta tècnica és possible perquè hi ha ordinadors amb alta capacitat de computació.
Hi ha tres qüestions importants a considerar pel que fa al Bootstrap: 1. Remostreig de caràcters (llocs) amb reemplaçament per generar múltiples rèpliques “bootstrap” de dades (pseudomostres) 2. Anàlisi de cada rèplica “bootstrap” 3. La freqüència d’ocurrència d’un grup o la seva pròpia proporció bootstrap és una mesura de la fiabilitat del grup (senyal filogenètica al seu favor continguda en dades).
a. Obtenir un valor Bootstrap elevat indica que per aquell alineament existeix una senyal filogenètica a favor per aquell arbre.
Imaginem un alineament de seqüències amb 10 caràcters (del 0 al 9) i l’arbre que hem obtingut per un mètode de reconstrucció filogenètica.
- El que fem és generar models aleatoris: dividim un requadre amb tants compartiments com caràcters hi ha. I anem generant números aleatoris, que caiguin en un caràcter o o o En la primera rèplica Boostrap generem un numero aleatori que caigui entre 7 i 8.
En la segona, tornem a obtenir un numero aleatori(el que ja havíem extret el tornem a posar per una possible selecció posterior), cau entre 3 i 4.
§ En les dues primeres columnes, casualment són invariables EN la tercera, cau entre 2 i 3: és un estat també invariable però no té gaire informació filogenètica.
28 Evo- Tema 5 - mfiguls o Així successivament fins a completar els 10 caràcters.
A partir de les columnes que he anat obtenint (10) (pseudoreplica) calculem un arbre, que serà l’arbre 1.
Per tant anem fent pseudorèpliques i els seus respectius arbres. Com més millor. Tenim n arbres i ara fem el consens dels arbres.
mirar més exemples diapos 29 Evo- Tema 5 mfiguls Exemple: Imaginem el següent exemple.
Els * signifiquen quan un clade apareix un 100% dels cops a exclusió dels altres. La taula va posant els valors Bootstrap.
El Bootstrap fa això, mira de molts arbres quants cops els taxons apareixen associats als nodes. Ens dona una estima de la confiança d’aquesta associació.
ARBRE CONSENS: Hi ha múltiples consens. En l’exemple, els arbres difereixen en la disposició dels taxons BCD.
- Un consens estricte és el que està d’acord amb tots. Si mirem l’arbre 1, BCD s’associen a EFG, però en el 2 i 3 a A. Per tant, segons l’arbre consens estricta, hi ha una politomia.
Hi ha arbres consens que consideren que la majoria del 50% recolzin una associació, ja és bona.
El consens son útils perquè ens ajuden a determinar quins nodes seran més o menys fiables (les politomies ho seran menys), per tant, es una manera de representar la incertesa.
Reducció d’un arbre filogenètic per col·lapse de branques internes amb valors de bootstrap menors que un Umbral crític C.
- Si posem el llindar al 50% l’arbre seria el següent 30 Evo- Tema 5 - mfiguls Si el posem a 90%, no ens podríem creure la majoria dels nodes. Aquest arbre seria vàlid si en el treball es vol estudiar que els taxons que estan units formen un clade diferent dels altres (per exemple, humans i d.melanogaster) - 31 Evo- Tema 5 mfiguls ESTIMACIÓ D’ARBRES FILOGENÈTICS MITJANÇANT ANÀLISI COMPARATIU DE SEQÜÈNCIES: La reconstrucció filogenètica és un procés iteratiu. Acabem obtenint un arbre o varis que hem d’interpretar.
Al final, arribem a una conclusió raonable sobre l’arbre òptim, que podem defensar.
EL PROBLEMA DE L’ATRACCIÓ DE BRANQUES LLARGUES: La zona de Felsenstein: en presència de branques llargues la majoria dels mètodes filogenètics produeixen arbres erronis. Per exemple, el mètode de la màxima parsimònia tendeix a agrupar les branques llargues, per tant, serveix molt per veure aquest fet.
Aquest fenomen rep el nom de “long branch attraction” o “zona del Felsenstein” • Quan la màxima parsimònia encerta: en aquest cas quan l’arbre és simètric i no ha passat molt temps des de que van divergir els llinatges. Finalment de les 3 tipologies, la que invoca el menor número de canvis és el primer arbre.
32 Evo- Tema 5 • mfiguls Quan la màxima parsimònia falla: imaginem un arbre on hi ha dues branques llargues separades per una branca interna curta, ÉS LA PITJOR SITUACIÓ. Tindrem l’alineament, però l’arbre reconstruït per màxima parsimònia, sempre falla. Suposa que a les branques llargues hi van succeir múltiples canvis. En la practica, G i C (vermelles), se separen de G i C (les blaves) per canvis en la branca curta (per tant els canvis en aquesta branca son els que ens permeten distingir entre el clade vermell i blau). Però en la branca llarga s’han donat molts canvis homoplàsics, per tant, s’imposa la homoplàsia, de manera que els canvis que s’han donat de G-C predominen, per tant, acaba agrupant C i C mentre en realitat són homoplàsics. Per tant, les seqüències que evolucionen molt ràpid, acumulen canvis homoplàsics.
Aquest tipus de situacions no es resoldrien augmentant la mostra, potser sí canviant el mètode de reconstrucció filogenètica (com per exemple, verosimilitud).
Normalment també fallen la màxima verosimilitud i bayes quan s’utilitzen models simplistes.
El següent arbre, té dues branques llargues separades per una curta. En realitat, l’arbre de l’esquerra de dalt és el correcte.
Se sap que aquest arbre es correcte, però com se sap amb tanta certesa? S’han fet molts anàlisi i tot i que les taxes d’evolució són significativament diferents entre grups, s’accepta com a correcte.
Es van treure 18 proteïnes que evolucionaven molt ràpidament per no sobrevalorar els canvis homoplàsics, així es va trobar l’arbre correcte.
33 Evo- Tema 5 mfiguls ARBRE DE LES ESPÈCIES VS ARBRE DELS GENS Si es rastreja la història de dos al·lels qualsevols s’acabarà trobant l’al·lel comú ancestral del que van derivar els al·lels actuals: Les rutes de l’herència representen la transmissió dels gens de progenitors a descendents i el patró de ramificació representa l’arbre del gen.
Gens diferents poden tenir històries evolutives diferents. Diferents rutes de l’herència es corresponen amb diferents d’arbres del gen.
34 Evo- Tema 5 mfiguls Les rutes de l’herència estan confinades per barreres reproductives. Una espècie és un feix de connexions genètiques en el que múltiples línies progenitor-descendent entrellacen els individus en un llinatge.
Imaginem el següent exemple: Si estimem el temps de divergència entre 1 i 2 a partir dels al·lels a i f, estem sobreestimant el temps i si ho fem des de b i d la subestimem. àNo hi ha un mètode precís per estimar el temps de divergència.
REPARTIMENT INCOMPLET DE LLINATGES Polimorfismes ancestrals 35 Evo- Tema 5 Hibridació: mfiguls El processos evolutius com la duplicació o la coalescència confonen els arbres genealògics.
à Gen que experimenta duplicació i els gens segueixen la trajectòria evolutiva. Si fem la genealogia a partir del ortòleg 1, ens dona un arbre i si ho fem des de l’ortòleg 2 (son paràlegs entre ells però ortòlegs dins d’ells) una altra.
Degeneració asimètrica de duplicats En el següent exemple veiem que la genealogia i filogènia no corresponen 36 Evo- Tema 5 mfiguls COMPARACIÓ DE TOPOLOGIES: Mesura del grau de similitud o dissimilitud entre topologies alternatives.
La necessitat de comparar topologies sorgeix al tractar amb arbres inferits a partir d’un anàlisi de diferents conjunts de dades o a partir de diferents anàlisis del mateix conjunt de dades.
Quan dues topologies inferides a partir de diferents conjunts de dades coincideixen es diu que són congruents.
La CONGRUÈNCIA pot ser només parcial, tal que per la resta de les relacions les topologies poden ser incongruents.
Distància topològica de Penny & Hendy (dT): Mesura de la similitud entre dues topologies. Basada en “particionar”: dT = 2c à sent c el número de participacions que resulten en diferents agrupaments dels OTUs entre les dues topologies considerades.
Un arbre filogenètic és una hipòtesi sobre les “verdaderes” relacions filogenètiques entre els organismes: *: 6 dels 98 gens no són informatius; **: Caràcters filogenèticament informatius; ***: Canvis genòmics rars 37 ...