20. Pràctica 1 (2017)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Biología - 3º curso
Asignatura Evolución
Año del apunte 2017
Páginas 8
Fecha de subida 03/09/2017
Descargas 0
Subido por

Vista previa del texto

Pràctica 1 Conceptes bàsics de la filogènica. Representació gràfica.
La filogènia és l’estudi de les relacions de parentesc, les relacions de parentesc és el que obtenim de buscar la relació amb l’ancestre comú. Per obtenir aquesta filogènia necessitaríem unes dades d’algun tipus, com els caràcters, que podem observar i que les podem analitzar. El mètode que es fa servir per interpretar les dades és un mètode de diferència filogenètica, que moltes vegades es fa amb el recolzament de programes informàtics.
Les dades han de ser senyals d’evolució. Bàsicament el que es diu és que l’evolució de les espècies no és allò que podem captar de la natura.
Representació filogenètica.
La filogènia la representem amb arbres filogenètics. Un arbre filogenètic té dues parts: els nodes (unió entre línies) i branques o línies. Tenim dos tipus de nodes, els interns o terminals, els terminals estan en l’extrem. Els nodes terminals són els organismes actuals. Els nodes interns són els ancestres. Per tal de saber qui és més proper ens hem de fixar en l’allargada vertical.
Arbres i xarxes filogenètics.
A més dels arbres filogenètics també hi ha altres tipus de representacions, com són les xarxes, que permeten que hi hagi diversos camins que comuniquin entre els organismes.
En una xarxa els números romans són els antics, mentre que els normals són els actuals. Són una manca de resolució.
En els arbres només hi ha un únic camí per relacionar els ancestres actuals. Els arbres els podem trobar en forma arrelada o en forma no arrelada. Si té una arrel crea una direcció en l’arbre, l’arrel és l’ancestre comú al grup d’estudi, per tant es crea una direcció de l’ancestre comú a l’actualitat, que és la direcció del temps. L’arrel de arbre és molt important perquè ens pot marcar les relacions de les espècies. Depèn d’on posem l’arrel poden canviar les relacions.
Arbres no resolts – politomíes.
Els arbres poden estar completament resolts, per tant completament bifurcats o dicotòmics, de cada punt surt dues branques.
Però podem tenir politomíes, poden sortir varies branques a partir d’un node. Aquestes politomíes les podem trobar des d’un extrem o en una part. Aquesta falta de resolució pot ser deguda a diversos factors, entre altres coses el nivell d’informació que ens confereixen les dades.
Outgroup o grup extern.
Moltes vegades no podem saber directament l’ancestre comú, i moltes vegades utilitzem un grup extern (outgrup) per arrelar l’arbre i marcar una direcció. La comparació entre el nostre grup d’estudi i el outgroup ens permetrà mantenir una direcció.
A vegades, no sabem quin és el grup extern, només ens cal que agafem un grup extern però suficientment proper per poder-lo comparar. Moltes vegades es parteix de filogènies anteriors, per poder agafar un grup extern adient al grup d’estudi.
Monofília, parafília i polifília.
Grups monofilètics.
Són aquells grups que inclouen a tots els grups subordinats que comparteixen un avantpassat comú, inclòs el avantpassat hipotètic.
Grups parafilètics.
Són els grups que exclouen algun taxó que comparteix un avant passat comú. Els grups parafilètics estan definits per almenys una simplesiomorfia. Els rèptils tal i com estan descrits són un grup parafilètic ja que exclouen als ocells.
Grups polifilètics.
Són els grups que inclouen taxons que no estan pròximament emparentats o no tenen un avantpassat comú pròxim. Aquests grups estan definits per estats semblants però son resultat de convergència. Per exemple, els homeoterms.
Representacions arbòries.
Hi ha diferents tipus de diagrames: - Dendrograma, són tots els arbres.
- Cladograma, representa la relació genealògica entre els taxons amb branques, marquen la relació entre nodes i taxons terminals. La longitud de les branques no mostra una relació extra. En canvi, en els següents arbres si que es important la longituds.
- Filograma incorpora informació sobre la longitud de les branques, la divergència que s’ha produït al llarg de la branca. Podem tenir branques més llargues que altres i això indica el número de canvis al llarg del temps ha sigut diferent.
- Ultramètric. Porta informació del número de canvis que hi hagut al llarg de la branca, però tots els nodes terminals acaben al mateix lloc. Totes les branques sumen igual. La taxa de mutació és constant al llarg del temps i entre llinatges. Un exemple seria el fenograma.
Caràcter.
Un caràcter seria qualsevol atribut dels organismes dels quals volem construir una filogènia, també poden ser caràcters moleculars com les seqüències moleculars, que interessen molt en el tema de botànica.
Hi ha diferents estats del caràcter, són les diferents opcions que presenta el caràcter. Si parlem de DNA els estats seran els diferents nucleòtids en una mateixa posició.
Caràcters i mètodes utilitzats en filogènia molecular.
Els caràcters moleculars es prefereixen per sobre dels morfològics, perquè son caràcters discrets per una sèrie de raons: - Són discrets, com les proteïnes o les seqüències nucleotídiques (filogènia s’ha de fer amb caràcters discrets i no continus).
- Són més nombrosos que els caràcters morfològics (si el caràcter ve marcat per 1000 bp cada posició seria un caràcter).
- Són objectius i no ambigus (no cal interpretació del investigador).
- Són estrictament heretables.
- Són universals (si volem comparar plantes, bacteris i fongs, tots tenen el mateix codi genètic excepte algunes excepcions). La determinació de l’homologia és més fàcil.
- En general tenen una evolució més regular (tot i que es relatiu a la regió de DNA que utilitzem).
En el DNA tenim pirimidines (TC) i purines (AG), quan utilitzem el DNA per construir filogènies utilitzarem les mutacions de DNA, el que ens permetrà veure el grau de parentesc.
Es poden donar simples mutacions, en el cas de purina per purina o pirimidina per pirimidina se li diu transició (4 possibles) en cas que de purina per pirimidina és una transversió (8 possible).
Són més comuns les transicions. També poden haver-hi delecions i insercions una combinació d’ambdues ens dona els indels. També hi ha duplicacions.
En el cas de les filogènies és important saber quina regió estem treballant, si hi ha una mutació en els exons no prospera perquè té una funció, mentre que a la regió no codificant és igual.
Depenent del nivell al que volem construir la filogènia estudiarem una regió més variable o menys. Si volem estudiar organismes molt distants agafarem regions menys variables perquè ha passat molt de temps des de que van divergir, ha donat temps de que es donin mutacions en aquest temps. Si són molt properes agafarem les regions no codificants.
Bases de dades.
El GenBank conté totes les seqüències que s’han codificat, estàs obligat a penjar-ho. Primer hem de buscar si ja s’ha publicat aquest grup.
Alineament múltiple de seqüències de DNA.
Ja tenim seleccionada la part que nosaltres volem comparar, hem de trobar la mateixa regió al altre grup perquè busquem gens homòlegs. Per tant, hem d’alinear les seqüències entre sí perquè quedin comparables. És molt important perquè segons com fem l’alineament pot canviar l’arbre.
Un alineament és un hipòtesis de homologia posicional entre nucleòtids o aminoàcids. La identificació de homologies és un procés basic en l’estudi de la filogènia.
Pot ser que entre organismes les seqüències poden tenir diferent longitud degut a insercions i delecions. Per tal de que quedin alineades crearem espais entremig. Hi ha diferents maneres d’alinear-les. Quan no coincideixen generarem gaps que correspondrien a insercions i a delecions. Els gaps que s’insereixen són conseqüència de insercions i delecions prèvies.
Hi ha maneres de puntuar o establir un criteri, tenim dues seqüències imaginaries i les podem alinear de diferents maneres, el que es fa és puntuar positivament per un costat les bases idèntiques entre sí, però es penalitzen els gaps o indels. També hi ha una penalització per extensió del gap. Primer s’ha d’establir una puntuació i després intentar trobar la màxima puntuació.
El que es fa servir moltes vegades són les matrius concretes on s’estableix les puntuacions de les diferents relacions de bases. Les matrius de substitució es donen a partir de coneixements previs.
El que sol fer l’alineament global es comparar tota la regió. Però també hi ha alineaments locals.
Per fer la filogènia ens interessa el global. Hi ha diferents programes que fan alineaments globals com el Clustal. Primer es fan alineaments de dos a dos, i aplicant aquest criteri de puntuació es busca la millor puntuació. Amb la matriu de distàncies es construeix un arbre de distàncies. Aquest arbre guia, l’utilitza per anar seguint un ordre per fer l’alineament final.
Primer alinea els propers, després alinea els dos amb els següents, per això és diu que és un alineament progressiu.
Una vegada tenim l’alineament pot ser que alguna de les parts no sigui del tot viable, podem tenir un espaiador intergenètic, per tant tindrem un alineament ambigu, i el que es pot fer és excloure aquesta àrea ambigua amb Gblocks.
El format Nexus, es que hi ha un element que diu el nombre de taxons i el nombre de caràcters que son les columnes que hi ha. Missing = N, són els llocs que no sabem que hi ha s’indicaran amb una N.
Models d’evolució.
La deducció de la filogènia és un problema estadístic i és per això que es necessiten models de substitució (d’aminoàcids o nucleòtids): un model d’evolució molecular de les seqüències. Tots els models són aproximacions pel que fan simplificacions.
Els models d’evolució són utilitzats en filogènia per descriure les probabilitats de cada esdeveniment que es pot donar en un nucleòtid o aminoàcids.
El model de màxima parsimònia assumeix un model implícit (mínim número de canvis), altres mètodes com els mètodes de distància (Neighbor Joining) i els mètodes probabilístics (màxima probabilitat o inferència bayesiana) requereixen un model d’evolució explícit.
Hi ha dues aproximacions a l’hora de construir arbres: - Hi ha models empírics basats en la construcció de nombrosos alineaments. Els paràmetres venen donats per uns valors fixats per altres bases de dates.
- Hi ha models paramètrics que es basen en el modelatge de les propietats d’aminoàcids o nucleòtids. Els paràmetres venen donats per estudis previs.
Els models estan formats per dos paràmetres principals: - La freqüència de cada nucleòtid o aminoàcid en la seqüència.
- El procés de substitució, la taxa de mutació d’un estat (nucleòtid) a un altre.
Alguns dels models més utilitzats són: - El més senzill és el Jukes - Cantor els nucleòtids es troben en la mateixa freqüència i la taxa de substitució és igual per totes.
- Aleshores els models es compliquen a mesura que anem variant la freqüència de les bases i la taxa de substitució entre parells de bases. El més complex seria el GTR que té 6 taxes diferents.
Per poder aplicar models s’han d’assumir una sèrie de qüestions: - Primer s’ha d’assumir que una mutació en un lloc determinat no afecta als propers.
- També s’assumeix un rellotge molecular (actualment hi ha la manera de flexibilitzar aquesta part). Hi ha una homogeneïtat en les taxes de substitució al llarg del temps i dels llinatges.
- La freqüència de nucleòtids ha de ser homogènies entre llinatges.
- Les probabilitats de substitució són iguals en cada lloc. Normalment la tercera posició és la que més varia, una mutació pot no afectar a la proteïna perquè pot codificar pel mateix aminoàcid.
La distribució gamma ens permet incloure la possibilitat que hi hagi zones amb una taxa de mutació major que en d’altres. El paràmetre gamma és una distribució donada pel paràmetre alfa. Si el paràmetre alfa és molt alt gairebé tots els llocs tenen una taxa de substitució de 1. En canvi en valors d’alfa més baixos tenim una distribució amb una gran variabilitat de taxes de substitució, hi ha més heterogeneïtat en la taxa de mutació.
També es pot incorporar un paràmetre I que permet que hi hagi una zona invariable, que no tingui cap canvi de mutació. Això pot ser perquè estigui sota una pressió selectiva, o perquè hagin canviat varies vegades i hagi retornat al nucleòtid inicial.
Inferències filogenètiques.
Tenim dues seqüències que difereixen en tres bases, si utilitzem un mètode que difereix en caràcters discrets, aleshores és un mètode de mitges distàncies.
L’algoritme és qui decideix quin és el millor arbre. En els mètodes d’optimització és el que decideix quin arbre és millor que l’altre. Després utilitzem un algoritme que ens permet avaluar els diferents arbres.
Màxima parsimònia.
El primer mètode es el de màxima parsimònia que queda emmarcada dins l’escola cladística que intenta establir grups naturals (monofilètics) que són els clades.
Els grups monofilètics han de ser aquells que venen marcats per unes sinapomorfies concretes, una sinapomorfia és un caràcter compartit entre dos organismes com a mínim y evolutivament derivat. En la nostra matriu de dades només treballarem amb sinapomorfies.
La màxima parsimònia es recolza en el principi auxiliar Hennig, que diu que en absència d’una evidència contraria, dos caràcters semblants, són homòlegs. A mesura que afegim caràcters es va complicant. Per cada caràcter miraríem com comparteixen els caràcters comuns. Al final ens interessa tenir un cladograma que relacioni tota la informació.
De l’exemple podríem dir que els caràcters 1 i 2 que comparteixen son homòlegs, el caràcter 4 és homoplàsic (la semblança no és deguda a un ancestre comú sinó que s’ha pogut assolir per exemple a l’atzar).
El que fa la màxima parsimònia intenta intensificar l’homologia i no fer-ho per les homoplàsies.
Intenta construir cladogrames amb un menor numero de passos/mutacions. Intentarem agrupar els individus del nostre arbre perquè hi hagi el menor número de mutacions. Podem donar el mateix valor a tots els caràcters o donar més punts a uns caràcters o altres.
Critiques de la màxima parsimònia.
- Com vol minimitzar la homoplàsia és una crítica ja que és molt present a la natura.
- A més només té en compte els caràcters compartits i derivats (comú com a mínim dos individus), no es tenen en compte les zones invariables o constants, només els compartits. Només fa servir sinapomorfies.
- Després es produeix un artefacte, que vol dir que dins d’un arbre filogenètic les branques llargues es tendeixen a unir entre si per atzar, degut a homoplàsia que es doni per atzar.
- Incorpora un model implícit molt simple: baixes taxes de mutació i una composició nucleotídica homogènia.
Avantatges de la màxima parsimònia.
- És que és molt eficient, molt intuïtiva i poc sensible als canvis de mutacions al llarg del temps.
- Fa cerques d’arbres eficients.
- Té una base molt assentada.
- No té en compte la variabilitat de les taxes de mutació al llarg del temps.
Aspectes pràctics de la parsimònia.
A la pràctica hem de buscar totes les relacions possibles i cada arbre tindrà una puntuació que serà el numero de passos que consta construir-lo, com que busquem l’arbre més curt, a més alta puntuació pitjor serà l’arbre. Si tenim una matriu petita és relativament fàcil de calcular tots els arbres possibles. Com més individus afegim a la matriu és més difícil.
Aleshores el que es fa és una cerca heurística que és un mètode matemàtic que intenta comparar diversos tipus d’arbres explorant diverses illes, no contemplem totes les possibilitats, però es bastant probable que arribem al millor arbre. Aleshores per assegurar-nos fem múltiples cerques, lo normal és fer-ne 1000.
En cadascuna de les rèpliques es construeix un cladograma, a partir de 3 dels individus va afegint-ne els altres i es queda amb el que té els menors passos. Podem marcar al programa l’ordre amb el que s’introdueixen els individus. Després fa una avaluació del cladograma, el més important és el TBR (tree bisection and reconnection) que el que fa es desmuntar en dos subarbres i anar provant.
Amb aquestes cerques podem tenir dos de 125 punts, el que es fa és construir un arbre consens.
El que més s’utilitza és el de consens estricte, que el que fa és representar un arbre on només estiguin resolts els clades resolts en tots els arbres parcials. L’altre cas concret és el majority rule (50%) mostren els clades resolts com a mínim en el 50% dels arbres.
Suport estadístic.
Una vegada tenim la tipologia de l’arbre el que volem saber és el suport estadístic dels nodes concrets que hem resolt. Volem saber el valor dels nodes i utilitzem sobretot el Bootstrap que es fa un remostreig de dades i per tant una única mostra i tornar a fer el mateix anàlisi amb aquelles pseudorèpliques, això es fa creant matrius alternatives a partir de l’original. Acabem tenint una matriu amb el mateix numero de caràcters però els caràcters es canvien. Normalment es creen 1000 matrius d’aquestes. A partir d’aquestes 1000 matrius tornem a fer un anàlisis de PM, amb cadascun d’aquests anàlisis s’obté l’arbre consens, per tant com a mínim tindrem 1000 arbres, potser en tenim més perquè de cada cerca podem trobar dos amb un mateix valor.
Aleshores es busca quin % d’aquells arbres apareix un clade concret (Clade resolt). Cada clade tindrà un valor de suport en forma de percentatge. Normalment es considera que són significatius valors per sobre de 80%.
Mètodes probabilístics.
Ara ens fixem en la inferència bayesiana, en aquest cas el criteri es trobar l’arbre més probable, l’objectiu és trobar l’arbre més probable aplicant un model evolutiu concret. Es un mètode probabilístic totalment.
Per tant, si apliquem un model evolutiu s’ha d’estimar a partir de les dades. Aleshores el que hem de fer es calcular el model evolutiu que millor s’ajusta a les nostres dades, testa els diferents models evolutius que existeixen i mira quin s’ajusta millor i aquest és el que hem d’aplicar.
El que hem de fer es construir molts arbres diferents i calcular la probabilitat de cada un d’ells i mirar quin és el més probable, al haver-hi moltes combinacions possibles el que fa és utilitzar un procés de mostreig (MCMC) que avalua els arbres, hi ha 4 cadenes que calculen arbres de manera independent i tenen una manera d’avaluar-se en el procés de manera que cada vegada s’aproximen a l’arbre més probable.
Aplicant el model concret, anirà calculant arbres, quan en trobi un de millor que l’anterior canviarà les variables. Fins a arribar a l’arbre òptim. Normalment a cada arbre se li diu generacions, normalment es fan 5 milions, aleshores mostregem 1 de cada tants (guarda-me’n 1 de cada 100). Arriba un moment que tots els arbres que troba són igual de probables aleshores ens situem en la zona estacionaria. Normalment les cadenes són diferents però hi ha una cadena calenta i tres fredes i la calenta el que fa es intercanviar informació amb les altres per optimitzar la cerca.
A mesura que augmentem les generacions, la probabilitat es manté perquè estem a la zona estacionaria. Per tant quan acabem la anàlisis eliminem els primers arbres que ha trobat i això se li diu burn-in. S’elimina normalment el 10% inicial. Amb la resta construïm un arbre consens que en aquest cas és el majority rule 50%. En cada node trobarem PP, que es la freqüència amb la que apareix aquell node. En aquest cas els valors significatius són els que estan per sobre de 0,95.
...

Comprar Previsualizar