Tema 4. Semblança i homologia (2015)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Genética - 3º curso
Asignatura Evolució
Año del apunte 2015
Páginas 13
Fecha de subida 16/03/2016
Descargas 15
Subido por

Vista previa del texto

Evo- Tema 4 mfiguls TEMA 4: SEMBLANÇA I HOMOLOGIA No són termes iguals: • Semblança: simplement la semblança entre caràcters. És quantitatiu.
• Homologia: inclou una raó per la semblança, un ancestre comú. És qualitatiu.
Fonamentals per: • establir relacions evolutives • entendre història evolutiva de gens o genomes BUILDNG PHYLOGENETIC TREES FROM MOLECULAR DATA WITH MEGA A l'abstract de l'article del programa MEGA, que és un programa de reconstrucció filogenètica que es basa en la homologia posicional, veiem que ens diuen: l'anàlisi filogenètic de vegades és intimidatori i un procés complex que requereix experiència.
No obstant això diuen que es pot aprendre de manera ràpida i eficaç. Ells presenten MEGA perquè creuen que simplifica el procés i el problema d'estar pendent del tipus de format.
Bàsicament es pot resumir el procés de reconstrucció en 4 passos: 1) Identificació d'un set de seqüències homòlogues i descàrrega d'aquestes 2) Alineament de les seqüències per poder comparar 3) Construcció de l'arbre filogenètic 4) Representació de les relacions filogenètiques ESTIMACIÓ D’ARBRES FILOGENÈTICS MITJANÇANT L’ANÀLISI COMPARATIU DE SEQÜÈNCIES Nosaltres ara estem interessats en el concepte de homologia que és fonamental en el segon pas. Quan fem aquest tipus d'anàlisi en què volem establir relacions evolutives fem els passos descrits anteriorment: 1. SELECCIÓ DEL TIPUS DE DADES: Ens preocupa el tipus de dades que utilitzarem. Poden ser nuclears, de cpDNAs, regions codificants i no codificants, seqüències sinònimes i no sinònimes, etc.
Hi ha dos utilitats de les seqüències que serien: i. La història evolutiva del gen: objectiu en si. Hauríem d'identificar constriccions funcionals, empremtes de datació molecular, ens interessaria l'estructura exó / intró, les famílies gèniques o fer reconstrucció d'estats ancestrals.
ii. Relacions entre els organismes: seria un marcador. Si utilitzem aquesta regió gènica com a marcador haurem d'escollir la regió en un “tempo” i mode d'evolució adequat. Sabem que a menor divergència necessitem regions amb major taxa d'evolució.
Ens podria interessar distingir entre nucleòtids i proteïnes. Estudiar substitucions puntuals i Indels. També saber les taxes de substitució constants si volem datar.
2. Un cop OBTENIM les seqüències hem D'ELIMINAR ERRORS 3. APILAMENT I FORMATEIG DE LES SEQÜÈNCIES 1 Evo- Tema 4 mfiguls 4. INFERÈNCIA D'HOMOLOGIA POSICIONAL: alineament múltiple: correcta identificació nucleòtids / aminoàcids homòlegs i ubicacions de gaps segons els Indels Coses a tenir en compte a. Tipus de seqüències / nombre de Otus. No codificants, codificants (seqüències d'aa), control de la redundància i tenir en compte si treballem amb gens o genomes perquè potser necessitem programari específic (ex/ Muscle) b. Mètodes heurístics. L'alineament és complex i s'utilitzen dreceres (mètodes heurístics).
Volem el millor alineament possible en el menor temps possible.
c. Paràmetres. Quan fem l’alineament hem de tenir en compte les penalitzacions que atribuïm als gaps o les diferències. També les matrius de substitució.
5. Un cop tenim l'alineament fem la RECONSTRUCCIÓ FILOGENÈTICA.
Caràcter vs. Estat de caràcter Així doncs hem d'estar molt segurs que les regions que comparem siguin homòlogues.
Hi ha tres conceptes molt importants • Caràcter: tret homòleg entre els taxons objecte d'estudi i que hipotèticament varia independentment d'altres trets.
• Homologia: possessió per dos o més espècies d'un tret derivat amb o sense modificació del seu ancestre comú. En principi és un tret derivat d'un ancestre comú.
• Estat de caràcter (character state): cadascuna de les condicions alternatives d'un caràcter.
Per il·lustrar aquests conceptes tenim diferents exemples: Exemple: Origen dels tetràpodes. Entre el devònic i el carbonífer hi va haver una transició de peixos a tetràpodes per un descens del CO2, un refredament global i una extinció massiva. A la imatge veiem la transició de les aletes dels peixos a les extremitats amb dígits dels tetràpodes.
Els esdeveniments claus durant l’evolució de les extremitats anteriors de tetràpodes son: 1. pèrdua dels radis de les aletes 2. adquisició de dígits 3. remodelat de l’húmer La forma c és l'estat ancestral més proper a les primeres formes d'extremitats de tetràpodes. El cúbit, l'húmer i el radi són tres caràcters diferents que han anat evolucionant.
Aquest exemple amb caràcters anatòmics ens permet veure la diferència entre considerar els caràcters moleculars i els anatòmics perquè en aquests segons hi ha molta subjectivitat en la descripció.
2 Evo- Tema 4 mfiguls La premissa de la homologia posicional Homologia posicional: parell de nucleòtids (o aminoàcids de dues seqüències homòlogues que provenen d’un nucleòtid de l’ancestre de les dues seqüències. La HOMOLOGIA POSICIONAL s’identifica mitjançant ALINEAMENT.
Les seqüències són seqüències de caràcters respecte als quals podem distingir estats de caràcter discrets i això és molt important per reconstruir la història evolutiva. Pel que fa a les seqüències, el concepte d’homologia posicional és molt important.
Les variants (estats de caràcter) en cada columna (caràcter) descendeixen de la mateixa columna (caràcter) ancestral. Representen estats del mateix caràcter.
Així doncs disposem de 5 otus amb caràcters variables i conservats.
Alineament: hipòtesi sobre la homologia posicional entre nucleòtids (o aminoàcids) de dues o més seqüències.
Si no trobem homologia, faríem correspondre llocs que no són homòlegs i llavors això és erroni (faríem l’arbre malament) Si observem conservació en un llarg període de temps, pot ser perquè l’element és funcional. Però a vegades això no evidencia funcionalitat, sinó pot ser que simplement no hagi passat el temps necessari perquè s’hagin acumulat canvis.
Per tant si veiem una regió conservada à aquesta ens indica rellevància funcional (a no ser que sigui una regió que muta molt poc) Només els llocs variables contenen informació filogenètica !!! 3 Evo- Tema 4 mfiguls Estat ancestral i derivat Quan parlem d'estats de caràcter ancestral parlem de plesiomòrfic, que significa actiu. En aquest cas veiem que en el caràcter 1 tenim dos estats de caràcter, suposant que aquesta relació evolutiva és correcta diríem que l'estat C és l'estat de caràcter ancestral i l'estat de caràcter derivat o apomòrfic seria A.
Homoplàsia Una altre concepte important és la homoplàsiaàPel que fa a un caràcter, condició en la que dos o més otus mostren un mateix estat de caràcter, diferent del seu ancestre comú. També es defineix com similitud en estat de caràcter no deguda a “herència a partir d’un ancestre comú” (pàg. Ex. Paral·lelisme, convergència o reversió evolutiva).
La homoplàsia és molt important perquè la seva presència pot confondre el procés d'inferència d'homologia.
En l’exemple, la coincidència en l’estat de caràcter no és perquè tinguin un ancestre comú.
És el gran problema de la reconstrucció filogenètica perquè ens confon. Com la homoplàsia depèn de l'acumulació de canvis, que passa independentment, aquesta es fa més important quan comparem taxons molt allunyats entre si.
Hi ha diversos tipus de substitucions: hi hauria substitucions - única (canvi de C a A), - Múltiples (en el primer taxó de la OTU 1 l'A hauria canviat a C, després a T i finalment a G), - Coincidents (ocorren en la mateixa posició en els dos llinatges, són coincidents però no perquè tinguin el mateix estat de caràcter) - Paral·lels (de T a A en tots dos casos) - Convergents (serien un canvi paral·lel però en un dels otus hauria hagut una substitució múltiple) 4 Evo- Tema 4 mfiguls - Reversa (una de les dues línies ha tingut un canvi (situació intermèdia) però que dóna lloc a un mateix resultat tornant a l'estat de caràcter ancestral El canvi revers seria una modalitat de la substitució múltiple.
La homoplàsia és un dels principals problemes que surten al fer les històries evolutives (si ens fixem en els estats de caràcter de la seqüencia).
Per poder saber realment la història evolutiva d’un caràcter, hauríem de trencar les branques.
Es diu que dos o més seqüències són homòlogues si estan relacionades per descendència. El criteri per decidir la homologia entre sequencies és el grau de semblança (així, som molt vulnerables a la homoplàsia) i quan aquest és més gran del que es podria esperar diem que les seqüències són homòlogues..
La convergència adaptativa pot generar semblança encara que no sol generar semblança estadísticament significativa.
Així doncs la semblança pot sorgir per diferents processos, no solament per homologia.
Exemple: Imaginem un determinat motiu regulador de sis nucleòtids i en un llinatge humà és ATGGCA però en ximpanzé és AGCGCA. Quan un examina la similitud entre aquestes regions de la seqüència, com són motius petits, una simple mutació ja pot donar lloc a semblança entre les seqüències (la de ximpanzé podria passar a ser ATGGCA també). Aquestes seqüències són semblants però no per homologia, a més aquesta similitud no seria estadísticament significativa perquè les dues seqüències són molt curtes. Els caràcters ANÀLEGS són coincidents però a causa de evolució independent.
Similitud vs. Homologia (important!) La similitud és un fet (condició quantitativa) i la homologia és una hipòtesi (condició qualitativa) que atribueix la similitud a una acció evolutiva.
És molt important saber que no podem utilitzar els dos termes com a sinònims. Podem dir que són un tant per cent similars però no un tant per cent homòlegs perquè poden o no ser homòlegs (no hi ha gradació).
Com qualsevol altra hipòtesi científica la hipòtesi d’homologia pot ser provada i rebutjada.
L’alineament es basa en que s’ha de col·locar una seqüencia respecte l’altra, tal que cada posició en una coincideixi amb la posició homòloga en l’altra.
5 Evo- Tema 4 mfiguls à Seria senzill si es coneguessin els estats ancestrals, però normalment no es coneixenCom demostrar l'homologia? En aquest exemple veiem que el caràcter 2 mostra dos estats de caràcter.
Com decidim quins estats de caràcter són estats d'un mateix caràcter? Davant el dubte a l'hora d'alinear és millor oblidar-nos de aquesta seqüència i abandonar el procés d'inferència.
La manera d’inferir homologia posicional és mitjançant l’alineament (que no és el mateix que apilament).
La manera d’alinear es basa en la idea que s’ha de maximitzar la semblança (per això haurem de posar gaps).
En l’exemple (S1 i S2) necessàriament hi ha hagut pèrdua o guany de material, per tant en l’alineament s’hauran de posar gaps. Les posicions verdes són idèntiques (match) , les vermelles diferents (missmatch) i les ratlles gaps (base nul·la).
Alhora de posar gaps, també, no tenim cap teoria segons com es formen Indels, per tant, és mes difícil.
A més, si trobem Indels, no podem saber si es una inserció en un individu o una deleció en l’altre, per això necessitem un outgrup. Així podem “polaritzar” és a dir, determinar el sentit del canvi evolutiu (en l’exemple, el primer missmatch, no sabem si el canvi ha estat de Tà A o de AàT).
Suposem dues seqüències, A i B de longituds m i n tal que mostren x coincidències, y diferències i z gaps: 6 Evo- Tema 4 mfiguls 𝒎 + 𝒏 = 𝟐(𝒙 + 𝒚) + 𝒛 És important saber que el numero possible d’alineaments per el cas de 2 seqüències de 300 caràcters, assumint numero i extensió de gap limitats és: 1088 Això ens dona una idea de la magnitud del problema, per això s’utilitzen mètodes heurístics (dreceres) on es busca un subset d’alineaments. Sumem les puntuacions de cada alineament i ens quedem amb aquell de millor score.
Hi ha diferents mètodes, que explicarem a continuació: ALINEAMENT GLOBAL (PROGRAMACIÓ NEEDLEMAN I WUNSCH), 1970 DINÀMICA, ALGORITME DE Suposem que tenim la cadena 1: CELACANTO i la cadena 2: PELÍCANO. Per alinear-les, hem de fer una matriu bidimensional (n x l).
La posició de l’alineament òptim es la que es mostra a continuació.
Si s’invoquen gaps, la línia es desplaça cap amunt o avall.
Ens importen dos paràmetres: • Cost o esquema de puntuació: inclou la puntuació per match, missmatch i gaps. Un decideix quina penalització utilitza.
• Indicador de direcció o punter L’alineament consta de 3 etapes: 7 Evo- Tema 4 mfiguls 1. Inicialització / Initialization: Establim els pesos multiplicant : distància des de l‘origen * la puntuació del gap: 1. Emplenat / Fill: per decidir el cost i punter per cada casella hem d’avaluar les caselles que els envolten. Per exemple, per a la casella 1,1.
Puntuació cel·la (i, j) = Max [-1, -2, -2] = -1 Un cop decidida la puntuació, decidim el punter, el posem en direcció a la casella amb més puntuació, que en aquest cas serà en diagonal. En cas de coincidència (empat) sempre té preferència la diagonal.
Fem així amb totes les caselles.
Puntuació cel·la (i, j) = Max [-2, -3, -2] = -2 El que volem és maximitzar l’score.
Obtenim tota la taula: 8 Evo- Tema 4 mfiguls 2. Re-traçat /Trace-back: Aquest algoritme s’ha demostrat matemàticament que funciona. Per tant, l’apliquem directament.
Esquemes de puntuació: Alfabet nucleotídic: 4 lletres: NADN = {A,C,G,T} P [2 cadenes nucleotídiques aleatòries coincideixen en l’estat de caràcter] = 1/4 = 0.25 Alfabet aminoacídic: 20 lletres: A = {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V} P[2 cadenes aminoacídiques aleatòries coincideixen en l’estat de caràcter] = 1/20 = 0.05 Degut al seu menor ritme d’evolució i que l’alfabet aminoacídic consta de major nombre d’estat de caràcter, l’anàlisi comparatiu de seqüències aminoacídiques és menys sensible al problema de les substitucions múltiples que l’anàlisi comparatiu de seqüències nucleotídiques.
Un text escrit amb 20 lletres és més fàcil d'alinear que un text escrit amb 4 lletres.
à En lloc d'alinear seqüències codificadores directament és més fàcil i precís alinear primer les seqüències aminoacídiques corresponents, i llavors alinear les seqüències nucleotídiques utilitzant l'alineament aminoacídic com a guia.
Les seqüències aminoacídiques permeten resoldre esdeveniments evolutius ~10 vegades més antigues que els que és possible resoldre utilitzant seqüències nucleotídiques.
9 Evo- Tema 4 mfiguls Els aminoàcids tenen la seva pròpia personalitat, són fisicoquímicament molt diferents. Per tant, els canvis aminoacídics en les seqüències no succeeixen a l’atzar.
Les característiques fisicoquímiques dels aminoàcids determinen les estructures secundàries com la fulla beta, coils, hèlix alfa... Les làmines beta solen estar més conservades que les alfa.
No tots els aminoàcids estan al centre actiu de la proteïna (la His o la Cis hi estan molt implicades). Si tenim una His conservada en la majoria de seqüències però en una està desplaçada podrem saber que probablement hi ha un error.
Si nosaltres anem a alinear dos seqüències i a la mateixa posició tenim una cisteïna i a l’altre un triptòfan, sabem que no estaran juntes, hem d’obrir un gap, perquè aquest reemplaçament aminoacídic 10 Evo- Tema 4 mfiguls no el trobem casi bé mai, ja que la proteïna es trenca. Resulta eliminat com a conseqüència de selecció purificadora.
Si veiem un canvi porta a pensar que potser es degut a selecció positiva.
à Aminoàcids sinònims: tenim una gran degeneració aminoacídica.
Tipus de reemplaçament: • • Conservatiu: entre aminoàcids similars (p. Ex: L – I) Radical: entre aminoàcids diferents (P. Ex: G – W) Durant l’evolució la major part dels reemplaçaments impliquen amonoàcids similars.
Esquemes de puntuació per PAM 250: Tenim els 20 aminoàcids en vertical i en horitzontal. En verd i vermell tenim si es troba més o menys freqüentment la conservació o el canvi. La diagonal indica la propensió a no canviar de cada residu.
La probabilitat de reemplaçament: - En verd > esperat per atzar En vermell < esperat per atzar Esquemes de puntuació per BLOSUM62: Esquemes de puntuació per GONNET: 11 Evo- Tema 4 mfiguls CLUSTAL W (ALINEAMENT PROGRESSIU) Tenim l’alineament amb ClustalW: • Tenim 5 seqüències i les alineem per parelles (seguint l’algorisme Needleman i Wunsch). Al final obtenim una matriu amb la que aconseguim un arbre guia.
• Llavors anirem alineant els clústers per alineament múltiple.
L’algorisme de Clustal té diverses limitacions. Una d’elles s’exposa al article “Phylogeny-Aware Gap Placement Prevents Errors in Sequence Alignment and Evolutionary Analysis”.
Encara que no es pot distingir inserció de deleció només a partir de la comparació de dos seqüències, sota l’estratègia de l’alineament progressiu, ambdós esdeveniments reben penalitzacions molt diferents: mentre que cada deleció requereix obrir només un gap (cost -1), cada inserció requereix obrir múltiples gaps (cost -6).
Per tant Clustal està sobrepenalitzant les insercions.
12 Evo- Tema 4 mfiguls Diferents estratègies d’alineament poden conduir a conclusions contradictòries respecte als mecanismes evolutius subjacents a l’evolució de les seqüencies: Es mostra el millor alineament obtingut amb dos estratègies: Clustal W i Prank.
- Clustal introdueix més delecions à s’obtenen alineaments més compactes o Suggereix que V2 té una alta taxa de reemplaçament en un “hot spot” de mutació que s’ha anat escurçant - Prank té en compte la filogènia i distingeix inserció de delecióà alineament més lax o Suggereix que V2 evoluciona per insercions i delecions curtes que resulten en canvis dràstics ràpids en la proteïna.
El bo seria fer tots els mecanismes i mirar quin és l’alineament mes robust.
LÍMITS EN LA DETECCIÓ D’HOMOLOGIA POSICIONAL (amb pairwise alignment) Com més llargues siguin les sequnecies, més robust és l’alineamnt.
- es poden definir tres regions segons la identitat de les seqüències.
- Quan la identitat és del 20% o menor és millor no intentar alinear-les perquè no hi ha similitud possible.
«An error in an alignment means that an ancestral position has not been identified correctly, and consequently inferences of the number of substitutions will be incorrect.
Given that alignment is the first step in many evolutionary studies, and that errors in alignment tend to amplify in later computational stages, we must construct alignments very carefully. One should therefore remove all ambiguous parts of an alignment before any further analyses, even if the total aligned length decreases significantly and the sampling error associated with the estimate of the number of nucleotide substitutions between two sequences increase concomitantly.» GRAUR D & L WEN- HSIUNG (2002) Fundamentals of Molecular Evolution (p.87) Sinauer Associates 13 ...