T2: Alineament de seqüències (2016)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Microbiología - 2º curso
Asignatura Bioinformática
Año del apunte 2016
Páginas 4
Fecha de subida 24/04/2016
Descargas 20
Subido por

Vista previa del texto

Bioinformàtica Ariadna López Coll T2: Alineament de seqüències A l'hora d'alinear seqüencies, podem observar, per exemple, 4 possibles alineaments. Així doncs, de cada alineament podem obtindre diferents opcions, però quin d'aquest és el millor? Quin criteri s'utilitza per escollir una o una altre? No podem considerar una millor que ninguna, simplement aquella que presenti una millor puntuació (score) en base a tots els matchs, missmatchs, insercions o deleccions que es produeixin. Per altre banda, tambè necessitarem es poden saber molts més paràmetres que podem utilitzar.
Quins paràmetres podem utilizar tambè per comparar aquestes dues seqüències? - La seva gràndaria.
- La seva freqüencia de bases.
- El contingut de G + C, el qual comença a dir alguna cosa, potser no són del mateix microorganismes, ja que el percentatge és diferent.
- Els motius comuns, una petita emprenta que és repeteix, però no ens diu quan són de semblants.
La comparació que ens donarà més informació sobre quina seqüencia correspon a cada espècie serà fer un alineament.
Un alineament és la forma de representar i comparar dues o més seqüències o cadenes de DNA, RNA o estructures primàries proteïques per ressaltar les seves zones de similitud.
Aquestes zones podrien indicar relacions funcionals o evolutives entre gens o proteïnes analitzades.
PeAnem a intentar construir la relació entre 3 seqüencies i un ancestre mitjançant un aliniament, per veure quina és més propera (comparació de diferents seqüencies). Primer poses l’ancestre amb cada una de les seqüencies, on vas movent les posicions per trobar zones comunes (match, miss matchs o gaps). Els gaps (''forats generats) es produeixen per inserccions o delecció. A l’hora de puntuar la identitat entre seqüencies, en el primer cas trobem 5/6 matchs, que comporta un 83,3% d’identitat. Els tres són iguals (com podem veure al power). Nomès fixant-nos en els matchs, trobariem percentatges iguals per les tres seqüencies, per tant, no ens serveix. Hem d’intentar fixar-nos en els tipus de canvi en cada posiciò, per obtenir més informació (transició, transversió i delecció, respectivament cada seqüencia).
• Transició -- purica per purica, purinica per purinica.
• Transversió →purica per purinica o al inrevès.
En quan a l’assignació d’una puntuació, a cada parell del alineament s’assigna un valor que será major o menor, incluint valors negatius. Això ens permet construir una matriu de puntuació, on donem valor a cada parella; el criteri será identitats (matchs perfectes) d’un valor positiu (+1) i que els missmatchs d’un valor negatiu (0). Els gaps tambè són 0, es contrueixen. En aquest cas i seguint aquesta matriu, obtenim 5 punts en les tres seqüencies, per tant, no és resolutiva tampoc, ja que no es discriminatòri. Canviem el criteri, on fiquem match +1, mismatch -1 i gaps -2. Tenim una nova matriu, on tenim la diagonal +1 i Bioinformàtica Ariadna López Coll tots els altres. Els gaps són més costosos que les substitucions, per això és el més penalitzat. En aquest cap, obtenim 4 punts, 4 punts i 3 punts, respectivament. Obtenim l’informació que la seqüencia 3 és la que es troba més lluny.
Hem de millorar la matriu, i hem de millorar el missmatch en base a les transversions i a la transicions. En aquest cas, les transcions les penalitzem en -1 i les transversions -1,5. Això és el més informatiu, i ens ajuda a discriminar que la seqüencia 1 és la més propera al ancentre amb 4 punts.
Tot aquest procès ho hem fet amb nucleòtids, però tambè ho podem fer amb proteïnes.
Per tant, la semblança tambè la podem quantificar, ja que aquesta pot haver sigut donada a nivell de codó, on s'han produït canvis d'un aminoàcid per un altre per mutacions . Així doncs, podem introduir el concepte de similitut. Es poden arribar a considerar els idèntics i alhora els idèntics positius (semblants, en bases a característiques del aminoàcid).
Les mutacions o canvis d’aspartic a una tirosina s’han de produir 1 mutació, i per tant, totes les mutacions tenen una imprenta. Podem considerar, a partir d’això, si un canvi és més probable o no. El canvi d’un aminoàcid per un altre NO ha de tenir la mateixa puntuació. Per tal de veure això dissenyem una matriu 20x20 (on incluïm tots els aa). Aquestes matrius de identitat funcionen bé per a alineaments de proteïnes molt semblants però NO per seqüències relativament distants.
– Matrius de substitució PAM Les matrius de substitució PAM van ser desenvolupades per Margaret Dayhoff al 1977. Es calculen observant diferències en proteïnes relacionades (properes, les quals han de tenir mínim un 85% de similitud). Primer va desenvolupar PAM1, en les quals es calculaven seqüencies amb 1 mutació per cada 100 aminoàcids. Així, la matriu PAM1 estima el ritme de substitució entre dos aminoàcids si el 1% d'aquests canvien.
Així doncs, Dayhoff va asumir que es podía calcular una matriu per a seqüenències divergents d’una matriu per a seqüencies properes, elevant aquesta segona matriu a una potència. Exemple: [PAM1]250= PAM250.
El nombre de la matriu depèn de la permisivitat, la qual va determinada per la PAM; si aqueta és baixa, serà menys permissiva, per tant, que s'accepta molt poc els canvis que es donen i per tant, es penalitzen molt. Això tambè passa a la inversa, on si la PAM és alta, serà més permisiva, menys mutacions acepta. Quan veiem que dos seqüencies molt semblants, agafarem PAMS més baixes, penalitzar canvis, en canvi quan tens dos seqüencies molt diferents, agafrem PAMS menys permisives als canvis.
Aquestes matrius han derivat a les que s’utilitzen actualment.
– Matrius de substitució BLOSUM Henikoff i Henikoff, van analitzar proteines fixant-se en blocs petits d’aminoàcids. A partir d’aquí, van establir matrius per observació amb major sensibilitat a l’hora de seqüencies més distants. Al 1992 van constuir aquestes matrius utilitzant alineaments múltiples de proteïnes evolutivament divergents.
Bioinformàtica Ariadna López Coll Les probabilitats utilitzades en els càlculs de la matriu es computen observant blocs de seqüencies conservades trobats dins dels alineaments de proteïnes divergents. S'assumeix que aquestes seqüències conservades són importants funcionalment dins de les proteïnes relacionades. Es van considerar els parells de freqüències entre segments dels alineaments amb menys d'un 62% d'identitat, i es va construir la matriu BLOSUM62. Per tant, s'utilitzaran doncs matrius BLOSUM de numeració alta per alinear dos seqüències properes (relacionades), i s'utilitzaran nombres més baixos per a seqüencies més divergents (cas contrari que les PAM). Per a quasi tots els programes que utilitzin matrius de substitució, BLOMSUM62 és una bona primera opció.
Hem estat capaços de comparar amb matrius d’identitat, valorar l’alineament amb matrius PAM o BLOSUM, però com podem comparar el fet que es produeixi un gap? No nomès hem de valorar el gap pel fet que s’hagi produit, sinò que tambè podem valorar la grandària, si afecta a un únic residu o a més, quina és l’abast d’aquesta inserció o deleció. Es pot pensar que inserció sigui més costosa segons sigui més gran, però hem de diferenciar el cost del fet que es produeixi a que sigui més o menys gran. Això ho podem fer penalitzant de forma diferent la extensió i creació →valorització dels gaps (penalitzacions).
Podem emplear una fòrmula més sencilla, on tindrem el cost de la creació per obrir aquest gap i la penalització per l’extensió (on afegirem la longitud, el nombre de residus implicats al qual restem 1 perquè ja las penalitzat abans amb la penalització de creació). Els que s’afegeixen són els que computarem com longitud. Segons la matriu que utilitzis, tens una penalització o una altre.
W= -g -r (x-1) Molts programes d'alineament suggereixen els valors per defecte, modificar les variables canviarà l'alineament i la seva interpretació.
– Métodes d'alineament Necessitem algún mètode que ens facin un alineament que incorporaran tots aquests aspectes de matrius que hem parlat fins ara.
- Programació dinámica: dificilment hi haurà un aliniament millor, ja que alinea parells de seqüències. És molt costòs, requereix la predicció de moltisims alineaments per arribar al óptim →propociona i garantitza alineaments óptims i exactes (mètode Bioinformàtica Ariadna López Coll quantitatiu). És el més rigoros. Trobem dos algoritmes: globals o locals (un tros específic en dues seqüencies), amb el nom respectiu de cada persona que el va trobar (Needelman & Wunch (1970) i Smith-Waterman (1981), respectivament).. Són els més cars i lents.El més sensible és el local per distinguir proteines molt diferents.
- Cerques herístiques: estrategia que ens permet guanyar en temps però perdem especificitat o regurositat. Alineaments no sempre óptims (aproximats però quantitatius). Permet cerques ràpides en bases de dades grans (BLAST i FASTA), els seus alineament són aproximats però quantitatius.
- Dot Plot (matriu de punts): ens permet veure alineaments a nivell descriptiu i visual, com repeticions inter o intraseqüencials. No obtè alineaments óptims, per tant, es tracta d'un mètode qualitatiu. Permet una ràpida identificació de indelsn (Insertions and/or Deletions), patrons de reorganització en els genomes i vents de transferència horitzontal.
Programació dinàmica – La idea bàsica és construir el millor alineament utilitzant alineaments óptims de subseqüència menors. L'algoritme de Needleman y Wunsch és un exemple de programació dinàmica que utilitza un algoritme recursiu.
En aquest cas, cada path correspon a un alineament únic. El score per un path és la suma incremental dels scores dels seus passos (diagonals o costats). El path amb un score més alt és l'alineament òptim. El camí (path) óptim es realitza des del punt final fins l'inici de la matriu. Finalment, es construeix des del final fins a l'inici, el qual, s'anomena traceback (exemple al power).
Així doncs, l'algoritme de Needleman i Wunsch permet fer alineaments globals óptims (alinea les seqüències al llarg de tota la seva longitud). Per tant, útil per: • Seqüències de longituds semblants.
• Seqüències relativament semblants.
Al final 1981, Smith i Waterman proposen una modificació del algoritme de NeedlemanWunsch per a obtenir alineaments locals obtenint el millor score entre dos sub-seqüències d'un parell de seqüencies. Per tant, útil per: • Seqüencies més divergents • Seqüencies de qualsevol longitud • Es diferencia del mètode anterior en la construcció de la matriu.
...