5) Bases de dades (2012)

Apunte Catalán
Universidad Universidad Rovira y Virgili (URV)
Grado Bioquímica y Biología Molecular - 2º curso
Asignatura Bioinformática
Año del apunte 2012
Páginas 3
Fecha de subida 18/01/2015
Descargas 10
Subido por

Vista previa del texto

3/5/12 TEMA 4. CERCA I ANÀLISI DE SEQÜÈNCIES Concepte d’homologia El terme homòleg fa referència a la semblança, coses que serveixin pel mateix. Quan diem que dues seqüències són homòlogues parlem d’un avantpassat comú. Dues proteïnes són homòlogues si tenen un ancestre comú.
Un exemple d’homologia és la ribonucleasa bovina i humana, i ambdues tenen un ancestre comú, i si pensem en termes evolutius sabem que hi ha un ancestre comú entre tots els mamífers. Aleshores podem pensar que aquets ancestre tenia una ribonucleasa i quan s’han diferenciat veiem que cadascú té una ribonucleasa diferent. Al llarg dels diferents anys els organismes poden acumular mutacions que hauran fet canviar les seqüències de la ribonucleasa, i malgrat que no siguin iguals, si les comparem podrem veure que hi ha certes similituds i per tant que són homòlogues i s’assemblen.
Aquesta relació d’homologia es diu ortologia: mateixa proteïna, mateixa funció per a espècies diferents.
Un altre cas d’homologia és la paralogia, on la seqüència pot estar relacionada o no.
La relació és entre la ribonucleasa humana i l’angiogenina humana, que estimula el creixement dels vasos sanguinis. En aquest cas la funció és diferent i deriven d’una duplicació gènica i aquest serà l’ancestre comú. Per duplicació poden haver-hi dues copies d’un mateix gen, i per tant, que hi hagin mutacions que facin que canviï i que li atorguin una nova funcionalitat. A nivell de seqüència poden ser, o no, similars, i a nivell d’estructura tenen un plegament aproximadament similar. L’estructura ha canviat però no de manera que també canviï la forma tridimensional, i d’aquesta manera, proteïnes del mateix organisme amb funció diferent o relacionada les anomenem paràlogues. En algun moment partien d’un gen comú que més tard es va duplicar.
4. Tenim un altre cas de proteïnes paralogues on la fucnió no ha canviat. És un gràfic amb totes les subunitats de l’hemoglobina humana, a part d’alfa i beta n’hi ha més; fins i tot els pseudogens, que es un gen on hi ha hagut mutacions i al mig de la sequencia s’ha creat un codó d’STOP que farà que no acabi de crear una proteïna madura i que no s’acabi de codificar la proteïna.
5. Per tal de saber si son homolegues el que hem de fer es alinear les dues seqüencies posant els aas que siguin iguals l’un sota de l’altre.
6. Podríem agafar les dues sequencies i alinearles de la mateixa manera que tenim a la diapo. Aixi mirem quantes identitats hi ha, es a dir, quants amionacids estan colocats exactament de la mateixa manera. Si les alineem podem veure les diferents identitats. D’altra banda, no només es poden alinear d’una mateixa manera, sino que podem desplaçar-les per tal de trobar en quines de les maneres hi ha més identitats. Si agafem els diferents alineaments i representem el nombre d’identitats obtenim un gràfic com el que es veu a la diapo, de manera que observem quin alineament té més identitats similars. De manera que hauriem de decidir quin alineament ens quedem, normalment, el de major identitat.
7. Quan fem un alineament podem afegir-hi gaps en alinear les seqüències, i els gaps representen a nivell de DNA que els gens que codifiquen aquestes proteïnes són insercions o deleccions, i mentre el que eliminem sigui un tros multiple de 3 no canvien la pauta de lectura. De manera que el millor alineament es el que observem aquí.
Podem posar un gap en qualsevol lloc i pot ser tan llarg com vulguis. Un cop tenim l’alineament i el montatge posem que tenim 40 identitats i hi ha 40 aas exactament iguals, pero hauriem d’establir si aquestes dues sequencies alineades d’aquesta manera les considerem homologues o no. Podria ser que per atzar trobessim algunes identitats.
8. A l’alineament que tenim el puntuem, li donem un SCORE, una puntuació. I fem un gràfic, de manera que podem veure la puntuació dels diferents alineaments. Aleshores decidirem si aquesta puntuació va estar produïda a l’atzar i no.
Per fer-ho, agafem les dues seqüències i les barrejem, “shuffling”, i les alineem, i aleshores busquem els matches de les diferents seqüències. Repetim el procés diverses vegades, i si la semblança és deguda a l’atzar, ho sabrem. De manera que estarem comprovant la semblança per atzar de les dues seqüències.
Si trobem moltes puntuacions altes, o similiars a la puntuació que li hem otorgat a la seqüència estandard ordenada.
Hi ha programes que ens permeten fer això, però si per cada alineament ho hem de fer, podem morirnos. Això només es fa en casos extrems.
9. Quan trobem percentatges d’identitat més grans del 30% podem considerar que les seqüències són homòlogues, i ens podem estalviar el procés de “shuffling”. Si trobem un percentatge d’identitat baix no podem afirmar que són homòlogues, i amb un percentatge de 20%, no podem estar segurs, i hauríem de procedir al procés de “shuffling”.
10. Per tal d’afinar una mica més la comparació, podem buscar en funció de la polaritat o no dels aminoàcids, i de les càrregues. Per exemple si trobem una leucina i una isoleucina que són aas de característiques similars.
11. Matriu de substitució: els valors positius més grans que 1 són substitucions d’aminoàcids que trobaríem amb més freqüència que no per atzar, com ara el glutàmic i l’aspàrtiic. I la idea és que si a una proteïna li canvies un glutàmic per un aspàrtic a l’estructura no li passaria res, i la proteïna seguiria tenint la mateixa funció. Ens els casos on s’ha donat aquesta substitució a l’organisme no li ha passat res. Les substitucions són degudes per l’atzar al DNA, però no correspon a l’atzar si podria sobreviure o no aquell organisme depenent de la substitució.
...