6) 'Sudoku' (2012)

Apunte Catalán
Universidad Universidad Rovira y Virgili (URV)
Grado Bioquímica y Biología Molecular - 2º curso
Asignatura Bioinformática
Año del apunte 2012
Páginas 3
Fecha de subida 18/01/2015
Descargas 10
Subido por

Vista previa del texto

10-05-2012 Smith-Waterman algorithm Per avaluar els camins seguim el mateix sistema, pero no utilitzarem cap nombre negatiu, sino que si no obtenim cap valor positiu, posarem un 0.
La segona diferencia es que per arribar a un alineament començarem per la casella que tingui un valor numèric qualsevol, independentment de la posició.
Si hi ha dos números amb la puntuació més alta tindrem dues opcions, dos camins diferents, dues solucions.
El camí s’acaba en arribar a un 0.
Cerca de seqüencies semblants (BLAST).
Tenim una seqüència problema que és la seqüència Query, i el que farem es comparar aquesta seqüencia amb una base de dades de seqüències per trobar seqüències que tinguin homologia amb aquesta.
(VACIO) Sacrifiquem exactitud perque l’alineament que surt del BLAST no és l’òptim.
En quant al BLAST hem de saber que fa servir matrius del tipus PAM o BLOSSUM.
Podem aplicar-lo tant a nucleòtids com a proteïnes i quan és de nucleòtids ho fa d’11 en 11, i en aas, ho fa de 3 en 3 aminoàcids.
Busca proteïnes on hi hagi aquests tripèptids. És una cerca ràpida i esten les homologies que troba per acabar proposant quina és la seqüència que s’hi assembla.
BLAST Podem tenir el nostre query que sigui una proteïna o un àcid nucleic i buscar semblances a la base de dades genbank. Quan obrim el blast hem de triar quin cami, si tinc una proteina per exemple escolliré buscar al uniprot.
Taula blast amb l’explicació anterior Ara buscarem sequencies en blanc a partir d’una seqüència donada. Al moodle als enllaços del tema hi ha un enllaç amb una pagina del ncbi on hi ha una pàgina principal que hem de triar que volem fer.
Triem proteinblast, aquí ens permet fer un blast, podem posar la seqüència, el codi de l’uniprot i també hem de seleccionar en quina base de dades volem trobar la semblança. Hi ha una per defecte la podem canviar per uniprot, pdb... podem mirar si una proteïna es semblant a alguna proteïna cristal·litzada.
En el nostre cas posem uniprot (que la coneixem): Fiquem un exemple, i ens surt una llista, i ens diu quin es el codi i alguns paràmetres i puntuacions. En aquest exercici la meva seqüència query és una seqüència de l’uniprot.
Aquesta llista ens dóna informació, a la columna ens apareixen puntuacions, i més avall per cada una trobem l’alineament de la seqüència query, el % de similitud, d’identitat... Trobem tots els alineaments, si hi ha un aminoàcid igual el posa al mig, quan hi ha dos diferents i posa un espai...
Hi ha una imatge on podem veure la llargada de la seqüència query, (estan de colors).
A la llista d’abans hi ha les puntuacions de la seqüència query, i la taula està ordenada, aquestes puntuacions estan ordenades tenint en comptes penalitzacions de gaps, obertura penalitza més que extensió... Aquestes puntuacions depenen de la llargada de la seqüència, la qüestió és que una puntuació de 96, 100 és una puntuació alta, que té homologia, ho hem de saber interpretar. Les puntuacions depenen d la llargada de la proteïna, la puntuacions serveixen per ordenar, necessitem distingir si s’ha donat alguna semblança per casualitat.
Hem de fer servir el valor esperat per poder evitar això, a la diapositiva 72, amb aquella puntuació quants podríem trobar per atzar, és un càlcul probabilístic, amb una puntuació de 102 a les bases de dades esperaria trobar 1^-10 sequències que s’assemblin a la seqüència query, aquest número és molt petit. El 102 no ens informa de res, perquè a lo millor una seqüència de llargada 1000 la puntuació és baixa però a una seqüència petita pot ser el seu màxim.
A baix de tot de la taula, la semblança de la query amb la de la base de dades, el valor experat és de 7, i vol dir que aquesta semblança la trobem per casualitat, no són homòlogues. Hem de tindre en compte que no totes les seqüències que ens dona el blast són homòlogues amb el nostre query, hem de posar un llindar per decidir a partir de quan les seqüències que surten son homologues, això ho fem amb el valor esperat.
Tots són 1^-10, per atzar esperaríem trobar aquestes seqüències, molt menys de 1, si trobem valors propers o més grans a 1, vol dir que les semblances són de casualitat. El valor esperat és el que ens marca i no la puntuació.
No tots els resultats són seqüències homòlogues! Fem un exemple: Fiquem ELVIS  hem torna a sortir una llista com la d’abans, a baix tornem a veure l’alineament, i trobem proteïnes. El valor esperat 466, que per atzar trobar una proteïna per casualitat esperem trobar moltes, no hem d’interpretar que aquestes seqüències són homòlogues a les nostres.
...