TEMA 3. ALINEACIÓN DE SECUENCIAS (2016)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Biología - 3º curso
Asignatura Bioinformática
Año del apunte 2016
Páginas 9
Fecha de subida 25/04/2016
Descargas 3
Subido por

Descripción

APUNTES REALIZADOS CON EL MATERIAL VISTO EN CLASE Y LAS ANOTACIONES DEL DOCENTE

Vista previa del texto

BIOINFORMÀTICA Tania Mesa González 3º CURS BIOLOGIA UAB TEMA 3: ALINEACIÓN DE SECUENCIAS COMPARACIÓN DE DOS SECUENCIAS: - En función del número de nucleótidos  tamaño - De las proporciones de estos nucleótidos  frecuencia de sus bases  - Contenido de G y C Por los nucleótidos en los que empiezan y acaban  motivos comunes Sin embargo la mejor forma de comparar dos secuencias es haciendo un alineamiento.
ALINIAMIENTO DE SECUENCIAS: Alineamiento  Forma de representar y comparar dos o más secuencias o cadenas de DNA, ARN o estructuras primarias proteicas para resaltar sus zonas de similitud, que podrían indicar relaciones funcionales o evolutivas entre dos genes o proteínas consultados.
- Significado de un alineamiento: a) Estadístico  se le puede asignar una puntuación a cada alineamiento que indique como de alejado están las secuencias que se han alineado al azar.
b) Biológico  Nos permite realizar un estudio en función de si estos presentan un ancestro común, con una información funcional, estructural y evolutiva.
- ¿Qué significa que dos secuencias de DNA están relacionadas?  Una evidencia de que hay un ancestro común.
Si tenemos tres secuencias, hay que ver hasta qué punto comparten características con la secuencia del ancestro común: - Alineamiento  una secuencia encima de la otra en la que resaltamos el parecido.
- Regiones de identidad  palos que unen las similitudes - Huecos  Gap - Si miramos los sitios idénticos para las dos secuencias:  Medimos el porcentaje de identidad  número de palos dividido por el total de nucleótidos.
 Entre las secuencias 1 y 2  hay un cambio de letra, que es diferente para cada una de las secuencias: a) Transición  son las más probables, porque se da entre moléculas que se parecen mucho.
b) Transversión  se da cambios de moléculas que ya no son tan parecidas.
Asignación de puntuación = Score: Para cada par de alineamiento se le asigna un valor que será mayor o menor (pueden ser incluso valores negativos) dependiendo de la probabilidad del evento evolutivo que pudo haber generado ese cambio.
Para hacer una medición de estos valores se usan diferentes métodos: a) Sistema de puntación aditivo  ir sumando cada una de las posiciones positivas.
1. A cada apreamiento  +1 2. Desapareamiento  0 3. A las puntuaciones negativas se les conoce como penalizaciones.
 Se realiza una matriz de 4x4  se calculan los % de identidad  matriz de identidad o de sustitución. Solo responde a las identidades.
b) Por penalización 1. Identidad (apareamiento )  +1 2. Desapareamiento  -1 3. Huecos  -2  más penalización porque es menos frecuente.
 Cada elemento de la matriz recibe el nombre de índices de la matriz.
 Se vuelven a calcular los Score.
c) Matrices al completo para contar score: 1. Apareamiento  +1 2. Desapareamiento por transición  -1 3. Desapareamiento por transversiones  -1,5 4. Huecos (Gaps)  -2 Con estos cálculos de score, lo que vemos es que cada una de las secuencias está más o menos alejada de la secuencia ancestral.
ALINEAMIENTO DE PROTEÍNAS: Se realiza del mismo modo que la alineación de los aminoácidos.
También se pueden dar transcripciones y transversiones, pero de forma mucho más compleja, puesto que los aminoácidos son todos distintos entre sí, aunque después los reunamos en grandes grupos.
- Por tanto un cambio de un aminoácido por otro no puede tener la misma penalización, porque además evolutivamente para cambiar de un aminoácido a otro a veces solo se necesita una mutación, mientras que en otros se requieren de más de una mutación para modificar el codón.
Matrices de puntuación unitarias  para ver la similitud o sustitución para proteínas.
- Solo nos calculan un % de identidad entre dos secuencias - Se hacen servir para DNA y proteínas muy similares, pero en proteínas relativamente distintas no es demasiado eficiente.
Alineamiento de proteínas mediante la estadística: - Una opción es hacer un examen empírico de secuencias que se conoce que están relacionadas y que han sido previamente alineadas.
 Expresamos la probabilidad de transformación de un aminoácido en otro mediante lo que se denomina la puntuación por log-propabilidades.
- Lo que se hace al final es un sumatorio del alineamiento.
- El cambio de los triptófanos es muy difícil, porque por sus características hace cambiar mucho la estructura de las proteínas, por tanto la penalización es muy negativa, mientras que una substitución por el presenta un valor positivo elevado.
Matrices de substitución PAM: - Se calcula observando las diferencias en proteínas cercanamente relacionadas  mínimo de 85% de similitud.
- PAM1  se calculó considerando secuencias con una mutación puntual por cada cien aminoácidos, es decir estima el ritmo de sustitución esperado entre dos aminoácidos si el 1% de los aminoácidos cambian.
- Se asumió que se puede calcular una matriz para secuencias divergentes des de una matriz para secuencias cercanamente relacionadas elevando esta segunda matriz a una potencia.
[ PAM1] 250 = PAM250 Matrices de substitución BLOSUM: - Se realizan usando matrices para alineamientos múltiples de proteínas evolutivamente divergentes.
 Las probabilidades usadas en los cálculos de las matrices se computan observando los “bloques” de secuencias conservados, encontrados en los alineamientos de proteínas divergentes.
 Se considera que las secuencias conservadas son de importancia funcional dentro de las proteínas relacionadas.
 Alienan frecuencias que no se parecen mucho, pero tienen un dominio conservado, porque tienen una función conservada.
 - Solo alinean el dominio de la secuencia proteica.
Estas marices también tienen un numero asociado, pero que no proceden de las matemáticas, si no de experimentos reales.
 Si las matrices están en triángulos, es porque la matriz de un lado es idéntica a la otra.
- Se consideraron pares de frecuencias entre los segmentos de los alineamientos con menos de un 62% de identidad  matriz BLOSUM62.
- Se usarán matrices BLOSUM de numeración alta para alinear dos secuencias cercanamente relacionadas, mientras que se usarán números más bajos para secuencias más divergentes.
 Para casi todos los software utilizan la matriz de substitución BLOSUM62 por defecto.
Valoración de los Gaps (Penalizaciones): - Se penaliza tanto gaps, como el tamaño de gaps.
a) W  es la puntuación o penalización W = -g –r(x-1) b) x  longitud del gap c) g  penalización por abrir un gap d) r  penalización de extender un gap  Muchos programas de alineamiento sugieren los valores por defecto, modificando estas variables cambiarán el alineamiento y su interpretación.
MÉTODOS DE ALINEAMIENTO: 1. Programación dinámica  alinea pares de secuencias.
 Garantiza alineamientos óptimos y exactos  método cuantitativo.
 Computacionalmente costoso  lento a) Global  Needelman & Wunch.
b) Local  Smith-Waterman 2. Búsquedas heurísticas  son alineamientos no siempre óptimos (son aproximados pero cuantitativos).
 Permite búsquedas rápidas en bases de datos grandes como son en programas como BLAST y FASTA.
3. Dot Plot  Es una matriz de puntos que NO hace alineamientos óptimo  usa un método cualitativo.
 Permite identificar de forma visual repeticiones inter e intrasecuenciales.
 Realiza una rápida identificación de indels (Inserciones y/o delecciones), patrones de reorganización en los genomas y eventos de transferencia horizontal.
Buscar el mejor alineamiento entre dos secuencias: Si tenemos dos secuencias a alinear X y Y con longitudes m y n respectivamente, tendremos f(m,n) maneras de representarlas en un alineamiento.
¿Cuál es el alineamiento correcto (el que más sentido biológico tiene)? - Saber cuál es el mejor alineamiento compone un método computacional muy costoso.
- Unas posibles soluciones pueden ser: a) Construir todos los posibles alineamientos.
b) Calcular la puntuación de cada uno.
c) El alineamiento óptimo es el que tenga el valor r más grande.
PROGRAMACIÓN DINÁMICA: La idea básica es construir el mejor alineamiento usando alineamientos óptimos de sub-secuencias menores.
Algoritmo de Needleman y Wunsh  Es un ejemplo de programación dinámica que utiliza un algoritmo recursivo.
Pasos a seguir para construir un alineamiento óptimo: 1. Definir la matriz de sustitución y las penalizaciones.
a) Misma base  +1 b) Diferente base  -1 c) Gap  -1 2. Construir la matriz (n,m) de forma recursiva donde cada elemento de la matriz se llamará C(i,j).
3. El objetivo es encontrar la ruta (path) óptima.
 Cada path es un alineamiento único.
 El Score para cada ruta es la suma incremental de los scores de sus pasos (diagoles o lados).
 La ruta con score más alto es el alineamiento óptimo.
El algoritmo de Needleman y Wunsch  permite hacer alineamientos globales óptimos.
- Hace alineamientos de las secuencias a lo largo de toda su longitud.
 Con secuencias de longitudes similares.
 Con secuencias relativamente parecidas.
En 1981  Temple Smith y Mike Waterman propone una modificación del algoritmo de Needleman.Wunsch para obtener alineamientos locales obteniendo el mejor score entre dos subsecuencias de un par de secuencias.
- Útil en secuencias más divergentes.
- Las secuencias pueden tener cualquier longitud.
- Se diferencia del método anterior en la construcción de la matriz (mxn).
 El Score para el alineamiento local óptimo es el valor más alto alcanzado en la matriz.
 La ruta (path) óptima se realiza des de este punto hasta que se alcanza el primer cero.
ALINEAMIENTOS: GLOBAL LOCAL Needleman & Wunsch Smith & Waterman Las secuencias se alinean de un extremo a otro Las secuencias se alinean en regiones pequeñas y aisladas.
Muestra regiones (dominios) conservadas entre secuencias relativamente distantes.
Computacionalmente costosas para secuencias Computacionalmente costosas para secuencias grandes.
grandes.
PROGRAMAS EN LA WEB PARA HACER ALINEAMIENTOS: Programación de dinámica: - Globales y locales de DNA y proteínas.
a) Programas Nesdle y Water  Se encuentran en el paquete de programas bioinformáticos EMBOSS.
b) Portal EMBL-EBI  http://www.ebi.ac.uk/Tools/psa/ c) Portal Wageninger Bioinformátics. Netherlands  http://emboss.bioinformatics.nl/ - Alineamientos locales basados en métodos de búsqueda heurística: a) BLAST  para alineamientos pareados seleccionar “Aling two or more sequences”.
 http://blast.ncbi.nlm.nih.gov/Blast.cgi b) FASTA  para alineamientos pareados seleccionar “compare your own sequences”.
 http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml ...