TEMA 4. BUSQUEDA POR SIMILITUD Y ALINEAMIENTO MÚLTIPLE (2016)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Biología - 3º curso
Asignatura Bioinformática
Año del apunte 2016
Páginas 9
Fecha de subida 25/04/2016
Descargas 3
Subido por

Descripción

APUNTES REALIZADOS CON EL MATERIAL VISTO EN CLASE Y LAS ANOTACIONES DEL DOCENTE

Vista previa del texto

BIOINFORMÀTICA Tania Mesa González 3º CURS BIOLOGIA UAB TEMA 4: BÚSQUEDAS POR SIMILITUD Y ALINEAMIENTO MÚLTIPLE ¿A QUE SE PARECE MI SECUENCIA? Contamos con una mochila llena de información llena de secuencias.
- Sin embargo muchas veces no encontramos alguna secuencia con similitud significativa.
- El algorismo de búsqueda compara nuestra secuencia problema con todas las secuencias que tenemos y la alinea con aquella secuencia con mejores estadísticas.
 La estadística es la que nos dice cual es mejor.
 Busca el mejor score y la mayor probabilidad de no ser al zar, es decir con el menor valor de E posible.
ALGORITMOS DE BÚSQUEDA POR SIMILITUD: Los programas para el alineamiento Local, utilizan métodos heurísticos para realizar la comparación de una secuencia con un conjunto de secuencias de las bases de datos.
- Lo hace buscando regiones locales de similitud.
Los algoritmos pueden estar en formato FASTA y si es por similitud por BLAST.
- Ambos métodos se basan en alineamiento, pero no usan un método matemático en todos los algoritmos, porque son muchos. Por ello el método que usan es heurístico.
 Método heurístico: a) No siempre encuentra la mejor solución b) Pero si que garantiza encontrar una solución aceptable en un tiempo c) Sacrifica la exactitud de buscar el alineamiento más óptimo para incrementar la eficiencia en tiempo.
Tanto FASTA como BLAST hacen alineamientos pareados. Ambos funcionan de la siguiente forma: 1. Encuentra segmentos pequeños (palabras) de identidad alta para poder hacer alineamientos pequeños.
2. Usar estos pequeños puntos de similitud de las dos secuencias y extenderlo en ambas direcciones. Hace que el alineamiento crece hasta que deje de crecer similitud entre las secuencias  programación dinámica.
 Algunas secuencias no se alinearan mucho, pero en cambio otras por suerte si se expenderán hacia los laterales.
3. Realiza una evaluación estadística que contiene un score, del alineamiento final obtenido.
 De este modo solo escogemos las secuencias con mayor similitud.
Estrategia de FASTA : 1. Divide la secuencia en pequeñas palabras llamadas Ktup comunes entre dos secuencias.
 Ktup es pequeño, a veces incluso solo de 2 o 3 aminoácidos.
 Para valores altos de ktup decrece el ruido en la búsqueda.
a) Para nucleótidos  K = 4-6.
b) Para proteínas  K = 2-3.
2. Se construye una matriz Dot-Plot  con los apareamientos de los Ktup.
3. Se les da un score a los ktup consecutivos y se penalizará si hay regiones de desapareamiento.
 Se escogen las regiones con mayores score.
4. Se extienden los pequeños alineamientos (Smith-Waterman) y se les da un scores del alineamiento final.
 Se usa la matiz BLOSUM50 para proteínas.
 Se usa la matriz unitaria para ADN.
Estrategia BLAST: El modo de actuar de BLAST es muy similar al de FASTA: 1. Se divide la secuencia en k-Words.
a) K en nucleótidos suele ser de 11 bases b) K en proteínas suele ser de 3 aminoácidos.
2. Aplicar un score a cada k-word y se queda solo con el score mayor al límite predefinido.
3. Busca las palabras de la secuencia problemas en otra secuencia de la base de datos, buscando la mayor similitud posible. Aquellas secuencias que coinciden son llamadas seeding, 4. Se extiende el alineamiento hacia ambos lados hasta que el score del alineamiento comience a disminuir.
BLAST .Vs. FASTA - Los dos programas son equivalentes para encontrar secuencias con alta similitud.
- FASTA  quizás es más exacto para secuencias distintas.
Estrategia BLAST:  Es más rápido que FASTA y no tiene pérdidas significativas de sensibilidad.
 Se puede modificar acuerdo con nuestras necesidades y es más versátil y usado que FASTA.
 Se ha convertido en una herramienta tan potente para las ramas de las ciencias biológicas, que llegó a ser el artículo más citado de Europa.
 Es importante que se conoce como acrónico y se llega a conjugar. BLAST  verbo para indicar búsqueda en la base de satos.
1. Su aspecto indica que lo primero que hay que introducir es la secuencia problema. Para estos tipos de problemas, la secuencia problema se llama Query.
2. Después el programa nos pregunta contra que base de datos de secuencias quiere que haga el estudio.
3. Finalmente se hace el run. Si lo hacemos de esta forma se considera que al ser tan general y tenerlo que procesar tanto tarda algunos segundos en dar una respuesta.
VALORACIÓN DE LOS ALINEAMIENTOS: - Los alineamientos se estudian por estadística, por tanto hay que hacer un estudio del significado de esta estadística.
 Se calculan estadísticos que indiquen la probabilidad que el alineamiento obtenido haya sido o no tomado al azar de acuerdo con el tamaño de la base de datos consultada.
- Score S  obtenido por el método aditivo y una matriz de sustitución.
 - Es algo que podemos palpar.
Bit Score  transformación del valor de S para hacerlo independiente del sistema de puntuación (matriz de sustitución) utilizado.
 Sirve para comparar todos los alineamientos de BLAST para hacerlo independiente del sistema de puntuación.
- Valor E  Da el significado estadístico del alineamiento, de alguna manera mide el número de apareamientos que se podrían haber producido al azar con el mismo score.
Este valor indica la probabilidad de que el mejor alineamiento encontrado sea un falso positivo.
A menor valor de E mayor significado tiene el alineamiento.
 Mientras más grande es la secuencia problema es más difícil encontrar alineamientos al azar.
 Además mientras más grande y más bases de datos, más difícil es encontrar el mejor alineamiento y más fácil es encontrar más falsos positivos.
 Si E es 1 no es un buen alineamiento, y si es mayor que 1 es pésimo. Los valores buenos suelen tender al 0. El valor de E suelen ser de 10-10.
 En proteínas como hay más letras a comparar se consideran como buenos a partir del 10 -6 BLAST En BLAST nos permite cambiar los grupos taxonómicos de organismos sobre los que queremos buscar las similitudes, pudiendo reducir así la lista de secuencias a analizar.
 También podemos modificar los parámetros en eficiencia y velocidad, modificando la longitud de la palabra, el coste de los GAPs y modificando las matrices.
 Se pueden modificar muchos más e incluso podemos ordenar que en los resultados solo se muestren las secuencias con un determinado valor de E, es decir con un significado estadístico concreto.
- Hay que indicar que queremos a BLAST en algoritmos de nucleótidos (blastn) o proteínas (blastp).
 Cuando trabajamos con ácidos nucleicos que no se si tiene región codificante, indicamos que queremos hacer un blastx, de este modo se realizan los seis marcos de lecturas y estos marcos los compara son las bases de proteínas.
 BLASTx es una de las técnicas más potentes para traducir la secuencia de DNA.
 Si tengo la secuencia de proteínas y quiero saber el DNA del que proceden, se crean los seis marcos de lectura y mediante tblastn busca en la base de proteínas similitudes.
Existen BLAST especializados solo para el manejo de proteínas, pero que no los vamos a estudiar.
Funciones de BLAST: 1. Identificación de una función proteica.
2. Identificación de especies o grupos taxonómicos.
3. Localización de regiones codificantes en secuencias de DNA.
4. Anotación de genes y genomas.
5. Establecimiento de relaciones filogénicas 6. Localización de dominios o motivos 7. Mapeo de genes en genomas y cromosomas.
8. Ensamblado de genomas.
COMPARACIÓN DE MÁS DE UNA SECUENCIA: En teoría, hacer un alineamiento óptimo entre dos secuencias es fácil y relativamente rápido si usamos el algoritmo de Smith-Waterman.
Alinear más de dos secuencias usando el mismo método es prácticamente imposible, ya que se necesitaría demasiado tiempo.
Los métodos de alineamientos múltiples usa el método de alineamiento progresivo. Alinea dos secuencias en un principio y después le va introduciendo las otras secuencias de forma progresiva.
- Lo primero que hace es comparar las secuencias en pareja y después compara aquellas que tienen mayor score  esto es lo que selecciona el orden de los alineamientos.
Alineamiento progresivo: Alineamiento progresivo se introdujo en el año 1987 y se produce en tres etapas: 1. Primero hacer alineamientos pareados, mediante métodos de programación dinámica (más lentos) o métodos basados en palabras (lo usan los algoritmos de búsqueda).
2. Tiene que haber un algoritmo para ver que alineamiento pareado es mejor, con tal de ubicarlas y escogerlas. Hacen varios grupos de las secuencias (como en forma de árbol) según su similitud.
Se hace mediante matrices de distancia y generando árboles genealógicos 3. Filamento se van alineando estas secuencias más parecidas, hasta encontrar dos con la máxima similitud.
Clustal W2: - Pese a que ya no se use por el propio programa, como es el que más se ha usado durante décadas, hay programas que ya lo tiene instalado como tal (herramienta del programa) o vamos a acceder des de la plataforma Japonesa.
1. Hace alineamientos de pares, que antes se usaba programación dinámica y ahora por métodos con palabras.
2. Obtiene una matriz de distancia. Con esta matriz genera un árbol genealógico, usando el método e hacer árboles de Neighbor- joining o UOGMA.
Se crea un árbol guía, que es el que va a inducir el alineamiento.
3. Alineamiento múltiple por el método progresivo.
Clustal omega: 1. Alineamiento en pareja de todas las secuencias usando el método k-tuple.
 Alineamientos locales tipo FASTA y BLAST 2. Usando los score de la matriz de distancia, las secuencias son agrupadas por métodos mBed y k-means en este orden.
 Se construye un árbol creado por UPGMA 3. Construye un alineamiento múltiple mediante el método progresivo usando el algoritmo HHalign basado en modelos ocultos de Markov.
Matrices de distancias: - En bioinformática es aquella matriz donde se pueden observar las distancias genéticas entre secuencias.
- Se calcula mediante las distancias entre cada uno de los pares de bases de las secuencias.
Tipos de árboles: - UPGMAN  es el que menos se utiliza, porque no describe la historia evolutiva en función del ancestro común. Solo muestra la jerarquía en función de los cambios que se producen entre las secuencias.
 Por definición asume que el ancestro común siempre mantiene la misma distancia de sus antecesores, cuando no tiene porque ser así.
1. Busca las secuencias que más se parecen, mediante un score basado en los cambios que hay en la secuencia, por tanto el mayor parentesco se da a menos score.
2. Este número es dividido en dos para crear las dos primeras ramas.
3. A partir de saber cuáles son las más cercanas reconstruye la matriz de distancia, haciendo medias aritméticas.
4. Una vez hecha esta media, vuelve a buscas que son se parecen. Si estas frecuencias no tienen nada que ver con las dos iniciales vuelve a general otras ramas distintas.
5. Se construye una tercera matriz volviendo a calcular las medias aritmética (esta vez ya se hace la media de 4 números).
6. Cada vez la matriz se va reduciendo ya.
- Del vecino más cercano  es más sencillo y se utiliza más. Si que tiene en cuenta que entre el ancestro común de las secuencias y estas, no tiene porqué haber la misma distancia.
APLICACIONES DEL ALINEAMIENTO MÚLTIPLE: Mediante el clustal se pueden hacer alineamientos multiples.
La mayoría de los programas generan árboles, que no es más que un árbol guía, de los cuales se puede trabajar para hacer un árbol genealógico más correcto, pero no se hace directamente.
1. Detectar sitios variables cuando las secuencias son muy conservadas.
 Se detectan los snip de las secuencias humanas.
 Entre los genomas de las personas hay una similitud de 99.9%, por tanto con este método nos permite reconocer el 0.01 % de diferencia.
2. Encontrar los sitios conservados o semiconservados en secuencias muy divergentes.
 Resistencias a antibióticos en bacterias, mirando la resistencia en varios pacientes.
 Predicción del sitio activo de una encima  son sitios que no se pueden variar de una proteína para poder conservar su estructura y funcionalidad.
3. Detectar motivos o regiones conservadas con función común.
 Identificación del sitio de unión a la ribosa RBS en bacterias.
4. Construcción de matrices de posición o peso por el estudio de los dominios y LOGOS.
 Puede identificar motivos en otras secuencias.
 Identificación del sitio de unión de factores de transcripción.
 Identificación del sitio de splicing durante la eliminación de intrones.
 Identificación de motivos proteicos.
5. Establecer relaciones filogenéticas e inferencias evolutivas.
 Presión selectiva actuando sobre la población  alineamiento de codones.
 Identificación de sitios bajo presión selectiva en patógenos.
6. Ayudar a predecir la estructura secundaria y terciaria de los ácidos nucleicos y proteínas.
 Detección de la estructura terciaria por homología.
 Detectar regiones de variabilidad relacionadas con la estructura.
7. Alineamientos múltiples de genomas completos ...