BIO INF Tema 4,. Cerques per similitud (2015)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Biología - 3º curso
Asignatura Bioinformatica
Año del apunte 2015
Páginas 5
Fecha de subida 02/03/2015
Descargas 16
Subido por

Descripción

Primera part del tema 4, cerques per similitud. la segona parlarà de l'alineament multiple.

Vista previa del texto

Tema 4.- Cerques alineament múltiple per similitud i Cerques per similitud i alineament múltiple. Algorismes per a la cerca de similars en bases de dades: estratègia BLAST. Cerca d'homòlegs remots, estratègia PSI -Blast.
Alineament múltiple de seqüències. Alineaments progressius, fonaments.
Algoritmos heurísticos de alineamientos La programacion dinamica nos permite llegar al mejor alineamiento posible entre dos secuencias (porque tiene el mayor score, no porque sea biologicamente el mas viable).
Cuando tenemos una secuencia nos preguntamos a qué se parece. Si tenemos hoy dia una conexion libre en internet (el INSDC) y a dia de hoy tiene 185 millones de secuencias, lo mejor es comparar mi secuencia con todas estas.
En el lenguaje del algoritzo utilizado, la secuencia es la Query y cualquiera de las secuencias de la gran base de datos con las que la compararemos son las secuencias Targets. El algoritmo de búsqueda para comparar la Query y el Target se podría basar en coger una por una y hacer un alineamiento pareado para obtener el score de todas, y la que tenga mayor Score sera la que mas se parezca.
El problema es que ese algoritmo de busqueda sería excesivamente lento (6 años en compararla con todas las targets si tardase 1 segundo por cada búsqueda). Si en vez de hacerlo por internet lo hicieramos con las bases de datos descargadas tardaríamos 1 milisegundo por cada comparacion, 2,3 horas en total. Aun asi es mucho, y se ha inventado un metodo heurístico, que sacrifica la exactitud en haras de tener el resultado de forma mas rapida.
Los dos programas que se salieron fueron el FAST (FAST All) y el BLAST. Los dos hacen alineamientos locales y paerados basandose en métodos heurísticos, y ademas compara su secuencia con lo que hay en las bases de datos.
Algoritmos para la busqueda de similares en bases de datos Un método heurisitco es un metodo que garantiza una buena solucion en un tiempo razonable, aunque no sea la respuesta óptima. Sacrifica la exactitud por ganar rapidez (es hasta 100 veces mas rapido, se tardaría menos de 1 minuto). Es un concepto más bien filosófico, el método es el FASTA o el BLAST.
El método se divide en tres partes: 1.- Encontrar segmentos pequeños de similitud o de identidad alta y hace alineamientos pequeñeos entre la query y la target. Esas pequeñas regiones alineadas se llaman palabras (words).
2.- Si los encuentra, extiende esos pedazos hacia ambas direcciones usando la programacion dinámica. Cuando deja de encontrar similitud para el algoritmo.
3.- hace una evaluacion estadistica del alineamiento obtenido finalmente. Sirve para saber si elineamiento es bueno o malo, o si ha ocurrido al azar o no (muchas veces pueden darse alineamientos azarosos con secuencias que no tienen ninguna funcion biologica).
Estrategia FASTA Identidifica palabras pequeñas (ktup) comunes entre dos secuentes. Ktup controla la sensibilidad y la velocidad del programa. Unos valores altos de ktup decrede el ruido en la busqueda.
Se constuye una matriz de Dot Plot con los apareamientos originados por los ktups.
Se le da un score a las regiones con ktups consecutivos y se penalizan si hubiese regiones de desapareamientos. Se escogen las regiones con mayores scores.
Se extienden los pequeños lineamientos usando el método Smith-Waterman y se le da un score al alineamiento final. Se utiliza la matriz BLOSUM50 para proteinas, la unitaria para ADN.
Las tres partes del método se pueden observar en FASTA y en BLAST con rasgos en común: Cogemos la secuencia y la dividimos en pedazos, y cualquier secuencia target que no contenga esos pedacitos quedan descartados. Habra pequeños pedacitos que no xtenderan mas y quedaran excluidos del análisis. Algunos se logran extender con cierta significacion estadística, y esas serian las que mas se parecen a la secuencia query.
Si la palabra es muy pequeña se encontraran mas falsos positivos que si la palabra es grande. Pero si es demasiado grande se corre el riesgo de no encontrar ninguna similitud.
El método BLAST ha acabado desplazando al FASTA. Es más rapido que FASTA sin ninguna perdida significativa de sensibilidad para encontrar similitud en la base de datos. Los dos programas son equivalentes para encontrar secuencias con alta similitud. FASTA pudiera ser más exacto para secuencias distantes, pero BLAST puede ser modificado de acuerdo con nuestras necesidades y es mucho mas versatil y usado que FASTA. Es el más citado y eso le da mucha mas importancia.
Este algoritmo es propiedad del NCBI. Cuando se entra en la pestaña del BLAST hay muchos tipos: se pueden hacer de secuencias nucleotídicas, proteicas, específicos... Cuando entramos a la pestaña que interesa se nos pregunta: cual es la secuencia query y con que base de datos se quiere comparar.
Si se quiere comparar la query con otra secuencia concreta hay que marcarlo expresamente (no viene por default).
Estrategia BLAST Divide la secuencia en pequeñas palabras (words). Si son nucleotidos unos 11, si son proteinas son pedazos de 3 aminoácidos. Le da un score basado en la matriz que sea (la defaul es la BLOSUM62). Busca en las secuencias target donde estan estas 3 letras. Una vez descartadas las que no las tengan, se extiende el alineamiento a derecha e izquierda hasta que el score del alineamiento comienza a disminuir.
Nos da un gráfico que es útil para saber visualmente qué similitud ha encontrado el BALST. Hay una leyenda de colores que indica el score de alineamiento.
Con el gráfico del ejemplo podemos decir que se han encontrado muchas secuencias con scores muy altos, pero tambien bastantes zonas pequeñas de score muy bajo.
Valoracion de los alineamientos (Significacion estadistica) Se calculan estadisticos que indiquen la probabilidad de que el alineamiento obtenido haya sido o no tomado al azar de acuerdo con el tamaño de la base de datos consultada. Cuando se compara con tantas secuencias hay alineamientos que quedan muy bien pero no tienen nada que ver biologicamente (sin ancestro comun, funciones que no tienen nada que ver...).
El Score (S) depende del metodo aditivo que se use y de la matriz de sustitucion que utilicemos y de las penalizaciones. Si calculamos el Score con parametros distintos (matriz y penalizaciones) dara resultados disntitos. Por ello hay una transofrmacion matematica del score para que este sea comun para todos los investigadores.
El bit score es la transformacion del valor S para hacerlo independiente del sistema de puntuacion (matriz de sustitucion) utilizado. Lambda y k son dos constantes que definen la base de datos y el sistema de puntuacion (son constantes del momento en que se hace el alineaminento, porque asi se hace en referencia al tamaño de la base de datos del momento en que se hace el alineamiento).
Aun asi, estos dos parametros no son los mas importantes. Se hace un analisis estadistico del alineamiento, que es el valor de E (E-value): evalua el significado estadístico del apareamiento, especificando de alguna manera el numero de apareamientos que se podrian haber producido al azar con igual score S.
A menores valores de E, mayor significacion tiene el alineamiento. Ese valor de E es una formula sencilla que depende del bit score y de las longitudes de la secuencia query (n), y del tamaño de la base de datos (m). Como mas grande es m o n, hay mas probabilidad de que la secuencia sea azarosa. En cambio cuando el score es muy alto, mejor sera el alineamiento. El valor E indica la probabilidad de obtener una puntuacion tan alta como la observada por azar.
Los valores van desde numero muy cercanos a 0 hasta muy altos. Cuando son muy cercanos a 0 es que la significacion es muy grande. Si el valor es 1 es malo, y si es mayor que 1 es muy malo.
Hablamos de valores cercanos a 0 del orden de 10^-6 como mínimo.
Como era un alineamiento perfecto, el valor de E es 0 (el mas perfecto de todos). Si esta se compara con otra secuencia similar, probablemente homologa. Dos secuencias no relacionadas, tendriamos dudas de si el alineamiento se ha dado al azar .
En el programa se pueden hacer restricciones para que se haga la búsqueda más rapido. Se pueden modificar tambien los parametros para la obtencion del score.
BLAST Basic programs Nucleotide blast: busca en la base de datos de nucleotidos usando un query nucleotídico.
Protein blast: busca en la base de datos de proteinas usando un query de proteinas.
Blastx: busca en la base de datos de proteinas usando un query de una secuencia nucleotídica traducida. (el programa traduce la secuencia de nucleotidos en los 6 posibles marcos de lectura y se compara con las secuencias de proteinas). Gracias a esto las secuencias de RNA desconocidas se pueden asociar con proteinas de las que se conocen funciones.
Tblastn: busca en la base de datos de secuencias nucleotidicas traducidas usando un query proteinico.
Tblasx: busca en la base de datos de nucleotidos traducidos usando un query de una secuencia nucleotidica traducida.
Cuando vamos a hacer un BLAST, lo primero que hay que hacer es escoger el tipo de BLAST que queremos usar.
Utilidades del BLAST     Identidicacion de funcion proteica Identificacion de especies o grupos taxonomicos (para cuando no se de que especie es una secuencia).
Localizacion de regiones condificantes en secuencias de DNA Anotacion de genes y genomas      Establecimiento de relaciones filogeneticas Localizacion de dominios conservados de las proteinas Mapeo de genes en genomas y cromosomas Ensamblado de genomas (infinitos) El algoritmo del sistema heuristico no es totalmente optimo, pero si permite hacer ubusquedas rapidas en bases de datos grandes. El hecho de que no de el optimo no implica que de resultado malos, y menos hoy en dia ya que cada vez se especializa más.
...