BIO INF Tema 4.- Cerques per similitud i aliniament multiple (2015)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Biología - 3º curso
Asignatura Bioinformática
Año del apunte 2015
Páginas 4
Fecha de subida 09/03/2015 (Actualizado: 24/03/2015)
Descargas 16
Subido por

Vista previa del texto

BIOINFORMÀTICA arokargomez 3r Biologia UAB Tema 4.- Cerques alineament múltiple per similitud i Alineamiento múltiple de secuencias En teoria, hacer un alineamiento óptimo entre dos secuencias es fácil y relativamente rápido si usamos el algoritmo de Smith-Waterman. Alinear más de dos secuencias usando el mismo método es prácticamente imposible. Este problema se incrementa exponencialmente con el número de secuencias a comparar.
Alineamientos progresivos, fundamentos Muchos de los algoritmos para Alineamientos multiples usan el método de alineamiento progresivo, que parte haciendo un alineamiento pareado y va adicionando a éste las otras secuencias de manera progresiva. Para seleccionar el orden en que alinearemos las secuencias se construye una mtriz de distancia.
Matriz de distancia En bioinformatica es una matriz que representa las distancias entre cada uno de los apres de secuencias que se quieren comparar. Lo que se representa en el ejemplo es el numero de cambios que hay entre una secuencia y la otra.
La distancia se puede definir como mejor convenga al experimento.
Este numero habra que convertirlo en un porcentaje relativo al tamaño de la secuencia. En este caso, numero de cambios entre longitud de la secuencia. Asi, por ejemplo, veremos que entre la secuencia 1 y la 2 hay un 5% de distancia.
Este ejemplo se ha explicado asumiendo que cada cambio tiene las mismas consecuencias, mas adelante veremos que las matrices de distancia se van complicando a medida que se van variando los parametros dependiendo del tipo de cambio. Con esto se ajusta mas a la realidad biologica.
ClustalW Para poder entender lo que es el alineamiento multiple es necesario entender los arboles filogenéticos.
El metodo de alineamiento progresivo consta de tres etapas: hacer alineamientos pareados de las n secuencias a alinear; todos los alineamientos pareados tendran un score con el que haremos una matriz de distancia. Con esa matriz construimos un arbol que nos agrupa esas cinco secuencias, y este arbol nos ayudará a decidir que dos secuencias introduciremos al alineamiento multiple.
El programa usa dos metodos para concluir arboles: El UPGMA: es un metodo basado en medias aritmeticas. Si tenemos una matriz de distancia de 6 secuencias, usando el metodo UPGMA las ramas del árbol seran las mismas que el resultado que se haya dado en la matriz.
BIOINFORMÀTICA 3r Biologia UAB arokargomez Lo primero que hace es una rama entre las secuencias mas cercanas. La primera asuncion que hace el arbol incorrecta es que los dos taxones estaran a la misma distancia evolutiva del ancestro comun.
Como esos dos taxones quedan unidas, se crea una nueva matriz donde ambos consten como una sola unidad taxonomica. Se vuelve a calcular la distancia entre ellas por medias aritmeticas y se vuelve a escoger la que tenga una distancia mas baja. Los pasos se vuelven a repetir, haciendo la matriz cada vez mas pequeña.
El segundo método es el de neighbour joining, que se explicará en los siguientes temas.
Cuando se utiliza un programa de estos da dos resultados: el alineamiento y el árbol.
Las dos primeras parejas de poca distancia las alinea de forma independiente y despues es cuando se relacionaran las dos con otros apareamientos.
El programa ha ido evolucionando hasta llegar a Clustal(omega). LO que hace el programa es: 1.- Alineamiento en pareja de todas las secuencias usando programacion dinamica.
-Alineamiento de tipo global (Needle).
-Obtencion de matriz de distancia basada en estos alineamientos 2.- Usando los scores de la matriz de distancia se construye un arbol genealogico guía 3.- Construccion del alineamiento multiple por metodo progresivo usando como guia el arbol.
-Re-alineamiento global (Needle) de las secuencias mas proximas en el alineamiento.
El Clustal omega utiliza redes ocultas de marco para hacer el alineamiento, y el ClustalW usa metodos de alineamiento progresivo. El programa se puede usar de tres formas: Via web (en la web del EBI). Se enganchan las secuencias en la ventana en formato FASTA una concatenada detrás de la otra (ahi radica la importancia del signo >). El programa nos da un alineamiento y un arbol.
Hay varios formatos de salida y de entrada para hacer alineamientos multiples. Esto se debe a que no hay un solo programa para hacer alineamientos multiples, sino que hay varios y cada uno con algoritmos distintos. Por ejemplo, el ClustalW acepta una secuencia en formato FASTA y nos devuelve una secuencia en formato ClustalW.
Formato de entrada: El fasta concatenado es una secuencia mayor de la otra. Si no esta el > en el inicio del encabezado y el enter al final es lo que permite al programa reconocer las diferentes secuencias.
Formato de salida: el formato ClustalW da secuencias con simbolos. El asterisco significa totalmente conservado, los dos puntos muy similar, el punto poco similar y si no hay nada es que son totalmente distintas.
El PHYPIL tiene un formato distinto. Sin asteriscos, puntos ni ningun simbolo.
Tambien hay una forma de ver la alineacion concatenada en formato FASTA de vuelta. Es el formato mas sencillo.
Existen otros programas de hacer alineamiento que no se basan en el metodo de alineamiento progresivo. El ClustalW es el mas popular y tambien el que tiene algoritmos mas sencillos, pero existen otros como el T-Coffee, el MAFFT, el MUSCLE, etc. Algunos son mejores cuando las secuencias son muy largas, otros que son buenos cuando hay muchas secuencias, unos mejores para proteinas y otros mejores para DNA, etc.
BIOINFORMÀTICA arokargomez 3r Biologia UAB Aplicaciones del alineamiento multiple Identificacion de sitios variables dentro de secuencias conservadas Por ejemplo para idetificar los SNPs (single nucleotide polymorphism). Cuando hay genes uy conservados y hacemos un alineamiento multiple entre diferentes miembros de la poblacion y detectamos que hay una variacion en una zona concreta, debemos estudiarla porque esa variacion puede ser trascendente o no.
Es muy importante en humanos porque nuestro genoma intraespecifico es muy alto en identidad (99% entre los humanos, 97% entre humanos y los otros primates). Por tanto, la mayoria de diversidad viene de variaciones pequeñas locales como el caso de los SNPs.
Otro ejemplo se daria en un gen conservado que da resistencia a farmacos o a otros antibióticos, que con solo una mutacion puede aumentar. Si fueran genes variables seria muy dificil encontrar los SNPs.
Identificacion de sitios conservados o semi-conservados dentro de secuencias divergentes Secuencias con un ancestro comun. El alineamiento multiple permite observar sitios 100% conservados. Si tenemos un alineamiento de proteinas divergentes pero con una funcion comun, en esos sitios de maxima conservacion probablemente seran sitios involucrados con la union del ligando, que mantiene la estructura de la proteina, que conserva la funcion, etc.
Identidificacion de sitios conservados o semi-conservados en secuencias divergentes. Por ejemplo la histidina de una region de la hemoglobina, es esencial para la vida y funcion de la proteina.
Detectar motivos o regiones conservadas con funcion comun Las podemos detectar ya que son regiones conservadas. Un ejemplo es la union del RNA al ribosoma, que requiere de la region de Shine-Dalgarno para la iniciacion de la traduccion en bacterias.
Se puede representar la homologia con graficos de tipo LOGO, que muestran las letras más grandes cuanto mas probable es que sean regiones conservadas.
Construccion de matrices de posicion o peso (position weight matrices) y LOGOS Esto se utiliza para identificar motivos pequeños que se encuentren en otras secuencias.
La patriz de posicion o de peso es la mas sencilla de las tres vistas en la asignatura. Con el gráfico se representa un lineamiento de 7 posiciones y de DNA. La primera y segunda posicion estan 100% conservadas y por eso se representa la letra ocupando el 100% del espacio. En la posicion 6, vemos que hay tanto A como T, y se representan las dos siendo la T un poquito mas grande. La posicion mas variable es la 4, ya que es la que mas letras tiene representadas.
La matriz resultante es de 4x7 (4 letras posibles de DNA, 7 posiciones).
BIOINFORMÀTICA arokargomez 3r Biologia UAB Este metodos se puede utilizar para representar la conservacion en el punto en que se cambia de intron a exon.
Para proteinas el grafico se colapsa porque son 20 letras, pero sigue sienod igualmente util. Solo mirando el grafico logo podemos ver que no hay mucha conservacion en ese motivo excepto en unas posiciones en las que hay histidinas. Esto significa que muy probablemente tendran que ver con la funcion de la proteina.
Con alineamientos multiples se descubrio la estructura secundaria del RNA; viendo que eran regiones conservadas palindrómicas.
Establecer relaciones filogenéticas e inferencias evolutivas Se utilizan matrices de distancia. Si la evolucion actua primariamente a nivel nucleotidico, para hacer inferencias evolutivas lo que mas se utiliza hoy en dia son alineciones de secuencias.
Un ejemplo es que la filogenia de los mamiferos siempre ha tenido muchos interrogantes. En el año 2011 un grupo de investigadores encontraron los grupos de genes que mejor describian la historia evolutiva de los mamiferos. Con ellos hicieron un alineamiento entre todas las familias de los mamiferos para despejar esos interrogantes.
Ayuda a hacer inferencias evolutivas en las poblaciones. El DNA codifica para proteinas y fijandonos en cambios sinonimos o no sinonimos se pueden ver los cambios que van a la neutralidad o si confereira alguna ventaja a los organismos con los cambios.
Ayudar a predecir estructura secuendaria y terciaria de ácidos nucleicos y proteínas.
Si entre proteinas de la misma familia una ya tiene su estructura resuelta, se pueden predecir las estructuras de las otras dos por homologia. En el proceso de predecir la estructura tridimensional de una proteina por homologia hay que hacer mas de un alineamiento multiple.
...