BIO INF Tema 2b.- Análisis de secuencias de DNA (2014)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Biología - 3º curso
Asignatura Bioinformática
Año del apunte 2014
Páginas 3
Fecha de subida 18/02/2015 (Actualizado: 24/03/2015)
Descargas 22
Subido por

Vista previa del texto

BIO INFORMÁTICA arokargomez 3r Biologia UAB Tema 2b.- Visualización, edición y análisis de secuencias de DNA 2.4.- Parámetros descriptivos de una secuencia de DNA La bioinformatica se basa completamente en la estadística, que se divide en dos grandes áreas:  Estadistica descriptiva: se dedica a la descripcion, visualizacion y resumen de datos originados a partir de los fenómenos de estudio.
 Estadistica inferencial: se dedica a la generacion de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestion teniendo en cuenta la aleatoriedad de las observaciones. Es la puramente informática.
El primer parámetro con el que describiremos una biomolécula (DNA, RNA o proteínas) es con la longitud, y despuñes con la frecuencia de sus subunidades.
La longitud puede medirse en b (bases, cadenas monocatenarias) o en pb (pares de bases, cadenas bicatenarias). Las bacterias tienen entre 150 pb y 1kb de media. En los eucariotes hay muchos exones, que además va aumentando a medida que aumenta el tamaño del genoma.
Las bacterias estan en el orden de los Mpb (las hay des de 0,5 hasta bacterias de vida libre que necesitan un tamao mucho mayor). Los eucariontes inferiores tienen más de 100 Mpb y los superiores ya estan en la escala de los Gpb. El genoma más largo secuenciado hasta ahora es de una planta superior.
2.5.- Frecuencias nucleotídicas y desviaciones La frecuencia de los nucleótidos de la secuencia ejemplo demuestra un predominio de bases C y G.
Normalmente se unen C+G y A+T porque tienen un enlace distinto: la union de guanina con citosina tiene un triple enlace mientras que el de Adenina con timina tiene uno doble. Esto hace que el primero sea más fuerte, siendo útil para sobrevivir en condiciones extremas como ambientes hipertermófilos.
Para las PCR también es útil saber el contenido global de G+C, ya que un oligonucleótido con un valor demasiado alto o demasiado bajo daría unos resultados en la PCR que podrían no ser fiables.
2.6.- Contenido global y local de GC Cada especie tiene su valor de contenido global de GC, de forma que algunas bacterias pueden llegarse a clasificar segun esta característica (criterio de taxonomia microbiana). Hay algunas bacterias que tienen poquísimo como un porcentaje de entre 010, y otras que tienen valores altisimos como 90-100%. La gran mayoría está en los valores medios.
Por que en los extremos del gráfico no se puede sobrevivir? (pregunta del forum).
BIO INFORMÁTICA 3r Biologia UAB arokargomez Contenido de GC local: la fórmula sigue siendo la misma, pero en vez de hacerse de toda la secuencia se hace de una parte. Esto se hace introduciendo en la secuencia una ventana, que será la zona a estudiar. El nombre de la ventana es Sliding Window, de forma que esa ventana se va moviendo hacia adelante en la secuencia. Con los diferentes resultados se puede hacer un gráfico con el contenido de GC local en las diferentes partes de la secuencia.
Esto es util porque normalmente las regiones codificantes por lo general son mas ricas en contenido de GC que el resto del genoma. Por otro lado, los promotores tienen contenidos altos de AT para facilitar la union (su enlace es más debil).
En las bacterias existe la transferencia de genes entre ellas o entre ellas y virus (mecanismos de conjugacion, transduccion). A dia de hoy, si secuenciamos una bacteria y hay una region de GC que se desvia de la media del genoma, es un indicador de que con alta probabilidad haya habido una transferencia de material de una bacteria con alto contenido a una bacteria de bajo contenido, y que eso haya quedado fijado a lo largo de la evolucion. Por lo tanto, en esa region habrá algun gen que confiera una ventaja.
Como se desvía el contenido de G respecto a C y de A respecto a T En una cadena teoria existiria una simetria de hebra: la frecuencia de A o C en una hebra de DNA es aproximadamente igual a la frecuencia de T o G. Normalmente esto no se cumple, sino que hay un siesgo en esta simetria. Esto se calcula con una formula matemática. Esto es útil porque permite predecir el sitio de origen de replicacion en genomas bacterianos.
Hay un punto en el genoma donde la polaridad del numero se invierte: si iba teniendo valores negativos a partir de un punto empezará a tener valores positivos. Metemáticamente sabemos que ese punto es el punto de inicio de replicacion.
Con los resultados se hacen mapas en los que se marcan con el grosor de las líneas y/o con colores las desviaciones, los genes, islas génicas, etc. El contenido global de GC se puede dar con un porcentaje, pero el local no, se abrirá una pestaña y ahí se podrá ver los resultados de las diferentes ventanas.
2.7.- Frecuencias di-nucleotídicas Esta estadística dice con qué frecuencia aparecen dos letras juntas. El valor más alto se da en la AA por la cola poliA, pero si obviamos esto las parejas más dominantes son GC y CG. Esto da pistas de dónde estan los genes en eucariontes.
Nuestro contenido global de GC es de un 42%. Esto dice que en teoria si tuvieramos la misma cantidad de G que de C tendriamos un 21% de cada uno, o lo que es lo mismo una frecuencia de 0,21. Calculando la frecuencia esperada para CG nos daría 0,042, pero lo que se observa en realidad es una precuencia de 0,012. Además hay regiones del genoma con mayor frecuencia (0,6).
BIO INFORMÁTICA 3r Biologia UAB arokargomez La explicacion a esto es la metilacion del dinucleotipo GC, cambiando su enlance y haciendo que se convierta en Timina. Si no hay una reparacion, se va acumulando una gran cantidad de T. Para ahorrar energia, evolutivamente se ha premiado la correccion de esta metilacion solo en las zonas codificantes. De esta forma se ha descubierto que las zonas con genes codificantes son ricas en GC mientras que las otras tienen un contenido mas elevado en timina y adenina.
Si desplazaramos una ventana por todo el gnoma humano encontrariamos un gráfico parecido al de la izquierda. Pero lo que ocurre en realidad es lo de la derecha, el resultado no es tan marcado ni lineal como se espera en teoria.
2.8.- Uso de codones y localizacion de ORFs Las secuencias trinuceotídias dan informacion sobre los codones, de forma que tiene una doble interpretacion: matemáticamente para saber las frecuencias de que haya tres letras juntas, y biológicamente los codones para los que se traducen.
Cada organismo utiliza el codigo genético de una forma diferente. Es degenerado, es decir que hay varias variantes para un mismo aminoacido. Aunque sean los mismos en todos los organismos, cada especies usa mas uno u otro. Por ejemplo, la Leucina tiene 6 codones posibles: en humanos será uno de ellos el que más se exprese y en bacterias será otro.
Preferencia de codones: En las regiones codificantes se encuentran los tripletes mas comunes para los codones de esa especie. Es decir, el uso de codones es óptimo para las regiones codificantes de esa especie.
Se puede ver que en uno de los tres marcos de lectura aparece una zona en la que predominan los codones más comunes de la especie. Esto ayuda a saber que marco de lectura es con más probabilidad el correcto.
...