TEMA 2. ANALISIS DE LAS SECUENCIAS (2016)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Biología - 3º curso
Asignatura Bioinformática
Año del apunte 2016
Páginas 9
Fecha de subida 14/04/2016
Descargas 5
Subido por

Descripción

APUNTES REALIZADOS CON EL MATERIAL DOCENTE VISTO EN CLASE Y COMPLEMENTADO CON LA BIBLIOGRAFIA RECOMENDADA.

Vista previa del texto

BIOINFORMÀTICA Tania Mesa González 3º CURS BIOLOGIA UAB TEMA 2: VISUALIZACIÓN, EDICIÓN Y ANÁLISIS BÁSICO DE SECUENCIAS DE DNA.
EJERCICIÓ: expresar el gen de la insulina humana en un sistema heterólogo como las levaduras.
- In silicio: 1. Buscar las secuencia codificante para la insulina humana.
2. Diseñar una estrategia de amplificación (PCR) in vitro.
- In vitro / in vivo.
- Para buscar lo hacemos con palabras claves “secuencia codificante gen insulina humana”.
a) Tipo de molécula  secuencia codificante b) Organismo  humana c) Nombre de la proteína  insulina d) Tipo de database  Gen  La base de datos científica siempre está en ingles, por tanto siempre hay que introducir las palabras en este idioma.
COMO REALIZAR UNA BÚSQUEDA: Para expresar el gen, tenemos que buscar en la bases de datos, (como puede ser el GenBanck) - Buscamos en bases de datos de nucleótidos, ya que estamos buscando una secuencia y no una proteína.
- Si hacemos una búsqueda rápida con las palabras claves “human insuline”.
 Si la búsqueda es básica encontramos muchas entradas en el GenBank.
 Para encontrar algo más concreto tenemos que incorporar filtros  lo que ocurre es que incluso con los filtros, el número de entradas seguiría siendo grande.
 El hecho de que salgan tantas entradas, se debe a que al ser una búsqueda sencilla, aparecen todas las entradas en las que aparecen las palabras Human y Insulin.
 - Por tanto vemos que una búsqueda simple nunca nos darán buenos resultados.
Para hacer una buena búsqueda, tenemos que seleccionar búsqueda avanzada, que permite poner la especie, el nombre concreto de la proteína, etc. Los campos se van uniendo con AND, restringiendo cada vez más la búsqueda, haciendo que al realizar la búsqueda queden menos entrada.
 De este modo tenemos menos entradas.
 Además aparece un filtro que ya te indica si hay mRNA, en vez de DNA genómico.
 Cuando filtramos la búsqueda con la opción de mRNA, ya solo tenemos 4 moléculas, con las que podemos trabajar.
 Cada uno nos indican los codones que tienen, por tanto podemos ver si codifica para toda la proteína o solo para una parte de ella.
 Cogemos la proteína más grande ya que es aquella que más grande es y que más codones presenta.
 Una vez escogida la muestra miramos su información identificador único en el Genbanck, origen, tamaño, herramientas de análisis, etc.
 Cuando vemos la frecuencia en formato de Genbanck  vemos que la podemos ver de dos maneras diferentes.
 El formato más sencillo es el FASTA  tiene el mismo identificador porque es la misma secuencia, pero en este caso solo tiene la secuencia en aminoácidos.
 Toda la secuencia que tenga encima un encabezamiento que sea un “mayor que” > , quiere decir que está en FASTA y que por tanto será reconocido por la mayoría de los programas.
 Si cogemos el otro formato, como aparecen números para marcar los nucleótidos, estos no serán reconocidos por la mayoría de los programas.
COMO IDENTIFICAR Y ANALIZAR UNA SECUENCIA: - Para saber si una cadena es codificantes, en eucariotas se puede saber por la cola Poli A.
Pero no siempre nos dan una cadena codificante.
 Si trabajamos con el DNA, lo podemos hacer con la cadena directa, con la complementaria, o la reversa de la complementaria.
 La traducción de las secuencias se pueden dar en cualquiera de los marcos de lectura. El marco de lectura son las tres posibles vías que puede ser leída una cadena de DNA por su traducción utilizando su código genético y sus formas inversas.
 Si la hebra es la directa se marcan 1, 2 y 3  Si la hebra es la complementaria se marcan con -1, -2, -3.
 Por tanto sabemos que los marcos de lectura totales de una sola cadena son 6.
 Marco abierto de lectura = Open Reading frame (ORF)  distancia que se encuentra organizada en tripletes que no contienen un codón de parada. En última instancia puede codificar para una proteína.
- En las bases de datos siempre encontramos o el mRNA o el DNA genómico.
GUARDAR LAS SECUENCIAS: Para guardar las secuencias, no es una buena opción copiar y pegar una secuencia. Para poder guardarla siempre hay una herramienta (Save to) para poder enviar esta información a algún lugar del PC u soporte digital.
- Es mejor así, porque el ratón siempre suele fallar y no acaba de copiar las cosas tal cual.
PROGRAMAS PARA DISEÑAR SECUENCIAS: Existen programas en la web diseñados para manipular secuencias de DNA: - Determina la cadena reverso-complementaria: a) Reverse Complement  Paquete de programas bioinformáticos (The Sequence Manipulation Suite, SMS)  http://www.bioinformatics.org/sms/ b) Programa revseq  Paquete de programas bioinformáticos de EMBOSS  http://emboss.bioinformatics.nl/ - Traducir una secuencia de DNA a mRNA: a) ExPaSy translate tool (SIB)  http://web.expasy.org/translate/ b) Programa Sixpack y programa Transeq  paquete de programas bioinformáticos EMBOSS 1. EMBOSS  http://emboss.bioinformatics.nl/ 2. EMBL-EBI  http://www.ebi.ac.uk/Tools/st/ - Cambio de formato (GNK a FASTA): a) Paquete de programas bioinformáticos (The Sequence Manipulation Suite, SMS)  http://www.bioinformatics.org/sms/ BASE DE DATOS SECUNDARIAS: Todos los datos derivados del análisis y tratamiento de la información en las bases de datos primarias, como bases de datos de secuencias proteicas obtenidas por traducción, estructura secundaria, dominios y familias, motivos, matrices, perfiles de hidrofobicidad, etc.
- El NCBI tiene una base de datos específica para las proteínas.
- UnyProt  La base de datos está recortada, ya que se han dedicado a eliminar todo aquello que se repite.
 Pertenece al EMBL-EBI  http://www.uniprot.org/  Es la base de datos que vamos a usar para la búsqueda de proteínas.
RESUMEN: En las bases de datos contienen las secuencias en dos formatos: a) Secuencias en formato FASTA:  Es un formato de fichero informático basado en texto.
 Se utiliza para representar secuencias de ácidos nucleicos o de aminoácidos.
 Los pares de bases o los aminoácidos se representan usando códigos de una única letra.
 Una secuencia en formato FASTA comienza con una descripción en una única línea, seguidas por líneas de datos se secuencia.
 La línea de descripción se distingue de los datos de secuencia por un símbolo > en la primera columna.
b) Secuencias en formato Genbank:  Los identificadores  son las palabras que podemos entre corchetes a la hora de buscar de forma avanzada en la base de datos.
Es importante que una secuencia tenga formatos, porque trabajamos con programas web, pero también con algunos ya instalados en los ordenadores. Por eso para trabajar con estos programas necesitamos un formato de entrada, y después de procesar y trabajar con la secuencia un formato de salida.
¿LA BIOLOGIA ES UNA CIÉNCIA EXACTA? - Ciencia Exacta  incluye a la matemática y a todas las ciencias que se sustentan en la experimentación y la observación y pueden sistematizarse utilizando el lenguaje matemático para expresar sus conocimientos.
¿Los sistemas biológicos obedecen leyes inmutables como las descritas por las matemáticas? - En la biología si se dan leyes inmutables, sobre todo en los niveles muy básicos como son la química y otras ciencias que hacen posible el orden de la materia, así como la composición de organismos pequeños y simples, por tanto sí que encontramos leyes inmutables.
- También hay leyes inmutables en el DNA, visto en su secuencia  muchas veces la secuenciación se pasa a un código binario, convirtiéndolo en matemáticas, haciendo entonces que si sea una ciencia exacta.
ESTADÍSTICA: - Estadística descriptiva  se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio.
- Estadística inferencial  se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones.
En la estadística para la biología, hay que estudiar la estadística de las frecuencias.
DESCRIPCIÓN DE LA BIOMOLÉCULAS INFORMATIVAS: - Son cadenas de caracteres que cuando las leemos le sacamos una información.
a) DNA b) RNA c) Proteína - Parámetros descriptivos de las secuencias: 1. Longitud de la biomolécula  en pares de bases (pb) o aminoácidos (aa).
 Bacterias  150 bp – 10 kb  1kb  Eucariontes  200 pb – 2.3 Mbp  27 kb.
2. Frecuencia de sus subunidades: 2.1 ADN  A, C, G, T.
2.2 Proteínas  A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y ¿Cómo podemos describir una secuencia? - Sabemos que es la cadena codificante porque presenta un patrón de muchas adeninas seguidas que corresponde a la poly A.
- Una secuencia también se puede describir por el porcentaje de las guaninas y citosinas así como de adeninas y timinas.
 Vemos que no es 100 % aleatorio porque no existe un 25% de cada uno de los nucleótidos, por lo que se intuye que estas secuencias sí que siguen unas leyes.
 Que una secuencia tenga mayor porcentaje de GC que AT indica que tiene mayor estabilidad. Por tanto es muy importante des del punto de vista práctico ya que determina la temperatura para abrir la cadena de DNA.
 La energía libre de las interacciones no covalentes no es la misma para AT y CG.
 En la natura esto tiene importancia, porque a más concentración de CG más le costará a las enzimas abrir las cadenas para procesarlas.
Contenido global de CG: (G+C) / (A+C+G+T) * 100 - Es una propiedad de la molécula de DNA  característica de casa especie y se utiliza como herramienta en taxonomía microbiana.
- Vemos que en eucariotas, la concentración global de CG es del 50 %, por la cual cosa no es un rasgo muy característico.
- En las bacterias en cambio sí que presentan una importancia, a causa de los diferentes ámbitos en los que viven.
- Un dato general que encontramos es que nunca hay menos del 15 % de GC, pero tampoco encontramos un máximo de 75% de esta.
Contenido local de CG: (G+C) / (A+C+G+T) * 100 (De una región concreta) - Solo en un tamaño n de la secuencia.
- En este caso hemos cogido que n=20 nucleótidos.
- Hacen una ventana de tamaño 20 y la ubican en el inicio de la secuencia, del que calculan el contenido de la frecuencia.
 En este punto calculamos que hay 60 % de CG.
 El programa empieza a mover la ventana por la secuencia, haciendo un análisis de la frecuencia (se mueve por saltos que pueden ser más anchos o más estrechos).
 Contra más estrecho es el salto más preciso es.
- Si hacemos saltos de 20 en 20, vemos que la concentración de CG va variando a lo largo de la secuencia.
 Al final de la cadena por la cola de poly A, la concentración de CG decae mucho.
El contenido de GC puede servir para: a) Encontrar genes en los genomas  la evolución ha hecho que las estructuras codificantes tengan más contenido de GC que el resto del genoma, que son más ricos en AT.
 En el inicio del gen, disminuye la concentración de CG, porque en ése encuentra el promotor en el 5’.
b) Las bacterias y virus pueden intercambiar la información genética  esto es su manera de tener diversidad, ya que no tienen relaciones sexuales.
 Si en la evolución se adquiere un genoma con un contenido alto de CG, se puede identificar de donde procede.
 Si en una secuencia la proporción de CG se mantiene constante menos en sitios en que decae o se hace mucho más importante en presencia, se considera como una huella de que ha habido una transmisión lateral de material genético.
Desviaciones de las frecuencias nucleotídicas: - Simetría de la hebra  La frecuencia de A o de C en una hebra de ADN es aproximadamente igual a la frecuencia de T o G.
 - Pero normalmente hay un sesgo en esta simetría: Permite predecir el sitio del origen de la replicación en genomas bacterianos.
Frecuencias dinucleotídicas: - La “huella” de los dinucleotídos es una propiedad estable del ADN de los organismos. Permite detectar fenómenos de transferencia de genes.
- Las frecuencias de dinucleótidos CG se utilizan para predecir la localización de los genes en eucariontes.
- Ejemplo: - Existen islas CpG  Zonas del genoma con frecuencia elevada del dinucleótido CG que permiten comparar las secuencias, ya que son regiones muy conservadas.
Frecuencias trinucleotídicas: - Dan la organización en codones entre los que se encuentran los de inicio y los STOP.
a) Inicio  AUG b) STOP  UAA, UAG, UGA - La secuencia de codones es una propiedad estable del ADN de los organismos. Permite detectar fenómenos de transferencia de genes.
- Uso de codones  permite detectar regiones codificantes ya que en estas zonas se encuentran los codones más frecuentes para cada aminoácido = preferencia de codones.
PROGRAMAS DE ANÁLISIS DE FRECUENCIAS: - Determinación de las frecuencias nucleotídicas: a) Global  compseq / wordcount  http://emboss.bioinformatics.nl/ b) Local  freak  http://emboss.bioinformatics.nl/ - Desviación de las frecuencias nucleotídicas  GenSkew  http://genskew.csb.univie.ac.at/ - Detección de islas CpG  CpGplot  http://emboss.bioinformatics.nl/ - Uso de codones  cusp  http://emboss.bioinformatics.nl/ ...