TEMA 1. INTRODUCCIÓN (2016)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Biología - 3º curso
Asignatura Bioinformática
Año del apunte 2016
Páginas 7
Fecha de subida 14/04/2016
Descargas 5
Subido por

Descripción

APUNTES REALIZADOS CON EL MATERIAL DOCENTE VISTO EN CLASE Y COMPLEMENTADO CON LA BIBLIOGRAFIA RECOMENDADA.

Vista previa del texto

BIOINFORMÀTICA Tania Mesa González 3º CURS BIOLOGIA UAB TEMA 1: INTRODUCCIÓN ¿QUÉ ES LA BIOINFORMÁTICA? - En el 1970  La bioinformática se consideraba la ruta de la información de los procesos bióticos, es decir son las redes de información, era una herramienta de trabajo, más que una disciplina.
- Actualmente  se considera como una disciplina propia.
Hay diferentes formas de llamarla: a) Biología computacional b) Biología en silícica Definición actual del concepto de bioinformática  algoritmos y computaciones necesarias para analizar, manipular y almacenar secuencias de información biológica.
- En esta asignatura la bioinformática es el tratamiento y análisis informáticos de moléculas.
- No es lo mismo que la bioestadística, aunque esté muy relacionado.
Bioinfomática: - Usa la informática para resolver problemas biológicos y bioquímicos.
- Es la aplicación de la tecnología de para visualizar, analizar, integrar y gestionar la información biológica y genética para poder tratarla más adelante en otros estudios facilitando el proceso.
 - Acelera el descubrimiento y desarrollo de nuevos fármacos.
Aplica herramientas de cálculo y análisis para capturar, gestionar e interpretar datos biológicos.
La bioinformática es la investigación, desarrollo o aplicación de herramientas computacionales y enfoques para la expansión del uso de los datos biológicos, médicos, de comportamiento o de salud, incluyendo aquellos que sirven para organizar, analizar o visualizar los datos.
Biología computacional .Vs. Bioinformática: 1. Biología computacional  Hace referencia al desarrollo de algoritmos y modelos estadísticos necesarios para analizar datos biológicos mediante el uso de ordenadores.
2. Bioinformática  Hace referencia a la recolecta, almacenamiento y gestión de la información biológica.
 Todos los asuntos relacionados con las bases de datos biológicos se consideran bioinformática.
Bioinfomática = puente de unión entre la biología y las ciencias de la información: Analisis de datos Biologos con conocimientos basicos de informática BIOINFORMÁTICA Ingenieros Sofware ¿Cómo actúa la bioinformática? 1.
Se da un problema biológico 2.
Se realizan experimentos en vivo y en vitro.
3.
Crea una base de datos moleculares con lo obtenido en el experimento.
4.1 Se crean bases de datos bibliográficos 4.2 Se realiza el experimento en silico: a) Reconocimiento de los patrones b) Realizar predicciones  se comprueba con experimentos in vitro o in vivo.
Ningún resultado de la bioinformática es concluyente, solo es una predicción.
Computaciones INTRODUCCIÓN A LA BASE DE DATOS: Las bases de datos  son un conjunto de datos almacenados en un soporte informático, con herramientas para la gestión y la recuperación de la información.
- Los componentes de la base de datos, se necesita tener un código único.
 - Es el caso de nuestro DNI.
Google  Google es el portal que nos lleva a la base de datos a nivel mundial.
 Si delante de una palabra se pone – y la palabra entre comillas, esta no se busca.
 Por tanto si que es una base de datos, ya que dispone de las herramientas para buscar la información.
 - Google scholar  base de datos más especializada.
La base de datos moleculares más importante  NCBI  Los japoneses han ido creando su base paralelamente a esta.
 NCBI  biblioteca nacional de los estados unidos, en los que se recogen datos de enfermedades en el 1956.
 En 1988 existía, pero solo en papel. No fue hasta el 1994 que crea el sitio web.
 En el 1992 sume la responsabilidad de la creación del banco de Genes  GenBank  En el 1997 se creó el PubMed  base de datos el NCBI. Hoy en día tiene 25 millones de referencias.
 En sus datos se encuentran aquellos del Medline así como artículos y publicaciones de todas las ciencias.
- En Europa paralelamente se dio:  - 1974 Europa ya tenía el EMBL  primera biblioteca pública de secuencias.
No podemos hacer ningún estudio sin antes tener una base de datos.
Estrategias booleana: - AND  Busca datos que únicamente tenga las palabras unidas por el AND, haciendo una restricción de la búsqueda.
 Cada vez que añadimos un campo se restringe más la búsqueda.
- OR  Amplia la búsqueda, porque nos muestra los datos que estén relacionados por un lado con una de las palabras, y por otro lado con la otra palabra.
- NOT  Restringe la búsqueda porque hace la búsqueda de una palabra sin que esté en relación con la otra.
- Incluir las palabras entre comillas  Para buscar fases enteras - Si ponemos un asterisco en una terminación, te va a buscar las palabras claves que acaban con esa terminación.
- Entre corchetes  indicamos en que campo de la base de datos queremos buscar.
a) [TI] = Título b) [AU] = Autor Las bases de datos guardan la información en tablas, es decir en filas y columnas. Por eso al introducir más campos, restringimos la búsqueda, ya que marcamos unas filas y columnas muy concretas.
- PubMed no es la única base de bibliografía, pero es la única libre.
- Hay otras que son más completas, pero son de pago.
BASE DE DATOS MOLECULARES: Primarias  los datos vienen directos des de la experimentación, como pueden ser las secuencias de nucleótidos y las estructuras tridimensionales de las proteínas.
a) Secuencias de datos de DNA  Crea las bases de datos del genoma.
b) Secuencias de la estructura de las proteínas.
Secundarias  todos los datos del análisis y tratamiento de la información en las bases de datos primarias, como bases de datos de estructura secundaria, dominios y familias, motivos, matrices, perfiles de hidrofobicidad, secuencias proteicas obtenidas por traducción, etc.
BASES DE DATOS PRIMARIAS DE NUCLEÓTIDOS: Las grandes empresas de bases de datos (NCBI, EBI, CIB) han unido información en que se encuentran las tres bibliotecas de bases de datos en una sola, es decir están sincronizadas en el INSDC.
- No hay restricción legal en estas bases de datos, de todos modos hay secuencias patentadas en la base de datos.
- Los datos se suben por la aportación directa de los autores.
a) DDBJ  Banco de datos de DNA japonés b) European Nucleotide Bank  del instituto Europeo de bioinformática.
c) Genbank  Centro nacional de información biotecnológica.
GENBANK Es una colección de data base con todas las publicaciones de nucleótidos y proteínas disponibles públicamente.
- Es la base de datos creada en el 1979 en los Alamos. Pero se mantiene des del 1992 por el NCBI.
- Este en un principio se distribuía en papel.
- Más tarde se pasó a soporte digital en discos.
- Actualmente se encuentran en super-ordenadores, que ni se conoce su aspecto.
- Para buscar en el GenBank, hay que buscar en la base de datos de nucleótidos.
- Esta base de datos existen des del 1979, pero ha crecido mucho el numero de secuencias (línea roja) y a la vez el número de nucleótidos localizados (zona azul).
 El numero de secuencias producidas está creciendo exponencialmente  es una fase que ya se dijo en 1967 por Margaret O.
Dayhoff.
 El crecimiento se debe al crecimiento de los ordenadores, que no son los típicos de mesa, si no que son ordenadores de almacenaje.
 Estas páginas pueden ir más o menos lenta en función de la gente que esté en la página en el momento.
 Otra cosa que ha hecho crecer la base de datos es el avance en las técnicas de secuenciación.
 Cada vez se pueden secuenciar más secuencias y secuencias más grandes.
- Ha crecido tanto que la información ha sobrepasado la capacidad de procesamiento.
 Se debe al abaratamiento de los procesos de secuenciación.
NCBI Se consideran metabase de datos, porque para poder procesar toda la información se necesitan diferentes bases de datos.
- Se encarga de organizar e integrar las bases de datos.
ENA  es el homologo del GenBank en el EBI. No es tan eficiente.
- Contiene el UniProt  base de datos de proteínas, muchas de ellas han estado tratadas manualmente.
- También contiene el Ensembl  es una base de datos de genomas eucariotas. Se basa en las librerías Perl.
...