BIO INF Tema 1.- Bases de dades en biociències (2015)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Biología - 3º curso
Asignatura Bioinformática
Año del apunte 2015
Páginas 4
Fecha de subida 20/02/2015
Descargas 24
Subido por

Vista previa del texto

BIOINFORMÁTICA arokargomez 3r Biologia UAB Tema 1.- Bases de dades en biociències Bases de dades d'interès per a les biociències. Bases de dades bibliogràfiques.
Construcció d'estratègies de cerca. Alertes automàtiques. Cerques exhaustives.
Anàlisis bibliomètrics. Bases de dades moleculars. Motors de cerca.
1.1.- Història, conceptes i definicions ¿Qué es la bioinformatica? Solemos utilitzar los términos “bioinformática” y “biologia computacional” indistintamente aunque no significan lo mismo.
Biologia computacional: es algo más grande, que engloba la bioinformática. Está más relacionada con las ciencias que con la informática. Se basa en crear modelos estadisticos y matemáticos necesarios para analizar los datos biológicos con la ayuda de ordenadores.
Bioinformática: manipulación y análisis de datos biologicos. Es el conjunto de algoritmos y recursos computacionales necesarios para analizar, manipular y almacenar las ingentes cantidades de informacion sobre secuencias biologicas que aparecen en las bases de datos.
Hay muchas definiciones posibles, pero todas incluyen el análisis de datos (obtener, visualizar, archivar, organizar, etc). En definitiva, definiremos la bioinformática como el tratamiento y el analisis informático de datos moleculares.
Es una ciencia que hibrida la biologia y la ciencia de la información. Incluye el análisis de datos, la biologia computacional, ingenieros de software, y la biologia con habilidades básicas de computacion.
Biologia in silico: rama de contacto entre la biologia in vitro y la biologia in vivo.
¿Cómo usamos la bioinformática? En bioinformática todo lo que se hace es una aproximación, ya que siempre se usan modelos y no realidades. Por tanto obtendremos predicciones basadas a partir de datos moleculares. Así, nunca hay que concluir nada de experimentos in silico hasta que no se hayan demostrado experimentalmente. Las predicciones se pueden hacer gracias al reconocimiento de patrones que utilizamos.
Partimos de un problema biológico, que gracias a experimentos in vitro o in vivo y a bibliografia obtendremos las bases de datos moleculares. Gracias a experimentos in silico obtenemos los patrones que podremos utilizar para predecir resultados. Todas las predicciones obtenidas deberan comprobarse en experimentos in vitro o in vivo.
Las bases de datos estan muy ligadas a los resultados cientificos de cada investigador, y esto se refleja en las publicacones que los investigadores hagan.
1.2.- Bases de dades moleculars Las bases de Datos son un conjunto de datos almacenados en un soporte informatico, con herramientas para la gestion y al recuperacion de la informacion.
Google es una base de datos con herramientas de búsqueda, como por ejemplo poner comillas para encontrar palabras juntas, o poner un – delante para eliminar alguna palabra de la búsqueda.
BIOINFORMÁTICA 3r Biologia UAB arokargomez La base de datos por excelencia de la asigantura es el NCBI (Centro Nacional para Informacion Biotecnologica).
En el 1956 se creó en Estados Unidos la biblioteca nacional de medicina. Ya existia anteriormente como biblioteca militar, pero en este año se vinculó a la medicina y a la ciencia. Hay un intervalo de tiempo en el que Sanger propone la secuencia primaria de la insulina y n el 78 publica el primer genoma secuenciado, creando el primer método de secuenciacion conocido (método de Snger). El primer genoma secuenciado fue el de un bacteriófago. Esto alertó de que se acercaba una revolucion en la biologia, y en los años siguientes algunos cientificos de mucho prestigio (como Crick) fueron al congreso a pedir fondos para una base de datos donde introducir todos estos avances biotecnológicos.
El NCBI no se llama centro de bioinformática porque en aquella época aun no existía esa palabra. El NCBI asume el GenBank posteriormente el PubMed. En el año 1994 crea su propio sitio web. Esto significa que antes de este punto toda la informacion contenida en el NCBI la informacion fluía en formato sólido (disquetes, etc).
PubMed es la biblioteca medica de los estados unidos pero se ha ampliado porque, ademas de articulos biomedicos, han introducido articulos de otras ramas de la ciencia. Hay tal cantidad de informacion que las herramientas de busqueda son esenciales.
1.3.- Algoritmes de cerca Utilizaremos estrategias booleanas para cualquier base de datos de bioinformática, tomando como ejemplo el PubMed. Normalmente el “AND” viene por defecto en las bases de datos, ya que poner espacio entre las palabras se entiende como buscar información que contenga ambas palabras, aunque no sea juntas.
El caracter “OR” hará una busqueda de informacion de ambas palabras, ya sea juntas o por separado.
El caracter NOT restringe alguna palabra.
Se pueden hacer búsquedas avanzadas, en las que no solo se busca con los tres caracteres booleanas. El uso de comillas es igual que en Google, donde solo se buscan porciones de articulos que combinen las palabras tal y como las hemos buscado.
Se pueden añadir “tags”, que se usan para buscar sólo en el título, o sólo en los autores. Además podemos poner asteriscos para búsquedas de palabras que no tienen porque escribirse asi (si ponemos *ase encontraremos todas las enzimas).
Ejemplo: “protein domain” [ti]  encontrará artículos que contenga protein domain en el título.
Para saber el índice de impacto de una revista, referencias, citaciones, etc. Podemos acceder a scirus (es de pago, sólo desde la universidad).
En el Web of Knowledge se puede ver en qué percentil está ubicado el artículo respecto al resto de artículos, se puede ver el índice de impacto, etc.
BIOINFORMÁTICA arokargomez 3r Biologia UAB 1.4.- El NCBI (Pubmed, GenBank, Entrez, Taxonomy) Bases de datos moleculares. Definiciones Primarias: bases de datos que contienen datos directos de la experimentacion como las secuencias nucleotídicas y las estructuras tridimensionales de las proteínas. Un experimento con DNA dará una base de datos primaria con la secuencia del genoma.
 DNA sequence databases o Genome databases  Protein structure databases Secundarias: todos los datos derivados del análisis y tratamiento de la informacion en las bases de datos primarias, como bases de datos de estructura secundaria, dominios y familias, motivos, matrices, perfiles de hidrofobicidad, secuencias proteinas obtenidas por traduccion, etc. Un ejemplo de base de datos secundaria seria obtener la secuencia de una proteina a partir de una abse de datos de secuenciacion de DNA. En cambio, si utilizamos la secuencia de una proteina para prever informaticamente su secuencia terciaria seria base de datos primaria.
Bases de datos primarias de nucleótidos: INSD, que proviene del conjunto de bases de datos primarias de nucleótidos. Estan relacionadas de forma que si se deposita informacion en una base de datos se actualiza y aparece en las otras dos. No existe ninguna restriccion para enviar secuencias a las bases de datos. Esto puede dar problemas ya que no hay control sobre la verificacion de esa informacion.
En GenBank es una base de datos primaria de nucleótidos que surge en año 79 y en el 92 es capturado por el NCBI. Se encuentra en la pestaña “Nucleotide” del NCBI.
En el gráfico se observa como ha crecido el GenBank. En rojo se ve el numero de secuencias del GenBank, y en azul se ven los pared de bases del GenBank.
Las dos aumentan al mismo ritmo, pero el numero de secuencias que se conocen está creciendo de manera explosivo. Esta frase fue citada en el año 1967. En diciembre del 2014 habia alrededor de 185 miles de millones de pares de bases.
¿Que hitos de la ciencia ayudaron a esa explosion? La generalizacion de internet y sobretodo la evolucion de la informatica a nivel de ingeniería (velocidad, memoria RAM, cantidad de procesadores, etc), las técnicas de secuenciacion (del metodo de Sanger en el año 79, la secuenciacion automática en los 90 y las técnicas modernas de secuenciacion actuales como una cadena de DNA que va creciendo con una nanocámara que toma imagenes de las diferentes bases y dependiendo del color sabemos que letra es).
En el gráfico las dos líneas tienen la misma pendiende excepto en la zona en que una de ellas crece de forma más exponencial que la otra (FORUM).
BIOINFORMÁTICA 3r Biologia UAB arokargomez El NCBI es una base de datos de bases de datos (tiene alrededor de 100 diferentes interconectadas entre ellas). Para ello no indicamos ninguna base de datos, sino que la búsqueda se hace en todas al mismo tiempo, a menos que lo seleccionemos expresamente.
Una de las bases de datos del NCBI es de taxonomia, aunque no es la pagina de taxonomia oficial de biologos ya que sólo se encuentran las especies con secuenciacion completa.
...