TEMA 1 – INTRODUCCIÓN AL USO DE HERRAMIENTAS INFORMÁTICAS EN EL ESTUDIO DE LA GENÉTICA (2015)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Genética - 2º curso
Asignatura Técnicas instrumentales
Año del apunte 2015
Páginas 4
Fecha de subida 10/02/2015
Descargas 16

Vista previa del texto

TEMA 1 – INTRODUCCIÓN AL USO DE HERRAMIENTAS INFORMÁTICAS EN EL ESTUDIO DE LA GENÉTICA El reto de la secuenciación del Genoma Humano (en 2001 se publicó el borrador de la secuencia) ha transformado radicalmente la práctica de la Biología Molecular. A partir de aquí han nacido nuevas tecnologías de alto rendimiento derivadas del proyecto genoma humano producen ingentes cantidades de datos biológicos.
Además, han nacido nuevos proyectos: - Proyecto de los 1000 genomas humanos.
Proyecto de los 10000 genomas de vertebrados “zoo genómico”. Consiste en secuenciar al menos un genoma de cada género.
Incluso se ha llegado a anuncia el proyecto del 1000000 de genomas humanos.
El surgimiento de la bioinformática La bioinformática es una de las piedras angulares de la investigación médica y biológica del siglo XXI; es imprescindible para sacar información de los datos. Se encuentra en una posición central en la era postgenómica: Datos – Recursos y herramientas bioinformáticas – Conocimiento Encontramos dos perfiles extremos a los que puede pertenecer un bioinformático: 1. Usuario: se encarga de la utilización de aplicaciones bioinformáticas existentes (Blast, Clustal, MapViewer,…) para efectuar análisis e interpretación de datos.
2. Se encarga del desarrollo de software o aplicaciones informáticas nuevas (DnaSP, GenomeBrowsers…) porque no sirven las herramientas existentes, o porque el tipo de análisis requiere la adaptación de las herramientas existentes (Módulos Bioperl).
Pero en este cuso adoptaremos una situación intermedia: escribiremos programas (scripts) sencillos que corren otros más complejos o que realizan algunas tareas repetitivas específicas (buscar y recopilar información periódicamente en bases de datos) incorporando un código ya existente.
La capacidad de crear pequeños programas que ayudan a hacer tareas bioinformáticas utilizando un código existente es increíblemente útil: puede significar un ahorro muy considerable de tiempo respecto a hacer la misma cosa reiterativamente a mano sentados en el ordenador.
El problema de la integración de datos En un análisis bioinformático estándar se dan los siguientes pasos: 1. Extracción y almacenamiento via internet.
2. Análisis y almacenamiento reiterado.
3. Consulta y visualización.
Una vez tengamos la información que necesitamos, extraeremos lo que nos interesa y lo almacenaremos, lo guardaremos en bases de datos primarias, donde se encontrará la información bruta.
Después del análisis, guardaremos la información en bases de datos secundarias y terciarias. Finalmente, cuando hayamos realizado el análisis total, crearemos un html o página web donde la gente pueda consultar la información que nosotros hemos obtenido.
Hay dos formas de operar: 1. Manual: efectuaremos todo el proceso manualmente.
2. Automatización: crearemos aplicaciones o scripts con un lenguaje apropiado que automaticen la extracción de información y concatenen (enlacen o vinculen) el tratamiento de los datos.
Ejemplo: PDA (Pipeline diversity analysis): Large-scale exploration of genetic polymorphism - How many polymorphic sequences are available in Genbank for one or several species of interest? For example, Cetacean group.
How much variation in there in such sequences? De manera manual lo podríamos hacer mediante los siguientes pasos: 1.
2.
3.
4.
5.
6.
Buscar secuencias en GanBank.
Agrupar por organismo y gen.
Extraer las regiones homólogas.
Alinear las regiones (Crustal, Muscle…) para asegurarnos que las secuencias son homólogas.
Estimar el polimorfismo (DnaSP, Arlequin…) Guardar los resultados y/o gráficos.
Pero si queremos hacerlo de manera automatizada, un programa hará por nosotros lo que de manera manual hubiésemos hecho nosotros mismos pero de una manera mucho más rápida.
1. Introducir el organismo en PDA.
2. Esperar a que el programa haga su trabajo y navegar a través de los resultados.
Después de estos pasos, descargaríamos los datos y los miraríamos y analizaríamos. Finalmente crearíamos un página web donde otra gente por internet podría ver nuestros resultados. Podríamos: 1. Descargar BD MySQL.
2. Resumir los datos gráficamente.
3. Administrar las búsquedas realizadas.
Screen scraping Ejemplo: recopilación de secuencias del gen adh en especies del género Drosophila.
Utilizaremos la página web FlyBase, donde podemos encontrar bases de datos sobre el género Drosophila.
El screen scraping consiste en la extracción de información de páginas html. Si lo hacemos mediante un programa informático, deberemos indicarle a éste sonde debe ir a buscar a información, ya que éste sólo es capaz de leer el código html de la página web. Por tanto, deberemos indicar en qué etiquetas se encuentra la información que queremos saber o analizar.
Pero esto trae problemas: a) Cambios frecuentes en la interfaz (hay una nueva versión de la página): los scripts dejarían de funcionar.
b) Inexistencia de documentación sobre el formato exacto de la interfaz (la página no nos indica de qué manera almacena la información): puede que en algunos casos no probados los scripts no funcionen.
c) Los scripts que se comparten no están generalmente documentados, pero si no están bien explicados, no les servirán a nadie debido a que no se entenderán. Muchos centros desarrollan los mismos scripts, los bioproyectos, como BioPerl, BioJava, BioPython o BioRuby.
Conceptos básicos de informática Informática: Conjunto de conocimientos científicos y técnicas que hacen posible el tratamiento automático de la información por medio de ordenadores.
Ordenador: Máquina electrónica dotada de una memoria de gran capacidad y de métodos de tratamiento de la información, capaz de resolver problemas aritméticos y lógicos (la calculadora no resuelve problemas lógicos) gracias a la utilización automática de programas registrados en ella.
Periférico: Aparato auxiliar e independiente conectado a la unidad central de una computadora. Podemos clasificar los periféricos en 4 categorías: - Entrada: teclado, ratón, micrófono, escáner, webcam… Salida: monitor, impresora, tarjeta de sonido, altavoz… Almacenamiento: disco duro, CD/DVD/disquete, memoria flash… Comunicación (con otras máquinas): tarjeta de red, router, tarjeta bluetooth… Hardware: Conjunto de los componentes que integran la parte material de un ordenador.
Software: Conjunto de programas, instrucciones y reglas informáticas para ejecutar ciertas tareas en un ordenador.
“El hardware es lo que golpeamos cuando el software se cuelga” Programa: Conjunto unitario de instrucciones que permite a un ordenador realizar funciones diversas, como el tratamiento de textos, el diseño de gráficos, la resolución de problemas matemáticos, el manejo de bancos de datos… Sistemas operativos Un sistema operativo es un programa o conjunto de programas que efectúan la gestión de los procesos básicos de un sistema informático, y permiten la normal ejecución del resto de las operaciones.
Un sistema operativo es una colección de rutinas de control que hacen funcionar al ordenador y proporcionan un entorno para la ejecución de programas. Permite que el resto de programas accedan a recursos del sistema informático como el procesador, archivos y dispositivos de entrada/salida. El SO actúa como interfaz entre los usuarios/aplicaciones y el hardware de un sistema informático.
Usuario ↔ aplicación ↔ sistema operativo ↔ hardware Funciones de los SO - Interpretar los comandos que permiten al usuario comunicarse con el ordenador.
Coordinar y manipular el hardware del ordenador (memoria, impresora, unidades de disco, teclado, ratón...) Organizar los archivos en diversos dispositivos de almacenamiento.
Gestionar los errores de hardware y la pérdida de datos.
Servir de base para la creación de software permitiendo que equipos diferentes funcionen de manera análoga, salvando las diferencias existentes entre ambos.
Configurar el entorno para el uso del software y los periféricos.
Clasificación de los SO Según la administración de tareas: - - Monotarea (obsoleto): Solamente puede ejecutar un proceso en un momento dado. Una vez se empieza a ejecutar un proceso, continuará haciéndolo hasta su finalización y/o interrupción y no se podrá iniciar otro proceso hasta que el primero no haya finalizado o haya sido interrumpido.
Multitarea (todos los ordenadores actuales): Capaz de ejecutar varios procesos al mismo tiempo. Se asignan los recursos disponibles (CPU, memoria, periféricos) de forma alternada a los procesos que los solicitan, de manera que el usuario percibe que todos funcionan a la vez, de forma concurrente, mientras que los procesos se están ejecutando individualmente durante un periodo de tiempo determinado.
Según la administración de usuarios: - Monousuario (Windows): Sólo permite ejecutar los programas de un usuario al mismo tiempo.
Multiusuario (Linux): Permite que varios usuarios ejecuten simultáneamente sus programas, accediendo a la vez a los recursos de la computadora. Normalmente estos sistemas operativos utilizan métodos de protección de datos, de manera que un programa no pueda usar o cambiar los datos de otro usuario.
Cronología de los SO 1960s: - Multics (SO multiusuario-multitarea) UNIX 1970s: - Nuevas versiones de UNIX CP/M (precursor de DOS) BSD (variante de UNIX, primer SO de código abierto al público y gratuito, podremos verlo y modificarlo) Apple DOS 1980s: - MS-DOS (primer ordenador IBM Microsoft Windows 1.01 / AmigaOS interfaces gráficas 1990s: - Linux Windows 95 Mac OS 2000s: - Mac OS X Windows XP  décima versión de Windows.
Redes e internet - RED: sistema que permite conectar diferentes ordenadores y recursos para poder interactuar entre sí.
INTERNET: es un conjunto descentralizado de redes de comunicación interconectadas ...