TEMA 1 Fonaments de Bioinformàtica (FBI) (2017)

Apunte Catalán
Universidad Universidad de Girona (UdG)
Grado Biología - 3º curso
Asignatura Fonaments de Bioinformàtica
Año del apunte 2017
Páginas 6
Fecha de subida 01/07/2017
Descargas 1
Subido por

Descripción

Inclou els apunts del tema 1 de l'assignatura de Fonaments de Bioinformàtica (FBI) (Part genètica). PORTALS BIOINFORMÀTICS.

Vista previa del texto

Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Avaluació  60% examen final i 40% sessions de grup mitjà Informàtica  Conjunt d’eines informàtiques que ens permeten respondre fenòmens biològics.
TEMA 1 – PORTALS BIOINFORMÀTICS - NCBI EMBL – EBI ExPASy PubMed  cerques bibliogràfiques dins la web de NCBI La quantitat d’informació de dades generades creix molt més ràpid que el ritme de publicació. Necessitem eines que ens permetin processar eficient i ràpidament totes les dades  importància de la bioinformàtica La figura de dalt mostra una tendència lineal tot i que no ho sembli a simple vista, cal fixar-se en els eixos. En canvi, la figura de baix li passa tot el contrari.
Avui dia és molt fàcil obtenir informació biològica. Antigament es va fer un llibre, un manual que contenia totes les seqüències nucleotídiques existents en aquell moment i s’ha passat de 10.000 nucleòtids a centenars de milions.
La Llei de Moore preveia que aproximadament cada dos anys es reduirien els costos de seqüenciació i de processament de dades gràcies a la eficiència d’aquests aparells informàtics. Predicció de reducció de costos per obtenir informació biològica.
1 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Els gràfics que mostren l’evolució de la llei de Moore i el que ha passat realment. A partir d’un cert punt es redueix enormement el cost de seqüenciació.
Aquesta situació pot portar a un coll d’ampolla. La quantitat d’informació que es genera és molt més gran que la que es pot generar.
La bioinformàtica pot fer...
o o o o o o o o o o Trobar informació bibliogràfica Analitzar seqüències de DNA, proteïnes, ARN Predir l’estructura d’una proteïna Predir interaccions entre proteïnes i entre proteïnes-ADN Treballar amb proteïnes que mai han sigut aïllades al laboratori Predir l’estructura de l’ARN Determinar el grau d’expressió d’un gen i la seva distribució espacial Descobrir relacions entre gens i malalties Descobrir relacions filogenètiques entre espècies Treballar amb genomes sencers En definitiva. ANALITZAR INFORMACIÓ BIOLÒGICA A partir d’unes dades experimentals i ho processem mitjançant eines bioinformàtiques que de vegades ens estalvien passos experimentals. La part de interpretar els resultats en un context biològic és el que ens queda als investigadors per fer, ja que la bioinformàtica ens resol la part més experimental.
2 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Fins l’aparició de les eines bioinformàtiques hi havia dos mètodes d’experimentació o o In vivo  amb l’organisme In vitro  fora de l’organisme Ara ha aparegut l’experimentació In silico  silico ve de silici, el material del qual estan fets els processadors (xips d’ordinador) Aquests no són excloents, són complementaris.
Quins aspectes treballarem en base a la bioinformàtica? - Bases de dades  permeten recopilar dades ordenades classificades a traves d’una sèrie de camps i una bona base de dades permetrà trobar fàcilment una entrada en concret a partir d’una informació que té associada. Qualsevol llista ordenada d’objectes on podem cridar una entrada que té informació associada.
Dins de les bases de dades biològiques hi ha: o o o De seqüència Genòmiques  trobarem la seqüència i una sèrie de camps associada.
L’organisme d’origen, seqüència, en quins organismes es transcriu...
De proteïnes (estructurals) - Eines bioinformàtiques → Biologia evolutiva  Algunes permeten inferir una relació evolutiva entre seqüències. Les seqüències poden diferir entre elles i els programes informàtics analitzen la similitud o diferència i poden veure quina diferència filogenètica que hi ha.
→ Modelització de proteïnes  a partir de la seva seqüència.
→ Mapes de genomes  podem trobar mapes genètics que estan fets a partir de localitzacions relatives dels gens. Obteníem distàncies genètiques a partir de centiMorgans. Altres mapes són els físics, tenim una informació a nivell de localització amb parells de bases.
Els portals de la bioinformàtica que treballarem són els següents: NCBI / EMBL – EBI / ExPASy als quals trobarem bases de dades i eines per processar aquestes dades.
EMBL-EBI  (Portal europeu) EBI és European Bioinformatics Institute i European Molecular Biology Laboratory. A continuació es parlarà d’una sèrie de bases de dades contingudes en aquest portal.
Apartat de serveis on tenim un llistat d’eines contingudes dins del portal informàtic. En primer lloc trobarem una base de dades de seqüències genètiques anomenada ENA (European Nucleotide Achive) i s’actualitzen diàriament. Aquestes dades cada dia s’actualitzen amb l’informació continguda a altres bases de dades amb informació de dades genètiques. Intercanvi de dades constant i diari entre ENA i GENBANK (base de dades genètiques de NCBI) i amb un altre portal bioinformàtic japonès (DDBJ). Tot aquest conjunt d’intercanvi de dades és el que s’anomena INSDC (International Nucleotide Sequence Database Collaboration).
3 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Lo important és que les bases de dades de seqüències genètiques dels portals bioinformàtics s’intercanvien dades. Cada cop que es generen seqüències genètiques al laboratori hi ha l’obligatorietat de publicar-les en unes bases de dades. Normalment és GENBANK. Per defecte, el portal americà. Hi ha moltes dades redundants, un mateix organisme hi ha moltíssimes seqüències.
A part de bases de dades de seqüències genètiques també hi ha bases de dades de proteïnes. La més important de totes és la UniProt. Una diferència respecte com tracta les dades ENA, les bases de dades de seqüències hi ha la obligatorietat de publicar les seqüències generades i en canvi al cas de UniProt es revisa i s’anota manualment. No es publica directament, hi ha una certa revisió manual.
Per una banda, UniProt conté totes aquelles seqüències de proteïnes que han estat revisades manualment i, per altra banda, existeix una altre base de dades de proteïnes anomenada TrEMBL. La diferècia amb UniProt és que no conté proteïnes anotades manualment sinó TRADUCCIONS GENERADES AUTOMÀTICAMENT de totes aquelles seqüències que hi ha contingudes al ENA. És a dir, en UniProt si hi ha un procés d’anotació manual i TrEMBL una traducció d’aquestes bases de dades.
Una altre eina molt interessant dins el portal europeu és Ensembl. Aquesta va néixer arrel de quan es va completar el programa de seqüenciació del genoma humà. Es va obtenir la seqüència però no tenien gaire informació, interessava dins d’aquesta poder assignar funcionalitat a les seqüències contingudes i aquesta és la feina d’Ensembl.
PDBe (protein data banc) i permet veure l’estructura tridimensional de les molècules.
Des de 2006 únicament accepta dades obtingudes experimentalment (no accepta dades In silico).
IntAct permetrà veure quines interaccions es donen entre les proteïnes. Ja sigui, recollides a traves de la literatura (publicada prèviament) o enviada per usuaris.
També hi ha ArrayExpress és una base de dades d’experiments fets amb transcriptòmica. Per exemple, podríem veure quins gens s’estan expressant en un teixit concret, organisme concret sota condicions en concret. Són experiments d’expressió de transcriptòmica.
Altres eines d’anàlisi.
Opció de poder fer eina de cerca de seqüència per similitud, un BLAST. Donarà un llistat de les que s’assemblen més i la seqüència pot tenir la identitat 100% amb una seqüència que té una espècie en concret i si són coincidents és que pertany a aquesta espècie. Permet comparar homologies de gens d’un organisme amb altres organismes. FASTA també es útil per fer cerca de seqüència per similitud.
També podem alinear seqüències. Les eines permeten agafar les seqüències semblants i alinear-les per veure clarament les semblances i les diferències. Podem fer un ClustaW, Muscle o T-coffee.
Altres eines que ens permeten treballar amb proteïnes (realitzar anàlisi funcional de proteïnes): 4 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Transeq  traduir en aminoàcids una seqüència de nucleòtids InterProScan  a partir d’una proteïna que introduïm nosaltres la compara amb la base de dades i si troba homòlegs intenta inferir funcions Phobius  troba dominis transmembrana Base de dades de literatura científica seria l’EBIMed.
NCBI  portal Motor de cerca. Si fem una cerca de una proteïna en concret a totes les bases de dades trobem un recull de totes les bases de dades i totes les entrades que hi ha per aquesta proteïna.
A nivell de bases de dades tenim: Pel que fa a nucleòtids: GenBank (equivalent a l’ENA) i té un consorci d’anar intercanviant les dades contínuament. Si vols que es publiquin en un article científic s’ha de publicar aquí. Com tot és redundant i hi ha un excés d’informació ha nascut RefSeq que permet tenir una seqüència de referència (mes ben anotada). Recopila tota aquesta informació i la posa en un format únic de seqüència. Depenent del que estiguem estudiant ens convé més una base de dades o una altre.
Gene dóna dades específiques de gens, ubicació concreta del cromosoma, quins transcrits genera... conjunt d’informació específica del gen.
Genome conté genomes sencers, tant en forma de seqüència com en forma de mapa.
És bastant semblant a Ensembl.
Bases de dades de polimorfismes  De SNP, Microsatèl·lits, Small INDELS...
Bases de dades de seqüències de proteïnes són Protein (GenPept) i és l’equivalent a TrEmbl. Té registres d’UniProt i la traducció automàtica de les seqüències contingudes a GenBank.
Una altre base de dades és OMIM. Conveni de fenotips, de gens i quin fenotip generen. Està centrada únicament en humans però la que hi ha per animals és OMIA.
Una altre eina d’estructura en 3D de macromolècules i proteïnes (models moleculars) és l’anomenada Structure (MMDB) i dues de literatura científica, una de les quals és PubMed que conté reculls d’abstracts, referències d’articles o de les publicacions associades al NCBI. En canvi, PubMed Central és un recull d’articles complets gratuïts.
També hi ha una altre eina de cerca de seqüències per similitud (BLAST).
L’eina d’identificació per contaminació per vectors és VecScreen L’eina pel disseny de primers PCR  Primer-BLAST. Dóna la temperatura òptima d’hibridació i la mida que amplificarà.
5 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA L’eina d’identificació d’ORF és ORF finder.
L’eina de visió de mapes genòmics és MapViewer.
Per últim, dels tres portals que hi havia al principi del tema també hi ha l’ExPASy té un format de navegació molt bonic a nivell visual. Al principi només contenia dades de proteòmica però actualment amplifiquen amb altres temes.
UniProt (UniProtKB/Swissprot) Prosite & ScanProsite HAMAP (Anotació manual i auto de proteïnes microbianes) Swiss-Model (modelització de proteïnes on-line) STRING (interacció entre proteïnes) ProtParam (Calcula paràmetres proteïnes) Arlequin (software filogènia molecular) 6 ...

Tags:
Comprar Previsualizar