Seqüències nucleotídiques- Tema 3 (2014)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Genética - 3º curso
Asignatura Bioinformática
Año del apunte 2014
Páginas 4
Fecha de subida 18/02/2015
Descargas 2
Subido por

Vista previa del texto

BI-­‐  Tema  3   TEMA  3:  BASES  DE  DADES   Les  bases  de  dades  es  classifiquen  en  :   -­‐ Primàries:  Contenen  la  informació  “crua”,  dades  directes  de  l’experimentació  com:     o Seqüències  nucleotídiques   o Estructures  tridimensionals  de  les  proteïnes   Per  tant,  aquesta  informació  no  ha  estat  analitzada.       o A  nivell  mundial  hi  ha  3  grans  llocs  on  dipositar  seqüències  primàries:   § ENA  (European  Nucleotide  Archive)   § DDBJ  (DNA  Data  Bank  of  Japan)   § NCBI  (National  Center  for  Biotechnology  Information)   è Actualment  aquestes  bases  de  dades  estan  constantment   comunicades.  De  manera  que  busquem  el  que  busquem,  obtindrem  la   mateixa  informació.  L’única  cosa  que  pot  canviar  és  el  motor  de  cerca.   -­‐   Secundàries:  Són  bases  derivades  de  l’anàlisi  i  tractament  de  la  informació  en  les   bases  de  dades  primàries,  com  a  bases  de  dades  de:   o Estructura  secundària   o Dominis  i  famílies   o Motius   o Matrius   o Perfils  de  hidrofobicitat   o Seqüències  proteiques  obtingudes  per  traducció   o ...     Normalment  utilitzarem  les  bases  de  dades  primàries.  Un  cop  hi  trobem  informació,  migrarem   a  bases  de  dades  secundaries.       Format  de  seqüències  i  registres:   -­‐ -­‐ Preparació  i  edició:  La  seqüencia  que  obtenim  cal  que  l’editem  seguint  la  normativa  de   les  bases  de  dades   Submissió:    l’edició  es  pot  fer  mitjançant  un  programari  ja  existent  (Sequin)o  bé  en   línia  (Web  en  BankIt).  Això  es  f  perquè  tot  el  que  estigui  indexat  en  les  bases  de  dades   ha  de  tenir  el  mateix  format.   1     BI-­‐  Tema  3   -­‐ Assignació  de  codis  d’accés:  Un  cop  hem  registrat  la  seqüència  rebem  un  codi  que  és   únic  per  aquell  registre.     -­‐ Revisions  i  actualitzacions:  que  es  guarden  però  mantenint  l’arxiu  original  i  les   antigues  revisions  intactes.     A  més,  podem  demanar  a  la  base  de  dades  que  protegeixi  la  informació  del  registre,  de   manera  que  encara  no  es  penja  públicament  fins  que  nosaltres  ho  permetem.       Format  fitxers:   Els  fitxers  són  fitxers  de  text  que  poden  ser  de  diferents  tipus  segons  el  que  continguin:   -­‐ Senzill:  només  conté  la  seqüencia  i  la  seva  petita  descripció.  Alguns  formats  són   FASTA,  EMBL,  GenBank,  GCG,  Stadem.     o FASTA  és  el  format  més  simple,  on  la  primera  línia  conté  la  descripció  de  la     seqüencia  i  les  següents  ja  contenen  la  seqüencia.  El  símbol  >  identifica  la   primera  línia  del  fitxer  FASTA,  aquesta,  no  conté  cap  salt  de  línia.  A  les  línies  de   la  seqüencia  sí  que  hi  poden  haver  salts  de  línies.     o FASTA  es  pot  interpretar  per  qualsevol  software  de  d’anàlisi  gràcies  a  la  seva   estructura  simple.  Sempre  que  vulguem  analitzar  una  seqüencia  prendrem   com  a  referent  aquest  format.   -­‐   Múltiple:  Es  barreja  informació  primària  (seqüencia  i  descripció)  i  els  resultats  dels   anàlisis  de  la  seqüencia.  Alguns  exemples  d’aquests  arxius  són;  Clustal,  Phylip  i  MSF.   -­‐ Mixte:  Hi  ha  una  barreja  d’arxius,  en  general  conté  més  informació,  com  per   exemple  prediccions  de  l’estructura  de  les  proteïnes.  Un  exemple  és  RSF.   Ex/  FASTq  Format:  En  l’exemple  es  mostra  un  arxiu  FASTq.  Aquest  format  es  caracteritza   perquè,    a  més  de  la  seqüencia,  conté  informació  de  la  seva  qualitat.       2     BI-­‐  Tema  3   Filtrar  arxius:     Una  cosa  que  ens  pot  interessar  és  depurar  els  arxius,  per  això  necessitem  un  programari  que   filtri,  que  extregui  sols  la  informació  primària  d’un  arxiu  complex  (múltiple  o  mixte),  de  manera   que  ens  el  converteixi  en  FASTA.  Un  d’aquests  programes  es  Readseq.         Anotació  GenBank:     És  un  arxiu  senzill,  però  no  FASTA,  que  conté  3  grans  parts:   -­‐ Encapçalament:    Aquest  conté:   o Codi  d’accés:  és  universal  i  estable  en  el  temps.  Permet  distingir  versions  del   registre,  és  a  dir,  cada  cop  que  fem  un  canvi  en  el  registre,  en  realitat  es   genera  un  nou  document  a  la  base  de  dades.  De  manera  que  podem  treballar   amb  diferents  versions  d’una  seqüència  en  que  cada  una  conté  la  seqüencia  i   les  actualitzacions  que  li  haguem  fet  (és  a  dir,  d’una  base  de  dades  mai   s’esborra  res).     §  En  fer  un  canvi  en  el  registre,  el  codi  d’accés  no  canvia,  sinó  que  se  li   afegeix  una  extensió  (per  exemple,  si  el  codi  és  U07418,  la  primera   versió  serà  U07418.1).   § Sempre  trobem  la  darrera  versió  de  la  seqüencia.     § El  GenBank  té  una  codificació  pròpia  i  independent  del  codi  del   registre  (que  serà  universal  –igual  en  totes  les  bases  de  dades-­‐),   anomenada  GI  i  que  és  una  codificació  numèrica.   -­‐ Taula  de  característiques  relatives  a  la  seqüencia  que  conté  tags.  Alguns  tags  són:   o Origen  (Source):  ens  ubica  per  organisme,  espècie...  En  aquest  cas,  l’organisme   de  la  qual  prové  la  seqüencia  es  troba  indexat  per  taxonomia  en  un  nombre  de   taxó  (el  numero  9606).  Així  doncs,  si  volem  buscar  tota  la  informació  relativa  a   aquest  taxó,  podem  utilitzar  aquest  numero  en  una  base  de  dades.     § Aquesta  base  de  dades  de  taxonomia  és  mantinguda  per  NCBI.  En   buscar  un  codi  d’un  taxó,  podem  veure  tota  la  informació  relacionada   a  aquest  codi.     o Gene:  Ubicació,  nom...   o CDS:  regió  codificant.  En  general  el  gen  es  tradueix  automàticament   (l’investigador  no  aporta  res),  però  hi  ha  bases  de  dades  que  incorporen   informació  de  l’experimentació.   -­‐ Seqüencia       (veure  exemple  a  les  diapositives)               3     BI-­‐  Tema  3   Anotacions:  Tenim  unes  claus  principals  (keywords)  a  les  que  podem  fer  referència.   Un  cop  les  hem  buscat,  ubiquem  (mitjançant  un  número)    i  posteriorment  afegim   qualificadors,  que  és  informació  auxiliar.                           Bases  de  dades  moleculars  (Nucleic  Acid  Research).   La  revista  Nucleic  Acid  Research  cada  any  es  dedica  a  fer  revisions  de  les  bases  de  dades.  En  el   mes  de  gener  editen  un  monogràfic  que  conté  les  revisions  de  tot  el  que  s’ha  publicat  l’any   anterior  en  relació  a  bases  de  dades  moleculars.     Aquesta  revista  és  d’accés  lliure  i  ens  permet  tenir  accés  a  les  revisions  dels  anys  X.     Les  revisions  contenen  el  contingut  de  les  bases  de  dades  i  les  tècniques  d’anàlisi  que  utilitzen.       Motors  de  cerca:   Ens  permeten,  utilitzant  una  sola  estratègia,  cercar  en  totes  les  bases  de  dades.  Però  aquesta   eina  no  ens  permet  combinar  estratègies  (per  exemple,  podem  utilitzar  AND  però  no   parèntesis  o  frases).               4     ...