Proteïnes- Tema 2 (2014)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Genética - 3º curso
Asignatura Bioinformática
Año del apunte 2014
Páginas 8
Fecha de subida 18/02/2015
Descargas 4
Subido por

Vista previa del texto

Tema  8.  Proteïnes:  anàlisi  de  l’estructura   1   Bioinformàtica     TEMA  8.  PROTEÏNES:  ANÀLISI  DE   L’ESTRUCTURA   Í NDEX   1   Bancs  de  dades  d’estructura  terciària  (3D)  .........................................................................................  2   1.1   1.1.1   2   3   PDB:  Ligand  explorer  ..........................................................................................................  2   1.2   MMDB  (NCBI)  ..............................................................................................................................  2   1.3   PDBSum  (EBI)  ..............................................................................................................................  2   PDB.  Visualitzadors  d’estructures  terciàries  .........................................................................................  3   2.1   Jmol  .............................................................................................................................................  3   2.2   Rasmol  ........................................................................................................................................  3   2.3   Cn3D  (MMDB)  .............................................................................................................................  3   2.4   Pymol  ..........................................................................................................................................  4   Alineament  estructural  .........................................................................................................................  4   3.1   Mètodes  ......................................................................................................................................  4   3.1.1   Mètode  intermolecular  ......................................................................................................  4   3.1.2   Mètode  intramolecular  ......................................................................................................  4   3.2   4   Protein  Data  Bank  (PDB)  .............................................................................................................  2   Algoritmes  d’alineament  estructural  ..........................................................................................  5   3.2.1   VAST  ...................................................................................................................................  5   3.2.2   Dali  .....................................................................................................................................  5   3.2.3   Dali  +  Vast  +  Scop  ...............................................................................................................  5   Classificació  estructural  de  dominis  de  proteïnes  ................................................................................  5   4.1   SCOP  ............................................................................................................................................  5   4.2   CATH  ...........................................................................................................................................  6   4.3   SCOP  vs  CATH  ..............................................................................................................................  7         Tema  8.  Proteïnes:  anàlisi  de  l’estructura   2   Bioinformàtica     1 1.1 B ANCS  DE  DADES  D ’ ESTRUCTURA  TERCIÀRIA   (3D)   P ROTEIN   D ATA   B ANK   (PDB)   http://www.rcsb.org/pdb/home/home.do   [X-­‐Ray  +  NMR]  Research  Collaboratory  for  Structural  Bioinformatics  (RCSB)  =Rutgers  group  +  SDSC.   S’analitza   un   cristall   amb   raigs   X,  cosa   que   dóna   lloc   a   un   mapa   de   densitats,   a   partir   del   qual   s’obtenen   les  coordenades  contingudes  al  fitxer  PDB.   El  Protein  Data  Bank  conté  les  coordenades  espacials  x,y,z  de  cada  àtom  de  l’estructura  proteica.   És   una   base   de   dades   de   l’estructura   tridimensional   de   les   proteïnes   i   àcids   nucleics.   Aquestes   dades,   generalment   obtingudes   mitjançant   cristal·∙lografia   de   rajos   X   o   ressonància   magnètica   nuclear,   són   enviats  per  biòlegs  i  bioquímics  de  tot  el  món.  Estan  sota  domini  públic  i  poden  ser  utilitzats  lliurement.   Cada  estructura  proteica  és  introduïda  a  la  base  de  dades  PDB  com  a  condició  per  la  seva  publicació.   És  una  base  de  dades  gestionada  per  RCSB  (Research  collaboratory  for  structural  bioinformatics).   La   web   de   PDB   permet   la   submissió   de   dades   i   la   seva   cerca,   obtenir   informació   resumida   sobre   estructures,  cerca  de  homòlegs  estructurals,  accés  a  bibliografia..   Hi  ha  una  alta  redundància  (800  plegaments  vs  ∼  1000000).   El   Worldwide   Protein   Data   Bank   (wwPDB)   consisteix   en   centres   que   organitzen,   processen   i   distribueixen  les  dades  PDB:  PDBe  (Europa),  RCSB  PDB  (EE.UU.),  PDBj  (Japó)  i  el  grup  BMRB  (EE.UU).   1.1.1 PDB:   L IGAND  EXPLORER   El   Ligand   explorer   del   PDB   és   un   visualitzador   que   permet   la   visualització   d’interaccions   dels   lligands   units  a  proteïnes  i  estructures  d’àcids  nucleics.  Té  opcions  per  mostrar  diferents  interaccions,  incloent   enllaços   d’hidrogen,   contactes   hidrofòbics,   enllaços   d’hidrogen   mediats   per   aigua   i   interaccions   metàl·∙liques.   1.2 MMDB   (NCBI)   http://www.ncbi.nlm.nih.gov/Structure/mmdb   Molecular   modelling   database   (MMDB)   facilita   l’accés   a   les   dades   estructurals   connectant-­‐les   amb   literatura  associada,  seqüències  aminoacídiques  i  nucleotídiques,  químics,  interaccions  biomoleculars   i  més.   Clicar  a  Vast+  permet  trobar  homòlegs  estructurals  d’una  manera  directa.   1.3 PDBS UM   (EBI)   www.ebi.ac.uk/pdbsum/     Conté  la  descripció  general  de  les  estructures  contingudes  al  PDB  (EBI).   Tema  8.  Proteïnes:  anàlisi  de  l’estructura   3   Bioinformàtica     Cada   estructura   a   la   base   de   dades   PDBsum   inclou   una   imatge   de   l’estructura,   els   components   moleculars   en   diagrames   de   reaccions,   Gene   Ontology   assignacions   funcionals,   una   seqüència   1D   anotada   per   Pfam   i   InterPro,   la   descripció   de   molècules   unides   i   gràfic   que   mostra   les   interaccions   entre   les   proteïnes   i   l’estructura   secundària,   diagrames   esquemàtics   de   les   interaccions   proteïna-­‐ proteïna,  anàlisi  de  butxaques  contingudes  en  l’estructura  i  enllaços  a  bases  de  dades  externes.   2 PDB.   V ISUALITZADORS  D ’ ESTRUCTURES  TERCIÀRIES   Les  eines  de  visualització  les  podem  trobar  a  l’apartat  Imaging  de  l’ExPASy.   L’arxiu   que   es   diposita   en   una   base   de   dades   d’estructura   terciària   no   és   una   imatge,   sinó   coordenades.   Les   representacions   d’aquestes   dades   poden   ser   diferents   en   funció   del   que   ens   interessi   buscar:   varetes,  boles  i  varetes,  space-­‐filling,  cintes.     Generació  de  gràfics  moleculars:  tenim  certes  característiques  que  podem  aplicar  un  cop  seleccionada  la   representació.   Per   exemple:   arc   de   Sant   Martí   (B),   alfa-­‐hèlixs   en   blau   i   làmines   beta   en   verd   (C),   superfície  hidrofòbica  de  la  proteïna  amb  un  codi  de  colors  (D)...     2.1 J MOL   PDB,  mesura  distàncies.   2.2 R ASMOL   2.3 C N 3D   (MMDB)   Tema  8.  Proteïnes:  anàlisi  de  l’estructura   4   Bioinformàtica     Visualització  3D,  pot  sobre-­‐imposar  estructures.   Cn3D  simultàniament  mostra  l’estructura,  la  seqüència  i  l’alineament.   2.4 P YMOL   Per  baixar-­‐nos  a  l’ordinador  ens  recomana  PyMOL.   3 3.1 A LINEAMENT  ESTRUCTURAL   M ÈTODES   3.1.1 M ÈTODE  INTERMOLECULAR   Per   a   estructures   similars,   una   estructura   es   moguda   respecte   d’una   altra   fins   trobar   el   màxim   de   solapament.     D=  distancia  entre  puntos  de  coordinada   N=  número  de  residuos     Comparació  d’estructures:   A. Les   dues   estructures   es   col·∙loquen   en   diferents   posicions   de   l’espai   3-­‐D.   Les   posicions   equivalents  s’identifiquen  per  alineament  de  seqüències.   B. Translació,  una  de  les  estructures  (esquerra)  es  mou  en  relació  a  l’altra  mitjançant  moviments   laterals  i  verticals.   C. Una   de   les   estructures   (esquerra)   es   rota   en   relació   a   l’estructura   de   referència   fins   que   les   distàncies  relatives  entre  les  posicions  equivalents  són  mínimes.     3.1.2 M ÈTODE  INTRAMOLECULAR   Es  basa  en  l’estadística  estructural  interna  i  no  depèn  de  la  similitud  entre  les  proteïnes  comparades.   No  sobre-­‐imposa  les  estructures.   Funciona  generant  una  matriu  de  distància  entre  els  residus  de  la  mateixa  proteïna.   Són  les  matrius  de  cada  proteïna  les  que  són  comparades  i  solapades.     Tema  8.  Proteïnes:  anàlisi  de  l’estructura   5   Bioinformàtica     Patrons  de  distància  intermolecular  similars  corresponen  a  regions  de  plegament  similar.   3.2 A LGORITMES  D ’ ALINEAMENT  ESTRUCTURAL   3.2.1 VAST   www.ncbi.nlm.nih.gov:80/Structure/VAST/vast.html   Segueix  el  mètode  intermolecular.   La  superposició  es  basa  en  la  direccionalitat  dels  elements  d’estructura  secundària,  que  es  representen   com  a  vectors.   L’alineament  òptim  entre  dues  estructures  està  definit  pel  grau  màxim  de  concordances  de  vectors.   Permet   identificar   similitud   estructural   allà   on   no   es   detecta   similitud   seqüencial   →   la   similitud   detectada  per  VAST  sovint  indica  homologia  remota.   Permet  identificar  regions  en  les  que  l’evolució  ha  modificat  l’estructura  proteica.   3.2.2 D ALI   www2.ebi.ac.uk/dali/   Segueix  el  mètode  intramolecular.   Construeix   matrius   basades   en   les   distàncies   entre   tots   els   Cα   de   cadascuna   de   les   proteïnes   que   es   volen  alinear.   Les  matrius  de  distàncies  se  superposen  i  es  mouen  una  respecte  l’altra  per  tal  d’identificar  les  regions   més  similars.   Significància  estadística:  Z-­‐score  (Z-­‐score  >  4  →  similitud  estructural  significativa).   És  també  una  base  de  dades  dels  Z-­‐scores  entre  tots  els  parells  d’estructures  del  PDB.   Útil  per  a  construir  models  estructurals  a  partir  de  la  comparació.   3.2.3 D ALI   +   V AST   +   S COP   La  utilització  de  DALI  +  VAST  +  SCOP  permet  la  investigació  de  relacions  estructurals  entre  proteïnes.   4 4.1 C LASSIFICACIÓ  ESTRUCTURAL  DE  DOMINIS  DE  PROTEÏNES   SCOP   www.scop.mrc-­‐lmb.cam.ac.uk/scop/   Comparació  i  classificació  d’estructures  de  proteïnes.   Structural  Classification  of  Proteins  (SCOP)   Construïda  per  inspecció  manual  (visual)  i  automàtica  de  les  estructures.   Tema  8.  Proteïnes:  anàlisi  de  l’estructura   6   Bioinformàtica     Nivells  jeràrquics:  classes,  plegaments  (folds),  superfamílies  i  famílies.     Les   proteïnes   es   classifiquen   de   forma   jeràrquica   per   reflectir   la   relació   de   parentesc   estructural   i   evolutiu.  En  aquesta  jerarquia  hi  distingim  diferents  nivells:   • • • • 4.2 Família:   relació   evolutiva   clara,   normalment   amb   la   mateixa   funció   i   estructures   molt   i   molt   similars,  identitat  de  la  seqüència  ≥  30%  (no  és  una  mesura  absoluta).   o Exemple:  a  la  família  de  les  globines  hi  ha  membres  amb  identitat  del  15%.   Superfamília:   la   similitud   estructural   i   funcional   suggereix   un   origen   comú   malgrat   la   baixa   identitat  de  seqüència.   Plegament   (fold):   superfamílies   amb   una   estructura   nuclear   (core)   comuna,   és   a   dir,   les   mateixes  estructures  secundàries  principals  amb  la  mateixa  disposició,  topologia  i  connexions   (greek   key,   jelly-­‐roll,   bundle,   sandwich,   barrel...),   tinguin   o   no   un   origen   evolutiu   comú   (convergència  estructural).   Classe:   plegaments   amb   estructures   core   similars.   Distinció   de   grups   de   proteïnes   per   composició  d’estructures  secundàries  (tot  α,  tot  β,  α  i  β...).  En  general,  la  relació  evolutiva  entre   els  plegaments  d’una  mateixa  classe  és  per  atzar.   CATH   www.biochem.ucl.ac.uk,  http://www.cathdb.info/   Class  Architecture  Topology  and  Homologous  (CATH)   Classificació   de   dominis   jeràrquics   d’estructures   de   proteïnes   construïda   per   comparació   manual   d’estructures  i  per  alineament  estructural  automàtic  (programa  SSAP).   Nivells  jeràrquics:   • • • Classe  (C):  composició  i  distribució  d’estructura  secundària  al  llarg  de  la  cadena  polipeptídica.   Es  defineixen  4  classes  principals:   o α:  principalment  α,  poca  β.   o β:  principalment  β,  poca  α.   o α-­‐β:  α/β  i  α+β.   o Low  SS:  baix  contingut  en  estructura  secundària.   Arquitectura  (A):  disposició  geomètrica  a  grosso  modo  dels  elements  d’estructura  secundària,   sense   considerar   la   connectivitat   entre   ells.   Per   exemple,   i.e.   no   importa   el   seu   ordre   (per   exemple:  barrel  roll,  sandwich,  bundle...).   Topologia/plegament  (T):  subdivisió  del  nivell  A  que  té  en  compte  també  la  connectivitat  entre   els  elements  d’estructura  secundària.  Equivalent  al  nivell  fold  en  SCOP.   Tema  8.  Proteïnes:  anàlisi  de  l’estructura   7   Bioinformàtica     • • Homologia  (H):  agrupa  dominis  que  comparteixen  >35%  d’identitat  de  seqüència  i  es  pensa  que   comparteixen  un  ancestre  comú.   Superfamília   homòloga   i   família   homòloga:   equivalents   als   nivells   de   superfamília   i   família   a   SCOP,  respectivament.     Dominis  amb  els  mateixos  números  de  C,  A  i  T  presenten  el  mateix  plegament  global.     4.3 SCOP  VS   CATH   Malgrat   les   diferències   de   criteris   en   ambdues   classificacions,   els   resultats   obtinguts   amb   els   dos   sistemes  convergeixen  un  80%  dels  casos.   El  millor  és  comparar  els  resultats  de  classificació  obtinguts  a  partir  de  cada  sistema  abans  de  col·∙locar   una  estructura  al  seu  context  correcte.   Tema  8.  Proteïnes:  anàlisi  de  l’estructura   8   Bioinformàtica       ...