Proteïnes- Tema 1 (2014)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Genética - 3º curso
Asignatura Bioinformática
Año del apunte 2014
Páginas 16
Fecha de subida 18/02/2015
Descargas 6
Subido por

Vista previa del texto

BI-­‐  Tema  1     BIOINFORMÀTICA:  MÒDUL  2  –PROTEÏNES       TEMA  1:  PROTEÏNES;  ANÀLISI  DE  LA  SEQÜÈNCIA   Analitzarem  la  seqüencia  de  les  proteïnes  fins  a  trobar  la  seva  funció:     1. Recursos  d’informació  sobre  proteïnes.  Bases  de  dades  de  proteïnes.     2. Anàlisi  de  la  seqüència  de  proteïnes     3. Identificació  de  proteïnes  a  partir  de  dades  experimentals     4. Predicció  d’estructura  secundaria  a  partir  de  la  seqüència     5. Predicció  de  la  funció  de  proteïnes:  motius,  dominis  i  famílies  estructural/funcionals.       Recursos  bioinformàtics   Podem  tenir  informació  de  proteïnes  en  les  poblacions  (observant  el  fenotip)  i  podem  anar   baixant  fins  a  arribar  al  DNA.  Això  genera  una  quantitat  d’informació  molt  gran.   Fins  avui  tenim  unes  32  bases  de  dades  que  recullen  tot  tipus  d’informació  sobre  proteïnes  i  219   eines  per  analitzar  la  informació.       Dins  de  totes  les  bases  de  dades  hi  ha  informació  d’estructura,  família,  senyalització,  expressió  de   gens,  visualització  de  les  estructures,  ontologia,  interacció  entre  proteïnes...  Tota  aquesta   informació  se’ns  genera  a  partir  de  la  seqüencia  primària  de  la  proteïna.       5.1.  RECURSOS  D’INFORMACIÓ  DE  PROTEÏNES   A  partir  del  1988  es  va  establir  la  Xarxa  Europea  de  Biologia  Molecular  (EMBMet)  que   enllaçava  els  laboratoris  europeus  que  utilitzaven  la  bioinformàtica  i  la  biocomputació.   Opera  amb  20  nodes  nacionals,  8  especialistes  i  6  associats.     • Aquesta  xarxa  proporciona  informació,  programes  i  serveis  en  línia  a  usuaris  de   bioinformàtica.     • De  manera  que  no  cal  mantenir  còpies  individualitzades  de  dades  biològiques,  no  cal   instal·∙lar  aplicacions  i  eïnes  de  cerca,  i  no  cal  comparar  llicències  cares  per  utilitzar  paquets   de  programes  comercials  per  accedir  a  les  dades.       En  aquest  moment,  per  això,  la  informació  estava  separada  (seqüencia,  funció...).   • 1993,  s’estableix  SRS;  Sequence  Retrieval  System.    Un  sistema  de   recuperació  de   seqüències;  navegador  de  xarxa  per  bases  de  dades en  biologia  molecular.       o Permet  que  qualsevol  base  de  dades  en  fitxer  pla  (falt  file)  sigui  indexada  en  qualsevol   altra.  De  manera  que  relaciona  tota  la  informació  bàsica  d’una  proteïna  i  a  partir  d’un   codi  es  pot  obtenir  molta  informació.   o  Permet  recuperar,  enllaçar  i  accedir  a  entrades  entre  tots  els  recursos  interconectats.     • 1996  Entrez  del  NCBI  (National  Center  for  Biotechnology  Information,  Bethesda).   Desenvolupat  per  recuperar  dades  de  biologia  molecular  i  cites  bibliogràfiques.     Aquesta  base  de  dades  proporciona  accés  a  seqüències  de  DNA  de  diferents  nodes   (GenBank,  EMBL,  DDBJ),  dades  de  mapeig  cromosòmic,  seqüències  de  proteïnes  (SWISS-­‐   PROT,  PIR,  Uniprot,  PRF-­‐SEQDB)  estructures  proteiques  (PDB).     •   1   BI-­‐  Tema  1         • • • Actualment  existeix  un  dèficit  entre  seqüencia  genoma/estructura  de  proteïnes.  Es  a  dir,   partint  de  la  seqüencia  de  la  proteïna,  és  difícil  trobar  les  dades  de  l’estructura  de  les   proteïnes.     És  més  fàcil  acumular  informació  de  seqüències  que  determinar  les  estructures  en  3D  de   proteïnes  en  detall  atòmic.     En  el  context  de  l’anàlisi  de  seqüències  de  proteïnes  trobem  diferents  tipus  de  bases   -­‐ Primària;  conté  informació  de  seqüències  aminoacídiques.  Ex/Uniprot,  PIR,  NCBI  i   Proteomes.   -­‐ Secundària;  conté  informació  de:   o Expressions  regulars  (patrons)   o Matrius  ponderades  (perfils)   o Matius  alineats  (footprints)   o Models  de  Markov  ocults  (HMM)   o Motius  alineats  (blocs)   Ex/  PROSITE,  Profiles,  PRINTS,  Pfam,  BLOCKS...que  es  nodreixen  de  bases  de  dades   primàries.     -­‐ Terciària;  contenen  informació  sobre  l’estructura  terciària,  que  sorgeix  de   l’empaquetament  dels  elements  de  l’estructura  secundària  que  pot  formar  dominis   característics  o  mòduls.     Ex/  SCOP,  CATH,  PDBsum.     5.1.1.Bases  de  dades  primàries  (seqüències)   Contenen  la  informació  base  de  la  qual  altres  bases  de  dades  se’n  nodreixen.   -­‐ Uniprot:  es  la  més  utilitzada  i  conté  informació  de  Swiss  prot,  EPI  i  PIR.  Sempre  que   necessitem  informació  de  proteïnes  anirem  a  aquesta  base  de  dades,  que  és  la  més   important.     -­‐ PIR  (Protein  International  Resource):  és  americana.  Com  que  està  inclosa  a  l’Uniprot,   en  teoria  no  cal  visitar-­‐lo.  El  Protein  Information  Resource  (PIR)  és  un  recurs  integrat   bioinformàtic  públic  per  recolzar  la  recerca  genòmica,  proteòmica,  la  biología  de     2   BI-­‐  Tema  1     -­‐ -­‐ sistemes  i  els  estudis  científics.  PIR,  conjuntament  amb  EBI  (European  Bioinformatics   Institute)  y  SIB  (Instituto  Suizo  de  Bioinformática),  van  rebre  una  subvenció  del  NIH  per   crear  UniProt  ,  una  base  de  datos  mundial  de  la  seqüència  i  funció  de  proteïnes,   mitjançant  la  unificació  del  PIR-­‐  PSD,i  les  bases  de  datos  Swiss-­‐Prot  y  TrEMBL.   NCBI  proteins.  La  base  de  dades  del  NCBI  és  una  col·∙lecció  de  seqüències  de  varies   fonts  que  inclou  les  transcripcions  de  les  regions  de  codificació  anotades  a  GenBank,   RefSeq  y  TPA,  així  com  registres  de  SwissProt,  PIR,  PRF  i  AP.   Proteomas;  base  de  dades  de  conjunt  de  proteïnes  que  s’expressen  en  diferents   organismes  o  en  un  organisme  durant  diferents  estadis.       Informació  continguda  en  una  base  de  dades  primària:   -­‐ Una  col·∙lecció  de  registres  (récords).  Registre  de  la  seqüencia   -­‐ Es  crea  una  fitxa  o  registre  per  seqüencia   -­‐ Cada  registre  té  una  clau  primària  (un  codi,  invariable  per  cada  registre).     -­‐ Cada  registre  té  diversos  camps   -­‐ Cada  camp  conté  informació  específica   -­‐ Cada  camp  conté  dades  d’un  tipus  determinat     Quan  fem  una  cerca  sempre  trobarem  un  nombre  identificador  (PD  o  ID),  el  codi  invariable  per   cada  seqüencia  de  proteïna.  També  informació  de  la  seqüencia  i  informació  addicional  que  prové   d’altres  bases  de  dades.         Proteoma   La  proteínica  és  l’estudi  de  les  proteïnes  i  en  un  proteoma  hi  trobem  totes  les  proteïnes   codificades  per  un  genoma.  Per  tant  per  un  genoma  tenim  més  d’un  proteoma,  ja  que  la   complexitat  a  nivell  proteic  es  molt  més  gran  que  a  nivell  genòmic.  Això  és  per  la  transcripció,  el   splicing  alternatiu  del  mRNA,  modificacions  post-­‐traduccionals  de  les  proteïnes.           Exemple:  Proteïnes  presents  en  una  mostra  biològica  vs.  proteoma  d’un  organisme.     En  l’exemple  es  mostra  una  electroforesi  en  2D,  que  separa  per  punt  isoelèctric  i  per   massa.  Podem  carregar  un  gel  amb  el  proteoma  d’una  cèl·∙lula  d’un  ratolí  malalt  i  un  altre   amb  el  d’un  ratolí  sa  i  veure  les  diferències.  Segons  el  moment  del  desenvolupament,  estat   3   BI-­‐  Tema  1     metabòlic,  organisme,  localització  cel·∙lular  i  activació  de  senyals  externes  el  proteoma   variarà.     Les  variants  proteòmiques  es  poden  identificar  en  gels  2D,  identificar  la  seqüencia   aminoacídica,  nivells  d’expressió,  modificacions  post-­‐traduccionals....     Algunes  bases  de  dades  de  proteomes  són:   -­‐ PRIDE  Archive   -­‐ Nexprot,  conté  proteomes  d’humans.     -­‐ HAPMAP:  específic  de  proteomes  de  diferents  soques  de  bacteris.     -­‐ Procom:  permet  comparar  diferents  proteomes  de  diferents  espàcies  indicant  els  gens   diferents  entre  ells,  també  indica  els  gens  que  es  mantenen  els  dos.  L’inconvenient  és   que  no  disposa  de  tots  els  genomes.         5.1.2.Bases  de  dades  especialitzades  (Mrtadatabase)   Les  metabases  són  bases  de  dades  especialitzades  que  contenen  informació  addicional.  Aquestes   son  secundàries  i  contenen  diversos  tipus  d’informació   -­‐ Funció  proteica   o BRENDA:  inclou  informació  dels  enzims   -­‐ Estructura   o Protein  Data  Bank  (PDB)  (primària)   o Disprot  (secundària)   -­‐ Caracterització  in  vivo   o Swiss  2D-­‐Page   o MINT,  interacció  entre  proteïnes   -­‐ Modificacions  post-­‐traduccionals   o Phosida   o Phospho  ELM   Ambdues  contenen  informació  sobre  fosforilacions   -­‐ Dianes  terapèutiques  (proteïna-­‐malaltia)   o Therapeutic  Target  Database   -­‐ Patrons  i  perfils  de  seqüència:   o Prosite   -­‐ Dominis  proteics  i  famílies  de  proteïnes:   o Smart   o Pfam   o Interpro     ExPASy:  Bioinformatics  Resource  Portal   El  portal  ExPASy  conté  molt  tipus  d’informació  (estructures,  gens...)  classificada.  Pràcticament  hi   és  tota  la  informació.  No  és  que  la  tingui  dins  sinó  que  classifica  on  es  pot  trobar  tota  la  informació   i  et  porta  a  una  base  de  dades  o  altra.       Brenda:     Conté  nomes  informació  d’enzims.  Classifica  tota  la  informació  que  està  publicada.  El  seu  punt   fort  és  que  hi  ha  informació  molt  concreta  (pH  òptim,  substrat  natural...)  però  l’inconvenient  és     4   BI-­‐  Tema  1     que  diferents  articles  donen  diferent  informació  pel  mateix  camp,  perquè  cadascuna  prové  d’una   publicació  diferent.       PDB  (Protein  Data  Bank)   És  la  base  de  dades  primària  per  excel·∙lència  on  hi  ha  informació  sobre  l’estructura   tridimensional  de  les  proteïnes.       Disprot   És  una  base  de  dades  de  proteïnes  intrínsecament  desordenades/desestructurades.  Moltes   malalties  es  produeixen  perquè  en  una  proteïna  hi  ha  una  part  desplegada  responsable  de  produir   aquesta  malaltia.  Així  doncs,  aquesta  base  de  dades  ens  permet  veure  a  quina  part  de  la  proteïna   es  corresponen  les  regions  desestructurades.     Swiss  2D-­‐page   Indica  com  interpretar  els  gels  registrats  a  la  base  de  dades.  Ens  permet  accedir  a  informació   associada  a  cadascuna  de  les  proteïnes  (identificador,  base  molecular,  punt  isoelèctric).  Permet   cercar  per  espècie,  per  tipus  de  mostra  (múscul,  fetge...)...     MINT:  Mapa  d’interacció  entre  proteïnes     Les  interaccions  entre  les  proteïnes  són  molt  complexes,  per  detectar  interaccions  a  gran  escala  hi   ha  dos  mètodes   o Doble  híbrid  en  llevat   o Espectrometria  de  masses   MINT  és  una  base  de  dades  d’interaccions  de  proteïnes.  En  ella  hi  estan  descrites  les  interaccions   proteïna-­‐proteïna  que  s’han  determinat  experimentalment  (no  computacionalment)   Les  interaccions  s’han  determinat  per:  doble  híbrid,  Immunoprecipitació,  cromatografia  d’afinitat   o  per  comparació  amb  proteïnes  homòlogues   Dins  del  mint  tenim  HomoMINT  per  humans  i  VirusMINT  per  virus.   Podem  cercar  una  proteïna  perquè  ens  doni  quines  interaccionen  amb  ella.  Les  proteïnes  resultat,   presenten  diferenciés  segons:   § § Quantes  tècniques  s’han  utilitzat  per  resoldre  aquesta  interacció.   Assignació  de  scores  entre  0  i  1  (valors  per  sota  de  0’4-­‐0’5,  són  interaccions   aleatòries.   Therapeutic  Target  Database   Hi  ha  dues  maneres  per  cercar  les  dianes:   o Segons  la  mostra  problema   o La  diana  sobre  la  qual  actuarà  la  proteïna       5   BI-­‐  Tema  1     SMART   Aquesta  base  de  dades  serveix  per  identificar  dominis  proteics  (a  partir  d’una  seqüència  primària)  i   es   basa   en   homologies   de   seqüència   a   partir   d’una   base   de   dades   de   proteïnes   que   ja   tenen   caracteritzats  els  dominis.  Utilitza  les  matrius  de  Markpv  (ho  explicarem  més  endavant).   Pfam   Es  una  base  de  dades  per  trobar  dominis  proteics  i  famílies  de  proteïnes.  Es  basa  en  alineaments   múltiples  de  seqüències  amb  algoritmes  de  les  matrius  ocultes  de  Markov.   Per  cada  família  es  pot:   • • • • • Veure  alineamients  múltiples.   Revisar  les  arquitectures  i  organització  dels  dominis  proteics.     Examinar  la  distribució  d’espècies.     Seguir  enllaços  a  altres  bases  de  dades.     Veure  estructures  proteïques  conegudes.   Hem  d’especificar  l’E-­‐valor  al  fer  la  cerca,  l’error  que  permetem.   InterPro   És  una  plataforma  amb  accés  a  bases  de  dades  de  famílies,  dominis  i  llocs  funcionals  de  proteïnes   on   les   caracteristiques   identificables   trobades   en   proteïnes   conegudes   poden   ser   aplicades   a   noves  seqüències  de  proteïnes.  Creada  en  1999.   Actualment   integra   informació   de   les   bases   de   dades:   PROSITE,   Pfam,   PRINTS,   ProDom,   SMART,   TIGRFAMs,  PIRSF,  SUPERFAMILY,  GENE3D  i  PANTHER.   PRINTS  data  base   És  una  col·∙lecció  anomenada  "fingerprints":  proporciona  anotacions  detallades  de  famílies  de   proteïnes  i  una  eïna  per  diagnosticar  noves  seqüències.  “fingerprint”  és  un  grup  de  motius   conservats  extrets  de  l’aliniament  múltiple  de  seqüències;  que  caracteritzen  una  família  proteïca.   Els  motius  no  han  de  ser  necessàriament  contigus  en  la  seqüència,  sinó  que  poden  estar  propers   en  l’espai  en  l’estructura  3Dper  definir  llocs  d’unió  moleculars  o  superfícies  d’interacció.   Permet  trobar  dominis  que  de  manera  seqüencial  no  els  veuríem,  ja  que  té  en  compte  l’estructura   3D.             6   BI-­‐  Tema  1     5.2. ANÀLISI  DE  LA  SEQÜENCIA  DE  PROTEÏNES   Quina  informació  podem  extreure  de  la  seqüència  primària?   • • • • Calcular   paràmetres   fisicoquímics   de   les   proteïnes:   pI   teòric,   composició   d’aminoàcids,   composició   atòmica,   coeficient   d’extinció   molar,   vida   mitja,   índex   d’inestabilidat,   índex   alifàtic...   Identificar  patrons  i  motius  a  la  seqüència  proteica   Identificar  proteïnes  a  partir  de  dades  experimentals   Predir  la  topologia  i  les  modificacions  post-­‐traduccionals   ProtParam   Permet  determinar  els  paràmetres  fisicoquímcs  d’una  seqüència.     PeptideCutter   Tenim  un  seguit  de  mètodes  (enzimàtics  i  químics)  que  permeten  tallar  la  proteïna  seguint   diferents  patrons.     La  digestió  amb  certes  proteases  permet  identificar  proteïnes.     ScanProsite   Descriu  els  dominis  i  famílies  als  que  pertany  una  proteïna  introduint  o  bé  la  seqüència  primària   o  bé  el  codi  d’un  motiu  que  sabem  que  hi  ha  a  la  proteïna.  Ens  permet  saber  amb  bastanta  certesa   la  funcionalitat  de  la  proteïna.     5.3. IDENTIFICACIÓ  DE  PROTEÏNES  A  PARTIR  DE  DADES   EXPERIMENTALS   TÈCNIQUES  EXPERIMENTALS   • • • • Seqüenciació  de  novo  de  pèptids   Microchips  de  proteïnes   MALDI-­‐TOF   Gels  bidimensionals   Per  identificar  una  proteïna:   1. Partim  d’una  mostra  i  volem  saber  quines  proteïnes  hi  ha   2. A  partir  de  la  mostra  podem  fer   Gel  2D  (és  el  cas  més  comú)   Gel  1D   Cromatografia  líquida  multidimensional   3. Seguim  els  passos  de  l’esquema  (a  les  diapositives)           7   BI-­‐  Tema  1     IDENTIFICACIÓ:   Podem  identificar  una  proteïna  a  partir  de:   • • Característiques  físico-­‐químiques   Resultat  de  la  digestió  enzimàtica             MultiIDENT   Dissenyat  per  identificar  proteïnes  a  partir  dels  gels  2D.  Per  a  fer-­‐ho,  utilitza  els  següents   paràmetres:   • • • • • pI  (estimat  del  gel  2D)   pes  molecular  (estimat  del  gel  2D)   espècie  d’origen   composició  d’aminoàcids  (obtinguda  per  MALDI-­‐TOF)   masses  de  pèptids  obtinguts  per  digestions   El  programa  treballa  de  manera  modular,  de  manera  que  permet  qualsevol  combinació  de  dades   per  identificar  les  proteïnes.     Mascot   Permet  identificar  les  proteïnes  a  partir  de  les  dades  experimentals  obtingudes  per   l’espectròmetre  de  masses                 8   BI-­‐  Tema  1     5.4. PREDICCIÓ  D’ESTRUCTURA  SECUNDÀRIA  A  PARTIR  DE  LA   SEQÜÈNCIA  PROTEICA   Possibles  estructures  secundàries   • • • • Alfa-­‐hèlix   o Gira  a  la  dreta   o Genera  un  dipol  entre  els  dos  extrems   o Cada  gir  està  format  per  3  o  4  residus.   o Els   aminoàcids   que   la   formen   han   de   tenir  unes  certes  característiques   Fulla  beta   o Es  forma  un  dipol  horitzontal.   o Es  forma  per  ponts  d'hidrogen.   o Es   poden   formar   de   manera   paral·∙lela   o   antiparal·∙lela   Girs  beta   Llaços  o  loops   Protocol  d’anàlisi   El   protocol   d’anàlisis   de   l’estructura   secundària   d’una   proteïna   a   partir   de   la   seva   seqüencia   d’aminoàcids  permet:   1. Aconseguir  la  màxima  informació  a  partir  de  l’estructura  primària  de  la  proteïna   -­‐ aliniament  amb  proteïnes  homologues,  cerca  de  zones  conservades.     -­‐ analitzar  la  presencia  de  motius.     -­‐ obtenir  perfils  de  predicció  d’estructures  secundàries.     -­‐ obtenció  de  perfils  d’hidroafinitat,  polaritat,  flexibilitat.   2. Anàlisi  integral  de  la  informació.     Classificació  dels  mètodes  de  predicció   • • Mètodes   estadístics/probabilístics:   anàlisi   de   la   probabilitat   que   cada   residu   pugui   pertànyer  a  una  estructura  o  a  una  altra  (basat  en  un  algoritme  matemàtic)   Mètodes  basats  en  relacions  d’homologia   Mètodes  probabilístics   •   CHou-­‐Fasman   o Mètode  estadístic  basat  en  estructures  cristal·∙logràfiques  ja  resoltes.   9   BI-­‐  Tema  1     • • o Calcula   un   paràmetre   conformacional   per   cada   residu   de   la   proteïna.   Aquest   paràmetre   reflexa   la   preferència   d’aquests   residu   de   trobar-­‐se   en   un   tipus   d’estructura  determinat.   o La  seva  limitació  principal  és  que  no  es  pot  utilitzar  amb  proteïnes  molt  diferents  a   les  64  proteïnes  amb  l’estructura  coneguda  amb  la  qual  es  basa  aquest  mètode.     Deleage   o Aquest  mètode  es  basa  en:   1. Predicció   del   tipus   de   proteïna   (segons   la   composició   d’aminoàcids)   en  𝛼,  𝛽 ,   𝛼 + 𝛽  i  𝛼/𝛽     2. Predicció   de   l’estructura   secundària   (freqüència   de   cada   residu)   dins   de   cada   classe   o Limitacions:   si   la   predicció   de   la   classe   de   la   proteïnes   es   correcta,   la   predicció   de   l’estructura   secundària   és   més   encertada   que   en   els   altres   mètodes.   Però   si   la   proteïna  no  queda  ben  classificada,  la  predicció  no  és  fiable.   Mètode  GOR  (Garnier-­‐Oshuthorpe-­‐Robson)   És  un  mètode  que  s’ha  anat  millorant,  i    s’ha  desenvolupat  fins  el  GORIV   Permet  fer  l’anàlisi  individualitzat  amb  tots  aquests  mètodes  (Sopm,  sopma,  hnn...)         Jpred3  es  va  desenvolupar  a  finals  dels  90.  La  diferència  respecte  els  altres  mètodes  es  que:   -­‐ Té  el  seu  propi  algoritme:  JNed,  que  incorpora  mesures  estadístiques  de  freqüència  i   característiques  de  cada  residu  i  te  en  compte  alineaments  amb  homòlegs  llunyans  i  si   té  en  compte  si  hi  ha  una  proteïna  amb  un  PDB  semblant  alhora  de  fer  l’alineament  i   calcular  la  homologia.     -­‐ Es  mes  senzill     -­‐ La  part  negativa  es  q  si  la  proteïna  es  molt  extensa  li  costa  molt  fer  les  comparacions.       Predictors  de  plegament  i  d’agregació   Podem  fer  una  predicció  per  saber  si  la  proteïna  està  o  no  ben  plegada.  Això  es  útil  perquè  hi  ha   malalties  associades  a  plegaments  erronis  de  les  proteïnes  i  agregació  d’aquestes.     Els  predictors  bàsicament  busquen  seqüències  determinants  d’agregació  de  proteïnes     i  es  realitza  un  informe  d’impacte  de  l’agregació  sobre  la  malaltia.       Predictors  de  plegament   Tenim  diferents  predictors  de  plegament:   -­‐ Foldindex:   És  un  procés  dinàmic  i  interactiu  que  estima  la  probabilitat  local  i  general  d’una  seqüencia   específica  de  plegar-­‐se  a  través  del  càlcul  de  l’energia  lliure.  És  a  dir,  calcula  d’energia  lliure  de  la   seqüencia  i  ens  prediu  quina  és  la  regió  més  susceptible  o  té  més  probabilitats  a  estar   desplegada.       10   BI-­‐  Tema  1     Agadir:   -­‐ Ens  prediu  el  comportament  dels  pèptids  monomèrics  a  l’hora  de  fer  l’hèlix  alfa.     o (+)  Permet  modular  i  avaluar  diferents  condicions    (pH,  temperatura  i  força   iònica)   o (-­‐)  Necessitem  treballar  amb  seqüències  curtes  (només  considera  interaccions   de  curt  rang).   El  resultat  es  presenta  com  un  diagrama  que  mostra  les  regions  que  formarien  una  alfa  hèlix   d’una  forma  més  estable.       Predictors  d’agregació   Aggrescan   -­‐   L’algoritme  està  basat  en  mètodes  experimentals  i  teòrics  i  mesura  quines  zones  de  la  proteïna   tenen  tendència  a  agregar-­‐se.     Les  parts  més  susceptibles  a  agregar-­‐se  son  alhora  les  que  estan  mes  susceptibles  a  estar   desplegades.  Les  zones  d’agregació  les  anomenem  hot  spots  d’agregació.     El  resultat  del  programa  és  un  gràfic  amb  uns  perfils  d’agregació  i  unes  dades  numèriques  que   ens  indiquen  el  grau  d’agregació  de  proteïnes  (En  l’exemple,  la  proteïna  té  una  regió  d’agregació   al  principi  i  al  final).     Aggrescan  no  discrimina  el  tipus  d’agregat     Les  utilitats  serien  per:   o Millorar  proteïnes  de  manera  que  les  fem  més  estables   o Dissenyar  mutants  (perquè  l’agregació  sigui  més  estable)   Predictors  de  regions  amiloides     -­‐ Waltz:   Mostra  zones  d’agregació  de  tipus  amiloid,  que  són  les  que  participen  en  moltes  malalties,  com   l’Alzheimer.     El  programa  té  en  compte  que  la  zona  és  més  susceptible  a  ser  agregada,  que  formi  agregats  i   alhora  que  siguin  en  fulla  beta  (de  tipus  amiloid),  de  manera  que  és  bastant  fiable  per  detectar   agregació  de  tipus  amiloid.     Pasta   Ens  mostra  una  predicció  d’agregació  del  tipus  amiloid  (fulles  beta).  Tot  i  que  no  està  tant   destinat  a  les  malalties  que  es  donen  per  agregació  del  tipus  amiloid.       -­‐ Predictor  de  regions  agregades  en  cadenes  desplegades     Tango   -­‐       Identifica  les  regions  d’agregació  associades  a  cadenes  desplegades.   El  predictor  el  fem  servir  quan  no  sabem  quina  estructura  té  la  proteïna.     11   BI-­‐  Tema  1     5.5. PREDICCIÓ  DE  LA  FUNCIÓ  DE  LES  PROTEÏNES   En  la  predicció  identificarem  si  la  proteïna:     -­‐ Si  te  homòlegs  remots  (llunyans)   -­‐ Si  presenta  motius,  dominis  i  famílies  proteiques     Tenim  diferents  casos,  que  es  mostren  en  el  següent  esquema:   Homologia/Similitud/Identitat/Analogia   -­‐ -­‐ -­‐ -­‐ -­‐   Homologia:  No  és  quantificable.  Els  gens  poden  o  no  ser  homòlegs  (NO  existeixen   diferents  graus  d’homologia).     Dos  gens  o  proteïnes  son  homòlegs  quan  tenen  un  origen  evolutiu  comú;  normalment   presenten  mes  del  40%  d’identitat  i  segueixen  tenint  la  mateixa  funció.     Homòleg  remot:  han  divergit  tant  que  la  seva  identitat  de  seqüencia  està  per  sota  del  25%,   però  segueixen  tenint  la  mateixa  funció.  La  similitud  dels  dominis  funcionals  (alineaments   locals)  és  superior  a  la  similitud  de  la  seqüencia  completa  (alineament  global).     Analogia:  No  tenen  origen  comú  (seqüències  no  relacionades)  però  han  convergit  en  la   mateixa  estructura  (analogia  estructural)  i/o  en  la  mateixa  funció  (analogia  funcional).     Identitat:  concepte  quantificable,  es  pot  mesurar  i  expressar  en  percentatge  d’identitat.   Implica  exactament  el  mateix  aminoàcid.   Similitud:  es  semblant  a  la  identitat  però  considerant  les  característiques  fisicoquímiques   dels  aminoàcids  (bàsics,  polars,  hidrofòbics...).       12   BI-­‐  Tema  1     1.  Perquè  ens  interessa  la  cerca  d’homòlegs  llunyans?   Primer  de  tot,  busquem  homòlegs  remots  o  llunyans.  Això  ens  permet:   -­‐ Situar  els  residus  funcional  i  estructuralment  importants   -­‐ Conèixer  les  relacions  de  parentesc  evolutiu.   -­‐ Classificar  les  proteïnes  en  famílies  amb  funcions  conegudes  mitjançant  altres  membres   -­‐ Noves  proteïnes  identificades  poden  ser  classificades  segons  el  seu  grau  de  similitud   amb  famílies  conegudes  i  permet  predir  la  seva  funció.     Dificultats:     -­‐ Mètodes  com  BLAST  tenen  limitacions  (no  ens  serveixen)  per  trobar  homòlegs  llunyans.     2.  Alineament  múltiple  de  proteïnes   Una  vegada  hem  trobat  les  homologues  remotes  fem  un  alineament  múltiple  entre  les  proteïnes.   Això  proporciona  informació  sobre:   -­‐ Patrons  i  motius  conservats  en  una  família     -­‐ Aminoàcids  importants  per  al  funcionament   -­‐ Relacions  filogenètiques   -­‐ Ajuda  a  la  predicció  d’estructures  secundàries  i  terciàries     Clustal  W  (ara  s’anomena  Clustal  omega):   -­‐ Basat  en  l’algoritme  Needleman-­‐Wunsch  d’alineament  global   -­‐ Treballa  amb  diferents  matrius  de  substitució  (BLOSUM  i  PAM)  de  manera  que  es  pot   escollir  amb  quina  fer  l’alineament.   -­‐ El  fer  l’alineament  en  dues  etapes  permet  ajustar  la  penalització  dels  gaps.   -­‐ Aplica  una  mesura  numèrica  de  contrapès  a  aquelles  seqüències  redundants  o   pròximes  que  d’una  altra  forma  dominarien  l’alineament.     Limitacions:   -­‐ No  és  adequat  per  seqüències  de  diferent  longitud  degut  al  mètode  d’alineament  global   (la  mentalització  del  gap  no  permet  gaps  llargs  que  en  alguns  casos  serien  necessaris).   -­‐ L’ordre  d’adició  de  les  seqüències  afecta  al  resultat  final.  Una  vegada  fixats  els  “gaps”   en  etapes  inicials  aquests  queden  fixats.     T-­‐COFFE:   -­‐  COFFE  (Consistency  based  Objective  Function  For  alignemEnt  Evaluation)  és  un  algortime  que   mesura  la  consistència  entre  dos  alineaments  per  parells  i  una  llibreria  d’alineaments  de   referència.  Fa  alineaments  de  dos  en  dos.       El  més  conegut  es  T-­‐COFFE,  que  utilitza  la  puntuació  del  Coffe.  Actualment  s’ha  extès  un   paquet  amb  més  possibilitats:   -­‐ Utilitza  l’alineament  Needlemen-­‐Wunsch  i  l’arbre  guia.     -­‐ Pot  alineament  proteïna,  ADN  i  ARN   -­‐ Permet  combinar  la  sortida  dels  mètodes  d’alineament  preferits  (Clustal,  MAFFT,   ProbCons,  Múscle...)  en  una  única  alineació  (M-­‐coffe).   -­‐ Permet  combinar  la  informació  de  la  seqüencia  amb  la  informació  estructural  de   proteïnes  (3D-­‐Coffe/Expresso),  la  informació  de  perfils  (PSI-­‐Coffe)  o  estructures   secundàries  deARN  (R-­‐coffe).       13   BI-­‐  Tema  1     A  partir  d’aquests  alineaments  el  que  obtenim  és  la  definició  de  patrons:     Patró:   -­‐ Seqüencia  curta  (10/20  aminoàcids)   -­‐ Es  defineixen  en  funció  d’una  seqüencia  consens   -­‐ Pot  definir  o  modificacions  postraduccionals  (fosforilacions,  glicosilacions)  o  motius   funcionals  (unió  al  DNA).     -­‐ Descripció  de  motrius  de  forma  senzilla   -­‐ Identifiquen  motius  curts  (significatius)  o  centres  actius  à  funció  biològica   -­‐ Una  família  proteica  pot  contenir  més  d’un  patró   -­‐ No  proporciona  una  puntuació  o  score,  el  patró  hi  és  o  no.       Avantatges:   -­‐ Fàcils  d’entendre  i  utilitzar  per  l’usuari   -­‐ Localització  de  regions  més  conservades,  que  solen  estar  associades  a  una  funció   biològica   -­‐ La  cerca  de  patrons  en  bases  de  dades  de  proteïnes  es  fa  en  un  període  de  temps   raonable   Inconvenients   -­‐ No  localitza  homòlegs  distants,  ja  que  ignora  les  seqüències  que  no  coincideixen  al   complet  amb  el  patró   -­‐ Falsos  positius  en  patrons  curts   L’exemple  de  la  diapositiva  mostra  un  exemple  de  patró:   -­‐ Mostra  els  aminoàcids  conservats  (si  només  hi  ha  una  lletra  d’un  aminoàcid)   -­‐ Si  hi  ha  [],  significa  que  els  aminoàcids  de  dins  aquests  corxetes  poden  ocupar  aquesta   posició.   -­‐ La  X  significa  que  hi  pot  haver  qualsevol  aminoàcid.    X2  significa  que  és  en  les  dues   posicions  següents.     -­‐ Si  hi  ha  {}  significa  que  els  aminoàcids  entre  els  corxetes  no  poden  ocupar  aquesta   posició.         14   BI-­‐  Tema  1       El  patró  es  pot  fer  de  dues  maneres:   -­‐ A  mà   -­‐ Automatitzatà  ScanProsite       Perfil:       El  perfil  PSSM  és  una  matriu  de  substitució  on  especifiquen  per  a  cada  posició  la  seqüencia   (position  specific  scoring  matrix).  En  lloc  d’una  seqüència  consens  tenim  una  matriu  de   freqüències.     A  partir  de  l’alineament  múltiple  es  construeix  una  matriu  tenint  en  compte  la  freqüència  dels   aminoàcids  en  cada  posició  així  com  les  seves  propietats  físico-­‐  químiques.  Al  final  obtenim  un   score.  Els  -­‐1  són  poc  probables  i  com  més  alt  sigui  el  valor,  mes  probable  serà.       El  camí  definit  línies  horitzontals,  verticals  I  diagonals  descriu  l’alineament     La  puntuació  de  l’alineament  s’obté  sumant  les  puntuacions  que  dona  el  perfil  de  cada  posició:   Els  perfils  permeten  les  insercions  I  les  delecions,  perquè  també  donen  puntuacions.     Avantatges:   -­‐ -­‐ Poden  generar-­‐se  automàticament  I  són  més.   -­‐-­‐-­‐-­‐   Limitacions   …     15   BI-­‐  Tema  1     Ex/  PSI_BLAST,  permet  identificar  homòlegs  remots  a  partir  dels  perfils.  Fem  servir  aquests  perquè   el  CLUSTAl  no  ens  permet  comparar  seqüencies  diferents.   Es  un  mètode  iteratiu  En  la  seva  forma  bàsica  de  funcionament  el  que  fa  és  realitzar  un  simple   BLAST  amb  una  seqüència  i,  a  partir  dels  resultats,  construeix  un  perfil  o  PSSM.  Aleshores,  la   següent  cerca  la  realitza  amb  aquest  perfil,  el  que  permetrà  trobar,  idealment,  nous  homòlegs,   homòlegs  llunyans.  Amb  aquests  nous  homòlegs  genera  un  perfil  el  qual,  idealment,  contindrà   major  quantitat  d’informació  i  podrà  realitzar  un  altra  cerca.     Estratègies  per  comparar  seqüències  (resum=       16   ...