TEMA 7 Fonaments de Bioinformàtica (FBI) (2017)

Apunte Catalán
Universidad Universidad de Girona (UdG)
Grado Biología - 3º curso
Asignatura Fonaments de Bioinformàtica
Año del apunte 2017
Páginas 16
Fecha de subida 01/07/2017
Descargas 0
Subido por

Descripción

Inclou els apunts del tema 7 corresponents a l'assignatura de Fonaments de Bioinformàtica (FBI) (Part química). MODELATGE DE PROTEINES – Predicció estructural.

Vista previa del texto

Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA TEMA 7: MODELATGE DE PROTEINES – Predicció estructural Perquè modelatge / simulació de proteïnes Modelatge  estem modelant més enllà de la estructura amb raigs X però en realitat l’estructura de la proteïna no és rígida. Pot no ser rígida des de dos punts de vista. La majoria de proteïnes el que fan és fluctuar al voltant d’una estructura d’equilibri.
Les alfa i làmines es mantenen però van oscil·lant. La seva estructura no és estàtica i es va movent, poc però es va movent. Poden afectar l’estructura del centre actiu i afecten la interacció entre el lligand i el receptor.
En el cas dels enzims al·lostèrics la estructura no fluctua sinó que canvia. Això en el cas de que coneguem la estructura de partida. Aquest modelatge el que implica és que enlloc d’agafar la estructura d’un espectre de difracció de raigs X fem un model de la estructura (modelatge) confiant que això s’assembli a la realitat.
- Funció de les proteïnes depèn de l’estructura 3D Obtenir l’estructura tridimensional no és trivial Estructura no és rígida  fluctua / evoluciona  conèixer la seva dinàmica Aplicacions: modelatge de l’activitat (docking) No és suficient tenir la estructura de raigs X per poder fer el modelatge o la simulació.
Simulació ≠ anàlisi.
Energia i superfície d’energia - Modelar estructura   modelar energia del sistema Els sistemes senzills (molècules petites) adopten la conformació de mínima energia Sistemes més complexos tenen diferents mínims locals a la superfície d’energia potencial Les proteïnes fluctuen entre diferents conformacions a causa de la seva energia vibracional (degut a la temperatura) Normalment les fluctuacions són al voltant d’una estructura d’equilibri semblant a l’estructura cristal·logràfica Per simular les proteïnes cal obtenir la seva energia a partir de la seva estructura (coordenades).
La simulació es basa en el concepte o idea de que si vull modelar la estructura és molt important conèixer la energia o calcular aquesta energia del sistema. Perquè en general tots els sistemes el que tendeixen és agafar el estat de mínima energia. Si vull saber com serà l’estructura d’un sistema mirem de calcular la seva energia i 1 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA minimitzar o optimitzar aquesta energia. Jo parteixo d’un sistema desconegut, no coneixem la seva estructura i no sabem la conformació que adopta. En sistemes molt complexos (proteïna com a sistema matemàtic) és un sistema que té moltes variables i les variables del sistema són les coordenades de la proteïna. La proteïna 1ABE té 2000 i pico àtoms sense els àtoms de H. Afegint els àtoms de H tindrà 3000 i és una funció d’energia que té 9000 graus de llibertat. Són sistemes molt complexos. La funció de l’energia es coneix com la superfície d’energia. L’energia és una funció de la posició. Aquesta funció és molt complexa i quan es comença a estudiar s’obté una imatge.  Superfície d’energia = funció de la posició.
Regió muntanyosa i entre les muntanyes hi ha molts mínims. Aquests mínims es pot imaginar que són diferents conformacions que poden adoptar les proteïnes. Pot variar un aminoàcid, petites variacions. Trobar el mínim d’aquesta funció és una tasca gairebé impossible perquè hi ha molts mínims i mai estarem segurs de trobar el mínim absolut del sistema.
Sistemes tan complexes com els de la proteïna tenen molts mínims que s’anomenen mínims locals.
Les proteïnes fluctuen perquè la temperatura del sistema, les proteïnes tenen una energia vibracional interna i és intrínseca a elles que provoca aquestes fluctuacions. Aquestes fluctuacions són els canvis entre diferents conformacions. La proteïna va movent-se per aquesta superfície i mentre es mou va fent aquestes fluctuacions. No té una estructura rígida.
Està molt lligada la qüestió de les fluctuacions amb la idea de que la funció té molts mínims locals. El requisit de la simulació és descriure la superfície d’energia.
Aquesta superfície està representada en 2 dimensions però en realitat en té moltes més.
Com es pot descriure la superfície d’energia o com podem trobar aquesta funció que ens doni l’energia del sistema. Seria amb l’equació de Schrödinger. S’aplica la mecànica molecular, concretament el camp de forces o “forced field”.
2 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA L’energia de la proteïna = suma de diferents contribucions o bé camp de forces Eprot= energia dels enllaços (Tots) + energia dels angles + angles dihedrals + energia dels termes electrostàtics + forces de van der Waals Eprot = Eenllaç + Eangle + Edih + Eelectrostatic + EVanderWaals Els 3 primers sumatoris conformen termes d’enllaç i els 2 termes següents són els termes no enllaçats Eprot = ∑Eij + ∑ + ∑ + ∑ + ∑ La proteïna és una supercadena d’àtoms. A cada energia d’enllaços faig una contribució i es fica com un sumatori de E sobre ij. Cada tres àtoms que estan enllaçats entre sí formen un angle i en funció d’aquest hi haurà un angle determinat.
Quan tres àtoms estan enllaçats ho fan amb un angle determinat. Angle d’equilibri.
Els angles dihedrals són els que hi ha entre 4 àtoms (Recordatori de Ramachandran).
Les forces d’atracció o repulsió entre dos àtoms són els termes electrostàtics.
Les forces de van der Waals expliquen repulsió i atracció d’àtoms que no s’expliquen per forces electrostàtiques.
3 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Depenent de la distància entre els dos àtoms em dona un valor de l’energia i això es coneix com la distància d’equilibri. Si s’estiren massa o s’apropen massa la energia augmenta. Funció és una paràbola.
Principal avantatge  és molt eficient Limitació principal de la dinàmica molecular: 4 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA - - La formulació de l’energia assumeix que la connectivitat dels àtoms no canvia durant la simulació  com hem de saber quins són els components principals la connectivitat entre els àtoms s’ha de mantenir constant durant la simulació No es poden simular reaccions químiques amb trencament d’enllaços covalents  canviaria la connectivitat i no es pot simular La interacció lligand-receptor té lloc a través d’enllaços febles i sí que es pot simular  no a través d’enllaços covalents Camps de força (force fields) - Proteïnes  els més populars AMBER-98, GROMOS98, CHARMM22, OPLS(AA) Àcids nucleics  més complexos de representar que les proteïnes, AMBER94/98, CHARM29, BMS. Proporcionen resultats lleugerament diferents Aquests camps de força són diferents funcions i hi ha diferents paràmetres. Idees clau són la forma d’aquesta funció i després tenir una idea de l’avantatge i del principal desavantatge (connectivitat ve fixada) però si volguéssim similar una reacció química dins la proteïna podria suposar un problema.
Objectius de dinàmica molecular - Obtenir visions promitjades d’un sistema Estudiar canvis induïts al sistema per pertorbacions externes Obtenir la termodinàmica del sistema i les seves interaccions Refinar estructures cristal·logràfiques o similars Dinàmica molecular clàssica Volem reproduir la fluctuació o l’evolució del sistema al llarg del temps. Aquestes variacions provenen de les vibracions internes, l’energia interna.
Paper de les forces. Si agafem qualsevol àtom forma part de diferents enllaços, diferents angles i surt a dins de tots aquells termes. Té repulsió i atracció amb tots els àtoms de l’entorn ja siguin electrostàtiques o de Van der Waals. Experimenta les forces que exerceixen sobre ell tots els àtoms del voltant. Enlloc de tenir un sistema estàtic tinc un sistema que hi ha forces que destinen que es mogui cap a un costat o altre i això és el que provoca les fluctuacions.
Es provoca un moviment dels àtoms seguint les lleis de Newton i es calcula la trajectòria. Aquesta consisteix en partir de una r (posició del sistema en un temps determinat) i amb aquesta expressió calculo l’energia del sistema, de les forces que actuen sobre cada àtom i amb aquestes lleis de Newton puc calcular la posició de la proteïna al cap d’un temps petit.
El Δt és el pas de temps de la simulació. Un cop se les forces que actuen hem de recalcular les posicions i com es mouen els àtoms tenen una velocitat i les forces que actuen sobre els àtoms a la nova posició anem repetint aquest procés.
- La dinàmica molecular calcula l’evolució “real” del sistema, a partir de la qual es poden calcular mitjanes temporals Les posicions atòmiques i velocitats s’obtenen aplicant les lleis de Newton 5 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA - Cada àtom experimenta una força causada per la presència dels altres àtoms del sistema Evolució determinista: la posició de les partícules en un temps t + Δt s’obté a partir de les condicions del sistema a un temps t Integració de les equacions de moviment calculant la posició, velocitat i forces sobre les partícules en petits intervals de temps Time step aprox. 10-15 s (10 vegades menor que l’escala de temps vibracional).
Això ho puc fer, cada pas de trajectòria que faig i perquè la simulació sigui realista cada pas ha de ser aproximadament de 10-15 segons. Escala microscòpica. La trajectòria és una suma d’aquests passos molt petits. Això significa que tenim una trajectòria d’uns 1000 passos. Quan es fa en serio són trajectòries de nanosegons i això és perquè els moviments de vibració entre dos àtoms és de 10-14 segons. Quan més complicats són els processos més temps necessito de simulació. Les transicions al·lostèriques necessiten temps més grans (10-3).
Integració Expansió en sèrie de Taylor de les posicions, velocitats i acceleracions de les partícules Dinàmica molecular clàssica A cada pas, les partícules es mouen a posicions noves i es recalcula la seva velocitat i forces  Trajectòria que descriu l’evolució durant el temps de la posició i les velocitats Escales temporals i durada de la simulació - Temps de simulació: depèn del procés que es vulgui simular i de la capacitat computacional Temps mínim total per obtenir resultats significatius: de l’ordre de ns (10-9 s) És clau fer un bon sampling (presa de mostra) per obtenir mitjanes fiables de les propietats que es volen determinar 6 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Detalls de la simulació L’eficiència computacional es pot augmentar congelant alguns enllaços, sobretot els que hi ha entre C-H. Són rígids i ens estalviem termes en l’expressió de la energia de termes no enllaçats.
La qüestió del cutoff no és necessari mirar totes les possibles opcions entre àtoms no enllaçats. A partir d’una determinada distància no cal tenir en compte i ens estalviem aquest pas.
Hem de incloure el dissolvent.
Per augmentar l’eficiència computacional es poden congelar les vibracions que no es consideren importants (p. Ex. Enllaços C-H rígids a Gromacs) - La part més costosa és el càlcul de les interaccions electrostàtiques i de van der Waals, que són a llarga distància  ús de cut-off (veure també les condicions periòdiques) - El dissolvent (aigua) és essencial o Intervé de manera directa en algunes interaccions (p.ex. a través de ponts d’hidrogen) o Polarització de l’entorn (condiciona la presència d’aminoàcids polars a l’exterior de la proteïna) o Apantallament dels efectes electrostàtics o Es sol incloure a la simulació de manera explícita - S’ha de definir el col·lectiu (generalment col·lectiu microcanònic NVE, composició, volum i energia constant).
- Periodic Boundary Conditions 7 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Preparació del càlcul - Coordenades inicials de solut i solvent Dimensions de la caixa periòdica Definició de force field i constraints Definició de les condicions de simulació (col·lectiu) Algoritme general de Dinàmica molecular PASSOS PREVIS  minimització, termalització i equilibrat del sistema.
8 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA A la dinàmica molecular partíem de l’estructura de la proteïna gràcies a dades cristal·logràfiques. Ajudava a veure com es relaxava la proteïna fent modificacions.
Si es vol fer modelatge de proteïnes i veure la fluctuació és gairebé imprescindible tenir dades cristal·logràfiques.
Mètodes per predir l’estructura secundària, terciària (i si s’escau també la quaternària) partint únicament de la seqüència. Es coneix la seqüència però no l’estructura.
L’activitat de les proteïnes, la seva funció depèn de la seva estructura tridimensional.
Raigs X per determinar la estructura, ressonància magnètica nuclear, microscòpia electrònica... la dificultat en trobar la estructura a partir de l’espectre cristal·logràfic la proteïna ha d’estar en un estat rígid (ha de cristal·litzar) i la microscòpia és intuïtiva i enlloc d’obtenir cristalls d’una proteïna al laboratori s’ha de congelar el dissolvent i estudiar això amb microscòpia, trobar la posició dels àtoms amb microscòpia amb elevada resolució. La resolució està arribant a la resolució dels raigs X i és una tècnica prometedora perquè simplement agafant la proteïna dissolta i congelar el dissolvent es pot arribar a obtenir resultats útils que permetran fer determinacions o veure la estructura.
Si no s’aconsegueix aquesta determinació experimental de la estructura podem fer prediccions amb alternatives computacionals. El mètode que s’utilitza més és el de modelatge per homologia o per comparació, partint de la seqüència de la proteïna incògnita i es busquen proteïnes semblants amb seqüències homòlogues de les quals es coneix la estructura i intentem adaptar la seqüència de la proteïna incògnita a la que estem buscant.  QUERY Hi ha altres mètodes com el reconeixement de plegaments, que segueix una idea semblant a l’anterior i les prediccions ab initio que són els primers principis (relacionats amb la dinàmica molecular).
Quan parlem de prediccions AB INITIO o de primers principis utilitzem només la seqüència de la nostra incògnita i s’intenta simular el plegament amb dinàmica molecular (DM). Quan es sintetitza la proteïna, no està en el seu estat nadiu i va adaptant la seva forma a l’estat nadiu amb la seva estructura tridimensional.
L’estructura té una tendència tridimensional a adoptar l’estat nadiu perquè és 9 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA l’estat de mínima energia (hi ha energies potencials que influeixen) al seu estat natural.
Com la dinàmica molecular en principi reprodueix aquest funcionament i porta la proteïna al seu estat de mínima energia, el problema principal és el temps. Aquest està lligat al problema de la dimensió de l’espai.
1ABE té 9000 graus de llibertat, trobar el mínim d’energia en una superfície tan gran és molt complicat i això requereix que si volem simular el plegament en dinàmica molecular, trobar el estat de mínima energia, hauríem de fer simulacions molt i molt llargues per donar temps a la dinàmica a trobar l’estat de mínima energia.
Actualment només és factible amb un número d’aminoàcids per proteïnes relativament petites (fins a 100 aminoàcids) i amb recursos computacionals molt importants.
Hi ha altres tècniques computacionals que intenten fer això però la predicció a partir de primers principis consisteix en agafar la seqüència i esperar que es produeixi el plegament natural. Això requereix d’un esforç computacional molt gran i només és factible en proteïnes petites. La predicció ab initio sense informació d’altres proteïnes?  Ja que això és tan difícil d’obtenir em podria inspirar en proteïnes anàlogues.
Hi ha una eina anomenada ús de principis estadístics. Informació molt útil de cara a predir estructures de la meva proteïna. Es poden identificar regions de la proteïna riques en un determinat aminoàcid i aquests tenen una tendència elevada a formar alfa hèlix. Podem anar a altres regions o fragments de la seqüència on podem trobar propensió a formar làmines beta i potser no podem obtenir una estructura completa de la proteïna però tindrem trossos, elements de la estructura secundaria que farien un primer pas per acabar de construir la estructura secundària.
Ja no estem fent una predicció de primers principis perquè utilitzem algunes regles empíriques per construir trossos de la proteïna a partir d’aquestes regles. Aquests 10 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA principis estadístics s’utilitzen per refinar o ajudar a crear el punt de partida de la estructura molecular o bé per utilitzar dins del modelatge d’homologia.
Buscar homòlegs de la meva incògnita que pugui utilitzar per construir la meva estructura. La terminologia que s’utilitza és que jo tinc la meva incògnita o el meu target o diana. A través d’homologia de seqüències busco el que es coneix com un template. El template serà l’estructura de la proteïna homòloga. El template es troba a partir d’alineament de seqüències i un cop he triat el template substituiré els aminoàcids del template pels de la meva incògnita i d’aquesta manera construeixo el model de la incògnita.
Si aquestes proteïnes són homologues hi haurà fragments que seran idèntics i no s’haurà de substituir cap aminoàcid. Hi haurà segments que sí s’haurà de fer.
La base conceptual d’això, la raó per la qual aquest tipus de modelatge dona resultats bastant bons és que l’estructura de les proteïnes (sobretot en homologues) es conserva millor que la seqüència. De vegades és suficient mantenir un 20% de la seqüència perquè la proteïna mantingui la seva estructura i, per tant, la seva funció.
Durant l’evolució, quan dues proteïnes divergeixen, les mutacions que passen la selecció natural son aquelles poc rellevants que no canvien la estructura i la funció de la proteïna. Pot ser que dues proteïnes tinguin un origen comú però hagin divergit, que tinguin només un 20% d’homologia en la seva seqüència però que mantinguin la estructura.
D’aquesta manera, es poden buscar homologies entre la incògnita i la que es coneix la estructura tot i que hi hagi un percentatge baix d’homologia poden coincidir en estructura.
11 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Si volem que aquest model tingui èxit el pas clau és la selecció del template. En un cas real no coneixem l’estructura de la nostra incògnita i triem un template intentant adaptar la estructura de la incògnita amb el template. Si m’equivoco de template tots els passos posteriors no serviran. Ha de ser fiable aquesta selecció del template.
Criteris per seleccionar el template: - Buscar proteïnes que tinguin una funció similar ja que tendiran a tenir la mateixa estructura i a conservar-la durant la evolució La possibilitat intermitja és buscar motius estructurals o funcionals a dins del target En el cas de no conèixer la funció específica de la proteïna incògnita es pot realitzar un alineament de seqüències Potser no conec la funció però igual que hi ha determinades seqüències que tendeixen a formar alfa hèlix també es pot saber els aminoàcids que conformen el centre actiu i això s’anomena motiu funcional. El motiu funcional són els aminoàcids que conformaran el centre actiu i estaran en una posició determinada de la seqüència.
Hem de buscar els nostres aminoàcids a dins de la seqüència.
Motiu funcional  moltes proteïnes que tenen uns determinats aminoàcids i realitzen la mateixa funció Busquem homologia amb alineament de seqüències i un exemple seria una quinasa com si fos una estructura incògnita i es fa una cerca d’homologia en una base de dades (SWISSPORT) i resulta que l’alineament de seqüències em troba la majoria de quinases en aquella base de dades. Aquests alineaments ja tendeixen a trobar proteïnes amb funció similar.
12 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA El principi fonamental és si tinc una seqüència de la meva proteïna incògnita alineada amb la del template aleshores les parts que es conserven entre una proteïna i l’altre me les puc quedar i les altres parts s’han de substituir els aminoàcids del template pels de la meva incògnita. La manera és construir la seqüència de dintre a fora. Comencem pel que és la part del nucli (la més propera al centre actiu) i es coneix com a core de la proteïna i després les parts més externes.
Es comença amb el core perquè normalment és la part que té la màxima identitat amb les seqüències, part molt conservada. Després completem la resta de la proteïna.
Es construeix primer el backbone i després s’afegeixen els residus. El backbone seria la seqüència o la cadena d’aminoàcids sense els residus. La estructura depèn del plegament de la cadena i la posició dels residus però és més fàcil adaptar la seqüència de la cadena tridimensionalment i afegir els residus a posteriori.
Després s’afegeixen els girs i per últim els residus de la proteïna.
13 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA És la part que varia més entre una proteïna i altra, és la més complexa perquè és la més flexible. No depèn tant del template sinó que depèn més de les proteïnes. Hi ha llibreries amb bases de dades que tenen seqüències que es troben repetides en diferents proteïnes que adopten la mateixa conformació. S’identifiquen aquests fragments dins de la incògnita.
Es treballa amb bases de dades i amb llibreries de fragments (seqüències que tendeixen a adoptar una estructura determinada).
Un cop construïm el model, com l’avaluem?  Perfils tridimensionals dels aminoàcids. Els aminoàcids tenen tendència a estar a dins d’alguns elements determinats però s’utilitza una propietat que té relació amb la polaritat més polars tendeixen a estar a la part externa de la proteïna (més en contacte amb l’aigua) i els més hidrofòbics es situen a l’interior. Per cada aminoàcid es pot mirar la superfície del residu incrustada dins de la proteïna. Es compara l’àrea dels aminoàcids de la 14 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA proteïna amb la propensió estadística de les proteïnes que sen coneix la estructura.
Aquests tipus de criteris estadístics serveixen per validar el model.
Fracció de l’àrea de la cadena lateral envoltada per àtoms polars. Si és hidrofílic s’envoltarà de àtoms polars i si s’ajusta a aquesta tendència la proteïna incògnita tindrà una estructura probable. Ajuda a identificar algunes regions que potser s’han modelat de forma incorrecta. Quan la selecció del template dóna diferents alternatives el que es fa és provar diferents templates i mirar quin s’ajusta millor o veure quin és més probable.
Es reté la seqüència i es fan prediccions per fer models i al final al cap de dos anys es comparen les prediccions amb la proteïna que es tenia retinguda. Això permet donar una idea de saber quins són els millors mètodes per fer prediccions.
És important treballar amb diferents templates i després avaluar quin és el més probable.
Semblant a modelatge per homologia però s’aplica quan no trobem un bon template per la proteïna incògnita. Es recorre a llibreries de plegaments. Aquestes es basen en que totes les proteïnes que es coneixen, molts cops tot i tenir funcions 15 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA diferents adopten plegaments semblants. Hi ha uns 1300 plegaments que cobreixen tots els possibles plegaments que tenen. Quan no hi ha bons templates es busca a dins d’aquestes llibreries de plegaments quins són els plegaments que s’ajusten millor.
16 ...

Tags:
Comprar Previsualizar