TEMA 6 Fonaments de Bioinformàtica (FBI) (2017)

Apunte Catalán
Universidad Universidad de Girona (UdG)
Grado Biología - 3º curso
Asignatura Fonaments de Bioinformàtica
Año del apunte 2017
Páginas 20
Fecha de subida 01/07/2017
Descargas 0
Subido por

Descripción

Inclou els apunts del tema 6 corresponents a l'assignatura de Fonaments de Bioinformàtica (FBI) (Part química). La bioinformàtica, la quimioinformàtica i el ‘drug discovery’.

Vista previa del texto

Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA TEMA 6: La bioinformàtica, la quimioinformàtica i el ‘drug discovery’ 6.1.
Introducció al virtual screening 6.1.1. Introducció al virtual screening Bioinformàtica estructural  activitat proteica en el context dels fàrmacs Predir o estudiar la estructura de les proteïnes Veure com podem desenvolupar un fàrmac que actuï sobre una proteïna A partir del que coneixem de l’activitat biològica de les proteïnes desenvolupem fàrmacs que lluiten contra certes malalties. El nom en anglès perquè la major part de literatura és en anglès. Desenvolupament de fàrmacs = drug discovery.
És un procés complex sobretot si imaginem que hem de començar de 0, es segueix una seqüència de tots els passos que s’han de fer i és molt multidisciplinar per al final obtenir aquests fàrmacs o candidats a fàrmacs.
Si comencem de 0 amb una malaltia que volem tractar, el primer pas ha de ser identificar quin és el TARGET o diana on pot actuar el nostre fàrmac.
Després, conèixer la seva estructura. Un cop sabem que és aquella la proteïna responsable d’una disfunció o malaltia, si ho volem fer de manera racional hem de conèixer la estructura i ens ajuden les eines bioinformàtiques i més la part genètica.
La tercera i quarta part és que un cop sabem on hem d’actuar, començar a trobar candidats, allò que aquí s’anomena “Lead discovery”. Una manera d’anomenar els candidats és “Leads” perquè són els líders, el que guia al desenvolupament de possibles fàrmacs.
1 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Quan parlem de fàrmacs estem pensant en molècules. Per tant, per estudiar això necessitem uns coneixements de química bàsics que ara repassarem.
Un cop s’ha fet això, arriba la part més biològica que és analitzar la seva activitat. Fer proves d’activitat. Farmacologia cel·lular o immunològica... proves d’activitat in vitro amb model cel·lulars, in vivo, toxicologia, seguretat, efectes secundaris...
Durant aquest procés de drug discovery ens centrarem en la tercera i la quarta. Trobar els Leads.
Escenari de l’activitat farmacològica / biològica Per entendre els principis que seguirem, com descrivim l’activitat farmacològica d’un fàrmac concret?  tenim una proteïna que té el seu centre actiu i una molècula que serà el nostre possible fàrmac que intervé i entra al centre actiu i fa alguna cosa. Per exemple, entra i fa que la proteïna emeti un senyal que provoqui una seqüència de passos al metabolisme.
La nostra proteïna la coneixem en aquest context d’aquí com a receptor i el fàrmac o la molècula activa s’anomena lligand. Estudiem com interactua el lligand amb el receptor a dintre del centre actiu.
- Receptor (proteïna) Centre actiu Lligand (fàrmac) El principi del “drug screening” Cóm buscar una agulla en un paller?  amb ajuda d’un embut! Com es planteja aquesta idea de buscar un fàrmac per una malaltia. Potser la primera idea és que si nosaltres pensem que hem de buscar una molècula que sigui activa en front d’una proteïna hem de veure que tenim a la nostra disposició que podríem utilitzar com fàrmac.
A nivell de molècules, les molècules químiques ofereixen molta varietat. Tenen diferents grups funcionals, es poden encadenar com a elements i incrementar la complexitat i hi ha milions i bilions de molècules. Això significa que estem buscant una agulla en un paller perquè hi ha molta variabilitat i la probabilitat de trobar una molècula que sigui activa, com hi ha tantes possibilitats d’entrada sembla bastant complicat. Trobar la bona o la millor entre tanta varietat és complicat.
2 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA El concepte de drug screening  cribatge. Això significa fer un filtrat ràpid (prova ràpida) que em permeti dir si un compost és actiu o no i que em permeti classificar de manera molt senzilla les molècules que utilitzo. Trobar si totes aquestes molècules que m’imagino poden ser actives o no.
La idea de l’embut significa que aquestes proves d’screening es realitzen diferents passos. El nombre de passos realitzats depèn del cas. Aquests mètodes, quan s’apliquen al principi es poden aplicar sobre totes les molècules que puguem imaginar.
Passos molt ràpids però no gaire precisos. S’ha de fer un balanç entre rapidesa i precisió i quan tenim un domini molt ampli i molt gran (prova sobre moltes molècules) no s’ha de fer precís perquè s’hauria de repetir per moltes molècules. No ha de ser molt precís per descartar. Això em redueix d’entrada el conjunt que jo considero. Quan tinc un conjunt més petit es fa més precís (com més precís més costa fer tant econòmicament com computacionalment). Al principi començo amb proves que no seran molt precises però que permeten acotar el conjunt i després ja seré més precís.
El problema és que si al principi fem una prova que no sigui gaire precisa pot ser que hi hagi unes molècules que poden anar molt bé però el test falla i les descartem sense voler quan hauríem d’haver-les seleccionat. Això s’ha d’evitar però la idea és que pot ser que jo fent els meus primers tests no tingui en compte això i deixo passar molècules que podrien ser actives. Volem mirar quines són interessants i el conjunt es va enriquint conforme avancem al procés. Això compensa el fet d’haver perdut alguna.
Cicle inicial experimental del “drug discovery” Fa uns 15-20 anys es van començar a fer screenings que permetien s’anomena llibreries de compostos. Tot un conjunt de molècules en va començar a fer aquests cribatges experimentalment (robotitzat i amb un throughput molt alt. Quan parlem de high-throughput és generar el que un sol pas i es molt industrial) una eficiència 3 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA molt gran. Fer experiments que em permetin passar un gran número de molècules per cribatge.
Es va veure que tot i això no millorava el descobriment d’aquests candidats i es va començar a fer coses amb bioinformàtica, comencen a desenvolupar proves amb bioinformàtica.
Virtual screening / Cribatge virtual Estan posats de la manera que s’ha posat l’embut. Es comença amb el filtre general (ràpid però no precís) i després hi ha mètodes més costosos però més precisos. Al final, com tot això es fa in silico (bioinformàtica) són experiments que no són in vitro ni in vivo i s’ha de verificar experimentalment després.
6.1.2. Conceptes fonamentals - Biodisponibilitat i activitat intrínseca 4 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Una molècula perquè reaccioni ha de tenir un grup reactiu que reaccioni amb el receptor i també necessita poder arribar fins al receptor.
1. Biodisponibilitat  tot allò que el fàrmac o molècula ha de fer per arribar fins al receptor (és el primer criteri) 2. Activitat intrínseca  capacitat d’interaccionar amb el receptor. Això es fa a través dels ponts d’hidrogen.
 Activitat biològica / bioquímica / farmacològica: biodisponibilitat + activitat intrínseca  Biodisponibilitat o Fracció de la dosi administrada que arriba (realment) al receptor Això es pot pensar en membranes. Per arribar al receptor, el meu fàrmac haurà de travessar una sèrie de membranes (membranes cel·lulars).
o Un dels paràmetres farmacocinètics principals  Conceptes necessaris: polaritat, ponts d’hidrogen Polaritat      Enllaços polars: àtoms amb electronegativitat diferent Electronegativitat: capacitat d’un àtom d’atraure electrons quan forma un compost Molècules polars: enllaços polars als que no es compensa el moment dipolar Exemple: aigua  molt polar Molècules polars busquen entorns polars, i les no polars entorns no polars - logP: paràmetre de la biodisponibilitat     Biodisponibilitat: pas a través de membranes cel·lulars Pas d’un entorn molt polar a un altre molt poc polar Favorable per molècules amb polaritat intermèdia Paràmetre: logP  coeficient de partició octanol/aigua Per poder travessar la membrana, les molècules que formen la membrana són els fosfolípids (normalment) i tenen unes cadenes anomenades cadenes lipídiques i un grup fosfat. Aleshores, la membrana té diferents regions que es distingeixen per la seva polaritat.
La polaritat té relació amb com es distribueixen els protons i electrons a les molècules, el grup OH hi ha un àtom com l’oxigen que atreu els protons cap a ell i així apareix la polaritat.
5 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA La regla principal de la polaritat. A una molècula polar li interessa estar en un entorn que també sigui polar.
La membrana té una part on els grups fosfats són polars (blau a la imatge) però la part interna de la membrana (lípids) és poc polar.
REQUISITS: 1.- La molècula ha de ser suficientment polar com per trobar-se dissolta en aigua, tots els líquids que transporten el nostre cos són aigua.
2.- La molècula ha de ser suficientment poc polar per poder travessar la membrana cel·lular.
La polaritat, doncs, ha de ser intermitja. No m’interessa una molècula molt polar ni molt poc polar. Això es mesura amb una magnitud anomenada logP. Aquest logP és una quantitat que és el logaritme del quocient entre la solubilitat de la meva molècula en octanol (dissolvent poc polar) i la solubilitat en aigua (polar).
Quan el logP és més petit de 0 (negatiu) significa que la substància és molt polar.
Quan el logP està entre 0 i 5 la substància té una polaritat intermèdia i és el que interessa realment.
Quan el logP és molt gran (més gran de 5) significa que la substància és molt apolar.
Hi ha mètodes per fer estimacions per obtenir el valor de logP (bioinformàtica).
Per l’activitat intrínseca, el que he de mirar són els ponts d’hidrogen: - Ponts d’hidrogen i activitat intrínseca  la interacció entre el receptor biològic i el fàrmac potencial ( lligand) té lloc a través de ponts d’hidrogen  interaccions febles  reversibles (no és un veritable enllaç químic)  atracció electrostàtica entre un àtom d’hidrogen i un d’oxigen o nitrogen  H: dador de pont d’hidrogen, càrrega parcial positiva  N, O: acceptors de pont d’hidrogen, càrrega parcial negativa 6 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA A partir dels dos criteris (biodisponibilitat i activitat intrínseca) podem fer la primera regla de virtual screening i es coneix com la regla de lipinski.
Virtual screening / Cribatge virtual Regla de Lipinski  té 4 criteris bastant senzills i es poden automatitzar per mirar si un compost és potencialment farmacològic. La idea és que em diu si és un fàrmac potencialment. El compost si falla la prova es pot descartar. Si passa la prova vol dir que podria ser un fàrmac, no ens diu contra quin receptor podria ser actiu o si serà més o menys actiu... requisits mínims.
- Filtre general per descartar molècules no aptes per ser fàrmacs Empírica, fàcilment implementable (algoritme) Només són potencialment actives les molècules: 1. Amb pes molecular (PM) < 500  La meva molècula ha de ser més petit que 500  perquè si és massa gran no podrà passar per la membrana 2. logP < 5 (entre 0 i 5) 3. fins a 5 dadors de pont d’hidrogen 4. fins a 10 acceptors de pont d’hidrogen 5. es pot incomplir un dels quatre criteris si la molècula és molt flexible 1,2  criteris de biodisponibilitat 3,4  evita molècules promiscues i correspon a l’activitat intrínseca Una molècula promiscua és que interacciona amb molts receptors i no seria específica. Per això el nombre de ponts d’hidrogen es vol limitat.
És bo que una molècula sigui molt flexible i això permet que un dels quatre criteris no es compleixi.
Altres criteris: estabilitat, possibilitat de sintetitzar la molècula...
|-O-H...........O=< on el Dador és l’O i es poden considerar dadors el grup OH, NH2, SH. NH també.
Acceptor es considera l’O= i acceptors serien N, O, N (també OH, NH2, SH) si tenim 2 OH un serà acceptor i l’altre dador. NH 7 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA NO2 dos acceptors Cl, Br, I  NO SÓN ACCEPTORS Enllaços que poden rotar?  El que uneix un anell amb el CH3 però com el metil és com una bola NO COMPTA. El grup metil, gruo clor, grup NH2 rota una part molt petita i no ho comptem.
Si rota l’enllaç entre anell i anell. El que té un doble enllaç no pot rotar.
El logP es mira en una web que es diu Zinc database En aquesta web fiquem el número (ID) Criteri addicional ha de ser número d’enllaços rotables inferior o igual a 5.
Virtual screening / Cribatge virtual (veure imatge a dalt) Veiem la diferència entre els filtres generals i els mètodes més específics. Aquesta cerca de molècules actives, fàrmacs... cada cop passa de més general a més específic. Els generals són ràpids i poc precisos i els específics són menys ràpids però són més precisos i són específics. Es pot començar a buscar una molècula amb una activitat biològica determinada.
Quan parlem d’aquests mètodes específics és el que es posa entre mètodes basats en lligands i els que estan basats en receptor. La diferència entre els dos depèn de la informació de la qual es disposi pensant en una malaltia específica. El cas més fàcil és quan coneixem quina és la nostra diana i la seva estructura. Predicció de la seva activitat a partir d’aquests dos punts. Això no sempre és possible, pot ser que es conegui només un d’ells.
Si no es té aquesta informació hi ha mètodes que permeten avançar en la cerca dels fàrmacs i es coneixen com mètodes basats en el lligand. No es coneix el receptor però si es coneixen molècules que s’assemblen (activitat semblant) i això s’anomenen anàlegs. Es poden millorar les propietats.
Mètodes basats en receptor es veuran a la part de bioinformàtica aplicada.
En el cas dels mètodes basats en lligand hi ha diferents graus, els que són més qualitatius i després els que són més quantitatius. Hi ha una distinció que podem començar a tenir en compte i és començar a tenir mètodes qualitatius (ens diu si una molècula pot ser activa o no i quant d’activa) o mètodes quantitatius (ens donen una predicció). Els qualitatius també poden donar una predicció.
8 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA 6.2. Docking proteïna-lligand El mètode de docking és un mètode basat en receptor. A més a més, és quantitatiu. Té un domini ampli. La gràcia és que si sabem el receptor el domini no ens preocupa tant.
Consisteix en simular aquest procés. Tinc el lligand i el receptor i mirem la interacció entre aquests dos. Calculem l’energia d’enllaç entre els dos. ΔG és l’energia d’enllaç.
Això ho farem perquè hi ha dos punts clau: hem de saber dins del receptor quin és el centre actiu i després connectar el lligand dins del centre actiu.
La meva energia d’enllaç, per predir que hi ha una forta activitat, s’ha de donar de forma espontània i ha de ser elevada amb símbol negatiu. Com més negatiu millor. El docking classifica les substàncies segons la seva activitat començant per la que té un ΔG<<<0.
Superfície electrostàtica de la 1ABE i com té una forma d’esponja localitza les cavitats de dins de l’enzim amb unes esferes i les va ficant dins la superfície. Un cop tenim les esferes li diem a quin grup d’esferes correspon el centre actiu i el programa introdueix el lligand del qual provem l’activitat amb el centre actiu i calculem la interacció.
Optimitzar la posició del lligand dins del centre actiu. Està automatitzat i trobarem el resultat directament amb 1 sol pas.
6.2.1. Fonaments teòrics docking Docking proteïna-lligand - Docking: interacció entre proteïna-lligand Concepte bàsic: correlació entre activitat i energia d’interacció L – R - Predicció de la configuració òptima del complex i la seva energia Mètode quantitatiu Limitacions: estructura del receptor, mecanisme d’acció Aspectes principals:  Generació del complex  Càlcul de l’energia d’interacció Realització del docking Punt de partida: estructura del lligand (proteïna) - Ha de ser disponible (estructura cristal·logràfica) Flexibilitat conformacional (dinàmica molecular) Mètodes de generació del complex - Proteïna rígida (excepció: residus del centre actiu) Docking de lligand rígid (mètode de les esferes) vs lligand flexible Pot ser independent de la determinació de l’energia o simultània 9 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Mètode de les esferes - Generació de la superfície del receptor (superfície de densitat isoelectrònica) Ajustament d’esferes al receptor Simulació de la cavitat (centre actiu) Alineament del lligand a partir de tres punts Avaluació energia d’interacció Factors Energia d’interacció: L – R : ΔGbind Altres termes: energies de solvatació (L i R); canvis conformacionals; termes entròpics; energia de punt zero  Funcions de scoring (puntuació) basades en l’energia interacció - Contribucions àtom-àtom Qüestions pràctiques     Problema de precisió (relació exponencial entre energia i activitat) Complexitat Flexibilitat conformacional del lligand Complementar docking amb anàlisi del complex 6.3. Cerca de fàrmacs per analogia És un mètode basat en lligand, és un mètode específic i és un mètode qualitatiu.
6.3.1. Introducció i definició dels farmacòfors o Cerca per analogia (ligand-based method) Mètode qualitatiu (Y/N)  poden donar diferents tipus de resposta i els més senzills ens diu si pot ser una molècula activa (Yes o Y) o no activa (No o N).
No és necessari conèixer l’estructura del receptor Dos suposicions: Les molècules actives comparteixen el mateix mecanisme (mode d’enllaç amb el receptor)  les molècules actives químicament són semblants. Això significa que comparteixen el mateix mecanisme d’acció i tenen grups funcionals similars amb 10 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA o - posicions relatives similars. Si dues molècules tenen una acció similar possiblement aniran a parar al mateix receptor i potser s’enllacen.
Alguns grups funcionals tenen propietats similars Exemple: quines són les característiques comuns d’aquests tres analgèsics que els fa actius? Tenen efectes similars i té pinta que hi ha parts de la molècula que són bastant semblants. Anell aromàtic, OH, NMe... acció similar i estructura similar. Aquesta semblança entre les tres molècules es poden buscar a lal base de dades i trobar potencials anàlegs. L’objectiu és identificar les característiques.
Grups farmacofòrics - Grups de la molècula que tenen la mateixa funció Mateixa disposició espaial Grups farmacofòrics dels analgèsics (més comuns) 1. OH: grup dador de ponts d’hidrogen 2. N: grup acceptor de ponts d’hidrogen 3. Anell aromàtic Aquestes característiques essencials es coneixen com a grups farmacofòrics. Han de ser grups que estiguin a dintre de les meves molècules i que a més a més siguin semblants. En aquest cas no només són semblants sinó que són idèntiques.
Compartit per les tres molècules i ajuden a interactuar amb el receptor.
Farmacòfors - Conté les posicions relatives dels grups farmacofòrics (distàncies i angles relatius) “esquelet actiu” de la molècula 11 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA El segon requisit fa referència a la posició relativa dels grups farmacofòrics. Això es pot entendre si fem un esquema del meu receptor amb la seva cavitat o centre actiu.
Al centre actiu i suposem que hi ha un grup ACC o acceptor de ponts d’hidrogen i un grup DH o dador de ponts d’hidrogen. El lligand tindrà un donador (que s’unirà al acceptor del centre actiu) i un receptor (que s’unirà amb el donador del centre actiu). Si no estan orientats correctament no podran entrar a interactuar amb el centre actiu.
S’han d’unir als dos punts actius alhora. La posició relativa del dador i l’acceptor no concorda amb la dels lligands actius. Per tant, per definir al farmacòfor necessitem els grups farmacofòrics i la seva posició relativa.
Els tres grups farmacofòrics es troben a una distància (R1, R2 i R3). Per utilitzar això com a mètode de cribatge mirem la base de dades. Si té un anell, un dador i un acceptor. Si no ho té es descarta, si ho té es fa servir i es busca que compleixin els criteris (s’ajusti més o menys) i si ho fa és un potencial anàleg actiu i sinó es descarta.
La definició de farmacòfor és el conjunt dels tres grups (OH, anell i NMe).
6.3.2. Flexibilitat conformacional Cerca dels grups farmacofòrics i mirar les distàncies. Hi ha variacions que es veuen sobretot a la flexibilitat de molècules. Aquesta flexibilitat dona més probabilitat o possibilitats d’interaccionar amb el receptor. De cara als farmacòfors s’haurà de tenir en compte per treballar específicament. Si el meu farmacòfor té dos anells aromàtics, depenent de la diferent posició estaran més propers o no. La diversitat conformacional o flexibilitat conformacional influeix en el compliment del criteri farmacofòric.
Flexibilitat conformacional - Les molècules són flexibles  diversitat de conformacions Rotació al voltant d’enllaços Equilibri (fluctuació) entre conformacions Preferència per una o altra conformació  energia 12 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA - Compliment del criteri farmacofòric depèn de la conformació  necessitat de genir en compte la diversitat conformacional Cerca de farmacòfors i exploració de l’expai conformacional CAS 1. Es disposa del farmacòfor i es vol cribar una base de dades  requereix exploració conformacional de les molècules de la base de dades o o Mètode de força bruta Monte-Carlo CAS 2. Identificació del farmacòfor (parmacophore mapping) a partir d’un conjunt de molècules actives  requereix identificar la conformació activa per a cada molècula 6.4. Relacions quantitatives estructura activitat (QSAR) QSAR = Quantitative Structure Activity Relationships 6.4.1. introducció i exemples senzills de QSAR  Descriptors moleculars i exemples Models de predicció quantitativa o o o Regla de Lipinski, farmacòfors  models quantitatius (Y/N), cribatge Avantatges: fàcil aplicació, molt generals Inconvenients: poc precisos (qualitatius) Per avançar dins de l’embut són necessaris mètodes més precisos: models quantitatius: predicció quantitativa de l’activitat La diferència principal respecte els farmacòfors és que és QUANTITATIU. Continua sent basat en el lligand i és un mètode més específic. Molt específic vol dir que són per predir una activitat molt concreta i el domini reduït quan es parla del domini vol dir que es pot aplicar a un conjunt de molècules determinat. El domini reduït vol dir que el model QSAR només es pot aplicar a un grup molt concret, a diferència de la cerca farmacofòrica (la qual es pot aplicar a un domini ampli de molècules).
Es vol fer una predicció de l’activitat amb un model matemàtic. Sol tenir aquesta forma: log k = ax + b Log k és una relació lineal perquè la meva activitat depèn d’una propietat x lineal.
Aquest log k és una mesura de l’activitat del meu compost. Així, al camp d’activitat biològica es pot mesurar aquesta activitat amb l’IC50. Concentració necessària perquè el creixement disminueixi un 50%. Obtenir una predicció quantitativa del meu log k.
Aquestes relacions es solen trobar logarítmiques per com funciona la cinètica. Predim a partir d’una propietat de la molècula, en aquest cas és la x. És una propietat del lligand que es coneix com al descriptor. Com funciona el procés?  imaginem que tenim un conjunt de molècules actives, coneixem el seu log k i el logaritme de la IC50.
13 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Coneixem el logaritme del descriptor i suposem que tenim 4 anàlegs. Relació lineal i a partir de la recta (y=ax+b) predim d’una molècula desconeguda que no sabem la seva activitat però si sabem el valor del seu descriptor i fem una predicció.
- Cas més senzill: relacions lineals a partir de dades experimentals (regressions) - Més complexitat: xarxes neuronals Models QSAR Si ens fixem hi ha un exemple de regressió lineal que té dos descriptors. Les idees principals són les mateixes. La pregunta important és: quins descriptors he d’agafar per fer la regressió? I quin domini de molècules agafaré?  quan em pregunto quins descriptors he d’agafar, realment la idea que segueixo és que quan parlem d’activitat farmacològica és administrar una substància que produeix un efecte a l’organisme.
Quan sabem que l’organisme és complex, fins que la molècula arribi poden passar moltes coses o un cop arribi es poden produir moltes respostes. Si tinc una idea de com és el lligand i com interactua amb el receptor es pot saber quines relacions hi ha entre l’estructura i l’activitat.
Els descriptors pel QSAR, els principals descriptors es centren en la biodisponibilitat.
El principal descriptor que s’utilitza en el QSAR és el logP.
També s’utilitzen descriptors que mesuren l’activitat intrínseca. També s’utilitzen descriptors com el número de dadors, número d’acceptors i altres.
L’exemple presentat abans és un QSAR molt senzill en el qual l’activitat depenia linealment del logP. Log k = a log P + b. És un QSAR d’un sol descriptor.
Concretament l’exemple anterior era la constant d’inhibició d’un enzim. En qualsevol cas, si pensem que tenim és mesura d’una constant d’inhibició d’un enzim a partir de la propietat logP que era una propietat que ens parlava de la biodisponibilitat. Si comparéssim tot el domini de molècules que teníem, en principi estructures molt 14 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA diferents poden tenir logP molt semblant. Simplement mirant el logP podem predir la constant d’inhibició d’una molècula enfront d’un enzim. El logP pot ser el mateix per dues molècules completament diferents i això s’ha d’arreglar. El logP no és suficient per predir l’activitat.
Mètode molt específic i té un domini molt restringit. És qualitatiu.
Si la relació és bilineal (l’activitat depèn de dos descriptors) o multilineal (més de dos).
Els descriptors més habituals tenen en compte la biodisponibilitat i l’activitat intrínseca.
Descriptors moleculars o o o o Paràmetres que mesuren una propietat molecular Biodisponibilitat: logP (diu si és molt polar, poc polar o polaritat intermitja), lipofilicitat, volum molecular i superfície molecular Activitat intrínseca: energia d’orbitals, número d’acceptors o dadors de pont d’hidrogen...
Important: mètodes per estimar-los (prediccions in silico) Exemple: càlcul de logP per contribucions: o Contribucions anatòmiques (110 paràmetres diferents, segons l’hibridació de l’àtom, grup funcional, etc)  Per fer els screenings més eficients és millor tenir-ho automatitzat.
o Contribucions de fragments: 80 – 90 fragments diferents (depèn del mètode), correccions per interaccions intramoleculars  Exemples de QSAR -1 15 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Quina és la relació entre el fet de tenir un mètode quantitatiu o vàlid per un domini restringit?  L’exemple estima l’activitat d’un grup de molècules a partir d’un descriptor.
Inhibició d’un enzim alcohol deshidrogenasa (ADH) per derivats de la fenilacetamida.
Aquests derivats tenen la formula que es pot veure a la figura.
El QSAR sempre és l’activitat en funció d’alguna cosa, inversa de la constant d’inhibició o constant de dissociació de la inhibició. La regressió lineal és 0.89logP + 3.56.
Perquè podem utilitzar aquesta regressió?  Perquè el domini d’aquest QSAR és molt restringit. Aquesta relació només és vàlida concretament per derivats d’aquesta molècula. L’explicació o base conceptual que hi ha darrere d’això és que els derivats de la fenilacetamida tenen activitats molt semblants. Per tant, aquesta part de l’activitat intrínseca és igual per tot el meu domini. Aleshores, per explicar l’activitat és suficient explicar un sol paràmetre de biodisponibilitat. La única variació significativa dins del domini és el logP.
Si ara agafo una molècula diferent, agafo el logP i intento predir l’activitat d’aquesta enfront d’un enzim em donarà un resultat però no servirà de res perquè tot i que la molècula sigui igual de disponible potser no actua sobre el receptor, actua de manera diferent o tot i tenir un logP semblant té una disponibilitat diferent.
Predicció quantitativa a partir d’un sol paràmetre però només són vàlids per dominis molt específics. Si ho faig sobre un domini molt restringit sí puc fer la predicció. El domini restringit és perquè només acceptem diferents derivats de la fenilacetamida i que tingui una x diferent (domini diferent). És específic perquè es centra en una activitat determinada, en aquest cas la inhibició d’aquest enzim i es pot aplicar a un domini molt restringit.
Exemples de QSAR -2 16 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA Exemple de QSAR bilineal. Inhibidors del mateix enzim però tenim un altre domini, en aquest cas són derivats de pirazol. Tenim un segon paràmetre que és sigma.
Paràmetre electrònic que determina la capacitat d’enllaçar-se al centre actiu.
S’enganxa a un àtom de Zn que està al centre actiu. Exemple clàssic en el que hi ha dos paràmetres, un de biodisponibilitat i un altre de activitat intrínseca. Aquest tipus de derivats fa que el domini tan restringit i la R2 dona bastant bé. Prediccions fiables de la disponibilitat però amb un domini molt restringit.
Els resultats no seran fiables perquè estarem fora del domini (si ho fem amb una altre molècula).
Exemples de QSAR -3 (NO HO HEM FET) 6.4.2. Extensions del QSAR QSAR multilineal o o o QSAR amb més de 2 descriptors: és més fàcil obtenir la correlació, però no sempre és significativa Correlació significativa: mínim 5 dades per descriptor Problema: correlació entre descriptors que mesuren propietats similars, p. Ex.
Volum i superfície molar  QSAR amb combinacions lineals de descriptors (anàlisi de components principals) Idees que s’han intentat aplicar per ampliar el domini del QSAR. Les prediccions que dona el QSAR són bastant fiables però el principal desavantatge és que un QSAR té un domini molt restringit.
Si el QSAR un cop s’ha derivat el model matemàtic dona prediccions fiables com podem ampliar el domini d’això per poder-ho aplicar a volums més amplis de molècules. La cosa més immediata és incloure més descriptors. Puc intentar fer un QSAR multilineal  log K = a·x1 + b·x2 + c·x3 + d·x4 + ... + z Això té inconvenients: - Si vull establir una relació amb molts descriptors hem de tenir idees d’estadística i la primera idea és que necessito (per establir la relació lineal necessito un conjunt de dades) 5 dades per descriptor per establir la correlació o regressió.
17 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA - Molts cops aquests descriptors estan correlacionats entre ells. Això significa que podem tenir descriptors diferents però que descriguin coses molt semblants. Hi ha una dependència lineal entre ells i aquells que volen ser descriptius perden significació estadística. Un exemple molt clar són el volum molecular i la superfície molecular, els quals estan correlacionats. Volum gran implica superfície gran. Un altre exemple és el paràmetre de lipofilicitat, hidrofobicitat... tenen relació amb la biodisponibilitat i estan relacionats amb el logP. Hi ha mancança dels descriptors.
Per millorar això es fan combinacions lineals de descriptors. Anàlisi de components principals i fer un QSAR amb això. Tot i això hi ha el problema de la correlació.
Si puc predir l’activitat a partir d’un únic paràmetre (EXEMPLE DE QSAR -1)  aquests models senzills són fàcilment interpretables, QSAR que depenen d’un sol paràmetre).
En canvi, si fem anàlisi de components principals i cadascun d’ells té molts descriptors interns i tenim tants que no podem saber com fer-ho. És millor tenir una regressió molt senzilla que no pas quan es fa tan complex que no són interpretables i potser no són tan útils per millorar l’activitat a través del disseny.
Problema principal del QSAR multilineal: regressions sense significat físic, no interpretables Xarxes neuronals feed-forward  cas extrem de predicció multilineal i porta el QSAR al extrem. Les xarxes neuronals són models matemàtics que s’utilitzen per predir propietats molt complexes.
Una xarxa neuronal consisteix en desenvolupar la idea del QSAR fins a l’extrem, és a dir, tenim una superfunció matemàtica on introduïm una sèrie de variables i aleshores al final surt un resultat. Això es coneix com els nodes de input. La xarxa neuronal, a partir d’aquests nodes calcula el valor de log K. Fa dos passos: el primer és un pas intermedi que calcula uns valors intermedis (y1, y2, y3) i la manera més senzilla de ferho és combinacions lineals dels descriptors (suma ponderada). Aquests descriptors es sumen i cadascun amb el seu pes i es fan 3 sumes ponderades diferents, anomenats nodes amagats i es torna a fer, posteriorment, una suma ponderada d’aquests tres i s’obté el log K.
Aleshores, la xarxa neuronal la gràcia que tenen és que per part matemàtica estan molt estudiats i existeixen algoritmes matemàtics que a partir d’un conjunt determinat de descriptors (per establir la xarxa neuronal necessito un conjunt de dades inicials pels quals conec el log K i els descriptors). Aquest conjunt de dades inicials es coneix com el training set. Els algoritmes de la xarxa neuronal, a partir del traininig set si la xarxa està ben entrenada a partir dels valors dels descriptors que li dono calcula el valor de log K que tenen experimentalment les molècules. El log K es coneix com a dada inicial. Per un parell de compostos es mesura el log K. La gràcia és que després es pot utilitzar per predir coses que estan fora del training set. Aquest tipus de xarxa s’anomena feed-forward i si s’entrena bé la xarxa s’aconsegueix reproduir molt bé les 18 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA dades inicials de training set. El problema d’aquestes xarxes neuronals, principalment, són dos: 1- Els models no són interpretables. Si tinc un model senzill puc dir que augmentant la x augmentaré la k, sé que he de fer amb els meus descriptors per millorar l’activitat. Si em plantejo que he de fer amb el descriptor x3 per millorar l’activitat, com puc canviar-lo?  En el fons, amb la xarxa neuronal això és impossible de predir. Per dissenyar racionalment no són útils.
2- El segon problema es diu over-training. Aquestes xarxes reprodueixen molt bé l’activitat de les molècules de training set però les prediccions no acaben de ser fiables. En el sentit que si tenim una recta senzilla de correlació i la R2 està prop de 1. Aquesta recta de calibratge és molt fiable per mesurar valors incògnita. En aquest cas la R2 propera a 1 no em garanteix les prediccions correctes.
o o o o QSAR complex: molts descriptors i paràmetres Més generals No interpretable Problema del over-training Conclusió QSAR -1 o o o o Relacions quantitatives  més precises, menys generals Descriptors numèrics Cas òptim: un o dos descriptors, biodisponibilitat + intrínsec Extensions: QSAR multilineal, xarxes neuronals 6.4.3. Toxicologia in silico - Reglament REACH, introducció i aspectes generals i aplicacions QSAR PER A LA TOXICOLOGIA IN SILICO o o o o Dificultats predicció toxicitat: o Concepte molt ampli o Poc específic o Paper dels metabòlits Objectiu: models QSAR per la predicció Problema principal: la diversitat de l’acció toxicològica (p. Ex. Efecte sobre l’ADN, sobre proteïnes...) Solució: acotar els models de predicció segons tres aspectes: 19 Natalia Mingorance García 3r Biologia – UdG UNYBOOK: nattymg23 FONAMENTS DE BIOINFORMÀTICA o Mateix endpoint (tipus de toxicitat) o Mateix mecanisme o Grup homogeni de molècules  Categoria Predicció activitat toxicològica Toxicitat del 4-ciclohexilbutiraldehid Endpoint: 50% impairment growth concentration (IG50) a les 48h contra el protozou Tetrahymena pyriformis o o o Categorització segons l’enllaç amb proteïnes 17 dades disponibles Bona correlació 20 ...

Tags:
Comprar Previsualizar