Seqüències nucleotídiques- Tema 4 (2014)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Genética - 3º curso
Asignatura Bioinformática
Año del apunte 2014
Páginas 13
Fecha de subida 18/02/2015
Descargas 3
Subido por

Vista previa del texto

BI-­‐Tema  4   TEMA  4.  ALINEAMENT  DE  DUES  SEQÜÈNCIES       1. COMPARACIÓ  DE  DUES  SEQÜÈNCIES   Quin  és  el  millor  alineament  entre  les  seqüències  GAATTCAG  I  GGATCG?   Tenim  dues  seqüències  i  ens  preguntem  quin  és  l’alineament  millor,  per  a  fer  això,  anem   canviant  els  GAPs  i  generant  matchs  perfectes.       Quins  paràmetres  podem  utilitzar  per  comparar  aquestes  dues  seqüències?         Per  saber  com  a  partir  de  dues  seqüències  problema  obtenim  el  millor  aparellament   utilitzarem  dos  paràmetres:   -­‐ Grandària     -­‐ Freqüència  de  bases   -­‐ Contingut  G+C   -­‐ Motius  comuns;  Veure  si  hi  ha  un  motiu  consens  (com  es  en  aquest  cas  l’ACGT)     Però  això  no  ens  dona  informació  de  quin  és  el  millor  aparellament.  La  comparació  que  ens   donarà  més  informació  serà  fer  un  alineament.           2. ALINEAMENT  DE  PARELLES   Un  alineament  és  una  forma  de  representar  i  comparar  dues  o  més  seqüències  o  cadenes   de  DNA,  RNA  o  estructures  proteiques  per  ressaltar  les  seves  zones  de  similitud,  que  ens   podrien  indicar  relacions  funcionals  o  evolutives  entre  els  gens  o  proteïnes  analitzades.         1   BI-­‐Tema  4   Significat  d’un  alineament:   -­‐ Estadístic:  Es  pot  assignar  una  puntuació  a  cada  alineament  que  indiqui  com   d’allunyats  estan  de  que  aquest  mateix  alineament  succeeixi  a  l’atzar.   -­‐ Biològic:  si  existeix  una  identitat  que  ens  permeti  correlacionar  les  seqüències  des   d’un  punt  de  vista  biològic.     Haurem  de  fer  un  anàlisi  estadístic  que  a  partir  d’un  llindar  ens  indiqui  que  entre   dues  seqüències  hi  ha  una  relació  evolutiva  o  biològica.     Compararem4  seqüències,  una  de  les  quals  és  l’ancestre  comú.  Farem  l’aparellament  de  la   seqüencia  ancestre  amb  la  resta  de  les  tres  seqüències  i  veurem  els  llocs  on  hi  ha  identitat  i   els  llocs  on  no  hi  ha,  on  hi  ha  gaps  (discontinuïtats).  Al  final  calcularem  el  percentatge   d’identitat,  així  podrem  establir  quina  seqüencia  nucleotídica  es  més  propera  a  l’ancestre.     Els  tres  aparellaments  tenen  un  percentatge  d’identitat  igual,  per  tant  a  partir  d’aquest   aparellament  no  podem  saber  quina  seqüencia  és  mes  propera  a  una  altra.       3. ASSIGNACIÓ  D’UNA  PUNTUACIÓ  A  L’ALINEAMENT     Com  que  les  seqüències  tenen  el  mateix  percentatge  d’identitat,  utilitzarem  un  sistema  de   puntuació  additiu  que  ens  avaluï  punt  per  punt.  I  assignarem  un  puntuació,  (score)  al   alineament.  Aquest  sistema:   -­‐ És  additiu,  per  caDa  parella  de  nucleòtids  calcularem  un  valor,  que  dependrà  de  la   probabilitat  de  l’esdeveniment  evolutiu  que  ha  pogut  generar  aquell  canvi.  El  valor   final  serà  la  suma  de  les  puntuacions.   -­‐ No  sempre  dona  valors  positius.  Sinó  que  també  n’hi  ha  de  negatius   (penalitzacions),  aquests  són  els  missmatch.   -­‐ Puntuacions  (de  més  a  menys),  que  també  fan  referencia  a  la  probabilitat  amb  la   que  es  donen:   o Identitats  (match)  :  Allò  que  és  idèntic  serà  el  que  està  més  ben  puntuat.     o Substitucions:  En  segon  lloc  les  substitucions  d’una  base  o  aminoàcid  per  un   altre  (transició>transversió).     o Indels  (insercions  i  delecions)       2   BI-­‐Tema  4   Construirem  una  MATRIU  D’IDENTITAT  O  SUBSTITUCIÓ  on  posarem  les  posicions  i  donarem   un  valor  al  match  o  missmatch.  De  moment  puntuarem  de  la  següent  manera:   • -­‐Match  (identitat):      +1     • Missmatch  (no  identitat):  0       Puntuant  d’aquesta  manera,  altre  cop  les  tres  seqüències  tenen  la  mateixa  puntuació,  hem   d’afegir  més  puntuacions.           4. PUNTUACIÓ  PER  “GAPS”  (PENALITZACIONS)     Ara  utilitzem  una  matriu  amb  les  següents  puntuacions:   • Match:  +1   • Missmatch:  -­‐1   • Gaps:  -­‐2   La  puntuació  dels  mateixos  alineaments  ara  ja  no  és  igual  en  els  tres  alineaments.  El  tercer   té  una  puntuació  menor  (3  punts)  vers  les  altres  dues  (4  punts).  Així  doncs,  la  seqüencia  1  i  2   son  més  properes  a  l’ancestre.       3   BI-­‐Tema  4       Ara  farem  una  nova  matriu  amb  les  següents  puntuacions:   • Match:  +1   • Missmatch:  tindrà  diferents  puntuacions  segons  el  tipus  de  substitució  i  la   probabilitat  amb  la  que  es  doni:   o Transició:  -­‐1   o Transversió:  -­‐1,5   • Gaps:  -­‐2     Amb  aquesta  matriu  podem  veure  quin  és  l’alineament  més  bo,  és  a  dir  ,  la  seqüencia  més   propera  a  l’ancestre  és  la  seqüencia  numero  1.         5. Matrius  de  substitució:  Identitat  I  Similitud     Ara  ens  fixarem  en  la  possibilitat  que  un  aminoàcid  es  substitueixi  per  un  altre,  però  que  a   nivell  del  seu  paper  funcional  la  substitució  d’un  per  altre  no  sigui  transcendent,  per  tant,  en   seqüencia  aminoacídiques  introduirem  un  nou  concepte,  la  similitud  (no  idèntic  però   semblant).  Així  doncs  en  aparellaments  podem  calcular  el  percentatge  d’identitat  i  el   percentatge  de  similitud  –positives  en  anglès-­‐  (mirant  les  característiques  químiques  dels   aminoàcids).     En  les  següents  imatges,  les  identitats  es   marquen  amb  |  i  les  similituds  amb  :       4   BI-­‐Tema  4                                                     Ara  farem  un  recompte  per  veure  quants  canvis  de  nucleòtids  s’han  produït  perquè  un   aminoàcid  es  canviï.  Això  es  busca  al  codi  genètic.  Per  exemple  ,  pel  canvi  Aspà  Tyr  ,  es   necessita  1  mutació   Això  ho  podem  utilitzar  a  l’hora  de  fer  el  sumatori  d’un  alineament,  ja  que  el  canvi  d’un   aminoàcid  per  l’altre  no  ha  de  tenir  la  mateixa  puntuació.                       5   BI-­‐Tema  4   Tipus  de  matrius  de  substitució:     PAM  (Point  Accepted  Mutation)   -­‐ -­‐ -­‐ -­‐ -­‐ Desenvolupada  per  Margaret  Dayhoff  el  1977   És  una  matriu  de  substitució  que  dona  valor  al  canvi  d’un  aminoàcid  per  un  altre.     Es  calculen  analitzant  diferències  en  proteïnes  molt  relacionades  (molt  properes,   amb  un  85%  de  similitud)   Les  PAM1  són  una  PAM  bàsica  en  que  hi  ha  1  mutació  per  cada  100  aminoàcids   analitzats.  Així  la  matriu  PAM1  estima  el  ritme  de  substitució  entre  dos  aminoàcids   si  el  1%  d’aquests  canvien   o La  resta  de  matrius  PAM  deriven  d’aquesta  primera,  han  estat  inferides  a   partir  per  PAM1.   Dayhoff  va  assumir  que  es  podia  calcular  una  matriu  per  a  seqüències  divergents  des   d’una  matriu  per  a  seqüències  properes  elevant  aquesta  segona  matriu  a  una   potència.  El  nombre  al  que  l’elevarem  (el  nombre  de  la  PAM)  correspon  a  acceptar  o   no  una  major  divergència  entre  les  seqüències:   o Si  uso  una  PAM  de  valor  molt  alt,  podré  comparar  seqüències  molt   allunyades,  perquè  som  menys  restrictius.  (PAM250)   o Si  la  PAM  que  utilitzo  té  un  valor  menor,  som  mes  restrictius,  perquè   penalitzem  més.  (PAM  30)   o Majoritàriament  s’utilitzen  les  PAM120  (que  són  intermèdies  pel  que  fa  a  la   restricció).     [PAM1]250  =  PAM250       Blosum  (BLOck  SUbstitution  Matrix)   Són  un  altre  tipus  de  matrius  de  substitucions  que  donen  valors  diferents  segons  la   substitució  (diferents  penalitzacions).   -­‐ Henikon  i  Henikoff  (1992)  van  construir  aquestes  matrius  utilitzant  alineaments   múltiples  de  proteïnes  evolutivament  divergents.     Entre  aquest  elevat  nombre  de  proteïnes  que  s’alineen,  es  busquen  blocs  de   seqüències  compartides  entre  les  seqüències  aminoacídiques,  i  dins  els  blocs   s’analitzen  les  probabilitats  dels  canvis.     -­‐ Les  probabilitats  utilitzades  en  els  càlculs  de  la  matriu  es  computen  observant  blocs   de  seqüències  conservades  trobats  dins  dels  alineaments  de  proteïnes  divergents.   S’assumeix  que  aquestes  seqüències  conservades  son  importants  funcionalment   dins  les  proteïnes  relacionades.     -­‐ -­‐     La  matriu  estàndard  es  la  BLOSUM62,  que  accepta  un  62%  de  canvis  dins  els  blocs.   És  intermèdia   Quan  major  sigui  el  valor  del  blosum,  més  penalitzadora  és  la  matriu.  S’utilitzaran   doncs,  matrius  BLOSUM  de  numeració  alta  per  alinear  dues  seqüències  properes   (relacionades),  i  s’utilitzaran  nombres  baixos  per  a  seqüències  més  divergents.     6   BI-­‐Tema  4                 7   BI-­‐Tema  4                   Ara  analitzarem  i  puntuarem  (penalitzarem)  els  gaps  (insercions  i  delecions).   En  la  diapositiva  es  mostren  els  gaps  dels  aparellaments  de  les  tres  seqüències  amb  la   ancestre.  A  partir  d’aquestes  farem  una  matriu  de  similitud.   Els  gaps  tindran  un  valor  negatiu,  restaran  del  còmput  total.           La  puntuació  o  penalització  del  gap  (W),  dependrà  de:   -­‐ x,  Longitud  del  gap   -­‐ g,  penalització  per  “obrir”  un  gap.  La  puntuació  que  donarem  en  la  obertura  del  gap   pot  ser  superior  a  la  que  donem  en  l’extensió  (g>r),  perquè  el  nombre  de  residus  de   més  o  menys  no  és  tant  costós  com  pel  fet  que  el  gap  s’hagi  produït.   -­‐ r,  longitud    o  extensió  del  gap  (nombre  de  residus  implicats)     Així  doncs:    𝑾 =   −𝒈 − 𝒓  (𝒙 − 𝟏)     Molts  programes  d’alineament  suggereixen  els  valors  per  defecte,  modificar  les    variables   canviarà  l'alineament  i  la  seva  interpretació.     (veure  puntuacions  i  alineaments  a  les  diapositives)     Quina  matriu  i  penalització  per  Gap  utilitzar?       8   BI-­‐Tema  4   La  taula  mostra  la  regla  general,  però  normalment  juguem  amb  les  variables  i  mirem  quina   ens  dona  el  resultat  que  esperem.  Però  hi  ha  un  criteri  general  que  es  basa  en  la  llargada  de   la  seqüencia  aminoacídica.  En  el  còmput  total  podem  afegir  una  nova  variable     que  serà   una  penalització  alhora  d’introduir  gaps  contigus  o  bé  el  fet  que  hi  hagin  gaps  als  extrems  de   la  seqüencia.               6. Mètodes  d’alineament   Aquests  mètodes  utilitzaran  els  sistemes  de  puntuació  descrits  i  ens  donaran  un  resultat.   L’alineament  ha  de  ser  el  millor  dels  possibles  (amb  la  puntuació  més  alta)  i  el  programa  ha   de  ser  ràpid  (ha  de  computar  ràpid).       Hi  ha  tres  grans  estratègies  en  l’alineament  de  parelles  de  seqüències.  Les  dues  primeres  es   distingeixen  de  la  tercera.     -­‐ Programació  dinàmica:     -­‐ Parells  de  seqüències   -­‐ Mètode  quantitatiu.  Garantitza  alineaments  òptims  i  exactes.  Obtenim  el  millor   dels  possibles  alineaments.   -­‐ Computacionalment  car,  lent.  Podem  distingir  dues  formes  de  comparar  les   seqüències:     o o Global  (Needelman  &  Wunch,  1970)  compara  tota  la  longitud  de  la   seqüencia   § És  més  costós  computacionalment  (  i  més  quan  les  seqüències  no   estan  relacionades)   § Precís  si  les  seqüències  estan  relacionades   Local:  (Smith-­‐Waterman,  1981)  ens  centrem  ens  petits  fragments  de  les   dues  seqüències.       -­‐ Cerques  heurístiques   -­‐ Mètode  quantitatiu.  Tot  i  que  els  alineaments  no  sempre  són  òptims.     -­‐ Permeten  cerques  ràpides  en  bases  de  dades  grans.       9   BI-­‐Tema  4   -­‐ -­‐ Aquesta  cerca  és  molt  útil  per  utilitzar  en  les  cerques  contra  les  bases  de  dades.  És  la   base  dels  mètodes  que  permeten  llançar  una  seqüencia  problema  contra  una  base   de  dades  (per  veure  quines  s’hi  assemblen).  Tot  i  que  el  mètode  és  ràpid,  no  sempre   ens  dona  el  millor  alineament.     Utilitzen  el  programari  BLAST  i  FASTA.   Fan  un  alineament  local.       Les  dues  estratègies  quantitatives  tenen  limitacions:   -­‐ Son  cares  computacionalment  i  lentes.  No  estan  optimitzades  per  agafar  una   seqüencia  problema  i  comparar-­‐la  amb  tot  el  que  hi  ha  en  una  base  de  dades                     -­‐ Dot  plot   -­‐ Mètode  qualitatiu.  No  obté  alineaments  òptims.     -­‐ Permet  identificar  “visualment”  repeticions  inter  e  intrasequencials   -­‐ Rapida  identificació  dels  Indels,  patrons  de  reorganització  en  els  genomes  i  vents  de   transferència.  Per  això  es  útil  per  comparar  seqüències  molt  grans.   -­‐ No  es  solen  utilitzar  per  comparar  seqüències.     Buscar  el  millor  alineament  entre  dues  seqüències:   Quan  construïm  una  alineament  tenim  dues  seqüències  X  i  Y,  amb  longituds  m  i  n.  A  l’hora   d’alinear  aquestes  seqüencies  tindrem  f(m,n)  maneres  d’alinear-­‐les,  a  més  s’ha  de  calcular  la   puntuació  de  cadascun  i  agafar  l’òptim  (el  que  té  més  puntuació)  això  és   computacionalment  molt  car.       Per  solucionar  això,  aplicarem  un  mètode  que  ens  permeti  guanyar  temps  i  amb  un  cost   computacional  mes  baix,  aplicarem  programació  dinàmica.   Utilitzar  la  programació  dinàmica  en  l’àmbit  de  comparació  de  seqüencies  va  ser  pensat  per   Needelmen-­‐Gunsch.     La  idea  bàsica  és  construir  el  millor  alineament  usant  alineaments  optims  de  sub-­‐ seqüències  menors.     Farem  una  matriu  d’alineament  i  calcularem  per  cadascun  dels  possibles  alineaments  una   puntuació,  també  valorem  que  les  seqüències  alineen  amb  res,  és  a  dir,  la  possibilitat  que  hi   hagi  gaps,  o  que  sorgeixin  també  missmatch.  Gràcies  a  aquesta  matriu  arribarem  a   l’alineament  òptim.       10   BI-­‐Tema  4           Exemple:  Construir  l’alineament  òptim  entre  les  seqüències:  GATACTA  i  GATTACCA.     1. Definir  la  matriu  de  substitució  i  les  penalitzacions.     2. Construir  la  matriu  C(nxm)  de  forma  recursiva  on  cada  element  de  la  matriu   l’anomenarem  C  (i,j)    a  més  calcularem  la  puntuació  per  cada  aparellament  de  la   matriu.         3. Un  cop  tenim  plena  la  matriu  començarem  des  de  l’inici  i  el  millor  aparellament  serà   aquell  que  al  final  tingui  la  puntuació  és  alta,  així  doncs  el  camí  (path)  que  al  final   tingui  mes  puntuació  serà  el  millor.  En  la  matriu,  les  línies  horitzontals  i  verticals   són  gaps,  les  diagonals  són  match     11   BI-­‐Tema  4     Cada  path  correspon  a  un  alineament  únic:   o El  score  per  un  path  és  la  suma  incremental  dels  scores  dels  seus  passos   (diagonals  o  costats)   o El  path  amb  un  score  més  alt  és  l’alineament  òptim     (exemples  a  les  diapositives)     Al  alinear  les  seqüències,  no  és  gaire  transcendent  el  fet  de  prioritzar  una  seqüencia  o  altre   pel  que  fa  a  la  posició  del  gap  (decidir  on  posar  el  gap).  No  obstant,  si  que  és  important  en  el   moment  de  l’alineament  múltiple  perquè  els  mètodes  d’alineament  múltiple  son  molt   sensibles  als  llocs  on  s’han  obert  els  gaps.       4. Representar  l’alineament  que  ha  resultat  òptim     -­‐ Des  de  baix  fins  a  l’inici   -­‐ Indiquem  l’score       12   BI-­‐Tema  4       7. ALINEAMENT  LOCAL  I  GLOBAL     L’alineament  de  Needlemen  i  Winsch  permet  fer  alineaments  globals  (de  tota  la  llargada   de  les  dues  seqüències)  òptims  per  a  :   -­‐ seqüències  de  longituds  semblants     -­‐ seqüències  relativament  semblants.   L’alineament  és  poc  informatiu  per  seqüències  de  longitud  diferent       El  1981,  Temple  Smith  i  Mike  Watterman  proposen  una  modificació  del  algoritme  de   Needleman-­‐Wunsch  per  a  obtenir  alineaments  locals  obtenint  el  millor  score  entre  dos   sub-­‐seqüències  d’una  parell  de  seqüències.  és  a  dir,  prescindirem  de  tota  la  comparació  i  ens   centrarem  en  regions  petites  que  són  determinades  regions  consens  que  es  troben  en   diferents  gens  o  proteïnes  i  que  les  comparteixen  els  gens  o  proteïnes  d’organismes  molt   diferent.  Es  a  dir,  ara  el  que  farem  és  concentrar-­‐nos  en  regions  dins  la  matriu  que  localment   donen  lloc  a  una  bona  puntuació.     L’alineament  global  té  sentit  en  el  moment  en  que  comparem  seqüències  d’organismes   semblants  per  veure  els  polimorfismes  que  hi  ha.     I  el  local  per  veure  si  seqüències  d’organismes  allunyats  comparteixes  motius  consens.           13   ...