Genòmica- Tema 1 (2014)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Genética - 3º curso
Asignatura Bioinformática
Año del apunte 2014
Páginas 29
Fecha de subida 18/02/2015
Descargas 1
Subido por

Vista previa del texto

BI-­‐  Tema  1   TEMA  1: GENÒMICA SEQÜENCIACIÓ DE GENOMES   Principals fites de la seqüenciació de genomes El 1966 es va seqüenciar el primer genoma i a mesura que van anant-se perfeccionant les tècniques de seqüenciació, es van poder seqüenciar genomes d’organismes més complexes Perquè ens interessa seqüenciar els genomes? Els genomes són la principal font d’informació biològica. Seqüenciant un genoma podem conèixer: – Número i estructura dels gens i les regions regulatòries – Principis bàsics de l’organització de l’organisme – Funcions bàsiques dels gens conservats en diferents espècies – Organització cromosòmica – Evolució dels genomes (sintènia, evolució de les seqüències) – Variació genòmica – Estudis d’associació – Estudis d’expressió: s’estudia seqüenciant tot el mRNA (en forma de cDNA) d’un organisme.
– Biologia de sistemes – Genòmica aplicada La complexitat d’un “Projecte genoma”: Seqüenciar un genoma de nou és complicat i necessitem: - Tecnologia de seqüenciació: segons els diners que tindrem n’utilitzarem una o altra - Material primari: normalment DNA (en nanograms) - Reactius - Robòtica - Bioinformàtica - Centre genòmic - Comprensió biològica: podem aprendre sobre els organismes Nature va fer un símil entre el projecte genoma i un cotxe.
  1 BI-­‐  Tema  1   Principals centres de seqüenciació de genomes: • Si volem seqüenciar un genoma gran, millor acudir a un centre gran.
Criteris per a la seqüenciació d’un genoma: - - Organisme no humà. Perquè seqüenciem els seus genomes? o Ampli coneixement biològic previ (espècies model). Perquè és una espècie model.
o Patogen humà o Interès filogenètic o Aplicació industrial (cervesa, pa...) Humans: o Interès mèdic o Evolució humana o Estudis d’associació o Comparacions genomes normals-tumorals o Malalties minoritàries. Per trobar un possible tractament o cura.
Proposta d’un projecte genoma Si volem seqüenciar un genoma de novo necessitem seguir uns passos: - Crear un consorci (agrupació de laboratoris) - Escriure el “white paper” un informe detallat del pla d’acció escollit o un resum dels arguments de la importància d’un subjecte.
- Trobar un organisme de finançament (públic, privat o públic-privat) Tècniques de seqüenciació - -   Sanger: - Es fa per electroforesi capil·lar - Reads 500-700 pb molt bons - El punt negatiu és que necessitem moltes colònies de la que obtindrem al final un genoma Next (o second) generation sequencing: - Des de 2005 - Incrementa l’output (tenim molts reads) - Disminueix la llargada dels reads 2 BI-­‐  Tema  1   - - Disminueix la precisió a l’assignar les bases (base calling). El fet de captar el canvi de llum, pH...per assignar quantes bases hi ha en un lloc és el base calling, que no és tant fiable en aquestes noves tècniques. Per exemple quan hi ha 4 o 7 adenines, es produeix la mateixa quantitat de llum.
o Diferents perfils d’error segons la plataforma tecnològica Third generation sequencing Comparació principals tècniques de seqüenciació del DNA (2014) A continuació es presenta una taula amb dades de diferents tècniques de seqüenciació i els sensors que utilitzen.
Les tècniques de seqüenciació més noves intenten: - Augmentar la longitud dels reads - Augmentar el nombre de reads - Millorar la qualitat de les seqüències (millorar el base calling) * Si utilitzéssim Oxford Nanopore (que diuen que obté reads de 10000 pb) ens estalviaríem l’assemblatge.
  3 BI-­‐  Tema  1   A continuació es presenten diferents sensors segons la llargada I la qualitat dels reads, i , per tant, el preu. Si volem sequenciar un genoma bacterià no cal que utilizem un sensor molt car.
ENSAMBLATGE DE GENOMES Al fer la seqüenciació obtenim milions de reads que no sabem on van, els hem d’assemblar per obtenir llavors la informació de l’organisme. I aquest pas és molt important.
Tipus d’assemblatge Hi ha dos maneres d’assemblatge: - Mapeig contra referència: ens basem en la comparació dels reads amb una seqüencia que ja tenim assemblada (seqüencia de referència).
(-) No permet la detecció de seqüencia nova ni reorganitzacions estructurals (-) No aplicable ala primera vegada que es seqüencia un genoma (+) Més fàcil computacionalment.
- Assemblatge de novo: haurem de comparar un read amb la resta de reads i buscar extrems solapants.
(+) Permet la detecció de seqüencies noves i reorganitzacions estructurals (els reads sempre es comparen en ambdues direccions per veure reorganitzacions com translocacions).
(-) Molt més complex computacionalament i lent.
  4 BI-­‐  Tema  1   o (-) Es molt complex quan hi ha moltes seqüències repetitives Obtenim contigs: conjunt de reads ordenats Segons el que vulguem detectar farem una cosa o altra.
Comparació d’ensambladors de-novo: Estratègies En la figura es representa quins programes s’han desenvolupat al llarg del temps (eix Y) en funció de l’algoritme (eix X) i les tècniques que vulguem analitzar. (en la llegenda).
Es desenvolupen tant programes que utilitzen el mateix algoritme com programes que es fixen en quin tipus d’informació utilitzem (no es el mateix partir de reads de la tècnica 454 que de la tècnica Solexa, per exemple).
  5 BI-­‐  Tema  1   Temps de còmput i RAM Què necessitem saber a l’hora d’assemblar? - de quin tipus de dades partim (de quina tècnica provenen) de quins ordinadors disposem. Segons l’ordinador que utilitzem tindrem un temps de còmput o altre.
Els gràfics mostren el temps de còmput i la RAM en funció del tipus d’ordinador.
o En SE (single end) obtinc una molècula llarga (només un extrem), en canvi, en PE (pair end) circularitzo aquesta molècula i n’obtinc dos seqüències, cadascuna dels extrems i a mes, sabem quina distància hi ha entre aquests extrems.
o Molts programes no estan ni dissenyats per fer PE (que té el doble d’informació) o Els programes que fan SE necessiten molta memòria RAM. Com més complex i gran és el genoma, més RAM es necessita.
Ensamblatge de seqüències A partir de la seqüenciació obtenim reads, fragments de seqüencia seguida obtingut en una reacció de seqüenciació.
D’aquests podrem obtenir contigs, que son conjunts de reads que s’han pogut ordenar per formar un segment continu de seqüència en base al solapament dels seus extrems o a la similitud amb una referència. Els programes d’assemblatge ens deixen amb uns pocs centenars de contigs.
Mesura de la qualitat d’un assemblatge.
-   Qualitat d’una base (phred-score, Q): Es una qualitat de la base, no del read o seqüencia. Per comptar la qualitat del contig farem la Q promig.
6 BI-­‐  Tema  1   - • P és la probabilitat d’error en cada base Q= 20 es la probabilitat de cometre un error, un de cada 100 nucleòtids.
Q=30 es la probabilitat de cometre un error, un de cada 1000 nucleòtids. Aquesta seria la qualitat d’un esborrany Q= 40 és una bona qualitat per a la seqüencia final Redundància (fold coverage). Indica el nombre mitjà de reads que inclouen un determinat nucleòtid del genoma. És una qualitat del contig.
• • • N = nombre de reads L = llargada mitjana dels reads G = mida del genoma - Si tinc una R=15, vol dir que un nucleòtid ha estat llegit 15 vegades.
R=80 està be per obtenir un genoma però es baix per detectar SNPs.
- N50 contig length. Ens indica la mida d’un contig. És la longitud L d’un contig tal que el 50% de les bases de l’assemblatge es troben en contig de longitud ≥ L.
  Comparació d’ensambladors de novo: Resultats Al comparar diferents programes d’assemblatge ens fixem en l’N50 length i el nombre de contigs correctes que han obtingut. El N50 length tampoc ens dona molta informació de   7 BI-­‐  Tema  1   la qualitat de l’assemblatge.
• Es millor treballar amb pocs contigs (500 vs 25.000).
• Els millors valors de N50 són els més grans à L’ideal és tenir molts contigs de moltes bases (de manera que tenim pocs reads i són molt grans).
Com millorar les dades d’un ensamblatge? - Treaming: normalment s’afegeixen fragments (com adaptadors) a la seqüencia d’interès. El treaming es basa en eliminar aquests fragments.
Hem de filtrar per qualitat (Q) abans de fer l’assemblatge. Això s’hauria de fer amb dos programes (els indiques que si els reads o el seu promig no arriben a una determinada Q, no els tinguin en compte en l’assemblatge).
Utilitzar dos programes d’assemblatge (com a mínim) Utilitzar un programa que compari els resultats obtinguts i en formi un consens.
A partir dels reads (Fragment de seqüència seguida obtingut en una reacció de seqüenciació) obtenim contigs (conjunt de reads que s’han pogut ordenar per formar un segment continu de seqüència en base al solapament dels seus extrems o a la similitud amb una referència) i d’aquests scaffolds (conjunt de contigs ordenats i orientats en base a informació obtinguda de reads aparellats. Conté gaps o segments de seqüència sense determinar). Dins dels scaffolds hi ha gaps.
  8 BI-­‐  Tema  1   Scaffolding:  reads  aparellats   L’scaffold es pot obtenir a partir de dades de pair ends (extrems dels contigs o reads).
Gràcies al solapament entre els extrems construirem primer de tot, contigs. A continuació, gràcies al solapament entre els extrems dels contigs, obtindrem l’scaffold.
Gràcies al pair ends, puc saber la mida dels gaps entre contigs i dins del scaffold.
La  mida  dels  reads  és  important   Com més grans siguin els reads, més fàcil és construir el puzle, sobretot perquè tindrem extrems grans que solapen, de manera que es molt poc probable que aquest solapament sigui per atzar. Mentre que si els reads són mes petits (com de 200 pb) la probabilitat que els extrems solapin per atzar, al ser mes petits, és més gran.
⇒ La tendència és utilitzar tècniques que ens donin com a resultat reads grans.
⇒ En el cas dels hompolímers, se solia utilitzar 454 (que ens dona fragments molt llargs amb 4x) combinat amb Illumina (que ens dona reads curts però amb 100x). De manera que podem assegurar millor la mida del homopolímer si tenim més reads d’aquests.
La  mida  del  genoma  és  important   La mida dels genomes, en concret la seva complexitat, és important En els genomes grans hi sol haver motes regions repetitives, que són les més difícils d’assemblar. Els gaps dels scaffolds sovint estan relacionats amb seqüències repetitives.
Les plantes tenen moltes repeticions, per tant assemblar el seu genoma és complicat Els repeats són unes regions conflictives.
  9 BI-­‐  Tema  1   Seqüències  genòmiques   Seqüència de DNA acabada: - Seqüència on les bases s’han assignat amb una precisió de no més d’1 error cada 10000 bases (Q=40) i s’han localitzat en l’ordre i orientació correctes al llarg del cromosoma sense gairebé gaps.
o Ensamblatge de novo o Variació structural Seqüència de DNA draft - Seqüència amb menys precisió que una seqüència finalitzada Alguns segments no es troben, no estan en l’ordre correcte i/o estan orientats incorrectament o Visió general o Projectes en marxa o Mapeig contra referència (alineament amb un alter genoma) Seqüència exoma - Seqüència de DNA de les regions codificants d’un genoma o Cerca barata i ràpida de mutacions en malalties poc communes ANÀLISI  I  ANOTACIÓ  DE  GENOMES   Estadístiques  d’un  genoma   Composició  de  les  bases   Una vegada tenim una seqüencia assemblada, hem de fer estadístiques, calcular diferents característiques: - Contingut en GC - Contingut en GC per finestres (en regions concretes): mirem una finestra, que te unes determinades parells de bases. Es miren fragments de 100.
  o (A) Finestres no solapants: les finestres no es solapen. El pas és tant gran com la mida de la finestra (comences a mirar el %GC quan comença l’altre finestra). Per exemple, primer agafo 100pb i si la primera té un valor de GC de 37% llavors agafo els següents 100 pb des del principi i obtinc un altre valor de GC. Llavors faig una gràfica.
§ En total analitzem 100 Mb (les finestres són de 20 kb) o (B i C) Finestres solapants: el pas és menor que la mida de la finestra. Per exemple imaginem que tenim una finestra de 100 pb, llavors dels del principi agafo 50 pb i obtinc el % GC, llavors agafo els 50 pb següents i obtinc un altre %GC. De manera que aquestes s’hauran solapat § En total analitzem o bé • 10 Mb (les finestres són de 2 kb) • 1 Mb (les finestres són de 200 b) 10 BI-­‐  Tema  1   - Composició de dinucleòtids: o AA o AC o AG o ...
o L’ideal és calcular la composició de dinucleòtids per finestres, així observem si hi ha una regió que puja o baixa molt en un determinat valor.
Models  probabilístics  per  l’anàlisi  d’una  seqüencia  genòmica   Com saber si els estadístiques son correctes? Normalment creem moltes seqüencies aleatòries i comparem els nostres estadístics (els del nostre genoma) amb els de les seqüències aleatòries per saber si son significatius o bé estan produïts per l’èter. Les seqüències aleatòries es poden generar per dos models diferents.
Model  multinomial   En aquest model les seqüències aleatòries: - La probabilitat d’observar un element només depèn de la seva freqüència a la seqüencia - La probabilitat d’una seqüencia es el producte de la probabilitat de cada element de la seqüencia -   Els dinucleòtids es distribueixen de manera idèntica i independent (iid).
11 BI-­‐  Tema  1   Model  de  cadena  de  Markov   També podem utilitzar un model de cadena de Markov. En aquest: - La probabilitat ‘d’observar un element depèn dels elements que el precedeixen a la seqüencia - Cadena de markov de primer ordre: la probabilitat d’observar un element només depèn del seu antecessor immediat - Matriu de transició: indica la probabilitat de tenir una base X després d’una base X - Cadena de markov de segon ordre: la probabilitat d’observar un element depèn dels dos elements anteriors a aquest A partir de seguir aquest model generarem seqüències (més o menys aleatòries) per tal de comparar els seus estadístics amb els del nostre assemblatge.
Les equacions que segueix aquest model per tal de calcular la probabilitat de l’estat inicial , és a dir, la primera seqüencia (on s és site): I la probabilitat de la matriu de transició és: En el model probabilístic calcularíem la probabilitat que una seqüencia sigui X i comparem les probabilitats.
El model de la cadena de Markoff del primer ordre, la seqüencia d’un nucleòtid depèn del nucleòtid que hi hagi abans. La seqüencia tindrà n nucleòtids. La P(S) serà la probabilitat d’un nucleòtid en funció de la probabilitat del nucleòtid anterior.
L’estat inicial el podem posar igual per a tots o bé calcular-lo a partir de la seqüencia.
La freqüència d’una base seria la probabilitat de trobar-la.
Per calcular la matriu de transició calcularem la freqüència del dinucleòtids AA, AC, AG,AT i calcularem la probabilitat de que si tenim una A, llavors tinguem una A, C, G o T. Així ja tindrem la matriu. Llavors calcularem la freqüència amb la que es dona aquesta seqüencia segons la matriu, si la nostra seqüencia segueix la distribució, bé, si no, hem de buscar una matriu de segon ordre.
En general, el dinucleòtid CG es molt poc freqüent, a excepció de les illes CpG.
La matriu de transició de segon ordre es mostra a la diapositiva (demanar les diapos a la profe perquè no estan).
  12 BI-­‐  Tema  1   ANOTACIÓ  DE  GENOMES:     Consisteix en buscar la informació biològica i anclar-la a les seqüències genòmiques.
Mirarem si hi ha gens, seqüències reguladores, repeticions...
Predicció  de  gens  ab-­‐initio   Una vegada tenim una seqüencia nucleotídica farem una predicció de gens ab initio, és a dir, una predicció de si una seqüencia en concret pot ser candidata a expressar un gen o no, basant-nos només en els nucleòtids. En aquests buscarem senyals a la seqüències que indiquin la presència d’un gen.
Una seqüencia, perquè tingui un gen haurà de tenir: - Un codó inici ATG - Un codó stop, suficientment allunyat i en la mateixa pauta de lectura que l’inicial. Si no hi ha introns mirarem els codons, si hi ha introns, hem de tenir en compte les senyals de splicing. És mes complex predir gens en eucariotes que en procariotes - Senyals de regulació - Senyal polyA Per fer la predicció de gens ab initio: ⇒ Hem de tenir en compte el codi genètic i l’ús de codons (codon bias) ⇒ Si la nostra predicció conté un domini proteic segurament serà més fiable que si no el conté ⇒ La seqüencia predita del gen és un ORF (Open Reading Frame). Es denomina així perquè realment pot ser que no sigui un gen, només és una predicció.
⇒ La predicció d’un gen tindrà un score, com més gran sigui serà millor.
⇒ La predicció dels gens es farà mitjançant un programa ⇒ Normalment el nombre de ORFs predits serà major al real   13 BI-­‐  Tema  1   Predicció  de  gens  per  homologia   Agafem el genoma i el comparem amb genomes similars, esperarem que les regions que contenen un gen estiguin conservades entre espècies. Si no és el gen que està conservat, almenys ho està la proteïna codificant.
En la imatge, la part lila està més conservada entre espècies, aquesta correspon als exons, el introns (vermell) en canvi, no estan tant conservats.
Predicció  bioinformàtica  de  gens  basada  en  diferents  evidències   Quan es prediu gens, s’utilitza més d’un programa i es fa un consens de totes les anotacions obtingudes.
Una vegada tenim els contigs, fem un repeat Masker, és a dir, mirem quines regions repetitives hi ha. A continuació s’utilitzen varis programes de predicció de gens ab initio. A continuació utilitzarem programes de predicció de gens per homologia a les regions que s’han anotat com a gens per veure si realment hi ha gens. Després perfeccionarem els alineaments.
Al final, integrarem les dades (per exemple, amb Maker), es a dir, compararem tots els resultats i arribarem a un consens, generant un MODEL GÈNIC.
  14 BI-­‐  Tema  1   Com  de  bones  són  les  prediccions  bioinformàtiques?   Són bones, però mai són 100% fiables. En la imatge es mostra la predicció en un genoma de Drosophila. Per exemple un programa prediu dos ORF mentre són dos exons d’un mateix gen, hi ha un altre programa que s’inventa un gen més llarg, altres programes que el prediuen bé i altres que no prediuen cap gen.
Amb la integració de les dades de predicció de gens ab initio i de conservació en altres espècies, podem arribar a un CONSENS Predicció  de  gens  per  anàlisi  del  transcriptoma  (ESTs  o  RNA-­‐seq)   La predicció de gens també es pot fer mitjançant mRNA, mitjançant ESTs o RNA-seq. La diferència entre una predicció ab initio i mitjançant transcriptoma és que la predicció ab initio no dóna informació sobre els UTR’s.
En aquest cas es veuen dades d’un transcriptoma mitjançant RNA-seq en diferents etapes del desenvolupament de Drosophila. S’observa que hi ha diferents nivells d’expressió, ja que l’expressió gènica canvia en el temps i l’espai, el que significa que si no hem detectat un gen no vol dir que no existeixi, sinó que potser en aquell moment no s’expressava.
  15 BI-­‐  Tema  1   Anotació  funcional  :  Gene  Ontology   Una vegada hem identificat gens, els classificarem per Gene Ontology, que classifica els gens en diferents categories segons: - Funció molecular- tipus de proteïna o Determinació de la funció: Dominis proteics / Similaritat amb gens estudiats en altres espècies - Procés biològic- procés en el que intervé una proteïna - Component cel·lular- estructura anatòmica...
Segons la informació que tinguem d’un gen, aquest estarà en mes o menys classificacions Tot el que hem explicat anteriorment era anotació de genomes de novo.
MAPEIG  CONTRA  REFERÈNCIA   A part de la predicció de gens de novo, l’assemblatge es pot fer comparant els reads per mapeig contra referència és a dir, comparem tots els reads amb el genoma i allà on més s’assemblin és on segurament es trobaran.
Si trobem 2 reads que donen un hit en el mateix lloc , segurament estem davant un SNP.
  16 BI-­‐  Tema  1   Programes  d’alineament  i  anàlisi  posterior   Tenim els reads i a partir d’ells hem de passar a alinear-los, això es pot fer mitjançant diferents programes. Però per això hem de tenir en compte d’on provenen els reads. Si provenen de RNA-seq (cDNA) pot ser que haguem de partir el read en dos o més (perquè conté exons) per tant, l’alineament l’hem de fer amb un altre programa especial, com Tophat o Splice map.
Hem de mirar quins dels programes que ens permeten trobar SNPs s’ajusten més a les nostres dades.
GENÒMICA COMPARATIVA I FUNCIONAL Conservació  d’elements  funcionals  en  el  genoma   Comparem el genoma que hem anotat amb genomes d’altres espècies conegudes, d’allà podem extreure informació ja que les seqüències funcionals del genoma estan conservades entre espècies.
La imatge mostra la comparació del genoma humà amb altres genomes: - El genoma humà i de ximpanzé són molt iguals - La majoria de regions conservades corresponen a exons - En especies allunyades (com en peixos) encara hi ha regions molt conservades, per això, segurament es tracta de regions implicades en el desenvolupament de l’organisme.
  17 BI-­‐  Tema  1   Phylogenetic  footprinting   Es basa en la identificació d’elements conservats no codificadors que juguen papers funcionals importants.
En l’estudi es van comparar 29 genomes de mamífers: - 5% del genoma humà està sota l’acció de la selecció purificadora à porció conservada o D’aquest 5%, tansols un 1,5% són exons, per tant un 3,5 % són zones no codificants, però que tenen un paper important - Hi ha 3,6 milions d’elements conservats Duplicacions  de  gens:  gens  ortòlegs  i  paràlegs   Quan comparem genomes de diferents espècies trobem gens homòlegs, que poden ser: - Gens ortòlegs: provenen d’un procés d’especiació - Gens paràlegs: provenen d’un procés de duplicació i són membres d’una família multigènica.
En l’exemple, alfa i beta són paràlegs entre ells però l’alfa de l’espècie 1 i el de la 2 són ortòlegs, igual per als beta. Totes les proteïnes entre elles són homòlegs.
Això pot donar lloc a famílies gèniques.
  18 BI-­‐  Tema  1   Identificació  de  gens  ortòlegs  i  paràlegs     1. Detecció de gens als dos genomes. Obtinc tots els gens de dues espècies de bacteris del gènere Chlamydia.
2. Matriu de similituds (alignment score) entre totes les proteïnes, a parells. Agafo cada gen de cada espècie i el comparo amb tots els gens de l’altra espècie. Agafo el primer gen de la primera espècie i el comparo amb tots els altres de l’altra espècie i anoto quin gen s’assembla a quin de cadascuna de les espècies. Així doncs, puc trobar els gens homòlegs.
El gen que doni el hit major, serà l’homòleg.
  19 BI-­‐  Tema  1   3. Identificació d’ortòlegs: Best reciprocal similarity hits (BRHs).
Mirem si el hit es recíproc (Ex/ el gen 1 té hit amb el gen 1’ i el gen 1’ té hit amb el gen 1).
- Si és recíproc, els gens són ortòlegs.
- Si el hit no és recíproc, els gens no són ortòlegs recíprocament.
al comparar el gen 4 de C. pneumoniae dóna la major puntuació amb el gen 3 de C.
trachomatis (és amb el que s’assembla més) i en el sentit contrari passa el mateix, així que són ortòlegs.
El gen 2 s’assembla al 5, i el 5 s’assembla al 5 de l’altre espècie, així doncs, no són ortòlegs. Anem fent aquest procediment per a tots els gens.
4. Identificació de paràlegs: Parelles de gens dins d’una espècie que superen un determinat score (o % identitat).
Depenent del score que posem com a límit, trobarem un tipus de paràlegs o no. Si som més estrictes, trobarem només paràlegs més recents (provinents d’una duplicació relativament recent), i així a l’inrevés.
Cerca  d’ortòlegs  i  paràlegs  a  Chlamydia:   Es van trobar: • 728 parelles d’ortòlegs • 126 parelles de paràlegs recents (més similars entre ells que els seus respectius ortòlegs – mètode restrictiu): o 56 Ct o 70 Cp   20 BI-­‐  Tema  1   - Un 13% de gens no tenen homòlegs: son paràlegs antics (han acumulat tantes diferències que no trobem homòlegs) o gens l’ortòleg del qual s’ha perdut en l’altra espècie Un 87% dels gens tenen homòlegs (ortòlegs i/o paràlegs) Comparació  de  proteïnes  entre  genomes   En el següent estudi es van comparar els gens d’humans amb d’altres espècies (cada cop més allunyades) per trobar homòlegs. Els resultats van ser: - Només un 1% dels gens són d’humans - Només un 14% dels gens son de mamífers - Un 20% dels gens són propis de vertebrats - Un 47% dels gens són de vertebrats i altres animals - Més d’un 50% dels gens provenen de plantes - Més del 75% dels gens són propis d’eucariotes (els percentatges resulten de sumar els anteriors) - Gairebé un 25% del genoma està compartit entre procariotes i eucariotes Blocs  SINTÈNICS:  blocs  conservats  entre  espècies   Una altra manera d’estudiar els genomes i la seva evolució es mitjançant els BLOCS SINTÈNICS, que son blocs conservats entre espècies, son grups de gens situats en el mateix ordre entre genomes de diferents espècies.
Per tant, en aquest cas, s’estudia quin conjunt de gens estan conservats i quina és la seva posició relativa dins el genoma: es fan estudis de la posició relativa dels gens en els genomes.
Mitjançant els resultats s’intenta fer una arbre de manera que representi els canvis que s’han d’haver donat per tenir aquestes diferències.
Visualització  de  la  sintènia  amb  un  dot-­‐plot   La sintèna (canvis entre dos genomes) també es pot observar mitjançant un Dot Blot, on en un eix hi tenim la seqüencia o els gens d’una espècie, i en l’altre eix els de l’altre espècie.
  21 BI-­‐  Tema  1   Si el resultat gràfic és: - Una diagonal perfecta (1)à no hi ha hagut canvis entre els genomes (on trobem un gen, trobem l’altre) - Una diagonal en el sentit perpendicular a la diagonal perfecte (2)à s’ha donat una inversió - Diagonal perpendicular a la diagonal perfecta i desplaçada (3) à a més de la inversió, hi ha hagut una inserció o una deleció - Diagonal és contínua amb un fragment que es desplaça de la trajectòria (4) à hi ha hagut una inserció Visualització  de  la  sintènia  amb  cromosomes  pintats   Una altra forma de representar els blocs sintènics es mitjançant colors, en aquest cas, cadascun dels blocs de colors és un bloc sintènic, on el color marca la posició on està aquest bloc en el genoma humà.
L’exemple mostra la sintènia entre el ratolí i l’humà. El cromosoma més conservat seria l’X.
  22 BI-­‐  Tema  1   Altres  visualitzacions  de  sintonia  entre  espècies   Una altra manera de visualitzar els blocs sintènics entre espècies és mitjançant cercles. En aquest cas, cada cromosoma de l’espècie el pintem d’un color i veiem on va la informació de cada cromosoma en l’altra espècie.
Una altra visualització és la que es presenta a continuació. En aquest cas, com que moltes línies son horitzontals entre els dos primers genomes, hi ha molts blocs sintènics conservats.
En aquest cas no comparem un genoma de referència amb un altre, sinó que el podem comparar amb molts altres genomes.
L’anàlisi dels blocs sintènics ens permet fer arbres filogenètics.
The  Journey   Begins  Here...   En el moment de és quan comença real: la seqüenciació la investigació   23 BI-­‐  Tema  1   BASES  DE  DADES  DE  GENOMES   NAVEGADORS  GENÒMICS   Bases  de  dades  de  genomes  a  l’NCBI   Tota la informació genòmica anotada s’ha obtingut sigut gràcies als navegadors genòmics, tota la informació la trobarem a les bases de dades de genomes, algunes són: - NCBI (NCBI Genome): té una secció de genomes amb molta informació relacionada.
http://www.ncbi.nlm.nih.gov/genome/ - GOLD (Genomes Online Database): s’hi resumeixen quins genomes s’han seqüenciat. http://www.genomesonline.org/ (veure interfície gràfica al pdf)   Navegadors  genòmics   Els navegadors genòmics permeten visualitzar les anotacions genòmiques: - NCBI Map Viewer: http://www.ncbi.nlm.nih.gov/mapview/ És el més vell que hi ha. A més, les versions es van actualitzant.
El primer que veiem al accedir a un genoma són els cromosomes, hi podem accedir i navegar-hi.
- La informació ens ve donada de forma vertical, a diferència de la resta de navegadors. La informació està continguda en tracks.
Aquest visualitzador està linkat a altres pàgines del NCBI.
- D’aquest navegador no podem pujar i descarregar informació, el que seria un inconvenient del navegador.
- UCSC: http://genome.ucsc.edu/cgi-bin/hgGateway Hi ha informació de diverses espècies, i per aquestes, diferents actualitzacions.
- La informació es presenta mitjançant tracks de forma horitzontal. Quan accedim a algun track i hi fem zoom, a vegades ens mostra directament la informació sobre la seqüencia.
Li podem indicar a quina versió volem accedir, i, fins i tot, a quina regió o buscar el nom d’un gen.
En el cas del genoma humà hi ha molts tracks, fins i tots alguns estan amagats.
- Avantatge: Permet pujar i descarregar informació.
  Està escrit amb el llenguatge de programació C.
  - Ensembl: http://www.ensembl.org - La informació es veu de forma horitzontal i es veu en funció de la cadena. Hi ha un track pels gens de la cadena + i un altre per als de la cadena -.
- Avantatge: Permet pujar informació i descarregar-la a través de l’aplicatiu BioMat.
Està escrit amb llenguatge de programació perl.
- FlyBase: http://flybase.org/cgi-bin/gbrowse/dmel/ 24 BI-­‐  Tema  1   - Només conté informació sobre Drosophila Melanogaster.
Està escrit amb GBrowse.
Vista Browser: http://pipeline.lbl.gov/cgi-bin/gateway2 - Conté informació sobre diverses espècies, cadascun dels tracks es un genoma.
- Avantatge: Ens permet comparar genomes, i així poder calcular el grau de conservació entre espècies.
- Permet descarregar informació però no pujar-la Està escrit amb Html5 (antigament estava fet amb Java) - IGV (Integrative Genomics Viewer): http://www.broadinstitute.org/igv/home No és un navegador amb pàgina web, sinó un aplicatiu.
Hem de disposar d’un genoma i de diferents reads i podem veure com alineen els reads amb el genoma de referència. Es poden fer diferents alineaments i comparar SNPs, Indels...entre els reads i el genoma de referència.
Està programat en Java.
- Genome Maps: http://www.genomemaps.org Conté informació de diverses espècies, però sols conté una versió per espècie.
És un navegador genòmic espanyol.
Està programat en html5, això ens permet desplaçar-nos a través d’un genoma d’una manera molt ràpida, sense que se’ns pengi l’ordinador.
- Gbrowse és un navegador genòmic que es crea buit i permet als usuaris introduir informació. Aquest navegador genòmic l’utilitzen el projecte HapMap, Flybase, Wormbase i ModEncode.
Està creat en perl.
o Jbrowser (fork de Gbrowse): http://jbrowse.org/demos/ A partir de Gbrowse ha sortit una altra programació enfocada a un altre objectiu, aquesta és el JBrowser.
La visualització és diferent, els tracks solen ser més gruixuts.
o Gbrowse_syn (Navegador sintènic): És un altra variant de GBrowse, en aquest cas serveix per visualitzar la sintènia amb navegadors genòmics.
(veure interfície gràfica al pdf)   25 BI-­‐  Tema  1   Sistemes  de  coordenades   No tots els navegadors utilitzen les mateixes coordenades, que poden ser: - Coordenades absolutes (cromosoma) - Coordenades relatives (referides a un contig, gen, ...) Les coordenades, donades una seqüencia concreta poden estar basades en: 0, 1 o interbase.
És important saber quin visualitzador hem utilitzat a l’hora de fer anàlisi i comparar la informació obtinguda a partir de diferents visualitzadors.
- El problema de la dependència del genoma: els genomes no estan totalment assemblats i, quan surten noves versions, canvia la informació anotada. Hi ha vegades que els investigadors treballen amb una versió i quan en pengen una nova, publiquen els resultats en funció de la versió vella. A més, hi ha casos en què les noves versions son pitjors que les velles.
Formats  d’arxius  per  guardar  la  informació   - BED: en un arxiu en format BED el primer que trobem son els tracks en línies. A més hi ha una sèrie de columnes obligatòries i unes d’opcionals.
o UCSC o Línies dels tracks o 12 camps (3 obligatoris + 9 opcionals)   Informació segons la columna: 1. chrom - nom del cromosoma o scaffold 2. chromStart - posició d’inici (comença al 0) 3. chromEnd - posició final 4. name - etiqueta 5. score - puntuació entre 0 i 1000 6. strand - cadena: + (forward) o - (reverse) on està l’anotació.
7. thickStart - inici de la regió gruixuda per determinades característiques 8. thickEnd - fi de la regió gruixuda Els tickStart I TickEnd, es noten, sobretot, quan comencen i acaben els exons.
9. itemRgb - valor RGB d’un color (ex: 0,0,255) 10. blockCount – número de blocs (exons) en una línea BED 11. blockSizes – mides dels blocs separades per coma (tants com blockCount) 12. blockStarts – inicis dels blocs separats per coma (tants com blockCount)         26 BI-­‐  Tema  1   GFF:  Generic  Feature  Format   o És  un  dels  principals  que  s’utilitza  en  Gbrowse   o Hi  ha  varies  versions   o 9  columnes  obligatòries  separades  per  tabuladors.  Si  no  es  disposa  informació   sobre  una  columna  es  posa  un  punt   -   Informació segons la columna: 1. Seqid: cromosoma o nom del contig 2. Source: Lab, mètode, ... (text lliure) 3. Type: tipus de característica (SeqOntology) 4. Start (basat en 1) 5. End (basat en 1) 6. Score: amb decimals (float). Score de l’anotació.
7. Strand: cadena + o 8. Phase: inici ORF: 0,1 o 2. Només utilitzada en el cas dels CDS 9. Atributes etiqueta=valor etiqueta1=valor1; etiqueta2=valor1 etiqueta1=valor1,valor2 à dos valors per etiqueta   -     WIG:  Wiggle  track  format   o UCSC   o Mostra  valors  de  dades  quantitatives  continues   o En  la  primera  línia  hi  ha  informació  genèrica.  Hi  ha  dos  tipus  de  formats,  que   els  hem  d’indicar:   § Pas  fixe   § Pas  variable   § En  cadascun  hem  d’indicar  l’step  (distància  entre  l’inici  d’un  bloc  i  un   altre)  i  l’span  (amplada  del  bloc)   § En  ambdós  formats,  sota  de  la  primera  línia  hi  ha  la  informació  sobre   l’alçada  dels  blocs   27 BI-­‐  Tema  1   -   VCF:  Variant  Call  format   o Dissenyat  específicament  per  variants   o En  les  primeres  línies  trobem  la  metainformació.  A  continuació  una  sèrie   d’etiquetes  amb  la  seva  descripció´.  Aquestes  etiquetes  s’utilitzaran  després   en  l’anotació´.   Informació  segons  columnes:     1. Cromosoma   2. Posició  d’inici   3. ID   4. REF:  Nucleòtid  en  el  genoma  de  referència     5. ALT:  nucleòtid  que  hem  trobat,  que  seria  l’alternatiu   6. QUAL:  qualitat  de  la  variant   7. FILTER:  s’indica  el  filtre  que  de  major  rang  que  ha  superat  la  variant.     8. INFO:  la  informació  està  separada  per  ;   a. Normalment  informació  sobre  freqüència  d’al·∙lels,  profunditat  (quantitat   de  vegades  llegit)   9. FORMAT:  diferents  etiquetes.  A  les  següents  columnes  (en  un  nombre  variable)   s’introdueixen  els  valors  per  aquesta  etiqueta.     10. NA00001-­‐0002...:  valors  de  les  etiquetes  de  FORMAT.  En  aquest  cas,  cadascuna  de   les  columnes  NA  correspon  a  una  mostra,  a  una  variant.                           28 BI-­‐  Tema  1   - SAM/BAM:  Sequences  Alignment  Map   - BAM  és  l’arxiu  binari  de  la  informació  en  un  SAM   - Les  primeres  línies  és  metainformació     - La  columna  més  rellevant  és  la  que  conté  el  codi  CIGAR,  indica  els  matches,   inserts,  delecions...que  ha  obtingut  el  read  en  una  posició  concreta.   - Aquest  codi  és  el  que  agafaria  el  IGV,  desxifraria  la  informació  i  la  convertiria  en   una  visualització,  de  forma  gràfica.           REPTES  DE  LA  BIOINFORMÀTICA   • • Els seqüenciadors instal·lats a tot el món, en conjunt, tenen la capacitat de seqüenciar >1 milió de genomes cada any (2012) Els grans projectes: 1000-genomes, i5k, 10K, BGI – el centre amb més capacitat per seqüenciar- (1M humans + 1M microbis + 1M plantes i animals) El coll d’ampolla es troba en el moment d’analitzar tot el genoma, assemblar-lo, anotar-lo...
Metagenòmica La metagenòmica es la obtenció de seqüències de DNA dels genomes que es troben en un hàbitat ecològic determinat. Així es descobreixen nous organismes i gens.
L’inconvenient és saber d’on provenen tots els fragments que tenim.
La metagenòmica també s’ha centrat en veure tota la flora intestinal.
Escala de la genòmica actual i reptes de la bioinformàtica El Barcelona supercomputing centre es un centre català que té una operació de càlcul de mil bilions d’operacions per segon.
Cada vegada hi ha més tendència d’utilitzar el núvol (Cloud), ordinadors virtuals on es puja la informació a internet i està disponible per a tots els usuaris.
    29 ...