4) NCBI + GenBank (2012)

Apunte Catalán
Universidad Universidad Rovira y Virgili (URV)
Grado Bioquímica y Biología Molecular - 2º curso
Asignatura Bioinformática
Año del apunte 2012
Páginas 6
Fecha de subida 18/01/2015
Descargas 13
Subido por

Vista previa del texto

26.04.2012 DNA Sequences Cercadors de semblances: ens busca la complementaria reversa (cadena).
La llargada d’una seqüència pot ser donada amb parells de bases, nucleòtids, residus… Exemple: 5000 pb, 1000 Mb… 1 bilió (anglès)=109 / El nostre bilió = 1012 *Normalment trobem regions reguladores, regions entre gens.
The International Sequence Database Collaboration GenBank: base de dades americana.
EMBL: base de dades europea (TMBL és de proteïnes).
Fetching a DNA Sequence at the NCBI (Genbank) Fatching a DNA: els cercadors no ens permeten fer cerques tan avançades com UniProt. Si volem una seqüència la busquem a UniProt i allí amb la proteïna ja podem anar al DNA.
Bases de dades: Redundants (hi ha duplicitat de seqüències). GenBank no ho és.
Si busquem la fitxa d’un gen podem trobar moltes fitxes, si busquem la proteïna (UniProt) ens ajudarà.
Sample GenBank Record Interpretar la informació d’una fitxa: Sambple GenBank.
Podem trobar codi / llargada… Si hem seqüenciat un DNA genòmic és imporant mirar-ho. Si és un gen eucariota veurem introns (comprovem-ho).
Unexpected information you can find in this database Cas extrem: És un gen que té 124 pb (planta del tabac).
EMBL database http://www.ebi.ac.uk/embl/ Tamany de bases de dades: 249,9 milions de sequències: cada any puja més. Cada vegada és més barat i més ràpid seqüenciar.
A UniProt és més fàcil trobar algo peruqè no hi ha tantes seqüencies.
MOODLE: Convencions per entendre la informació de les bases de dades de seqüències Existeixen diverses bases de dades que recullen bona part de les seqüències de proteïnes o DNA que es coneixen. Per entendre la informació que contenen aquestes bases de dades, cal tenir presents les següents convencions:  Quan escrivim la seqüència d'una proteïna ho fem amb els codis d'una lletra dels aminoàcids i sempre des de l'extrem N-terminal fins l'extrem C-terminal.
Amino àcid Codi de tres lletres Codi d'una lletra alanina ala A arginina arg R asparagina asn N àcid aspàrtic asp D cisteïna cys C àcid glutàmic glu E glutamina gln Q glicina gly G histidina his H isoleucina ile I leucina leu L lisina lys K metionina met M fenilalanina phe F prolina pro P serina ser S treonina thr T triptòfan trp W tirosina tyr Y valina val V Així per exemple la seqüència MALWMRLLPLLALLALWGPDPA hem d'interpretar-la com extrem Nterminal - Met - Ala -Leu - Trp - Met - Arg - Leu - Leu - Pro - Leu - Leu - Ala - Leu - Leu - Ala -Leu - Trp - Gly - Pro - Asp - Pro - Ala - extrem Cterminal  Quan escrivim una seqüència de DNA, escriurem només una de les dues cadenes i ho farem sempre des de l'extrem 5' al extrem 3'. En el cas que la seqüència de DNA contingui un ORF, escriurem la cadena que no es transcriu, de manera que la regió codificant quedarà igual al RNAm (substituint els U per T). En el cas que la seqüència de DNA contingui més d'un ORF i aquests estiguin codificats en cadenes diferents, es triarà una de les dues cadenes i s'utilitzarà la paraula "complement" per fer referència a la cadena complementària de la que s'ha escrit.
Exemple: La fitxa següent de la base de dades Genbank conté una seqüència de DNA (5' - 3') que conté dos ORFs:  El primer ORF va del nucleòtid 30 al nucleòtid 278. La paraula complement ens indica que la cadena que serà igual al RNAm que es generi serà la cadena complementària a la que estem veient (es transcriurà la cadena que estem veient). Com que la transcripció sempre té lloc en la direcció 5' - 3', el codó d'inici el trobarem en els nucleòtids complementaris de les posicions 278, 277 i 276 de la seqüència de DNA de la fitxa, i el codó d'stop el trobarem en els nucleòtids complementaris a les posicions 30, 31 i 32.
Seqüència del nucleòtid 30 al 278: 5' taaaaatagagaaagcatccgctgccgtcgttgacgccaccattattcagactgccggcagcaaacagcgtcaggctatagaagtcgataacaaaggacaagtcagcggccaaaccactccgagtaaagacag cgatgcccgctggacaaagaaaaacggcctctacaaaatcggttacaaacaacatacccgcaccgatgaggaaggctatatcgggaaactgcacattacccccgccaatacccat - 3' Seqüència complementària inversa: 5' atgggtattggcgggggtaatgtgcagtttcccgatatagccttcctcatcggtgcgggtatgttgtttgtaaccgattttgtagaggccgtttttctttgtccagcgggcatcgctgtctttactcggagtggtttggccgctgac ttgtcctttgttatcgacttctatagcctgacgctgtttgctgccggcagtctgaataatggtggcgtcaacgacggcagcggatgctttctctattttta - 3'  El segon ORF el trobarem entre els nucleòtids 300 i 641 de la seqüència de DNA de la fitxa. En aquest cas, la cadena que està escrita és la cadena que no es transcriu, i és igual (substituint les T per U) a la cadena de RNAm que es generarà. El codó d'inici el trobarem en els nucleòtids 300, 301 i 302, i el codó d'stop el trobarem en els nucleòtids 639, 640 i 641.
Seqüència del nucleòtid 300 al 641: 5' ttggaaggactgcccgaaggtacggccgtctatgccgacaaaggctatgacagtgcggaaaaccggcaacatctgaaagagcatcggttaccggacggcattatgcgcaaagcccaccgcaaccgtccgctg acggaaaatcaaacgaagcgtaaccggtatttgtcgaaaacccgttatgtagtcgaacaaagcttcgggacgctgcaccgtaaattccgctatgcccgggcagcctattttggtctgctcaaagtgagtgcgcaaag ccatctgaaggcgatgtgtttgaacctgttgaaagccgccaacaggctaagtgcgcccgctgccgcctaa- 3' Fixa't com en aquest cas el codó d'inici és el codó alternatiu ttg.
 Quan escrivim una seqüència de RNAm en una fitxa d'una base de dades de seqüències, ho farem de l'extrem 5' al 3' i substituint els U per T.
Per exemple en la fitxa següent de la base de dades GenBank, ens mostra el RNAm del gen de la insulina humana. En aquest cas el codó d'inici (atg) comença en el nucleòtid 45 i el codó d'stop (tag) acaba en el nucleòtid 377. Fixa't com els Uracils (U) han estat substituïts per Timines (T).
APUNTS: és una fitxa del GenBank i a part de la informació de l’organisme, tenim la posició del gens...
Quan seqüenciem un fragment de DNA genòmic, podem fer-ho que tingui més d’un gen. En aquest cas hi ha dos gens, i trobem cada gen quina proteïna codifica.
Quina cadena triar perquè acabi a la base de dades? Ex: 1) 5’ – AAATGTTAAAACCTAAAAGC-3’ 2) 3’ – TTTACAAATTTTGGATTTTCG-5’ 5’ - ...AUGUUUAAAA..................-3’ La cadena que es transcriu és la segona. En la seqüència de GenBank hi ha dos seqüències. El nucleòtid 300 està codificat per un d’aquests dos gens.
I si anem al nucleòtid 300-301-302 hi ha un codi d’inici, i més endavant hi ha un d’Stop.
ttg  codó d’inici taa  codó d’stop Hem de saber quina seuència es transcriu i quina és la proteïna que s’origina.
Exemple: RNA missatger  Té en lloc d’U per fer-ho igual que les altres.
BASE SDE DADES GENÒMIQUES Hi ha bases de genomes completament seqüenciats.
Com que hi ha milers i milions s’acumulen.
GOLD, GeneCards, OMIM, KEGG (metabolisme)...  Explica totes però poc.
Number of available completely sequenced genomes http://www.genomesonline.org/gold_statistics.htm#an ...