TEMA 4 – SEMEJANZA Y HOMOLOGÍA (2016)

Apunte Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Genética - 3º curso
Asignatura Evolución
Año del apunte 2016
Páginas 14
Fecha de subida 09/04/2016
Descargas 11

Vista previa del texto

Evolución Alba Ibáñez Galera TEMA 4 – SEMEJANZA Y HOMOLOGÍA La semejanza y la homología son conceptos muy importantes que no los tenemos tan claros como creemos. Los aclararemos a lo largo del tema.
Estima de árboles filogenéticos Building Phylogenetic Trees from Molecular Data with MEGA A continuación, tenemos el abstract de un artículo sobre un programa de reconstrucción filogenética muy interesante: MEGA. Los autores de este software son evolucionistas de toda la vida.
ABSTRACT: Phylogenetic analysis is sometimes regarded a being an intimidating, complex process that requires expertise and years of experience. In fact, it is a fairly straightforward process that can be learned quickly and applied effectively. This Protocol describes the several steps required to produce a phylogenetic tree from molecular data for novices. In the example illustrated here, the program MEGA is used to implement all those steps, thereby eliminating the need to learn several programs, and to deal with multiple formats from one step to another (Tamura K, Peterson D, Peterson N, Stetcher G, Nei M, Kumar S. 2011. MEGA5: molecular evolutionary genetic analysis using maximum likelihood, evolutionary distance, and maximum parsimony methods. Mol Biol Evol. 28:2731‐2739). The first step, identification of a set of homologous sequences and dowloading those sequences, is implemented by MEGA’s own browser built on top of the Google Chrome toolkit. For the second step, alignment of those sequences, MEGA offers two different algorithms: ClustalW and MUSCLE. For the third step, construction of a phylogenetic tree from the aligned sequences, MEGA offers many different methods. Here we illustrate the maximum likelihood method beginning with MEGA’s Models feature, which permits selecting the most suitable substitution model. Finally, MEGA provides a powerful and flexible interface for the final step, actually drawing the tree for publication. Here astep‐by‐ step protocol is presented in sufficient detail to allow a novice to start with a sequence of interest and to build a publication‐quality tree illustrating the evolution of an appropriate set of homologs of that sequence. MEGA is available for use on PCs and Macs from www.megasoftware.net.
En negrita tenemos las ideas más relevantes. La idea final es trazar la evolución de un grupo de secuencias homologas.
- - Proceso intimidatorio y complejo: tenemos que tomar múltiples decisiones.
Una de las ventajas es que nos evita tener que aprender diferentes aplicaciones o lenguajes y trabajar con varios formatos.
Primer paso: identificación de un conjunto de secuencias homologas y descargarlas en el pc.
Segundo paso: es alinear estas secuencias. Primero las tenemos en un fichero llamado de “apilamiento”.
Tercer paso: construir el árbol filogenético. Para esto el alineamiento ha de ser bueno. Además, aquí tenemos que seleccionar un modelo de reconstrucción filogenética, la cual presupone diferentes supuestos de cómo evolucionan las secuencias: métodos de parsimonia, bayesianos… (bioinformática vamos) Cuarto paso: dibujar el árbol, presentarlo para la publicación.
Estimación de ÁRBOLES FILOGENÉTICOS mediante análisis comparativo de secuencias 1. SELECCIÓN del TIPO de DATOS: nucleares, mtADNs, cpADNs, codificante vs. no codificante, sinónimas vs. no sinónimas, genes vs. genomas, etc. CRITERIOS: a. Historia evolutiva de la secuencia: objetivo o Identificación de constricciones funcionales o Huellas de adaptación molecular o Estructura exón/intrón o Familias génicas: duplicaciones, HGTs o Reconstrucción de estados ancestrales Evolución Alba Ibáñez Galera b. Relaciones entre los organismos: marcador o «Tempo» y modo de evolución adecuados o A menor divergencia mayor tasa/nº de caracteres o Nucleótidos vs. proteínas o Sustituciones puntuales vs. indels y CGRs o Tasas de sustitución constantes si datación 2. OBTENCIÓN de SECUENCIAS/ELIMINACIÓN de ERRORES 3. APILAMIENTO/FORMATEO de SECUENCIAS 4. INFERENCIA de HOMOLOGÍA POSICIONAL: ALINEAMIENTO MÚLTIPLE. Correcta identificación de nucleótidos/ aminoácidos homólogos y ubicación de gaps según los INDELs.
a. Tipo secuencias/nº OTUs o No codificante o Codificante: usar aminoácidos o Control de redundancia o Genes vs. genomas (ej. MUSCLE) b. Métodos heurísticos o ALN global o Progresivos (ej. CLUSTAL) o Estructuras 3D (e.j. Expresso) o Modelado de indels (ej. PRANK) o ALN + árbol (e.j. BALi‐Phy) c. Parámetros o Esquema de penalizaciones ‐ Diferencias ‐ Apertura/extensión de gaps o Matrices de sustitución 5. RECONSTRUCCIÓN FILOGENÉTICA Desde un punto de vista práctico, empezamos seleccionando el tipo de datos: DNA mitocondrial, regiones codificantes vs no codificantes… Una vez hecho esto, puede ser que la secuencia sea el objetivo de nuestro análisis o que sea el marcador para ver la filogenia de un grupo de organismos. De nuevo, se procede a obtener las secuencias de los genomas, genes... de interés. Luego apilamos las secuencias y después las alineamos. A la hora de alinear hay que tener en cuenta el tipo de secuencia, el tipo de método (métodos heurísticos: no producen el mejor alineamiento de todos los posibles, pero sí que baja el tiempo de computación) y los parámetros.
Una vez que hemos obtenido la inferencia de homología posicional, construimos el árbol filogenético. Si la inferencia está mal, todo lo de después estará mal. Por tanto, hay que tomarse muy en serio el alineamiento.
CARÁCTER vs. ESTADO DE CARÁCTER ‐ ‐ ‐ Carácter (character identity): rasgo que es homólogo entre los taxones objeto de estudio, y que hipotéticamente varía independientemente de otros rasgos.
Homología: posesión por dos o más especies de un rasgo derivado, con o sin modificación, a partir de su ancestro común.
Estado de carácter (character state): cada una de las condiciones alternativas de un carácter. Ejemplo: si hablamos de una secuencia de nucleótidos, el estado de carácter será A, C, G o T.
Evolución Alba Ibáñez Galera Origen y diversificación de los tetrápodos a) ESCALA de TIEMPO GEOLÓGICO Edades en millones de años b) CARÁCTER Eventos clave durante la evolución de las extremidades anteriores de los tetrápodos En la imagen b) podemos apreciar la diferencia entre CARÁCTER ANCESTRAL vs. CARÁCTER DERIVADO. Tres eventos clave: 1. Pérdida de los radios de las aletas 2. Adquisición de dígitos 3. Remodelado del húmero, que presenta diferentes estados de carácter en diferentes tiempos.
Al mismo tiempo, se hacen las distinciones. Entre estados de caracteres (aunque sean anatómicos, que es más difícil que a nivel nucleotídico o aminoacídico, ya que son valores discretos). Ejemplo: imaginemos que tenemos que alinear los huesos: húmero  cubito… Rizodóntidos: (a) Sauripterus; (b) Barameda; Elpistostegalidos: (c) Tiktaalik. Tristicoptéridos: (d) Eusthenopteron.
Osteolepidido: (e) Gogonasus. Megalictido: (f) Sterropterygion; (g) Rhizodopsis. Tetrápodos primitivos: (h) Acanthostega; (i) Tulerpeton; (j) Greererpeton. Amniota primitivo: (k) Westlothiana. Todos los esqueletos en posición dorsal, excepto (a) y (f), que se muestran en posición ventral. Adaptado de: Coates et al. 2008. Annu Rev Ecol Evol Syst 39:571‐592 CARÁCTER vs. ESTADO DE CARÁCTER. Ejemplo: extremidades de los tetrápodos. Una estructura en distintos organismos es considerada la «misma» u homóloga por haber derivado con o sin modificación a partir de un ancestro común.
Premisa de la homología posicional HOMOLOGÍA POSICIONAL: par de nucleótidos (o aminoácidos) de dos secuencias homólogas que han descendido a partir de un nucleótido del ancestro de las dos secuencias. La HOMOLOGÍA POSICIONAL se identifica mediante ALINEAMIENTO.
En las siguientes gráficas vemos que los nucleótidos, en los taxones de las puntas del árbol se consideran homólogos porque derivan de un mismo nucleótido. Pero esto lo tenemos que inferir por homología posicional, mediante un alineamiento.
Un genoma es una estimación, no lo sabemos a la perfección. Es una hipótesis sobre homología posicional entre nucleótidos.
Evolución Alba Ibáñez Galera Los estados ancestrales también se conocen como plesiomórficos; y los derivados apomórficos. Vemos que en cierta rama se ve un cambio de CA. invocando solo un cambio, explicamos los estados de carácter de la primera columna.
*OTU: unidad taxonómica operativa.
Las variantes (estados de carácter) en cada columna (carácter) descienden Únicamente los sitios variables de la misma columna (carácter) ancestral. Representan estados del mismo pueden contener información carácter.
filogenética.
Estados ancestral y derivado HOMOPLASIA: con respecto a un carácter, condición en la que dos o más OTUs muestran un mismo estado de carácter distinto del de su ancestro común. También, similitud en estado de carácter no debida a «herencia a partir de un ancestro común» (ejemplo: paralelismo, convergencia o reversión evolutiva).
Ahora fijémonos en el carácter 5; si damos esta columna por correcta, las OTU 1, 4 y 5 comparten estado de carácter.
La manera más económica es pensar un cambio de reversión en X rama  homoplasia. Si esto no se diera, sería muy fácil hacer la reconstrucción filogenética, ya que es un problema crucial para la filogenia. Si sólo nos fijáramos en esta columna, el árbol sería totalmente diferente. Esto no se consigue erradicar nunca.
Los sitios con más sustituciones múltiples, son los más propensos a haber tenido homoplasia. Por tanto, a estas posiciones se les da menos peso tras identificarlas.
Tipos de sustituciones ‐ ‐ ‐ ‐ Única: sólo cambia uno de los linajes.
Múltiple: uno de los linajes ha padecido varios cambios desde el ancestro a la secuencia actual.
Coincidente: aunque el nucleótido que cambia sea diferente, simplemente cambia en la misma posición.
Paralela: en ambos linajes se cambia al mismo nucleótido.
Evolución ‐ ‐ Alba Ibáñez Galera Convergente: se cambia al mismo nucleótido, pero con la diferencia de que en una de las ramas ha habido una sustitución múltiple.
Reversa: se cambia a un aminoácido y luego vuelve a mutar hacia el original.
Esto son sustituciones, no mutaciones. Si una mutación no se fija en la población, no será una sustitución.
Se dice que dos o más secuencias son HOMÓLOGAS si están relacionadas por descendencia. En general la homología entre secuencias se establece a partir de su grado de semejanza o similitud. Si dos secuencias muestran un grado elevado de semejanza entonces es probable [aunque no necesariamente ha de ser así] que sean homólogas. La similitud de secuencia también puede ocurrir por causas distintas de homología, incluyendo el azar o la convergencia resultante de evolución en contextos adaptativos similares. Tales secuencias que son similares sin ser homólogas se denominan ANÁLOGAS.
SIMILITUD vs. HOMOLOGÍA - Similitud: hecho, condición cuantitativa.
Homología: hipótesis, condición cualitativa.
‐ ‐ ‐ Es posible medir el grado de similitud No tiene sentido decir grado de homología.
Como cualquier otra hipótesis científica la hipótesis de homología puede ser probada y rechazada.
Alineamiento Consiste en colocar una secuencia con respecto a otra, tal que cada posición en una coincida con la posición homóloga en la otra. Sería sencillo si se conociesen los estados ancestrales: Ante la DUDA sobre la validez de la premisa de HOMOLOGÍA POSICIONAL puede ser preferible ABANDONAR el proceso de INFERENCIA.
Identificación de la posición de los «indels» (inserciones/deleciones) ocurridos desde que los linajes divergieron de su último ancestro común: INDEL: ocurrió una inserción en un linaje «o» una deleción en el otro. El alineamiento per se no nos permite decidir entre ambas situaciones.
Supónganse dos secuencias A y B de longitudes m y n tal que muestran x coincidencias, y diferencias y z gaps: m + n = 2(x + y) + z Número posible de alineamientos para el caso de 2 secuencias de 300 caracteres asumiendo número y extensión de gap ilimitados: 1088 ¡el número de partículas elementales en el universo es 1080! Evolución Alba Ibáñez Galera Tipos de programación en los alineamientos: - PROGRAMACIÓN DINÁMICA: reduce el tiempo de ejecución mediante discretización y secuencialización del problema GLOBAL: algoritmo de Needleman & Wunsch (1970). Útil para alinear secuencias completas muy similares.
Ejemplo: CLUSTALW LOCAL: algoritmo de Smith‐Waterman (1981). Útil para identificar regiones similares en secuencias muy diferenciadas. Ejemplo: BLAST.
Estos garantizan la obtención del mejor alineamiento para un esquema de puntuación dado.
Esquema de puntuación: - s = Σ(coincidencias, diferencias) – Σ(penalización por creación/extensión de gaps) S = max(s) PROGRAMACIÓN DINÁMICA: ALGORITMO DE Needleman & Wunsch (1970) (Alineamiento global) Garantiza la obtención del mejor alineamiento para un esquema de puntuación dado. Alineamiento de dos cadenas de caracteres, ejemplo: - Cadena 1: CELACANTO Cadena 2: PELÍCANO Matriz bidimensional (n*l) Posición del alineamiento óptimo Evolución Alba Ibáñez Galera Fases del algoritmo de Needleman & Wunsch: 1. Inicialización Valores iniciales: (puntuación del gap) x (distancia desde el origen) 2. Rellenado 3. Retrazado Esquemas de puntuación - Alfabeto nucleotídico: 4 letras. NADN = {A,C,G,T} - 1 = 0.25 4 Alfabeto aminoacídico: 20 letras. A = {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V} 1 P[2 cadenas nucleotídicas aleatorias coincidan en estado de carácter] = = 0.05 20 P[2 cadenas nucleotídicas aleatorias coincidan en estado de carácter] = Evolución Alba Ibáñez Galera Debido a que el alfabeto aminoacídico consta de mayor número de estados de carácter y a su menor ritmo de evolución el análisis comparativo de secuencias aminoacídicas es menos sensible al problema de las sustituciones múltiples que el análisis comparativo de secuencias nucleotídicas.
Un texto escrito con 20 letras es más fácil de alinear que un texto escrito con 4 letras. En lugar de alinear secuencias codificadoras directamente es más fácil y preciso alinear primero las secuencias aminoacídicas correspondientes, y entonces alinear las secuencias nucleotídicas utilizando el alineamiento aminoacídico como guía.
Las secuencias aminoacídicas permiten resolver eventos evolutivos ≈10 veces más antiguos que los que es posible resolver utilizando secuencias nucleotídicas.
Estructuras secundarias: a) Hélice α b) Lámina β A continuación, podemos ver una tabla rectangular de los parecidos entre aminoácidos. Los más parecidos son isoleucina y leucina, mientras que los más diferentes son cisteína y triptófano.
Distancias fisicoquímicas entre pares Los aminoácidos más similares de aminoácidos de Grantham Los aminoácidos más diferentes Evolución Alba Ibáñez Galera Recordemos que una sustitución es un cambio de nucleótido, mientras que un reemplazamiento es un cambio de aminoácido. Tipos de reemplazamiento: - CONSERVATIVO: entre aminoácidos similares (ejemplo: L ↔ I) RADICAL: entre aminoácidos distintos (ejemplo: G ↔ W). El cambio supone reemplazar un aminoácido por otro muy distinto y probablemente tenga implicaciones funcionales en las proteínas. En algunas regiones no importan mucho estos cambios, pero en sitios catalíticos, estructura de hélices α y hojas β no es tan probable.
Con un alineamiento podemos ver claro los aminoácidos que están conservados y cuáles no. Ejemplo: hay una isoleucina (I) muy conservada, por mutagénesis dirigida la podemos cambiar por otro aminoácido muy diferente a ver qué pasa. Por tanto, los alineamientos tienen muchas funcionalidades, como por ejemplo esta.
Durante la evolución la mayor parte de los reemplazamientos implican aminoácidos similares. Mutant substitutions that are less disruptive to the existing structure and function of a molecule (i.e.
conservative substitutions), occur more frequently during evolution than more disruptive, (i.e. radical) ones. KIMURA 1985 Cuanto mas similares son los aminoácidos, mayor es la tasa de evolución de los sitios. La tasa de ocurrencia de cambios radicales es mucho más baja que la de cambios conservativos. Por tanto, esto nos demuestra que la teoría neutralista es correcta.
Matrices de puntuación: PAM250 (× 10) BLOSUM62 GONNET (250 Point Accepted Mutations × 100 (BLOcks SUbstitution Matrix; ≈ 62% residuos; ≈ 80% divergencia) divergencia) En verde podemos ver los cambios que ocurren más frecuentemente de lo esperado por azar. En cambio, en rojo están los que ocurren menos frecuentemente de lo esperado. Esto se considera en las penalizaciones en los alineamientos y nos ayudan a mejorarlo.
En función del tipo de secuencias que deseamos alinear, escogeremos una matriz u otra. Para secuencias más divergentes escogeremos BLOSUM62 y para secuencias algo más parecidas la PAM250. Estas matrices están basadas en la variación biológica, ya que considera las diferencias entre los diferentes aminoácidos, en el número real de cambios observados. En cambio, la GONNET también lo considera, pero no es tan guay y no se usa tanto.
En la siguiente página encontramos una tabla de las propiedades bioquímicas de los aminoácidos: NCBI amino acid explorer http://www.ncbi.nlm.nih.gov/Class/Structure/aa/aa_explorer.cgi Evolución Alba Ibáñez Galera Ejemplo: Tabla de los reemplazamientos del triptófano (W). En verde encontramos los que ocurren más de lo esperado por azar, mientras que en rojo los que menos.
CLUSTALW: alineamiento progresivo Primero hace un alineamiento por pares y luego uno múltiple. Al principio alinea las secuencias por pares hasta que las alinea todas con todas. A partir de aquí, de cada alineamiento ha derivado un SCORE. Con esta matriz de puntuaciones construye un árbol guía con, por ejemplo, Neighbor-joining. Finalmente, hace el alineamiento múltiple.
Phylogeny-Aware Gap Placement Prevents Errors in Sequence Alignment and Evolutionary Analysis – Science ABSTRACT: Genetic sequence alignment is the basis of many evolutionary and comparative studies, and errors in alignments lead to errors in the interpretation of evolutionary information in genomes. Traditional multiple sequence alignment methods disregard the phylogenetic implications of gap patterns that they create and infer systematically biased alignments with excess deletions and substitutions, too few insertions, and implausible insertion-deletion–event histories. We present a method that prevents these systematic errors by recognizing insertions and deletions as distinct evolutionary events. We show theoretically and practically that this improves the quality of sequence alignments and downstream analyses over a wide range of realistic alignment problems.
These results suggest that insertions and sequence turnover are more common than is currently thought and challenge the conventional picture of sequence evolution and mechanisms of functional and structural changes.
ARTÍCULO: New DNA sequencing methods permit quick and affordable exploration of genomic sequences of different organisms. Some of the greatest beneficiaries of the rapid increase of sequence data are comparative genomic studies that seek to provide increasingly accurate reconstruction of evolutionary histories of related genomes, e.g., to study functional and structural sequence changes leading to phenotypic differences between species (1–4). However, all sequence analyses that rely on evolutionary information require an accurate sequence alignment, i.e., the correct Evolución Alba Ibáñez Galera identification of homologous nucleotides or amino acids and the positioning of gaps indicating inserted and deleted sequence.
Alignment is still a highly error-prone step in comparative sequence analysis. Different multiple sequence alignment methods often lead to drastically different conclusions in both phylogenetic analyses and functional studies (supporting online material text), and alternative alignments of the same data can support entirely different mechanisms driving evolutionary and functional changes in sequences. As an example, a traditional alignment of HIV and SIV envelope glycoprotein gp120 (5) (Fig. 1A) has a familiar pattern of insertions and deletions squeezed compactly between conserved blocks of structurally important residues and suggests that part of the variable V2 region has a high amino acid–substitution rate and has shortened over time at a mutation hotspot where overlapping sites have been independently deleted in different evolutionary branches: some sites as many as eight times among the 23 sequences included. With an alignment method that considers the sequences' phylogeny and distinguishes insertions from deletions (5), the story is different: Instead of multiple point substitutions and loss of sequence, the region evolves through short insertions and deletions, allowing for rapid and radical changes in the coding sequence (Fig. 1B). The latter alignment, which suggests rapid turnover of sequence material instead of long ancestral sequences shrinking in length, provides a more convincing mechanism for the evolution of this region. Furthermore, its association of gap patterns with meaningful insertion and deletion events at the branches of the phylogenetic tree, i.e., specific points in the history of the sequences, allows a realistic reconstruction of the evolutionary process leading to the present-day sequences. In this example, the different implications of the alternative alignments for the mechanisms and time scale of sequence changes may be of medical importance for understanding the evolutionary dynamics of HIV (6), particularly in this protein region where insertions, deletions, and substitutions are associated with the efficiency of HIV entry, biological phenotype, and neutralizing antibody response (7–11).
Progressive algorithms (12–15), the multiple sequence alignment methods most widely used today, are based on backtracking the evolutionary process and building a multiple alignment from pairwise alignments between sequences and sequence alignments, performed in order of decreasing relatedness (Fig. 2) (supporting online material text).
However, whereas insertion and deletion events are indistinguishable when comparing one pair of sequences, the two events differ greatly in progressive iteration of pairwise alignments. A gap for a deletion, with its associated penalty, is created only once, but a gap for an insertion has to be opened multiple times (Fig. 2, A and B). Simple iteration associates a full penalty with each of these gap-opening events, which leads to excessive penalization of single insertion events.
No alignment methods have previously implemented a precise solution to this problem; instead, heuristics to lower the penalty for opening gaps at positions already containing gaps have been used (12, 14). Although these site-specific penalties reduce the high overall cost of single insertion events and encourage subsequent alignment iterations to correctly place their gaps at the same position, the approach fails when there are multiple nearby insertions and deletions and becomes systematically biased. By definition, inserted characters are not descendants of—and thus are not homologous with—any other insertions or ancestral characters, and should never align with anything (Fig. 2C, evolution). Progressive algorithms, however, always incorrectly align neighboring insertions in the same column if that is not explicitly prevented; the use of site-specific gap penalties, instead of preventing the incorrect matching of independent insertions, encourages it (Fig. 2C, site-specific alignment). Such “collapsed insertions” create incorrect homologies and, as the resulting gap pattern implies multiple independent deletions, give an impression of deletion hotspots where the overly long ancestral sequences are shortened (Fig. 2C, interpretation). In addition, the procedure also lowers the penalties at deletion sites where no further gaps are required, creating “gap magnets” that make nearby deletions coincide in subsequent stages of progressive iteration (Fig. 2D, evolution and site-specific alignment).
Similarly to incorrectly aligned insertions, the clustering of deletions creates false homologies and gives an impression of deletion hotspots (Fig. 2D, interpretation).
Evolución Alba Ibáñez Galera We previously identified the problem of multiple penalization of insertions and reported a preliminary attempt to solve it (16). This uses a phylogeny-aware approach that “flags” the gaps made in previous alignments and, using evolutionary information from related sequences to indicate whether each gap has been created by an insertion or a deletion, permits their “reuse” for inserted characters without further penalty in the next stage of the progressive alignment (Fig. 2C, phylogeny-aware alignment). In addition, information from closely related sequences can be used to infer sites as “permanent” insertions that cannot be matched in subsequent alignments (5), so that distinct insertion events are correctly kept separate even when they occur at exactly the same position. If related sequences indicate that a gap is caused by a deletion, flags are removed and no further free gaps at that position are permitted (Fig. 2D), and the effect is correctly targeted on insertions only.
To understand the type and magnitude of algorithm-based errors in traditional sequence alignment methods, we compared the accuracy of different variants of the progressive algorithm, including our implementation of the new phylogeny-aware algorithm distinguishing insertions and deletions (as described above). We simulated synthetic DNA sequence data according to 16-, 32-, and 64-taxon symmetric trees using realistic evolutionary parameters, mimicking the evolution of genomic DNA without the structural and functional constraints expected in protein-coding regions and so that the true alignments contained equal numbers of insertions and deletions (5). For the 16-taxon tree, we set evolutionary relationships close, intermediate, and distant (Fig. 3, see color gradients), approximately representing comparisons of primates, primates and rodents, and mammals, respectively. Using the 32- and 64-taxon trees and the maximum species divergence of the close set, we assessed the effects of denser sampling (2X and 4X, respectively) of increasingly similar sequences (fig. S1). The sequences were aligned by using a set of published alignment software programs based on variants of the traditional progressive algorithm [CLUSTAL W (12), MAFFT (15), MUSCLE (14) and T-COFFEE (13)] and the phylogeny-aware algorithm [PRANK (16); we used the PRANK+F variant indicating “permanent” insertions (5)]. For each alignment, various statistics describing the inferred insertion-deletion processes and the accuracy of the solution were computed.
The alignments generated by the alternative methods vary greatly even for the closely related sequences. The methods implementing the traditional algorithm produce alignments with all the errors expected from a biased, nonphylogenetic handling of insertions and deletions. The failure to separate distinct, nearby insertions leads to underestimation of their true number (Fig. 3A) and overestimation of the number of deletions (Fig. 3B); this gives seriously incorrect estimates of the insertion rate/deletion rate ratio (Fig. 3C). Collapsed insertions and gap magnets create an impression of mutation hotspots where the same sequence sites are deleted multiple times [indicated by the “gap overlap” statistic (Fig. 3D)]. These problems make the alignments overly compact and are reflected in the proportion of alignment columns recovered entirely correctly (Fig. 3, E and F). In contrast to the traditional algorithm, the phylogeny-aware PRANK+F program is not systematically biased. It has slightly superior performance in terms of alignment length and proportion of correct columns but, crucially, it is unbiased with respect to insertions and deletions and has virtually no error in all the other measures of insertion and deletion parameters.
As distances between sequences increase, the greater numbers of insertions, deletions, and substitutions make the sequences more difficult to align. The proportion of columns correct is a very stringent measure of alignment accuracy; even under this measure, PRANK+F clearly performs best in response to increased sequence divergence (Fig. 3F, closeintermediate-distant). However, this masks much deeper underlying problems in the traditional algorithms, as can be clearly seen in the growth of the errors in all statistics describing the insertion-deletion processes (Fig. 3, A to E, closeintermediate-distant). In contrast, PRANK+F, already more accurate for close sequences, shows superior performance as evolutionary distances increase and alignment becomes more difficult (Fig. 3, A to E, close-intermediate-distant).
Although the correctness of individual insertions and deletions created decreases in more difficult alignments (table S1), the phylogeny-aware method still suffers no systematic bias concerning the number of each type of event inferred.
Evolución Alba Ibáñez Galera As errors increase with greater evolutionary distances, the only way to improve alignments would seem to be to follow the practice widely used in phylogenetics, that is, to sample additional intermediate sequences (17–19), which increases the average sequence similarity. We find that this additional sequence information does not help the traditional methods. Instead, the additional sampling creates increasingly serious errors for all computed measures of accuracy (Fig. 3, A to F, close-2X-4X), very similar to the patterns observed with increasing evolutionary distance. This disappointing result is explained by the fact that both greater evolutionary distances and greater numbers of closely related sequences increase the total tree length, i.e., the evolutionary time spanned by the sequence sample. This increases the chances of sequences having insertions or deletions occurring at nearby positions. Algorithms ignoring phylogeny match these nearby insertions, and the use of site-specific, lowered gap penalties encourages nearby deletions to overlap even when sequence similarity may suggest the contrary, which creates gap patterns that are phylogenetically unreasonable. This error is avoided, however, by using phylogenetic information to distinguish insertions from deletions and by treating each mutation type appropriately. In contrast to all other methods tested, PRANK+F is able to use the additional data from denser sequence sampling to improve the accuracy of all estimates of parameters describing the insertion-deletion processes (Fig. 3, A to D, close-2X-4X).
Wong et al. (20) showed that alignment uncertainty is crucially important in subsequent genomic analyses, such as phylogeny inference and detection of positive selection. We have shown that incorrect handling of alignment gaps is a significant contributing factor to systematic alignment error. As a further simple, but fundamental, demonstration of the effects on downstream studies, we illustrate the effect on the inference of the branch lengths of the 16-taxon intermediate phylogenetic tree. Comparing branch length estimates based on the true alignments with those based on alignments generated using the different methods, we detected patterns of errors that are consistent with our alignment accuracy results. As our analysis predicts, artifactually compact alignments with incorrect insertions and deletions create erroneous mismatches between sequence sites and cause branch lengths to be overestimated.
Estimates based on the most erroneous alignments depart most significantly from the true values, and errors increase in the deeper branches (Fig. 3G). Pairwise estimates of sequence divergence and estimates of substitution rates are similarly affected. Again, branch length estimates based on the PRANK+F alignments were the most accurate at all levels of sequence divergence.
Our analyses show that sequence alignment remains a challenging task, and alignments generated with methods based on the traditional progressive algorithm may lead to seriously incorrect conclusions in evolutionary and comparative studies. The main reason for their systematic error is disregard of the phylogenetic implications of gap patterns created—which is not corrected by considering alignment consistency (13) or using post alignment refinement (14, 15)—and this error is intensified by methods that intentionally force gaps into tight blocks. Affected methods can be positively misleading and become increasingly confident of erroneous solutions as more sequences are included. It is not the progressive algorithm as such that is defective, rather, correct alignment requires that we take account of sequences' phylogeny, irrespective of alignment method used or data type, but the original implementations of the progressive algorithm have a flaw that has gone unnoticed as long as different methods have been consistent in the error they create.
That such a significant error has passed undetected may be explained by the alignment field's historical focus on proteins, where these biases tend to be manifested in less-constrained regions such as loops (compare Fig. 1).
Alignments with insertions and deletions squeezed compactly between conserved blocks may suffice for, and even be preferred by, some molecular biologists working with proteins. We have shown, however, that these patterns are, in fact, imposed by systematic biases in alignment algorithms, even in cases where they are incorrect and, indeed, phylogenetically unreasonable. We contend that algorithms that impose gap patterns like those found in structural alignments of proteins are inappropriate for the increasingly widespread analysis of genomic DNA and are likely to cause error when the resulting alignments are used for evolutionary inferences.
Evolución Alba Ibáñez Galera We believe that alignment methods specifically designed for evolutionary analyses will give a very different picture of the mechanisms of sequence evolution and show sequence turnover through short insertions and deletions as a more frequent and important phenomenon. This raises interesting questions of the true evolution of variable sequences such as promoter regions, noncoding DNA, and exposed coil regions in proteins: Do they predominantly evolve through point substitutions, or are those dissimilar regions just incorrectly aligned nonhomologous sequences? To resolve that, we need more sequence data and alignment methods that can really benefit from the additional information. The resulting alignments may be fragmented by many gaps and may not be as visually beautiful as the traditional alignments, but if they represent correct homology, we have to get used to them.
Los autores del artículo se dieron cuenta que ClustalW tiene un problema: penaliza de forma diferente una deleción que una inserción. ClustalW prefiere introducir una deleción que una inserción (ejemplo: en este caso tendría que poner tres). Por tanto, inventaron el método PRANK, el cual genera un lineamiento más largo, ya que ClustalW penaliza menos las deleciones que inserciones, y PRANK lo valora igual.
Aunque no es posible distinguir inserción de deleción a partir de la comparación de sólo dos secuencias, bajo la estrategia de alineamiento progresivo ambos eventos reciben penalizaciones muy distintas: mientras que cada deleción requiere abrir sólo un gap, cada inserción requiere abrir múltiples gaps.
Estrategias de alineamiento distintas pueden conducir a conclusiones contradictorias con respecto a los mecanismos evolutivos subyacentes a la evolución de las secuencias.
Ejemplo: Resultados de alinear glicoproteínas de la envuelta (gp120 ) de VIH y VIS con CLUSTAL W y PRANK LÍMITES EN LA DETECCIÓN DE HOMOLOGÍA POSICIONAL mediante «pairwise alignment» Ejemplo: en PAM250 tenemos un límite mínimo de homología del 20%.
- - Midnight: por debajo de un 20% de similitud es imposible inferir homología.
Zona de penumbra: si las secuencias son muy cortas, será imposible obtener un nivel de semejanza estadísticamente significativo.
Zona segura: trabajamos con secuencias suficientemente largas y similares para inferir homología.
«An error in an alignment means that an ancestral position has not been identified correctly, and consequently inferences of the number of substitutions will be incorrect.
Given that alignment is the first step in many evolutionary studies, and that errors in alignment tend to amplify in later computational stages, we must construct alignments very carefully. One should therefore remove all ambiguous parts of an alignment before any further analyses, even if the total aligned length decreases significantly and the sampling error associated with the estimate of the number of nucleotide substitutions between two sequences increase concomitantly.» GRAUR D & L WEN‐HSIUNG (2002) Fundamentals of Molecular Evolution (p.87) Sinauer Associates ...