estadísticas basadas en la composición y búsquedas de nucleótidos traducidas: mejorar el módulo TBLASTN de BLAST

en esta sección, describimos el algoritmo utilizado para calcular la composición de secuencias de bases de datos y aplicar estadísticas basadas en la composición en TBLASTN. Luego describimos más a fondo las pruebas reportadas en este documento: los ejecutables utilizados, los conjuntos de pruebas y los detalles sobre los métodos.,

ajuste composicional en tblastn

la heurística de BLAST utiliza un sistema de puntuación general, como la serie de matrices PAM o BLOSUM, para descubrir secuencias de bases de datos que probablemente se alineen con la consulta y los puntos de partida probables para las alineaciones. En BLAST, una alineación se conoce como un par de alta puntuación, o HSP. Se crea una lista de HSP para cada par query-subject significativo utilizando un algoritmo de varias etapas., En cada etapa, los HSP pueden ser eliminados de la lista actual por una serie de razones, incluyendo tener una puntuación insuficientemente alta, estar contenidos en un HSP de puntuación más alta, o compartir un punto final con un HSP de puntuación más alta. Como resultado, mientras que cada etapa sucesiva del algoritmo de voladura requiere un cálculo significativamente mayor para cada HSP, se deben considerar menos HSP.

el ajuste de composición, ya sea utilizado por TBLASTN u otros modos de operación, se aplica solo en la etapa final de una búsqueda de explosión., De esta manera, los modos que utilizan el ajuste composicional aplican la heurística rápida de BLAST para localizar las regiones que probablemente contengan, y los puntos de partida que probablemente conduzcan a alineaciones de alta puntuación. Aplican el ajuste composicional solo antes del algoritmo de alineación más sensible y más costoso computacionalmente, el cálculo de una alineación con huecos que incluye información que especifica la ubicación de los huecos, información conocida como «traceback»., La lista de HSPs producida por esta alineación final, después de ser filtrada por HSPs insuficientemente significativas o redundantes, es la lista presentada al usuario.,idualmente a cada par de consulta-sujeto, son los siguientes: (1) Calcular ventanas de interés utilizando la lista de HSP de las etapas preliminares del algoritmo BLAST; (2) Obtener datos de sujeto traducidos para las ventanas y filtrarlos para eliminar subsecuencias No interesantes; (3) calcular la composición de la región de sujeto para cada HSP a ser realineada; (4) calcular una matriz de puntuación para cada HSP a ser realineada, basada en la composición de la región de sujeto de ese HSP y en la composición de la consulta; (5) realizar una alineación lista de HSP, utilizando las nuevas matrices de puntuación., En la práctica, estos pasos de alto nivel se intercalan para reducir los requisitos de memoria.

Computing windows of interest

para cada coincidencia entre la consulta y una secuencia de sujetos, el algoritmo de ajuste composicional recibe una lista separada de HSPs. Cada HSP especifica, junto con otra información, un rango en la secuencia de asunto que se ha alineado con la consulta. Estos rangos se utilizan de la siguiente manera para calcular una lista de ventanas. En primer lugar, se crea una lista preliminar de ventanas para la secuencia de temas., Esta lista contiene una ventana para cada HSP, la ventana que rodea el rango de sujeto del HSP, incluyendo 600 bases a la izquierda y a la derecha del rango de sujeto si hay tantos datos de secuencia disponibles. Luego se crea una lista final de ventanas uniendo ventanas en el mismo marco de traducción si se tocan o se superponen. Para cada ventana, se mantiene una lista de HSP correspondientes a la ventana.

obtención y filtrado de datos del sujeto

los datos del sujeto de nucleótidos dentro de una ventana se obtienen y traducen utilizando el marco de traducción de esa ventana., El algoritmo SEG con tamaño de ventana 10, corte bajo 1.8 y corte alto 2.1 se usa para enmascarar regiones de baja complejidad en la ventana de asunto. Los parámetros fueron elegidos como resultado del estudio. Una región de baja complejidad está típicamente dominada por unos pocos residuos distintos a menudo, pero no siempre, en un patrón repetitivo. Ejemplos típicos son los monómeros de poliglicina o poliprolina. Las puntuaciones de alineación que incluyen las puntuaciones de regiones de baja complejidad tienden a exagerar la importancia de las alineaciones y conducen a muchas coincidencias positivas falsas.,

el efecto de aplicar el algoritmo SEG a una secuencia de aminoácidos es reemplazar cada residuo en una región de baja complejidad con el carácter X: un carácter al que se le asigna una pequeña puntuación negativa cuando se alinea con cualquier carácter, incluyéndose a sí mismo. Los datos del sujeto se filtran antes de calcular las matrices de puntuación ajustadas composicionalmente, y las ocurrencias del carácter X se ignoran al calcular la composición de una secuencia. A diferencia del código de ajuste de composición, las etapas preliminares de la búsqueda de explosiones no filtran los datos del sujeto.,

el filtrado SEG también se puede aplicar a la secuencia de consultas. El filtrado SEG de la consulta es una opción de línea de comandos tanto para BLASTP como para TBLASTN. Los programas difieren en que el filtrado SEG de la consulta está desactivado por defecto en BLASTP pero activado por defecto en TBLASTN. No filtramos la consulta en ninguno de los resultados reportados en este artículo. Los parámetros SEG utilizados para filtrar la secuencia de asunto aplican un umbral más alto para declarar una región como de baja complejidad que los parámetros predeterminados utilizados para filtrar la consulta., La razón por la que la secuencia de consulta se filtra de forma más estricta es que la secuencia de consulta se utiliza en cada etapa del algoritmo de BLAST. El filtrado SEG del sujeto solo ocurre en las etapas finales de una búsqueda de explosión, y el filtrado insuficiente de los datos dentro de una ventana de tema solo producirá una comparación única.

Computing the composition of the subject

For TBLASTN, the sequence data and the subject ranges of the HSPs within a window are used to determine a range likely to contain correctly translated amino acid data., La ventana se busca estrictamente a la izquierda del rango de sujeto del HSP para encontrar la ocurrencia más a la derecha de un codón de parada. Si se encuentra uno, entonces la ubicación 20 caracteres a la derecha del codón de parada es el límite izquierdo del rango de composición, con la restricción de que se incluya todo el rango de sujeto del HSP. Si no se encuentra ningún codón de parada, entonces el extremo izquierdo es el extremo izquierdo de la ventana. La regla simétrica se aplica a la derecha.,

la intención no es necesariamente localizar el codón stop que termina la proteína, sino más bien utilizar la presencia de un codón stop para indicar que el codón traducido hipotéticamente se encuentra en una región no codificante. De hecho, la región no codificante puede ser un intrón en lugar del verdadero final de la secuencia de aminoácidos. Debido a que no estamos tratando de encontrar un codón de parada de terminación, proponemos una regla simétrica para determinar el rango de secuencia a utilizar para el ajuste de la composición a pesar de que la traducción biológica es asimétrica.,

en una secuencia aleatoria de ADN con 50% de contenido de GC, uno esperaría encontrar un codón de parada en una secuencia de aminoácidos hipotéticamente traducida en promedio una vez cada 21 caracteres. Por lo tanto, instituimos un margen de 20 caracteres entre el codón de parada y el rango a usar para el ajuste de la composición, con la restricción de que se incluya todo el rango sujeto del HSP.

dada una región en particular, TBLASTN considera solo los 20 aminoácidos estándar al calcular la composición; el carácter X, el carácter stop y todos los demás caracteres no estándar se ignoran por completo., Cuando se utiliza la longitud de la secuencia en los Algoritmos de ajuste de composición, el valor utilizado no cuenta las ocurrencias de caracteres ignorados.

Computing compositionally-adjusted scoring matrices

Schäffer et al. y Yu et al. mostrar cómo ajustar las puntuaciones de sustitución para los 20 aminoácidos estándar. Para los aminoácidos estándar, aplicamos esas técnicas. Sin embargo, estos documentos no discuten el tratamiento de los aminoácidos que rara vez ocurren, los caracteres de ambigüedad de dos letras, el carácter X o el carácter stop., Discutimos el tratamiento de los caracteres x y stop en esta sección, porque ocurren comúnmente en las búsquedas de TBLASTN. Discutimos el tratamiento de los otros personajes en el archivo adicional 3.

el carácter stop ocurre frecuentemente en secuencias traducidas y ocasionalmente dentro de alineaciones significativas. Una ocurrencia del carácter stop generalmente indica que uno está traduciendo una región no codificante o una región de codificación en el marco incorrecto. Por supuesto, un carácter stop también puede marcar simplemente el final de la traducción., Sin embargo, los caracteres stop ocurren dentro de alineaciones significativas por varias razones: la secuencia del sujeto puede contener un pseudógeno; la secuencia del sujeto puede ser ADN mitocondrial, en el que ciertos codones que son codones stop en el ADN nuclear se traducen a aminoácidos verdaderos ; la secuencia del sujeto puede contener un codón stop que se convierte in vivo en un residuo de selenocisteína o pirrolisina; la secuencia del sujeto puede representar un gen, como el gen hdc en D. melanogaster, que codifica un producto proteico mediante lectura de ARNm; o puede haber un error de secuenciación en el sujeto secuencia.,

la puntuación adecuada del carácter stop es esencial para TBLASTN. Cualquier carácter alineado a un carácter de parada debe recibir una puntuación negativa, pero no una puntuación negativa de tal magnitud que no permita alineaciones válidas que contengan un codón de parada. BLAST asigna uniformemente letras alineadas a un codón de parada una puntuación integral que, dada la escala que se está utilizando, es lo más cercana posible a -2 bits.

como se acaba de discutir, las alineaciones tblastn biológicamente significativas y estadísticamente significativas a veces pueden contener codones stop traducidos., Sin embargo, la presencia de muchos codones de parada en regiones sin codificación y regiones de codificación fuera de marco hace que sea muy poco probable que estas regiones produzcan alineaciones de alta puntuación por casualidad. En consecuencia, para los cálculos del valor E, TBLASTN asume que la longitud de una secuencia de base de datos es la longitud de la proteína producida por la traducción en un solo marco de lectura, a pesar de que la traducción se realiza en los seis marcos de lectura., El hecho de que muchas secuencias de ADN de bases de datos no sean codificantes en gran parte de sus longitudes puede ser una explicación para las estadísticas generalmente conservadoras de S-TBLASTN y C-TBLASTN mostradas en la Figura 1.

debido a la aplicación del algoritmo SEG, El carácter de ambigüedad X es común, y el tratamiento de los caracteres X puede afectar significativamente el rendimiento del algoritmo. Puntuamos alineaciones con X de la siguiente manera. Cuando se utiliza la escala de la matriz composicional o el ajuste de la matriz composicional, se calculan las puntuaciones de sustitución para todos los aminoácidos estándar.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., En otras palabras, la puntuación de emparejar un aminoácido estándar con X es el valor esperado sobre todas las coincidencias de ese aminoácido con un aminoácido estándar, siempre que este valor sea menor que -1., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., Una fórmula análoga a la ecuación(1) se utiliza para calcular la puntuación de alinear un carácter X en la consulta a un aminoácido estándar en el sujeto. La puntuación para alinear X a sí mismo es la menor de la puntuación esperada de alinear dos aminoácidos estándar y -1, redondeada al entero más cercano.

realizar una alineación separada con rutinas traceback

que aplican estadísticas basadas en composición no se limitan a volver a almacenar alineaciones, sino que las vuelven a calcular. Las alineaciones se calculan utilizando una de dos técnicas., De forma predeterminada, el algoritmo x-drop se aplica a un conjunto de puntos de partida especificados en las listas de HSP proporcionadas de etapas anteriores del algoritmo BLAST. Como resultado de las modificaciones realizadas durante el curso de este proyecto, se puede especificar alternativamente que el riguroso algoritmo Smith-Waterman se aplique dentro de cada ventana. Si se aplica el algoritmo x-drop, la composición se calcula individualmente para cada HSP que se realineó. Si se utiliza el algoritmo Smith-Waterman, la composición de una ventana se toma como la composición de su HSP de mayor puntuación., Agrupar la composición de las regiones temáticas de varios HSP dentro de una ventana es problemático porque los HSP no necesariamente pertenecen a la misma alineación, o incluso al mismo conjunto vinculado de alineaciones. El valor predeterminado en TBLASTN es usar el algoritmo x-drop, y usamos el algoritmo x-drop en las pruebas presentadas en este artículo.

el siguiente pseudocódigo muestra cómo se vuelven a calcular las alineaciones correspondientes a una única coincidencia consulta-asunto cuando se utiliza el algoritmo x-drop.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

algoritmo 1

rehacer alineaciones en una ventana.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., Se considera que un HSP está contenido en un segundo HSP si sus límites de consulta y sujeto están contenidos en los límites de consulta y sujeto del segundo HSP y si el segundo HSP tiene una puntuación igual o mayor.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., De esta manera, llamar repetidamente a la rutina WITH_DISTINCT_ENDS garantiza que la lista final de alineaciones no contenga una alineación que comparta un punto final con una alineación de puntuación más alta. Cuando dos alineaciones comparten el mismo punto final, la de mayor puntuación es la alineación preferida; la de menor puntuación es un artefacto subóptimo de la heurística de la explosión.

el algoritmo x-drop requiere un punto de partida (p q, p s) que forzará una alineación entre el desplazamiento p q en la consulta y p s en el sujeto. Calcula una alineación en ambas direcciones a partir de este punto., Se define un punto de partida para cada HSP que se realineará. Si es posible, se reutiliza el punto de partida que se utilizó originalmente para calcular el HSP. Sin embargo, debido a los efectos del filtrado SEG y la nueva matriz de puntuación calculada, el punto de partida anterior puede no ser deseable; puede encontrarse en una región de puntuación no positiva. Discutimos la regla utilizada para validar el punto de partida existente, y si es necesario elegir uno nuevo, en el archivo adicional 3: tblastn_suppl.pdf.,

finalmente, observamos que el algoritmo 1 también es un pseudocódigo correcto para BLASTP, que realiza búsquedas de proteínas y bases de datos de proteínas. La diferencia es que para BLASTP solo hay una ventana para cada secuencia de sujeto: la ventana que incluye toda la secuencia. Además, para BLASTP siempre se usa la composición de toda la secuencia del sujeto cuando se realiza el ajuste de composición. Por lo tanto, la matriz ajustada composicionalmente es necesariamente la misma para cada HSP en una ventana y solo necesita ser calculada una vez., En la práctica, se usa el mismo código tanto para TBLASTN como para BLASTP para implementar el algoritmo 1, pero para BLASTP se usa un condicional para garantizar que la matriz solo se calcule una vez para cada ventana.

conjuntos de pruebas y programas utilizados

a continuación describimos los ejecutables, conjuntos de datos y métodos específicos utilizados para generar los resultados presentados en este artículo. Las variantes de TBLASTN reportadas aquí fueron escritas en C, y, como se indica a continuación, algunas variantes están disponibles como parte de las distribuciones de software NCBI C y c++; los módulos computacionales involucrados se reflejan entre las dos distribuciones., Numerosos programas auxiliares utilizados para automatizar las pruebas y resumir los resultados fueron escritos en C, Perl, Python y Bourne shell script.

ejecutables utilizados

TBLASTN es un modo de operación para el ejecutable blastall. Este ejecutable está disponible para su descarga desde. Las variantes C-TBLASTN y S-TBLASTN están disponibles como un conjunto de opciones para el ejecutable blastall. S-TBLASTN se invoca usando las opciones de línea de comandos «- p tblastn-F F-C 1″. C-TBLASTN se invoca usando opciones similares, pero con»- C 1 «reemplazado por» – C 2″. B-TBLASTN no está disponible actualmente como un conjunto de opciones de línea de comandos., TBLASTN puede ejecutarse sin estadísticas basadas en la composición, omitiendo la opción «- C», pero la versión predeterminada se ejecuta con menor precisión que B-TBLASTN. Los ejecutables que ejecutan B-TBLASTN y las versiones específicas de S-TBLASTN y C-TBLASTN utilizadas en este documento están disponibles para su descarga en.

el ejecutable blastall por defecto utiliza BLOSUM62 para realizar alineaciones de secuencias de aminoácidos, y esta es la matriz utilizada en todas las etapas antes de que se realice el ajuste de composición. La opción» – F F » deshabilita el filtrado SEG de la secuencia de consulta., El filtrado SEG de la secuencia de sujetos está activado de forma predeterminada en cualquiera de los modos de ajuste de composición. Consideramos que filtrar ambas secuencias es innecesario; cuando intentamos filtrar ambas secuencias, no vimos ninguna mejora en la precisión estadística, pero vimos una disminución en las puntuaciones ROC (datos no mostrados).

pruebas utilizando consultas permutadas aleatoriamente

para medir la efectividad de las estadísticas basadas en la composición para eliminar coincidencias falsas con un valor e Bajo, realizamos una serie de pruebas utilizando secuencias de aminoácidos permutadas aleatoriamente del genoma del ratón (Mus musculus)., Mil secuencias de proteínas fueron seleccionadas al azar de la lista de proteínas de ratón RefSeq corriente el 10 de enero de 2006. Las secuencias fueron permutadas usando su número de identificación GenBank como semilla a un generador de números aleatorios. Las secuencias permutadas se proporcionan como archivo adicional 1.

alineamos las secuencias permutadas a una base de datos de secuencias cromosómicas del ensamblaje de referencia de build 35 of the human (Homo sapiens) genome, publicado el 26 de agosto de 2004. La base de datos incluye los cromosomas X e Y y los fragmentos de secuencia no colocados incluidos en la compilación., Sin embargo, omitimos el genoma mitocondrial de la base de datos, ya que se sabe que estas secuencias tienen un código genético diferente al ADN nuclear.

pruebas de puntuación ROC en el genoma de la levadura

para probar la efectividad de varios modos de ajuste de composición para TBLASTN, realizamos una serie de pruebas utilizando el genoma nuclear de levadura. Descargamos el genoma de la levadura, un sitio que contiene genomas de referencia curados por el personal del NCBI. La versión del genoma que usamos fue creada el 16 de mayo de 2005.,

alineamos un conjunto de 102 dominios proteicos con el genoma del nucleótido de levadura utilizando TBLASTN. Este conjunto de pruebas se desarrolló por primera vez para el estudio en . Se utilizó una versión actualizada, en la que se utilizó una lista curada por humanos de coincidencias positivas verdaderas con el proteoma de levadura para generar puntuaciones ROC. Para las pruebas descritas aquí, actualizamos la verdadera lista positiva para reflejar los cambios en el genoma de la levadura publicado. La lista actualizada contiene 987 correspondencias de asunto-consulta a 894 secuencias de asunto distintas. La versión del conjunto de pruebas utilizado en este documento se proporciona como archivo adicional 2.,

en el genoma de la levadura, cada proteína de levadura conocida está anotada con la ubicación y la cadena de su región codificante. Estas anotaciones nos permiten adaptar el conjunto de pruebas para su uso con TBLASTN de la siguiente manera. Para TBLASTN, las alineaciones se dividen en tres categorías: (1) alineaciones que coinciden con una consulta a la región de codificación de una coincidencia positiva verdadera conocida; (2) alineaciones que coinciden con una consulta a una región de codificación conocida que no es una coincidencia positiva verdadera; y (3) alineaciones que no coinciden con una región de codificación conocida., Se dice que una alineación coincide con una consulta a una región de codificación si la porción de sujeto de la alineación se superpone a la región de codificación y está en la misma cadena.

no es raro que haya más de una alineación entre una consulta y una región de codificación. De hecho, esto es esperado; las búsquedas de proteína-proteína también reportan múltiples alineaciones entre pares de proteínas. Cuando hay más de una alineación a una región de codificación, solo se utiliza la alineación de valor e más baja entre una consulta en particular y la región de codificación cuando se calculan las puntuaciones ROC., No se intenta aplicar una regla similar a las regiones sin codificación. Todas las alineaciones que no se superponen a una región de codificación se clasifican como coincidencias positivas falsas y se cuentan al calcular las puntuaciones ROC.

hicimos dos excepciones explícitas a este esquema para clasificar las visitas. La primera excepción es para agregar un pseudogen (Entrez Gene ID 850644) a nuestra lista de regiones codificantes y para hacer el pseudogen un verdadero positivo para una de nuestras consultas, elevando el número máximo posible de verdaderos positivos a 988., Cada una de las variantes probadas encontró una alineación con este pseudógeno con un valor e menor que 10-12. El pseudogén se expresa y produce una proteína funcional bajo ciertas condiciones . Aunque esta región está etiquetada como un pseudógeno, no creemos que se deba esperar que un algoritmo de alineación la distinga de un gen verdadero. La segunda excepción es categorizar una alineación particular que se superpone a una región de codificación positiva verdadera y una región de codificación positiva falsa como una coincidencia positiva verdadera. Esta superposición es reportada por las tres variantes de TBLASTN.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Ir a la barra de herramientas