Estatísticas baseadas na composição e pesquisas de nucleótidos traduzidos: melhorando o módulo TBLASTN de biologia BLAST | BMC

nesta secção, delineamos o algoritmo usado para calcular a composição das sequências de bases de dados e aplicar estatísticas baseadas na composição em TBLASTN. Em seguida, descrevemos os testes relatados neste artigo: os executáveis usados, os conjuntos de testes, e detalhes sobre os métodos.,

ajuste de composição em TBLASTN

a heurística de explosão usa um sistema geral de pontuação, como a série PAM ou BLOSUM de matrizes, para descobrir sequências de bases de dados susceptíveis de se alinhar à consulta e pontos de partida prováveis para alinhamentos. Na explosão, um alinhamento é conhecido como um par de pontuação alta, ou HSP. Uma lista de HSPs para cada par significante de consulta-assunto é criada usando um algoritmo multi-estágio., Em cada fase, os HSPs podem ser retirados da lista actual por uma série de razões, incluindo uma pontuação insuficientemente elevada, estarem contidos num HSP com pontuação mais elevada ou partilharem um ponto final com um HSP com pontuação mais elevada. Como resultado, enquanto cada etapa sucessiva do algoritmo BLAST requer significativamente mais computação para cada HSP, menos HSPs precisam ser considerados.o ajuste de composição, seja usado por TBLASTN ou outros modos de operação, é aplicado apenas na fase final de uma busca por explosão., Desta forma, modos que usam ajuste de composição aplicam as heurísticas rápidas da explosão para localizar regiões susceptíveis de conter, e pontos de partida susceptíveis de levar a, alinhamentos de alta pontuação. Eles aplicam ajuste de composição apenas antes do mais sensível e mais caro algoritmo de alinhamento computacionalmente, a computação de um alinhamento gapped que inclui informações especificando as localizações de lacunas, informações conhecidas como “traceback”., A lista de HSPs produzidos por este alinhamento gapped final, depois de ser filtrada por HSPs insuficientemente significativos ou redundantes, é a lista apresentada ao usuário.,idually para cada consulta-sujeito par, são como segue: (1) calcular o windows do seu interesse utilizando a lista de HSPs de fases preliminares da EXPLOSÃO algoritmo; (2) obter traduzido sujeito dados para o windows e filtro para remover desinteressante subseqüências; (3) calcular a composição do sujeito região para cada HSP para ser realinhado; (4) calcular uma matriz de classificação para cada HSP para ser realinhado, com base na composição do sujeito região do HSP e sobre a composição da consulta; (5) realizar uma espaçada alinhamento com traceback para recalcular a lista de HSPs, usando o novo sistema de pontuação matrizes., Na prática, estes passos de alto nível são intercalados para reduzir as necessidades de memória.

computando janelas de interesse

para cada correspondência entre a consulta e uma sequência de assunto, o algoritmo de ajuste de composição é dado uma lista separada de HSPs. Cada HSP especifica, junto com outras informações, um intervalo na sequência de assunto que foi alinhado com a consulta. Estes intervalos são usados como segue para calcular uma lista de janelas. Primeiro, uma lista preliminar de janelas para a sequência de assunto é criada., Esta lista contém uma janela para cada HSP, a janela que rodeia o intervalo de assuntos do HSP, incluindo 600 bases à esquerda e à direita do intervalo de assuntos, se essa quantidade de dados de sequência estiver disponível. Em seguida, uma lista final de janelas é criada juntando as janelas no mesmo quadro de Tradução, se eles tocarem ou se sobrepuserem. Para cada janela, é mantida uma lista de HSPs correspondente à janela.a obtenção e filtragem dos dados do sujeito

os dados do sujeito nucleótido dentro de uma janela são obtidos e traduzidos usando a estrutura de tradução dessa janela., O algoritmo SEG com tamanho de Janela 10, baixo-corte 1.8, e alto Corte 2.1 é usado para mascarar regiões de baixa complexidade na janela de assunto. Os parâmetros foram escolhidos como resultado do estudo. Uma região de baixa complexidade é tipicamente dominada por alguns resíduos distintos, muitas vezes, mas nem sempre, em um padrão repetitivo. Exemplos típicos são monômeros poliglicina ou poliprolina. Pontuações de alinhamento que incluem as pontuações de regiões de baixa complexidade tendem a sobrestimar o significado dos alinhamentos e levar a muitos falsos resultados positivos.,

o efeito da aplicação do algoritmo de SEG a uma sequência de aminoácidos é substituir cada resíduo numa região de baixa complexidade pelo caracter X: um caractere ao qual é atribuída uma pequena pontuação negativa quando alinhado com qualquer carácter, incluindo ele próprio. Os dados do sujeito são filtrados antes de matrizes de pontuação ajustadas composicionalmente são computadas, e ocorrências do caráter X são ignoradas ao calcular a composição de uma sequência. Ao contrário do código de composição-ajuste, os estágios preliminares da busca por explosão não filtram os dados do sujeito.,

filtragem SEG também pode ser aplicada à sequência de consulta. Filtragem SEG da consulta é uma opção de linha de comando para BLASTP e TBLASTN. Os programas diferem em que filtragem SEG da consulta está desligado por padrão em BLASTP, mas por padrão em TBLASTN. Nós não filtramos a consulta em nenhum resultado relatado neste artigo. Os parâmetros SEG utilizados para filtrar a sequência de assunto aplicam um limiar mais elevado para declarar uma região como sendo de baixa complexidade do que os parâmetros padrão utilizados para filtrar a consulta., A razão pela qual a sequência de consulta é filtrada de forma mais rigorosa é que a sequência de consulta é usada em cada fase do algoritmo BLAST. A filtragem de SEG do sujeito só ocorre nas fases finais de uma busca por explosão, e a sub-filtragem dos dados dentro de uma janela de assunto só fará uma única comparação.

Computing the composition of the subject

For TBLASTN, the sequence data and the subject ranges of the HSPs within a window are used to determine a range likely to contain correctly translated amino acid data., A janela é pesquisada estritamente à esquerda do intervalo de assuntos do HSP para encontrar a ocorrência mais à direita de um códon de paragem. Se um for encontrado, então a localização de 20 caracteres à direita do codon stop é o limite esquerdo do intervalo de composição, com a restrição de que todo o intervalo de assunto do HSP ser incluído. Se não for encontrado nenhum codon stop, então o endpoint esquerdo é o endpoint esquerdo da janela. A regra simétrica é aplicada à direita.,

A intenção não é necessariamente localizar o codão de paragem que termina a proteína, mas sim usar a presença de um codão de paragem para indicar que o codão hipoteticamente traduzido está numa região não codificada. Na verdade, a região não codificante pode ser um intrão em vez do verdadeiro fim da sequência de aminoácidos. Uma vez que não estamos a tentar encontrar um codon de paragem terminal, propomos uma regra simétrica para determinar o intervalo de sequência a utilizar para o ajustamento da composição, apesar de a tradução biológica ser assimétrica.,

numa sequência de ADN aleatória com um teor de 50% de GC, seria de esperar encontrar um codão de paragem numa sequência de aminoácidos traduzida hipoteticamente, em média, uma vez a cada 21 caracteres. Portanto, instituímos uma margem de 20 caracteres entre o codon stop e a gama a usar para ajuste de composição, com a restrição de que toda a gama de assuntos do HSP seja incluída.

dada uma determinada região, TBLASTN considera apenas os 20 aminoácidos padrão quando a composição computacional; o caracter X, o caractere stop, e todos os outros caracteres não-padrão são completamente ignorados., Quando o comprimento da sequência é usado nos algoritmos de ajuste da composição, o valor usado não conta ocorrências de caracteres ignorados.

Computing compositionally-adjusted scoring matrices

Schäffer et al. e Yu et al. mostrar como ajustar os valores de substituição dos 20 aminoácidos padrão. Para os aminoácidos padrão, aplicamos essas técnicas. Estes artigos, no entanto, não discutem o tratamento de aminoácidos raramente ocorrendo, caracteres de ambiguidade de duas letras, o personagem X, ou o personagem stop., Nós discutimos o tratamento dos caracteres X e stop nesta seção, porque eles ocorrem com frequência em pesquisas TBLASTN. Discutimos o tratamento dos outros personagens no arquivo adicional 3.

o carácter de paragem ocorre frequentemente em sequências traduzidas e ocasionalmente em alinhamentos significativos. Uma ocorrência do caractere stop geralmente indica que se está traduzindo uma região não codificada ou uma região de codificação na moldura errada. Claro, um personagem stop também pode simplesmente marcar o fim da tradução., No entanto, deixar de caracteres ocorrer dentro significativa alinhamentos por vários motivos: o assunto seqüência pode conter um pseudogene; o objecto de sequência pode ser o DNA mitocondrial, na qual alguns códons que são stop códons no DNA nuclear são traduzidas para o verdadeiro aminoácidos ; o objecto de sequência pode conter um codão stop, que são convertidos in vivo para um selenocysteine ou pyrrolysine de resíduos; o objecto de sequência pode representar um gene, tais como o hdc gene em D. melanogaster, que codifica uma proteína de produto por mRNA readthrough; ou pode haver uma seqüência de erro no assunto sequência.,para a TBLASTN é essencial uma pontuação apropriada do carácter de paragem. Qualquer caractere alinhado a um caractere stop deve receber uma pontuação negativa, mas não uma pontuação negativa de tal magnitude que não permita alinhamentos válidos contendo um códon stop. BLAST atribui uniformemente letras alinhadas a um codon stop uma pontuação integral que, dada a escala que está sendo usada, é o mais próximo possível de -2 bits.como acaba de ser discutido, os alinhamentos tblastn biologicamente significativos e estatisticamente significativos podem, por vezes, conter codões de paragem traduzidos., No entanto, a presença de muitos codões de paragem em regiões não codificadas e em regiões de codificação fora do quadro torna muito improvável que estas regiões produzam alinhamentos de elevada pontuação por acaso. Assim, para os cálculos do E-value, TBLASTN assume que o comprimento de uma sequência de banco de dados é o comprimento da proteína produzida pela tradução em um único quadro de leitura, mesmo que a tradução seja de fato realizada em todos os seis quadros de leitura., Que muitas seqüências de DNA de banco de dados não estão codificando sobre grande parte de seus comprimentos pode ser uma explicação para as estatísticas geralmente conservadoras de S-TBLASTN e C-TBLASTN mostradas na Figura 1.

Por Causa da aplicação do algoritmo SEG, o caractere de ambiguidade X é comum, e o tratamento de caracteres X pode afetar significativamente o desempenho do algoritmo. Marcamos alinhamentos com X como se segue. Quando se utiliza a escala da matriz de composição ou o ajuste da matriz de composição, são calculados valores de substituição para todos os aminoácidos-padrão.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., Em outras palavras, a pontuação de combinar um aminoácido padrão com X é o valor esperado em todas as combinações desse aminoácido com um aminoácido padrão, desde que este valor seja inferior a -1., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., Uma fórmula análoga à equação(1) é usada para calcular a pontuação de alinhar um caractere X na consulta a um aminoácido padrão no sujeito. A pontuação para alinhar X a si mesma é a menor da pontuação esperada de alinhar quaisquer dois aminoácidos padrão e -1, arredondado ao inteiro mais próximo.

executando um alinhamento gapped com traceback

rotinas que aplicam estatísticas baseadas na composição não apenas reescrevem alinhamentos, mas sim recomputam-nos. Alinhamentos são computados usando uma de duas técnicas., Por padrão, o algoritmo x-drop é aplicado a um conjunto de pontos de partida especificados nas listas de HSPs fornecidos a partir de estágios anteriores do algoritmo BLAST. Como resultado de modificações feitas durante o curso deste projeto, pode-se alternadamente especificar que o rigoroso algoritmo Smith-Waterman deve ser aplicado dentro de cada janela. Se o algoritmo de x-drop for aplicado, a composição é calculada individualmente para cada HSP que é realinhado. Se o algoritmo Smith-Waterman é usado, a composição de uma janela é tomada para ser a composição de sua maior pontuação HSP., Agrupar a composição das regiões temáticas de vários HSPs dentro de uma janela é problemático porque os HSPs não pertencem necessariamente ao mesmo alinhamento, ou mesmo ao mesmo conjunto de alinhamentos ligados. O padrão em TBLASTN é usar o algoritmo x-drop, e nós usamos o algoritmo x-drop nos testes apresentados neste artigo.

o pseudocódigo seguinte mostra como os alinhamentos correspondentes a uma única correspondência de consulta-assunto são recomputados quando o algoritmo x-drop é usado.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

algoritmo 1

redirecionamento numa janela.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., Um HSP é considerado contido em um segundo HSP se sua consulta e limites de assunto estão contidos na consulta e limites de assunto do segundo HSP e se o segundo HSP tem pontuação igual ou superior.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., Desta forma, chamar repetidamente a rotina WITH_DISTINCT_ENDS garante que a lista final de alinhamentos não contém um alinhamento que compartilha um endpoint com um alinhamento de maior pontuação. Quando dois alinhamentos compartilham o mesmo ponto final, a pontuação mais alta é o alinhamento preferido; o alinhamento de menor pontuação é um artefato subóptimo da heurística BLAST.

o algoritmo de x-drop requer um ponto de partida (p q , p s ) que irá forçar um alinhamento entre o deslocamento p q na consulta e p s no assunto. Ele calcula um alinhamento em ambas as direções a partir deste ponto., Um ponto de partida é definido para cada HSP que é realinhado. Se possível, o ponto de partida que foi originalmente usado para calcular o HSP é reutilizado. Devido aos efeitos da filtragem de SEG e da matriz de pontuação recentemente computada, no entanto, o ponto de partida anterior pode não ser mais desejável; pode estar em uma região de pontuação não positiva. Discutimos a regra usada para validar o ponto de partida existente, e se necessário escolher um novo, no arquivo adicional 3: tblastn_suppl.documento.,

finalmente, observamos que o algoritmo 1 também é pseudocódigo correto para BLASTP, que realiza pesquisas de proteína-consulta, proteína-banco de dados. A diferença é que para BLASTP há apenas uma janela para cada sequência de assunto: a janela que inclui toda a sequência. Além disso, para BLASTP, a composição de toda a sequência de assuntos é sempre utilizada quando se realiza o ajuste de composição. Portanto, a matriz composicionalmente ajustada é necessariamente a mesma para cada HSP em uma janela e só precisa ser computada uma vez., Na prática, o mesmo código é usado tanto para TBLASTN e BLASTP para implementar algoritmo 1, mas para BLASTP um condicional é usado para garantir que a matriz é computada apenas uma vez para cada janela.

conjuntos de teste e programas usados

nós descrevemos abaixo os executáveis específicos, conjuntos de dados e métodos usados para gerar os resultados apresentados neste artigo. As variantes de TBLASTN relatadas aqui foram escritas em C, e, como observado abaixo, algumas variantes estão disponíveis como parte das distribuições de software NCBI C E C++; os módulos computacionais envolvidos são espelhados entre as duas distribuições., Numerosos programas auxiliares usados para automatizar testes e sumariar resultados foram escritos em C, Perl, Python e Bourne shell script.

executáveis usados

TBLASTN é um modo de operação para o executável blastall. Este executável está disponível para download a partir de. As variantes C-TBLASTN e S-TBLASTN estão disponíveis como um conjunto de opções para o executável blastall. S-TBLASTN é invocado usando as opções da linha de comandos “-p tblastn-F F-C 1″. C-TBLASTN é invocado usando opções semelhantes, mas com ” – C 1 “substituído por”- C 2″. O B-TBLASTN não está disponível de momento como um conjunto de Opções da linha de comandos., TBLASTN pode ser executado sem estatísticas baseadas em composição, omitindo a opção “- C”, mas a versão padrão é executado com menor precisão do que B-TBLASTN. Executáveis que executam B-TBLASTN e as versões específicas de S-TBLASTN e C-TBLASTN usadas neste artigo estão disponíveis para download em.

O executável de blastall por padrão usa BLOSUM62 para realizar alinhamentos de sequências de aminoácidos, e esta é a matriz usada em todas as fases antes do ajuste de composição ser realizado. A opção “- F F ” desactiva a filtragem SEG da sequência da consulta., A filtragem de SEG da sequência de assunto está ligada por padrão em qualquer um dos modos de ajuste de composição. Consideramos a filtragem de ambas as sequências desnecessária; quando tentamos filtrar ambas as sequências, não vimos nenhuma melhoria na precisão estatística, mas vimos um declínio nas pontuações do ROC (dados não mostrados).

a utilização de Testes aleatoriamente permutadas consultas

Para medir o grau de eficácia de composição baseado em estatísticas é a eliminação de falsas partidas, com baixo E de valor, realizamos uma série de testes utilizando aleatoriamente permutadas sequências de aminoácidos de camundongos (Mus musculus) do genoma., Mil sequências de proteínas foram selecionadas aleatoriamente da lista de proteínas do rato RefSeq atuais em 10 de janeiro de 2006. Sequências foram permutadas usando seu número de identificação GenBank como uma semente para um gerador de números aleatórios. As sequências permutadas são fornecidas como ficheiro adicional 1.

alinhamos as sequências permutadas a uma base de dados de sequências cromossómicas da montagem de referência do build 35 do genoma humano (Homo sapiens), lançada em 26 de agosto de 2004. A base de dados inclui cromossomas X e Y e os fragmentos de sequência não localizados incluídos na construção., Nós omitimos o genoma mitocondrial da base de dados, no entanto, como essas sequências são conhecidas (ver) para ter um código genético diferente do DNA nuclear.para testar a eficácia de vários modos de ajuste de composição para a TBLASTN, realizámos uma série de testes utilizando o genoma nuclear da levedura. Baixámos o genoma da levedura de um sítio que contém genomas de referência curados pela equipa da NCBI. A versão do genoma que usamos foi criada em 16 de Maio de 2005.,

alinhamos um conjunto de 102 domínios proteicos ao genoma do nucleótido da levedura usando TBLASTN. Este conjunto de testes foi desenvolvido pela primeira vez para o estudo em . Uma versão atualizada foi usada em, na qual uma lista humana curada de verdadeiras combinações positivas para o proteoma de levedura foi usada para gerar escores ROC. Para os testes descritos aqui, atualizamos a verdadeira lista positiva para refletir as mudanças no genoma da levedura publicado. A lista actualizada contém 987 correspondências com 894 sequências de assuntos distintas. A versão do conjunto de testes usado neste artigo é fornecida como arquivo adicional 2.,

no genoma da levedura, cada proteína conhecida de levedura é anotada com a localização e a cadeia da sua região de codificação. Estas anotações permitem-nos adaptar o conjunto de testes para utilização com TBLASTN da seguinte forma. Para TBLASTN, alinhamentos são divididos em três categorias: (1) alinhamentos que correspondem a uma consulta para a codificação de uma região de um conhecido verdadeira correspondência positiva; (2) alinhamentos que correspondem a uma consulta a um conhecido de codificação de região que não é uma verdadeira correspondência positiva; e (3) alinhamentos que não correspondem a uma conhecida codificação de região., Diz-se que um alinhamento corresponde a uma consulta a uma região de codificação se a parte do assunto do alinhamento sobrepuser a região de codificação e estiver na mesma linha.

não é incomum que haja mais de um alinhamento entre uma consulta e uma região de codificação. Na verdade, isso é esperado; pesquisas proteínas-proteínas também relatam vários alinhamentos entre pares de proteínas. Quando há mais de um alinhamento para uma região de codificação, apenas o menor alinhamento de valor eletrônico entre uma determinada consulta e a região de codificação é usado ao calcular pontuações ROC., Não é feita qualquer tentativa para aplicar uma regra semelhante às regiões não codificadas. Todos os alinhamentos que não se sobrepõem a uma região de codificação são categorizados como fósforos falsos positivos e contados ao computar escores ROC.

fizemos duas exceções explícitas a este esquema para classificar hits. A primeira exceção é para adicionar um determinado pseudogene (Entrez Gene ID 850644) à nossa lista de regiões codificantes e fazer o pseudogene um verdadeiro positivo de uma das nossas consultas, elevando o número máximo possível de verdadeiros positivos para 988., Cada uma das variantes testadas encontrou um alinhamento com este pseudogeno com valor E menor que 10-12. O pseudogeno é expresso e produz uma proteína funcional sob certas condições . Embora esta região seja rotulada como um pseudogeno, nós não acreditamos que um algoritmo de alinhamento deve ser esperado para distingui-lo de um gene verdadeiro. A segunda exceção é categorizar um alinhamento particular que sobrepõe uma região de codificação positiva verdadeira e uma região de código falso positivo como uma correspondência positiva verdadeira. Esta sobreposição é relatada por todas as três variantes da TBLASTN.

Avenir

Condominium

estatísticas baseadas na composição e pesquisas de nucleótidos traduzidos: melhorando o módulo TBLASTN de BLAST