Statistiques basées sur la Composition et recherches nucléotidiques traduites: améliorer le module TBLASTN de BLAST

dans cette section, nous décrivons l’algorithme utilisé pour calculer la composition des séquences de base de données et pour appliquer des statistiques basées sur la composition dans TBLASTN. Ensuite, nous décrivons plus en détail les tests rapportés dans cet article: les exécutables utilisés, les ensembles de tests et les détails sur les méthodes.,

ajustement compositionnel dans TBLASTN

les heuristiques BLAST utilisent un système de notation général, tel que la série de matrices PAM ou BLOSUM, pour découvrir les séquences de base de données susceptibles de s’aligner sur la requête et les points de départ probables pour les alignements. Dans BLAST, un alignement est connu sous le nom de paire à score élevé, ou HSP. Une liste de HSP pour chaque paire significative de sujet de requête est créée à l’aide d’un algorithme à plusieurs étapes., À chaque étape, les FSS peuvent être retirés de la liste actuelle pour un certain nombre de raisons, notamment pour avoir un score insuffisamment élevé, être contenus dans un FSS ayant un score plus élevé ou partager un point final avec un FSS ayant un score plus élevé. Par conséquent, alors que chaque étape successive de L’algorithme BLAST nécessite beaucoup plus de calcul pour chaque HSP, moins de HSP doivent être pris en compte.

le réglage de la composition, qu’il soit utilisé par TBLASTN ou d’autres modes de fonctionnement, n’est appliqué qu’à la dernière étape d’une recherche par explosion., De cette façon, les modes qui utilisent l’ajustement compositionnel appliquent les heuristiques rapides de BLAST pour localiser les régions susceptibles de contenir et les points de départ susceptibles de conduire à des alignements de notation élevée. Ils appliquent l’ajustement compositionnel uniquement avant l’algorithme d’alignement le plus sensible et le plus coûteux, le calcul d’un alignement gapped qui comprend des informations spécifiant les emplacements des lacunes, informations connues sous le nom de « traceback »., La liste des HSP produite par cet alignement final gapped, après avoir été filtrée pour des HSP insuffisamment significatifs ou redondants, est la liste présentée à l’utilisateur.,idually à chaque paire requête-sujet, sont les suivantes: (1) calculer les fenêtres d’intérêt en utilisant la liste des HSP à partir des étapes préliminaires de L’algorithme BLAST; (2) OBTENIR DES DONNÉES DE sujet traduites pour les fenêtres et les filtrer pour supprimer les sous-séquences inintéressantes; (3) calculer la composition de la région du sujet pour chaque HSP à réaligner; (4) calculer une matrice de notation pour chaque HSP à réaligner, en fonction de la composition de la région du sujet de ce HSP et de la composition de la requête; (5) effectuer un alignement gapped avec traceback pour recalculez la liste des HSP, en utilisant les nouvelles matrices de notation., En pratique, ces étapes de haut niveau sont entrelacées pour réduire les besoins en mémoire.

fenêtres de calcul d’intérêt

pour chaque correspondance entre la requête et une séquence de sujet, l’algorithme d’ajustement compositionnel reçoit une liste distincte de HSP. Chaque HSP spécifie, avec d’autres informations, une plage dans la séquence sujet qui a été alignée sur la requête. Ces plages sont utilisées comme suit pour calculer une liste de fenêtres. Tout d’abord, une liste préliminaire de fenêtres pour la séquence sujet est créée., Cette liste contient une fenêtre pour chaque HSP, la fenêtre qui entoure la plage de sujets du HSP, y compris 600 bases à gauche et à droite de la plage de sujets si autant de données de séquence sont disponibles. Ensuite, une liste finale de fenêtres est créée en joignant des fenêtres dans le même cadre de traduction si elles se touchent ou se chevauchent. Pour chaque fenêtre, une liste de HSP correspondant à la fenêtre est maintenue.

obtention et filtrage des données de sujet

Les données de sujet nucléotidique dans une fenêtre sont obtenues et traduites à l’aide du cadre de traduction de cette fenêtre., L’algorithme SEG avec la taille de fenêtre 10, la coupure basse 1.8 et la coupure haute 2.1 est utilisé pour masquer les régions de faible complexité dans la fenêtre sujet. Les paramètres ont été choisis à la suite de l’étude. Une région de faible complexité est généralement dominée par quelques résidus distincts souvent, mais pas toujours, dans un motif répétitif. Des exemples typiques sont les monomères de polyglycine ou de polyproline. Les scores d’alignement qui incluent les scores des régions à faible complexité ont tendance à surestimer la signification des alignements et à conduire à de nombreuses correspondances faussement positives.,

l’effet de l’application de L’algorithme SEG à une séquence d’acides aminés est de remplacer chaque résidu dans une région de faible complexité par le caractère X: un caractère qui reçoit un petit score négatif lorsqu’il est aligné sur n’importe quel caractère, y compris lui-même. Les données de sujet sont filtrées avant que des matrices de notation ajustées de manière compositionnelle ne soient calculées, et les occurrences du caractère X sont ignorées lors du calcul de la composition d’une séquence. Contrairement au code de composition-ajustement, les étapes préliminaires de la recherche BLAST ne filtrent pas les données du sujet.,

le filtrage SEG peut également être appliqué à la séquence de requête. Le filtrage SEG de la requête est une option de ligne de commande pour BLASTP et TBLASTN. Les programmes diffèrent en ce que le filtrage SEG de la requête est désactivé par défaut dans BLASTP mais activé par défaut dans TBLASTN. Nous n’avons pas filtré la requête dans les résultats rapportés dans cet article. Les paramètres SEG utilisés pour filtrer la séquence objet appliquent un seuil plus élevé pour déclarer une région à faible complexité que les paramètres par défaut utilisés pour filtrer la requête., La raison pour laquelle la séquence de requête est filtrée de manière plus stricte est que la séquence de requête est utilisée à chaque étape de l’algorithme BLAST. Le filtrage segmentaire du sujet ne se produit qu’aux dernières étapes d’une recherche BLAST, et le sous-filtrage des données dans une fenêtre de sujet n’effectuera qu’une seule comparaison.

calcul de la composition du sujet

Pour TBLASTN, les données de séquence et les plages de sujets des HSP dans une fenêtre sont utilisées pour déterminer une plage susceptible de contenir des données d’acides aminés correctement traduites., La fenêtre est recherchée strictement à gauche de la plage de sujets du HSP pour trouver l’occurrence la plus à droite d’un codon stop. Si on en trouve un, alors l’emplacement 20 caractères à droite du codon stop est la limite gauche de la plage de composition, avec la restriction que toute la plage de sujet du HSP soit incluse. Si pas de codon stop est trouvé, l’extrémité gauche est l’extrémité gauche de la fenêtre. La règle symétrique est appliquée à droite.,

l’intention n’est pas nécessairement de localiser le codon stop qui termine la protéine, mais plutôt d’utiliser la présence d’un codon stop pour indiquer que le codon hypothétiquement traduit se trouve dans une région non codante. En effet, la région non codante peut être un intron plutôt que la véritable extrémité de la séquence d’acides aminés. Comme nous n’essayons pas de trouver un codon stop de terminaison, nous proposons une règle symétrique pour déterminer la plage de séquences à utiliser pour l’ajustement de la composition même si la traduction biologique est asymétrique.,

dans une séquence d’ADN aléatoire avec une teneur en GC de 50%, on s’attendrait à trouver un codon stop dans une séquence d’acides aminés hypothétiquement traduite en moyenne une fois tous les 21 caractères. Par conséquent, nous instituons une marge de 20 caractères entre le codon stop et la plage à utiliser pour le réglage de la composition, avec la restriction que toute la plage de sujets du HSP soit incluse.

étant donné une région particulière, TBLASTN ne considère que les 20 acides aminés standard lors du calcul de la composition; le caractère X, le caractère stop et tous les autres caractères non standard sont complètement ignorés., Lorsque la longueur de la séquence est utilisée dans les algorithmes d’ajustement de composition, la valeur utilisée ne compte pas les occurrences de caractères ignorés.

calcul de matrices de notation ajustées par la composition

Schäffer et al. et Yu et coll. montrez comment ajuster les scores de substitution pour les 20 acides aminés standard. Pour les acides aminés standard, Nous appliquons ces techniques. Cependant, ces articles ne traitent pas du traitement des acides aminés rares, des caractères Ambigus à deux lettres, du caractère X ou du caractère stop., Nous discutons du traitement des caractères X et stop dans cette section, car ils se produisent couramment dans les recherches TBLASTN. Nous discutons du traitement des autres caractères dans le fichier supplémentaire 3.

le caractère stop apparaît fréquemment dans les séquences traduites et occasionnellement dans les alignements significatifs. Une occurrence du caractère stop indique généralement que l’on traduit une région non codante ou une région codante dans la mauvaise trame. Bien sûr, un caractère d’arrêt peut aussi simplement marquer la fin de la traduction., Cependant, les caractères stop se produisent dans des alignements significatifs pour plusieurs raisons: la séquence du sujet peut contenir un pseudogène; la séquence du sujet peut être de L’ADN mitochondrial, dans lequel certains codons qui sont des codons stop dans L’ADN nucléaire sont traduits en acides aminés véritables ; la séquence du sujet peut contenir un codon stop qui est converti in vivo en un résidu de sélénocystéine ou de pyrrolysine; la séquence du sujet peut représenter un gène, tel que le gène hdc chez D. melanogaster, qui code un produit protéique par lecture d’ARNm; ou il peut y avoir une erreur de séquençage dans la séquence du sujet.,

une notation appropriée du caractère d’arrêt est essentielle pour TBLASTN. Tout caractère aligné sur un caractère stop doit recevoir un score négatif, mais pas un score négatif d’une ampleur telle qu’il empêche les alignements valides contenant un codon stop. BLAST attribue uniformément aux lettres alignées sur un codon stop une partition intégrale qui, compte tenu de l’échelle utilisée, est aussi proche que possible de -2 bits.

Comme nous venons de le voir, les alignements tblastn biologiquement significatifs et statistiquement significatifs peuvent parfois contenir des codons stop traduits., Cependant, la présence de nombreux codons stop dans les régions non codantes et les régions de codage hors trame rend très peu probable que ces régions produisent des alignements de notation élevée par hasard. En conséquence, pour les calculs de valeur E, TBLASTN suppose que la longueur d’une séquence de base de données est la longueur de la protéine produite par la traduction dans une seule trame de lecture, même si la traduction est en fait effectuée dans les six trames de lecture., Le fait que de nombreuses séquences D’ADN de base de données ne codent pas sur une grande partie de leurs longueurs peut être une explication des statistiques généralement conservatrices de S-TBLASTN et C-TBLASTN illustrées à la Figure 1.

en raison de l’application de L’algorithme SEG, le caractère d’ambiguïté X est commun et le traitement des caractères X peut affecter de manière significative les performances de l’algorithme. Nous marquons les alignements avec X comme suit. Lorsque la mise à l’échelle de la matrice de composition ou l’ajustement de la matrice de composition est utilisé, les scores de substitution sont calculés pour tous les acides aminés standard.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., En d’autres termes, le score d’appariement D’un acide aminé standard avec X est la valeur attendue sur toutes les correspondances de cet acide aminé avec un acide aminé standard, à condition que cette valeur soit inférieure à -1., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., Une formule analogue à L’équation(1) est utilisée pour calculer le score d’alignement D’un caractère X dans la requête à un acide aminé standard dans le sujet. Le score pour aligner X sur lui-même est le plus petit du score attendu pour aligner deux acides aminés standard et -1, arrondi à l’entier le plus proche.

effectuer un alignement gapped avec traceback

Les Routines qui appliquent des statistiques basées sur la composition ne se contentent pas de ReCore les alignements, mais plutôt de les recalculer. Les alignements sont calculés à l’aide de l’une des deux techniques suivantes., Par défaut, l’algorithme x-drop est appliqué à un ensemble de points de départ spécifiés dans les listes de HSP fournies à partir des étapes précédentes de l’algorithme BLAST. À la suite des modifications apportées au cours de ce projet, on peut alternativement spécifier que l’algorithme rigoureux de Smith-Waterman soit appliqué dans chaque fenêtre. Si l’algorithme x-drop est appliqué, la composition est calculée individuellement pour chaque HSP réaligné. Si L’algorithme de Smith-Waterman est utilisé, la composition d’une fenêtre est considérée comme la composition de son HSP le plus marquant., La mise en commun de la composition des régions concernées de plusieurs HSP dans une fenêtre est problématique car les HSP n’appartiennent pas nécessairement au même alignement, ni même au même ensemble d’alignements liés. La valeur par défaut dans TBLASTN est d’utiliser l’algorithme x-drop, et nous utilisons l’algorithme x-drop dans les tests présentés dans cet article.

le pseudocode suivant montre comment les alignements correspondant à une seule correspondance requête-sujet sont recalculés lorsque l’algorithme x-drop est utilisé.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

l’Algorithme 1

Rétablir les alignements dans une fenêtre.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., Un HSP est considéré comme contenu dans un second HSP si ses limites de requête et de sujet sont contenues dans les limites de requête et de sujet du second HSP et si le second HSP a un score égal ou supérieur.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., De cette manière, l’appel répété de la routine WITH_DISTINCT_ENDS garantit que la liste finale des alignements ne contient pas d’alignement qui partage un point de terminaison avec un alignement à Notation supérieure. Lorsque deux alignements partagent le même point de terminaison, l’alignement à Notation supérieure est l’alignement préféré; l’alignement à notation inférieure est un artefact sous-optimal de l’heuristique BLAST.

l’algorithme x-drop nécessite un point de départ (p q , p s ) qui forcera un alignement entre le décalage p q dans la requête et p S dans le sujet. Il calcule un alignement dans les deux directions à partir de ce point., Un point de départ est défini pour chaque HSP réaligné. Si possible, le point de départ qui a été utilisé à l’origine pour calculer le HSP est réutilisé. En raison des effets du filtrage SEG et de la matrice de notation nouvellement calculée, cependant, le point de départ précédent peut ne plus être souhaitable; il peut se situer dans une région de score non positif. Nous discutons de la règle utilisée pour valider le point de départ existant, et si nécessaire en choisir un nouveau, dans le fichier supplémentaire 3: tblastn_suppl.PDF.,

enfin, nous remarquons que L’algorithme 1 est également un pseudocode correct pour BLASTP, qui effectue des recherches de protéine-requête, de protéine-base de données. La différence est que pour BLASTP, il n’y a qu’une seule fenêtre pour chaque séquence de sujet: la fenêtre qui inclut la séquence entière. De plus, pour BLASTP, la composition de la séquence entière du sujet est toujours utilisée lors de l’ajustement de la composition. Par conséquent, la matrice ajustée de la composition est nécessairement la même pour chaque HSP dans une fenêtre et ne doit être calculée qu’une seule fois., En pratique, le même code est utilisé pour TBLASTN et BLASTP pour implémenter L’algorithme 1, mais pour BLASTP, une condition est utilisée pour s’assurer que la matrice n’est calculée qu’une seule fois pour chaque fenêtre.

ensembles de tests et programmes utilisés

Nous décrivons ci-dessous les exécutables, les ensembles de données et les méthodes spécifiques utilisés pour générer les résultats présentés dans cet article. Les variantes de TBLASTN rapportées ici ont été écrites en C, et, comme indiqué ci-dessous, certaines variantes sont disponibles dans le cadre des distributions logicielles NCBI C et c++; les modules de calcul impliqués sont mis en miroir entre les deux distributions., De nombreux programmes auxiliaires utilisés pour automatiser les tests et résumer les résultats ont été écrits en C, Perl, Python et Bourne shell script.

Exécutables utilisés

TBLASTN est un mode de fonctionnement pour la blastall exécutable. Cet exécutable est disponible en téléchargement à partir de. Les variantes C-TBLASTN et S-tblastn sont disponibles sous la forme d’un ensemble d’options pour l’exécutable blastall. S-TBLASTN est invoqué à l’aide des options de ligne de commande « -p tblastn-F F-C 1 ». C-TBLASTN est invoqué en utilisant des options similaires, mais avec « -C 1 » remplacé par « -C 2 ». B-TBLASTN n’est actuellement pas disponible en tant qu’ensemble d’options de ligne de commande., TBLASTN peut être exécuté sans statistiques basées sur la composition, en omettant l’option « – C », mais la version par défaut s’exécute avec une précision inférieure à B-TBLASTN. Les exécutables qui exécutent B-tblastn et les versions spécifiques de S-tblastn et C-tblastn utilisées dans cet article sont disponibles en téléchargement sur.

l’exécutable blastall utilise par défaut BLOSUM62 pour effectuer des alignements de séquences d’acides aminés, et c’est la matrice utilisée à toutes les étapes avant l’ajustement de la composition. L’option « – F F » désactive le filtrage SEG de la séquence de requête., Le filtrage SEG de la séquence du sujet est activé par défaut dans l’un des modes de réglage de la composition. Nous considérons que le filtrage des deux séquences n’est pas nécessaire; lorsque nous avons essayé de filtrer les deux séquences, nous n’avons constaté aucune amélioration de la précision statistique, mais nous avons constaté une baisse des scores ROC (données non affichées).

Tests utilisant des requêtes permutées aléatoirement

pour mesurer l’efficacité des statistiques basées sur la composition pour éliminer les fausses correspondances avec une faible valeur E, nous avons effectué une série de tests utilisant des séquences d’acides aminés permutées aléatoirement du génome de la souris (Mus musculus)., Un millier de séquences protéiques ont été sélectionnées au hasard dans la liste des protéines de souris RefSeq en vigueur le 10 janvier 2006. Les séquences ont été permutées en utilisant leur numéro D’identification GenBank comme une graine à un générateur de nombres aléatoires. Les séquences permutées sont fournies en tant que Fichier supplémentaire 1.

nous avons aligné les séquences permutées sur une base de données de séquences chromosomiques provenant de l’assemblage de référence de build 35 du génome humain (Homo sapiens), publié le 26 août 2004. La base de données comprend les chromosomes X et Y et les fragments de séquence non espacés inclus dans la construction., Nous avons cependant omis le génome mitochondrial de la base de données, car ces séquences sont connues (voir) pour avoir un code génétique différent de L’ADN nucléaire.

tests de score ROC sur le génome de la levure

pour tester l’efficacité de divers modes d’ajustement de la composition pour TBLASTN, nous avons effectué un certain nombre de tests utilisant le génome nucléaire de la levure. Nous avons téléchargé le génome de la levure à partir de, un site contenant des génomes de référence sélectionnés par le personnel du NCBI. La version du génome que nous avons utilisée a été créée le 16 mai 2005.,

Nous avons aligné un ensemble de 102 domaines protéiques sur le génome des nucléotides de levure à l’aide de TBLASTN. Cet essai a d’abord été développé pour l’étude . Une version mise à jour a été utilisée dans , dans lequel une liste organisée par l » homme de vraies correspondances positives au protéome de levure a été utilisée pour générer des scores ROC. Pour les tests décrits ici, nous avons mis à jour la liste true positive pour refléter les changements dans le génome de la levure publié. La liste mise à jour contient 987 correspondances de sujet de requête avec 894 séquences de sujet distinctes. La version de l’ensemble de tests utilisée dans le présent document est fournie en tant que Fichier supplémentaire 2.,

Dans le génome de la levure, chaque protéine de levure est annoté avec l’emplacement et le brin de sa région codante. Ces annotations nous permettent d’adapter l’ensemble de tests pour une utilisation avec TBLASTN comme suit. Pour TBLASTN, les alignements sont divisés en trois catégories: (1) Les alignements qui correspondent à une requête à la région de codage d’une correspondance vraie positive connue; (2) Les alignements qui correspondent à une requête à une région de codage connue qui n’est pas une correspondance vraie positive; et (3) les alignements qui ne correspondent pas à une région de codage connue., On dit qu’un alignement fait correspondre une requête à une région de codage si la partie sujet de l’alignement chevauche la région de codage et se trouve sur le même brin.

Il n’est pas rare qu’il y ait plus d’un alignement entre une requête et une région codante. En effet, cela est attendu; les recherches protéine-protéine signalent également de multiples alignements entre paires de protéines. Lorsqu’il y a plus d’un alignement sur une région de codage, seul l’alignement de la valeur e la plus basse entre une requête particulière et la région de codage est utilisé lors du calcul des scores ROC., Aucune tentative n’est faite pour appliquer une règle similaire aux régions non codantes. Tous les alignements qui ne chevauchent pas une région de codage sont classés comme des correspondances de faux positifs et comptés lors du calcul des scores ROC.

Nous avons fait deux exceptions explicites à ce schéma pour classer les hits. La première exception consiste à ajouter un pseudogène particulier (Entrez Gene ID 850644) à notre liste de régions codantes et à faire du pseudogène un vrai positif pour l’une de nos requêtes, ce qui porte le nombre maximum possible de vrais positifs à 988., Chacune des variantes testées a trouvé un alignement sur ce pseudogène avec une valeur E inférieure à 10-12. Le pseudogène est exprimé et produit une protéine fonctionnelle dans certaines conditions . Bien que cette région soit étiquetée comme un pseudogène, nous ne croyons pas qu’un algorithme d’alignement devrait être censé la distinguer d’un véritable gène. La deuxième exception consiste à catégoriser un alignement particulier qui chevauche une vraie région de codage positif et une région de codage faux positif comme une vraie correspondance positive. Ce chevauchement est rapporté par les trois variantes de TBLASTN.

Avenir

Condominium