Kompositionsbasierte Statistiken und übersetzte Nukleotidsuchen: Verbesserung des TBLASTN-Moduls der BLAST / BMC-Biologie

In diesem Abschnitt skizzieren wir den Algorithmus, mit dem die Zusammensetzung von Datenbanksequenzen berechnet und kompositionsbasierte Statistiken in TBLASTN angewendet werden. Anschließend beschreiben wir die in diesem Artikel beschriebenen Tests weiter: die verwendeten ausführbaren Dateien, die Testsätze und Details zu den Methoden.,

Kompositionsanpassung in TBLASTN

Die BLAST-Heuristiken verwenden ein allgemeines Bewertungssystem, z. B. die PAM-oder BLOSUM-Reihe von Matrizen, um Datenbanksequenzen zu ermitteln, die wahrscheinlich an der Abfrage ausgerichtet sind, und wahrscheinliche Startpunkte für Ausrichtungen. In BLAST wird eine Ausrichtung als High-Scoring-Paar oder HSP bezeichnet. Eine Liste von HSPs für jedes signifikante Abfrage-Betreff-Paar wird mit einem mehrstufigen Algorithmus erstellt., In jeder Phase können HSPs aus einer Reihe von Gründen aus der aktuellen Liste gestrichen werden, einschließlich unzureichend hoher Punktzahl, in einem HSP mit höherer Punktzahl enthalten sein oder einen Endpunkt mit einem HSP mit höherer Punktzahl teilen. Infolgedessen müssen, während jede aufeinanderfolgende Stufe des BLAST-Algorithmus für jeden HSP deutlich mehr Berechnungen erfordert, weniger HSPs berücksichtigt werden.

Die kompositorische Anpassung, unabhängig davon, ob sie von TBLASTN oder anderen Betriebsmodi verwendet wird, wird nur in der letzten Phase einer BLAST-Suche angewendet., Auf diese Weise wenden Modi, die eine kompositorische Anpassung verwenden, die schnelle Heuristik von BLAST an, um Regionen zu lokalisieren, die wahrscheinlich Ausrichtungen mit hoher Punktzahl enthalten, und Startpunkte, die wahrscheinlich zu Ausrichtungen mit hoher Punktzahl führen. Sie wenden die kompositorische Anpassung nur vor dem empfindlichsten und rechenintensivsten Ausrichtungsalgorithmus an, der Berechnung einer Gapped-Ausrichtung, die Informationen enthält, die die Stellen von Lücken angeben, Informationen, die als „Traceback“bezeichnet werden., Die Liste der HSPs, die durch diese endgültige Gapped-Ausrichtung erzeugt werden, nachdem sie nach unzureichend signifikanten oder redundanten HSPs gefiltert wurden, ist die Liste, die dem Benutzer präsentiert wird.,id-Werte für jedes Abfrage-Betreff-Paar lauten wie folgt: (1) Berechnen Sie interessierende Fenster mithilfe der Liste der HSPs aus den Vorstufen des BLAST-Algorithmus; (2) erhalten Sie übersetzte Betreffdaten für die Fenster und filtern Sie sie, um uninteressante Teilsequenzen zu entfernen; (3) Berechnen Sie die Zusammensetzung des Betreff-Bereichs für jeden neu auszurichten HSP; (4) Berechnen Sie eine Bewertungsmatrix für jeden neu auszurichten HSP, basierend auf der Zusammensetzung des Betreff-Bereichs dieses HSP und auf der Zusammensetzung der Abfrage; (5) Führen Sie eine Gapped-Ausrichtung mit Traceback durch, um berechnen Sie die Liste der HSPs mithilfe der neuen Bewertungsmatrizen neu., In der Praxis werden diese Schritte auf hoher Ebene verschachtelt, um den Speicherbedarf zu reduzieren.

Berechnungsfenster von Interesse

Für jede Übereinstimmung zwischen der Abfrage und einer Subjektsequenz erhält der kompositorische Anpassungsalgorithmus eine separate Liste von HSPs. Jede HSP gibt zusammen mit anderen Informationen einen Bereich in der Betreffsequenz an, der an der Abfrage ausgerichtet wurde. Diese Bereiche werden wie folgt verwendet, um eine Liste von Fenstern zu berechnen. Zunächst wird eine vorläufige Liste von Fenstern für die Betreffzeile erstellt., Diese Liste enthält ein Fenster für jeden HSP, das Fenster, das den Themenbereich des HSP umgibt, einschließlich 600 Basen links und rechts des Themenbereichs, wenn so viele Sequenzdaten verfügbar sind. Dann wird eine endgültige Liste von Fenstern erstellt, indem Fenster im selben Übersetzungsrahmen verbunden werden, wenn sie sich berühren oder überlappen. Für jedes Fenster wird eine dem Fenster entsprechende Liste von HSPs beibehalten.

Subjektdaten erhalten und filtern

Die Nucleotid-Subjektdaten innerhalb eines Fensters werden unter Verwendung des Translationsrahmens dieses Fensters erhalten und übersetzt., Der SEG-Algorithmus mit Fenstergröße 10, Low-Cutoff 1.8 und High Cutoff 2.1 wird verwendet, um Regionen mit geringer Komplexität im Subjektfenster zu maskieren. Die Parameter wurden als Ergebnis der Studie ausgewählt. Eine Region mit geringer Komplexität wird typischerweise von einigen wenigen Unterschieden dominiert, die häufig, aber nicht immer, in einem sich wiederholenden Muster auftreten. Typische Beispiele sind Polyglycin – oder Polyprolinmonomere. Alignment-Scores, die die Scores von Regionen mit geringer Komplexität enthalten, neigen dazu, die Bedeutung der Alignments zu überschätzen und führen zu vielen falsch positiven Übereinstimmungen.,

Der Effekt der Anwendung des SEG-Algorithmus auf eine Aminosäuresequenz besteht darin, jeden Rückstand in einem Bereich mit geringer Komplexität durch das X-Zeichen zu ersetzen: ein Zeichen, dem bei Ausrichtung auf ein beliebiges Zeichen, einschließlich sich selbst, ein kleiner negativer Wert zugewiesen wird. Die Subjektdaten werden gefiltert, bevor kompositorisch angepasste Bewertungsmatrizen berechnet werden, und Vorkommen des X-Zeichens werden bei der Berechnung der Zusammensetzung einer Sequenz ignoriert. Im Gegensatz zum Kompositionsanpassungscode filtern die Vorstufen der BLAST-Suche die Betreffdaten nicht.,

Die SEG-Filterung kann auch auf die Abfragesequenz angewendet werden. Die SEG-Filterung der Abfrage ist eine Befehlszeilenoption für BLASTP und TBLASTN. Die Programme unterscheiden sich dadurch, dass die SEG-Filterung der Abfrage in BLASTP standardmäßig deaktiviert ist, in TBLASTN jedoch standardmäßig aktiviert. Wir haben die Abfrage in keinem der in diesem Artikel berichteten Ergebnisse gefiltert. Die SEG-Parameter, die zum Filtern der Betrefffolge verwendet werden, wenden einen höheren Schwellenwert für die Deklaration einer Region als die Standardparameter zum Filtern der Abfrage an., Der Grund dafür, dass die Abfragesequenz strenger gefiltert wird, ist, dass die Abfragesequenz in jeder Phase des BLAST-Algorithmus verwendet wird. Die SEG-Filterung des Subjekts erfolgt nur in den Endstadien einer BLAST-Suche, und das Unterfiltern der Daten innerhalb eines Subjektfensters führt nur zu einem einzigen Vergleich.

Berechnen der Zusammensetzung des Subjekts

Für TBLASTN werden die Sequenzdaten und die Subjektbereiche der HSPs innerhalb eines Fensters verwendet, um einen Bereich zu bestimmen, der wahrscheinlich korrekt übersetzte Aminosäuredaten enthält., Das Fenster wird streng links vom Betreffbereich des HSP durchsucht, um das rechtmäßige Auftreten eines Stop-Codons zu finden. Wenn man gefunden wird, dann ist die Position 20 Zeichen rechts vom Stoppcodon die linke Grenze des Kompositionsbereichs, mit der Einschränkung, dass der gesamte Subjektbereich des HSP enthalten sein soll. Wenn kein Stop-Codon gefunden wird, ist der linke Endpunkt der linke Endpunkt des Fensters. Die symmetrische Regel wird rechts angewendet.,

Die Absicht besteht nicht notwendigerweise darin, das Stop-Codon zu lokalisieren, das das Protein beendet, sondern das Vorhandensein eines Stop-Codons zu verwenden, um anzuzeigen, dass das hypothetisch übersetzte Codon in einem nicht codierenden Bereich liegt. In der Tat kann der nichtcodierende Bereich eher ein Intron als das wahre Ende der Aminosäuresequenz sein. Da wir nicht versuchen, ein abschließendes Stop-Codon zu finden, schlagen wir eine symmetrische Regel vor, um den Sequenzbereich zu bestimmen, der für die Kompositionsanpassung verwendet werden soll, obwohl die biologische Translation asymmetrisch ist.,

In einer zufälligen DNA-Sequenz mit 50% GC-Gehalt würde man erwarten, ein Stop-Codon in einer hypothetisch übersetzten Aminosäuresequenz durchschnittlich einmal alle 21 Zeichen zu finden. Daher legen wir einen 20-Zeichen-Rand zwischen dem Stop-Codon und dem Bereich fest, der für die Kompositionsanpassung verwendet werden soll, mit der Einschränkung, dass der gesamte Themenbereich des HSP enthalten ist.

Bei einer bestimmten Region berücksichtigt TBLASTN bei der Berechnung der Zusammensetzung nur die 20 Standardaminosäuren; Das X-Zeichen, das Stoppzeichen und alle anderen nicht standardmäßigen Zeichen werden vollständig ignoriert., Wenn die Länge der Sequenz in den kompositorischen Anpassungsalgorithmen verwendet wird, zählt der verwendete Wert keine Vorkommen ignorierter Zeichen.

Computing kompositorisch-adjusted scoring-Matrizen

Schäffer et al. und Yu et al. zeigen Sie, wie Sie die Substitutionswerte für die 20 Standardaminosäuren anpassen. Für die Standard-Aminosäuren wenden wir diese Techniken an. Diese Papiere jedoch nicht diskutieren, die Behandlung der selten auftretenden Aminosäuren, zwei Buchstaben für die Ambiguität von Zeichen, die X-Zeichen, oder die stop-Zeichen., Wir diskutieren die Behandlung der X und stop Zeichen in diesem Abschnitt, weil sie häufig in TBLASTN Suchen auftreten. Wir diskutieren die Behandlung der anderen Zeichen in Zusätzliche Datei 3.

Das Stoppzeichen tritt häufig in übersetzten Sequenzen und gelegentlich in signifikanten Ausrichtungen auf. Ein Auftreten des Stoppzeichens zeigt normalerweise an, dass man einen nicht codierenden Bereich oder einen codierenden Bereich in den falschen Rahmen übersetzt. Natürlich kann ein Stoppzeichen auch einfach das Ende der Übersetzung markieren., Stop-Zeichen treten jedoch aus mehreren Gründen innerhalb signifikanter Ausrichtungen auf: Die Subjektsequenz kann ein Pseudogen enthalten; Die Subjektsequenz kann mitochondriale DNA sein, bei der bestimmte Codons, die Stop-Codons in Kern-DNA sind, in echte Aminosäuren übersetzt werden ; Die Subjektsequenz kann ein Stop-Codon enthalten, das in vivo in einen Selenocystein-oder Pyrrolysin-Rückstand umgewandelt wird; Die Subjektsequenz kann ein Gen darstellen, wie das hdc-Gen in D. melanogaster, das ein Proteinprodukt durch mRNA-Durchlesen codiert; oder es kann einen Sequenzierungsfehler in der Subjektsequenz geben.,

Eine angemessene Bewertung des Stoppzeichens ist für TBLASTN unerlässlich. Jedes Zeichen, das an einem Stoppzeichen ausgerichtet ist, sollte eine negative Punktzahl erhalten, jedoch keine negative Punktzahl von so großem Ausmaß, dass gültige Ausrichtungen, die ein Stop-Codon enthalten, nicht zulässig sind. BLAST weist einem Stop-Codon gleichmäßig ausgerichtete Buchstaben eine integrale Punktzahl zu, die angesichts der verwendeten Skala so nahe wie möglich an -2 Bits liegt.

Wie gerade diskutiert, können biologisch aussagekräftige und statistisch signifikante TBLASTN-Ausrichtungen manchmal übersetzte Stop-Codons enthalten., Das Vorhandensein vieler Stop-Codons in nicht codierenden Regionen und Out-of-Frame-Codierungsregionen macht es jedoch sehr unwahrscheinlich, dass diese Regionen zufällig High-Scoring-Ausrichtungen ergeben. Dementsprechend nimmt TBLASTN für E-Wert-Berechnungen an, dass die Länge einer Datenbanksequenz die Länge des Proteins ist, das durch Translation in einem einzigen Leserahmen ergibt wird, obwohl Translation tatsächlich in allen sechs Leserahmen durchgeführt wird., Dass viele Datenbank-DNA-Sequenzen über einen Großteil ihrer Längen nicht codieren, kann eine Erklärung für die allgemein konservativen Statistiken von S-TBLASTN und C-TBLASTN sein, die in Abbildung 1 gezeigt werden.

Aufgrund der Anwendung des SEG-Algorithmus ist das X-Mehrdeutigkeitszeichen häufig, und die Behandlung von X-Zeichen kann die Leistung des Algorithmus erheblich beeinträchtigen. Wir erzielen Ausrichtungen mit X wie folgt. Wenn entweder kompositorische Matrixskalierung oder kompositorische Matrixanpassung verwendet wird, werden Substitutionswerte für alle Standardaminosäuren berechnet.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., Mit anderen Worten, der Score für die Übereinstimmung einer Standardaminosäure mit X ist der erwartete Wert über alle Übereinstimmungen dieser Aminosäure mit einer Standardaminosäure, vorausgesetzt, dieser Wert ist kleiner als -1., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., Eine Formel analog zu Gleichung (1) wird verwendet, um die Punktzahl zum Ausrichten eines X-Zeichens in der Abfrage an einer Standardaminosäure im Subjekt zu berechnen. Die Punktzahl zum Ausrichten von X an sich selbst ist die kleinere der erwarteten Punktzahl zum Ausrichten von zwei Standardaminosäuren und -1, gerundet auf die nächste ganze Zahl.

Durchführen einer Gapped-Ausrichtung mit Traceback

– Routinen, die kompositionsbasierte Statistiken anwenden, werden Ausrichtungen nicht nur zurückgesetzt, sondern neu berechnet. Ausrichtungen werden mit einer von zwei Techniken berechnet., Standardmäßig wird der X-Drop-Algorithmus auf eine Reihe von Startpunkten angewendet, die in den Listen der HSPs angegeben sind, die aus früheren Phasen des BLAST-Algorithmus bereitgestellt wurden. Infolge von Änderungen, die im Laufe dieses Projekts vorgenommen wurden, kann abwechselnd festgelegt werden, dass der strenge Smith-Waterman-Algorithmus in jedem Fenster angewendet wird. Wenn der X-Drop-Algorithmus angewendet wird, wird die Zusammensetzung für jeden neu ausgerichteten HSP individuell berechnet. Wenn der Smith-Waterman-Algorithmus verwendet wird, wird die Zusammensetzung eines Fensters als Zusammensetzung seines HSP mit der höchsten Punktzahl angenommen., Das Bündeln der Zusammensetzung der Themenbereiche mehrerer HSPs innerhalb eines Fensters ist problematisch, da die HSPs nicht notwendigerweise zu derselben Ausrichtung oder sogar zu demselben verknüpften Satz von Ausrichtungen gehören. In TBLASTN wird standardmäßig der X-Drop-Algorithmus verwendet, und wir verwenden den X-Drop-Algorithmus in den in diesem Artikel vorgestellten Tests.

Der folgende Pseudocode zeigt, wie Ausrichtungen, die einer einzelnen Abfrage-Betreff-Übereinstimmung entsprechen, neu berechnet werden, wenn der X-Drop-Algorithmus verwendet wird.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

Algorithmus 1

Ausrichtungen in einem Fenster wiederholen.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., Ein HSP wird als in einem zweiten HSP enthalten angesehen, wenn seine Abfrage – und Betreff-Grenzen in den Abfrage-und Betreff-Grenzen des zweiten HSP enthalten sind und wenn der zweite HSP eine gleiche oder höhere Punktzahl aufweist.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., Auf diese Weise wird durch wiederholtes Aufrufen der Routine WITH_DISTINCT_ENDS sichergestellt, dass die endgültige Liste der Ausrichtungen keine Ausrichtung enthält, die einen Endpunkt mit einer höherwertigen Ausrichtung teilt. Wenn zwei Ausrichtungen denselben Endpunkt teilen, ist die höherwertige Ausrichtung die bevorzugte Ausrichtung; Die niedrigere Ausrichtung ist ein suboptimales Artefakt der BLAST-Heuristik.

Der X-Drop-Algorithmus erfordert einen Startpunkt (pq , ps), der eine Ausrichtung zwischen dem Offset pq in der Abfrage und p s im Betreff erzwingt. Es berechnet ab diesem Punkt eine Ausrichtung in beide Richtungen., Für jede neu ausgerichtete HSP wird ein Startpunkt definiert. Wenn möglich, wird der Ausgangspunkt, der ursprünglich zur Berechnung des HSP verwendet wurde, wiederverwendet. Aufgrund der Auswirkungen der SEG-Filterung und der neu berechneten Scoring-Matrix kann der vorherige Ausgangspunkt jedoch nicht mehr wünschenswert sein; es kann in einem Bereich der nichtpositiven Punktzahl liegen. Wir besprechen die Regel, die zur Validierung des vorhandenen Startpunkts verwendet wird, und wählen gegebenenfalls eine neue in der zusätzlichen Datei 3: tblastn_suppl.PDF.,

Schließlich bemerken wir, dass Algorithmus 1 auch korrekter Pseudocode für BLASTP ist, der Proteinabfragen und Proteindatenbanksuchen durchführt. Der Unterschied besteht darin, dass es für BLASTP nur ein Fenster für jede Subjektsequenz gibt: das Fenster, das die gesamte Sequenz enthält. Darüber hinaus wird für BLASTP bei der kompositorischen Anpassung immer die Zusammensetzung der gesamten Subjektsequenz verwendet. Daher ist die kompositorisch angepasste Matrix notwendigerweise für jeden HSP in einem Fenster gleich und muss nur einmal berechnet werden., In der Praxis wird derselbe Code sowohl für TBLASTN als auch für BLASTP verwendet, um Algorithmus 1 zu implementieren, aber für BLASTP wird eine Bedingung verwendet, um sicherzustellen, dass die Matrix nur einmal für jedes Fenster berechnet wird.

Verwendete Testsätze und Programme

Nachfolgend beschreiben wir die spezifischen ausführbaren Dateien, Datensätze und Methoden zur Generierung der in diesem Artikel vorgestellten Ergebnisse. Die hier gemeldeten Varianten von TBLASTN wurden in C geschrieben, und wie unten erwähnt, sind einige Varianten als Teil der NCBI C-und C++ – Softwaredistributionen verfügbar; Die beteiligten Rechenmodule werden zwischen den beiden Distributionen gespiegelt., Zahlreiche Hilfsprogramme zur Automatisierung von Tests und zur Zusammenfassung der Ergebnisse wurden in C, Perl, Python und Bourne Shell Script geschrieben.

Verwendete ausführbare Dateien

TBLASTN ist eine Betriebsart für die ausführbare Blastall-Datei. Diese ausführbare Datei steht zum Download zur Verfügung von. Die Varianten C-TBLASTN und S-TBLASTN stehen als Optionen für die ausführbare Blastall-Datei zur Verfügung. S-TBLASTN wird mit den Befehlszeilenoptionen „-p tblastn-F F-C 1″aufgerufen. C-TBLASTN wird mit ähnlichen Optionen aufgerufen, jedoch mit „-C 1“ ersetzt durch „-C 2“. B-TBLASTN ist derzeit nicht als Befehlszeilenoptionen verfügbar., TBLASTN kann ohne kompositionsbasierte Statistiken ausgeführt werden, indem die Option „-C“ weggelassen wird, aber die Standardversion wird mit geringerer Genauigkeit als B-TBLASTN ausgeführt. Ausführbare Dateien, auf denen B-TBLASTN ausgeführt wird, und die spezifischen Versionen von S-TBLASTN und C-TBLASTN, die in diesem Artikel verwendet werden, können unter heruntergeladen werden.

Die ausführbare Blastall-Datei verwendet standardmäßig BLOSUM62, um Ausrichtungen von Aminosäuresequenzen durchzuführen, und dies ist die Matrix, die in allen Phasen vor der Kompositionsanpassung verwendet wird. Die Option „- F F “ deaktiviert die SEG-Filterung der Abfragesequenz., Die SEG-Filterung der Subjektsequenz ist standardmäßig in einem der Kompositionsanpassungsmodi aktiviert. Wir betrachten das Filtern beider Sequenzen als unnötig; Als wir versuchten, beide Sequenzen zu filtern, sahen wir keine Verbesserung der statistischen Genauigkeit, sahen jedoch einen Rückgang der ROC-Werte (Daten nicht gezeigt).

Tests mit zufällig permutierten Abfragen

Um zu messen, wie effektiv kompositionsbasierte Statistiken falsche Übereinstimmungen mit niedrigem E-Wert eliminieren, führten wir eine Reihe von Tests mit zufällig permutierten Aminosäuresequenzen aus dem Mausgenom (Mus musculus) durch., Eintausend Proteinsequenzen wurden zufällig aus der Liste der RefSeq-Mausproteine ausgewählt, die am 10. Sequenzen wurden unter Verwendung ihrer GenBank-Identifikationsnummer als Samen an einen Zufallszahlengenerator permutiert. Die permutierten Sequenzen werden als zusätzliche Datei 1 bereitgestellt.

Wir haben die permutierten Sequenzen auf eine Datenbank von Chromosomensequenzen aus der Referenzanordnung von Build 35 des menschlichen (Homo sapiens) Genoms ausgerichtet, veröffentlicht am 26. Die Datenbank enthält die Chromosomen X und Y sowie die im Build enthaltenen ungeplanten Sequenzfragmente., Wir haben jedoch das mitochondriale Genom aus der Datenbank weggelassen, da diese Sequenzen bekanntermaßen einen anderen genetischen Code als Kern-DNA haben (siehe).

ROC-Score-Tests am Hefegenom

Um die Wirksamkeit verschiedener Modi der Kompositionsanpassung für TBLASTN zu testen, führten wir eine Reihe von Tests mit dem Hefe-Kerngenom durch. Wir haben das Hefegenom von einer Website heruntergeladen, die Referenzgenome enthält, die von NCBI-Mitarbeitern kuratiert wurden. Die von uns verwendete Version des Genoms wurde am 16.,

Wir haben einen Satz von 102 Proteindomänen mit TBLASTN auf das Hefenukleotidgenom ausgerichtet. Dieser Testsatz wurde erstmals für die Studie in entwickelt . Eine aktualisierte Version wurde in verwendet , in dem eine vom Menschen kuratierte Liste wahrer positiver Übereinstimmungen mit dem Hefeproteom verwendet wurde, um ROC-Werte zu generieren. Für die hier beschriebenen Tests haben wir die wahre Positivliste aktualisiert, um Änderungen im veröffentlichten Hefegenom widerzuspiegeln. Die aktualisierte Liste enthält 987 Query-Subject-Übereinstimmungen mit 894 verschiedenen Subjektsequenzen. Die Version des in diesem Artikel verwendeten Testsatzes wird als zusätzliche Datei 2 bereitgestellt.,

Im Hefegenom wird jedes bekannte Hefeprotein mit dem Ort und dem Strang seiner kodierenden Region kommentiert. Mit diesen Anmerkungen können wir den Testsatz für die Verwendung mit TBLASTN wie folgt anpassen. Für TBLASTN werden Ausrichtungen in drei Kategorien unterteilt: (1) Ausrichtungen, die einer Abfrage mit dem Codierungsbereich einer bekannten true positiven Übereinstimmung entsprechen; (2) Ausrichtungen, die einer Abfrage mit einem bekannten Codierungsbereich entsprechen, der keine echte positive Übereinstimmung aufweist; und (3) Ausrichtungen, die nicht mit einem bekannten Codierungsbereich übereinstimmen., Eine Ausrichtung soll eine Abfrage mit einem Codierbereich abgleichen, wenn der Subjektteil der Ausrichtung den Codierbereich überlappt und sich auf demselben Strang befindet.

Es ist nicht ungewöhnlich, dass zwischen einer Abfrage und einem Codierbereich mehr als eine Ausrichtung vorhanden ist. In der Tat wird dies erwartet; Protein-Protein-Suchen berichten auch über mehrere Ausrichtungen zwischen Proteinpaaren. Wenn es mehr als eine Ausrichtung zu einem Codierbereich gibt, wird bei der Berechnung von ROC-Scores nur die niedrigste E-Wert-Ausrichtung zwischen einer bestimmten Abfrage und dem Codierbereich verwendet., Es wird nicht versucht, eine ähnliche Regel auf nicht codierende Regionen anzuwenden. Alle Ausrichtungen, die einen Codierungsbereich nicht überlappen, werden als falsch positive Übereinstimmungen kategorisiert und bei der Berechnung der ROC-Werte gezählt.

Wir haben zwei explizite Ausnahmen zu diesem Schema für die Klassifizierung von Treffern gemacht. Die erste Ausnahme besteht darin, ein bestimmtes Pseudogen (Entrez-Gen-ID 850644) zu unserer Liste der codierenden Regionen hinzuzufügen und das Pseudogen für eine unserer Abfragen zu einem echten Positiv zu machen, wodurch die maximal mögliche Anzahl wahrer positiver Werte auf 988 erhöht wird., Jede der getesteten Varianten fand eine Ausrichtung auf dieses Pseudogen mit einem E-Wert kleiner als 10-12. Das Pseudogen wird exprimiert und produziert unter bestimmten Bedingungen ein funktionelles Protein . Obwohl diese Region als Pseudogen bezeichnet wird, glauben wir nicht, dass ein Ausrichtungsalgorithmus erwartet werden sollte, um sie von einem echten Gen zu unterscheiden. Die zweite Ausnahme besteht darin, eine bestimmte Ausrichtung, die einen echten positiven Codierungsbereich und einen falsch positiven Codierungsbereich überlappt, als eine echte positive Übereinstimmung zu kategorisieren. Diese Überlappung wird von allen drei Varianten von TBLASTN gemeldet.

Avenir

Condominium

Kompositionsbasierte Statistiken und übersetzte Nukleotidsuchen: Verbesserung des TBLASTN-Moduls der BLAST