Composition-based statistics and translated nucleotide searches: Improving the tblastn module of BLAST / BMC Biology

In deze sectie schetsen we het algoritme dat wordt gebruikt om de samenstelling van databasesequenties te berekenen en om composition-based statistics toe te passen in TBLASTN. Vervolgens beschrijven we de tests die in dit artikel worden gerapporteerd: de gebruikte uitvoerbare bestanden, de testsets en details over de methoden.,

compositorische aanpassing in TBLASTN

De BLAST heuristiek gebruikt een algemeen scoresysteem, zoals de PAM of BLOSUM serie van matrices, om databasesequenties te ontdekken die waarschijnlijk uitgelijnd zijn met de query en waarschijnlijke beginpunten voor uitlijningen. In BLAST, een uitlijning is bekend als een high-scoring pair, of HSP. Een lijst met HSP ‘ s voor elk significant query-onderwerp paar wordt gemaakt met behulp van een multi-stage algoritme., In elke fase kunnen HSP ‘ s uit de huidige lijst worden gehaald om een aantal redenen, waaronder een onvoldoende hoge score, opgenomen zijn in een HSP met een hogere score of een eindpunt delen met een HSP met een hogere score. Dientengevolge, terwijl elke opeenvolgende fase van het BLASTALGORITME aanzienlijk meer berekening voor elke HSP vereist, moeten minder HSP ‘ s worden overwogen.

compositorische aanpassing, ongeacht of deze door TBLASTN of andere werkingsmodi wordt gebruikt, wordt alleen toegepast in de laatste fase van een EXPLOSIEONDERZOEK., Op deze manier passen modi die compositorische aanpassing gebruiken de snelle heuristiek van BLAST toe om gebieden te lokaliseren die waarschijnlijk bevatten, en startpunten die waarschijnlijk leiden tot, high-scoring alignments. Ze passen alleen samenstellingsaanpassing toe voor het meest gevoelige en meest berekenend dure alignmentalgoritme, de berekening van een gapped alignment dat informatie bevat die de locaties van hiaten specificeert, informatie die bekend staat als de “traceback”., De lijst van HSP ’s die door deze laatste gapped alignment worden geproduceerd, na te zijn gefilterd op onvoldoende significante of redundante HSP’ s, is de lijst die aan de gebruiker wordt gepresenteerd.,idually op elk query-onderwerp paar, zijn als volgt: (1) het berekenen van windows van belang met behulp van de lijst van hsp ‘ s van voorstadia van de BLAST-algoritme; (2) het verkrijgen vertaald onderwerp gegevens voor de ramen en een filter te verwijderen oninteressant subsequences (deelrijen); (3) het berekenen van de samenstelling van het onderwerp regio voor elke HSP worden herbekeken; (4) het berekenen van een scoring matrix voor elke HSP worden herbekeken, gebaseerd op de compositie van het onderwerp streek van die HSP en op de samenstelling van de zoekopdracht. (5) het uitvoeren van een gapped afstemming met traceback om het samenstellen van de lijst van de hsp ‘ s, met de nieuwe puntentelling matrices., In de praktijk zijn deze stappen op hoog niveau interleaved om geheugenvereisten te verminderen.

Computervensters van belang

voor elke overeenkomst tussen de query en een onderwerpsreeks krijgt het algoritme voor compositorische aanpassing een aparte lijst van HSP ‘ s. Elke HSP specificeert, samen met andere informatie, een bereik in de onderwerpsreeks dat is uitgelijnd met de query. Deze bereiken worden als volgt gebruikt om een lijst met vensters te berekenen. Eerst wordt een voorlopige lijst met vensters voor de onderwerpsreeks gemaakt., Deze lijst bevat één venster voor elke HSP, het venster dat het onderwerpbereik van de HSP omringt, inclusief 600 bases links en rechts van het onderwerpbereik als zoveel sequentiegegevens beschikbaar zijn. Vervolgens wordt een definitieve lijst van vensters gemaakt door vensters in hetzelfde vertaalkader toe te voegen als zij aanraken of overlappen. Voor elk venster wordt een lijst met HSP ‘ s bijgehouden die overeenkomen met het venster.

verkrijgen en filteren van subject data

de nucleotide subject data binnen een venster wordt verkregen en vertaald met behulp van het translation frame van dat venster., Het seg-algoritme met venstergrootte 10, low-cutoff 1.8 en high cutoff 2.1 wordt gebruikt om gebieden met een lage complexiteit in het onderwerpvenster te maskeren. De parameters werden als resultaat van het onderzoek gekozen. Een laag-complex gebied wordt meestal gedomineerd door een paar verschillende residuen vaak, maar niet altijd, in een repetitief patroon. Typische voorbeelden zijn polyglycine of polyproline monomeren. Alignment scores die de scores van laag-complexiteit regio ‘ s omvatten hebben de neiging om de Betekenis van de alignments te overschatten en leiden tot veel vals-positieve wedstrijden.,

het effect van de toepassing van het seg-algoritme op een aminozuurvolgorde is om elk residu in een laag-complex gebied te vervangen door het X-teken: een teken dat een kleine negatieve score krijgt wanneer het uitgelijnd is met elk teken, inclusief zichzelf. De gegevens van het onderwerp worden gefilterd voordat compositorisch aangepaste scorematrices worden berekend, en voorvallen van het X-teken worden genegeerd bij het berekenen van de samenstelling van een reeks. In tegenstelling tot de compositie-aanpassingscode, filteren de voorbereidende stadia van de BLAST search de gegevens van het onderwerp niet.,

SEG filtering kan ook worden toegepast op de query sequence. SEG filtering van de query is een command-line optie voor zowel BLASTP en TBLASTN. De programma ‘ s verschillen in dat SEG filtering van de query is standaard uitgeschakeld in BLASTP maar standaard in TBLASTN. We hebben de query niet gefilterd in de resultaten die in dit document worden gerapporteerd. De SEG-parameters die worden gebruikt om de onderwerpsequentie te filteren, passen een hogere drempel toe om een regio laag-complex te verklaren dan de standaardparameters die worden gebruikt om de query te filteren., De reden dat de query-sequentie strenger wordt gefilterd is dat de query-sequentie wordt gebruikt in elke fase van het BLAST-algoritme. SEG filtering van het onderwerp vindt alleen plaats in de laatste stadia van een BLAST search, en onder-filtering van de gegevens binnen een onderwerp venster zal slechts een enkele vergelijking.

door berekening van de samenstelling van het subject

voor TBLASTN worden de sequentiegegevens en het subject bereik van de HSP ‘ s binnen een venster gebruikt om een bereik te bepalen dat waarschijnlijk correct vertaalde aminozuurgegevens bevat., Het venster wordt strikt links van het onderwerpbereik van de HSP doorzocht om het meest rechtse voorkomen van een stopcodon te vinden. Als er een wordt gevonden, is de locatie 20 tekens rechts van het stopcodon de linkergrens van het compositiebereik, met de beperking dat het gehele onderwerpbereik van de HSP wordt opgenomen. Als er geen stopcodon wordt gevonden, is het linkereindpunt het linkereindpunt van het venster. De symmetrische regel wordt rechts toegepast.,

de bedoeling is niet noodzakelijk om het stopcodon te lokaliseren dat het eiwit beëindigt, maar eerder om de aanwezigheid van een stopcodon te gebruiken om aan te geven dat het hypothetisch vertaalde codon in een niet-codeergebied ligt. Inderdaad, kan het noncoding gebied een intron eerder dan het ware eind van de aminozuuropeenvolging zijn. Omdat we niet proberen een terminating stop codon te vinden, stellen we een symmetrische regel voor om het sequentiebereik te bepalen dat gebruikt moet worden voor compositieaanpassing, ook al is de biologische vertaling asymmetrisch.,

in een willekeurige DNA-sequentie met 50% GC-gehalte, zou men verwachten om een stopcodon te vinden in een hypothetisch vertaalde aminozuursequentie gemiddeld eens in de 21 karakters. Daarom stellen we een 20 karakter marge tussen het stop codon en het bereik te gebruiken voor de samenstelling aanpassing, met de beperking dat het hele onderwerpbereik van de HSP worden opgenomen.

gegeven een bepaald gebied houdt TBLASTN bij het berekenen van de samenstelling alleen rekening met de 20 standaard aminozuren; het X-teken, het stop-teken en alle andere niet-standaard karakters worden volledig genegeerd., Wanneer de lengte van de reeks wordt gebruikt in de algoritmen voor de aanpassing van de samenstelling, telt de gebruikte waarde niet het voorkomen van genegeerde tekens.

berekenen van compositorisch aangepaste scorematrices

Schäffer et al. en Yu et al. laat zien hoe je substitutiescores aanpast voor de 20 standaard aminozuren. Voor de standaard aminozuren passen we die technieken toe. In deze artikelen wordt echter niet ingegaan op de behandeling van zelden voorkomende aminozuren, tweeletter ambiguïteit, het X-Karakter of het stop-karakter., We bespreken de behandeling van de x en stop karakters in deze sectie, omdat ze vaak voorkomen in tblastn zoekopdrachten. We bespreken de behandeling van de andere personages in aanvullend bestand 3.

het stopteken komt vaak voor in vertaalde sequenties en soms binnen significante uitlijningen. Een voorkomen van het stopkarakter geeft gewoonlijk aan dat men een noncodinggebied of een codeergebied in het verkeerde kader vertaalt. Natuurlijk, een stop karakter kan ook gewoon markeer het einde van de vertaling., Echter, stoppen tekens optreden in belangrijke optimalisaties om verschillende redenen: het onderwerp volgorde bevatten een pseudogene; het onderwerp volgorde kan worden mitochondriaal DNA, waarin bepaalde codons die stop codons in de nucleaire DNA-zijn vertaald naar het ware aminozuren ; het onderwerp sequentie bevat mogelijk een stop-codon dat wordt omgezet in vivo een selenocysteine of pyrrolysine residu; het onderwerp reeks mag vertegenwoordigen een gen, zoals de hdc-gen in D. melanogaster, dat codeert voor een eiwit product door mRNA readthrough; of er kan een sequencing fout in het onderwerp volgorde.,

de juiste score van het stopkarakter is essentieel voor TBLASTN. Elk teken dat is uitgelijnd op een stop-teken moet een negatieve score krijgen, maar niet een negatieve score van zo ‘ n grote omvang dat geldige uitlijningen die een stop-codon bevatten, niet worden toegestaan. BLAST wijst gelijkmatig letters uitgelijnd aan een stop codon een integrale score die, gezien de schaal die wordt gebruikt, is zo dicht mogelijk bij -2 bits.

zoals zojuist besproken, kunnen biologisch betekenisvolle en statistisch significante tblastn-uitlijningen soms vertaalde stopcodons bevatten., Echter, de aanwezigheid van vele stop codons in noncoding regio ’s en out-of-frame codering regio’ s maakt het zeer onwaarschijnlijk dat deze regio ‘ s high-scoring alignments door toeval zal opleveren. Voor berekeningen van de E-waarde gaat TBLASTN er dan ook van uit dat de lengte van een databasesequentie de lengte is van het eiwit dat wordt verkregen door vertaling in één leesframe, ook al wordt vertaling in alle zes leesframes uitgevoerd., Dat veel DNA-sequenties van databases noncoderen over een groot deel van hun lengte kan een verklaring zijn voor de over het algemeen conservatieve statistieken van s-TBLASTN en C-TBLASTN die in Figuur 1 worden getoond.

vanwege de toepassing van het seg-algoritme is het X ambiguïteit-teken gebruikelijk en kan de behandeling van X-tekens de prestaties van het algoritme aanzienlijk beïnvloeden. We scoren uitlijningen met X als volgt. Wanneer ofwel compositorische matrixschaling ofwel compositorische matrixaanpassing wordt gebruikt, worden substitutiescores berekend voor alle standaard aminozuren.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., Met andere woorden, de score van het matchen van een standaard aminozuur met X is de verwachte waarde over alle overeenkomsten van dat aminozuur met een standaard aminozuur, mits deze waarde lager is dan -1., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., Een formule analoog aan vergelijking (1) wordt gebruikt om de score van het uitlijnen van een X-teken in de query aan een standaard aminozuur in het onderwerp te berekenen. De score voor het uitlijnen van X naar zichzelf is de kleinste van de verwachte score van het uitlijnen van twee standaard aminozuren en -1, afgerond op het dichtstbijzijnde gehele getal.

het uitvoeren van een gapped alignment met traceback

Routines die op compositie gebaseerde statistieken toepassen, herberekenen niet alleen uitlijningen, maar herberekenen ze eerder. Alignments worden berekend met behulp van een van de twee technieken., Standaard wordt het X-drop-algoritme toegepast op een reeks startpunten die zijn gespecificeerd in de lijsten met HSP ‘ s die zijn verstrekt uit eerdere stadia van het BLAST-algoritme. Als gevolg van wijzigingen die in de loop van dit project zijn aangebracht, kan men afwisselend specificeren dat het rigoureuze Smith-Waterman algoritme binnen elk venster wordt toegepast. Als het X-drop-algoritme wordt toegepast, wordt de samenstelling afzonderlijk berekend voor elke HSP die opnieuw is uitgelijnd. Als het Smith-Waterman-algoritme wordt gebruikt, wordt de samenstelling van een venster beschouwd als de samenstelling van de hoogst scorende HSP., Het samenvoegen van de samenstelling van de onderwerpgebieden van verschillende HSP ’s binnen een venster is problematisch omdat de HSP’ s niet noodzakelijkerwijs tot dezelfde uitlijning behoren, of zelfs tot dezelfde gekoppelde set van uitlijningen. De standaard in TBLASTN is om het X-drop algoritme te gebruiken, en we gebruiken het X-drop algoritme in de tests die in dit artikel worden gepresenteerd.

de volgende pseudocode laat zien hoe uitlijningen die overeenkomen met een enkele query-onderwerp overeenkomst worden berekend wanneer het X-drop algoritme wordt gebruikt.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

algoritme 1

opnieuw uitlijnen in een venster.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., Een HSP wordt geacht te zijn opgenomen in een tweede HSP als de query-en onderwerpgrenzen ervan zijn opgenomen in de query-en onderwerpgrenzen van de tweede HSP en als de tweede HSP een gelijke of hogere score heeft.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., Op deze manier zorgt het herhaaldelijk aanroepen van de routine WITH_DISTINCT_ENDS ervoor dat de uiteindelijke lijst van uitlijningen geen uitlijning bevat die een eindpunt deelt met een uitlijning met een hogere score. Wanneer twee uitlijningen hetzelfde eindpunt delen, is de hoogste uitlijning de voorkeur; de lagere uitlijning is een suboptimaal artefact van de BLAST heuristiek.

Het x-drop algoritme vereist een beginpunt (p q , p s) dat een uitlijning tussen offset p q in de query en p s in het onderwerp forceert. Het berekent een uitlijning in beide richtingen vanaf dit punt., Een startpunt wordt gedefinieerd voor elke HSP die opnieuw wordt uitgelijnd. Indien mogelijk wordt het beginpunt dat oorspronkelijk werd gebruikt om de HSP te berekenen opnieuw gebruikt. Door de effecten van SEG filtering en de nieuw berekende scoringmatrix is het vorige uitgangspunt echter niet langer wenselijk; het kan liggen in een gebied met een niet-positieve score. We bespreken de regel die wordt gebruikt om het bestaande startpunt te valideren, en indien nodig een nieuwe te kiezen, in aanvullend bestand 3: tblastn_suppl.pdf.,

tot slot merken we op dat algoritme 1 ook correcte pseudocode is voor BLASTP, dat eiwitquery, eiwitdatabase zoekopdrachten uitvoert. Het verschil is dat Voor BLASTP er slechts één venster is voor elke onderwerpsequentie: het venster dat de hele reeks bevat. Bovendien wordt voor BLASTP de samenstelling van de gehele onderwerpsequentie altijd gebruikt bij het uitvoeren van compositorische aanpassing. Daarom is de compositorisch aangepaste matrix noodzakelijkerwijs hetzelfde voor elke HSP in een venster en hoeft slechts eenmaal te worden berekend., In de praktijk wordt dezelfde code gebruikt voor zowel Tblastn als BLASTP om algoritme 1 te implementeren, maar voor BLASTP wordt een voorwaardelijke code gebruikt om ervoor te zorgen dat de matrix slechts één keer wordt berekend voor elk venster.

testsets en gebruikte programma ‘ s

hieronder beschrijven we de specifieke uitvoerbare bestanden, datasets en methoden die worden gebruikt om de resultaten te genereren die in dit artikel worden gepresenteerd. De hier gerapporteerde varianten van TBLASTN zijn geschreven in C, en, zoals hieronder vermeld, zijn sommige varianten beschikbaar als onderdeel van de NCBI C en c++ software distributies; de betrokken computationele modules worden gespiegeld tussen de twee distributies., Talrijke hulpprogramma ‘ s die worden gebruikt om testen te automatiseren en de resultaten samen te vatten, zijn geschreven in C, Perl, Python en Bourne shell script.

uitvoerbare bestanden gebruikt

TBLASTN is een werkwijze voor het blastall uitvoerbare bestand. Dit uitvoerbare bestand is beschikbaar om van te downloaden. De C-TBLASTN en S-TBLASTN varianten zijn beschikbaar als een set van opties voor het blastall uitvoerbare. S-TBLASTN wordt aangeroepen met de opdrachtregelopties “- p tblastn-F F-C 1″. C-TBLASTN wordt aangeroepen met soortgelijke opties, maar met ” – C 1 “vervangen door”- c 2″. B-TBLASTN is momenteel niet beschikbaar als een set commandoregelopties., TBLASTN kan worden uitgevoerd zonder compositie-gebaseerde statistieken, door het weglaten van de optie”- C”, maar de standaardversie draait met een lagere precisie dan B-TBLASTN. Uitvoerbare bestanden die B-TBLASTN draaien en de specifieke versies van S-TBLASTN en C-TBLASTN die in dit document worden gebruikt, zijn beschikbaar om te downloaden op.

het blastall-uitvoerbare programma gebruikt standaard BLOSUM62 om aminozuursequenties uit te lijnen, en dit is de matrix die in alle stadia wordt gebruikt voordat de samenstelling wordt aangepast. De” – F F ” optie schakelt SEG filtering van de query sequentie., SEG filtering van het onderwerp sequentie is standaard ingeschakeld in een van de samenstelling aanpassing modi. We beschouwen het filteren van beide sequenties als onnodig; toen we probeerden beide sequenties te filteren, zagen we geen verbetering in statistische nauwkeurigheid, maar wel een daling in de ROC-scores (gegevens niet getoond).

Tests met behulp van willekeurig permuteerde queries

om te meten hoe effectief op samenstelling gebaseerde statistieken zijn bij het elimineren van valse overeenkomsten met een lage E-waarde, hebben we een reeks tests uitgevoerd met behulp van willekeurig permuteerde aminozuursequenties uit het genoom van de muis (Mus musculus)., Duizend eiwitopeenvolgingen werden willekeurig geselecteerd uit de lijst van RefSeq muizenproteã nen stroom op 10 januari, 2006. De opeenvolgingen werden gepermuteerd gebruikend hun genbankidentificatienummer als zaad aan een random number generator. De gepermuteerde sequenties worden geleverd als extra bestand 1.

we hebben de permuted sequenties afgestemd op een database van chromosomale sequenties uit de referentieassemblage van build 35 van het menselijk (Homo sapiens) genoom, uitgebracht op 26 augustus 2004. Het gegevensbestand omvat chromosomen X en Y en de onbehandelde opeenvolgingsfragmenten die in de bouw worden opgenomen., We hebben het mitochondriale genoom uit de database weggelaten, omdat deze sequenties bekend zijn (zie) met een andere genetische code dan nucleair DNA.

ROC-score tests op het gistgenoom

om de effectiviteit van verschillende wijzen van samenstelling aanpassing voor TBLASTN te testen, hebben we een aantal tests uitgevoerd met behulp van het gist nucleaire genoom. We hebben het gist genoom gedownload van, een site met referentie genomen samengesteld door NCBI personeel. De versie van het genoom dat we gebruikten werd gemaakt op 16 mei 2005.,

we hebben een set van 102 eiwitdomeinen afgestemd op het gist nucleotide genoom met behulp van TBLASTN. Deze testset werd voor het eerst ontwikkeld voor de studie in . Een bijgewerkte versie werd gebruikt in, waarin een menselijke gecureerde lijst van ware positieve wedstrijden aan gist proteome werd gebruikt om ROC scores te produceren. Voor de hier beschreven tests hebben we de echte positieve lijst bijgewerkt om veranderingen in het gepubliceerde gistgenoom weer te geven. De bijgewerkte lijst bevat 987 query-onderwerp overeenkomsten met 894 verschillende onderwerp sequenties. De versie van de testset die in dit document wordt gebruikt, wordt geleverd als extra bestand 2.,

in het gistgenoom wordt elk bekend gisteiwit geannoteerd met de locatie en streng van het coderingsgebied. Met deze annotaties kunnen we de testset voor gebruik met TBLASTN als volgt aanpassen. Voor TBLASTN worden uitlijningen onderverdeeld in drie categorieën: (1) uitlijningen die overeenkomen met een query met het coderingsgebied van een bekende echte positieve Overeenkomst; (2) uitlijningen die overeenkomen met een query met een bekende coderingsgebied dat geen echte positieve overeenkomst is; en (3) uitlijningen die niet overeenkomen met een bekende coderingsgebied., Er wordt gezegd dat een uitlijning overeenkomt met een query naar een coderingsgebied als het onderwerp gedeelte van de uitlijning overlapt het coderingsgebied en is op dezelfde streng.

het is niet ongewoon dat er meer dan één uitlijning is tussen een query en een coderingsgebied. Dit wordt inderdaad verwacht; eiwit-eiwit zoekopdrachten melden ook meerdere uitlijningen tussen paren eiwitten. Wanneer er meer dan één uitlijning naar een coderingsgebied is, wordt alleen de laagste uitlijning van de e-waarde tussen een bepaalde query en het coderingsgebied gebruikt bij het berekenen van ROC-scores., Er wordt geen poging gedaan om een soortgelijke regel toe te passen op niet-coderende regio ‘ s. Alle uitlijningen die een coderingsgebied niet overlappen, worden gecategoriseerd als vals-positieve overeenkomsten en geteld bij het berekenen van ROC-scores.

we maakten twee expliciete uitzonderingen op dit schema voor het classificeren van hits. De eerste uitzondering is om een bepaald pseudogeen (Entrez Gen ID 850644) toe te voegen aan onze lijst van codeergebieden en om het pseudogeen een echt positief voor een van onze vragen te maken, waardoor het maximaal mogelijke aantal echte positieven tot 988 wordt verhoogd., Elk van de geteste varianten vond een uitlijning met dit pseudogeen met een E-waarde kleiner dan 10-12. Het pseudogeen komt tot expressie en produceert onder bepaalde omstandigheden een functioneel eiwit . Hoewel dit gebied is gelabeld als een pseudogeen, geloven we niet dat een uitlijningsalgoritme moet worden verwacht om het te onderscheiden van een echt gen. De tweede uitzondering is het categoriseren van een bepaalde uitlijning die een waar positief coderingsgebied en een vals positief coderingsgebied overlapt als een waar positief match. Deze overlapping wordt gemeld door alle drie varianten van TBLASTN.

Avenir

Condominium

Composition-based statistics and translated nucleotide searches: Improving the tblastn module of BLAST