Sammansättning baserad statistik och översatta nukleotid sökningar: förbättra tblastn modulen BLAST / BMC biologi

i det här avsnittet beskriver vi den algoritm som används för att beräkna sammansättningen av databassekvenser och att tillämpa sammansättning baserad statistik i TBLASTN. Sedan beskriver vi vidare de tester som rapporteras i detta dokument: de körbara som används, testen sätter och detaljer om metoderna.,

Kompositionsjustering i TBLASTN

SPRÄNGHEURISTIKEN använder ett allmänt poängsystem, till exempel PAM-eller BLOSUM-serien av matriser, för att upptäcka databassekvenser som sannolikt kommer att anpassa sig till frågan och sannolikt utgångspunkter för anpassningar. I BLAST, en justering är känd som en hög poäng par, eller HSP. En lista över HSPs för varje signifikant frågeämne par skapas med hjälp av en flerstegsalgoritm., I varje steg kan HSP: erna avvisas från den aktuella listan av ett antal skäl, inklusive att de inte har tillräckligt höga poäng, som ingår i en HSP med högre poäng eller att de delar en slutpunkt med en HSP med högre poäng. Som ett resultat, medan varje successiv fas av BLASTSALGORITMEN kräver betydligt mer beräkning för varje HSP, behöver färre HSP beaktas.

Kompositionsjustering, oavsett om den används av TBLASTN eller andra driftsätt, tillämpas endast i slutskedet av en BLASTSÖKNING., På detta sätt använder lägen som använder kompositionsjustering den snabba heuristiken av BLAST för att lokalisera regioner som sannolikt kommer att innehålla, och utgångspunkter som sannolikt kommer att leda till höga poäng anpassningar. De tillämpar kompositionsjustering endast före den mest känsliga och mest beräknings dyra inriktningsalgoritmen, beräkningen av en gapped-justering som innehåller information som anger platsen för luckor, information som kallas ”traceback”., Listan över Hisp-system som produceras genom denna slutliga gapped-justering, efter att ha filtrerats för otillräckligt signifikanta eller överflödiga Hisp-system, är den lista som presenteras för användaren.,(1) Beräkna fönster av intresse med hjälp av listan över HSP från preliminära stadier av BLAST-algoritmen; (2) få översatta ämnesdata för windows och filtrera det för att ta bort ointressanta efterföljanden; (3) Beräkna sammansättningen av ämnesområdet för varje HSP som ska omformas; (4) Beräkna en poängmatris för varje HSP som ska omformas, baserat på sammansättningen av ämnesområdet för den HSP och på sammansättningen av frågan; (5) utföra en gapped justering med traceback till komponera om listan över HSPs, med hjälp av de nya poängmatriserna., I praktiken är dessa steg på hög nivå interfolierade för att minska minneskraven.

Computing windows of interest

för varje match mellan frågan och en ämnessekvens ges kompositionsjusteringsalgoritmen en separat lista över HSPs. Varje HSP anger, tillsammans med annan information, ett intervall i ämnessekvensen som har anpassats till frågan. Dessa intervall används enligt följande för att beräkna en lista över windows. Först skapas en preliminär lista över fönster för ämnessekvensen., Denna lista innehåller ett fönster för varje HSP, fönstret som omger ämnesområdet för HSP, inklusive 600 baser till vänster och höger om ämnesområdet om så mycket sekvensdata är tillgänglig. Sedan skapas en slutlig lista över windows genom att gå med i windows i samma översättningsram om de rör eller överlappar varandra. För varje fönster upprätthålls en lista över HSPs som motsvarar fönstret.

hämta och filtrera ämnesdata

nucleotide-ämnesdata i ett fönster erhålls och översätts med hjälp av fönstrets översättningsram., Seg-algoritmen med fönsterstorlek 10, låg cutoff 1.8 och hög cutoff 2.1 används för att maskera lågkomplexitetsregioner i ämnesfönstret. Parametrarna valdes som ett resultat av studien. En region med låg komplexitet domineras vanligtvis av några få distinkta rester ofta, men inte alltid, i ett repetitivt mönster. Typiska exempel är polyglycin eller polyprolinmonomerer. Inriktningsresultat som inkluderar poängen för lågkomplexitetsregioner tenderar att överdriva betydelsen av anpassningarna och leda till många falska positiva matcher.,

effekten av att tillämpa seg-algoritmen på en aminosyrasekvens är att ersätta varje rest i en lågkomplexitetsregion med X-tecknet: ett tecken som tilldelas en liten negativ poäng när det är anpassat till något tecken, inklusive sig själv. Ämnesdata filtreras innan kompositionellt justerade poängmatriser beräknas, och förekomster av X-tecknet ignoreras vid beräkning av sammansättningen av en sekvens. Till skillnad från kompositionsjusteringskoden filtrerar inte de preliminära stadierna av BLASTSÖKNINGEN de registrerade uppgifterna.,

seg-filtrering kan också tillämpas på frågesekvensen. SEG-filtrering av frågan är ett kommandoradsalternativ för både BLASTP och tblastn. Programmen skiljer sig åt i så SEG filtrering av frågan är avstängd som standard i BLASTP men som standard i TBLASTN. Vi filtrerade inte frågan i några resultat som rapporterats i det här dokumentet. De SEG-parametrar som används för att filtrera ämnessekvensen tillämpar en högre tröskel för att förklara att en region är lågkomplexitet än de standardparametrar som används för att filtrera frågan., Anledningen till att frågesekvensen är mer strängt filtrerad är att frågesekvensen används vid varje steg i SPRÄNGALGORITMEN. Seg-filtrering av ämnet sker endast i slutskedet av en BLAST-sökning, och underfiltrering av data inom ett ämnesfönster kommer endast att påverka en enda jämförelse.

beräkna ämnets sammansättning

för TBLASTN används sekvensdata och ämnesintervallen för HSPs i ett fönster för att bestämma ett intervall som sannolikt innehåller korrekt översatt aminosyradata., Fönstret söks strikt till vänster om ämnesområdet för HSP för att hitta den högra förekomsten av en stoppkodon. Om man hittas är platsen 20 tecken till höger om stoppkodon den vänstra gränsen för kompositionsområdet, med begränsningen att hela ämnesområdet för HSP inkluderas. Om ingen stoppkodon hittas, är den vänstra slutpunkten den vänstra slutpunkten i fönstret. Den symmetriska regeln tillämpas till höger.,

avsikten är inte nödvändigtvis att lokalisera stoppkodonet som avslutar proteinet, utan snarare att använda närvaron av en stoppkodon för att indikera att den hypotetiskt översatta kodon ligger i en icke-kodande region. Faktum är att den icke-kodande regionen kan vara en intron snarare än den sanna änden av aminosyrasekvensen. Eftersom vi inte försöker hitta en avslutande stoppkodon, föreslår vi en symmetrisk regel för att bestämma sekvensintervallet som ska användas för kompositionsjustering även om biologisk översättning är asymmetrisk.,

i en slumpmässig DNA-sekvens med 50% GC-innehåll skulle man förvänta sig att hitta en stoppkodon i en hypotetiskt översatt aminosyrasekvens i genomsnitt en gång var 21: e tecken. Därför inrättar vi en 20 teckenmarginal mellan stoppkodon och det intervall som ska användas för kompositionsjustering, med begränsningen att hela ämnesområdet för HSP inkluderas.

Med tanke på en viss region betraktar TBLASTN endast de 20 standard aminosyrorna vid beräkning av komposition; X-tecknet, stop-tecknet och alla andra icke-standardtecken ignoreras helt., När sekvensens längd används i kompositionsjusteringsalgoritmerna räknas inte värdet som används förekomster av ignorerade tecken.

Computing compositionally-adjusted scoring matriser

Schäffer et al. och Yu et al. visa hur du justerar substitutionspoäng för de 20 standard aminosyrorna. För de vanliga aminosyrorna tillämpar vi dessa tekniker. Dessa papper diskuterar emellertid inte behandlingen av sällan förekommande aminosyror, två bokstäver tvetydighet tecken, X-tecknet eller stoppkaraktären., Vi diskuterar behandlingen av X och stoppa tecken i det här avsnittet, eftersom de förekommer vanligen i tblastn sökningar. Vi diskuterar behandlingen av de andra tecknen i ytterligare fil 3.

stopp-tecknet förekommer ofta i översatta sekvenser och ibland inom signifikanta anpassningar. En förekomst av stopp-tecknet indikerar vanligtvis att man översätter en icke-kodningsregion eller en kodningsregion i fel ram. Naturligtvis kan ett stopptecken också helt enkelt markera slutet på översättningen., Men stopptecken förekommer inom signifikanta anpassningar av flera skäl: ämnessekvensen kan innehålla en pseudogen; ämnessekvensen kan vara mitokondriellt DNA, där vissa kodon som är stoppkodon i nukleärt DNA översätts till Sanna aminosyror ; ämnessekvensen kan innehålla en stoppkodon som omvandlas in vivo till en selenocystein eller pyrrolysinrester; ämnessekvensen kan representera en gen, såsom hdc-genen i D. melanogaster, som kodar för en proteinprodukt genom mRNA readthrough; eller det kan finnas ett sekvensfel i ämnessekvensen. – herr talman!,

lämplig poängsättning av stopp-tecknet är avgörande för TBLASTN. Alla tecken som är anpassade till ett stopptecken ska ges ett negativt resultat, men inte ett negativt resultat av så stor storlek att giltiga anpassningar som innehåller en stoppkodon inte tillåts. BLAST likformigt tilldelar bokstäver i linje med ett stopp kodon en integrerad poäng som, med tanke på skalan som används, är så nära som möjligt till -2 bitar.

som just diskuterats kan biologiskt meningsfulla och statistiskt signifikanta tblastn-anpassningar ibland innehålla översatta stoppkodon., Förekomsten av många stoppkodon i icke-kodande regioner och kodningsregioner utanför ramen gör det dock mycket osannolikt att dessa regioner kommer att ge hög poäng anpassningar av en slump. För e-värdeberäkningar antar TBLASTN längden på en databassekvens för att vara längden på proteinet som genereras genom översättning i en enda läsram, även om översättning faktiskt utförs i alla sex läsramar., Att många databasen DNA-sekvenser är noncoding över mycket av deras längder kan vara en förklaring till den allmänt konservativ statistik från S-TBLASTN och C-TBLASTN visas i Figur 1.

På grund av tillämpningen av seg-algoritmen är X-tvetydigheten vanligt, och behandlingen av X-tecken kan väsentligt påverka algoritmens prestanda. Vi gör anpassningar med X enligt följande. När antingen kompositionsmatrisskalning eller kompositionsmatrisjustering används, beräknas substitutionspoäng för alla vanliga aminosyror.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., Med andra ord är poängen att matcha en standard aminosyra med X det förväntade värdet över alla matcher av den aminosyran med en standard aminosyra, förutsatt att detta värde är mindre än -1., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., En formel som är analog med ekvation (1) används för att beräkna poängen att anpassa ett X-tecken i frågan till en standard aminosyra i ämnet. Poängen för att anpassa X till sig själv är den mindre av den förväntade poängen att anpassa två standard aminosyror och -1, avrundade till närmaste heltal.

utföra en gapped justering med traceback

rutiner som tillämpar sammansättning baserad statistik inte bara rescore anpassningar, utan snarare omberäkna dem. Anpassningar beräknas med hjälp av en av två tekniker., Som standard tillämpas X-drop-algoritmen på en uppsättning startpunkter som anges i listorna över HSPs från tidigare stadier av BLASTSALGORITMEN. Som ett resultat av ändringar som gjorts under projektets gång kan man växelvis ange att den rigorösa Smith-Waterman-algoritmen ska tillämpas inom varje fönster. Om X-drop-algoritmen tillämpas beräknas kompositionen individuellt för varje HSP som omformas. Om Smith-Waterman-algoritmen används, tas sammansättningen av ett fönster för att vara sammansättningen av dess högsta poäng HSP., Det är problematiskt att slå samman sammansättningen av ämnesområdena i flera Högspänningsledningssystem i ett fönster eftersom högspänningsledningarna inte nödvändigtvis hör till samma inriktning, eller till och med till samma länkade uppsättning anpassningar. Standard i TBLASTN är att använda X-drop-algoritmen, och vi använder X-drop-algoritmen i de tester som presenteras i det här dokumentet.

följande pseudokod visar hur anpassningar som motsvarar en enskild sökning-ämne match omräknas när x-drop-algoritmen används.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

algoritm 1

Gör om anpassningar i ett fönster.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., En HSP anses finnas i en andra HSP om dess fråga och ämnesgränser finns i frågan och ämnesgränser för den andra HSP och om den andra HSP har lika eller högre poäng.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., På detta sätt, upprepade gånger ringa rutinen WITH_DISTINCT_ENDS säkerställer att den slutliga listan över anpassningar inte innehåller en anpassning som delar en slutpunkt med en högre poängjustering. När två anpassningar delar samma slutpunkt är den högre poängsättningen den föredragna inriktningen; den lägre poängjusteringen är en suboptimal artefakt av BLASTHEURISTIKEN.

x-drop-algoritmen kräver en startpunkt (p q , p s ) som kommer att tvinga en justering mellan offset p q i frågan och p S i ämnet. Den beräknar en justering i båda riktningarna från och med denna punkt., En utgångspunkt definieras för varje HSP som omformas. Om möjligt återanvänds utgångspunkten som ursprungligen användes för att beräkna HSP. På grund av effekterna av SEG-filtrering och den nyligen beräknade poängmatrisen kan dock den tidigare utgångspunkten inte längre vara önskvärd; den kan ligga i en region med icke-positiv poäng. Vi diskuterar regeln som används för att validera den befintliga utgångspunkten, och vid behov välja en ny, i ytterligare fil 3: tblastn_suppl.pdf.,

slutligen noterar vi att algoritm 1 också är korrekt pseudokod för BLASTP, som utför protein-query, protein-databas sökningar. Skillnaden är att för BLASTP finns det bara ett fönster för varje ämnessekvens: fönstret som innehåller hela sekvensen. Dessutom används för BLASTP sammansättningen av hela ämnessekvensen alltid när man utför kompositionsjustering. Därför är den kompositionellt justerade matrisen nödvändigtvis densamma för varje HSP i ett fönster och behöver endast beräknas en gång., I praktiken används samma kod för både Tblastn och BLASTP för att implementera algoritm 1, men för BLASTP används ett villkorligt för att säkerställa att matrisen endast beräknas en gång för varje fönster.

testuppsättningar och program som används

vi beskriver nedan de specifika körbara, datamängder och metoder som används för att generera de resultat som presenteras i detta dokument. Varianterna av tblastn rapporterade här skrevs i C, och som noterat nedan finns vissa varianter tillgängliga som en del av NCBI C-och C++ – programvarufördelningarna; de aktuella beräkningsmodulerna speglas mellan de två distributionerna., Många hjälpprogram som används för att automatisera testning och sammanfatta resultat skrevs i C, Perl, Python och Bourne shell script.

körbara filer som används

TBLASTN är ett arbetssätt för blastall körbara. Denna körbara är tillgänglig för nedladdning från. C-TBLASTN och s-TBLASTN varianter finns som en uppsättning alternativ till blastall körbara. S-TBLASTN anropas med kommandoradsalternativen ”-p tblastn-f f-c 1″. C-TBLASTN anropas med liknande alternativ, men med” – C 1 ”ersatt med”- C 2″. B-TBLASTN är för närvarande inte tillgängligt som en uppsättning kommandoradsalternativ., TBLASTN kan köras utan kompositionsbaserad statistik, genom att utesluta alternativet ”-C”, men standardversionen körs med lägre precision än b-TBLASTN. Körbara att köra B-TBLASTN och specifika versioner av S-TBLASTN och C-TBLASTN som används i detta dokument finns tillgängliga för nedladdning på.

blastall körbar som standard använder BLOSUM62 för att utföra anpassningar av aminosyrasekvenser, och det här är matrisen som används i alla steg innan kompositionsjustering utförs. Alternativet ”- F F ” inaktiverar seg-filtrering av frågesekvensen., Seg-filtrering av ämnessekvensen är på som standard i något av kompositionsjusteringslägena. Vi anser att filtrering av båda sekvenserna är onödig; när vi försökte filtrera båda sekvenserna såg vi ingen förbättring av statistisk noggrannhet, men såg en minskning av ROC-poängen (data som inte visas).

tester med hjälp av slumpmässigt permuterade frågor

för att mäta hur effektiv sammansättning baserad statistik är på att eliminera falska matcher med lågt e-värde, vi utförde en serie tester med hjälp av slumpmässigt permuterade aminosyrasekvenser från Mus (Mus Mus musculus)genom., Tusen proteinsekvenser valdes slumpmässigt från listan över RefSeq musproteiner Nuvarande den 10 januari 2006. Sekvenser permuterades med hjälp av deras GenBank identifikationsnummer som ett frö till en slumptalsgenerator. De permuterade sekvenserna tillhandahålls som ytterligare fil 1.

vi anpassade de permuterade sekvenserna till en databas med kromosomsekvenser från referensmonteringen av build 35 av human (Homo sapiens) genom, släppt 26 augusti 2004. Databasen innehåller kromosomer X och Y och de ospelade sekvensfragment som ingår i byggnaden., Vi utelämnade mitokondriellt genom från databasen, men eftersom dessa sekvenser är kända (se) för att ha en annan genetisk kod än nukleärt DNA.

Roc score Test på jästgenomet

för att testa effektiviteten hos olika typer av kompositionsjustering för TBLASTN utförde vi ett antal test med hjälp av jästkärngenomet. Vi laddade ner jästgenomet från, en plats som innehåller referensgenom som är curerad av NCBI-personal. Den version av genomet som vi använde skapades den 16 maj 2005.,

vi anpassade en uppsättning 102 proteindomäner till jästnukleotidgenomet med TBLASTN. Denna testuppsättning utvecklades först för studien i . En uppdaterad version användes i, där en mänsklig curerad lista över sanna positiva matcher till jästproteomen användes för att generera Roc-poäng. För de tester som beskrivs här uppdaterade vi den sanna positiva listan för att återspegla förändringar i det publicerade jästgenomet. Den uppdaterade listan innehåller 987 frågeämne matchar 894 distinkta ämnessekvenser. Den version av testuppsättningen som används i detta papper tillhandahålls som ytterligare Fil 2.,

i jästgenomet är varje känt jästprotein annoterat med platsen och strängen i dess kodningsregion. Dessa anteckningar gör det möjligt för oss att anpassa testuppsättningen för användning med tblastn enligt följande. För TBLASTN är anpassningar indelade i tre kategorier: (1) anpassningar som matchar en fråga till kodningsområdet för en känd sann positiv match; (2) anpassningar som matchar en fråga till en känd kodningsregion som inte är en sann positiv match; och (3) anpassningar som inte matchar en känd kodningsregion., En anpassning sägs matcha en fråga till en kodningsregion om ämnesdelen av justeringen överlappar kodningsregionen och ligger på samma sträng.

det är inte ovanligt att det finns mer än en justering mellan en fråga och en kodningsregion. Detta förväntas faktiskt; protein-protein sökningar rapporterar också flera anpassningar mellan par av proteiner. När det finns mer än en anpassning till en kodningsregion används endast den lägsta e-värdejusteringen mellan en viss fråga och kodningsregionen vid beräkning av ROC-poäng., Inga försök görs att tillämpa en liknande regel för icke-kodande regioner. Alla anpassningar som inte överlappar en kodningsregion kategoriseras som falska positiva matcher och räknas när man beräknar Roc-poäng.

Vi gjorde två uttryckliga undantag från detta system för att klassificera träffar. Det första undantaget är att lägga till en viss pseudogen (Entrez Gene ID 850644) till vår lista över kodningsregioner och att göra pseudogenen till en sann positiv för en av våra frågor, vilket ökar det maximala möjliga antalet sanna positiva till 988., Var och en av de testade varianterna hittade en anpassning till denna pseudogen med E-värde mindre än 10-12. Pseudogen uttrycks och producerar ett funktionellt protein under vissa förhållanden . Även om denna region är märkt som en pseudogen, tror vi inte att en inriktningsalgoritm bör förväntas skilja den från en sann gen. Det andra undantaget är att kategorisera en viss anpassning som överlappar en sann positiv kodningsregion och en falsk positiv kodningsregion som en sann positiv match. Denna överlappning rapporteras av alla tre varianterna av tblastn.

Avenir

Condominium

sammansättning baserad statistik och översatt nukleotid sökningar: förbättra tblastn modulen BLAST