I dette afsnit, er vi skitsere den algoritme, der bruges til at beregne den sammensætning af database-sekvenser og at anvende sammensætning-baserede statistikker i TBLASTN. Derefter beskriver vi yderligere de test, der er rapporteret i dette papir: de anvendte eksekverbare, testsættene og detaljer om metoderne.,
Kompositionsjustering i TBLASTN
BLASTHEURISTIKKEN bruger et generelt scoringssystem, såsom PAM-eller BLOSUM-serien af matricer, for at opdage databasesekvenser, der sandsynligvis vil tilpasse sig forespørgslen og sandsynlige udgangspunkt for justeringer. I BLAST, en justering er kendt som en high-scoring par, eller HSP. En liste over HSP ‘ er for hvert signifikant forespørgselsemne-par oprettes ved hjælp af en flertrinsalgoritme., På hvert trin kan HSP ‘ er slettes fra den aktuelle liste af flere årsager, herunder at have utilstrækkelig høj score, være indeholdt i en HSP med højere score eller dele et endepunkt med en HSP med højere score. Som resultat, mens hver efterfølgende fase af BLAST algoritme kræver betydeligt mere beregning for hver HSP, færre HSP skal overvejes.
Kompositionsjustering, uanset om den bruges af TBLASTN eller andre driftsformer, anvendes kun i den sidste fase af en BLAST-søgning., På denne måde, tilstande, der bruger kompositionsjustering, anvender BLAST ‘ s hurtige heuristik for at lokalisere regioner, der sandsynligvis vil indeholde, og udgangspunkter, der sandsynligvis vil føre til, high-scoring-justeringer. De gælder kompositorisk tilpasning, før den mest følsomme og mest beregningsmæssigt dyrt alignment algoritme, beregning af en gapped alignment der indeholder oplysninger om placering af huller, kendt som “tilbagesporing”., Listen over HSP ‘er produceret af denne endelige gapped alignment, efter at være filtreret for utilstrækkeligt signifikante eller overflødige HSP’ er, er listen præsenteret for brugeren.,idually til hver forespørgsel-om parret, er som følger: (1) beregne windows af interesse ved hjælp af listen over HSPs fra indledende faser af BLAST algoritmen; (2) for at få oversat emne data for vinduer og filtrere det til at fjerne uinteressant undersekvenser; (3) beregn sammensætningen af emnet region for hver HSP at være udrettet; (4) beregne en scoring matrix for hver HSP at blive omlagt, der er baseret på sammensætningen af motivet, region af, at HSP-og på sammensætningen af forespørgsel; (5) udføre en gapped alignment med tilbagesporing til at genberegne den liste af HSPs, ved hjælp af den nye scoring matricer., I praksis er disse trin på højt niveau interleaved for at reducere hukommelseskrav.
Computing windowsindo .s af interesse
for hver kamp mellem forespørgslen og en emnesekvens gives kompositionsjusteringsalgoritmen en separat liste over HSP ‘ er. Hver HSP angiver sammen med andre oplysninger et interval i emnesekvensen, der er justeret til forespørgslen. Disse intervaller bruges som følger for at beregne en liste over vinduer. For det første oprettes en foreløbig liste over vinduer til emnesekvensen., Denne liste indeholder et vindue for hver HSP, det vindue, der omgiver emneområdet for HSP, herunder 600 baser til venstre og højre for emneområdet, hvis så mange sekvensdata er tilgængelige. Derefter oprettes en endelig liste over vinduer ved at tilslutte windowsindo .s i den samme oversættelsesramme, hvis de berører eller overlapper hinanden. For hvert vindue opretholdes en liste over HSP ‘ er svarende til vinduet.
indhentning og filtrering af emnedata
nukleotid-emnedataene i et vindue opnås og oversættes ved hjælp af vinduets oversættelsesramme., SEG-algoritmen med vinduesstørrelse 10, LO.-cutoff 1.8 og high cutoff 2.1 bruges til at maskere regioner med lav kompleksitet i emnevinduet. Parametrene blev valgt som et resultat af undersøgelsen. Et område med lav kompleksitet domineres typisk af nogle få forskellige rester ofte, men ikke altid, i et gentagne mønster. Typiske eksempler er polyglycin-eller polyprolinmonomerer. Justeringsresultater, der inkluderer scoringer af regioner med lav kompleksitet, har en tendens til at overdrive betydningen af justeringerne og føre til mange falske positive kampe.,
effekten af at anvende seg-algoritmen på en aminosyresekvens er at erstatte hver Rest i en lavkompleksitetsregion med character-tegnet: et tegn, der tildeles en lille negativ score, når det er justeret til ethvert tegn, inklusive sig selv. Emnedataene filtreres, før kompositionsjusterede scoringsmatricer beregnes, og forekomster af character-tegnet ignoreres, når man beregner sammensætningen af en sekvens. I modsætning til kompositionsjusteringskoden filtrerer de indledende faser af BLASTSØGNINGEN ikke emnedataene.,
seg-filtrering kan også anvendes på forespørgselssekvensen. Seg-filtrering af forespørgslen er en kommandolinjeindstilling for både BLASTP og TBLASTN. Programmerne adskiller sig i, at seg-filtrering af forespørgslen er slukket som standard i BLASTP, men som standard i TBLASTN. Vi filtrerede ikke forespørgslen i nogen resultater rapporteret i dette papir. SEG-parametrene, der bruges til at filtrere emnesekvensen, anvender en højere tærskel for at erklære en region for lav kompleksitet end standardparametrene, der bruges til at filtrere forespørgslen., Årsagen til, at forespørgselssekvensen er mere stringent filtreret, er, at forespørgselssekvensen bruges på alle trin i BLAST-algoritmen. SEG-filtrering af emnet forekommer kun i de sidste faser af en BLAST-søgning, og underfiltrering af dataene i et emnevindue vil kun påvirke en enkelt sammenligning.
Computing individets sammensætning
for TBLASTN bruges sekvensdataene og emneintervallerne for HSP ‘ erne i et vindue til at bestemme et interval, der sandsynligvis indeholder korrekt oversatte aminosyredata., Vinduet søges strengt til venstre for emneområdet for HSP for at finde den højeste forekomst af et stopkodon. Hvis man findes, er placeringen 20 tegn til højre for stopkodonen den venstre grænse for kompositionsområdet, med den begrænsning, at hele emneområdet for HSP inkluderes. Hvis der ikke findes nogen stopkodon, er det venstre endepunkt vinduets venstre endepunkt. Den symmetriske regel anvendes til højre.,
hensigten er ikke nødvendigvis at lokalisere stopkodonen, der afslutter proteinet, men snarere at bruge tilstedeværelsen af et stopkodon for at indikere, at det hypotetisk oversatte kodon ligger i et ikke-kodende område. Faktisk kan den ikke-kodende region være en intron snarere end den sande ende af aminosyresekvensen. Da vi ikke forsøger at finde et terminerende stopkodon, foreslår vi en symmetrisk regel for at bestemme sekvensområdet, der skal bruges til sammensætningsjustering, selvom biologisk oversættelse er asymmetrisk.,
i en tilfældig DNA-sekvens med 50% GC-indhold ville man forvente at finde et stopkodon i en hypotetisk oversat aminosyresekvens i gennemsnit en gang hver 21 tegn. Derfor indfører vi en 20 tegnmargin mellem stopkodonen og det interval, der skal bruges til sammensætningsjustering, med den begrænsning, at hele emneområdet for HSP inkluderes.
i betragtning af en bestemt region betragter TBLASTN kun de 20 standard aminosyrer, når man beregner sammensætning; character-tegnet, stopkarakteren og alle andre ikke-standardkarakterer ignoreres fuldstændigt., Når længden af sekvensen bruges i kompositionsjusteringsalgoritmerne, tæller den anvendte værdi ikke forekomster af ignorerede tegn.
Computing compositionally-justerede scoring matricer
Sch .ffer et al. og Yu et al. vis, hvordan du justerer substitutionsresultater for de 20 standard aminosyrer. For de almindelige aminosyrer anvender vi disse teknikker. Disse papirer ikke, imidlertid, diskutere behandlingen af sjældent forekommende aminosyrer, to bogstaver tvetydighed tegn, character tegn, eller stop karakter., Vi diskuterer behandlingen af characters-og stop-tegnene i dette afsnit, fordi de ofte forekommer i TBLASTN-søgninger. Vi diskuterer behandlingen af de andre tegn i yderligere fil 3.
stopkarakteren forekommer ofte i oversatte sekvenser og lejlighedsvis inden for betydelige justeringer. En forekomst af stopkarakteren indikerer normalt, at man oversætter en ikke-kodende region eller en kodende region i den forkerte ramme. Selvfølgelig kan et stopkarakter også blot markere slutningen af oversættelsen., Men stop tegn, der forekommer inden for væsentlige justeringer af flere grunde: emnet sekvens kan indeholde en pseudogene; emnet sekvens kan være mitokondrie-DNA, hvor visse codons, der er stop-codons i nukleare DNA oversættes til true aminosyrer ; emnet sekvens kan indeholde et stop codon, der er konverteret in vivo til en selenocystein eller pyrrolysine rest; emnet sekvens kan repræsentere et gen, som hdc-genet i D. melanogaster, der koder for et protein produkt af mRNA læsning; eller der kan være en sekventering fejl i emne-sekvens.,
passende scoring af stopkarakteren er afgørende for TBLASTN. Ethvert tegn, der er justeret til et stop-tegn, skal have en negativ score, men ikke en negativ score af så stor størrelse, at de ikke tillader gyldige justeringer, der indeholder et stop-codon. BLAST ensartet tildeler bogstaver justeret til et stop codon en integreret score,, givet skalaen bliver brugt, er så tæt som muligt på -2 bits.
som netop diskuteret kan biologisk meningsfulde og statistisk signifikante TBLASTN-justeringer undertiden indeholde oversatte stopkodoner., Tilstedeværelsen af mange stopkodoner i ikke-kodende regioner og uden for rammen kodende regioner gør det imidlertid meget usandsynligt, at disse regioner vil give high-scoring justeringer ved en tilfældighed. For e-værdiberegninger antager TBLASTN derfor, at længden af en databasesekvens er længden af proteinet, der er givet ved oversættelse i en enkelt læseramme, selvom oversættelse faktisk udføres i alle seks læserammer., At mange database-DNA-sekvenser ikke kodes over meget af deres længder, kan være en forklaring på de generelt konservative statistikker over s-TBLASTN og C-TBLASTN vist i Figur 1.
på grund af anvendelsen af seg-algoritmen er ambiguity-tvetydighedskarakteren almindelig, og behandlingen af characters-tegn kan påvirke algoritmens ydeevne markant. Vi scorer justeringer med follows som følger. Når der anvendes enten kompositorisk Matri matriskalering eller kompositorisk Matri adjustmentjustering, beregnes substitutionsresultater for alle standard aminosyrer.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., Med andre ord er scoren for at matche en standard aminosyre med.den forventede værdi over alle kampe af den aminosyre med en standard aminosyre, forudsat at denne værdi er mindre end -1., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., En formel analog med ligning (1) bruges til at beregne scoren for at tilpasse et character-tegn i forespørgslen til en standard aminosyre i emnet. Scoren for at tilpasse X til sig selv er den mindste af den forventede score for at tilpasse to standard aminosyrer og -1, afrundet til nærmeste heltal.
udførelse af en gapped alignment med traceback
rutiner, der anvender kompositionsbaserede statistikker, ikke blot rescore alignments, men snarere genberegne dem. Alignments beregnes ved hjælp af en af to teknikker., Som standard anvendes algorithm-drop-algoritmen til et sæt udgangspunkter, der er angivet i listerne over HSP ‘ er, der leveres fra tidligere stadier af BLAST-algoritmen. Som et resultat af ændringer foretaget i løbet af dette projekt, man kan skiftevis specificere, at den strenge Smith-algorithmaterman-algoritme anvendes inden for hvert vindue. Hvis algorithm-drop-algoritmen anvendes, beregnes sammensætningen individuelt for hver HSP, der er justeret. Hvis Smith-Wateraterman-algoritmen anvendes, anses sammensætningen af et vindue for at være sammensætningen af dets højeste score HSP., Det er problematisk at samle sammensætningen af emneregionerne for flere HSP ‘er i et vindue, fordi HSP’ erne ikke nødvendigvis hører til den samme justering eller endda til det samme linkede sæt justeringer. Standarden i TBLASTN er at bruge algorithm-drop algoritmen, og vi bruger algorithm-drop algoritmen i testene præsenteret i dette papir.
følgende pseudokode viser, hvordan justeringer, der svarer til et enkelt forespørgselsemne-match, beregnes igen, når algorithm-drop-algoritmen bruges.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,
algoritme 1
gentag justeringer i et vindue.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)
A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅
H←windows.,T_BY_SCORE(H)
s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )
for i←0 to length(H)-1 do
h←H
if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then
M←ADJUST_COMPOSITION (q, s, h, params)
a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)
if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )
end if
end if
end for
return A
end function
The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., En HSP anses for at være indeholdt i en anden HSP, hvis dens forespørgsel og afhængig grænser, der er indeholdt i forespørgslen og omfattet af grænserne for det andet HSP, og hvis den anden HSP er lig med eller højere score.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., På denne måde sikrer gentagne gange at kalde rutinen_ith_distinct_ends, at den endelige liste over justeringer ikke indeholder en justering, der deler et slutpunkt med en højere scoringsjustering. Når to justeringer deler det samme endepunkt, den højere scoring er den foretrukne justering; den lavere scoringsjustering er en suboptimal artefakt af BLASTHEURISTIKKEN.
algorithm-drop-algoritmen kræver et udgangspunkt (P,, p S), der vil tvinge en justering mellem offset p.i forespørgslen og p S i emnet. Det beregner en justering i begge retninger startende fra dette punkt., Et udgangspunkt er defineret for hver HSP, der er justeret. Hvis det er muligt, genbruges udgangspunktet, der oprindeligt blev brugt til at beregne HSP. På grund af virkningerne af seg-filtrering og den nyligt beregnede scoringsmatri., imidlertid, det forrige udgangspunkt er muligvis ikke længere ønskeligt; det kan ligge i et område med ikke-positiv score. Vi diskuterer den regel, der bruges til at validere det eksisterende udgangspunkt, og om nødvendigt vælge en ny i yderligere fil 3: tblastn_suppl.pdf.,
endelig bemærker vi, at algoritme 1 også er korrekt pseudokode for BLASTP, som udfører protein-forespørgsel, protein-database søgninger. Forskellen er, at for BLASTP er der kun .t vindue for hvert emne sekvens: det vindue, der omfatter hele sekvensen. Desuden bruges sammensætningen af hele emnesekvensen til BLASTP altid, når der udføres kompositionsjustering. Derfor er den sammensætningsjusterede Matri.nødvendigvis den samme for hver HSP i et vindue og behøver kun beregnes en gang., I praksis bruges den samme kode til både TBLASTN og BLASTP til at implementere algoritme 1, men for BLASTP bruges en betinget til at sikre, at Matri .en kun beregnes en gang for hvert vindue.
testsæt og anvendte programmer
vi beskriver nedenfor de specifikke eksekverbare filer, datasæt og metoder, der bruges til at generere resultaterne præsenteret i dette papir. Varianterne af TBLASTN rapporteret her blev skrevet i C, og som nævnt nedenfor er nogle varianter tilgængelige som en del af NCBI C-og C++ – soft .aredistributionerne; de involverede beregningsmoduler spejles mellem de to distributioner., Talrige hjælpeprogrammer, der bruges til at automatisere test og opsummere resultater blev skrevet i C, Perl, Python og Bourne shell script.
anvendte eksekverbare filer
TBLASTN er en driftsform for blastall-eksekverbare filer. Denne eksekverbare kan do .nloades fra. De C-TBLASTN og S-TBLASTN varianter er tilgængelige som et sæt af muligheder til blastall eksekverbare. S-TBLASTN aktiveres ved hjælp af kommandolinjeindstillingerne”- p tblastn-f f-c 1″. C-TBLASTN påberåbes ved hjælp af lignende muligheder, men med “-C 1” erstattet af “-C 2”. B-TBLASTN er i øjeblikket ikke tilgængelig som et sæt kommandolinjeindstillinger., TBLASTN kan køres uden kompositionsbaseret statistik ved at udelade “-C”- indstillingen, men standardversionen kører med lavere præcision end B-TBLASTN. Eksekverbare filer, der kører B-TBLASTN og de specifikke versioner af S-TBLASTN og C-TBLASTN anvendt i dette papir, der er tilgængelige for download.
blastall-eksekverbare som standard bruger BLOSUM62 til at udføre justeringer af aminosyresekvenser, og dette er den Matri., der anvendes i alle faser, før sammensætningsjustering udføres. Indstillingen” – f f” deaktiverer seg-filtrering af forespørgselssekvensen., SEG-filtrering af emnesekvensen er som standard aktiveret i en hvilken som helst af sammensætningsjusteringsfunktionerne. Vi anser filtrering begge sekvenser for at være unødvendig; når vi forsøgte filtrering begge sekvenser, så vi ingen forbedring i statistisk nøjagtighed, men gjorde se et fald i ROC scoringer (data ikke vist).
Forsøg med tilfældigt ionbyttet forespørgsler
for At måle, hvor effektiv sammensætning-baserede statistikker er ved at eliminere falske kampe med lave E-værdien, har vi udført en række forsøg med tilfældigt ionbyttet aminosyre-sekvenser fra mus (Mus musculus) genom., Et tusind proteinsekvenser blev tilfældigt udvalgt fra listen over Refse.museproteiner, der var aktuelle den 10. januar 2006. Sekvenser blev permuteret ved hjælp af deres GenBank identifikationsnummer som et frø til en random number generator. De permuterede sekvenser leveres som yderligere fil 1.
vi justerede de permuterede sekvenser til en database med kromosomale sekvenser fra referencesamlingen af build 35 af det menneskelige (Homo sapiens) genom, der blev frigivet 26.August 2004. Databasen indeholder kromosomer and og Y og unplaced sekvens fragmenter indgår i build., Vi udeladte mitokondriegenomet fra databasen, da disse sekvenser er kendt (se) for at have en anden genetisk kode end nuklear DNA.
ROC score test på gærgenomet
for at teste effektiviteten af forskellige former for sammensætningsjustering for TBLASTN udførte vi et antal tests ved hjælp af gærkernegenomet. Vi do .nloadede gærgenomet fra, et siteebsted, der indeholder referencegenomer kurateret af NCBI-personale. Den version af genomet, vi brugte, blev oprettet den 16. maj 2005.,
vi justerede et sæt 102 proteindomæner til gærnukleotidgenomet ved hjælp af TBLASTN. Dette testsæt blev først udviklet til undersøgelsen i . En opdateret version blev brugt i, hvor en menneskelig kurateret liste over ægte positive kampe til gærproteomet blev brugt til at generere ROC-scoringer. Til de test, der er beskrevet her, opdaterede vi den sande positive liste for at afspejle ændringer i det offentliggjorte gærgenom. Den opdaterede liste indeholder 987 forespørgsel-emne matcher 894 forskellige emne sekvenser. Den version af testsættet, der bruges i dette papir, leveres som yderligere fil 2.,
i gærgenomet annoteres hvert kendt gærprotein med placeringen og strengen af dets kodende region. Disse kommentarer giver os mulighed for at tilpasse testsættet til brug med TBLASTN som følger. For TBLASTN, justeringer, der er opdelt i tre kategorier: (1) justeringer, der matcher en forespørgsel til den kodende region af en kendt sande positive match; (2) alignments der matcher en forespørgsel til en kendt kodning regionen, der er ikke et sandt positivt resultat; og (3) linjeføringer, der ikke matcher en kendt kodende region., En justering siges at matche en forespørgsel til en kodningsregion, hvis emnedelen af justeringen overlapper kodningsregionen og er på den samme streng.
det er ikke ualmindeligt, at der er mere end en justering mellem en forespørgsel og en kodningsregion. Faktisk forventes dette; protein-protein søgninger rapporterer også flere justeringer mellem par af proteiner. Når der er mere end en justering til en kodningsregion, bruges kun den laveste e-værdijustering mellem en bestemt forespørgsel og kodningsregionen, når man beregner ROC-score., Der gøres ikke noget forsøg på at anvende en lignende regel på ikke-kodende regioner. Alle justeringer, der ikke overlapper en kodende region, kategoriseres som falske positive kampe og tælles ved beregning af ROC-score.
vi lavede to eksplicitte undtagelser fra denne ordning til klassificering af hits. Den første undtagelse er at tilføje en bestemt pseudogen (entre.Gene ID 850644) til vores liste over kodende regioner og gøre pseudogen til en sand positiv for en af vores forespørgsler, hvilket hæver det maksimale mulige antal sande positive til 988., Hver af de testede varianter fandt en justering til denne pseudogen med E-værdi mindre end 10-12. Pseudogen udtrykkes og producerer et funktionelt protein under visse betingelser . Selvom denne region er mærket som en pseudogen, mener vi ikke, at en justeringsalgoritme bør forventes at skelne den fra et ægte gen. Den anden undtagelse er at kategorisere en bestemt justering, der overlapper en ægte positiv kodningsregion og en falsk positiv kodningsregion som en ægte positiv kamp. Denne overlapning er rapporteret af alle tre varianter af TBLASTN.