Sammensetning-basert statistikk og oversatt nukleotid søk: Forbedre TBLASTN modul av BLAST

I dette avsnittet vil vi skissere algoritmen som brukes for å beregne sammensetning av database sekvenser, og til å bruke sammensetning-basert statistikk i TBLASTN. Da vi videre beskrive tester som er rapportert i denne artikkelen: den kjørbare filer som brukes, tester sett, og detaljer om metoder.,

Kompositoriske justering i TBLASTN

The BLAST heuristikk bruk en generell scoring system, slik som PAM eller BLOSUM serien av matriser, for å oppdage database sekvenser sannsynlig å justere til spørringen, og sannsynligvis utgangspunkt for justeringer. I BLAST, en justering er kjent som en høy-scoring par, eller HSP. En liste over HSPs for hver betydelige spørring-emne par er opprettet ved hjelp av en multi-stage-algoritmen., På hvert trinn, HSPs kan være hentet fra den gjeldende listen for en rekke grunner, inkludert å ha tilstrekkelig høy score, som finnes i en høyere score HSP, eller dele et endepunkt med en høyere score HSP. Som et resultat, mens hver påfølgende fasen av EKSPLOSJONEN algoritme krever betydelig mer beregning for hver HSP, færre HSPs må bli vurdert.

Kompositoriske justering, enten brukes av TBLASTN eller andre moduser av drift, brukes bare i den siste fasen av en BLAST søk., I denne mote, moduser som bruker kompositoriske justering gjelder fast heuristikk på SPRENG for å finne regioner sannsynlig å inneholde, og startpunkt sannsynlighet for å føre til høy-scoring justeringer. De gjelder kompositoriske justering bare før den mest sensitive og de fleste beregninger dyre justering algoritmen beregning av en gapped justering som inneholder informasjon som angir plasseringen av hullene, informasjon kjent som «traceback»., Listen over HSPs produsert av denne siste gapped justering, etter å ha blitt filtrert for tilstrekkelig betydelig eller overflødige HSPs, er listen som presenteres til brukeren.,idually til hver spørring-emne par, er som følger: (1) beregne windows som er av interesse ved hjelp av listen over HSPs fra innledende stadier av BLAST-algoritmen; (2) å få oversatt emnet data for windows og filter for å fjerne uinteressant undersekvenser; (3) beregne sammensetningen av emnet-regionen for hver HSP å være realigned; (4) å beregne en scoring matrise for hver HSP å være realigned, basert på sammensetningen av emnet regionen som HSP og på sammensetningen av søket. (5) utføre en gapped tråd med traceback å recompute listen over HSPs, ved å bruke ny scoring matriser., I praksis er disse high-nivå fremgangsmåten er innfelt å redusere krav til minne.

Computing windows av interesse

For hver match mellom spørring og et emne sekvensen, kompositoriske justering algoritmen er gitt en egen liste over HSPs. Hver HSP angir, sammen med annen informasjon, et område i faget sekvens som har blitt justert i forhold til spørringen. Disse områdene brukes som følger for å beregne en liste over windows. Først en foreløpig liste over windows for emnet sekvensen er opprettet., Denne listen inneholder ett vindu for hver HSP, vinduet som omgir emnet utvalg av HSP, inkludert 600 baser til venstre og høyre for motivet utvalg om at mye sekvens data er tilgjengelig. Deretter en endelig liste over windows er skapt ved å bli med vinduer i samme oversettelse ramme hvis de berører hverandre eller overlapper hverandre. For hvert vindu, en liste over HSPs tilsvarende vinduet er opprettholdt.

å Skaffe og filtrering emnet data

nukleotid emnet data i et vindu er hentet og oversatt ved hjelp av at vinduet er oversettelse ramme., Den S-algoritmen med vindu størrelse 10, lav-cutoff 1.8, og høy cutoff 2.1 brukes til å maskere low-complexity-regioner i emne-vinduet. Parametrene ble valgt som et resultat av studien. En low-complexity-regionen er vanligvis dominert av noen få tydelige rester ofte, men ikke alltid, i et repeterende mønster. Typiske eksempler er polyglycine eller polyproline monomers. Justering score som inkluderer score av low-complexity-regioner har en tendens til å overdrive betydningen av linjer og føre til mange falske positive treff.,

effekten av å anvende SEG algoritmen til en aminosyre-sekvensen er å erstatte hver rester i en low-complexity-regionen med X karakter: et tegn som er tilordnet en liten negativ score når som justeres til et hvilket som helst tegn, inkludert seg selv. Emnet data er filtrert før compositionally justert scoring matriser er beregnet, og forekomster av X tegn ignoreres når computing sammensetningen av en sekvens. I motsetning til sammensetningen-justering-koden, kan den innledende stadier av BLAST søk ikke filter emne-data.,

SEG filtrering kan også brukes til spørringen rekkefølge. SEK filtrering av spørringen er en kommando-linje alternativ for både BLASTP og TBLASTN. Programmene varierer i at ET filtrering av spørringen er slått av som standard i BLASTP men på som standard i TBLASTN. Vi gjorde ikke filtrere søket på noen resultatene som rapporteres i dette papiret. Det SEK parametere som brukes for å filtrere emnet sekvens bruke en høyere terskel for å erklære et område for å være lav kompleksitet enn standard parametere som brukes for å filtrere søket., Grunnen til at spørringen sekvensen er mer strengt filtrert er at spørringen sekvensen er brukt på hvert trinn av BLAST algoritme. SEK filtrering av motivet oppstår bare i de siste stadiene av en BLAST søk, og under-filtrering av data innen et emne vinduet vil effekten bare en enkel sammenligning.

Computing sammensetningen av fag

For TBLASTN, sekvensen data og motivet områder av HSPs i et vindu brukes til å bestemme en rekke sannsynlig å inneholde riktig oversatt aminosyre data., Vinduet er søkt strengt til venstre for emnet utvalg av HSP å finne lengst til høyre forekomsten av en stopp codon. Hvis man er funnet, så plasseringen 20 tegn til høyre for stoppet codon er venstre grense av sammensetningen utvalg, med den begrensning at hele motivet utvalg av HSP være inkludert. Hvis ingen stopper codon er funnet, så det venstre endepunktet er det venstre endepunktet i vinduet. Den symmetriske regel er brukt til høyre.,

hensikten er ikke nødvendigvis å finne stoppe codon som avslutter protein, men heller å bruke tilstedeværelsen av en stopp codon for å indikere at den hypotetisk oversatt codon ligger i en noncoding regionen. Faktisk, noncoding regionen kan bli et intron snarere enn sanne slutten av aminosyresekvens. Fordi vi ikke forsøker å finne en avslutning stoppe codon, foreslår vi en symmetrisk regel for å bestemme rekkefølge utvalg til bruk for sammensetning justering selv om biologiske oversettelse er asymmetrisk.,

I en tilfeldig DNA-sekvens med 50% GC-innhold, ville man forvente å finne en stopp codon i en hypotetisk oversatt aminosyresekvens i gjennomsnitt en gang hver 21 tegn. Derfor vil vi innføre en 20 tegn margin mellom stoppe codon og utvalg til bruk for sammensetning justering, med den begrensning at hele motivet utvalg av HSP være inkludert.

Gitt et bestemt område, TBLASTN vurderer bare 20 standard aminosyrer når computing sammensetning; X karakter, stopp karakter, og alle andre ikke-standard tegn er fullstendig ignorert., Når lengden av den sekvensen som er brukt i den kompositoriske justering algoritmer, verdien brukes ikke telle forekomster av ignorert tegn.

Computing compositionally-justert scoring matriser

Schäffer et al. og Yu et al. vis hvordan du justerer substitusjon poengsummer for de 20 standard aminosyrer. For standard aminosyrer, vi bruker disse teknikkene. Disse papirene kan imidlertid ikke diskutere behandling av sjeldent forekommende aminosyrer, to-brevet tvetydighet tegn, X-tegn, eller sluttegn., Vi diskuterer behandling av X-og stopptegnene i denne delen, fordi de forekommer vanligvis i TBLASTN søk. Vi diskuterer behandlingen av de andre tegnene i annen fil 3.

stopp karakter forekommer ofte i oversatt sekvenser og av og til i betydelige justeringer. En forekomst av stop-tegnet indikerer vanligvis at den ene er å oversette en noncoding område eller en kodende region i feil bilde. Selvfølgelig, en stopp karakter kan også rett og slett markere slutten av oversettelsen., Men, stopp tegn forekommer i betydelige justeringer av flere grunner: emnet sekvens kan inneholde en pseudogene; motivet sekvensen kan være mitokondrie-DNA, som i visse codons som er stoppe codons i kjernefysiske DNA er oversatt til sann aminosyrer ; motivet sekvens kan inneholde en stopp codon som er konvertert in vivo til en selenocysteine eller pyrrolysine rester; motivet sekvens kan representere et gen, slik som hdc-genet i D. melanogaster, som koder et protein produkt av mRNA readthrough; eller det kan være en sammenheng feil i emne-sekvens.,

Riktig scoring av stopp karakter er avgjørende for å TBLASTN. Alle tegn justert til en stopp karakter skal bli gitt et negativt resultat, men ikke et negativt resultat av så stort omfang som å forby gyldig justeringer som inneholder en stopp codon. BLAST jevnt tildeler bokstaver justert til en stopp codon en integrert poengsum som, gitt omfanget blir brukt, er så nær som mulig til -2 biter.

Som nettopp nevnt, biologisk meningsfylt og statistisk signifikant TBLASTN justeringer kan noen ganger inneholde oversatt stoppe codons., Imidlertid, tilstedeværelsen av mange stopp codons i noncoding regioner og ut-av-ramme koding regioner gjør det svært lite sannsynlig at disse områdene vil gi store-scoring justeringer ved en tilfeldighet. Følgelig, for E-verdi-beregninger, TBLASTN forutsetter lengden av en database rekkefølge for å være lengden av protein gitt ved oversettelse i en enkelt lese bildet, selv om oversettelsen er faktisk utført i alle de seks lesing rammer., Som mange database DNA-sekvenser er noncoding over mye av deres lengder kan være en forklaring på den generelt konservative statistikk av S-TBLASTN og C-TBLASTN vist i Figur 1.

på Grunn av anvendelse av SEG algoritmen X tvetydighet karakter er vanlig, og at behandlingen av X-tegn i betydelig grad kan påvirke ytelsen til algoritmen. Vi score justeringer med X som følger. Når enten kompositoriske matrix skalering eller kompositoriske matrix justering er nødvendig, substitusjon score er beregnet for alle standard aminosyrer.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., Med andre ord, score matching en standard aminosyre med X er den forventede verdien over alle kampene som aminosyre med en standard aminosyre, forutsatt at denne verdien er mindre enn -1., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., En formel analogt til Ligning(1) er brukt til å beregne resultat av å samkjøre en X karakter i spørringen til en standard aminosyre i emnet. Score for å samkjøre X til seg selv er det mindre av det forventede resultat av å samkjøre to standard aminosyrer og -1, avrundet til nærmeste heltall.

Utføre en gapped tråd med traceback

Rutiner som gjelder sammensetning-basert statistikk ikke bare rescore justeringer, men heller recompute dem. Justeringene er beregnet ved hjelp av én av to teknikker., Standard x-slipp-algoritmen som er brukt til et sett av utgangspunkter som er angitt i listene over HSPs gitt fra tidligere stadier av BLAST algoritme. Som et resultat av endringer gjort i løpet av dette prosjektet, kan man vekselvis angi at den strenge Smith-Waterman-algoritmen som brukes i hvert vindu. Hvis x-slipp-algoritmen som er brukt, komposisjonen er beregnet individuelt for hver HSP som er realigned. Hvis Smith-Waterman-algoritmen som er brukt, sammensetning av et vindu er tatt for å være sammensetningen av sitt høyeste-scoring HSP., Samle sammensetningen av emnet regioner av flere HSPs i et vindu er problematisk fordi HSPs ikke nødvendigvis tilhører den samme justeringen, eller selv til samme sammenkoblet sett med justeringer. Standard i TBLASTN er å bruke x-slipp-algoritmen, og vi vil bruke x-slipp-algoritmen i testene presenteres i denne artikkelen.

følgende pseudocode viser hvordan justeringer tilsvarende en enkelt spørring-emne kamp er recomputed når x-slipp-algoritmen som er brukt.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

Algoritme 1

Gjøre justeringer i et vindu.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., En HSP er ansett for å være inneholdt i en annen HSP hvis spørringen og underlagt grensene er inneholdt i spørringen, og motivet rammene av den andre HSP, og hvis den andre HSP har lik eller høyere score.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., I denne mote, gjentatte ganger å ringe rutine WITH_DISTINCT_ENDS sikrer at den endelige listen av tilnærmingene ikke inneholder en justering som deler et endepunkt med en høyere score justering. Når to tilnærmingene dele samme endepunkt, jo høyere-scoring ett er den foretrukne justering; nedre-scoring alignment er en suboptimal konsekvens av EKSPLOSJONEN heuristikk.

x-slipp-algoritmen krever et utgangspunkt (p-q , s ) som vil tvinge en justering mellom offset p q i spørringen, og p-s i faget. Den beregner en justering i begge retninger så du kan starte fra dette punktet., Et utgangspunkt er definert for hver HSP som er realigned. Hvis det er mulig, utgangspunkt som opprinnelig ble brukt for å beregne HSP er gjenbrukt. På grunn av virkningene av SEG filtrering og den nylig beregnet scoring matrise, men forrige utgangspunkt kan ikke lenger være ønskelig, det kan ligge i en region av nonpositive score. Vi diskuterer den regelen som brukes til å validere eksisterende utgangspunkt, og om nødvendig velger du en ny en, Ekstra fil 3: tblastn_suppl.pdf.,

til Slutt vil vi bemerke at Algoritmen 1 er også riktig pseudocode for BLASTP, som utfører protein-spørring, protein-database-søk. Forskjellen er at for BLASTP det er bare ett vindu for hver gjenstand rekkefølge: vinduet som omfatter hele sekvensen. Videre, for BLASTP sammensetningen av hele motivet sekvensen er alltid brukes når du utfører kompositoriske justering. Derfor compositionally justert matrix er nødvendigvis den samme for hver HSP i et vindu, og må bare bli beregnet en gang., I praksis den samme kode brukes for både TBLASTN og BLASTP å implementere Algoritmen 1, men for BLASTP en betinget brukes til å sikre matrix er bare beregnet en gang for hvert vindu.

Test sett og programmer som er brukt

Vi beskriver nedenfor den spesifikke kjørbare filer, datasett og metoder som brukes til å generere resultater som presenteres i denne artikkelen. Varianter av TBLASTN rapportert her ble skrevet i C, og, som nevnt nedenfor, har noen varianter er tilgjengelig som en del av NCBI C og C++ programvare distribusjoner; beregningsorientert moduler som er involvert speilet mellom de to fordelingene., Mange aux-programmer som brukes til å automatisere testing og oppsummere resultatene ble skrevet i C, Perl, Python, og Bourne shell-skript.

Kjørbare filer som brukes

TBLASTN er en modus av drift for blastall kjørbare. Denne kjørbare filen er tilgjengelig for nedlasting fra. C-TBLASTN og S-TBLASTN varianter er tilgjengelig som et sett av alternativer til blastall kjørbare. S-TBLASTN startes ved hjelp av kommando-linje valg «-p tblastn -F-F -F-1». C-TBLASTN startes ved å bruke de samme alternativene, men med «-F-1» erstattes med «C-2». B-TBLASTN er for øyeblikket ikke tilgjengelig som et sett av kommando linje valg., TBLASTN kan kjøres uten sammensetning-basert statistikk, ved å utelate «-C» – alternativet, men standard-versjon kjører med lavere presisjon enn B-TBLASTN. Kjørbare filer som kjører B-TBLASTN og den spesifikke versjoner av S-TBLASTN og C-TBLASTN brukt i dette papiret er tilgjengelig for nedlasting på.

blastall kjørbar som standard bruker BLOSUM62 å utføre justeringer av aminosyre-sekvenser, og dette er den matrisen som brukes i alle stadier før sammensetning justeringen er utført. Den «F» – alternativet deaktiverer SEG filtrering av spørringen rekkefølge., SEK filtrering av emnet sekvensen er på som standard i noen av sammensetningen justering moduser. Vi anser filtrering både sekvenser for å være unødvendig, når vi prøvde filtrering både sekvenser, vi så ingen forbedring i statistisk nøyaktighet, men visste du se en nedgang i ROC score (data ikke vist).

– Tester ved hjelp av tilfeldig permuted spørringer

for Å måle hvor effektive sammensetning-statistikken er basert på å eliminere falske kamper med lav u-verdi, har vi utført en rekke tester ved hjelp av tilfeldig permuted aminosyre sekvenser fra mus (Mus musculus) genom., Tusen protein sekvenser ble tilfeldig valgt fra listen over RefSeq musen proteiner gjeldende på januar 10, 2006. Sekvensene ble permuted ved hjelp av sin GenBank identifikasjonsnummer som et frø til en tilfeldig nummer generator. Den permuted sekvenser er gitt som Ekstra fil 1.

Vi justerte permuted sekvenser til en database av kromosomavvik sekvenser fra referanse montering av bygg 35 av menneske (Homo sapiens) genom, utgitt August 26, 2004. Databasen inneholder kromosomer X og Y og unplaced sekvens fragmenter som inngår i bygge., Vi utelatt mitokondrie genome fra databasen, men som disse sekvensene er kjent (se) å ha en annen genetisk kode enn kjernefysiske DNA.

ROC score tester på gjær genom

for Å teste effektiviteten av ulike former for sammensetning justering for TBLASTN, har vi utført en rekke tester ved hjelp av gjær kjernefysiske genom. Vi lastet ned gjær genome fra et nettsted som inneholder referanse genomer kuratert av NCBI ansatte. Den versjonen av genomet som vi brukte, ble opprettet den 16. Mai 2005.,

Vi har justert et sett av 102 protein domener til gjær nukleotid genom ved hjelp av TBLASTN. Denne testen sett ble først utviklet for undersøkelsen . En oppdatert versjon som ble brukt i , som et menneske kuratert liste av sanne positive kamper for å gjær proteome ble brukt til å generere ROC score. For de testene som er beskrevet her, kan vi oppdatert den sanne positive listen for å reflektere endringer i den publiserte gjær genom. Den oppdaterte listen inneholder 987 spørring-emne kamper for å 894 forskjellige fag sekvenser. Den versjonen av testen sett brukt i denne oppgaven er gitt som en Ekstra fil 2.,

I gjær genom, hvert kjent gjær protein er merket med sted og strand med sin koding regionen. Disse kommentarene gir oss mulighet til å tilpasse testen er angitt for bruk med TBLASTN som følger. For TBLASTN, justeringer er delt inn i tre kategorier: (1) justeringer som passer en forespørsel til koding regionen en kjent sanne positive match; (2) justeringer som samsvarer med en spørring til en kjent coding region som ikke er en sann positiv kamp, og (3) justeringer som ikke stemmer overens med en kjent koding regionen., En justering sies å matche en spørring til en kodende region hvis motivet del av justeringen overlapper koding regionen og er på samme strand.

Det er ikke uvanlig for at det skal være mer enn en justering mellom en spørring og koding for regionen. Faktisk dette er som forventet; protein-protein søk rapporterer også flere linjer mellom par av proteiner. Når det er mer enn en justering til en kodende region, bare den laveste E-verdi justering mellom en bestemt spørring og koding regionen er brukt ved beregning ROC score., Det gjøres ikke noe forsøk å gjelde en tilsvarende regel for å noncoding regioner. Alle justeringer som ikke overlapper en koding regionen er kategorisert som falske positive treff og telles når computing ROC score.

Vi laget to eksplisitte unntak fra denne ordningen for å klassifisere treff. Det første unntaket er å legge til en bestemt pseudogene (Entrez Genet ID 850644) til vår liste over koder for regionene og for å gjøre pseudogene for et sant positivt resultat for en av våre spørsmål, vekker størst mulig antall sanne positive til å 988., Hver av variantene testet funnet en justering til dette pseudogene med E-verdien er mindre enn 10-12. Den pseudogene er uttrykt og produserer et funksjonelt protein under visse betingelser . Selv om denne regionen er merket som en pseudogene, vi tror ikke en justering algoritme bør forventes å skille det fra en ekte genet. Det andre unntaket er å kategorisere en bestemt justering som overlapper ene sanne positive koding for regionen og en falsk positiv koding regionen som en sann positiv kamp. Denne overlappingen er rapportert av alle tre varianter av TBLASTN.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Hopp til verktøylinje