Koostumus-pohjainen tilastojen ja käännetty nukleotidin haut: Parantaa TBLASTN moduuli BLAST

tässä osiossa olemme jäsennys algoritmi, jota käytetään laskettaessa koostumus sekvenssit tietokantaan ja soveltaa koostumus-pohjainen tilastojen TBLASTN. Sitten me edelleen kuvata testejä raportoitu tässä asiakirjassa: executables käytetty, testit asetetaan, ja yksityiskohdat menetelmistä.,

Koostumusta säätö TBLASTN

RÄJÄHDYS heuristiikka käyttää yleistä pisteytys järjestelmä, kuten PAM-tai BLOSUM-sarjan matriisit, löytää tietokannan sekvenssien todennäköisesti kohdista kyselyn ja todennäköisesti lähtökohdat linjauksia. Blastissa linjaus tunnetaan korkean pistemäärän parina eli HSP: nä. Luettelo HSPs jokaisesta merkittävästä kyselyaiheparista luodaan monivaiheisen algoritmin avulla., Kussakin vaiheessa, HSPs voi olla poimittu nykyinen luettelo useista syistä, mukaan lukien, joilla on riittävän korkea pisteet on sisältyvät korkeamman pisteytys HSP, tai jakaa päämäärä, jossa korkea-pisteytys HSP. Seurauksena, kun taas peräkkäiset vaiheessa BLAST-algoritmi vaatii huomattavasti enemmän laskenta kunkin HSP, vähemmän HSPs tarvitse otettava huomioon.

Koostumusta säätö, onko käytetty TBLASTN tai muiden liikennemuotojen käyttöön, on sovellettu vain loppuvaiheessa BLAST-haku., Tällä tavalla tilaa, että käyttää koostumusta säätö levitä nopeasti heuristiikka BLAST paikantaa alueet, jotka todennäköisesti sisältävät, ja lähtökohdat todennäköisesti johtaa, korkea-pisteytys linjauksia. Ne koskevat koostumusta säätö vain ennen herkin ja eniten laskennallisesti kallista linjaus algoritmi, laskenta on gapped linjaus, joka sisältää tiedot, joissa täsmennetään paikoissa aukkoja, tiedot tunnetaan nimellä ”kehittäjä”., Luettelo HSPs tuotettu tämän lopullinen gapped linjaus, sen jälkeen kun se on suodatettu riittävästi merkittävää tai tarpeeton HSPs, on luettelo esitetään käyttäjälle.,idually jokaiselle kysely-kohde pari, ovat seuraavat: (1) laske windows kiinnostusta käyttää luettelo HSPs alustava vaiheissa BLAST-algoritmi; (2) saada käännetty aihe tiedot windows-ja suodata se poistaa mielenkiinnoton subsequences; (3) laske koostumus aihe alueen kunkin HSP olla linjassa; (4) laske matriisin pisteytys kunkin HSP olla linjassa, joka perustuu koostumukseen aihe-alue, että HSP ja kokoonpanosta kyselyn; (5) suorittaa gapped yhdenmukaistaminen kehittäjä, jotta recompute luettelo HSPs, käyttäen uutta pisteytys matriisit., Käytännössä nämä korkean tason vaiheet ovat limitetty vähentää muistin vaatimukset.

Computing windows kiinnostusta

– jokainen ottelu kysely ja aihe järjestyksessä, koostumusta säätö algoritmi on annettu erillinen luettelo HSPs. Kukin HSP määrittää yhdessä muiden tietojen kanssa kohteen sekvenssin alueen, joka on linjassa kyselyn kanssa. Näitä valikoimia käytetään seuraavasti laskettaessa luetteloa ikkunoista. Ensin luodaan alustava luettelo aihesarjan ikkunoista., Tämä lista sisältää yksi ikkuna kunkin HSP-ikkuna, joka ympäröi valikoima HSP, mukaan lukien 600 emäkset vasemmalle ja oikealle, aihe-alue, että jos paljon sekvenssi tietoja on saatavilla. Sitten lopullinen luettelo Windowseista luodaan liittämällä windows samaan käännöskehykseen, jos ne koskettavat tai limittyvät. Kunkin ikkunan osalta säilytetään ikkunaa vastaava HSPs-luettelo.

Hankkiminen ja suodatus aihe tiedot

nukleotidin aihe tiedot sisällä ikkuna on saatu ja käännetty käyttäen, että ikkuna on käännös runko., Seg-algoritmia, jossa on ikkunan koko 10, Low-cutoff 1.8 ja korkea cutoff 2.1, käytetään peittämään subjekti-ikkunan matalan kompleksisuuden alueita. Parametrit valittiin tutkimuksen perusteella. Matalan kompleksisuuden aluetta hallitsee tyypillisesti muutama erillinen jäämä usein, mutta ei aina, toistuvassa kuviossa. Tyypillisiä esimerkkejä ovat polyglysiini-tai polyproliinimonomeerit. Linjaus tulokset, jotka sisältävät kymmeniä low-complexity-alueilla on taipumus liioitella merkitystä linjauksia ja johtaa monia vääriä positiivisia otteluissa.,

vaikutus soveltamalla SEG algoritmi aminohappo järjestys on korvata jokainen jäännös, matalalla-monimutkaisuus alueella, jossa X-merkki: merkin, joka on määritetty pieni negatiivinen pisteet, kun linjassa tahansa merkkiä, mukaan lukien itsensä. Kohteen tiedot suodatetaan ennen koostumukseltaan säätää pisteytys matriisit lasketaan, ja esiintymät X-merkki ohitetaan, kun tietojenkäsittelyn koostumus järjestyksessä. Toisin kuin koostumus-säätökoodi, RÄJÄHDYSHAUN alustavat vaiheet eivät suodata koetietoja.,

seg-suodatusta voidaan soveltaa myös kyselyjaksoon. SEG suodatus kyselyn on command-line vaihtoehto sekä BLASTP ja TBLASTN. Ohjelmat eroavat toisistaan siinä, että kyselyn seg-suodatus on oletusarvoisesti pois päältä BLASTP: ssä, mutta oletusarvoisesti tblastn: ssä. Emme suodattaneet kyselyä tässä lehdessä raportoiduissa tuloksissa. SEG käytetyt parametrit suodatin aihe sekvenssi soveltaa korkeampi kynnys ilmoittaa alueen olevan low-complexity kuin oletusparametrit käytetään suodattaa kyselyn., Syystä, että kyselyn sekvenssi on enemmän tiukasti suodatetaan on, että kysely sekvenssi käytetään jokaisessa vaiheessa BLAST-algoritmia. SEG suodatus aihe vain tapahtuu loppuvaiheessa BLAST-haku, ja alle-suodatus tiedot sisällä aihe ikkuna on vaikutus vain yksi vertailu.

Computing koostumus aihe

Varten TBLASTN, sekvenssi tiedot ja aihe-alueet HSPs sisällä ikkunan käytetään määrittämään useita sisältää todennäköisesti oikein käännetty aminohappo tiedot., Ikkunaa etsitään tiukasti HSP: n aihealueen vasemmalta puolelta, jotta stop-koodonin oikeanpuoleisin esiintyminen löydettäisiin. Jos sellainen löytyy, niin sijainti 20 merkkejä oikealle stop-kodoni on vasen raja koostumus vaihtelevat, sillä rajoituksella, että koko aihe valikoiman HSP olla mukana. Jos stop-koodonia ei löydy, niin vasen päätepiste on ikkunan vasen päätepiste. Symmetristä sääntöä sovelletaan oikealle.,

tarkoitus ei ole välttämättä etsi stop-kodoni, että irtisanoo proteiinia, vaan käyttää läsnäolo stop kodonissa osoittavat, että hypoteettisesti käännetty kodonissa piilee noncoding alueella. Koodaamaton alue voikin olla aminohappojärjestyksen todellisen lopun sijaan intron. Koska emme ole yrität löytää päättämisestä stop-kodoni, ehdotamme symmetrinen sääntö määrittää sekvenssin välillä käyttää koostumus säätö vaikka biologinen käännös on epäsymmetrinen.,

satunnainen DNA-sekvenssi, jossa on 50% GC sisältöä, voisi odottaa löytävänsä stop-kodoni on hypoteettisesti käännetty aminohappojärjestys keskimäärin kerran 21 merkkiä. Siksi meidän instituutti 20 merkin välinen marginaali stop-kodoni ja välillä käyttää koostumus säätö -, rajoitus, että koko aihe valikoiman HSP olla mukana.

tietyllä alueella, TBLASTN katsoo vain 20-standardin aminohappoja, kun tietojenkäsittelyn koostumus; X-merkki, stop-merkin, ja kaikki muut kirjakieleen hahmot ovat täysin huomiotta., Kun sekvenssin pituus on käyttää koostumusta säätö algoritmeja, käytetty arvo ei lasketa esiintymät huomiotta merkkiä.

Computing koostumukseltaan-oikaistu pisteytys matriisit

Schäffer et al. ja Yu ym. näytä, miten 20 standardiaminohapon substituutiopisteitä voidaan säätää. Standardiaminohappoihin sovellamme näitä tekniikoita. Näissä papereissa ei kuitenkaan käsitellä harvoin esiintyviä aminohappoja, kaksikirjaimisia monitulkintaisia merkkejä, X-merkkiä tai stop-merkkiä., Keskustelemme X-ja stop-merkkien käsittelystä tässä osiossa, koska niitä esiintyy yleisesti TBLASTN-Hauissa. Keskustelemme muiden merkkien käsittelystä lisätiedostossa 3.

stop-merkki esiintyy usein käännetty sekvenssit ja joskus sisällä merkittäviä linjauksia. Esiintyminen stop-merkki ilmaisee yleensä, että yksi on kääntäminen noncoding alueen tai koodaus alueen väärään kehykseen. Tietysti stop-merkki voi myös yksinkertaisesti merkitä käännöksen lopun., Kuitenkin, stop-merkkiä esiintyä merkittäviä linjauksia useista syistä: aihe sekvenssi voi sisältää pseudogene; aihe sekvenssi voi olla mitokondrio-DNA, jossa tietyt kodonit, jotka ovat stop kodonien ydin-DNA: ta on käännetty totta aminohappoja ; aihe sekvenssi voi sisältää lopetuskodonin, joka muuttuu in vivo on selenocysteine tai pyrrolysine jäännös; aihe järjestyksessä, voi edustaa geeni, kuten hdc gene D. melanogaster, joka koodaa proteiinia tuote, jonka mRNA readthrough; tai voi olla sekvensointi virhe aihe järjestyksessä.,

stop-merkin asianmukainen pisteytys on tblastnille olennaista. Mikä tahansa merkki linjassa stop-merkki tulisi antaa negatiivinen tulos, mutta ei negatiivinen pisteet niin suuri suuruusluokkaa kuin kieltää voimassa linjaukset, joka sisältää lopetuskodonin. BLAST tasaisesti määrittää kirjeitä linjassa stop kodonissa olennainen pisteet, että koska asteikko käytetään, on mahdollisimman lähellä -2 bittiä.

Kuten juuri keskusteltu, biologisesti merkityksellisiä ja tilastollisesti merkitseviä TBLASTN rinnastuksia voi joskus sisältää käännetty stop kodonien., Kuitenkin läsnäolo monien stop kodonien noncoding alueiden ja out-of-frame koodaus alueilla tekee siitä erittäin epätodennäköistä, että nämä alueet tuottavat korkea-pisteytys linjauksia sattumalta. Näin ollen E-arvo laskelmat, TBLASTN olettaa, pituus-tietokannan sekvenssin pituus proteiinia tuottamat käännös yhdessä käsittelyssä runko, vaikka käännös on itse asiassa esiintynyt kaikissa kuudessa käsittelyssä kehyksiä., Että monet tietokanta DNA-sekvenssit ovat noncoding yli paljon niiden pituudet voivat olla yksi selitys yleensä konservatiivinen tilastoja S-TBLASTN ja C-TBLASTN Kuvassa 1.

Koska soveltamisen SEG algoritmi, X epäselvyyttä hahmo on yhteinen, ja hoitoon X-merkkiä voi merkittävästi vaikuttaa suorituskykyä algoritmi. Pisteytämme lähetykset X: llä seuraavasti. Kun joko koostumusta matriisi skaalaus tai koostumusta matriisi säätö on käytössä, korvaaminen tulokset on laskettu kaikki standardin aminohappoja.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., Toisin sanoen, pisteet vastaavat standardin aminohappo, jossa X on odotusarvo yli kaikkien otteluiden, että aminohappo standardin aminohappo, edellyttäen, että tämä arvo on pienempi kuin -1., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., Yhtälöä(1) vastaavaa kaavaa käytetään laskemaan pisteet, joilla X-merkki saadaan kyselyssä subjektin standardiaminohapolle. Pisteet kohdistamalla X itsessään on pienempi odotettu pistemäärä kohdistamalla tahansa kahden standardin aminohappoja ja -1, pyöristettynä lähimpään kokonaislukuun.

Suorittaa gapped yhdenmukaistaminen kehittäjä

– Rutiineja, joita sovelletaan koostumus-pohjainen tilastot eivät ole pelkästään rescore linjauksia, vaan laskekaa ne. Lähetykset lasketaan käyttäen jompaakumpaa kahdesta tekniikasta., Oletuksena x-pudota-algoritmia on sovellettu joukko lähtökohdat on määritelty luettelot HSPs edellyttäen aiemmista vaiheista BLAST-algoritmia. Tämän projektin aikana tehtyjen muutosten seurauksena voidaan vuorotellen määrittää, että jokaisessa ikkunassa sovelletaan tiukkaa Smith-Waterman-algoritmia. Jos käytetään X-drop-algoritmia, koostumus lasketaan erikseen jokaiselle reaaliaikaisesti toteutettavalle HSP: lle. Jos käytetään Smith-Waterman-algoritmia, ikkunan koostumuksen katsotaan olevan sen eniten pisteitä saaneen HSP: n koostumus., Yhdistäminen koostumus aihe-alueet useita HSPs sisällä ikkuna on ongelmallinen, koska HSPs eivät välttämättä kuulu samaan yhdenmukaistaminen, tai edes saman liittyy joukko linjauksia. Tblastn: n oletusarvo on käyttää x-drop-algoritmia, ja käytämme X-drop-algoritmia tässä asiakirjassa esitetyissä testeissä.

seuraava pseudokoodilla osoittaa, miten linjaukset vastaavat yhden kyselyn aihe ottelu on laskemaan uudelleen, kun x-pudota-algoritmia käytetään.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

Algoritmi 1

Redo linjauksia ikkunassa.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., On HSP katsotaan sisältyvän toisen HSP jos sen kyselyn ja jollei rajoja sisältyvät kysely ja aihe rajoja toisen HSP ja jos toinen HSP on yhtä suuri tai suurempi pisteet.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., Tällä tavalla, toistuvasti soittaa rutiini WITH_DISTINCT_ENDS varmistaa, että lopullinen luettelo linjauksia ei sisällä linjaus, jonka osakkeet päämäärä, jossa korkea-pisteytys linjaus. Kun kaksi linjauksia jakaa saman ominaisuuden, korkea-pisteytys yksi on ensisijainen linjaus; alempi-pisteytys linjaus on optimaalinen artefakti BLAST heuristiikka.

x-pudota-algoritmi vaatii lähtökohta (p q , p, s), joka pakottaa linjaus välillä offset p q kyselyn ja p t aihe. Se laskee linjauksen molempiin suuntiin tästä kohdasta alkaen., Kullekin määritetylle HSP: lle määritellään lähtöpiste. Jos mahdollista, HSP: n laskemiseen alun perin käytetty lähtökohta käytetään uudelleen. Koska vaikutukset SEG suodatus ja vasta lasketaan scoring matrix, kuitenkin, edellisen lähtökohtana voi enää olla toivottavaa; se voi olla alueella nonpositive pisteet. Keskustelemme säännöstä, jota käytetään vahvistamaan nykyinen lähtökohta, ja tarvittaessa valita uusi, lisätiedostossa 3: tblastn_suppl.pdf.,

Lopuksi, me huomauttaa, että Algoritmi 1 on myös oikea pseudokoodina varten BLASTP, joka suorittaa proteiini-kysely, proteiini-tietokannan haut. Ero on, että BLASTP on vain yksi ikkuna kunkin kohteen järjestyksessä: ikkuna, joka sisältää koko sarjan. Lisäksi BLASTP koostumus koko aihe järjestyksessä käytetään aina, kun suoritat koostumusta säätö. Siksi koostumukseltaan säätää matriisi on välttämättä sama jokaiselle HSP-ikkunassa ja tarvitsee vain laskettava kerran., Käytännössä samaa koodia käytetään sekä TBLASTN ja BLASTP toteuttaa Algoritmi 1, mutta BLASTP ehdollinen käytetään varmistamaan, että matriisi on laskettu vain kerran ikkunaan.

käytetyt testisarjat ja-ohjelmat

kuvataan alla tässä asiakirjassa esitettyjen tulosten tuottamiseen käytetyt erityiset executables-tiedostot, tietokokonaisuudet ja menetelmät. Muunnelmia TBLASTN raportoitu täällä on kirjoitettu C, ja, kuten myöhemmin todetaan, joitakin muunnelmia ovat saatavilla osana NCBI-C-ja C++ – ohjelmiston jakelut; laskennallinen moduulit mukana ovat peilattu kahden jakaumat., Lukuisia ylimääräisiä ohjelmia käytetään automatisoida testaus ja yhteenveto tulokset olivat kirjoitettu C, Perl, Python, ja Bourne shell script.

Ajettavat käytetään

TBLASTN on toimintatapa varten blastall suoritettavan. Tämä ohjelma on ladattavissa. C-TBLASTN-ja S-TBLASTN vaihtoehdot ovat saatavilla joukko vaihtoehtoja blastall suoritettavan. S-TBLASTNIIN vedotaan komentorivivaihtoehdoilla ”-p tblastn-F F-C 1”. C-TBLASTNIIN vedotaan samankaltaisten vaihtoehtojen avulla, mutta ”-C 1”: llä korvataan ”- C 2”. B-TBLASTN ei ole tällä hetkellä käytettävissä komentorivivaihtoehtoina., TBLASTN voidaan suorittaa ilman koostumus-pohjaisia tilastoja, jättämällä ”-C” vaihtoehto, mutta oletuksena versio toimii pienempi tarkkuus kuin B-TBLASTN. Ohjelmat, jotka ajaa B-TBLASTN ja erityisiä versioita S-TBLASTN ja C-TBLASTN käytetään tässä kirjassa ovat saatavilla lataa.

blastall suoritettavan oletusarvoisesti käyttää BLOSUM62 suorittaa linjauksia aminohappo-sekvenssit, ja tämä on matriisi, jota käytetään kaikissa vaiheissa, ennen kuin kokoonpano säätö on suoritettu. ”- F F ” – vaihtoehto poistaa kyselyjakson seg-suodatuksen käytöstä., Subjektijakson seg-suodatus on oletuksena päällä missä tahansa koostumuksen säätötilassa. Pidämme molempien sekvenssien suodattamista tarpeettomana; kun yritimme suodattaa molempia sekvenssejä, emme nähneet parannusta tilastollisessa tarkkuudessa, mutta emme nähneet Roc-pistemäärien vähenemistä (tietoja ei ole esitetty).

Testit käyttäen satunnaisesti muunnosten kyselyt

mitata, miten tehokas koostumus perustuvia tilastoja on poistaa vääriä otteluita, joilla on alhainen E-arvo, me suorittaa useita testejä käyttämällä satunnaisesti muunnosten aminohappo-sekvenssit hiiren (Mus musculus) genomin., Tuhat proteiinisekvenssiä valittiin satunnaisesti RefSeq – hiiriproteiiniluettelosta 10.tammikuuta 2006. Sekvenssit permutoitiin käyttämällä niiden GenBank-tunnistenumeroa siemenenä satunnaislukugeneraattorille. Permutoidut sekvenssit toimitetaan lisätiedostona 1.

suuntasimme muunnosten sekvenssit tietokantaan kromosomi sekvenssit viittaus kokoonpano rakentaa 35 ihmisen (Homo sapiens) genomin, joka julkaistiin 26. elokuuta 2004. Tietokanta sisältää kromosomit X ja Y ja sijoittamattomat sekvenssin palasia mukana rakentaa., Me pois mitokondrioiden genomin tietokannasta, kuitenkin, koska nämä sekvenssit ovat tiedossa (ks.) on erilainen geneettinen koodi kuin tuman DNA: han.

ROC pisteet testit hiivan genomin

Voit testata tehokkuutta eri liikennemuotojen koostumus säätö TBLASTN, me suorittaa useita testejä käyttämällä hiiva ydinvoiman genomin. Latasimme hiivan genomin NCBI: n henkilökunnan kuratoimasta referenssigenomeista. Versio genomin, että käytimme luotiin 16. Toukokuuta, 2005.,

linjasimme hiivan nukleotidin genomiin tblastn: n avulla joukon 102 proteiinialuetta. Tämä testisarja kehitettiin ensimmäistä kertaa tutkimusta varten . Päivitetty versio oli käytetty , jossa ihmisen kuratoinut luettelo tosi positiivinen ottelut hiiva proteome käytettiin luoda ROC tulokset. Tässä kuvattuja testejä varten päivitimme todellisen positiivisen listan vastaamaan julkaistun hiivan genomin muutoksia. Päivitetty lista sisältää 987 kysely-aihe ottelut 894 erillisiä sarjoja. Tässä asiakirjassa käytetty testisarjan versio toimitetaan lisätiedostona 2.,

hiivan genomin, jokainen tunnettu hiiva proteiini on selityksin sijainti ja osa sen koodaus alueella. Näiden merkintöjen avulla voimme mukauttaa tblastn: n kanssa käytettävää testisarjaa seuraavasti. Sillä TBLASTN, linjaukset on jaettu kolmeen ryhmään: (1) linjauksia, jotka vastaavat kyselyn koodaus alueella tunnettu tosi positiivinen ottelu; (2) linjauksia, jotka vastaavat kyselyn tiedossa koodaavan alueen, joka ei ole totta, positiivinen ottelu; ja (3) linjauksia, jotka eivät vastaa tunnettu koodaus alueella., Linjaus on sanottu, vastaamaan kyselyn koodaus alueella, jos aihe osan linjaus päällekkäisyyksiä koodaavan alueen ja on samalla lohkon.

ei ole harvinaista, että kyselyn ja koodausalueen välillä on useampi kuin yksi linjaus. Tämä on odotettavissa; proteiiniproteiinihaut raportoivat myös useita eriä proteiiniparien välillä. Kun on useampi kuin yksi kohdistus koodausalueelle, käytetään vain pienintä E-arvon kohdistusta tietyn kyselyn ja koodausalueen välillä laskettaessa ROC-pisteitä., Vastaavaa sääntöä ei pyritä soveltamaan ei-koodaaviin alueisiin. Kaikki lähetykset, jotka eivät ole päällekkäisiä koodausalueen luokitellaan vääriä positiivisia osumia ja lasketaan laskettaessa ROC pisteet.

teimme kaksi nimenomaista poikkeusta tähän hittien luokittelujärjestelmään. Ensimmäinen poikkeus on lisätä erityisesti pseudogene (Entrez Gene-TUNNUS 850644) luettelo koodaus alueilla ja tehdä pseudogene tosi positiivinen yksi kyselyt, nostaa mahdollisimman monta tosi positiivisia 988., Jokainen variantteja testattu löytynyt mukauttaminen tämä pseudogene E-arvo on pienempi kuin 10-12. Pseudogeeni ilmaistaan ja tuottaa tietyissä olosuhteissa toimivan proteiinin . Vaikka tämä alue on merkitty pseudogene, emme usko linjaus algoritmi olisi odotettavissa, jotta se erottuisi todellinen geeni. Toinen poikkeus on luokitella tiettyyn linjaus, että päällekkäisyyksiä yksi tosi positiivinen koodaus alueella, ja yksi väärä positiivinen koodaus alueella tosi positiivinen ottelu. Tämä päällekkäisyys ilmoitetaan kaikissa TBLASTN: n kolmessa versiossa.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Siirry työkalupalkkiin