Složení na bázi statistiky a přeložené nukleotidové vyhledávání: Zlepšení TBLASTN modul VÝBUCH | BMC Biology

V této části nastíníme algoritmus používá pro výpočet složení databáze sekvencí a aplikovat kompozice na bázi statistiky v TBLASTN. Dále popíšeme testy uvedené v tomto článku: použité spustitelné soubory, sady testů a podrobnosti o metodách.,

Složení úpravy v TBLASTN

VÝBUCH heuristiky použít obecný systém bodování, jako je PAM a BLOSUM série matice, zjistit, databáze sekvencí pravděpodobné, že k zarovnání dotazu a pravděpodobné, že výchozí body pro zarovnání. V BLAST, zarovnání je známé jako dvojice s vysokým skóre, nebo HSP. Seznam HSP pro každý významný pár dotazů a předmětů je vytvořen Pomocí vícestupňového algoritmu., V každé fázi, HSP mohou být vyřazeny z aktuálního seznamu z mnoha důvodů, včetně nedostatečně vysokého skóre, je obsažen v HSP s vyšším skóre, nebo sdílení koncového bodu s HSP s vyšším skóre. Výsledkem je, že zatímco každá po sobě jdoucí fáze algoritmu výbuchu vyžaduje pro každý HSP podstatně více výpočtů,je třeba zvážit méně HSP.

kompoziční nastavení, ať už se používá TBLASTN nebo jiné provozní režimy, se používá pouze v konečné fázi vyhledávání výbuchu., V této módy, režimy, které používají kompoziční úpravu aplikovat rychle heuristiky VYSOKÝCH najít regiony, které pravděpodobně obsahují, a výchozí body mohou vést k high-bodování zarovnání. Platí kompoziční úprava pouze před nejcitlivější a nejvíce výpočetně drahé zarovnání algoritmus, výpočet gapped zarovnání, která obsahuje informace specifikující umístění mezery, informace známý jako „traceback“., Seznam HSPs produkován této závěrečné gapped zarovnání, poté filtrován pro dostatečně významná nebo redundantní HSPs, je seznam prezentován uživateli.,idually na každý dotaz-téma-pair, jsou následující: (1) výpočet windows zájmu pomocí seznamu HSPs z předběžné fáze BLAST algoritmus; (2) získat přeložené subjektu údajů pro windows a filtr je odstranit nezajímavé subsequences; (3) vypočtěte složení předmětu regionu pro jednotlivé HSP seřídit; (4) výpočet bodovací matice pro jednotlivé HSP seřídit, na základě složení předmětu regionu, že HSP a o složení dotazu; (5) provést gapped vyrovnání s traceback přepočítat seznam HSPs, pomocí nové bodování matic., V praxi jsou tyto kroky na vysoké úrovni prokládány, aby se snížily požadavky na paměť.

Computing Windows of interest

pro každou shodu mezi dotazem a sekvencí předmětu je algoritmus kompoziční úpravy uveden samostatný seznam HSP. Každý HSP určuje spolu s dalšími informacemi rozsah v sekvenci předmětu, který byl zarovnán s dotazem. Tyto rozsahy se používají následujícím způsobem k výpočtu seznamu oken. Nejprve je vytvořen předběžný seznam oken pro sekvenci předmětu., Tento seznam obsahuje jedno okno pro každou HSP, okna, která obklopuje předmětu rozsah HSP, včetně 600 základny doleva a doprava předmětu rozsah, jestli to mnohem sekvence dat je k dispozici. Poté se vytvoří konečný seznam windows spojením systému windows ve stejném překladovém rámečku, Pokud se dotýkají nebo se překrývají. Pro každé okno je zachován seznam HSP odpovídající oknu.

získání a filtrování údajů o předmětu

údaje o předmětu nukleotidu v okně jsou získány a přeloženy pomocí rámce překladu tohoto okna., Algoritmus SEG s velikostí okna 10, low-cutoff 1.8 a high cutoff 2.1 se používá k maskování oblastí s nízkou složitostí v okně předmětu. Parametry byly vybrány jako výsledek studie. Oblast s nízkou složitostí obvykle dominuje několik odlišných zbytků často, ale ne vždy, v opakovaném vzoru. Typickými příklady jsou polyglycinové nebo polyprolinové monomery. Vyrovnání skóre, které zahrnují skóre, low-složitost regiony mají tendenci zveličovat význam zarovnání a vést k mnoha falešně pozitivní shody.,

efekt použití SEG algoritmus do sekvence aminokyselin je nahradit každé reziduum v low-složitost regionu s znak X: znak, který je přiřazen malý negativní skóre, když zarovnán na libovolný znak, včetně sebe sama. Předmětem jsou data filtrována, než kompozičně upravené bodování matice jsou vypočteny, a výskyty znak X, jsou ignorovány při výpočtu složení sekvence. Na rozdíl od kódu úpravy složení předběžné fáze vyhledávání výbuchu nefiltrují údaje o předmětu.,

filtrování SEG lze také použít na sekvenci dotazu. Filtrování dotazu SEG je volba příkazového řádku pro BLASTP i TBLASTN. Programy se liší v tom, že filtrování dotazu SEG je ve výchozím nastavení vypnuto v BLASTP, ale ve výchozím nastavení v TBLASTN. Dotaz jsme nefiltrovali v žádných výsledcích uvedených v tomto článku. Parametry SEG používané k filtrování sledu subjektu používají vyšší prahovou hodnotu pro deklaraci oblasti za nízkou složitost než výchozí parametry použité k filtrování dotazu., Důvodem, proč je sekvence dotazů přísněji filtrována, je to, že sekvence dotazu se používá v každé fázi algoritmu výbuchu. Seg filtrování subjektu dochází pouze v závěrečných fázích vyhledávání výbuchu, a pod-filtrování dat v okně předmětu bude mít vliv pouze na jediné srovnání.

Výpočetní složení předmětu

Pro TBLASTN, sekvenční data a předmět se pohybuje z HSPs v okně se používají k určení rozsahu mohou obsahovat správně přeložen aminokyselin data., Okno je prohledáváno striktně vlevo od rozsahu předmětu HSP, aby se našel pravý výskyt stop kodonu. Pokud je nalezen, pak umístění 20 znaků napravo od stop kodonu je levou hranicí rozsahu kompozice, s omezením, že bude zahrnut celý rozsah předmětu HSP. Pokud není nalezen žádný stop kodon, pak levý koncový bod je levý koncový bod okna. Symetrické pravidlo se aplikuje vpravo.,

záměrem není nutně lokalizovat stop kodon, který ukončí protein, ale spíše použít přítomnost stop kodonu k označení, že hypoteticky přeložený kodon leží v nekódující oblasti. Nekódující oblast může být spíše intron než skutečný konec sekvence aminokyselin. Protože jsme se snaží najít ukončení stop kodonu, navrhujeme symetrické pravidlo k určení rozsahu použití pro složení úpravu, i když biologické překlad je asymetrické.,

v náhodné sekvenci DNA s obsahem 50% GC by se dalo očekávat, že najde stop kodon v hypoteticky přeložené aminokyselinové sekvenci v průměru jednou za 21 znaků. Proto jsme institute 20 znaků rozpětí mezi stop kodonu a rozsah použití pro složení seřízení, s tím omezením, že celý předmět rozsah HSP být zahrnuty.

Daného regionu, TBLASTN považuje pouze 20 standardních aminokyselin při výpočtu složení; znak X, stop znak, a všechny další nestandardní znaky jsou zcela ignorovány., Pokud je délka sekvence použita v algoritmech kompoziční úpravy, použitá hodnota nepočítá výskyty ignorovaných znaků.

Výpočetní kompozičně upravené bodování matic

Schäffer et al. a Yu et al. ukažte, jak upravit skóre substituce pro 20 standardních aminokyselin. U standardních aminokyselin tyto techniky aplikujeme. Tyto dokumenty nemají, nicméně, diskutovat o léčbě zřídka se vyskytujících aminokyselin, dva-dopis nejednoznačnost postav, znak X nebo znak stop., V této části diskutujeme o léčbě znaků X a stop, protože se vyskytují běžně při vyhledávání TBLASTN. Diskutujeme o zacházení s ostatními znaky v dalším souboru 3.

znak stop se vyskytuje často v přeložených sekvencích a příležitostně v rámci významných zarovnání. Výskyt znaku stop obvykle znamená, že jeden překládá nekódující oblast nebo kódovací oblast v nesprávném rámečku. Samozřejmě, znak zastavení může také jednoduše označit konec překladu., Nicméně, stop znaky se vyskytují ve významné postavení z několika důvodů: předmět sekvence může obsahovat pseudogene; předmětem sekvence mohou být mitochondriální DNA, v níž některé kodony, které jsou stop kodony v jaderné DNA, jsou přeloženy na hodnotu true aminokyselin ; předmětem sekvence může obsahovat stop kodonu, který je převeden in vivo na selenocysteinu nebo pyrrolysine reziduí; předmětem sekvence může představovat genu, jako hdc genu v D. melanogaster, který kóduje protein produktu mRNA readthrough; nebo tam může být sekvenování chyba v předmětu pořadí.,

odpovídající bodování stop znaku je nezbytné pro TBLASTN. Libovolný znak zarovnán k zastavení postava by měla mít negativní skóre, ale ne negativní skóre tak velkém rozsahu, jako zakázat platné zarovnání obsahující stop kodon. BLAST rovnoměrně přiřadí písmena zarovnaná na stop kodon integrální skóre, které, vzhledem k použité stupnici, je co nejblíže -2 bitům.

jak se právě diskutovalo, biologicky smysluplné a statisticky významné zarovnání tblastnu může někdy obsahovat přeložené Stop kodony., Přítomnost mnoha kodonů zastavení v nekódujících regionech a regionech kódování mimo rámec je však velmi nepravděpodobné, že by tyto regiony náhodou přinesly vysoce bodované zarovnání. Proto pro E-hodnota výpočty, TBLASTN předpokládá, délka databáze sekvence délky bílkoviny získané na základě překladu v jediném čtení snímků, dokonce i když překlad je ve skutečnosti provádí ve všech šesti čtení snímků., Že mnozí databáze sekvencí DNA jsou noncoding po většinu své délky může být jedním z vysvětlení obecně konzervativní statistiky S-TBLASTN a C-TBLASTN je znázorněno na Obrázku 1.

vzhledem k použití algoritmu SEG je dvojznačný znak X běžný a léčba znaků X může významně ovlivnit výkon algoritmu. Bodujeme zarovnání s X následujícím způsobem. Pokud se používá buď kompoziční maticové škálování nebo kompoziční úprava matrice, jsou pro všechny standardní aminokyseliny vypočteny skóre substituce.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., Jinými slovy, skóre odpovídající standardní aminokyseliny s X je očekávaná hodnota za všechny zápasy, které aminokyselin se standardní aminokyselin, za předpokladu, že tato hodnota je menší než -1., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., Vzorec analogický rovnici (1) se používá k výpočtu skóre zarovnání x znak v dotazu na standardní aminokyseliny v předmětu. Skóre pro zarovnání X k sobě je menší z očekávaného skóre zarovnání dvou standardních aminokyselin a -1, zaokrouhlené na nejbližší celé číslo.

provádění gapped zarovnání s traceback

rutiny, které používají statistiky založené na složení nejsou jen rescore zarovnání, ale spíše jejich přepočítat. Zarovnání se vypočítá pomocí jedné ze dvou technik., Ve výchozím nastavení je algoritmus x-drop aplikován na sadu výchozích bodů uvedených v seznamech HSP poskytovaných z předchozích fází algoritmu výbuchu. V důsledku změn provedených v průběhu tohoto projektu lze střídavě specifikovat, že v každém okně bude použit přísný algoritmus Smith-Waterman. Pokud je použit algoritmus x-drop, je kompozice vypočítána individuálně pro každý HSP, který je realignován. Pokud je použit algoritmus Smith-Waterman, je složení okna považováno za složení jeho nejvyššího skóre HSP., Sdružování složení oblastí předmětu několika HSP v okně je problematické, protože HSP nemusí nutně patřit ke stejnému zarovnání, nebo dokonce ke stejné propojené sadě zarovnání. Výchozí v TBLASTNU je použít algoritmus x-drop a v testech uvedených v tomto článku používáme algoritmus x-drop.

následující pseudokód ukazuje, jak zarovnání odpovídá jeden dotaz-předmět zápasu jsou přepočítávány když x-drop je použit algoritmus.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

algoritmus 1

znovu zarovnání v okně.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., Na HSP je považován obsažené v druhém HSP, pokud jeho dotaz a téma hranice jsou obsaženy v dotazu a tématu hranice druhé HSP a pokud druhý HSP má stejné nebo vyšší skóre.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., V této módní, opakovaně volá rutinu WITH_DISTINCT_ENDS zajišťuje, že konečný seznam zarovnání neobsahuje vyrovnání, které sdílí koncový bod s vyšší bodování zarovnání. Když dvě zarovnání sdílejí stejný koncový bod, vyšší bodování je preferované zarovnání; zarovnání s nižším bodováním je suboptimálním artefaktem heuristiky výbuchu.

x-drop algoritmus vyžaduje výchozí bod (p, q , p, s), které způsobí vyrovnání mezi offset p q v dotazu a p s v předmětu. Počítá zarovnání v obou směrech od tohoto bodu., Výchozí bod je definován pro každý HSP, který je zarovnán. Pokud je to možné, použije se výchozí bod, který byl původně použit k výpočtu HSP. Vzhledem k účinkům filtrování SEG a nově vypočtené bodovací matice však již nemusí být předchozí výchozí bod žádoucí; může ležet v oblasti nepozitivního skóre. Diskutujeme o pravidle použitém k ověření stávajícího výchozího bodu a v případě potřeby vybereme nový, v dalším souboru 3: tblastn_suppl.pdf.,

nakonec si všimneme, že algoritmus 1 je také správný pseudokód pro BLASTP, který provádí vyhledávání proteinových dotazů, proteinových databází. Rozdíl je v tom, že pro BLASTP existuje pouze jedno okno pro každou sekvenci předmětu: okno, které obsahuje celou sekvenci. Navíc pro BLASTP se při provádění kompoziční úpravy vždy používá složení celé sekvence předmětu. Proto, kompozičně upravené matice je nezbytně stejné pro každou HSP v okně a musí být počítány jednou., V praxi se používá stejný kód pro oba TBLASTN a BLASTP implementovat Algoritmus 1, ale pro BLASTP podmíněné se používá k zajištění, že matrix je jen počítačová jednou pro každé okno.

použité testovací sady a programy

níže uvádíme konkrétní spustitelné soubory, datové sady a metody používané k generování výsledků uvedených v tomto článku. Varianty TBLASTN hlášeny zde byly napsány v C, a, jak je uvedeno níže, některé varianty jsou k dispozici jako součást NCBI C a C++ software distribuce; výpočetní moduly zapojeny jsou zrcadleny mezi dvěma distribucemi., Četné pomocné programy používané k automatizaci testování a shrnutí výsledků byly napsány ve skriptu C, Perl, Python a Bourne shell.

použité spustitelné soubory

TBLASTN je režim operace pro spustitelný soubor blastall. Tento spustitelný soubor je k dispozici ke stažení z. Varianty C-TBLASTN a S-TBLASTN jsou k dispozici jako sada možností spustitelného souboru blastall. S-TBLASTN se vyvolá pomocí volby příkazového řádku „-p tblastn-F F-C 1″. C-TBLASTN je vyvolán pomocí podobných možností, ale s“ – C 1 „nahrazeno“ – C 2″. B-TBLASTN není v současné době k dispozici jako sada možností příkazového řádku., TBLASTN může být spuštěn bez statistik založených na složení, vynecháním možnosti „- C“, ale výchozí verze běží s nižší přesností než B-TBLASTN. Spustitelné soubory, které běží B-TBLASTN a konkrétní verze S-TBLASTN A C-TBLASTN používané v tomto článku jsou k dispozici ke stažení na adrese.

blastall spustitelný ve výchozím nastavení používá BLOSUM62 provést zarovnání sekvencí aminokyselin, a to je matrix používá ve všech fázích, než složení seřízení se provádí. Volba „- F F “ zakáže seg filtrování sekvence dotazu., SEG filtrování sekvence předmětu je ve výchozím nastavení zapnuto v kterémkoli z režimů nastavení kompozice. Domníváme se, filtrování obou sekvencí být zbytečné, když jsme se snažili filtrování obou sekvencí, viděli jsme žádné zlepšení statistickou přesnost, ale viděl pokles v ROC výsledky (data nejsou zobrazena).

Testy pomocí náhodně deionizovaná dotazy

změřit, jak efektivní složení na bázi statistiky je na odstranění falešných shod s nízkými E-hodnota, provedli jsme sérii testů, pomocí náhodně deionizovaná sekvencí aminokyselin z myši (Mus musculus) genomu., Tisíc proteinových sekvencí bylo náhodně vybráno ze seznamu refseq myší proteiny aktuální 10. ledna 2006. Sekvence byly permutovány pomocí jejich GenBank identifikační číslo jako semeno na generátor náhodných čísel. Permutované sekvence jsou poskytovány jako další soubor 1.

permutované sekvence jsme zarovnali do databáze chromozomálních sekvencí z referenční sestavy 35 genomu člověka (Homo sapiens), vydané 26.srpna 2004. Databáze obsahuje chromozomy X a Y a neobsazené fragmenty sekvence obsažené v sestavení., Jsme vynechat mitochondriální genom z databáze, nicméně, jak tyto sekvence jsou známé (viz) mají jiný genetický kód než jaderná DNA.

Roc score testy na genomu kvasinek

pro testování účinnosti různých způsobů úpravy složení pro TBLASTN jsme provedli řadu testů pomocí kvasinkového jaderného genomu. Stáhli jsme genom kvasinek z, místo obsahující referenční genomy kurátorské pracovníky NCBI. Verze genomu, kterou jsme použili, byla vytvořena 16. května 2005.,

pomocí TBLASTNU jsme spojili sadu 102 proteinových domén s genomem kvasinkového nukleotidu. Tato testovací sada byla poprvé vyvinuta pro studium v. Aktualizovaná verze byla použita v , ve kterém člověk kurátor seznam pravda, pozitivní zápasy droždí proteomu byl použit pro generování ROC skóre. Pro zde popsané testy jsme aktualizovali skutečný pozitivní seznam, aby odrážel změny v publikovaném genomu kvasinek. Aktualizovaný seznam obsahuje 987 dotazů, které odpovídají 894 odlišným sekvencím předmětu. Verze testovací sady použité v tomto článku je k dispozici jako další soubor 2.,

v genomu kvasinek je každý známý kvasinkový protein anotován umístěním a pramenem jeho kódovací oblasti. Tyto poznámky nám umožňují přizpůsobit testovací sadu pro použití s TBLASTN následujícím způsobem. Pro TBLASTN, zarovnání jsou rozděleny do tří kategorií: (1) zarovnání, které odpovídají dotazu na kódování regionu známá pravda, pozitivní zápas; (2) zarovnání, které odpovídají dotazu na známé kódování regionu to není pravda, pozitivní zápas; a (3) zarovnání, které neodpovídají známým kódování regionu., Zarovnání se říká, aby odpovídalo dotazu na kódovací oblast, pokud se předmětová část zarovnání překrývá oblast kódování a je na stejném řetězci.

není neobvyklé, že existuje více než jedno zarovnání mezi dotazem a kódovací oblastí. Ve skutečnosti se to očekává; vyhledávání proteinů a bílkovin také hlásí více zarovnání mezi páry proteinů. Pokud existuje více než jedno zarovnání do oblasti kódování, při výpočtu skóre ROC se používá pouze nejnižší zarovnání E-hodnoty mezi konkrétním dotazem a oblastí kódování., Není učiněn žádný pokus aplikovat podobné pravidlo na nekódující regiony. Všechny zarovnání, které nepřekrývají kódovací oblast, jsou kategorizovány jako falešně pozitivní zápasy a počítají se při výpočtu ROC skóre.

udělali jsme dvě explicitní výjimky z tohoto schématu pro klasifikaci hitů. První výjimkou je přidat konkrétní pseudogene (Entrez Gene ID 850644) na seznam kódování regionů a aby pseudogene pravda, pozitivní pro jednoho z našich dotazů, zvýšení maximální možný počet pravda poplachů na 988., Každá z testovaných variant našla zarovnání s tímto pseudogenem s hodnotou E menší než 10-12. Pseudogen je exprimován a za určitých podmínek produkuje funkční protein . I když je tato oblast označena jako pseudogen, nevěříme, že by se měl očekávat algoritmus zarovnání, který by ji odlišil od skutečného genu. Druhou výjimkou je kategorizovat konkrétní zarovnání, které překrývá jednu pravou pozitivní kódovací oblast a jednu falešně pozitivní kódovací oblast jako skutečnou pozitivní shodu. Toto překrytí je hlášeno všemi třemi variantami TBLASTN.

Avenir

Condominium

Složení na bázi statistiky a přeložené nukleotidové vyhledávání: Zlepšení TBLASTN modul BLAST