Összetétel-alapú statisztikák és lefordított nukleotidkeresések: a BLAST | BMC Biológia TBLASTN moduljának javítása

TBLASTN moduljának javítása ebben a szakaszban vázoljuk az adatbázis-szekvenciák összetételének kiszámításához használt algoritmust, valamint a tblastn összetétel-alapú statisztikáinak alkalmazására. Ezután részletesen ismertetjük az ebben a dolgozatban ismertetett teszteket: az alkalmazott futtatható fájlokat, a tesztkészleteket, valamint a módszerek részleteit.,

kompozíciós kiigazítás tblastn

a robbanás heurisztika egy általános pontozási rendszert használ, mint például a PAM vagy BLOSUM mátrixok sorozata, hogy felfedezzék az adatbázis-sorozatokat, amelyek valószínűleg igazodnak a lekérdezéshez, és valószínűleg kiindulási pontok az igazításokhoz. A robbanás, igazítás ismert, mint egy magas pontozási pár, vagy HSP. A lista a HSP-k minden jelentős lekérdezés-tárgy pár segítségével jön létre egy többlépcsős algoritmus., A HSP-k minden egyes szakaszban több okból is kikerülhetnek a jelenlegi listáról, beleértve a nem elég magas pontszámot, a magasabb pontszámú HSP-ben való részvételt, vagy egy végpont megosztását egy magasabb pontszámú HSP-vel. Ennek eredményeként, míg minden egymást követő szakaszában a robbanás algoritmus igényel lényegesen több számítás minden HSP, kevesebb HSP kell figyelembe venni.

a kompozíciós beállítás, akár a TBLASTN, akár más üzemmódok használják, csak a ROBBANÁSKERESÉS utolsó szakaszában alkalmazható., Ilyen módon a kompozíciós kiigazítást alkalmazó módok a robbanás gyors heurisztikáját alkalmazzák a valószínűleg tartalmazó régiók megkeresésére, és a kiindulási pontok valószínűleg magas pontozási nyomvonalakhoz vezetnek. A kompozíciós kiigazítást csak a legérzékenyebb és leginkább számításigényes igazítási algoritmus, a gapped igazítás számítása előtt alkalmazzák, amely magában foglalja a hiányosságok helyét meghatározó információkat, a “traceback”néven ismert információkat., A végső gapped igazítás által előállított HSP-k listája, miután nem eléggé jelentős vagy redundáns HSP-kre szűrték, a felhasználó számára bemutatott lista.,idually, hogy minden lekérdezés-alá pár, a következők: (1) számítási windows érdekes a lista segítségével a hsp-k az előzetes szakaszában a ROBBANÁS algoritmus; (2) megszerzésére fordított tárgy adatok a windows, majd szűrjük, hogy távolítsa el érdektelen subsequences; (3) kiszámolja a kompozíció, a tárgy régió minden HSP, hogy felgyújtotta az otthonom, más; (4) számítási egy pontozási mátrix minden egyes HSP, hogy felgyújtotta az otthonom, más, összetétele alapján a tárgy régióban, hogy a HSP, valamint a kompozíció a lekérdezés; (5) végre egy gapped igazodás traceback, hogy vissza a listához a hsp-k, használja az új pontozási mátrixok., A gyakorlatban ezek a magas szintű lépések összefonódnak a memória követelményeinek csökkentése érdekében.

a lekérdezés és a tárgysorozat közötti minden egyes mérkőzés esetében a kompozíciós beállítási algoritmus külön listát kap a HSP-kről. Minden HSP más információkkal együtt meghatározza a lekérdezéshez igazított tárgysorozat tartományát. Ezeket a tartományokat a következőképpen használjuk a Windows listájának kiszámításához. Először létrejön a tárgysorozat ablakainak előzetes listája., Ez a lista egy ablakot tartalmaz minden HSP-hez, az ablakot, amely körülveszi a HSP tárgytartományát, beleértve a 600 bázist a tárgytartomány bal és jobb oldalán, ha ilyen sok szekvencia adat áll rendelkezésre. Ezután a windows végleges listáját úgy hozza létre, hogy ugyanabban a fordítási keretben csatlakozik a Windowshoz, ha megérinti vagy átfedi egymást. Minden ablak esetében az ablaknak megfelelő HSP-k listája megmarad.

A tárgyadatok megszerzése és szűrése

a nukleotid tárgyadatokat egy ablakban az adott ablak fordítási keretével kapjuk meg és fordítjuk le., A SEG algoritmust ablak mérete 10, alacsony vágási 1.8, magas vágási 2.1 használt maszk alacsony-összetett régiók a téma ablak. A paramétereket a vizsgálat eredményeként választották ki. Az alacsony komplexitású régiót általában néhány különálló maradék uralja, gyakran, de nem mindig, ismétlődő mintában. Tipikus példák a poliglicin vagy a poliprolin monomerek. Az alacsony komplexitású régiók pontszámait tartalmazó igazítási pontszámok általában túlbecsülik az igazítások jelentőségét, és sok hamis pozitív mérkőzést eredményeznek.,

a SEG algoritmus aminosav-szekvenciára történő alkalmazásának hatása az, hogy minden egyes maradékot egy alacsony komplexitású régióban az X karakterrel helyettesítik: egy olyan karakter, amely egy kis negatív pontszámot kap, ha bármely karakterhez igazodik, beleértve magát is. Az alanyi adatokat a kompozicionálisan beállított pontozási mátrixok kiszámítása előtt szűrjük, az X karakter előfordulásait pedig figyelmen kívül hagyjuk egy szekvencia összetételének kiszámításakor. A kompozíció-beállító kóddal ellentétben a ROBBANÁSKERESÉS előzetes szakaszai nem szűrik a tárgyadatokat.,

SEG szűrés is alkalmazható a lekérdezési sorrendben. A lekérdezés SEG szűrése parancssori lehetőség mind a BLASTP, mind a TBLASTN számára. A programok abban különböznek, hogy a lekérdezés SEG szűrése alapértelmezés szerint ki van kapcsolva a BLASTP-ben, de alapértelmezés szerint a TBLASTN-ben. Nem szűrtük a lekérdezést az ebben a tanulmányban jelentett eredményekben. A téma szekvenciájának szűrésére használt SEG paraméterek magasabb küszöbértéket alkalmaznak egy régió alacsony összetettségű deklarálására, mint a lekérdezés szűréséhez használt alapértelmezett paraméterek., Ennek oka, hogy a lekérdezés szekvencia több stringently szűrjük, hogy a lekérdezés szekvencia használják minden szakaszában a robbanás algoritmus. A téma SEG szűrése csak a ROBBANÁSKERESÉS utolsó szakaszában történik, az adatok alulszűrése egy tárgyablakban csak egyetlen összehasonlítást eredményez.

a tblastn esetében a szekvenciaadatokat és a HSP-k tárgytartományait egy ablakban használják egy olyan tartomány meghatározására, amely valószínűleg helyesen lefordított aminosavadatokat tartalmaz., Az ablakot szigorúan a HSP tárgytartományától balra keresi, hogy megtalálja a stop kodon jobb oldali előfordulását. Ha talál egyet, akkor a stop kodon jobb oldalán található 20 karakter a kompozíciós tartomány bal határa, azzal a korlátozással, hogy a HSP teljes tárgytartományát tartalmazza. Ha nem található stop kodon, akkor a bal végpont az ablak bal végpontja. A szimmetrikus szabályt jobbra alkalmazzák.,

a szándék nem feltétlenül az, hogy keresse meg a stop kodon, amely megszünteti a fehérje, hanem használni a jelenlétét a stop kodon jelzi, hogy a hipotetikusan lefordított kodon fekszik egy nem kódoló régióban. Valójában a nem kódoló régió inkább intron lehet, mint az aminosav-szekvencia valódi vége. Mert mi nem próbál találni egy megszakítása a stop kodon, javasoljuk, szimmetrikus szabály határozza meg a sorrendet tartomány használata a kompozíció beállítása bár biológiai fordítás aszimmetrikus.,

egy 50% GC tartalmú véletlenszerű DNS-szekvenciában elvárható, hogy 21 karakterenként átlagosan egy hipotetikusan lefordított aminosav-szekvenciában találjunk stop kodont. Ezért létrehozunk egy 20 karakteres margót a stop kodon és a kompozíció beállításához használandó tartomány között, azzal a korlátozással, hogy a HSP teljes tárgytartományát be kell vonni.

adott régióban a tblastn csak a 20 standard aminosavat veszi figyelembe az összetétel kiszámításakor; az X karaktert, a stop karaktert és az összes többi nem szabványos karaktert teljesen figyelmen kívül hagyják., Ha a szekvencia hosszát használják a kompozíciós beállítási algoritmusokban, az alkalmazott érték nem számít figyelmen kívül hagyott karakterek előfordulásának.

computing compositionally-korrigált pontozási mátrixok

Schäffer et al. és Yu et al. mutassa be, hogyan állíthatja be a helyettesítési pontszámokat a 20 standard aminosavhoz. A standard aminosavak esetében ezeket a technikákat alkalmazzuk. Ezek a papírok azonban nem tárgyalják a ritkán előforduló aminosavak, kétbetűs kétértelműségi karakterek, az X karakter vagy a stop karakter kezelését., Megbeszéljük a kezelés az X és stop karakterek ebben a szakaszban, mert gyakran előfordulnak tblastn keresések. Megbeszéljük a kezelés a többi karakter további Fájl 3.

a stop karakter gyakran fordul elő lefordított szekvenciákban, esetenként jelentős nyomvonalakon belül. A stop karakter előfordulása általában azt jelzi,hogy egy nem kódoló régiót vagy kódolási régiót rossz keretben fordít. Természetesen a stop karakter is egyszerűen megjelölheti a fordítás végét., Azonban ne karakter előfordulnak jelentős módosításokat, több okból is: a tárgy sorozat tartalmazhat pseudogene; a tárgy sorrendben lehet a mitokondriális DNS-t, amely bizonyos kodon alapján, amelyek stop kodon alapján a nukleáris DNS-lefordítottak igaz, aminosavak ; a tárgy sorozat tartalmazhat egy stop kodon, hogy az átalakított in vivo, hogy egy selenocysteine vagy pyrrolysine maradék; a tárgy sorozat is képviselhet, egy gén, mint például a hdc gene D. melanogaster, hogy kódolja egy fehérje, amelyet a terméknek az mrns readthrough; vagy lehet, hogy egy sorrendi hiba a tárgy sorozat.,

a stop karakter megfelelő pontozása elengedhetetlen a TBLASTN számára. A stop karakterhez igazított bármely karakternek negatív pontszámot kell kapnia, de nem olyan nagy méretű negatív pontszámot, amely letiltja a stop kodont tartalmazó érvényes nyomvonalakat. BLAST egyenletesen rendel betűket igazítva a stop kodon egy integrált pontszámot, mivel a skála használt, a lehető legközelebb -2 bit.

amint arról már beszámoltunk, a biológiailag értelmes és statisztikailag szignifikáns tblastn igazítások néha tartalmazhatnak lefordított stop kodonokat., A nem kódoló régiókban és a kereten kívüli kódoló régiókban sok stop kodon jelenléte azonban nagyon valószínűtlen, hogy ezek a régiók véletlenszerűen magas pontozási kiigazításokat eredményeznének. Ennek megfelelően az E-érték számításokhoz a tblastn feltételezi, hogy az adatbázis-szekvencia hossza az egyetlen olvasási keretben történő fordítással előállított fehérje hossza, annak ellenére, hogy a fordítást valójában mind a hat olvasási keretben végzik., Az, hogy sok adatbázis-DNS-szekvencia hosszúságuk nagy részét nem kódolja, az egyik magyarázat lehet az S-TBLASTN és a C-TBLASTN általában konzervatív statisztikáira, az 1.ábrán látható.

a SEG algoritmus alkalmazása miatt gyakori az X kétértelműségi karakter, az X karakterek kezelése pedig jelentősen befolyásolhatja az algoritmus teljesítményét. Az X-szel az alábbiak szerint állítjuk össze az igazításokat. Ha kompozíciós mátrix skálázást vagy kompozíciós mátrix-beállítást alkalmaznak, akkor a helyettesítési pontszámokat minden standard aminosavra kiszámítják.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., Más szavakkal, a standard aminosav X-szel való illesztésének pontszáma az aminosav összes mérkőzésének várható értéke egy standard aminosavval, feltéve, hogy ez az érték kevesebb, mint -1., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., Az(1) egyenlethez hasonló képletet arra használják, hogy kiszámítsák az X karakternek a lekérdezésben szereplő standard aminosavhoz való igazításának pontszámát. Az X önmagához való igazításának pontszáma a két standard aminosav és -1 összehangolásának várható pontszáma közül a kisebb, a legközelebbi egész számra kerekítve.

A traceback

összetétel-alapú statisztikákat alkalmazó rutinok esetében a gapped igazítás végrehajtása nem csupán visszavonja az igazításokat, hanem megtéríti azokat. Az igazításokat két technika egyikével számítják ki., Alapértelmezés szerint az x-drop algoritmust a BLAST algoritmus korábbi szakaszaiból származó HSP-k listáiban megadott kiindulási pontokra alkalmazzák. A projekt során végrehajtott módosítások eredményeként felváltva meghatározható, hogy a szigorú Smith-Waterman algoritmust minden ablakban alkalmazzák. Ha az x-drop algoritmust alkalmazzák, a kompozíciót minden egyes hozzárendelt HSP-re külön számítják ki. Ha a Smith-Waterman algoritmust használják, akkor az ablak összetételét a legmagasabb pontszámú HSP összetételének kell tekinteni., Az egyes HSP-k tárgyrégióinak egy ablakon belüli összevonása problematikus, mivel a HSP-k nem feltétlenül tartoznak ugyanahhoz az igazításhoz, vagy akár ugyanazon összekapcsolt nyomvonalakhoz. A tblastn-ban az alapértelmezett az x-drop algoritmus használata, a dolgozatban bemutatott tesztekben pedig az x-drop algoritmust használjuk.

a következő pszeudokód azt mutatja, hogy az x-drop algoritmus használatakor az egy lekérdezés tárgyát képező egyezésnek megfelelő nyomvonalakat hogyan kell újraszámolni.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

1. algoritmus

új nyomvonalak egy ablakban.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., A HSP akkor tekinthető egy második HSP-ben foglaltnak, ha a lekérdezés és a tárgy határait a második HSP lekérdezési és tárgyhatárai tartalmazzák, és ha a második HSP-nek egyenlő vagy magasabb pontszáma van.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., Ilyen módon a WITH_DISTINCT_ENDS rutin ismételt hívása biztosítja, hogy az igazítások végleges listája ne tartalmazzon olyan igazítást, amely egy végpontot magasabb pontozási igazítással oszt meg. Ha két nyomvonalaknak ugyanaz a végpontja van, akkor a magasabb pontozású az előnyben részesített igazítás; az alacsonyabb pontozású igazítás a robbanás heurisztikájának szuboptimális tárgya.

az x-drop algoritmus olyan kiindulási pontot (p q , p s ) igényel, amely a lekérdezésben a P Q eltolás és a tárgyban a P s közötti igazítást kényszeríti. Ebből a pontból kiindulva mindkét irányban igazítást számít., A kiindulási pont meghatározása minden HSP, amely igazodik. Ha lehetséges, az eredetileg a HSP kiszámításához használt kiindulási pontot újra felhasználják. A SEG-szűrés és az újonnan kiszámított pontozási mátrix hatása miatt azonban az előző kiindulási pont már nem kívánatos; lehet, hogy a nempozitív pontszám régiójában fekszik. Megbeszéljük a meglévő kiindulási pont érvényesítéséhez használt szabályt, és ha szükséges, válasszon egy újat, a 3. Kiegészítő fájlban: tblastn_suppl.pdf.,

végül megjegyezzük, hogy az 1.algoritmus szintén helyes pszeudokód a BLASTP számára, amely fehérje-lekérdezést, fehérje-adatbázis-keresést végez. A különbség az, hogy a BLASTP esetében minden egyes tárgysorozathoz csak egy ablak van: az ablak, amely tartalmazza a teljes sorozatot. Ezenkívül a BLASTP esetében a teljes tárgysorozat összetételét mindig a kompozíciós beállítás végrehajtásakor használják. Ezért a kompozicionálisan beállított mátrix szükségszerűen azonos minden egyes HSP-hez egy ablakban, és csak egyszer kell kiszámítani., A gyakorlatban ugyanazt a kódot használják mind a TBLASTN, mind a BLASTP számára az 1. algoritmus végrehajtásához, de a BLASTP esetében feltételes módszert alkalmaznak annak biztosítására, hogy a mátrixot minden ablakhoz csak egyszer számítsák ki.

használt tesztkészletek és programok

az alábbiakban ismertetjük a konkrét végrehajtható fájlokat, adatkészleteket, valamint a jelen dolgozatban bemutatott eredmények előállításához használt módszereket. Az itt közölt tblastn variánsait C-ben írták, és amint azt az alábbiakban megjegyeztük, néhány változat az NCBI C és C++ szoftver disztribúciók részeként érhető el; az érintett számítási modulok tükröződnek a két disztribúció között., A tesztelés automatizálására és az eredmények összefoglalására használt számos segédprogram C, Perl, Python és Bourne shell szkriptben íródott.

A

TBLASTN a blastall futtatható fájl működési módja. Ez a futtatható letölthető innen. A C-TBLASTN és az S-TBLASTN változatok a blastall futtatható állományának opciói. Az S-TBLASTN a “-p tblastn-F F-C 1 ” parancssori opciókkal hívható meg. A C-TBLASTN hasonló opciókkal kerül meghívásra, de a”- C 1 “helyett a”- C 2″. A B-TBLASTN jelenleg nem érhető el parancssori beállításként., Tblastn lehet futtatni anélkül összetétel-alapú statisztikák, kihagyva a “- C ” opciót, de az alapértelmezett verzió fut kisebb pontossággal, mint a B-TBLASTN. A B-TBLASTN-t futtató futtatható fájlok, valamint az ebben a cikkben használt s-TBLASTN és C-TBLASTN speciális verziói letölthetők.

a blastall futtatható alapértelmezés szerint a BLOSUM62-t használja az aminosav-szekvenciák igazításához, és ez a mátrix, amelyet minden szakaszban használnak a kompozíció beállítása előtt. A” – F F ” opció letiltja a lekérdezési sorrend SEG szűrését., A tárgy szekvencia SEG szűrése alapértelmezés szerint be van kapcsolva a kompozíció beállítási módjainak bármelyikében. Mindkét szekvencia szűrését feleslegesnek tartjuk; amikor mindkét szekvencia szűrését megpróbáltuk, nem láttuk a statisztikai pontosság javulását, de a ROC pontszámok csökkenését tapasztaltuk (az adatok nem jelennek meg).

tesztek véletlenszerűen permutált lekérdezésekkel

annak mérésére, hogy a kompozíció-alapú statisztikák mennyire hatékonyak az alacsony E-értékű hamis egyezések kiküszöbölésében, tesztsorozatot végeztünk véletlenszerűen permutált aminosavszekvenciák felhasználásával az egér (Mus musculus) genomjából., 2006.január 10-én véletlenszerűen ezer fehérjeszekvenciát választottak ki a RefSeq egérfehérjék listájából. Szekvenciák permutált segítségével GenBank azonosító szám, mint a mag egy véletlenszám-generátor. A permutált szekvenciák további fájlként vannak megadva 1.

a permutált szekvenciákat a kromoszóma szekvenciák adatbázisához igazítottuk az emberi (Homo sapiens) Genom 35 felépítésének referencia-összeállításából, megjelent 2004.augusztus 26. Az adatbázis tartalmazza az X és Y kromoszómákat, valamint az építményben szereplő nem kívánt szekvencia-töredékeket., A mitokondriális genomot azonban kihagytuk az adatbázisból, mivel ezek a szekvenciák ismertek (lásd), hogy más genetikai kóddal rendelkeznek, mint a nukleáris DNS.

ROC pontszám tesztek az élesztő genomján

a tblastn különböző összetételmódjainak hatékonyságának tesztelésére számos tesztet végeztünk az élesztő nukleáris Genom használatával. Letöltöttük az élesztő genomját, egy olyan webhely, amely referencia genomokat tartalmaz, amelyeket az NCBI munkatársai kuráltak. Az általunk használt Genom verzióját 2005.május 16-án hozták létre.,

a tblastn segítségével 102 fehérjetartományt igazítottunk az élesztő nukleotid genomjához. Ezt a tesztkészletet először a vizsgálathoz fejlesztették ki . Frissített verziót használtunk, amelyben a ROC pontszámok előállításához az élesztőproteome valódi pozitív egyezéseinek emberi kurátora listáját használták fel. Az itt leírt tesztekhez frissítettük az igazi pozitív listát, hogy tükrözze a közzétett élesztő Genom változásait. A frissített lista 987 lekérdezés-tárgy mérkőzést tartalmaz 894 különálló tárgysorozathoz. Az ebben a dolgozatban használt tesztkészlet verziója kiegészítő fájlként van megadva 2.,

az élesztő genomjában minden ismert élesztőproteinnek van egy jelölése a kódolási régió helyével és szálával. Ezek a megjegyzések lehetővé teszik számunkra, hogy a tblastn-hez használt tesztkészletet az alábbiak szerint igazítsuk. A TBLASTN, nyomvonalakat három kategóriába sorolhatók: (1) nyomvonalakat, ami megegyezik egy lekérdezést a kódoló régióban egy ismert valódi pozitív mérkőzés; (2) a módosításokat, amelyek megfelelnek egy lekérdezést egy ismert kódoló régióban ez nem igaz pozitív mérkőzés; valamint (3) nyomvonalakat, hogy nem egyezik, egy ismert kódoló régióban., Azt mondják, hogy egy igazítás megfelel egy lekérdezésnek egy kódolási régiónak, ha az igazítás tárgyrésze átfedi a kódolási régiót, és ugyanazon a szálon van.

nem ritka, hogy egy lekérdezés és egy kódolási régió között egynél több igazítás van. Valójában ez várható; a fehérje-fehérje keresések a fehérjék párjai közötti többszörös igazítást is jelentik. Ha egynél több igazítás van egy kódolási régióhoz, akkor a ROC pontszámok kiszámításakor csak az adott lekérdezés és a kódolási régió közötti legalacsonyabb E-érték igazítást kell használni., Nincs kísérlet arra, hogy hasonló szabályt alkalmazzanak a nem kódoló régiókra. Minden igazítás, amely nem fedi át a kódolási régiót, hamis pozitív egyezésként van besorolva, és a ROC pontszámok kiszámításakor számítják.

két kifejezett kivételt tettünk e rendszer alól a találatok osztályozására. Az első kivétel az, hogy egy adott pszeudogént (Entrez Gene ID 850644) adunk a kódolási régiók listájához, és a pszeudogént valódi pozitívvá tesszük az egyik lekérdezésünkre, növelve a valódi pozitívumok maximális számát 988-ra., A vizsgált változatok mindegyike igazodást talált ehhez a pszeudogénhez, amelynek E-értéke kisebb, mint 10-12. A pszeudogén bizonyos körülmények között funkcionális fehérjét termel . Bár ezt a régiót pszeudogénnek jelöljük, nem gondoljuk, hogy egy igazítási algoritmustól elvárható, hogy megkülönböztesse azt egy valódi géntől. A második kivétel egy olyan igazítás kategorizálása, amely egy valódi pozitív kódolási régiót, egy hamis pozitív kódolási régiót valódi pozitív egyezésként fed le. Ezt az átfedést a tblastn mindhárom változata jelenti.

Avenir

Condominium

összetétel – alapú statisztikák és lefordított nukleotidkeresések: a BLAST