合成に基づく統計と翻訳されたヌクレオチド検索:BLASTのTBLASTNモジュールの改善

このセクションでは、データベースシーケンスの合成を計算し、tblastnに合成に基づく統計を適用するために使用されるアルゴリズムについて概説します。 次に,使用される実行可能ファイル,テストセット,およびメソッドに関する詳細について報告したテストについてさらに述べた。,

Tblastnにおける組成調整

BLASTヒューリスティックスは、行列のPAMシリーズやBLOSUMシリーズなどの一般的なスコアリングシステムを使用して、クエリに整列する可能性のあるデータベースシーケンスおよび整列の開始点を検出します。 BLASTでは、アライメントはhigh-scoring pair、またはHSPとして知られています。 各重要なクエリ-サブジェクトペアのHspのリストは,多段アルゴリズムを用いて作成される。, 各段階において、Hspは、十分に高いスコアを有すること、より高いスコアのHSPに含まれること、またはより高いスコアのHSPとエンドポイントを共有することを含む多くの理由により、現在のリストから除外されることがある。 その結果、BLASTアルゴリズムの連続する各段階は、各HSPに対してかなり多くの計算を必要とするが、より少ないHspを考慮する必要がある。

組成調整は、TBLASTNまたは他の操作モードによって使用されるかどうかにかかわらず、BLAST検索の最終段階でのみ適用されます。, このように、組成調整を使用するモードでは、BLASTの高速ヒューリスティックを適用して、高スコアの整列を含む可能性のある領域と、高スコアの整列につながる可能性のある開始点を特定します。 これらは、最も敏感で最も計算コストの高いアライメントアルゴリズム、ギャップの位置を指定する情報、”トレースバック”と呼ばれる情報を含むギャップアライメントの計算の前にのみ組成調整を適用します。, この最終ギャップアライメントによって生成されたHspのリストは、不十分に有意なHspまたは冗長Hspについてフィルタリングされた後に、ユーザに提示,(1)BLASTアルゴリズムの予備段階からHspのリストを使用して目的のウィンドウを計算する、(2)ウィンドウの翻訳されたサブジェクトデータを取得し、それをフィルタリングして興味のないサブシーケンスを削除する、(3)再調整される各HSPのサブジェクト領域の構成を計算する、(4)そのHSPのサブジェクト領域の構成とクエリの構成に基づいて、再調整される各HSPのスコア行列を計算する、(5)トレースバックでギャップアライメントを実行する。新しいスコアリング行列を使用したhsp。, 実際には、これらの高レベルのステップインターリーブ方式の削減へのメモリ。

対象のコンピューティングウィンドウ

クエリとサブジェクトシーケンス間の一致ごとに、組成調整アルゴリズムにはhspの個別のリストが与えられます。 各HSPは、他の情報とともに、クエリに整列されたサブジェクトシーケンス内の範囲を指定します。 これらの範囲は次のように用いられる計算の一覧です。 まず、対象シーケンスのウィンドウの予備リストが作成されます。, このリストには、hspのサブジェクト範囲を囲むウィンドウが含まれており、その多くのシーケンスデータが利用可能であれば、サブジェクト範囲の左右に600個の塩基が含まれています。 そして、最終リストのwindowsで作成した接合windowsの翻訳フレームの場合接触部分が重なっているのです。 各ウィンドウに対して、そのウィンドウに対応するHspのリストが維持される。

対象データの取得とフィルタリング

ウィンドウ内のヌクレオチド対象データを取得し、そのウィンドウの翻訳フレームを使用して翻訳します。, ウィンドウサイズ10、ローカットオフ1.8、およびハイカットオフ2.1のSEGアルゴリズムは、サブジェクトウィンドウ内の低複雑度領域をマスクする パラメータは、研究の結果として選択されました。 低複雑性領域は、典型的には、しばしば、常にではないが、反復的なパターンでいくつかの異なる残基によって支配される。 典型的な例は、ポリグリシンまたはポリプロリンモノマーである。 複雑度の低い領域のスコアを含む整列スコアは、整列の重要性を誇張する傾向があり、多くの偽陽性の一致につながります。,

SEGアルゴリズムをアミノ酸配列に適用する効果は、低複雑度領域内の各残基をX文字に置き換えることです。X文字は、それ自体を含む任意の文字に揃えられたときに小さな負のスコアが割り当てられます。 合成的に調整されたスコアリング行列が計算される前に、対象データがフィルタリングされ、シーケンスの合成を計算するときにX文字の出現は無視さ 合成調整コードとは異なり、BLAST検索の予備段階では、対象データをフィルタリングしません。,

SEGフィルタリングは、クエリシーケンスにも適用され得る。 クエリのSEGフィルタリングは、BLASTPとTBLASTNの両方のコマンドラインオプションです。 プログラムは、クエリのSEGフィルタリングがBLASTPでは既定でオフになっていますが、TBLASTNでは既定でオンになっています。 この論文で報告された結果では、クエリをフィルタリングしませんでした。 サブジェクトシーケンスをフィルタリングするために使用されるSEGパラメーターは、クエリをフィルタリングするために使用される既定のパラメーターよ, そのクエリ配列がより厳格なフィルタはこのクエリ配列を使用しの各段階でのブラストアルゴリズムです。 被験者のSEGフィルタリングはBLAST検索の最終段階でのみ行われ、被験者ウィンドウ内のデータのアンダーフィルタリングは単一の比較のみに影響します。

対象の組成の計算

TBLASTNについては、ウィンドウ内のHspの配列データおよび対象範囲を使用して、正しく翻訳されたアミノ酸データを含む可能性, このウィンドウは、停止コドンの右端の出現を見つけるために、HSPの主題範囲の左側に厳密に検索されます。 一つが見つかった場合、停止コドンの右側にある20文字の位置は、hspの被験者範囲全体を含めるという制限付きで、組成範囲の左の境界である。 ストップコドンが見つからない場合、左の端点はウィンドウの左の端点です。 左右対称ルールが適用されます。,

目的は、タンパク質を終了させる停止コドンを位置決めすることではなく、仮に翻訳されたコドンが非コード領域にあることを示すために停止コドンの存在を使用することである。 実際、非コーディング領域は、アミノ酸配列の真の末端ではなく、イントロンであり得る。 我々は終了停止コドンを見つけようとしていないので、我々は生物学的翻訳が非対称であっても、組成調整のために使用する配列範囲を決定するため,

GC含量が50%のランダムなDNA配列では、21文字ごとに平均して仮説的に翻訳されたアミノ酸配列に停止コドンを見つけることが期待されます。 したがって、停止コドンと組成調整に使用する範囲との間に20文字のマージンを設定し、HSPの被験者範囲全体を含めるという制限を設けます。

特定の領域が与えられた場合、tblastnは合成を計算するときに20個の標準アミノ酸のみを考慮します。X文字、停止文字、およびその他のすべての非標準文字は完全に無視されます。, シーケンスの長さが組成調整アルゴリズムで使用される場合、使用される値は無視された文字の出現回数をカウントしません。

コンピューティング組成調整スコアリング行列

Schäffer et al. およびYu et al. 20の標準アミノ酸の置換スコアを調整する方法を示します。 標準的なアミノ酸については、これらの技術を適用します。 しかし、これらの論文は、めったに発生しないアミノ酸、二文字のあいまいさ文字、X文字、または停止文字の治療については議論していません。, TBLASTN検索で一般的に発生するため、このセクションではX文字と停止文字の扱いについて説明します。 追加ファイル3の他の文字の扱いについて議論します。

停止文字は、翻訳されたシーケンスで頻繁に発生し、重要な整列の範囲内で発生することがあります。 停止文字の出現は、通常、非符号化領域または誤ったフレーム内の符号化領域を翻訳していることを示します。 もちろん、停止文字は単に翻訳の終了をマークすることもできます。, しかしながら、停止文字はいくつかの理由によって重要な整列の中で生じる:主題配列は偽遺伝子を含む可能性がある;主題配列はミトコンドリアDNAであり、核DNA中の停止コドンである特定のコドンが真のアミノ酸に翻訳される可能性がある;主題配列はin vivoでセレノシステインまたはピロリジン残基に変換される停止コドンを含む可能性がある;主題配列はd.melanogasterのhdc遺伝子のような遺伝子を表す可能性があり、mRNAの読み取りによってタンパク質産物をコードする可能性がある;または主題配列に配列決定エラーがある可能性がある。,

tblastnには、停止文字の適切なスコアリングが不可欠です。 停止文字に整列された文字には負のスコアを与えるべきであるが、停止コドンを含む有効な整列を禁止するような大きさの負のスコアは与えない。 BLASTは、ストップコドンに整列された文字に、使用されているスケールができるだけ-2ビットに近い整数スコアを均一に割り当てます。

先ほど説明したように、生物学的に意味のある統計的に有意なTBLASTNアラインメントは、翻訳された停止コドンを含むことがあります。, しかし、非コーディング領域およびアウトオブフレームコーディング領域に多くのストップコドンが存在すると、これらの領域が偶然に高いスコアリング したがって、E値計算のために、TBLASTNは、翻訳が実際に六つの読み取りフレームすべてで実行されるにもかかわらず、単一の読み取りフレームで翻訳によって得られるタンパク質の長さであるとデータベース配列の長さを仮定する。, 多くのデータベースDNA配列がその長さの多くにわたって非コーディングされていることは、図1に示すS-TBLASTNとC-TBLASTNの一般的に保守的な統計の一つの説明

SEGアルゴリズムの適用のために、Xのあいまいさの特性は共通であり、Xの特性の扱いはアルゴリズムの性能にかなり影響を与えることができる。 次のようにXとの整列を採点します。 組成行列スケーリングまたは組成行列の調整のいずれかを使用する場合、すべての標準アミノ酸について置換スコアが計算されます。,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., 言い換えれば、標準アミノ酸とXを一致させるスコアは、そのアミノ酸と標準アミノ酸のすべての一致に対する期待値であり、この値が-1未満である, For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., 式(1)に類似した式を使用して、クエリ内のX文字を対象の標準アミノ酸に整列させるスコアを計算します。 Xをそれ自身に整列させるためのスコアは、任意の二つの標準アミノ酸を整列させる予想スコアのうち小さく、-1、最も近い整数に丸められます。

トレースバックを使用したギャップ付きアライメントの実行

構成ベースの統計を適用するルーチンは、単にアライメントを再スコアするのではなく、 整列は、二つの手法のいずれかを使用して計算されます。, デフォルトでは、X-dropアルゴリズムは、BLASTアルゴリズムの前の段階から提供されるHspのリストで指定された開始点のセットに適用されます。 このプロジェクトの過程で行われた変更の結果、厳密なSmith-Watermanアルゴリズムを各ウィンドウ内で適用することを交互に指定することができます。 X-dropアルゴリズムが適用される場合、合成は再配置される各HSPに対して個別に計算されます。 Smith-Watermanアルゴリズムが使用されている場合、ウィンドウの構成は、その最高得点のHSPの構成とみなされます。, Hspは必ずしも同じアライメント、または同じリンクされたアライメントのセットに属しているわけではないため、ウィンドウ内のいくつかのHspの主 TBLASTNのデフォルトはx-dropアルゴリズムを使用することであり、このペーパーで示すテストではx-dropアルゴリズムを使用します。

次の擬似コードは、x-dropアルゴリズムを使用するときに、単一のクエリサブジェクト一致に対応する整列がどのように再計算されるかを示しています。,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

アルゴリズム1

ウィンドウで整列をやり直します。,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., HSPは、その問合せおよび主題境界が第二のHSPの問合せおよび主題境界に含まれており、第二のHSPが等しいか高いスコアを有する場合、第二のHSPに含まれているとみなされる。,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., この方法では、ルーチンWITH_DISTINCT_ENDSを繰り返し呼び出すと、整列の最終リストに、より高いスコアの整列とエンドポイントを共有する整列が含まれなくなりま 二つのアライメントが同じエンドポイントを共有する場合、より高いスコアのアライメントが優先アライメントになり、より低いスコアのアライメン

x-dropアルゴリズムには、クエリ内のオフセットp qとサブジェクト内のp sとの間の整列を強制する開始点(p q、p s)が必要です。 これは、この点から始まる両方向の整列を計算します。, 開始点は、再配置される各HSPに対して定義される。 可能であれば、HSPを計算するために最初に使用された開始点が再利用されます。 しかし、SEGフィルタリングと新しく計算されたスコアリング行列の効果のために、以前の開始点はもはや望ましくないかもしれません。 既存の開始点を検証するために使用されるルールについて説明し、必要に応じて追加ファイル3:tblastn_supplで新しい開始点を選択します。pdfです。,

最後に、アルゴリズム1は、タンパク質クエリ、タンパク質データベース検索を実行するBLASTPの正しい擬似コードでもあることに注意してください。 違いは、BLASTPの場合、各サブジェクトシーケンスのための唯一のウィンドウがあるということです:シーケンス全体を含むウィ さらに、BLASTPについては、組成調整を行うときに、対象シーケンス全体の組成物が常に使用される。 したがって、組成調整された行列は、ウィンドウ内の各HSPについて必ず同じであり、一度だけ計算する必要があります。, 実際には、TblastnとBLASTPの両方でアルゴリズム1を実装するために同じコードが使用されますが、BLASTPでは条件付きを使用して、行列が各ウィンドウに対して一

使用されるテストセットとプログラム

このホワイトペーパーで提示された結果を生成するために使用される特定の実行可能ファイル、データセット、およびメソッドについて以下に説明します。 ここで報告されているTBLASTNの変種はCで書かれており、以下に述べるように、いくつかの変種はNCBI CおよびC++ソフトウェアディストリビューションの一部として利用可能である。, テストを自動化し、結果を要約するために使用される多くの補助プログラムは、C、Perl、Python、およびBourne shell scriptで書かれていました。

使用される実行可能ファイル

TBLASTNは、blastall実行可能ファイルの動作モードです。 この実行可能ファイ C-TBLASTNおよびS-TBLASTNバリアントは、blastall実行可能ファイルのオプションのセットとして使用できます。 S-TBLASTNは、コマンドラインオプション”-p tblastn-F F-C1″を使用して呼び出されます。 C-TBLASTNは同様のオプションを使用して呼び出されますが、”-C1″は”-C2″に置き換えられます。 B-TBLASTNは現在、コマンドラインオプションのセットとしては使用できません。, Tblastnは、”-C”オプションを省略することによって、構成ベースの統計なしで実行できますが、デフォルトのバージョンはB-TBLASTNよりも低い精度で実行されます。 B-TBLASTNを実行する実行可能ファイル、およびこのホワイトペーパーで使用されているS-TBLASTNおよびC-TBLASTNの特定のバージョンは、でダウンロードできます。

blastall実行可能ファイルは、デフォルトでBLOSUM62を使用してアミノ酸配列の整列を実行し、これは組成調整が実行される前のすべての段階で使用されるマトリックスです。 “-F F”オプションは、クエリシーケンスのSEGフィルタを無効にします。, ワンセグフィルタリングの配列はデフォルトの組成調整モードがある。 両方のシーケンスをフィルタリングしようとしたとき、統計的精度の改善は見られませんでしたが、ROCスコア(データは示されていません)の低下を見ました。

ランダムに置換されたクエリを使用してテスト

低E値と偽の一致を排除することでどのように効果的な組成物ベースの統計を測定するために、我々は、マウス(Mus musculus)ゲノムからランダムに置換されたアミノ酸配列を使用してテストのシリーズを行った。, 千のタンパク質配列は、January10,2006に現在のRefSeqマウスタンパク質のリストからランダムに選択されました。 配列は、それらのGenbank識別番号を乱数発生器へのシードとして使用して順列化した。 順列シーケンスは、追加のファイル1として提供されます。

私たちは、ヒト(ホモサピエンス)ゲノムのビルド35の参照アセンブリから染色体配列のデータベースに順列配列を整列させ、August26、2004をリリースしました。 なお、データベースに含まれる染色体のXおよびYのunplaced配列断片に含まれる。, しかし、これらの配列は核DNAとは異なる遺伝コードを有することが知られている(参照)ため、データベースからミトコンドリアゲノムを省略した。

酵母ゲノム上のROCスコアテスト

TBLASTNの組成調整の様々なモードの有効性をテストするために、我々は酵母核ゲノムを用いたテストの数を行いました。 またダウンロードし、その酵母のゲノムから、サイトを含む基準ゲノムのキュレーションによるNCBIです。 私たちが使用したゲノムのバージョンはMay16,2005に作成されました。,

我々は、TBLASTNを使用して酵母ヌクレオチドゲノムに102タンパク質ドメインのセットを整列させました。 このテストセットは、最初の研究のために開発されました。 酵母プロテオームに対する真の陽性一致のヒトキュレーションされたリストを使用してROCスコアを生成した。 ここに記載されているテストでは、公開された酵母ゲノムの変化を反映するために真陽性リストを更新しました。 更新されたリストに含まれて987クエリを対象にマッチ894異なる対象のdnaの塩基配列を決定した。 本稿で使用したテストセットのバージョンは、追加ファイル2として提供されています。,

酵母ゲノムにおいて、既知の各酵母タンパク質には、そのコード領域の位置および鎖が注釈される。 これらの注釈により、TBLASTNで使用するテストセットを次のように適応させることができます。 TBLASTNの場合、整列は、(1)既知の真の正の一致のコーディング領域にクエリに一致する整列、(2)真の正の一致ではない既知のコーディング領域に一致する整列、(3)既知のコーディング領域に一致しない整列の三つのカテゴリに分けられます。, アライメントは、アライメントの対象部分がコード領域と重なり、同じ鎖上にある場合、コード領域に対するクエリと一致すると言われる。

クエリとコーディング領域の間に複数のアライメントがあることは珍しくありません。 タンパク質-タンパク質検索では、タンパク質のペア間の複数の整列も報告されています。 符号化領域に対して複数の整列がある場合、特定のクエリと符号化領域との間の最小のE値の整列のみが、ROCスコアを計算するときに使用される。, 非コーディング領域に同様の規則を適用しようとする試みは行われません。 符号化領域と重複しないすべての整列は、偽陽性の一致として分類され、ROCスコアを計算するときにカウントされます。

ヒットを分類するために、このスキームに二つの明示的な例外を作成しました。 最初の例外は、特定の偽遺伝子(Entrez遺伝子ID850644)をコーディング領域のリストに追加し、偽遺伝子をクエリのいずれかに対して真陽性にし、真陽性の最大数を988に引き上げることです。, テストされた変異体のそれぞれは、10-12より小さいE値を有するこの擬遺伝子へのアライメントを発見した。 偽遺伝子は発現され、特定の条件下で機能的なタンパク質を産生する。 この領域は偽遺伝子として標識されているが,アライメントアルゴリズムが真の遺伝子と区別することが期待されるべきではないと考えられる。 第二の例外は、一つの真陽性符号化領域と一つの偽陽性符号化領域と重なる特定のアライメントを真陽性一致として分類することである。 この重複は、TBLASTNのすべての三つの変異体によって報告される。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

ツールバーへスキップ