성 기반 통계 및 번역된 뉴클레오티드 검색:을 개선하 TBLASTN 모듈의 폭발

이 섹션에서는,우리는 설명합 알고리즘을 사용하는 컴퓨팅의 조성 데이터베이스 시퀀스와 적용 소재 기반의 통계에서 TBLASTN. 그런 다음 우리는 더 이상 설명하 테스트 보고서 종이에 실행파일을 사용하 테스트 세트,그리고 정보에 대한 방법이 있습니다.,

작곡 조정 TBLASTN

폭발을 추론을 사용한 일반적인 점수 시스템과 같은 PAM 또는 BLOSUM 일련의 행렬 발견하고,데이터베이스 시퀀스는 가능성에 정렬을 쿼리 가능성에 대한 시작점을 정렬입니다. BLAST 에서 정렬은 높은 점수 쌍 또는 HSP 로 알려져 있습니다. 각 중요한 쿼리 주제 쌍에 대한 Hsp 목록은 다단계 알고리즘을 사용하여 작성됩니다., 각 단계에서,HSPs 될 수 있습에서 도태되는 현재의 목록을 위한의 번호를 포함한 이유는 충분히 높은 점수를,포함되면서 높은 점수 HSP 또는 공유의 끝점으로 높은 점수 HSP. 결과적으로 BLAST 알고리즘의 각 연속 단계는 각 HSP 에 대해 훨씬 더 많은 계산을 필요로하지만 더 적은 Hsp 를 고려해야합니다.

TBLASTN 또는 다른 작동 모드에서 사용하든 구성 조정은 BLAST 검색의 최종 단계에서만 적용됩니다., 이 패션,모드는 사용 작곡 조정이 적용 fast 휴리스틱의 폭발을 찾는 지역의 가능성을 포함,그 시작하는 포인트로 이어질 가능성이 높은 점수를 정렬입니다. 그들은 그 적용을 작곡 조정하기 전에 가장 민감하고 대부분의 연산이 비싼 정렬 알고리즘,계산의 갭 정렬을 포함하는 정보를 지정하는 위치의 격차,정보로 알려진”추적”., 목록 HSPs 에 의해 생산이 최종 갭 맞춤 후,필터링에 대한 충분히 상당한 또는 중복 HSPs,목록은 사용자에게 표시됩니다.,idually 각 쿼리-주제는 한 쌍은 다음과 같습니다:(1)컴퓨팅 windows 의 관심을 사용하여 목록 HSPs 에서 예비 단계의 폭발 알고리즘;(2)구 번역 대상에 대한 데이터의 윈도우 필터링 그것을 제거하는 재미없는 하위 시퀀스;(3)컴퓨팅의 구성 주제 지역에 대한 각 HSP 을 재조정할;(4)계산 득점을 위한 매트릭스의 각 HSP 을 재조정할을 기반으로,이 구성의 주제는 지역의 HSP 및 구성에 대한 쿼리 (5)수행 갭 맞춤 추적 처 목록 HSPs 를 사용하여 새로운 득점을 행렬이 있습니다., 실제로 이러한 높은 수준의 단계는 메모리 요구 사항을 줄이기 위해 인터리브됩니다.

컴퓨팅 windows 의 관심

각 경기에 대한 쿼리 결과목 순서,구성 조정 알고리즘은 별도의 목록 HSPs. 각 HSP 는 다른 정보와 함께 쿼리에 정렬된 주제 시퀀스의 범위를 지정합니다. 이러한 범위는 창 목록을 계산하는 데 다음과 같이 사용됩니다. 먼저 주제 시퀀스에 대한 예비 창 목록이 작성됩니다., 이 목록에 포함되어 하나의 창 각 HSP,창를 둘러싸고 있는 주제 범위의 HSP 포함한 600 기지를 왼쪽과 오른쪽의 주제 범위는 경우가 많은 순서 데이터를 사용할 수 있습니다. 그런 다음 터치하거나 겹치는 경우 동일한 번역 프레임에서 창을 조인하여 최종 창 목록이 만들어집니다. 각 창에 대해 창에 해당하는 Hsp 목록이 유지됩니다.

을 획득하고 필터링을 대상 데이터

뉴클레오티드체 내에서 데이터 창을 얻어 번역을 사용하는 창의 번역 프레임입니다., 창 크기가 10,로우 컷오프 1.8 및 하이 컷오프 2.1 인 SEG 알고리즘은 주제 창에서 복잡도가 낮은 영역을 마스크하는 데 사용됩니다. 연구 결과로 매개 변수가 선택되었습니다. 복잡도가 낮은 영역은 일반적으로 반복적 인 패턴으로 몇 가지 별개의 잔류 물이 자주 지배되지만 항상 그런 것은 아닙니다. 대표적인 예는 폴리글리신 또는 폴리프롤린 단량체이다. 정렬 점수를 포함하는 점수의 낮은 복잡한 영역하는 경향이 과장의 중요성에 정렬하고 지도하는 많은 긍정적인 거짓과 일치합니다.,

의 적용 효과 SEG 알고리즘을 아미노산 시퀀스를 대체하는 각각의 잔여물에서 낮은 복잡한 영역의 X 문자:문자에게 할당되는 작은 부정적인 점수를 할 때 맞춰 모든 문자를 포함하여,자체입니다. 주제 데이터 필터링하기 전에 구성 조정 득점 매트릭스가 계산하고,그 사건의 문자는 무시할 때 컴퓨팅의 구성됩니다. 구성 조정 코드와 달리 폭발 검색의 예비 단계는 주제 데이터를 필터링하지 않습니다.,

seg 필터링은 또한 쿼리 시퀀스에 적용될 수 있다. 쿼리의 SEG 필터링은 BLASTP 및 TBLASTN 모두에 대한 명령 줄 옵션입니다. 프로그램은 쿼리의 SEG 필터링이 BLASTP 에서는 기본적으로 꺼져 있지만 tblastn 에서는 기본적으로 켜져 있다는 점에서 다릅니다. 우리는이 논문에서보고 된 모든 결과에서 쿼리를 필터링하지 않았습니다. SEG 매개 변수를 필터링하는 데 사용되는 주체 시퀀스에 적용하고 더 높은 임계값을 선언하는 지역을 낮은 복잡성이보다는 기본 매개 변수를 필터링하는 데 사용되는 쿼리를 실행합니다., 쿼리 시퀀스가 더 stringently 필터링되는 이유는 쿼리 시퀀스가 BLAST 알고리즘의 모든 단계에서 사용되기 때문입니다. SEG 필터링의 대상이 발생에 최종 단계의 폭발이 검색 및 필터링 데이터에서 주제는 창의 효과는 단 하나의 비교입니다.

컴퓨팅의 구성 제목

에 대한 TBLASTN 시퀀스는 데이터 및 주제 범위의 HSPs 내에서 창을 결정하는 데 사용 범위를 포함할 가능성이 제대로 번역된 아미노산 데이터입니다., 창은 정지 코돈의 가장 오른쪽 발생을 찾기 위해 hsp 의 주제 범위의 왼쪽으로 엄격하게 검색됩니다. 가 발견된 경우,그 위치는 20 자의 오른쪽 정 codon 은 왼쪽 경계 조성물의 범위에는 제한이 피사체 전체 범위 HSP 할 수 있습니다. 정지 코돈이 발견되지 않으면 왼쪽 끝점은 창의 왼쪽 끝점입니다. 대칭 규칙이 오른쪽에 적용됩니다.,

목적지 않을 찾아 중지 codon 종료하는 단백질이지만,오히려 사용하의 존재를 중지 codon 음을 나타내는 가설적으로 번역 codon 에 noncoding 지역입니다. 실제로,비 코딩 영역은 아미노산 서열의 진정한 끝보다는 인트론 일 수있다. 기 때문에 우리는지할 수 있도록 종료하지 codon,우리가 제안한 대칭 규칙을 결정하는 순서 범위를 사용한 성분 조정도 생물학적 번역은 비대칭입니다.,

50%GC 함량을 갖는 무작위 DNA 서열에서 평균 21 자마다 한 번씩 가설 적으로 번역 된 아미노산 서열에서 정지 코돈을 발견 할 것으로 예상됩니다. 따라서,우리 연구소 20 릭 사이의 마진을 중지 codon 범위에 사용하는 구성,조정된 제한 사항 전체 주제 범위의 HSP 할 수 있습니다.

주어진 특정 지역,TBLASTN 만 고려 20 표준 아미노산 조성을 계산할 때;X 캐릭터 중지에 문자,그리고 다른 모든 비표준 캐릭터는 완전히 무시됩니다., 컴포지션 조정 알고리즘에서 시퀀스의 길이가 사용될 때 사용된 값은 무시된 문자의 발생을 계산하지 않습니다.

구성 적으로 조정 된 스코어링 행렬 계산

Schäffer et al. 및 유 등. 20 개의 표준 아미노산에 대한 치환 점수를 조정하는 방법을 보여줍니다. 표준 아미노산의 경우,우리는 그 기술을 적용합니다. 이러한 논문을하지 않은,그러나,논의의 치료는 드물게 발생 아미노산,두 글자의 모호한 문자,X 문자,또는 중지 문자입니다., 우리는 Tblastn 검색에서 일반적으로 발생하기 때문에이 섹션의 X 및 stop 문자의 치료에 대해 설명합니다. 우리는 추가 파일 3 에서 다른 문자의 치료에 대해 논의합니다.

정지 문자는 번역 된 시퀀스에서 자주 발생하며 때로는 중요한 정렬 내에서 발생합니다. 정지 문자의 발생은 일반적으로 비 코딩 영역 또는 잘못된 프레임에서 코딩 영역을 번역하고 있음을 나타냅니다. 물론,정지 문자는 단순히 번역의 끝을 표시 할 수도 있습니다., 그러나,정자 발생에 상당한 정렬을 위한 여러 가지 이유가:피사체 시퀀스가 포함될 수 있습 pseudogene;체 시퀀스가 될 수 있습 mitochondrial DNA,에서는 특정 코돈은 막 codons 에서 핵 DNA 는 번역하는 진정한 아미노산;체 시퀀스에 포함될 수 있습니지 codon 으로 변환되는 in vivo 하 셀레노시스테인 또는 pyrrolysine 잔류물;주제 순서를 나타낼 수 있습니다 유전자와 같은 hdc 유전자에 디 melanogaster,인코딩하는 단백질이 제품에 의 mRNA 쓰루가; 할 수 있는 것들을 시퀀싱 오류에서 피사체 시퀀스입니다.,

정지 문자의 적절한 채점은 TBLASTN 에 필수적입니다. 모든 문자를 정렬 중지에 문자를 주어져야 한다는 부정적인 점수,하지만 부정적인 점수의 이러한 큰 규모로 허용하지 않는 유효한 정렬을 포함하는 중 codon. 폭발 균일 정지 코돈에 정렬 문자를 할당 적분 점수 그,사용되는 규모 주어진,가능한 한 가깝다 -2 비트.

으로서의 생물학적으로 의미 있는 통계적으로 상당한 TBLASTN 선형도 포함 번역 중지 codons., 그러나 많은지 codons 에 noncoding 지역과 프레임 밖으로 지역 코딩 렌더링합니다 매우 가능성이 이 지역은 수익률이 높은 점수형에 의한 기회입니다. 따라서,E-값 계산 TBLASTN 정한 길이의 데이터베이스 시퀀스의 길이 단백질을 얻지 못했으로 번역에 단일 프레임을 읽고도 번역에서는 사실에서 수행된 모든 여섯 독서 프레임이 있습니다., 많은 데이터베이스 DNA 시퀀스는 noncoding 이상의 자신의 길이가 될 수 있습 중 하나에 대한 설명으로 보수적인 통계의 S-TBLASTN C-TBLASTN 그림 1 에 나와 있습니다.

SEG 알고리즘의 적용으로 인해 X 모호성 문자가 일반적이며 X 문자를 처리하면 알고리즘의 성능에 큰 영향을 줄 수 있습니다. 우리는 다음과 같이 X 로 정렬을 채점합니다. 구성 매트릭스 스케일링 또는 구성 매트릭스 조정이 사용될 때,모든 표준 아미노산에 대해 치환 점수가 계산된다.,0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFse=uaaa@3845@ is the set of standard amino acids and P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the probability of amino acid j in the subject sequence., 즉,표준 아미노산을 X 와 일치시키는 점수는이 값이-1 보다 작 으면 해당 아미노산과 표준 아미노산의 모든 일치보다 기대 값입니다., For B-TBLASTN and S-TBLASTN, P ′ j MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaakeaacuWGqbaugaqbamaaBaaaleaacqWGQbGAaeqaaaaa@2F6A@ is the actual frequency of the amino acid in the subject region; for C-TBLASTN, the probabilities are computed using pseudocounts, as described in ., 방정식(1)과 유사한 수식은 쿼리의 X 문자를 피사체의 표준 아미노산에 맞추는 점수를 계산하는 데 사용됩니다. 점수에 맞추기 위해 X 을 자체의 작은 예상의 점수를 각자 맞추는 어떤 두 개의 표준 아미노산과 -1,둥근 가장 가까운 정수입니다.

을 수행하 갭 맞춤 추적

루틴에 적용되는 조사를 통하지 않는 단순체 정렬하지만,오히려 그들을 다시 계산. 정렬은 두 가지 기술 중 하나를 사용하여 계산됩니다., 기본적으로 X-drop 알고리즘은 BLAST 알고리즘의 이전 단계에서 제공된 Hsp 목록에 지정된 시작점 집합에 적용됩니다. 이 프로젝트가 진행되는 동안 수정 된 결과로 각 창 내에서 엄격한 스미스-워터 맨 알고리즘을 적용하도록 교대로 지정할 수 있습니다. X-drop 알고리즘이 적용되면 컴포지션은 재정렬되는 각 HSP 에 대해 개별적으로 계산됩니다. Smith-Waterman 알고리즘을 사용하는 경우 창의 구성은 가장 높은 점수를받은 HSP 의 구성으로 취해집니다., 풀링의 구성 주제는 지역의 몇 가지 HSPs 내에서 창 문제가 있기 때문에 HSPs 하지 않은 정렬,또는 동일한 연결된 세트의 선형. TBLASTN 의 기본값은 x-drop 알고리즘을 사용하는 것이며,이 논문에서 제시된 테스트에서 x-drop 알고리즘을 사용합니다.

다음 pseudocode 는 x-drop 알고리즘을 사용할 때 단일 쿼리 주제 일치에 해당하는 정렬이 어떻게 재 계산되는지를 보여줍니다.,aacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFwe=vaaa@384D@ is a list of windows, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ is a source of sequence data, and params is a structure containing all parameters needed for gapped alignment., The variable A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ represents the new set of alignments to be returned, and M represents a compositionally adjusted scoring matrix. The HSP_IS_CONTAINED and WITH_DISTINCT_ENDS routines will be described below; the action of the remaining routines should be clear from their names.,

알고리즘 1

창에서 정렬을 다시 실행하십시오.,MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ , params, cutoff_score)

A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←∅

H←windows.,T_BY_SCORE(H)

s←GET_TRANSLATED_SUBJECT (w, D MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFdepraaa@3827@ )

for i←0 to length(H)-1 do

h←H

if forall 0≤ j <i not HSP_IS_CONTAINED(h, H ) then

M←ADJUST_COMPOSITION (q, s, h, params)

a←CALC_X_DROP_ALIGNMENT (q, s, h, M, params)

if a.,abaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ ←WITH_DISTINCT_ENDS (a, A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ )

end if

end if

end for

return A

end function

The HSP_IS_CONTAINED routine returns true if the HSP provided as its first argument is contained in the HSP provided as its second argument., 는 HSP 으로 간주되어야에서 두 번째 HSP 경우 쿼리고 피사체 범위에 포함되어 있 쿼리를 주제 범위의 두 번째 HSP 경우 두 번째 HSP 가 동일한 또는 더 높은 점수를 받습니다.,xAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ if and only if A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ does not already contain an equal- or higher-scoring alignment that shares an endpoint with a.,OvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ , then WITH_DISTINCT_ENDS filters A MathType@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBamrtHrhAL1wy0L2yHvtyaeHbnfgDOvwBHrxAJfwnaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=dirpe0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaWaaeGaeaaakeaaimaacqWFaeFqaaa@3821@ to remove any lower-scoring alignments that share an endpoint with a., 이 패션에 반복해서 호출이 일상 WITH_DISTINCT_ENDS 보장 그의 최종 목록을 정렬을 포함하지 않는 맞춤는 주식의 끝점으로는 높은 득점을 맞춥니다. 할 때는 두 개의 선형 공유하는 동일한 엔드포인트,더 높은 득점을 한 선호 정렬,낮은 점수를 정렬은 차선 이슈의 폭발 heuristics.

x-drop 알고리즘에는 쿼리의 오프셋 p q 와 피사체의 p s 사이의 정렬을 강제하는 시작점(p q,p s)이 필요합니다. 이 지점부터 시작하여 양방향으로 정렬을 계산합니다., 재정렬되는 각 HSP 에 대해 시작점이 정의됩니다. 가능한 경우 원래 HSP 를 계산하는 데 사용 된 시작점이 재사용됩니다. 의 영향으로 인해 SEG 필터링 및 신규 계산 득점 매트릭스,그러나,이전의 시작점할 수 없는 것이 바람직할 수 있습니다 거짓의 영역에서 nonpositive 점수입니다. 우리가 논의 규칙성을 검사하는 데 사용되는 기존의 시작점이고,필요한 경우 새로운 하나를 선택,추가적인 파일 3:tblastn_suppl.pdf 입니다.,

마지막으로,우리는 말하는 알고리즘 1 는 또한 올바른 의사에 대한 BLASTP 수행하는 단백질이 쿼리,단백질의 데이터베이스 검색입니다. 차이점은 BLASTP 의 경우 각 주제 시퀀스에 대해 하나의 창(전체 시퀀스를 포함하는 창)만 있다는 것입니다. 또한,BLASTP 의 경우 전체 피험자 시퀀스의 구성은 구성 조정을 수행 할 때 항상 사용됩니다. 따라서 구성 적으로 조정 된 행렬은 창의 각 HSP 에 대해 반드시 동일하며 한 번만 계산하면됩니다., 실제로,동일한 코드 모두에 사용되는 TBLASTN 및 BLASTP 를 구현하는 알고리즘 1 지만,BLASTP 조건을 확인하는 데 사용됩니다 행렬은 계산에 대해 한 번 각 창을 엽니다.

테스트 설정 및 사용되는 프로그램

우리는 아래에 설명 특정 파일,데이터 세트,사용되는 방법을 생성하는 결과를 발표에서는 이 문서에서는 다루지 않겠습니다. The 개의 TBLASTN 보고 여기에 작성되었 C,그리고 아래 기재된 바와 같이,어떤 변형의 일부로 사용할 수 있 NCBI C 및 C++소프트웨어 배포판;퓨팅 모듈 참여하는 미러 사이의 두 배포가 들어 있습니다., 테스트를 자동화하고 결과를 요약하는 데 사용되는 수많은 보조 프로그램이 C,Perl,Python 및 Bourne 쉘 스크립트로 작성되었습니다.

사용 된 실행 파일

TBLASTN 은 blastall 실행 파일의 작동 모드입니다. 이 실행 파일은에서 다운로드 가능합니다. C-TBLASTN 및 S-TBLASTN 변형은 blastall 실행 파일의 옵션 세트로 사용할 수 있습니다. S-TBLASTN 은 명령 줄 옵션”-p tblastn-F F-C1″을 사용하여 호출됩니다. C-TBLASTN 은 유사한 옵션을 사용하여 호출되지만”-C1″은”-C2″로 대체됩니다. B-TBLASTN 은 현재 명령 행 옵션 세트로 사용할 수 없습니다., TBLASTN 은”-C”옵션을 생략하여 컴포지션 기반 통계없이 실행될 수 있지만 기본 버전은 B-TBLASTN 보다 낮은 정밀도로 실행됩니다. B-TBLASTN 을 실행하는 실행 파일과 본 논문에서 사용 된 s-TBLASTN 및 C-TBLASTN 의 특정 버전을 다운로드 할 수 있습니다.

blastall 실행해 기본적으로 사용하 BLOSUM62 을 수행하는 선형이 아미노산 시퀀스,그리고 이 행렬이 모든 단계에 사용하기 전에 구성 조정이 수행됩니다. “-F F”옵션은 쿼리 시퀀스의 SEG 필터링을 비활성화합니다., 주제 시퀀스의 SEG 필터링은 컴포지션 조정 모드 중 하나에서 기본적으로 켜져 있습니다. 우리는 모두 필터링 시퀀스를 필요할 때 우리는 모두 필터링 시퀀스에,우리는 더 개선에 통계적 정확성,하지만 감소에서 ROC 점수(데이터시하지 않음).

를 사용하여 테스트를 임의로 변경하는 쿼리를

을 측정하는 방법에 효과적인 구성을 기반 통계가 제거에 거짓과 일치하는 저렴한 전자 값을,우리가 수행한 일련의 테스트를 사용하여 임의로 변경하는 아미노산 시퀀스에서는 마우스(생쥐)게놈., 2006 년 1 월 10 일 현재 RefSeq 마우스 단백질 목록에서 1 천 개의 단백질 서열이 무작위로 선택되었습니다. 시퀀스는 자신의 GenBank 식별 번호를 난수 생성기의 시드로 사용하여 permuted 했다. Permuted 시퀀스는 추가 파일 1 로 제공됩니다.

우리는 정렬 순열 시퀀스는 데이터베이스의 염색체 시퀀스에서 참조 어셈블리의 구축 35 의 인류(호모 사피엔스),게놈 출시 August26,2004. 데이터베이스에는 염색체 X 및 Y 와 빌드에 포함 된 unplaced sequence 조각이 포함됩니다., 우리가 생략 미토콘드리아 게놈 데이터베이스에서,그러나,이러한 시퀀스 알려져 있다(참조)다른 유전자 코드보다 핵 DNA.

ROC 점수 테스트에효모 게놈

의 효율성을 테스트하는 다양한 모드의 구성을 위한 조정 TBLASTN,우리는 수행의 번호를 사용하여 테스트를 효모 핵 게놈. 우리는 ncbi 직원이 큐레이팅 한 참조 게놈을 포함하는 사이트 인 효모 게놈을 다운로드했습니다. 우리가 사용한 게놈의 버전은 2005 년 5 월 16 일에 만들어졌습니다.,

우리는 tblastn 을 사용하여 효모 뉴클레오티드 게놈에 102 개의 단백질 도메인 세트를 정렬했습니다. 이 테스트 세트는에서 연구를 위해 처음 개발되었습니다. 효모 프로테옴에 진정한 긍정적 인 일치의 인간 큐레이터 목록이 ROC 점수를 생성하는 데 사용 된 업데이트 된 버전이 사용되었습니다. 여기에 설명 된 테스트를 위해 게시 된 효모 게놈의 변화를 반영하기 위해 진정한 양성 목록을 업데이트했습니다. 업데이트 된 목록에는 987 개의 쿼리 대상이 894 개의 고유 한 주제 시퀀스와 일치합니다. 이 논문에서 사용 된 테스트 세트의 버전은 추가 파일 2 로 제공됩니다.,

효모 게놈에서,각각의 알려진 효모 단백질은 그 코딩 영역의 위치 및 가닥으로 주석 처리된다. 이러한 주석을 통해 TBLASTN 과 함께 사용하기 위해 테스트 세트를 다음과 같이 조정할 수 있습니다. 에 대한 TBLASTN,선형은 세 가지 범주로 나누어집니다:(1)선형과 일치하는 쿼리를 코딩하는 지역의 진정한 긍정적인 경기;(2)선형과 일치하는 쿼리를 알려진 코딩을 지지 않은 진정한 긍정적인 일;and(3)선형과 일치하지 않는 코딩 알려진 지역입니다., 맞춤는 말과 일치하는 쿼리를 코딩 경우 지역 주제 부분의 정렬과 겹치 코딩은이 지역에서 동일드도 있습니다.

쿼리와 코딩 영역 사이에 둘 이상의 정렬이있는 것은 드문 일이 아닙니다. 실제로 이것은 예상됩니다;단백질-단백질 검색은 또한 단백질 쌍 사이의 다중 정렬을보고합니다. 이 있을 때 하나 이상의 정렬하게 코딩 지역,가장 낮은 E-값 사이에 정렬 특정 쿼리 및 지역 코딩할 때 사용 컴퓨팅 ROC 점수가 있습니다., 비 코딩 영역에 유사한 규칙을 적용하려는 시도는 없습니다. 코딩 영역과 겹치지 않는 모든 정렬은 위양성 일치로 분류되고 ROC 점수를 계산할 때 계산됩니다.

우리는 히트를 분류하기 위해이 계획에 대해 두 가지 명시적인 예외를 만들었습니다. 첫 번째 예외가 추가로 특정 pseudogene(entrez 의 유전자 ID850644)우리 목록의 지역 코딩 및 pseudogene 진정한 긍정적인 중 하나에 대한 쿼리를 제기할 수 있는 최대 수의 진정한 확실성을 988., 시험 된 각각의 변이체는 10-12 보다 작은 E-값을 가진이 pseudogene 에 대한 정렬을 발견했다. 슈도겐은 발현되어 특정 조건 하에서 기능성 단백질을 생성한다. 이 영역이 pseudogene 으로 표시되지만,우리는 정렬 알고리즘이 진정한 유전자와 구별 될 것으로 예상되어야한다고 생각하지 않습니다. 두 번째는 예외로 분류하는 특정 정렬과 겹치는 하나의 진정한 긍정적인 코딩하는 지역과 하나의 거짓 긍정적인 코딩 지역으로 진정한 긍정적인 일치합니다. 이 겹침은 TBLASTN 의 세 가지 변형 모두에 의해보고됩니다.피>

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다

도구 모음으로 건너뛰기