BioWiki

NCBIのBLAST検索メモ

アプリケーションやWebアプリケーションでNCBIのBLAST検索APIを使うためのメモ

RIDの取得

CMD=Putを使ってRIDを得る。

RIDを得る前に違うQUERYをNCBIに送りつけるのはNG。出入り禁止になる場合も。

オプションなしのもっとも簡単なQUERY

http://www.ncbi.nlm.nih.gov/blast/Blast.cgi?QUERY=ACTAGTTAAATTATATT&CMD=Put

HTMLで帰ってくるので、Webブラウザでそのまま見られる。

スクリプトで作業する場合
返ってくるHTMLの中に、

<input name="RID" size="50" type="text" value="4JN6GPFF012" id="rid" />

という行があるのでそこから抽出する。

RIDから結果を取得する

QUERY

http://www.ncbi.nlm.nih.gov/blast/Blast.cgi?RID=4JTAPEDH012&FORMAT_TYPE=Text&NCBI_GI=yes&CMD=GET

結果

検索中の場合
検索中の場合は、FORMAT_TYPEにかかわらず、HTMLで返ってくる。スクリプトで処理する場合は、下記コメント文に'Status=WAITING'かどうかで判定できる。

<!--
QBlastInfoBegin
	Status=WAITING
QBlastInfoEnd
-->

検索が終わった場合
(Textフォーマット)
検索が終わっている場合は'Status=READY'を含むコメント文が挿入されている。

XML
スクリプトを使う場合は、FORMAT_TYPE=XML としてXMLデータを取得した方が料理しやすい。

<p><!--
QBlastInfoBegin
	Status=READY
QBlastInfoEnd
--><p>
BLASTN 2.2.16 [Mar-25-2007]
Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schテ、ffer, 
Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman 
(1997), "Gapped BLAST and PSI-BLAST: a new generation of 
protein database search programs", Nucleic Acids Res. 25:3389-3402.

RID: 4JTAPEDH012


Database: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS,
GSS,environmental samples or phase 0, 1 or 2 HTGS sequences)
           5,277,753 sequences; 20,664,642,971 total letters
Query=  
Length=33


                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gi|58530790|dbj|AP008210.1|  Oryza sativa (japonica cultivar-g...  38.2    0.94 
gi|38605828|emb|AL606618.4|OSJN00062  Oryza sativa genomic DNA...  38.2    0.94 
gi|145699202|gb|AC159805.23|  Glycine max clone gmw2-173d12, comp  36.2    3.7  
gi|116310832|emb|CR855219.1|  Oryza sativa genomic DNA, chromo...  36.2    3.7  
gi|113194556|gb|AE013599.4|  Drosophila melanogaster chromosome 2  36.2    3.7  
gi|110835763|gb|AC183810.9|  Glycine max clone gmp1-95h18, comple  36.2    3.7  
gi|20198550|gb|AC084320.10|  Oryza sativa chromosome 3 BAC OSJ...  36.2    3.7  
gi|19745065|gb|AC084091.5|  Homo sapiens chromosome 8, clone CTD-  36.2    3.7  
gi|58530789|dbj|AP008209.1|  Oryza sativa (japonica cultivar-g...  36.2    3.7  
gi|17488703|gb|AC018795.10|  Homo sapiens chromosome 11, clone...  36.2    3.7  
gi|16924133|gb|AC018422.9|  Homo sapiens, clone RP11-19G4, comple  36.2    3.7  
gi|30387664|gb|AC123427.5|  Rattus norvegicus 2 BAC CH230-523K...  36.2    3.7  
gi|30270590|gb|AC120670.8|  Rattus norvegicus 2 BAC CH230-23N2...  36.2    3.7  
gi|15451493|gb|AC007417.5|  Drosophila melanogaster, chromosom...  36.2    3.7  
gi|14670090|gb|AC091123.4|  Oryza sativa chromosome 3 BAC OSJN...  36.2    3.7  
gi|32483023|emb|AL606659.3|OSJN00108  Oryza sativa genomic DNA...  36.2    3.7  
gi|25046391|gb|AC097355.15|  Mus musculus strain C57BL/6J chro...  36.2    3.7  
gi|32482935|emb|AL731630.2|OSJN00273  Oryza sativa genomic DNA...  36.2    3.7  
gi|24940018|emb|AL929137.5|  Mouse DNA sequence from clone RP2...  36.2    3.7  
gi|24580472|gb|AC087207.11|  Homo sapiens chromosome 11, clone...  36.2    3.7  

ALIGNMENTS
>gi|58530790|dbj|AP008210.1| Oryza sativa (japonica cultivar-group) genomic DNA, chromosome 
4
Length=35498469

 Score = 38.2 bits (19),  Expect = 0.94
 Identities = 19/19 (100%), Gaps = 0/19 (0%)
 Strand=Plus/Plus

Query  13        TGCATGCTAGTAGCTAGCT  31
                 |||||||||||||||||||
Sbjct  20710591  TGCATGCTAGTAGCTAGCT  20710609


 Score = 36.2 bits (18),  Expect = 3.7
 Identities = 18/18 (100%), Gaps = 0/18 (0%)
 Strand=Plus/Minus

Query  3         TATTGGCTGCTGCATGCT  20
                 ||||||||||||||||||
Sbjct  25685996  TATTGGCTGCTGCATGCT  25685979

パラメーター

CMD=PUT

CMD=GET

各項目の説明

DescrText description of the parameterパラメータの説明
ValuesAllowed values of the parameterパラメータに許される値
DefaultDefault valueデフォルト値
CommandsWhich commands recognize the parameter処理コマンド
blastallAnalog of the parameter in NCBI blastall programNCBI blastallでのパラメータ指定法
blastpgpAnalog of the parameter in NCBI blastpgp programNCBI blastpgpでのパラメータ指定法

DATABASE

http://www.ncbi.nlm.nih.gov/blast/Doc/node15.html

DescrDatabase name
Valuesvalid database name
Defaultnr
CommandsPut
blastall'-d'

FORMAT_TYPE

http://www.ncbi.nlm.nih.gov/blast/Doc/node27.html

DescrType of formatting
ValuesHTML, Text, ASN.1, XML
DefaultHTML
CommandsGet
blastallpartially '-T'

HITLIST_SIZE

http://www.ncbi.nlm.nih.gov/blast/Doc/node30.html

DescrNumber of hits to keep
Valuesinteger value
Default500
CommandsPut
blastallis max('-v','-b')

PROGRAM

http://www.ncbi.nlm.nih.gov/blast/Doc/node43.html

DescrBlast program name
Valuesblastn, blastp, blastx, tblastn, tblastx
Defaultblastn
CommandsPut
blastall'-p'

RID

http://www.ncbi.nlm.nih.gov/blast/Doc/node50.html

DescrRequest ID
ValuesValid request ID
Defaultthis is a mandatory field for Get
CommandsGet

NCBI_GI

http://www.ncbi.nlm.nih.gov/blast/Doc/node36.html

DescrShow NCBI GI
Valuesyes, no
Defaultno
CommandsGet
blastall'-I'