塩基配列解析に使われるファイルの特徴と扱い
genetics/phylogenetic_tree/files
3-1-2015 updated
  1. FASTA フォーマット
関連項目





FASTA フォーマット, fasta ファイル

FASTA フォーマットは,塩基配列やアミノ酸配列を解析するためのテキスト形式を基本としたフォーマットである。Python, Ruby, Perl などのスクリプト言語と相性がよい。

以下のように,> で始まる配列の名前,付加情報,改行,配列 から構成される。なお,> のあとにスペースなしで打ち込まれた文字列が配列の名前になり,スペースから改行までが付加情報になる。次の > までが配列とみなされる。


>Name1 Additional informations (optional)
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKIIRRRLQ
LNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGF

>Name2 Additional informations (optional)
LVNQHSMVSVSTPIADIYEMKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVKFLVPDHMSELVKIIRRRL
IYEQEKDEDGFLYMVYASQEAPIADIYEQEKDEDGFLYMVYASQETFGF


FASTA は「ファスタ」ではなく「ファストエー」と読み,意味するところは fast-all である。all は塩基,タンパク質両方という意味で,FASTA は FASTP (protein) と FASTN (nucleotide) の両方を含む概念である。


FASTA ファイルの拡張子

FASTA 形式で記述された配列のファイルは,FASTA ファイルと呼ばれる。以下のように,様々な拡張子が使われるため最初は混乱するが,異なる拡張子は付加情報を示すだけ で,中身はどれも FASTA 形式の配列なので,同じように扱えばよい。

拡張子 意味
.fasta, .fas, .fa, .fsa, .seq とくに内容を指定しない (付加情報を示していない) fasta ファイル
.fna 塩基配列の fasta ファイル
.ffn ゲノムの翻訳領域 coding region を含む fasta ファイル
.faa アミノ酸配列の fasta ファイル。
.mpna 複数のアミノ酸配列から成る fasta ファイル
.frn Non-coding RNA の fasta ファイル


References

inserted by FC2 system