この講習で行う内容の概観
この講習では、ある生物種の複数個体から取得したショートリード1を用いて解析を進める。ワークフローは以下である。
1. リードの生データを用意する
- 生物から DNA を抽出する
- DNA をライブラリ化する
- 次世代シーケンサーでリードを読む
- このステップの詳細は分子生物学の教科書等を参照してください
このステップでは fastq
ファイルと呼ばれるファイルが手に入る。fastq
ファイルは次世代シーケンサーが出力したリードの生データを格納するファイルフォーマットである。
fastq
ファイルには以下の情報が格納されている。
- リードの塩基配列
- 各塩基のクオリティ (phred33 エンコーディング)
2. リードのクオリティコントロールを行う
3. リードを参照配列にアラインメントする
bwa
というソフトウェアを用います。
4. SNP コールを行う
bcftools
というソフトウェアを用います。
5. 集団構造解析を行う
sMNF
というソフトウェアを用います。
Footnotes
-
だいたい 300 bp ぐらいまでの長さのリード。リードとは次世代シーケンサーが読み取った塩基配列のこと。bp (base pair) とは塩基配列の長さの単位で 1bp = 1塩基を示す。 ↩