この講習で行う内容の概観

この講習では、ある生物種の複数個体から取得したショートリード¹を用いて解析を進める。ワークフローは以下である。

1. リードの生データを用意する

生物から DNA を抽出する
DNA をライブラリ化する
次世代シーケンサーでリードを読む
- このステップの詳細は分子生物学の教科書等を参照してください

このステップでは fastq ファイルと呼ばれるファイルが手に入る。fastq ファイルは次世代シーケンサーが出力したリードの生データを格納するファイルフォーマットである。 fastq ファイルには以下の情報が格納されている。

リードの塩基配列
各塩基のクオリティ (phred33 エンコーディング)

2. リードのクオリティコントロールを行う

3. リードを参照配列にアラインメントする

bwa というソフトウェアを用います。

4. SNP コールを行う

bcftools というソフトウェアを用います。

5. 集団構造解析を行う

sMNF というソフトウェアを用います。

だいたい 300 bp ぐらいまでの長さのリード。リードとは次世代シーケンサーが読み取った塩基配列のこと。bp (base pair) とは塩基配列の長さの単位で 1bp = 1塩基を示す。 ↩

はじめに Linux コマンドライン入門