バイオインフォマティクス概観

この講習で行う内容の概観

この講習では、ある生物種の複数個体から取得したショートリード1を用いて解析を進める。ワークフローは以下である。

1. リードの生データを用意する

  1. 生物から DNA を抽出する
  2. DNA をライブラリ化する
  3. 次世代シーケンサーでリードを読む
    • このステップの詳細は分子生物学の教科書等を参照してください

このステップでは fastq ファイルと呼ばれるファイルが手に入る。fastq ファイルは次世代シーケンサーが出力したリードの生データを格納するファイルフォーマットである。 fastq ファイルには以下の情報が格納されている。

  • リードの塩基配列
  • 各塩基のクオリティ (phred33 エンコーディング)

2. リードのクオリティコントロールを行う

3. リードを参照配列にアラインメントする

bwa というソフトウェアを用います。

4. SNP コールを行う

bcftools というソフトウェアを用います。

5. 集団構造解析を行う

sMNF というソフトウェアを用います。

Footnotes

  1. だいたい 300 bp ぐらいまでの長さのリード。リードとは次世代シーケンサーが読み取った塩基配列のこと。bp (base pair) とは塩基配列の長さの単位で 1bp = 1塩基を示す。