バイオインフォマティクス講習会

集団遺伝学や系統地理学では大量の生物個体から DNA を抽出した後、次世代シーケンサー (Next Generation Sequencer: NGS) を用いて一部または全部の DNA 塩基配列を決定し、塩基配列の多型 (polymorphism) をもとに集団構造解析やゲノムワイド関連解析 (Genome Wide Association Study: GWAS)、系統樹の作成といった下流の解析を行うことがある。

次世代シーケンサーからは大量のデータが得られること、バイオインフォマティクスに特有の解析アルゴリズムが存在すること、計算資源を大量に必要とすることから、次世代シーケンサーが出力したデータの解析には専用の解析ソフトウェアやデータフォーマットが整備されてきた。そのため、Dry 解析を新しく行うにはこれらのツールチェーン・エコシステムについて学ぶ必要がある。

このドキュメントが達成すること

本ドキュメントでは Dry 解析初心者を対象として、以下の内容解説する。

次世代シーケンサーが出力する生データである fastq ファイルから実際に一塩基多型 (Single Nucleotide Polymorphism: SNP) を抽出し、集団構造解析を行う方法
解析ソフトウェアを使用するために必要な Linux の知識

このドキュメントが達成しないこと

DNAシーケンスを用いない解析手法の解説
- トランスクリプトーム解析やプロテオーム解析など
特定のプログラミング言語の詳しい解説

このドキュメントのスタンス

バイオインフォマティクス解析の足掛かりを提供するので、解析の進め方や解析に必要なソフトウェアを使用する方法を自分で学ぶことができるようになってほしい。各項目の詳細な解説は行わない。

このドキュメントについて

このドキュメントは著者のモチベーションが続く限り定期的にアップデートします。

免責事項

内容については最大限正確となるように努力しますが、間違いが含まれる場合がございます。誤謬や誤植を発見した際はお手数ですが著者 (X: @hirosuke29 (opens in a new tab))までご連絡いただけますと幸いです。

バイオインフォマティクス概観