1. 학습
  2. /
  3. 강의
  4. /
  5. Rで学ぶBioconductorによるChIP-seq

Connected

연습 문제

シーケンスデータ

ChIP-seq データセットの基本単位はシーケンスリードです。完全なデータセットは通常、数百万のリードからなり、BAM ファイルに保存されます。この演習では、染色体 20 の小さな領域から得られたリードを使って、R でリードがどのように表現されるかを見ていきます。

リードはすでに R に読み込まれています。reads という名前の GAlignments オブジェクトに保存されています。GAlignments オブジェクトは、入門的な Bioconductor コースで扱ったことがあるかもしれない GenomicRanges と密接に関連しています。ここで、この種類のオブジェクトとどのようにやり取りするかを復習しておきましょう。

Bioconductor には、データの抽出を容易にするアクセサ関数が用意されています。たとえば、start() はすべてのリードの開始座標を取り出します。

지침

100 XP
  • データの概要を得るために、reads オブジェクトを表示します。
  • 最初のリードの開始位置を取得します。
  • 最後のリードの終了位置を取得します。
  • 選択した領域内の各塩基位置を何本のリードがカバーしているか、つまり同名の関数を用いてリードの「カバレッジ」を計算します。