1. 学ぶ
  2. /
  3. コース
  4. /
  5. R で学ぶ data.table によるデータ結合

Connected

演習

重複のフィルタリング

欠損値でフィルタした heart_2 と cardio_2 のデータテーブルがワークスペースに用意されています。目的は、各 data.table で遺伝子ごとに代表となるプローブを1つだけ選び、結合結果で各遺伝子が1行のみになるようにすることです。再現性を控えめに見積もるため、最も関連が弱いプローブを選びたいとします。"change" 列には、健常者と心疾患患者の間で各プローブの発現量がどれだけ変化したか(フォールドチェンジ)が入っています。"pvalue" 列には関連の強さに対する p 値が入っています。行は関連の強さが弱くなる順(p 値が大きくなる順)で並んでいます。

* 注: ここでの関連はランダムに生成されたもので、実際の生物学的な知見や実データを反映するものではありません。

指示

100 XP
  • unique()(docs)を使って、heart_2 と cardio_2 の両方で "gene" 列の重複行を削除します。各遺伝子について「最後の」行のみを残してください。
  • merge() 関数で cardio_3 を heart_3 に内部結合(inner join)します。"change" と "pvalue" 列には、それぞれ ".heart" と ".cardio" のサフィックスを付けてください。