Menyaring duplikat
Tabel data heart_2 dan cardio_2 yang sudah Anda saring dari nilai hilang tersedia di ruang kerja Anda. Tujuan Anda adalah memilih satu probe per gen dalam masing-masing data.table sehingga setiap gen hanya memiliki satu entri pada hasil join. Anda ingin memilih probe dengan asosiasi terlemah untuk mendapatkan estimasi reprodusibilitas yang konservatif. Kolom "change" berisi lipatan perubahan tingkat ekspresi untuk setiap probe antara subjek sehat dan mereka yang menderita penyakit jantung*. Kolom "pvalue" berisi nilai-p untuk kekuatan asosiasi. Baris telah diurutkan berdasarkan kekuatan asosiasi yang menurun (berdasarkan nilai P yang meningkat).
* Catatan: asosiasi dihasilkan secara acak, tidak merepresentasikan temuan biologis yang benar atau himpunan data nyata.
Latihan ini adalah bagian dari kursus
Menggabungkan Data dengan data.table di R
Petunjuk latihan
- Gunakan fungsi
unique()(docs) untuk menghapus entri duplikat pada kolom"gene"diheart_2dancardio_2. Pertahankan hanya baris terakhir untuk setiap gen. - Lakukan inner join
cardio_3keheart_3menggunakan fungsimerge(). Tambahkan".heart"dan".cardio"sebagai sufiks pada kolom"change"dan"pvalue".
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___
# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible