Yinelenenleri filtreleme
Eksik değerler için filtrelediğin heart_2 ve cardio_2 veri tabloları çalışma alanında hazır. Amacın, her bir data.table içinde gen başına tek bir temsilci prob seçerek birleştirme sonucunda her genin yalnızca tek bir kaydı olmasını sağlamak. Yeniden üretilebilirliği temkinli biçimde tahmin etmek için en zayıf ilişkiye sahip probu seçmek istiyorsun. "change" sütunu, sağlıklı deneklerle kalp hastalığı olanlar arasındaki her prob için ifade düzeylerindeki kat değişimini içerir. "pvalue" sütunu ilişki gücüne ait p-değerini içerir. Satırlar, ilişki gücüne göre azalan sırada (P-değeri artan şekilde) sıralıdır.
* Not: ilişkiler rastgele oluşturulmuştur; gerçek bir biyolojik bulguyu veya gerçek bir veri kümesini temsil etmez.
Bu egzersiz
R'de data.table ile Veri Birleştirme
kursunun bir parçasıdırEgzersiz talimatları
heart_2vecardio_2içinde"gene"sütunundaki yinelenen kayıtları kaldırmak içinunique()(docs) fonksiyonunu kullan. Her gen için yalnızca son satırı tut.merge()fonksiyonunu kullanarakcardio_3ileheart_3arasında inner join yap."change"ve"pvalue"sütunlarına".heart"ve".cardio"soneklerini ekle.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___
# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible