Melakukan ringkasan berkelompok atas keberadaan nilai hilang

Sekarang setelah Anda dapat membuat data nabular, mari kita gunakan untuk mengeksplorasi data. Mari hitung statistik ringkasan berdasarkan keberadaan nilai hilang pada variabel lain.

Untuk melakukan ini, kita akan mengikuti langkah-langkah berikut:

Pertama, bind_shadow() mengubah data menjadi data nabular.
Selanjutnya, lakukan beberapa ringkasan pada data menggunakan group_by() dan summarize() untuk menghitung mean dan simpangan baku, dengan fungsi mean() dan sd().

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang di R

Instruksi latihan

Untuk himpunan data oceanbuoys:
Lakukan bind_shadow(), lalu group_by() berdasarkan keberadaan nilai hilang pada humidity (humidity_NA) dan hitung mean serta simpangan baku untuk angin timur–barat (wind_ew) menggunakan summarize() dari dplyr.
Ulangi langkah ini, tetapi hitung ringkasan untuk angin utara–selatan (wind_ns).

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# `bind_shadow()` and `group_by()` humidity missingness (`humidity_NA`)
oceanbuoys %>%
  ___() %>%
  group_by(___) %>% 
  summarize(wind_ew_mean = mean(___), # calculate mean of wind_ew
            wind_ew_sd = ___)) # calculate standard deviation of wind_ew
  
# Repeat this, but calculating summaries for wind north south (`wind_ns`).
___ %>%
  ___ %>%
  group_by(___) %>%
  summarize(___ = ___(___),
            ___ = ___(___))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang di R

SkillTag.level.beginnerSkillTag.label

4.8+

Mulai Kursus Gratis

Bab 1 memperkenalkan Anda pada data hilang, menjelaskan apa itu nilai hilang, perilakunya di R, cara mendeteksinya, dan cara menghitungnya. Kami kemudian memperkenalkan ringkasan data hilang dan cara merangkum kehilanagn data di seluruh kasus dan variabel, serta bagaimana mengeksplorasi antar kelompok dalam data. Terakhir, kami membahas visualisasi data hilang, cara menghasilkan visualisasi ikhtisar untuk seluruh himpunan data dan per variabel, kasus, dan ringkasan lainnya, serta bagaimana mengeksplorasinya antar kelompok.

Exercise 1: Pengantar data hilang Exercise 2: Menggunakan dan menemukan nilai hilang Exercise 3: Ada berapa nilai hilang?Exercise 4: Bekerja dengan nilai hilang Exercise 5: Mengapa peduli pada nilai yang hilang?Exercise 6: Merangkum keberadaan nilai hilang Exercise 7: Membuat Tabel Keberadaan Data Hilang Exercise 8: Ringkasan lain tentang keberadaan nilai hilang Exercise 9: Bagaimana cara memvisualisasikan nilai yang hilang?Exercise 10: Visualisasi pertama Anda tentang data yang hilang Exercise 11: Memvisualisasikan kasus dan variabel yang hilang Exercise 12: Memvisualisasikan pola data hilang

Pada bab dua, Anda akan mempelajari cara mengungkap nilai hilang tersembunyi seperti "missing" atau "N/A" dan menggantinya dengan `NA`. Anda akan mempelajari cara menangani nilai hilang implisit secara efisien—nilai yang tersirat hilang tetapi tidak dicantumkan secara eksplisit. Kami juga membahas cara mengeksplorasi ketergantungan data hilang, membahas Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR), dan maknanya bagi analisis data Anda.

Exercise 1: Mencari dan mengganti nilai hilang Exercise 2: Menggunakan miss_scan_count Exercise 3: Menggunakan replace_with_na Exercise 4: Menggunakan varian cakupan replace_with_na Exercise 5: Mengisi nilai hilang ke bawah Exercise 6: Perbaiki nilai hilang implisit dengan complete()Exercise 7: Perbaiki missing eksplisit menggunakan fill()Exercise 8: Menggunakan complete() dan fill() secara bersamaan Exercise 9: Ketergantungan Data Hilang Exercise 10: Perbedaan antara MCAR dan MAR Exercise 11: Mengeksplorasi ketergantungan nilai hilang Exercise 12: Menjelajahi lebih lanjut ketergantungan nilai hilang

Dalam bab ini, Anda akan mempelajari alur kerja untuk bekerja dengan data hilang. Kami memperkenalkan struktur data khusus, shadow matrix, dan data nabular, serta menunjukkan cara menggunakannya dalam alur kerja untuk mengeksplorasi data hilang sehingga Anda dapat mengaitkan ringkasan kehilanagn kembali ke nilai dalam data. Anda akan mempelajari cara menggunakan ggplot untuk mengeksplorasi dan memvisualisasikan bagaimana nilai berubah ketika variabel lain menjadi hilang. Terakhir, Anda mempelajari cara memvisualisasikan kehilanagn di antara dua variabel, serta bagaimana dan mengapa memvisualisasikan nilai hilang dalam scatterplot.

Exercise 1: Alat untuk mengeksplorasi ketergantungan data yang hilang Exercise 2: Membuat data matriks bayangan (shadow matrix)Exercise 3: Melakukan ringkasan berkelompok atas keberadaan nilai hilang

Latihan Saat Ini

Exercise 4: Menjelajahi lebih lanjut kombinasi keberadaan nilai hilang Exercise 5: Memvisualisasikan nilai hilang pada satu variabel Exercise 6: Data nabular dan pengisian berdasarkan keberhilangan Exercise 7: Data nabular dan meringkas berdasarkan keberadaan nilai hilang Exercise 8: Jelajahi variasi berdasarkan kemissingan: box plot Exercise 9: Memvisualisasikan nilai hilang pada dua variabel Exercise 10: Mengeksplorasi data hilang dengan scatter plot Exercise 11: Menggunakan facet untuk mengeksplorasi missingness Exercise 12: Memfaktakan untuk mengeksplorasi nilai hilang (banyak plot)

Dalam bab ini, Anda akan mempelajari tentang mengisi nilai yang hilang dalam data Anda, yang disebut imputasi. Anda akan mempelajari cara melakukan imputasi dan melacak nilai yang hilang, serta apa saja kelebihan dan kekurangan imputasi sehingga Anda dapat mengeksplorasi, memvisualisasikan, dan mengevaluasi data yang diimputasi terhadap nilai aslinya. Anda akan mempelajari cara menggunakan, mengevaluasi, dan membandingkan berbagai model imputasi, serta mengeksplorasi bagaimana model imputasi yang berbeda memengaruhi inferensi yang dapat Anda tarik dari model.

Exercise 1: Mengisi yang kosong Exercise 2: Imputasi data di bawah rentang dengan data nabular Exercise 3: Visualisasikan nilai imputasi dalam plot sebar Exercise 4: Buat histogram data hasil imputasi Exercise 5: Apa yang membuat imputasi menjadi baik Exercise 6: Mengevaluasi imputasi yang buruk Exercise 7: Mengevaluasi imputasi: Skala Exercise 8: Mengevaluasi imputasi: Pada banyak variabel Exercise 9: Melakukan imputasi Exercise 10: Menggunakan simputation untuk mengimputasi data Exercise 11: Mengevaluasi dan membandingkan imputasi Exercise 12: Mengevaluasi imputasi (banyak model & variabel)Exercise 13: Mengevaluasi imputasi dan model Exercise 14: Menggabungkan dan membandingkan banyak model imputasi Exercise 15: Mengevaluasi berbagai parameter dalam model Exercise 16: Pelajaran Terakhir