Mengelompokkan variabel berdasarkan proporsi

Sering kali, Anda tidak memiliki level tertentu yang ingin diubah menjadi "lainnya" atau digabungkan. Alih-alih, Anda ingin mempertahankan level yang paling umum dan memasukkan sisanya ke dalam "other." Terutama ketika levelnya banyak dan sebagian besar jarang muncul, ini membantu untuk menampilkan data Anda. Mari kita coba menggunakan pertanyaan dari survei Kaggle tentang metode machine learning apa yang ingin dicoba orang tahun depan. multiple_choice_responses sudah dimuat untuk Anda. Saat menghitung, ingat bahwa sort = TRUE secara bawaan berarti urutan menurun.

Latihan ini merupakan bagian dari kursus

Data Kategorikal di Tidyverse

Instruksi latihan

Hapus responden yang tidak memilih metode.
Buat variabel baru, ml_method, dari MLMethodNextYearSelect yang mempertahankan judul yang dimiliki setidaknya 5% responden dan mengelompokkan sisanya sebagai "Other" (nilai bawaan).
Terakhir, hitung variabel baru Anda, diurutkan menurun.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

multiple_choice_responses %>%
  # Remove NAs of MLMethodNextYearSelect
  filter(___) %>%
  # Create ml_method, which lumps all those with less than 5% of people into "Other"
  mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
  # Count the frequency of your new variable, sorted in descending order
  ___(___, ___)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Data Kategorikal di Tidyverse

SkillTag.level.beginnerSkillTag.label

4.8+

Mulai Kursus Gratis

Di bab ini, Anda akan mempelajari semua hal tentang faktor. Anda akan menemukan perbedaan antara variabel kategorikal dan ordinal, bagaimana R merepresentasikannya, dan cara menginspeksinya untuk mengetahui jumlah serta nama level. Terakhir, Anda akan melihat bagaimana forcats, sebuah paket dalam tidyverse, dapat memperbaiki plot dengan memungkinkan Anda mengurutkan ulang variabel berdasarkan frekuensinya dengan cepat.

Exercise 1: Pengantar variabel kualitatif Exercise 2: Mengenali variabel faktor Exercise 3: Variabel kualitatif dalam teori Exercise 4: Memahami variabel kualitatif Anda Exercise 5: Mendapatkan jumlah level Exercise 6: Menelaah jumlah level Exercise 7: Menguji level Exercise 8: Membuat plot yang lebih baik Exercise 9: Mengurutkan variabel berdasarkan frekuensi Exercise 10: Mengurutkan satu variabel berdasarkan variabel lain

Anda akan melanjutkan pendalaman paket forcats, mempelajari cara mengubah urutan dan nama level, bahkan menggabungkannya satu sama lain.

Exercise 1: Mengurutkan ulang faktor Exercise 2: Mengubah urutan level faktor Exercise 3: Trik fct_relevel()Exercise 4: Mengganti nama level faktor Exercise 5: Membedakan fungsi-fungsi forcats Exercise 6: Mengganti nama beberapa level Exercise 7: Ketika Anda salah ketik Exercise 8: Menggabungkan level faktor Exercise 9: Menggabungkan level secara manual Exercise 10: Mengelompokkan variabel berdasarkan proporsi

Latihan Saat Ini

Exercise 11: Mempertahankan level yang paling umum

Setelah memahami forcats dengan baik, Anda akan meluaskan pembelajaran ke bagian tidyverse lainnya, mempelajari dan meninjau fungsi-fungsi dari dplyr, tidyr, dan stringr. Anda akan menyempurnakan grafik dengan ggplot2 dengan mengubah sumbu menjadi skala persentase, menyunting tata letak teks, dan lainnya.

Exercise 1: Menganalisis variabel bertema umum Exercise 2: Mengelompokkan dan mengubah bentuk kolom yang serupa Exercise 3: Meringkas data Exercise 4: Membuat plot awal Exercise 5: Trik ggplot2 Exercise 6: Menyunting teks plot Exercise 7: Mengurutkan grafik Exercise 8: Mengubah dan membuat variabel dengan case_when()Exercise 9: case_when() dengan satu variabel Exercise 10: case_when() dari beberapa kolom

Di bab terakhir ini, Anda akan menerapkan semua yang telah dipelajari dalam sebuah studi kasus. Anda akan mempelajari lebih lanjut cara bekerja dengan string dan meringkas data, lalu mereplikasi plot 538 berkualitas publikasi.

Exercise 1: Pengantar studi kasus Exercise 2: Mengubah karakter menjadi faktor Exercise 3: Merapikan data Exercise 4: Persiapan data dan regex Exercise 5: Membersihkan string Exercise 6: Dikotomisasi variabel Exercise 7: Meringkas data Exercise 8: Membuat ulang plot Exercise 9: Membuat plot awal Exercise 10: Memperbaiki label Exercise 11: Membalik tampilan Exercise 12: Menyelesaikan bagan Exercise 13: Ringkasan akhir kursus