kNN: kiat & trik II — mengurutkan variabel

Saat algoritma k-Nearest Neighbors melakukan iterasi atas variabel dalam data untuk mengimputasinya, algoritma menghitung jarak antarobservasi menggunakan variabel lain, sebagian di antaranya sudah diimputasi pada langkah sebelumnya. Artinya, jika variabel yang posisinya lebih awal dalam data memiliki banyak nilai hilang, maka perhitungan jarak berikutnya akan didasarkan pada banyak nilai hasil imputasi. Hal ini menambah derau pada perhitungan jarak.

Karena itu, praktik yang baik adalah mengurutkan variabel secara menaik berdasarkan jumlah nilai hilang sebelum melakukan imputasi kNN. Dengan cara ini, setiap perhitungan jarak didasarkan pada sebanyak mungkin data teramati dan sesedikit mungkin data terimputasi.

Mari kita coba pada data tao!

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Instruksi latihan

Hitung jumlah nilai hilang di setiap kolom tao pada bagian pertama pipeline.
Lalu, urutkan variabel secara menaik berdasarkan jumlah nilai hilang, ambil namanya, dan simpan hasilnya ke vars_by_NAs.
Gunakan select() untuk mengurutkan ulang variabel tao menggunakan urutan yang disimpan di vars_by_NAs.
Lakukan imputasi k-Nearest Neighbors pada data yang telah diurutkan ulang dan simpan hasilnya ke tao_imp.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Get tao variable names sorted by number of NAs
vars_by_NAs <- tao %>%
  ___ %>%
  colSums() %>%
  sort(decreasing = ___) %>% 
  names()

# Sort tao variables and feed it to kNN imputation
tao_imp <- tao %>% 
  select(___) %>% 
  ___()

tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	marginplot(delimiter = "imp")

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Di bab ini, Anda akan mengetahui mengapa data hilang dapat menjadi risiko saat menganalisis himpunan data. Anda akan diperkenalkan pada tiga mekanisme data hilang dan mempelajari cara mengenalinya menggunakan uji statistik dan alat visualisasi.

Exercise 1: Data hilang: apa saja yang bisa salah Exercise 2: Regresi linear dengan data tidak lengkap Exercise 3: Menganalisis keluaran regresi Exercise 4: Membandingkan model Exercise 5: Mekanisme data hilang Exercise 6: Mengenali mekanisme data hilang Exercise 7: uji t untuk MAR: persiapan data Exercise 8: uji t untuk MAR: interpretasi Exercise 9: Memvisualisasikan pola data hilang Exercise 10: Plot agregasi Exercise 11: Spine plot Exercise 12: Plot mosaik

Kenali taksonomi metode imputasi dan pelajari tiga teknik berbasis donor: imputasi rata-rata, hot-deck, dan k-Nearest-Neighbors. Anda akan melihat cara kerja metode-metode ini di balik layar, sebelum mempelajari cara menerapkannya pada himpunan data cuaca tropis dunia nyata. Sepanjang proses, Anda juga akan mempelajari kiat berguna yang dapat Anda gunakan untuk membuatnya bekerja lebih baik bagi permasalahan Anda.

Exercise 1: Imputasi mean Exercise 2: Mencium bahaya imputasi rata-rata Exercise 3: Imputasi rata-rata untuk temperatur Exercise 4: Menilai kualitas imputasi dengan margin plot Exercise 5: Imputasi hot-deck Exercise 6: Hot-deck standar Exercise 7: Trik & kiat hot-deck I: imputasi di dalam domain Exercise 8: Trik & kiat hot-deck II: mengurutkan berdasarkan variabel berkorelasi Exercise 9: Imputasi k-Nearest-Neighbors Exercise 10: Memilih jumlah tetangga Exercise 11: Trik & kiat kNN I: pembobotan donor Exercise 12: kNN: kiat & trik II — mengurutkan variabel

Latihan Saat Ini

Saatnya mempelajari cara menggunakan model statistik dan Machine Learning, seperti regresi linear, regresi logistik, dan random forest, untuk melakukan imputasi data hilang. Di bab ini, Anda akan menelaah bagaimana model membuat prediksinya dan menggunakan pengetahuan tersebut untuk mengambil nilai hasil imputasi dari sebaran bersyarat. Hal ini penting karena memastikan hasil imputasi Anda lebih beragam dan masuk akal, sehingga lebih menyerupai data sebenarnya.

Exercise 1: Pendekatan imputasi berbasis model Exercise 2: Imputasi regresi linear Exercise 3: Menginisialisasi nilai yang hilang & iterasi atas variabel Exercise 4: Mendeteksi konvergensi Exercise 5: Mereplikasi variabilitas data Exercise 6: Imputasi dengan regresi logistik Exercise 7: Mengambil sampel dari distribusi kondisional Exercise 8: Imputasi berbasis model dengan berbagai tipe variabel Exercise 9: Imputasi berbasis pohon Exercise 10: Imputasi dengan random forests Exercise 11: Kesalahan imputasi per variabel Exercise 12: Pertukaran kecepatan–akurasi

Nilai hasil imputasi bukanlah harga mati. Itu hanyalah taksiran, dan taksiran memiliki ketidakpastian. Di bab terakhir ini, Anda akan mempelajari bagaimana bootstrapping dan chained equations menggunakan paket mice dapat digunakan untuk memasukkan ketidakpastian imputasi ke dalam model dan analisis Anda agar lebih andal dan tangguh.

Exercise 1: Imputasi berganda dengan bootstrapping Exercise 2: Membungkus imputasi & pemodelan ke dalam sebuah fungsi Exercise 3: Menjalankan bootstrap Exercise 4: Interval kepercayaan dengan bootstrapping Exercise 5: Multiple imputation dengan persamaan berantai Exercise 6: Alur mice: mice - with - pool Exercise 7: Memilih model bawaan Exercise 8: Menggunakan matriks prediktor Exercise 9: Menggabungkan semuanya Exercise 10: Menganalisis pola data hilang Exercise 11: Mengimputasi dan memeriksa keluaran Exercise 12: Inferensi dengan data imputasi Exercise 13: Catatan penutup