Dimensionalità e informazione delle feature

Immagina di lavorare in una banca e di aver raccolto informazioni su diversi prestiti concessi a persone diverse. Il tuo capo vuole che tu inizi a esplorare la possibilità di usare questi dati per classificare i clienti in diverse categorie di punteggio di credito. Un campione dei dati disponibili è stato caricato in credit_df. Sei curioso di sapere quante feature contiene il dato. Vuoi anche identificare le feature che non saranno utili per classificare i clienti nelle diverse categorie di credito.

Il pacchetto tidyverse è già stato caricato per te.

Questo esercizio fa parte del corso

Riduzione della dimensionalità in R

Visualizza corso

Istruzioni dell'esercizio

Trova il numero di feature in credit_df.
Calcola la varianza di ciascuna feature in credit_df.
Identifica la feature con varianza zero e assegnala a column_to_remove.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Find the number of features
___ %>% ___()

# Compute each column variance
credit_df %>% 
  ___(___(___(), ~ ___(., na.rm = TRUE))) %>% 
  pivot_longer(everything(), names_to = "feature", values_to = "variance")

# Assign the zero-variance column
column_to_remove <- "___"

Modifica ed esegui il codice