Dimensionalidad e información de las variables
Imagina que trabajas en un banco y has recopilado información sobre distintos préstamos concedidos a diferentes personas. Tu jefa quiere que empieces a explorar la posibilidad de usar estos datos para clasificar a los clientes en distintas categorías de puntuación crediticia. Se ha cargado una muestra de los datos disponibles en credit_df. Tienes curiosidad por saber cuántas variables tiene el conjunto de datos. También quieres identificar las variables que no serán útiles para clasificar a los clientes en diferentes categorías de crédito.
El paquete tidyverse ya está cargado.
Este ejercicio forma parte del curso
Reducción de la dimensionalidad en R
Instrucciones del ejercicio
- Averigua el número de variables en
credit_df. - Calcula la varianza de cada variable en
credit_df. - Identifica la variable con varianza cero y asígnala a
column_to_remove.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Find the number of features
___ %>% ___()
# Compute each column variance
credit_df %>%
___(___(___(), ~ ___(., na.rm = TRUE))) %>%
pivot_longer(everything(), names_to = "feature", values_to = "variance")
# Assign the zero-variance column
column_to_remove <- "___"