ComenzarEmpieza gratis

Dimensionalidad e información de las variables

Imagina que trabajas en un banco y has recopilado información sobre distintos préstamos concedidos a diferentes personas. Tu jefa quiere que empieces a explorar la posibilidad de usar estos datos para clasificar a los clientes en distintas categorías de puntuación crediticia. Se ha cargado una muestra de los datos disponibles en credit_df. Tienes curiosidad por saber cuántas variables tiene el conjunto de datos. También quieres identificar las variables que no serán útiles para clasificar a los clientes en diferentes categorías de crédito.

El paquete tidyverse ya está cargado.

Este ejercicio forma parte del curso

Reducción de la dimensionalidad en R

Ver curso

Instrucciones del ejercicio

  • Averigua el número de variables en credit_df.
  • Calcula la varianza de cada variable en credit_df.
  • Identifica la variable con varianza cero y asígnala a column_to_remove.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Find the number of features
___ %>% ___()

# Compute each column variance
credit_df %>% 
  ___(___(___(), ~ ___(., na.rm = TRUE))) %>% 
  pivot_longer(everything(), names_to = "feature", values_to = "variance")

# Assign the zero-variance column
column_to_remove <- "___"
Editar y ejecutar código