Crea un filtro por proporción de valores ausentes
El data frame house_sales_df contiene una variable objetivo price y varios predictores que describen casas individuales y determinan su precio de venta. Varias de las características tienen un número variable de valores ausentes. Si la proporción de valores ausentes es demasiado alta, la característica no será muy informativa para predecir el precio de la casa. Estas características se pueden eliminar. En este ejercicio, calcularás la proporción de valores ausentes para cada columna. Esto te ayudará a pensar en un umbral apropiado para cada columna.
El paquete tidyverse ya está cargado.
Este ejercicio forma parte del curso
Reducción de la dimensionalidad en R
Instrucciones del ejercicio
- Guarda el número total de filas de
house_sales_dfenn. - Calcula las proporciones de valores ausentes para cada columna de
house_sales_dfy guárdalas enmissing_vals_df.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Calculate total rows
___ <- ___(___)
# Calculate missing value ratios
___ <- ___ %>%
___(___(___(), ~ ___(___(.)))) %>%
pivot_longer(everything(), names_to = "feature", values_to = "num_missing_values") %>%
mutate(missing_val_ratio = ___ / ___)
# Display missing value ratios
missing_vals_df