Dimensionaliteit en feature-informatie

Stel, je werkt bij een bank en je hebt informatie verzameld over verschillende leningen die aan verschillende mensen zijn verstrekt. Je baas wil dat je gaat verkennen of je deze gegevens kunt gebruiken om klanten in te delen in verschillende categorieën van kredietscore. Een steekproef van de beschikbare gegevens is geladen in credit_df. Je bent benieuwd hoeveel features de data heeft. Je wilt ook features identificeren die niet nuttig zijn om klanten in verschillende kredietcategorieën in te delen.

Het pakket tidyverse is voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Bekijk cursus

Oefeninstructies

Bepaal het aantal features in credit_df.
Bereken de variantie van elke feature in credit_df.
Identificeer de feature met variantie nul en wijs deze toe aan column_to_remove.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Find the number of features
___ %>% ___()

# Compute each column variance
credit_df %>% 
  ___(___(___(), ~ ___(., na.rm = TRUE))) %>% 
  pivot_longer(everything(), names_to = "feature", values_to = "variance")

# Assign the zero-variance column
column_to_remove <- "___"

Code bewerken en uitvoeren