CommencerCommencer gratuitement

Identifier les variables à standardiser

Dans cet exercice, vous allez examiner la variance de colonnes du jeu de données sur les observations d’OVNI afin de déterminer quelles variables doivent être standardisées. Après avoir observé les variances des colonnes seconds et minutes, vous verrez que la variance de seconds est extrêmement élevée. Comme seconds et minutes sont liées entre elles (un point que nous traiterons lors de la sélection des variables pour le modèle), appliquons une normalisation logarithmique à la colonne seconds.

Cet exercice fait partie du cours

Prétraitement pour le Machine Learning en Python

Afficher le cours

Instructions

  • Calculez la variance des colonnes seconds et minutes et examinez attentivement les résultats.
  • Effectuez une normalisation logarithmique sur la colonne seconds pour créer une nouvelle colonne nommée seconds_log.
  • Affichez la variance de la colonne seconds_log.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Check the variance of the seconds and minutes columns
print(____)

# Log normalize the seconds column
ufo["seconds_log"] = ____

# Print out the variance of just the seconds_log column
print(____)
Modifier et exécuter le code