Identifier les variables à standardiser
Dans cet exercice, vous allez examiner la variance de colonnes du jeu de données sur les observations d’OVNI afin de déterminer quelles variables doivent être standardisées. Après avoir observé les variances des colonnes seconds et minutes, vous verrez que la variance de seconds est extrêmement élevée. Comme seconds et minutes sont liées entre elles (un point que nous traiterons lors de la sélection des variables pour le modèle), appliquons une normalisation logarithmique à la colonne seconds.
Cet exercice fait partie du cours
Prétraitement pour le Machine Learning en Python
Instructions
- Calculez la variance des colonnes
secondsetminuteset examinez attentivement les résultats. - Effectuez une normalisation logarithmique sur la colonne
secondspour créer une nouvelle colonne nomméeseconds_log. - Affichez la variance de la colonne
seconds_log.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Check the variance of the seconds and minutes columns
print(____)
# Log normalize the seconds column
ufo["seconds_log"] = ____
# Print out the variance of just the seconds_log column
print(____)