CommencerCommencez gratuitement

Imputer les valeurs manquantes avec des percentiles

Dans cet exercice, vous allez continuer à vous entraîner à imputer des valeurs manquantes. Contrairement à l’exercice précédent, vous utiliserez ici des percentiles au lieu des moyennes pour effectuer les imputations. Les percentiles permettent d’obtenir des imputations prudentes. Imputer les valeurs manquantes d’une colonne à l’aide de percentiles implique les étapes suivantes :

  • Supprimez les valeurs manquantes de la colonne concernée.
  • Calculez ensuite, par exemple, le 70e percentile des nombres de la colonne dont vous venez de retirer les valeurs manquantes.
  • La « pire valeur » au 70e percentile dépend de la colonne pour laquelle vous calculez le percentile :
    • Par exemple, disposer d’un montant élevé d’actifs est une bonne chose ; un faible montant d’actifs est donc pire. La pire valeur au 70e percentile des actifs correspond en fait au 30e percentile des actifs.
    • À l’inverse, un niveau élevé de passifs est défavorable. La pire valeur au 70e percentile des passifs est simplement son 70e percentile.

pandas a été importé sous l’alias pd et NumPy sous l’alias np. Un DataFrame pandas appelé dataset a été chargé pour vous. Il contient la colonne "Total Current Liabilities", qui comporte des valeurs manquantes.

Cet exercice fait partie du cours

<cours>Analyser les états financiers en Python</cours>
Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Impute missing value with 70th percentile non-missing values of company
impute_by_company = ___

# Impute missing value with 70th percentile non-missing values of industry
impute_by_comp_type = ____

print(impute_by_company)
print(impute_by_comp_type)
Modifier et exécuter le code