CommencerCommencer gratuitement

Imputer les valeurs manquantes avec des percentiles

Dans cet exercice, vous allez continuer à vous entraîner à imputer des valeurs manquantes. Contrairement à l’exercice précédent, vous utiliserez ici des percentiles au lieu des moyennes pour effectuer les imputations. Les percentiles permettent d’obtenir des imputations prudentes. Imputer les valeurs manquantes d’une colonne à l’aide de percentiles implique les étapes suivantes :

  • Supprimez les valeurs manquantes de la colonne concernée.
  • Calculez ensuite, par exemple, le 70e percentile des nombres de la colonne dont vous venez de retirer les valeurs manquantes.
  • La « pire valeur » au 70e percentile dépend de la colonne pour laquelle vous calculez le percentile :
    • Par exemple, disposer d’un montant élevé d’actifs est une bonne chose ; un faible montant d’actifs est donc pire. La pire valeur au 70e percentile des actifs correspond en fait au 30e percentile des actifs.
    • À l’inverse, un niveau élevé de passifs est défavorable. La pire valeur au 70e percentile des passifs est simplement son 70e percentile.

pandas a été importé sous l’alias pd et NumPy sous l’alias np. Un DataFrame pandas appelé dataset a été chargé pour vous. Il contient la colonne "Total Current Liabilities", qui comporte des valeurs manquantes.

Cet exercice fait partie du cours

Analyser les états financiers en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Impute missing value with 70th percentile non-missing values of company
impute_by_company = ___

# Impute missing value with 70th percentile non-missing values of industry
impute_by_comp_type = ____

print(impute_by_company)
print(impute_by_comp_type)
Modifier et exécuter le code