Imputer les valeurs manquantes avec des percentiles
Dans cet exercice, vous allez continuer à vous entraîner à imputer des valeurs manquantes. Contrairement à l’exercice précédent, vous utiliserez ici des percentiles au lieu des moyennes pour effectuer les imputations. Les percentiles permettent d’obtenir des imputations prudentes. Imputer les valeurs manquantes d’une colonne à l’aide de percentiles implique les étapes suivantes :
- Supprimez les valeurs manquantes de la colonne concernée.
- Calculez ensuite, par exemple, le 70e percentile des nombres de la colonne dont vous venez de retirer les valeurs manquantes.
- La « pire valeur » au 70e percentile dépend de la colonne pour laquelle vous calculez le percentile :
- Par exemple, disposer d’un montant élevé d’actifs est une bonne chose ; un faible montant d’actifs est donc pire. La pire valeur au 70e percentile des actifs correspond en fait au 30e percentile des actifs.
- À l’inverse, un niveau élevé de passifs est défavorable. La pire valeur au 70e percentile des passifs est simplement son 70e percentile.
pandas a été importé sous l’alias pd et NumPy sous l’alias np. Un DataFrame pandas appelé dataset a été chargé pour vous. Il contient la colonne "Total Current Liabilities", qui comporte des valeurs manquantes.
Cet exercice fait partie du cours
<cours>Analyser les états financiers en Python</cours>Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Impute missing value with 70th percentile non-missing values of company
impute_by_company = ___
# Impute missing value with 70th percentile non-missing values of industry
impute_by_comp_type = ____
print(impute_by_company)
print(impute_by_comp_type)