Remplir avec des valeurs factices
Tout comme vous avez cherché une relation entre valeurs manquantes d’une colonne à l’autre, il est également important d’examiner les relations entre valeurs manquantes et non manquantes entre colonnes. Cela vous aidera à identifier les facteurs expliquant la présence de données manquantes.
Sur la figure ci-dessus, vous pouvez observer que les valeurs manquantes de Serum Insulin sont réparties sur tout l’éventail des valeurs de BMI. Cela indique simplement qu’il n’y a pas de relation !
Dans cet exercice, vous allez écrire une fonction pour générer des valeurs factices afin de créer le nuage de points ci-dessus (dans l’exercice suivant). La génération de ces valeurs factices consiste à mettre à l’échelle des valeurs aléatoires sur l’intervalle d’une colonne à l’aide d’un facteur d’échelle, puis à les décaler.
La fonction rand() a été importée pour vous depuis numpy.random.
Cet exercice fait partie du cours
Gérer les données manquantes en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def fill_dummy_values(df):
df_dummy = df.copy(deep=True)
for col_name in df_dummy:
col = df_dummy[col_name]
# Calculate column range
col_range = ___ - ___
return df_dummy