Remplir avec des valeurs factices
Tout comme vous avez cherché une relation entre valeurs manquantes d’une colonne à l’autre, il est également important d’examiner les relations entre valeurs manquantes et non manquantes entre colonnes. Cela vous aidera à identifier les facteurs expliquant la présence de données manquantes.
Sur la figure ci-dessus, vous pouvez observer que les valeurs manquantes de Serum Insulin sont réparties sur tout l’éventail des valeurs de BMI. Cela indique simplement qu’il n’y a pas de relation !
Dans cet exercice, vous allez écrire une fonction pour générer des valeurs factices afin de créer le nuage de points ci-dessus (dans l’exercice suivant). La génération de ces valeurs factices consiste à mettre à l’échelle des valeurs aléatoires sur l’intervalle d’une colonne à l’aide d’un facteur d’échelle, puis à les décaler.
La fonction rand() a été importée pour vous depuis numpy.random.
Cet exercice fait partie du cours
<cours>Gérer les données manquantes en Python</cours>Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
def fill_dummy_values(df):
df_dummy = df.copy(deep=True)
for col_name in df_dummy:
col = df_dummy[col_name]
# Calculate column range
col_range = ___ - ___
return df_dummy