Remplir avec des valeurs factices

Tout comme vous avez cherché une relation entre valeurs manquantes d’une colonne à l’autre, il est également important d’examiner les relations entre valeurs manquantes et non manquantes entre colonnes. Cela vous aidera à identifier les facteurs expliquant la présence de données manquantes.

Sur la figure ci-dessus, vous pouvez observer que les valeurs manquantes de Serum Insulin sont réparties sur tout l’éventail des valeurs de BMI. Cela indique simplement qu’il n’y a pas de relation !

Dans cet exercice, vous allez écrire une fonction pour générer des valeurs factices afin de créer le nuage de points ci-dessus (dans l’exercice suivant). La génération de ces valeurs factices consiste à mettre à l’échelle des valeurs aléatoires sur l’intervalle d’une colonne à l’aide d’un facteur d’échelle, puis à les décaler.

La fonction rand() a été importée pour vous depuis numpy.random.

Cet exercice fait partie du cours

<cours>Gérer les données manquantes en Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

def fill_dummy_values(df):
  df_dummy = df.copy(deep=True)
  for col_name in df_dummy:
    col = df_dummy[col_name]
    # Calculate column range
    col_range = ___ - ___
  return df_dummy

Modifier et exécuter le code