CommencerCommencer gratuitement

Remplir avec des valeurs factices

Tout comme vous avez cherché une relation entre valeurs manquantes d’une colonne à l’autre, il est également important d’examiner les relations entre valeurs manquantes et non manquantes entre colonnes. Cela vous aidera à identifier les facteurs expliquant la présence de données manquantes.

BMI vs Serum Insulin

Sur la figure ci-dessus, vous pouvez observer que les valeurs manquantes de Serum Insulin sont réparties sur tout l’éventail des valeurs de BMI. Cela indique simplement qu’il n’y a pas de relation !

Dans cet exercice, vous allez écrire une fonction pour générer des valeurs factices afin de créer le nuage de points ci-dessus (dans l’exercice suivant). La génération de ces valeurs factices consiste à mettre à l’échelle des valeurs aléatoires sur l’intervalle d’une colonne à l’aide d’un facteur d’échelle, puis à les décaler.

La fonction rand() a été importée pour vous depuis numpy.random.

Cet exercice fait partie du cours

Gérer les données manquantes en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def fill_dummy_values(df):
  df_dummy = df.copy(deep=True)
  for col_name in df_dummy:
    col = df_dummy[col_name]
    # Calculate column range
    col_range = ___ - ___
  return df_dummy
Modifier et exécuter le code