CommencerCommencer gratuitement

Préparer les données des employés pour une publication sécurisée

Lorsque vous travaillez avec des données réelles, vous devez vous assurer qu’aucune information personnelle de vos clients ou d’autres personnes ne puisse être retrouvée ou exposée. Dans cet exercice, vous utiliserez une version simplifiée du jeu de données IBM HR Analytics Employee pour vous entraîner aux techniques de suppression et de généralisation.

Pour éviter toute fuite d’informations sur le jeu de données, vous allez remplacer les noms de colonnes par des numéros.

Le DataFrame est chargé sous le nom hr. Utilisez la console pour l’explorer. numpy est importé sous le nom np.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1) 

# Drop the rows with NaN values
df_cleaned = ____
Modifier et exécuter le code