Preparare i dati dei dipendenti per un rilascio sicuro
Quando lavori con dati reali, devi assicurarti che non ci sia alcun modo di risalire o esporre le informazioni personali dei clienti o di altre persone. In questo esercizio userai una versione semplificata dell’insieme di dati IBM HR Analytics Employee per esercitarti con tecniche di soppressione e generalizzazione.
Per evitare di far trapelare informazioni sull’insieme di dati, sostituirai i nomi delle colonne con numeri.
Il DataFrame è caricato come hr, usa la console per esplorarlo. numpy è importato come np.
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1)
# Drop the rows with NaN values
df_cleaned = ____