Nettoyage et enrichissement des données
TechCorp migre vers un nouveau système RH. Le jeu de données doit être nettoyé : supprimer les valeurs aberrantes de bas salaires qui indiquent des erreurs de saisie, retirer les colonnes que le nouveau système n’utilisera pas, et ajouter un champ de prime calculée. Le nettoyage des données représente généralement 80 % du temps d’analyse — ces compétences sont essentielles.
Les classes Table, Selection et DoubleColumn ont été importées pour vous.
Cet exercice fait partie du cours
Importer des données en Java
Instructions
- Supprimez les employés dont le salaire est inférieur à 40 000 $.
- Supprimez la colonne
"JobTitle". - Ajoutez la colonne
PerformanceBonus(5 % du salaire).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
public class DataExploration {
public static void main(String[] args) {
Table employees = Table.read().csv("employees.csv");
// Remove employees with salaries below $40,000
Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
Table cleanedEmployees = employees.____(lowSalaries);
// Remove the JobTitle column
Table streamlined = cleanedEmployees.____("JobTitle");
DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
.map(salary -> salary * 0.05);
performanceBonus.setName("PerformanceBonus");
// Add the PerformanceBonus column
Table enhancedEmployees = streamlined.____(performanceBonus);
System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
System.out.println("\nFirst 5 rows of enhanced dataset:");
System.out.println(enhancedEmployees.first(5));
}
}