CommencerCommencer gratuitement

Nettoyage et enrichissement des données

TechCorp migre vers un nouveau système RH. Le jeu de données doit être nettoyé : supprimer les valeurs aberrantes de bas salaires qui indiquent des erreurs de saisie, retirer les colonnes que le nouveau système n’utilisera pas, et ajouter un champ de prime calculée. Le nettoyage des données représente généralement 80 % du temps d’analyse — ces compétences sont essentielles.

Les classes Table, Selection et DoubleColumn ont été importées pour vous.

Cet exercice fait partie du cours

Importer des données en Java

Afficher le cours

Instructions

  • Supprimez les employés dont le salaire est inférieur à 40 000 $.
  • Supprimez la colonne "JobTitle".
  • Ajoutez la colonne PerformanceBonus (5 % du salaire).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

public class DataExploration {
	public static void main(String[] args) {

        Table employees = Table.read().csv("employees.csv");

        // Remove employees with salaries below $40,000
        Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
        Table cleanedEmployees = employees.____(lowSalaries);

        // Remove the JobTitle column
        Table streamlined = cleanedEmployees.____("JobTitle");

        DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
            .map(salary -> salary * 0.05);
        performanceBonus.setName("PerformanceBonus");

        // Add the PerformanceBonus column
        Table enhancedEmployees = streamlined.____(performanceBonus);

        System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
        System.out.println("\nFirst 5 rows of enhanced dataset:");
        System.out.println(enhancedEmployees.first(5));
	}
}
Modifier et exécuter le code