Aan de slagGa gratis aan de slag

Gegevens opschonen en verrijken

TechCorp stapt over op een nieuw HR-systeem. De gegevensset moet worden opgeschoond: verwijder laagbetaalde uitschieters die wijzen op invoerfouten, verwijder kolommen die het nieuwe systeem niet gebruikt, en voeg een berekende bonuskolom toe. Gegevens opschonen kost doorgaans 80% van de analysetijd—deze vaardigheden zijn dus essentieel.

De klassen Table, Selection en DoubleColumn zijn alvast voor je geïmporteerd.

Deze oefening maakt deel uit van de cursus

Data importeren in Java

Cursus bekijken

Oefeninstructies

  • Verwijder medewerkers met een salaris onder $40.000.
  • Verwijder de kolom "JobTitle".
  • Voeg de kolom PerformanceBonus toe (5% van het salaris).

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

public class DataExploration {
	public static void main(String[] args) {

        Table employees = Table.read().csv("employees.csv");

        // Remove employees with salaries below $40,000
        Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
        Table cleanedEmployees = employees.____(lowSalaries);

        // Remove the JobTitle column
        Table streamlined = cleanedEmployees.____("JobTitle");

        DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
            .map(salary -> salary * 0.05);
        performanceBonus.setName("PerformanceBonus");

        // Add the PerformanceBonus column
        Table enhancedEmployees = streamlined.____(performanceBonus);

        System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
        System.out.println("\nFirst 5 rows of enhanced dataset:");
        System.out.println(enhancedEmployees.first(5));
	}
}
Code bewerken en uitvoeren