Gegevens opschonen en verrijken
TechCorp stapt over op een nieuw HR-systeem. De gegevensset moet worden opgeschoond: verwijder laagbetaalde uitschieters die wijzen op invoerfouten, verwijder kolommen die het nieuwe systeem niet gebruikt, en voeg een berekende bonuskolom toe. Gegevens opschonen kost doorgaans 80% van de analysetijd—deze vaardigheden zijn dus essentieel.
De klassen Table, Selection en DoubleColumn zijn alvast voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Data importeren in Java
Oefeninstructies
- Verwijder medewerkers met een salaris onder $40.000.
- Verwijder de kolom
"JobTitle". - Voeg de kolom
PerformanceBonustoe (5% van het salaris).
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
public class DataExploration {
public static void main(String[] args) {
Table employees = Table.read().csv("employees.csv");
// Remove employees with salaries below $40,000
Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
Table cleanedEmployees = employees.____(lowSalaries);
// Remove the JobTitle column
Table streamlined = cleanedEmployees.____("JobTitle");
DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
.map(salary -> salary * 0.05);
performanceBonus.setName("PerformanceBonus");
// Add the PerformanceBonus column
Table enhancedEmployees = streamlined.____(performanceBonus);
System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
System.out.println("\nFirst 5 rows of enhanced dataset:");
System.out.println(enhancedEmployees.first(5));
}
}