Gegevens opschonen en verrijken
TechCorp stapt over op een nieuw HR-systeem. De gegevensset moet worden opgeschoond: verwijder laagbetaalde uitschieters die wijzen op invoerfouten, verwijder kolommen die het nieuwe systeem niet gebruikt, en voeg een berekende bonuskolom toe. Gegevens opschonen kost doorgaans 80% van de analysetijd—deze vaardigheden zijn dus essentieel.
De klassen Table, Selection en DoubleColumn zijn alvast voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Data importeren in Java
Oefeninstructies
- Verwijder medewerkers met een salaris onder $40.000.
- Verwijder de kolom
"JobTitle". - Voeg de kolom
PerformanceBonustoe (5% van het salaris).
Interactieve oefening met praktijkervaring
Probeer deze oefening door deze voorbeeldcode aan te vullen.
public class DataExploration {
public static void main(String[] args) {
Table employees = Table.read().csv("employees.csv");
// Remove employees with salaries below $40,000
Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
Table cleanedEmployees = employees.____(lowSalaries);
// Remove the JobTitle column
Table streamlined = cleanedEmployees.____("JobTitle");
DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
.map(salary -> salary * 0.05);
performanceBonus.setName("PerformanceBonus");
// Add the PerformanceBonus column
Table enhancedEmployees = streamlined.____(performanceBonus);
System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
System.out.println("\nFirst 5 rows of enhanced dataset:");
System.out.println(enhancedEmployees.first(5));
}
}