Datenbereinigung und -anreicherung
TechCorp wechselt auf ein neues HR-System. Der Datensatz muss bereinigt werden: Entferne Ausreißer mit sehr niedrigen Gehältern, die auf Tippfehler hindeuten, wirf Spalten weg, die das neue System nicht nutzt, und füge ein berechnetes Bonusfeld hinzu. Datenbereinigung nimmt typischerweise 80 % der Analysezeit ein – diese Skills sind essenziell.
Die Klassen Table, Selection und DoubleColumn wurden bereits für dich importiert.
Diese Übung ist Teil des Kurses
Daten in Java importieren
Anleitung zur Übung
- Entferne Mitarbeitende mit einem Gehalt unter 40.000 $.
- Entferne die Spalte
"JobTitle". - Füge die Spalte
PerformanceBonushinzu (5 % des Gehalts).
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
public class DataExploration {
public static void main(String[] args) {
Table employees = Table.read().csv("employees.csv");
// Remove employees with salaries below $40,000
Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
Table cleanedEmployees = employees.____(lowSalaries);
// Remove the JobTitle column
Table streamlined = cleanedEmployees.____("JobTitle");
DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
.map(salary -> salary * 0.05);
performanceBonus.setName("PerformanceBonus");
// Add the PerformanceBonus column
Table enhancedEmployees = streamlined.____(performanceBonus);
System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
System.out.println("\nFirst 5 rows of enhanced dataset:");
System.out.println(enhancedEmployees.first(5));
}
}