LoslegenKostenlos loslegen

Datenbereinigung und -anreicherung

TechCorp wechselt auf ein neues HR-System. Der Datensatz muss bereinigt werden: Entferne Ausreißer mit sehr niedrigen Gehältern, die auf Tippfehler hindeuten, wirf Spalten weg, die das neue System nicht nutzt, und füge ein berechnetes Bonusfeld hinzu. Datenbereinigung nimmt typischerweise 80 % der Analysezeit ein – diese Skills sind essenziell.

Die Klassen Table, Selection und DoubleColumn wurden bereits für dich importiert.

Diese Übung ist Teil des Kurses

Daten in Java importieren

Kurs anzeigen

Anleitung zur Übung

  • Entferne Mitarbeitende mit einem Gehalt unter 40.000 $.
  • Entferne die Spalte "JobTitle".
  • Füge die Spalte PerformanceBonus hinzu (5 % des Gehalts).

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

public class DataExploration {
	public static void main(String[] args) {

        Table employees = Table.read().csv("employees.csv");

        // Remove employees with salaries below $40,000
        Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
        Table cleanedEmployees = employees.____(lowSalaries);

        // Remove the JobTitle column
        Table streamlined = cleanedEmployees.____("JobTitle");

        DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
            .map(salary -> salary * 0.05);
        performanceBonus.setName("PerformanceBonus");

        // Add the PerformanceBonus column
        Table enhancedEmployees = streamlined.____(performanceBonus);

        System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
        System.out.println("\nFirst 5 rows of enhanced dataset:");
        System.out.println(enhancedEmployees.first(5));
	}
}
Code bearbeiten und ausführen