IniziaInizia gratis

Pulizia e arricchimento dei dati

TechCorp sta migrando a un nuovo sistema HR. Il dataset va ripulito: rimuovi gli outlier con stipendi bassi che indicano errori di inserimento, elimina le colonne che il nuovo sistema non userà e aggiungi un campo bonus calcolato. La pulizia dei dati di solito occupa l’80% del tempo di analisi: queste competenze sono fondamentali.

Le classi Table, Selection e DoubleColumn sono già state importate per te.

Questo esercizio fa parte del corso

Importare dati in Java

Visualizza il corso

Istruzioni dell'esercizio

  • Rimuovi i dipendenti con stipendio inferiore a $40,000.
  • Rimuovi la colonna "JobTitle".
  • Aggiungi la colonna PerformanceBonus (5% dello stipendio).

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

public class DataExploration {
	public static void main(String[] args) {

        Table employees = Table.read().csv("employees.csv");

        // Remove employees with salaries below $40,000
        Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
        Table cleanedEmployees = employees.____(lowSalaries);

        // Remove the JobTitle column
        Table streamlined = cleanedEmployees.____("JobTitle");

        DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
            .map(salary -> salary * 0.05);
        performanceBonus.setName("PerformanceBonus");

        // Add the PerformanceBonus column
        Table enhancedEmployees = streamlined.____(performanceBonus);

        System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
        System.out.println("\nFirst 5 rows of enhanced dataset:");
        System.out.println(enhancedEmployees.first(5));
	}
}
Modifica ed esegui il codice