Pulizia e arricchimento dei dati
TechCorp sta migrando a un nuovo sistema HR. Il dataset va ripulito: rimuovi gli outlier con stipendi bassi che indicano errori di inserimento, elimina le colonne che il nuovo sistema non userà e aggiungi un campo bonus calcolato. La pulizia dei dati di solito occupa l’80% del tempo di analisi: queste competenze sono fondamentali.
Le classi Table, Selection e DoubleColumn sono già state importate per te.
Questo esercizio fa parte del corso
Importare dati in Java
Istruzioni dell'esercizio
- Rimuovi i dipendenti con stipendio inferiore a $40,000.
- Rimuovi la colonna
"JobTitle". - Aggiungi la colonna
PerformanceBonus(5% dello stipendio).
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
public class DataExploration {
public static void main(String[] args) {
Table employees = Table.read().csv("employees.csv");
// Remove employees with salaries below $40,000
Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
Table cleanedEmployees = employees.____(lowSalaries);
// Remove the JobTitle column
Table streamlined = cleanedEmployees.____("JobTitle");
DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
.map(salary -> salary * 0.05);
performanceBonus.setName("PerformanceBonus");
// Add the PerformanceBonus column
Table enhancedEmployees = streamlined.____(performanceBonus);
System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
System.out.println("\nFirst 5 rows of enhanced dataset:");
System.out.println(enhancedEmployees.first(5));
}
}