Limpeza e aprimoramento de dados
A TechCorp está migrando para um novo sistema de RH. O conjunto de dados precisa de limpeza: remova outliers de salários baixos que indicam erros de digitação, exclua colunas que o novo sistema não usará e adicione um campo de bônus calculado. A limpeza de dados normalmente consome 80% do tempo de análise — essas habilidades são essenciais.
As classes Table, Selection e DoubleColumn já foram importadas para você.
Este exercício faz parte do curso
Importando dados em Java
Instruções do exercício
- Remova colaboradores com salários abaixo de US$ 40.000.
- Remova a coluna
"JobTitle". - Adicione a coluna
PerformanceBonus(5% do salário).
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
public class DataExploration {
public static void main(String[] args) {
Table employees = Table.read().csv("employees.csv");
// Remove employees with salaries below $40,000
Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
Table cleanedEmployees = employees.____(lowSalaries);
// Remove the JobTitle column
Table streamlined = cleanedEmployees.____("JobTitle");
DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
.map(salary -> salary * 0.05);
performanceBonus.setName("PerformanceBonus");
// Add the PerformanceBonus column
Table enhancedEmployees = streamlined.____(performanceBonus);
System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
System.out.println("\nFirst 5 rows of enhanced dataset:");
System.out.println(enhancedEmployees.first(5));
}
}