ComeçarComece de graça

Limpeza e aprimoramento de dados

A TechCorp está migrando para um novo sistema de RH. O conjunto de dados precisa de limpeza: remova outliers de salários baixos que indicam erros de digitação, exclua colunas que o novo sistema não usará e adicione um campo de bônus calculado. A limpeza de dados normalmente consome 80% do tempo de análise — essas habilidades são essenciais.

As classes Table, Selection e DoubleColumn já foram importadas para você.

Este exercício faz parte do curso

Importando dados em Java

Ver curso

Instruções do exercício

  • Remova colaboradores com salários abaixo de US$ 40.000.
  • Remova a coluna "JobTitle".
  • Adicione a coluna PerformanceBonus (5% do salário).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

public class DataExploration {
	public static void main(String[] args) {

        Table employees = Table.read().csv("employees.csv");

        // Remove employees with salaries below $40,000
        Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
        Table cleanedEmployees = employees.____(lowSalaries);

        // Remove the JobTitle column
        Table streamlined = cleanedEmployees.____("JobTitle");

        DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
            .map(salary -> salary * 0.05);
        performanceBonus.setName("PerformanceBonus");

        // Add the PerformanceBonus column
        Table enhancedEmployees = streamlined.____(performanceBonus);

        System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
        System.out.println("\nFirst 5 rows of enhanced dataset:");
        System.out.println(enhancedEmployees.first(5));
	}
}
Editar e executar o código