ComenzarEmpieza gratis

Limpieza y mejora de datos

TechCorp está migrando a un nuevo sistema de RR. HH. El conjunto de datos necesita limpieza: elimina valores atípicos de sueldos bajos que indican errores de entrada, quita columnas que el nuevo sistema no usará y añade un campo de bonificación calculado. La limpieza de datos suele llevar el 80 % del tiempo de análisis; estas habilidades son esenciales.

Las clases Table, Selection y DoubleColumn ya se han importado por ti.

Este ejercicio forma parte del curso

Importación de datos en Java

Ver curso

Instrucciones del ejercicio

  • Elimina empleados con sueldos inferiores a 40.000 $.
  • Elimina la columna "JobTitle".
  • Añade la columna PerformanceBonus (5 % del sueldo).

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

public class DataExploration {
	public static void main(String[] args) {

        Table employees = Table.read().csv("employees.csv");

        // Remove employees with salaries below $40,000
        Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
        Table cleanedEmployees = employees.____(lowSalaries);

        // Remove the JobTitle column
        Table streamlined = cleanedEmployees.____("JobTitle");

        DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
            .map(salary -> salary * 0.05);
        performanceBonus.setName("PerformanceBonus");

        // Add the PerformanceBonus column
        Table enhancedEmployees = streamlined.____(performanceBonus);

        System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
        System.out.println("\nFirst 5 rows of enhanced dataset:");
        System.out.println(enhancedEmployees.first(5));
	}
}
Editar y ejecutar código