Limpieza y mejora de datos
TechCorp está migrando a un nuevo sistema de RR. HH. El conjunto de datos necesita limpieza: elimina valores atípicos de sueldos bajos que indican errores de entrada, quita columnas que el nuevo sistema no usará y añade un campo de bonificación calculado. La limpieza de datos suele llevar el 80 % del tiempo de análisis; estas habilidades son esenciales.
Las clases Table, Selection y DoubleColumn ya se han importado por ti.
Este ejercicio forma parte del curso
Importación de datos en Java
Instrucciones del ejercicio
- Elimina empleados con sueldos inferiores a 40.000 $.
- Elimina la columna
"JobTitle". - Añade la columna
PerformanceBonus(5 % del sueldo).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
public class DataExploration {
public static void main(String[] args) {
Table employees = Table.read().csv("employees.csv");
// Remove employees with salaries below $40,000
Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
Table cleanedEmployees = employees.____(lowSalaries);
// Remove the JobTitle column
Table streamlined = cleanedEmployees.____("JobTitle");
DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
.map(salary -> salary * 0.05);
performanceBonus.setName("PerformanceBonus");
// Add the PerformanceBonus column
Table enhancedEmployees = streamlined.____(performanceBonus);
System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
System.out.println("\nFirst 5 rows of enhanced dataset:");
System.out.println(enhancedEmployees.first(5));
}
}