Filtrado y análisis avanzados
TechCorp quiere identificar a personas con alto potencial para programas de liderazgo: personas jóvenes (menores de 30) que ya ganan sueldos de nivel Mid o Senior. Para ello, hay que eliminar valores atípicos, crear categorías salariales a partir de datos numéricos y combinar varias condiciones de filtrado. Estas técnicas permiten responder a preguntas de negocio reales que los filtros simples no pueden resolver.
Las clases Table, Selection y StringColumn ya se han importado por ti.
Este ejercicio forma parte del curso
Importación de datos en Java
Instrucciones del ejercicio
- Elimina valores atípicos (salary < $40K o > $250K).
- Cuenta las filas eliminadas tras el filtrado.
- Asocia los salarios a las categorías
"Junior","Mid"y"Senior". - Filtra por categorías
"Mid"/"Senior"con edad inferior a 30.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
public class DataExploration {
public static void main(String[] args) {
// Start with the high earners table from previous exercises
Table employees = Table.read().csv("employees.csv");
// Remove outliers (salary < $40K or > $250K)
Selection outliers = employees.intColumn("Salary").isLessThan(____)
.or(employees.intColumn("Salary").isGreaterThan(____));
Table cleanedData = employees.____(outliers);
// Count rows removed after filtering
System.out.println("Employees after removing outliers: " + (employees.____() - cleanedData.____()));
// Map salaries to Junior, Mid, and Senior grades
StringColumn salaryGroup = cleanedData.intColumn("Salary").map(
salary -> {
if (salary < 100000) return "____";
else if (salary < 200000) return "Mid";
else if (salary >= 200000) return "____";
else return "Error";
},StringColumn::create).setName("SalaryGrade");
cleanedData = cleanedData.addColumns(salaryGroup);
// Filter for Mid/Senior grades under age 30
Selection highPotential = cleanedData.stringColumn("____")
.isEqualTo("Mid")
.or(cleanedData.stringColumn("SalaryGrade").isEqualTo("Senior"))
.and(cleanedData.intColumn("____").isLessThan(30));
Table highPotentialEmployees = cleanedData.where(____);
System.out.println(highPotentialEmployees.rowCount());
System.out.println(highPotentialEmployees.first(5));
}
}