Pembersihan dan peningkatan data
TechCorp sedang bermigrasi ke sistem HR baru. Himpunan data perlu dibersihkan: hapus pencilan bergaji rendah yang menunjukkan kesalahan entri data, buang kolom yang tidak akan digunakan oleh sistem baru, dan tambahkan kolom bonus hasil perhitungan. Pembersihan data biasanya memakan 80% waktu analisis—kemampuan ini sangat penting.
Kelas Table, Selection, dan DoubleColumn telah diimpor untuk Anda.
Latihan ini adalah bagian dari kursus
Mengimpor Data di Java
Petunjuk latihan
- Hapus karyawan dengan gaji di bawah $40.000.
- Hapus kolom
"JobTitle". - Tambahkan kolom
PerformanceBonus(5% dari gaji).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
public class DataExploration {
public static void main(String[] args) {
Table employees = Table.read().csv("employees.csv");
// Remove employees with salaries below $40,000
Selection lowSalaries = employees.intColumn("Salary").isLessThan(____);
Table cleanedEmployees = employees.____(lowSalaries);
// Remove the JobTitle column
Table streamlined = cleanedEmployees.____("JobTitle");
DoubleColumn performanceBonus = streamlined.intColumn("Salary").asDoubleColumn()
.map(salary -> salary * 0.05);
performanceBonus.setName("PerformanceBonus");
// Add the PerformanceBonus column
Table enhancedEmployees = streamlined.____(performanceBonus);
System.out.println("Total employees after cleaning: " + enhancedEmployees.rowCount());
System.out.println("\nFirst 5 rows of enhanced dataset:");
System.out.println(enhancedEmployees.first(5));
}
}