Bagaimana integritas data kita?
Data baru telah digabungkan ke dalam DataFrame banking yang memuat rincian tentang bagaimana investasi pada kolom inv_amount dialokasikan ke empat dana A, B, C, dan D.
Selain itu, usia dan tanggal lahir nasabah kini disimpan masing-masing pada kolom age dan birth_date.
Anda ingin memahami bagaimana nasabah dari kelompok usia berbeda berinvestasi. Namun, Anda ingin terlebih dahulu memastikan data yang Anda analisis benar. Anda akan melakukannya dengan memeriksa silang nilai inv_amount dan age terhadap jumlah yang diinvestasikan di berbagai dana serta tanggal lahir nasabah.
Baik pandas maupun datetime telah diimpor masing-masing sebagai pd dan dt.
Latihan ini adalah bagian dari kursus
Membersihkan Data di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Store fund columns to sum against
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']
# Find rows where fund_columns row sum == inv_amount
inv_equ = banking[____].____(____) == ____
# Store consistent and inconsistent data
consistent_inv = ____[____]
inconsistent_inv = ____[____]
# Store consistent and inconsistent data
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])