Pemeriksaan kualitas data
Seperti yang Anda pelajari di video sebelumnya, nilai hilang dapat menyebabkan hilangnya informasi berharga dan berpotensi menimbulkan interpretasi yang keliru. Demikian pula, keberadaan nilai yang belum pernah muncul juga dapat memengaruhi kepercayaan model Anda.
Pada latihan ini, tujuan Anda adalah menelusuri apakah himpunan data pemesanan hotel mengandung nilai hilang dan mengidentifikasi nilai yang belum pernah muncul. Himpunan data referensi dan analisis sudah dimuat, begitu juga dengan pustaka nannyml.
Sebagai pengingat singkat, jika Anda tidak ingat tipe kolom, Anda dapat dengan mudah menelusuri data menggunakan metode .head().
Latihan ini adalah bagian dari kursus
Pemantauan Machine Learning dengan Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Define analyzed columns
selected_columns = ['country', 'lead_time', 'parking_spaces', 'hotel']
# Intialize missing values calculator
ms_calc = ____.____(
____=____,
____=____,
timestamp_column_name='timestamp'
)
# Fit, calculate and plot the results
ms_calc.fit(reference)
ms_results = ms_calc.calculate(analysis)
ms_results.plot().show()