Saring data yang korup
Salah satu langkah berulang yang dapat Anda harapkan pada fase transformasi adalah membersihkan data yang tidak lengkap. Dalam latihan ini, Anda akan melihat data kursus dengan format berikut:
| course_id | title | description | programming_language |
|---|---|---|---|
| 1 | Some Course | … | r |
Anda akan memeriksa DataFrame ini dan memastikan tidak ada nilai yang hilang dengan menggunakan metode .isnull().sum() pada DataFrame pandas. Anda akan menemukan bahwa kolom programming_language memiliki beberapa nilai yang hilang.
Oleh karena itu, Anda akan melengkapi fungsi transform_fill_programming_language() dengan menggunakan metode .fillna() untuk mengisi nilai yang hilang.
Latihan ini adalah bagian dari kursus
Pengantar Data Engineering
Petunjuk latihan
- Cetak jumlah nilai yang hilang dalam
course_data. - Nilai yang hilang pada
programming_languageharus diisi dengan bahasa "R". - Cetak kembali jumlah nilai yang hilang per kolom, kali ini untuk
transformed.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
course_data = extract_course_data(db_engines)
# Print out the number of missing values per column
print(____.____().____())
# The transformation should fill in the missing values
def transform_fill_programming_language(course_data):
imputed = course_data.____({"programming_language": "____"})
return imputed
transformed = transform_fill_programming_language(course_data)
# Print out the number of missing values per column of transformed
print(____)